发布信息

一种基于保守激进协同学习的图像半监督语义分割方法与流程

作者:admin      2022-07-30 21:20:48     548



计算;推算;计数设备的制造及其应用技术1.本发明涉及计算机视觉技术领域,尤其涉及一种基于保守激进协同学习的图像半监督语义分割方法。背景技术:2.图像语义分割是重要的计算机视觉问题,也是一种被广泛应用于智能系统环境感知的关键性基础技术,得益于深度监督学习的有效应用,目前先进的方法在有充足的像素级带标签数据可用于监督训练的情况下,可以达到良好的图像语义分割效果,能满足使用需求,而一旦带标签数据量不足时,模型预测的语义分割效果便欠佳,也即模型的效果很大程度上受到带标签数据量的制约,同时,目前像素级带标签数据的标注过程是相当耗时的,且成本较高,例如,对于高分辨率的城市道路场景图片,人工标注一张像素级样本的时长通常超过1.5小时,是区域级和图像级标注过程的15倍和60倍。因此,近年来大量研究工作着眼于:仅依托少量带标签数据,同时利用大量的无标签数据,以较小的标注成本达到较优的模型训练效果。由于该类研究具有显著的降本增效优势,因而倍受学术界和工业界关注,是近年来重要的计算机视觉研究方向和工程问题。3.为达到利用大规模无标签数据的目标,近年来有很多面向图像语义分割的半监督学习方法被提出。基于最小化熵思想的方法期望模型在无标签数据上的预测结果具有较小的熵,也即模型能生成明确确定的预测结果。自训练(self-training)是这类方法的典型代表,它首先利用带标签数据进行监督性训练,然后通过训练得到的模型生成无标签数据的伪标签,再利用无标签数据和相应的伪标签对模型进行伪监督训练,实现进一步训练优化。基于一致性约束思想的方法致力于使得模型在面对多种扰动时仍可以保持预测结果的一致性,常见的扰动包括输入扰动(向输入图片的引入噪声或进行裁剪等图像变换)、特征扰动和网络模型扰动(如采用多分支模型或使用dropout技术)。这类方法的效果很大程度上依赖于其所选择的扰动方式。值得注意的是,上述两类方法在实现时都基于伪监督,而伪监督标签由于生成自模型,其自身也不可避免地存在错误。针对该问题,一些近期的方法以模型的预测置信度作为标志对伪标签进行阈值筛选,但同时这也意味着数据的浪费,大比例的无标签数据将被筛出废弃,与利用大规模无标签数据的目标相左。这些方法总是受到质量和数量之前权衡问题的困扰。除预测置信度以外,多个预测结果之间的共识度是另一个标志。一些互学习(matual learning)方法基于此实现伪监督的生成或优化。老师-学生(teacher-student,t-s)和学生-学生(student-student,s-s)是两种典型的互学习模式。t-s中两个模型的不平等性可能会导致学生模型的优化方向错误和发展限制,而两个在s-s模式下训练的模型有潜在的模型耦合(model coupling)问题。4.考虑到上述限制与不足,本发明针对已有方法的伪标签高质量与大数量不可兼得的关键性问题和实际使用需求,提出了一种基于保守激进协同学习的图像半监督语义分割方法。该方法同时训练两个分支,一个分支是保守的,利用高质量伪标签基于交集伪监督进行训练;另一个分支是激进的,利用大数量伪标签在并集伪监督下进行探索。两个分支使用异质知识(heterogeneous knowledge)进行伪监督训练,可以改善模型耦合问题。该方法实现了对大量无标签数据的有效高效利用,达到了保守进化和激进探索之间的协同,有助于智能系统环境感知模型训练的降本增效。其语义分割效果好,鲁棒性好,仅使用少量带标签数据即可达到有较高标注成本的监督方法的同等语义分割效果,具有较高的应用价值。技术实现要素:5.为了解决上述背景技术中所提到的技术问题,而提出的一种基于保守激进协同学习的图像半监督语义分割方法。6.为了实现上述目的,本发明提出了一种基于保守激进协同学习的图像半监督语义分割方法,包括以下步骤:7.步骤s1,对于有标签数据采用传统监督训练方法训练图像语义分割模型;8.步骤s2,对于无标签数据采用本发明提出的保守激进协同学习方法进行模型的半监督训练。9.所述保守激进协同学习方法同时训练两个平行的图像语义分割分支,伪标签基于两个分支的预测结果的共识与分歧情况生成。其中,一个分支用于保守进化,另一个分支用于激进探索。保守分支采用本发明提出的交集伪监督(intersection pseudo supervision)进行训练,通过使用高质量的伪标签达到可靠性高的伪监督训练。激进分支采用本发明提出的并集伪监督(union pseudo supervision)进行训练,通过使用由两分支预测结果并集生成的伪标签达到对分歧部分探索的目的。10.所述两个平行的图像语义分割分支采用相同的网络结构,但采用不同的初始化参数。训练时,同时输入两张无标签图像数据x1和x2,并利用上述两张图像基于强数据增强方法生成一张合成图像xs。具体地,以保守分支为例,将上述三张图像输入保守分支语义分割网络输出相应的三张语义分割预测结果输出相应的三张语义分割预测结果和ycs。[0011][0012][0013][0014]对于输出和采用与输入同样的数据增强方式得到对应的合成预测结果ycw。类似地,对于激进分支可以得到相应的预测结果和yps,以及对应的合成预测结果ypw。与其他发明直接基于上述结果进行交叉伪监督(如使用保守分支的合成预测结果对输入激进分支的合成图像的预测结果进行监督对输入激进分支的合成图像的预测结果进行监督和激进分支的合成预测结果对输入保守分支的合成图像的预测结果进行监督)不同,本发明提出新的像素级伪标签生成方法,对ycw和ypw进行进一步运算操作以得到伪标签。[0015]所述像素级伪标签生成方法是基于两个分支预测结果的共识与分歧情况的。对于像素pi,如果ycw中对应的预测结果和ypw中相应的结果相同,则两个分支在像素pi处达成共识,否则两分支在pi处产生分歧。[0016][0017]其中是ycw在像素pi处的预测结果,是ypw中对应的预测结果。所述像素级伪标签生成方法包含两部分:交集伪标签linter和并集伪标签lunion。其中,交集伪标签仅基于共识部分生成,对于像素pi,若两分支达成共识,则该像素对应的交集伪标签即为该像素处的预测结果。[0018][0019]其中是共识部分伪标签la在像素pi处的值,交集伪标签linter直接由共识部分伪标签生成。[0020]所述并集伪标签由上述共识部分伪标签la和分歧部分伪标签ld共同确定。由于分歧部分两个分支的预测结果相异,伪标签确定方法相对复杂,本发明未使用常见的基于预测置信度阈值的确定方法,而是提出了基于类别分歧度指标(class-wise disagreement indicator)的伪标签确定方法。基于预测置信度阈值的确定方法仅着眼于当前像素处的预测值,具有一定程度的局限性,本发明从相对宏观的角度,在类别层面上基于整个预测结果进行决策。具体地,所述基于类别分歧度指标的伪标签确定方法包含以下步骤:[0021]步骤a1,基于两分支预测结果构建共识度矩阵其中c是语义类别个数。所述共识度矩阵m中的具体元素值mj,k为同一像素在ycw中预测为类别cj而在ypw中预测为类别ck的像素个数。[0022]步骤a2,基于共识度矩阵m计算类别分歧度指标i。其中,对于类别j,其对应的类别分歧度指标为ij,[0023][0024]其中j∈[1,c]是语义类别下标。[0025]步骤a3,基于类别分歧度指标i确定像素pi处的伪标签[0026][0027]通过上述基于类别分歧度指标的伪标签确定方法可以实现对分歧部分伪标签ld的确定,并集伪标签lunion由共识部分伪标签la和分歧部分伪标签ld共同构成。[0028]lunion=la∪ld[0029]在所述保守激进协同学习中,保守分支在交集伪标签的伪监督下进行训练,激进分支在并集伪标签的伪监督下进行训练。[0030][0031][0032]所述保守激进协同学习方法中的两个平行的图像语义分割分支在训练时基于“求同存异”的思想,达到了保守进化和激进探索的协同。[0033]考虑到噪声伪标签是难以避免的,也即自动生成的伪标签中总会存在错误标签,本发明进一步提出基于预测置信度的自适应动态损失函数以应对可信度低的伪标签。所述损失函数基于预测置信度对损失函数进行重加权,相比常见的基于预测置信度的阈值区分,本方法无需预定义阈值,且可以更为充分地利用无标签数据。保守分支中像素pi的预测置信度定义为类似地,激进分支中像素pi的预测置信度被定义为进而基于预测置信度的动态权重可被定义为[0034][0035]通过该动态权重,不确定性强的伪标签产生的影响被有效降低。基于此的动态重加权损失函数可被定义为[0036][0037]其中和是在像素pi处linter和lunion对应的伪标签,是输入xs经过图像语义分割网络输出的预测结果在像素pi处的预测值,ce(·)是交叉熵损失函数。[0038]上述基于预测置信度的自适应动态损失函数在本发明中用于无标签数据的伪监督训练,而对于有标签数据,语义分割网络采用传统的监督训练方法,使用交叉熵损失函数进行训练。[0039][0040]其中xl∈dl表示有标签数据,g是对应的标签。在进行基于保守激进协同学习的图像半监督语义分割训练的过程中,最终的训练目标由上述两部分损失函数共同组成,[0041][0042]其中γ为权重值。[0043]综上所述,由于采用了上述技术方案,本发明的有益效果是:[0044]本发明中,通过使用基于保守激进协同学习的图像半监督语义分割方法,训练的语义分割模型可以有效且高效地利用大量的无标签数据,通过基于“求同存异”的思想的半监督方式达到保守进化和激进探索之间的协同。本发明在使用同等数量的有标签数据时,可以通过使用大量无标签数据有效提升模型的图像语义分割效果;为达到同等语义分割效果,本发明对有标签数据的需求量大幅度降低,有助于智能系统环境感知模型训练的降本增效,具有较高的实际工程应用价值。附图说明[0045]图1示出了根据本发明实施例提供的一种基于保守激进协同学习的图像半监督语义分割方法的保守激进协同学习方法框架示意图;[0046]图2示出了根据本发明实施例提供的一种基于保守激进协同学习的图像半监督语义分割方法的共识度矩阵示意图。具体实施方式[0047]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。[0048]请参阅图1-2,本发明提供一种技术方案:本发明的一种基于保守激进协同学习的图像半监督语义分割方法,包括以下步骤:[0049]步骤s1,对于有标签数据采用传统监督训练方法训练图像语义分割模型;[0050]步骤s2,对于无标签数据采用本发明提出的保守激进协同学习方法进行模型的半监督训练。[0051]所述保守激进协同学习方法同时训练两个平行的图像语义分割分支,伪标签基于两个分支的预测结果的共识与分歧情况生成。其中,一个分支用于保守进化,另一个分支用于激进探索。保守分支采用本发明提出的交集伪监督进行训练,通过使用高质量的伪标签达到可靠性高的伪监督训练。激进分支采用本发明提出的并集伪监督进行训练,通过使用由两分支预测结果并集生成的伪标签达到对分歧部分探索的目的。所述方法框架图如图1所示。[0052]所述两个平行的图像语义分割分支采用相同的网络结构,但采用不同的初始化参数,在本实施例中所述网络结构为使用resnet-50的deeplabv3+。训练时,同时输入两张无标签图像数据x1和x2,并利用上述两张图像基于强数据增强方法生成一张合成图像xs,在本实施例中所述强数据增强方法为cutmix方法。具体地,以保守分支为例,将上述三张图像输入保守分支语义分割网络输出相应的三张语义分割预测结果和ycs。[0053][0054][0055][0056]对于输出和采用与输入同样的数据增强方式得到对应的合成预测结果ycw。类似地,对于激进分支可以得到相应的预测结果和yps,以及对应的合成预测结果ypw。与其他发明直接基于上述结果进行交叉伪监督(如使用保守分支的合成预测结果对输入激进分支的合成图像的预测结果进行监督对输入激进分支的合成图像的预测结果进行监督和激进分支的合成预测结果对输入保守分支的合成图像的预测结果进行监督)不同,本发明提出新的像素级伪标签生成方法,对ycw和ypw进行进一步运算操作以得到伪标签。[0057]所述像素级伪标签生成方法是基于两个分支预测结果的共识与分歧情况的。对于像素pi,如果ycw中对应的预测结果和ypw中相应的结果相同,则两个分支在像素pi处达成共识,否则两分支在pi处产生分歧。[0058][0059]其中是ycw在像素pi处的预测结果,是ypw中对应的预测结果。所述像素级伪标签生成方法包含两部分:交集伪标签linter和并集伪标签lunion。其中,交集伪标签仅基于共识部分生成,对于像素pi,若两分支达成共识,则该像素对应的交集伪标签即为该像素处的预测结果。[0060][0061]其中是共识部分伪标签la在像素pi处的值,交集伪标签linter直接由共识部分伪标签生成。[0062]所述并集伪标签由上述共识部分伪标签la和分歧部分伪标签ld共同确定。由于分歧部分两个分支的预测结果相异,伪标签确定方法相对复杂,本发明未使用常见的基于预测置信度阈值的确定方法,而是提出了基于类别分歧度指标的伪标签确定方法。基于预测置信度阈值的确定方法仅着眼于当前像素处的预测值,具有一定程度的局限性,本发明从相对宏观的角度,在类别层面上基于整个预测结果进行决策。具体地,所述基于类别分歧度指标的伪标签确定方法包含以下步骤:[0063]步骤a1,基于两分支预测结果构建共识度矩阵其中c是语义类别个数。所述二维矩阵m中的具体元素值mj,k为同一像素在ycw中预测为类别cj而在ypw中预测为类别ck的像素个数,其示意图如图2所示。[0064]步骤a2,基于共识度矩阵m计算类别分歧度指标i。其中,对于类别j,其对应的类别分歧度指标为ij,[0065][0066]其中j∈[1,c]是语义类别下标。[0067]步骤a3,基于类别分歧度指标i确定像素pi处的伪标签[0068][0069]通过上述基于类别分歧度指标的伪标签确定方法可以实现对分歧部分伪标签ld的确定,并集伪标签lunion由共识部分伪标签la和分歧部分伪标签ld共同构成。[0070]lunion=la∪ld[0071]在所述保守激进协同学习中,保守分支在交集伪标签的伪监督下进行训练,激进分支在并集伪标签的伪监督下进行训练。[0072][0073][0074]所述保守激进协同学习方法中的两个平行的图像语义分割分支在训练时基于“求同存异”的思想,达到了保守进化和激进探索的协同。[0075]考虑到噪声伪标签是难以避免的,也即自动生成的伪标签中总会存在错误标签,本发明进一步提出基于预测置信度的自适应动态损失函数以应对可信度低的伪标签。所述损失函数基于预测置信度对损失函数进行重加权,相比常见的基于预测置信度的阈值区分,本方法无需预定义阈值,且可以更为充分地利用无标签数据。保守分支中像素pi的预测置信度定义为类似地,激进分支中像素pi的预测置信度被定义为进而基于预测置信度的动态权重可被定义为[0076][0077]通过该动态权重,不确定性强的伪标签产生的影响被有效降低。基于此的动态重加权损失函数可被定义为[0078][0079]其中和是在像素pi处linter和lunion对应的伪标签,是输入xs经过图像语义分割网络输出的预测结果在像素pi处的预测值,ce(·)是交叉熵损失函数。[0080]上述基于预测置信度的自适应动态损失函数在本发明中用于无标签数据的伪监督训练,而对于有标签数据,语义分割网络采用传统的监督训练方法,使用交叉熵损失函数进行训练。[0081][0082]其中xl∈dl表示有标签数据,g是对应的标签。在进行基于保守激进协同学习的图像半监督语义分割训练的过程中,最终的训练目标由上述两部分损失函数共同组成,[0083][0084]其中γ为权重值。[0085]在具体实施时,利用带动量的sgd优化器迭代优化学习网络参数,其中动量设置为0.9.在本实施例中,初始学习率设置为10-4,并随之迭代次数的增加依据逐步降低。[0086]术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。[0087]以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部