发布信息

应用于图像分割的领域自适应的方法和装置以及存储介质与流程

作者:admin      2022-11-04 17:06:37     639



计算;推算;计数设备的制造及其应用技术1.本发明总体上涉及针对图像分割任务的无监督领域自适应(unsupervised domain adaptation),具体地提出了在无监督领域自适应的设置下,执行图像分割的方法和神经网络以及神经网络的训练方法。背景技术:2.图像分割是对图像进行解析的基本视觉任务之一,其用于在像素级别上将图像划分为与多种语义类别相关联的多个不同区域。在通过对输入的图像执行图像分割而获得的预测图像中,与某种语义类别相关联的区域中的像素被显示为与该种语义类别相对应的颜色,从而能够根据颜色在预测图像中识别出属于不同语义类别的各个对象。3.另一方面,无监督领域自适应是指将利用已标注的源域数据而训练的模型迁移到未标注数据的目标域,并且同时尽可能保持该模型在目标域上的性能。由于源域和目标域之间存在数据集偏差(域偏差),并且目标域缺乏已标注数据,因此利用已标注的源域数据训练得到的模型在目标域上的性能往往很差。无监督领域自适应的训练过程同时利用了源域的已标注数据和目标域的未标注数据,可以有效缓解域差异所带来的负面影响,提高模型的鲁棒性。4.目前,针对无监督领域自适应,已经提出了以对抗训练为代表的学习域不变特征的方法以及多任务学习方法等。在多任务学习方法中,利用多个任务(例如源域数据分类任务和目标域数据重建任务)来学习域不变特征。其中,分类任务和重建任务共享特征提取器,通过针对源域数据的分类和目标域数据的重建交替地进行训练,使得特征提取器所提取的特征能够同时满足源域的分类任务和目标域的重建任务的性能要求。以此方式提取的共享特征即为域不变特征(domain invariant feature)。5.此外,目前关于无监督领域自适应的研究大多针对的是图像的分类任务,而对于图像分割任务的无监督领域自适应的研究还较少。技术实现要素:6.针对上述技术问题,本发明提出了一种新的基于特征解耦和知识蒸馏的无监督领域自适应方案,该方案能够应用于图像分割任务。本发明的方案通过解耦语义特征和非语义特征而学习域不变特征。此外,本发明还通过知识蒸馏来优化目标域的损失函数。7.根据本发明的一个方面,提供了一种计算机实现的利用神经网络执行应用于图像分割的领域自适应的方法,其中,所述神经网络包括编码器、第一解码器和第二解码器,所述方法包括:由所述编码器针对源域图像提取源域特征,并且针对目标域图像提取目标域特征;将所述源域特征划分为与所述源域图像中的内容有关的第一源域特征(vs)以及与所述源域图像的风格有关的第二源域特征(ds),并且将所述目标域特征划分为与所述目标域图像中的内容有关的第一目标域特征(vt)以及与所述目标域图像的风格有关的第二目标域特征(dt);由所述第一解码器基于所述第一源域特征(vs)针对所述源域图像执行图像分割,并且设置第一分割损失函数(lseg);由所述第二解码器基于所述第一目标域特征(vt)和所述第二目标域特征(dt)来重建所述目标域图像,并且设置重建损失函数(lrec);由所述第二解码器基于所述第一源域特征(vs)和所述第二目标域特征(dt)来生成转换图像;由所述编码器针对所述转换图像提取特征;由所述第一解码器基于所提取的特征中与内容有关的部分针对所述转换图像执行图像分割,并且设置第二分割损失函数(lseg′);基于所述第一分割损失函数、所述第二分割损失函数和所述重建损失函数来训练所述编码器、所述第一解码器和所述第二解码器;以及利用经训练的编码器和第一解码器针对待处理的目标域图像执行图像分割。8.根据本发明的另一个方面,提供了一种利用神经网络执行应用于图像分割的领域自适应的装置,其中,所述神经网络包括编码器、第一解码器和第二解码器,所述装置包括:存储有计算机程序的存储器;以及一个或多个处理器,所述处理器被配置为通过执行所述计算机程序而执行以下操作:使所述编码器针对源域图像提取源域特征,并且针对目标域图像提取目标域特征;将所述源域特征划分为与所述源域图像中的内容有关的第一源域特征(vs)以及与所述源域图像的风格有关的第二源域特征(ds),并且将所述目标域特征划分为与所述目标域图像中的内容有关的第一目标域特征(vt)以及与所述目标域图像的风格有关的第二目标域特征(dt);使所述第一解码器基于所述第一源域特征(vs)针对所述源域图像执行图像分割,并且设置第一分割损失函数(lseg);使所述第二解码器基于所述第一目标域特征(vt)和所述第二目标域特征(dt)来重建所述目标域图像,并且设置重建损失函数(lrec);使所述第二解码器基于所述第一源域特征(vs)和所述第二目标域特征(dt)来生成转换图像;使所述编码器针对所述转换图像提取特征;使所述第一解码器基于所提取的特征中与内容有关的部分针对所述转换图像执行图像分割,并且设置第二分割损失函数(lseg′);基于所述第一分割损失函数、所述第二分割损失函数和所述重建损失函数来训练所述编码器、所述第一解码器和所述第二解码器;以及使经训练的编码器和第一解码器针对待处理的目标域图像执行图像分割。9.根据本发明的另一个方面,提供了一种存储有计算机程序的存储介质,所述计算机程序在被计算机执行时使得所述计算机执行如上所述的执行领域自适应的方法。附图说明10.图1示意性地示出了现有的多任务学习模型的一个示例。11.图2示意性地示出了根据本发明的基于特征解耦的领域自适应模型。12.图3示意性地示出了特征解耦的可视化效果。13.图4示意性地示出了u-net网络结构。14.图5示意性地示出了根据本发明的知识蒸馏的模型。15.图6示出了执行图像分割的方法的流程图。16.图7示出了将经训练的d-net的知识迁移到u-net的方法的流程图。17.图8示出了实现本发明的计算机硬件的示例性配置框图。具体实施方式18.图1示意性地示出了现有的多任务学习模型的一个示例,即,深度重建-分类网络(drcn)。如图1所示,图像被输入到特征提取器100,并且经历以下操作:卷积(conv)、最大池化、将多维数据转换成一维(flatten)、全连接(dense)、随机失活(dropout)。作为操作的结果,特征提取器100输出特征f。所提取的特征f被用于针对源域数据的有监督的分类训练,如图1中的上分支所示。此外,所提取的特征f还被用于针对目标域数据的无监督的重建训练。重建过程是特征提取器100所执行的过程的逆过程,包括以下操作:将一维数据转换成多维(unflatten)、全连接(dense)、上采样以及卷积(conv),如图1中的下分支所示。源域上的分类任务和目标域上的重建任务共享特征提取器100。通过交替地执行分类训练和重建训练,使得特征提取器100能够提取出对于两个域上的任务都满足要求的域不变特征(共享特征)。19.基于图1所示的模型,本发明设计了新颖的用于特征解耦的网络结构。一般而言,特征解耦是指将多种类型的特征分解开,例如分解为对特定任务有用的特征和无用的特征,从而可以利用有用的特征来执行该任务。20.图2示意性地示出了根据本发明的基于特征解耦的领域自适应模型,该模型可以应用于图像分割任务。特别地,下文中将以针对视网膜血管图像的分割任务为例来描述本发明,但本发明不限于此,而是可以应用于任何图像的分割任务。21.如图2所示,源域图像is和目标域图像it被输入至编码器210。可选地并且优选地,对源域图像is和目标域图像it进行预处理,然后将预处理后的图像is-p和it-p输入至编码器210。预处理例如可以包括将图像转换为灰度图像、归一化、直方图均衡化以及伽马校正。此外,预处理还可以包括诸如旋转、翻折和颜色抖动的数据增强处理,以提升模型的泛化能力。此外,在进行从高分辨率数据集向低分辨率数据集的迁移任务时,预处理还可以包括将高斯噪声随机添加到高分辨率图像,该处理能够改善领域自适应的效果。此外,预处理还可以包括改变图像的尺寸,例如,通过双三次插值将图像调整为统一的尺寸(例如512×512)。22.编码器210针对输入的图像提取特征,图2示出了分别由编码器210的多个隐藏层输出的多个(例如四个)特征,每个隐藏层输出的特征包含多个(例如n个)通道。在本发明中,基于通道将特征划分为均等的两部分,前半部分v包括前n/2个通道,后半部分d包括后n/2个通道。规定前部分v表示与内容相关的语义特征(称为“内容特征”),并且规定后部分d表示与内容无关的非语义特征(称为“风格特征”)。以视网膜血管图像为例,内容特征可以对应于血管结构的特征,风格特征可以包括图像的颜色、亮度、对比度、背景等方面的特征。23.语义特征(内容特征)是域不变的特征,而非语义特征(风格特征)是引起域偏差的特征。因此,在本发明中特征解耦的目的是将语义特征与非语义特征分离开,以便利用语义特征执行图像分割任务,实现在目标域上的良好性能。24.在图2中,编码器210可以针对源域图像is生成语义特征vs和非语义特征ds,并且可以针对目标域图像it生成语义特征vt和非语义特征dt。25.分割解码器220从编码器210接收源域图像的语义特征vs,并且基于语义特征vs生成分割概率图p。在编码器210和分割解码器220构成的分割网络中进行有监督的分割训练。26.重建解码器230从编码器210接收目标域图像的语义特征vt和非语义特征dt,并且据此生成针对目标域图像的重建图像irec。重建图像irec包含目标域图像的语义特征(例如血管结构)和非语义特征(例如风格因素)。在编码器210和重建解码器230构成的重建网络中进行无监督的重建训练。27.此外,重建解码器230还从编码器210接收源域图像的语义特征vs和目标域图像的非语义特征dt,并且基于源域图像的语义特征vs和目标域图像的非语义特征dt来创建一个新的图像inew,新图像inew包含源域图像的语义特征(例如血管结构)以及目标域图像的非语义特征(例如风格因素)。在下文中,新图像inew也被称为转换图像(translated image)。28.然后,将转换图像inew输入至编码器210,以使得编码器210和分割解码器220进行有监督的分割训练。具体来说,将编码器210针对转换图像提取的特征分为两部分v和d,并且将前部分v(“内容特征”)输入至分割解码器220以生成分割预测结果。特别地,由于转换图像inew具有源域图像的语义特征,因此在有监督分割训练中,使用源域图像的真实标签作为该转换图像inew的真实标签。29.以下对图2所示的模型进行具体描述。30.一方面,对于由编码器210和分割解码器220构成的分割网络定义fs:fs表示将输入图像映射到分割概率图(p)的函数。在视网膜血管图像的示例中,分割概率图表示图像中的每个像素属于血管的概率。更具体地,将分割网络中的编码器210定义为enc:表示将输入图像映射到特征空间。此外,将分割网络中的分割解码器220定义为sdec:其中表示编码器210的各个隐藏层和特征层的语义特征。31.另一方面,对于由编码器210和重建解码器230构成的重建网络定义fr:fr表示将输入图像映射回输入图像的函数。更具体地,将重建解码器230定义为rdec:其中表示编码器210的各个隐藏层和特征层的语义特征,表示编码器210的各个隐藏层和特征层的非语义特征。通过改变重建解码器230的输入,可以在重建的图像中实现内容或者风格的改变。特别地,针对生成转换图像inew的情况,可以定义rdec:32.假设输入的源域图像被表示为xs,并且输入的目标域图像被表示为xt,可以由以下数学式(1)和(2)分别表示函数fs和fr:[0033][0034][0035]其中,符号表示解码器与编码器之间的连接。[0036]在训练中使用的目标函数由针对源域图像的分割损失函数lseg、针对目标域图像的重建损失函数lrec以及针对转换图像的分割损失函数lseg′构成。作为一个示例,分割损失函数lseg和lseg′可以是交叉熵损失函数,重建损失函数lrec可以是绝对值损失函数。以下数学式(3)、(4)、(5)分别示出了损失函数lseg、lseg′、lrec:[0037][0038][0039][0040]其中,ns表示源域图像的数量,nt表示目标域图像的数量,ns′表示转换图像的数量,并且可以等于ns×nt。k表示类别的数量(例如在血管图像分割中,存在“血管”和“非血管”两个类别)。h和w分别表示图像的宽度和高度。表示源域图像样本,表示转换图像样本,表示目标域图像样本。表示源域图像样本中的像素j的第k类的二值标签。表示源域图像样本中的像素j属于第k类的预测概率。表示转换图像样本中的像素j属于第k类的预测概率。[0041]在上述损失函数中,针对转换图像的分割损失函数lseg′对于解耦语义特征(例如血管结构)和非语义特征(例如图像风格)是有效的。图3示意性地示出了特征解耦的可视化效果。在图3中,vs表示源域图像中的血管结构特征,vt表示目标域图像中的血管结构特征,ds表示源域图像的风格特征,dt表示目标域图像的风格特征,通过这些特征的不同组合可以生成不同的图像。关注图像(vs,dt)和(vt,ds),在仅应用损失函数lseg+lrec的情况下,这两个图像中源域图像的血管结构和目标域图像的血管结构混杂在一起,无法分辨。在进一步应用了损失函数lseg′的情况下,图像(vs,dt)中仅包含源域图像的血管结构,而图像(vt,ds)中仅包含目标域图像的血管结构。如上文所述,在本发明中特征v表示内容特征(血管结构特征),并且特征d表示风格特征(图像的颜色、亮度等特征)。因此,能够体现出特征解耦效果的理想的图像(vs,dt)是包含源域图像血管结构和目标域图像风格的图像,类似地,理想的图像(vt,ds)是包含目标域图像血管结构和源域图像风格的图像。但由于附图是灰度图像,难以表现出颜色等风格特征,因此风格特征的解耦在图像(vs,dt)和(vt,ds)中较不明显。尽管如此,根据图像(vs,dt)和(vt,ds)各自仅包含一个域的血管特征这一事实,可以容易地识别本发明的特征解耦的效果。例如,认为至少血管特征被成功地解耦了。[0042]通过利用如上所述的损失函数来训练图2所示的网络模型。在训练完成后,可以利用经训练的编码器210和分割解码器220来执行实际的分割任务。具体而言,将待处理的目标域图像(未标注)输入至编码器210,并由分割解码器220生成分割预测图像。[0043]在本发明中,进一步提出了通过知识蒸馏将上述训练好的网络迁移到其它网络,具体而言,将训练好的网络(称为d-net)迁移到基础的u-net网络结构。这样做的好处包括:(1)利用d-net提供的可靠知识可以优化关于目标域的风险损失函数,从而进一步提升性能。具体来说,目标域的风险损失函数包括有监督的分割损失函数,但由于目标域数据没有标签,所以不能直接优化目标域的风险损失函数。在将d-net的知识迁移到u-net的过程中,可以将训练好的d-net针对目标域数据而生成的较为可靠的分割预测结果作为该目标域数据的较为可靠的标签,从而能够直接优化目标域的风险损失函数。(2)相比于包含解耦和重建分支的d-net网络,u-net网络的结构更加简单,更容易部署。[0044]olaf ronneberger等人在2015年国际医学图像计算和计算机辅助干预会议(miccai)上提出的论文“u-net:convolutional networks for biomedical image segmentation”中详细描述了u-net网络,该论文的内容通过引用而并入本文中。[0045]图4示意性地示出了u-net网络结构,其包括结构基本对称的编码器(左半部分)和解码器(右半部分)。编码器包括串联连接的4个卷积模块,每个卷积模块由两个3×3的卷积层组成,相邻卷积模块之间由2×2的最大池化层连接。解码器包括与编码器中的卷积模块结构相同的4个卷积模块,但相邻卷积模块之间由2×2的上采样层连接。解码器具有与编码器对称的结构。此外,在解码器的每个卷积模块中,在执行卷积之前,将编码器的隐藏层所提取的隐藏特征与解码器中处于对应位置上的隐藏层所提取的隐藏特征进行拼接,即,如图4中所示的跳连(skip connection)。解码器的最后一个卷积模块的输出被输入至1×1的卷积层,以将特征的维度降低到适合的维度,通常为类别的数量。在本发明的视网膜血管图像分割示例中,由于涉及的是二分类,因此上述1×1的卷积层的输出维度为1,并且可以在该1×1的卷积层之后连接sigmoid激活层,从而输出血管分割概率图。[0046]特别地,以上参照图2所描述的编码器210、分割解码器220和重建解码器230也可以采用图4所示的u-net结构,但需要做出适当修改。具体来说,如上文所述,编码器210输出的特征被分为均等的两部分v和d,因此在采用图4的u-net结构来实现编码器210时,需要将各个隐藏层输出的特征的通道数量加倍。此外,在采用图4的u-net结构来实现重建解码器230时,由于编码器210输出的特征的通道数量加倍,因此对于从编码器210接收语义特征v和非语义特征d二者的重建解码器230而言,经由跳连而接收的特征的通道数量也要相应地增加。然而,在采用图4的u-net结构来实现分割解码器220时,由于分割解码器220仅从编码器210接收语义特征v,因此不需要修改经由跳连而接收的特征的通道数量。[0047]图5示意性地示出了通过知识蒸馏将经训练的d-net网络的知识迁移到u-net网络。如图5所示,将目标域图像输入至经训练的d-net,由d-net输出分割概率图作为该目标域图像的软标签。此外,对目标域图像进行诸如水平翻转和垂直翻转的变换,并且将变换后的图像也输入至d-net,由d-net分别输出分割概率图和然后,将所生成的分割概率图和集成在一起。作为集成的一个示例,可以计算各个分割概率图的平均值,从而得到平均概率图。然后,基于预定阈值对集成后的概率图进行二值分割处理。作为一个示例,可以将阈值设置为0.5,将集成的概率图中像素值大于该阈值的像素标注为1,像素值小于该阈值的像素标注为0。所得到的二值分割结果可以作为输入的目标域图像的伪标签(硬标签)。[0048]另一方面,将目标域图像输入至u-net,并且由u-net生成预测概率图pt。此外,将具有已知标签的源域图像输入至u-net,并且由u-net生成预测概率图ps。可选地并且优选地,如图5所示,对目标域图像和源域图像进行预处理(如上文中所述)之后,将其输入至d-net或u-net。[0049]然后,基于伪标签,将源域图像和目标域图像的各个像素的特征在类别层面进行对齐。具体来说,针对给定类别,使得由u-net网络针对源域图像提取的像素分割特征和针对目标域图像提取的像素分割特征彼此接近。该像素分割特征可以指输入到上述1×1卷积层的特征,即,图4所示的解码器的最后一个卷积模块输出的特征。例如,图像中的每个像素可以具有64维的像素分割特征。[0050]基于以上,在训练u-net时,使用具有标签的源域图像以及具有伪标签(基于d-net的分割预测结果生成)的目标域图像进行有监督的分割训练,并使得u-net针对目标域图像预测的分割概率图pt尽可能接近由d-net针对该目标域图像预测的分割概率图(软标签)。[0051]具体来说,在训练中使用由以下数学式(6)表示的损失函数:[0052][0053]其中,表示由u-net针对源域图像执行分割预测的分割损失函数,并且可以是标准的交叉熵损失函数。ys表示表示源域图像的真实标签,ps表示源域图像的分割预测概率。[0054]表示由u-net针对目标域图像执行分割预测的分割损失函数,并且可以是标准的交叉熵损失函数。表示基于d-net的预测结果而生成的伪标签,其中表示集成的概率图,例如,表示集成的概率图,例如,此外,ξ可以由以下数学式(7)表示,其中σ是阈值,例如可以被设置为0.5。[0055][0056]是kl散度,其用于约束由u-net针对目标域图像预测的分割概率图pt尽可能接近由d-net针对目标域图像预测的分割概率图[0057]表示条件特征对齐损失函数,其用于针对给定的类别,将对应于该类别的源域特征和目标域特征进行对齐。其中,k表示语义类别的数量,表示源域图像中所有属于第i类的像素的特征的平均值,表示目标域图像中所有属于第i类的像素的特征的平均值。在训练中,可以将和的初始值设置为0,并且随着训练的进行,基于以下数学式(8)来进行更新:[0058]fi←λfi+(1-λ)f′i-(8)[0059]其中,f′i表示针对当前小批量(mini-batch)计算的源域图像或目标域图像中的第i类像素的特征的平均值,λ是控制更新速率的参数,例如可以设置为0.7。[0060]图6示出了根据本发明的执行图像分割的方法的流程图。[0061]如图6所示,在步骤s610,由编码器210针对源域图像提取源域特征,并且针对目标域图像提取目标域特征。[0062]在步骤s620,将源域特征划分为与源域图像中的内容有关的第一源域特征(语义特征)vs以及与源域图像的风格有关的第二源域特征(非语义特征)ds。类似地,在步骤s630,将目标域特征划分为与目标域图像中的内容有关的第一目标域特征(语义特征)vt以及与目标域图像的风格有关的第二目标域特征(非语义特征)dt。如上文所述,可以基于特征中包含的通道数量来执行划分。[0063]在步骤s640,由分割解码器220基于第一源域特征vs针对源域图像执行图像分割,并且针对该操作设置第一分割损失函数lseg。[0064]在步骤s650,由重建解码器230基于第一目标域特征vt和第二目标域特征dt来重建目标域图像,并且针对该操作设置重建损失函数lrec。[0065]在步骤s660,由重建解码器230基于第一源域特征vs和第二目标域特征dt来生成转换图像。[0066]该转换图像被输入至编码器210以提取特征,并且类似地,所提取的特征被分为通道数量相等的两部分,即语义特征和非语义特征。然后,由分割解码器220基于该转换图像的语义特征针对转换图像执行图像分割,并且针对该操作设置第二分割损失函数lseg′,如步骤s670所示。[0067]在步骤s680,基于第一分割损失函数lseg、第二分割损失函数lseg′和重建损失函数lrec来训练编码器210、分割解码器220和重建解码器230。[0068]当训练完成,可以利用经训练的编码器210和分割解码器220(分割网络)来针对待处理的目标域图像执行图像分割,如步骤s690所示。[0069]图7示出了将经训练的d-net的知识迁移到u-net的方法的流程图。[0070]如图7所示,在步骤s710,由经训练的d-net针对目标域图像执行图像分割以生成分割概率图并且由d-net针对该目标域图像的一个或多个变换图像(例如水平翻转图像和垂直翻转图像)执行图像分割,以生成多个分割概率图,例如和[0071]在步骤s720,基于所生成的多个分割概率图生成目标域图像的伪标签。具体来说,可以计算分割概率图和的平均值,并且基于阈值(例如0.5)对平均概率图进行二值化处理,从而得到伪标签。[0072]在步骤s730,由u-net网络针对该目标域图像以及源域图像分别执行图像分割。[0073]在步骤s740,利用该目标域图像的伪标签和源域图像的已知标签对u-net网络进行有监督的训练。具体来说,在训练中可以使用以下损失函数:与u-net网络针对目标域图像执行图像分割有关的分割损失函数;与u-net网络针对源域图像执行图像分割有关的分割损失函数;kl散度,其用于使得由u-net网络针对目标域图像预测的分割概率图pt接近由d-net网络针对目标域图像生成的分割概率图以及条件特征对齐损失函数。[0074]当训练完成,可以利用经训练的u-net网络代替d-net来执行实际的图像分割任务,如步骤s750所示。[0075]以上已经详细描述了根据本发明的用于图像分割任务的无监督领域自适应方案。本发明通过多任务训练来学习源域和目标域共享的特征空间,并且通过特征解耦而学习到更好的域不变特征,并且进一步通过知识蒸馏而优化目标域的损失函数以及简化网络结构。[0076]本发明的发明人已经基于视网膜血管图像进行了实验来评估本发明的性能。实验在公开数据集上进行,公开数据集包括drive(表1中简称为“d”)、chase_db1(简称为“c”)、stare(简称为“s”)、hrf(简称为“h”)以及iostar(简称为“i”)。在实验中,将上述数据集中的任一个数据集作为已标注的源域数据并且将其它数据集之一作为未标注的目标域数据而执行域迁移任务。[0077]以下表1展示了本发明的特征解耦网络(d-net)和基于d-net的知识蒸馏方案(kd)以及一些现有方案的性能,并且采用f1分数(dice)作为评价指标。现有方案包括:source-only(在训练中只利用源域数据集而不利用目标域数据集的方案)、领域对抗神经网络(dann)、以及图1所示的深度重建分类网络(drcn)。表1中的target-only表示在利用已标注的目标域数据集进行训练的情况下获得的分数,其表示针对各个迁移任务而言能够得到的最佳分数,因此可以作为参考。从表1中可以看到,本发明的d-net的性能优于其他现有方案,并且基于d-net的知识蒸馏方案(kd)进一步优于d-net的性能。[0078][表1][0079][0080][0081]在上述实施例中描述的方法可以由软件、硬件或者软件和硬件的组合来实现。包括在软件中的程序可以预先存储在设备的内部或外部所设置的存储介质中。作为一个示例,在执行期间,这些程序被写入随机存取存储器(ram)并且由处理器(例如cpu)来执行,从而实现在本文中描述的各种方法和处理。[0082]图8示出了根据程序执行本发明的方法的计算机硬件的示例配置框图,根据本发明的执行图像分割的装置以及神经网络可以基于该计算机硬件来实现。[0083]如图8所示,在计算机800中,中央处理单元(cpu)801、只读存储器(rom)802以及随机存取存储器(ram)803通过总线804彼此连接。[0084]输入/输出接口805进一步与总线804连接。输入/输出接口805连接有以下组件:以键盘、鼠标、麦克风等形成的输入单元806;以显示器、扬声器等形成的输出单元807;以硬盘、非易失性存储器等形成的存储单元808;以网络接口卡(诸如局域网(lan)卡、调制解调器等)形成的通信单元809;以及驱动可移除介质811的驱动器810,可移除介质811例如是磁盘、光盘、磁光盘或半导体存储器。[0085]在具有上述结构的计算机中,cpu 801将存储在存储单元808中的程序经由输入/输出接口805和总线804加载到ram 803中,并且执行该程序,以便执行上文中描述的方法。[0086]要由计算机(cpu 801)执行的程序可以被记录在作为封装介质的可移除介质811上,该封装介质以例如磁盘(包括软盘)、光盘(包括压缩光盘-只读存储器(cd-rom))、数字多功能光盘(dvd)等)、磁光盘、或半导体存储器来形成。此外,要由计算机(cpu 801)执行的程序也可以经由诸如局域网、因特网、或数字卫星广播的有线或无线传输介质来提供。[0087]当可移除介质811安装在驱动器810中时,可以将程序经由输入/输出接口805安装在存储单元808中。另外,可以经由有线或无线传输介质由通信单元809来接收程序,并且将程序安装在存储单元808中。可替选地,可以将程序预先安装在rom 802或存储单元808中。[0088]由计算机执行的程序可以是根据本说明书中描述的顺序来执行处理的程序,或者可以是并行地执行处理或当需要时(诸如,当调用时)执行处理的程序。[0089]本文中所描述的单元或装置仅是逻辑意义上的,并不严格对应于物理设备或实体。例如,本文所描述的每个单元的功能可能由多个物理实体来实现,或者,本文所描述的多个单元的功能可能由单个物理实体来实现。此外,在一个实施例中描述的特征、部件、元素、步骤等并不局限于该实施例,而是也可以应用于其它实施例,例如替代其它实施例中的特定特征、部件、元素、步骤等,或者与其相结合。[0090]本发明的范围不限于在本文中描述的具体实施例。本领域普通技术人员应该理解的是,取决于设计要求和其他因素,在不偏离本发明的原理和精神的情况下,可以对本文中的实施例进行各种修改或变化。本发明的范围由所附权利要求及其等同方案来限定。[0091]附记:[0092](1).一种计算机实现的利用神经网络执行应用于图像分割的领域自适应的方法,其中,所述神经网络包括编码器、第一解码器和第二解码器,所述方法包括:[0093]由所述编码器针对源域图像提取源域特征,并且针对目标域图像提取目标域特征;[0094]将所述源域特征划分为与所述源域图像中的内容有关的第一源域特征(vs)以及与所述源域图像的风格有关的第二源域特征(ds),并且将所述目标域特征划分为与所述目标域图像中的内容有关的第一目标域特征(vt)以及与所述目标域图像的风格有关的第二目标域特征(dt);[0095]由所述第一解码器基于所述第一源域特征(vs)针对所述源域图像执行图像分割,并且设置第一分割损失函数(lseg);[0096]由所述第二解码器基于所述第一目标域特征(vt)和所述第二目标域特征(dt)来重建所述目标域图像,并且设置重建损失函数(lrec);[0097]由所述第二解码器基于所述第一源域特征(vs)和所述第二目标域特征(dt)来生成转换图像;[0098]由所述编码器针对所述转换图像提取特征;[0099]由所述第一解码器基于所提取的特征中与内容有关的部分针对所述转换图像执行图像分割,并且设置第二分割损失函数(lseg′);[0100]基于所述第一分割损失函数、所述第二分割损失函数和所述重建损失函数来训练所述编码器、所述第一解码器和所述第二解码器;以及[0101]利用经训练的编码器和第一解码器针对待处理的目标域图像执行图像分割。[0102](2).根据(1)所述的方法,其中,[0103]基于通道来划分所述源域特征,使得所述第一源域特征(vs)和所述第二源域特征(ds)包含相等数量的通道,[0104]基于通道来划分所述目标域特征,使得所述第一目标域特征(vt)和所述第二目标域特征(dt)包含相等数量的通道。[0105](3).根据(1)所述的方法,其中,所述第一分割损失函数(lseg)和所述第二分割损失函数(lseg′)是交叉熵损失函数,所述重建损失函数(lrec)是绝对值损失函数。[0106](4).根据(1)所述的方法,还包括:通过知识蒸馏,将经训练的所述神经网络的知识迁移到u-net网络,以利用u-net网络针对所述待处理的目标域图像执行图像分割。[0107](5).根据(4)所述的方法,还包括:[0108]由经训练的所述神经网络针对目标域图像以及所述目标域图像的一个或多个变换图像执行图像分割,以生成多个分割概率图;[0109]基于所述多个分割概率图生成所述目标域图像的伪标签;[0110]由所述u-net网络针对所述目标域图像和源域图像分别执行图像分割;[0111]利用所述目标域图像的伪标签和所述源域图像的已知标签对所述u-net网络进行训练;[0112]利用经训练的u-net网络针对所述待处理的目标域图像执行图像分割。[0113](6).根据(5)所述的方法,其中,生成所述伪标签的步骤还包括:[0114]基于所述多个分割概率图计算平均概率图;[0115]通过基于阈值对所述平均概率图进行二值分割处理而获得所述伪标签。[0116](7).根据(5)所述的方法,其中,在训练所述u-net网络时使用以下损失函数:[0117]与所述u-net网络针对所述目标域图像执行图像分割有关的分割损失函数,[0118]与所述u-net网络针对所述源域图像执行图像分割有关的分割损失函数,[0119]kl散度,其用于使得由所述u-net网络针对所述目标域图像预测的分割概率图(pt)接近由经训练的所述神经网络针对所述目标域图像生成的分割概率图以及[0120]条件特征对齐损失函数,其用于针对给定的类别,使得由所述u-net网络针对所述目标域图像提取的像素分割特征和针对所述源域图像提取的像素分割特征彼此接近。[0121](8).一种利用神经网络执行应用于图像分割的领域自适应的装置,其中,所述神经网络包括编码器、第一解码器和第二解码器,所述装置包括:[0122]存储有计算机程序的存储器;以及[0123]一个或多个处理器,所述处理器被配置为通过执行所述计算机程序而执行以下操作:[0124]使所述编码器针对源域图像提取源域特征,并且针对目标域图像提取目标域特征;[0125]将所述源域特征划分为与所述源域图像中的内容有关的第一源域特征(vs)以及与所述源域图像的风格有关的第二源域特征(ds),并且将所述目标域特征划分为与所述目标域图像中的内容有关的第一目标域特征(vt)以及与所述目标域图像的风格有关的第二目标域特征(dt);[0126]使所述第一解码器基于所述第一源域特征(vs)针对所述源域图像执行图像分割,并且设置第一分割损失函数(lseg);[0127]使所述第二解码器基于所述第一目标域特征(vt)和所述第二目标域特征(dt)来重建所述目标域图像,并且设置重建损失函数(lrec);[0128]使所述第二解码器基于所述第一源域特征(vs)和所述第二目标域特征(dt)来生成转换图像;[0129]使所述编码器针对所述转换图像提取特征;[0130]使所述第一解码器基于所提取的特征中与内容有关的部分针对所述转换图像执行图像分割,并且设置第二分割损失函数(lseg′);[0131]基于所述第一分割损失函数、所述第二分割损失函数和所述重建损失函数来训练所述编码器、所述第一解码器和所述第二解码器;以及[0132]使经训练的编码器和第一解码器针对待处理的目标域图像执行图像分割。[0133](9).根据(8)所述的装置,其中,所述处理器还被配置为执行以下操作:[0134]使经训练的所述神经网络针对目标域图像以及所述目标域图像的一个或多个变换图像执行图像分割,以生成多个分割概率图;[0135]基于所述多个分割概率图生成所述目标域图像的伪标签;[0136]使u-net网络针对所述目标域图像和源域图像分别执行图像分割;[0137]利用所述目标域图像的伪标签和所述源域图像的已知标签对所述u-net网络进行训练;[0138]使经训练的u-net网络针对所述待处理的目标域图像执行图像分割。[0139](10).一种存储有计算机程序的存储介质,所述计算机程序在被计算机执行时使得所述计算机执行根据(1)-(7)所述的执行领域自适应的方法。[0140](11).根据(1)所述的方法,还包括:[0141]对所述源域图像和所述目标域图像进行预处理,并且将经预处理的源域图像和目标域图像输入至所述编码器,[0142]其中,所述预处理包括以下处理中的至少一个:转换为灰度图像、归一化、直方图均衡化、伽马校正、旋转、翻折、颜色抖动、改变尺寸、以及在所述源域图像是高分辨率图像并且所述目标域图像是低分辨率图像的情况下向所述源域图像随机地添加高斯噪声。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部