计算;推算;计数设备的制造及其应用技术1.本发明属于深度学习语义分割技术领域,涉及一种用于复杂场景高精度立体视觉感知的轻量级语义分割方法。背景技术:2.随着自动化与计算机技术的发展,无人化与智能化成为现代科技的主题。无人应用平台可以依靠摄像头和红外探测器等设备感知周围环境,从而做出控制和决策。视觉感知模块是无人应用平台与环境交互的唯一模块,因此,视觉感知算法的精确性和鲁棒性是无人应用平台的运动能力和情报能力的重要来源,决定了无人应用平台核心功能的技术水平。3.语义分割是现有无人应用平台视觉感知模块的重要视觉任务。语义分割是为图像中的每个像素分配类别标签的问题,用于促进场景理解和目标检测,为实现目标的定位提供可靠情报。无人应用平台对视觉感知模块的关键要求是计算资源占用小、预测延迟低。许多高性能的语义分割模型计算成本高、预测速度较慢,因此不适合部署。轻量级语义分割模型旨在通过更紧凑、更高效的模型能够部署在低内存嵌入式系统上,同时满足实时和准确推理的条件。4.目前,在语义分割技术领域已有轻量级框架相关研究工作。编码器解码器结构是语义分割网络的范式,将卷积应用于图像或特征图所需的计算量与其分辨率成正比,通过对输入图像进行下采样可以显著减少网络的计算资源占用。轻量级分割网络中,通常采用使用插值和最少量的卷积来上采样特征图。a.paszke等人在网络浅层使用下采样与卷积编码,生成了更紧凑的模型(a.paszke,a.chaurasia,s.kim and e.culurciello,"enet:a deep neuralnetwork architecture for real-time semantic segmentation,"arxivpreprint arxiv:1606.02147,2016)。轻量级语义分割中经常使用减少参数和计算量的卷积策略,f.chollet等人使用深度可分离卷积将卷积分为深度卷积和点卷积(f.chollet,"xception:deep learning with depthwise separableconvolutions,"in proceedings of the ieee conference on computer visionand pattern recognition(cvpr),2017.),g.papandreou等人使用了在较大的输入窗口上稀疏地应用核权重,在不增加核大小的情况下实现更大的感受野的空洞卷积(g.papandreou,i.kokkinos and p.-a.savalle,"modeling local andglobal deformations in deep learning:epitomic convolutionmultiple instance learning,and sliding window detection,"inproceedings of the ieee conference on computer vision and patternrecognition(cvpr),2015.)。x.zhang等人使用分组卷积和信道混洗,从轻量级的网络中获得令人满意的分类结果,以在嵌入式系统上运行(x.zhang,x.zhou,m.lin and j.sun,"shufflenet:an extremelyefficient convolutional neural network for mobile devices,"inproceedings of the ieee conference on computer vision and patternrecognition(cvpr),2018.)。然而,无人应用平台的应用场景中,目标物体往往是隐蔽的,需要算法对类别判别更准确,对物体纹理边缘判别更清晰才能取得精确结果;现有的轻量级语义分割算法对无人应用平台的复杂环境往往少有适配。技术实现要素:5.本发明的目的是提供一种用于复杂场景高精度立体视觉感知的轻量级语义分割方法,以用于无人应用平台。6.本发明的轻量级语义分割方法,基于类别原型生成模块和边缘优化模块,提出了一个语义分割网络。边缘优化模块利用本发明提出的边缘优化三元损失改善语义分割结果边界不理想的问题。7.本发明的具体的技术方案如下:8.一种用于复杂场景高精度立体视觉感知的轻量级语义分割方法,具体如下:9.步骤1)构建类别原型生成模块:类别原型生成模块使用预训练的clip文本编码器(a.radford,j.w.kim,c.hallacy,a.ramesh,g.goh,s.agarwal,g.sastry,a.askell,p.mishkin,j.clark,et al.,“learning transferable visual models from natural language supervision,”image,vol.2,p.t2,2021..)作为获取鲁棒的类别原型特征,以指导语义分割网络学习类别特征;类别原型生成模块结构为一个文本输入transformer网络,transformer网络将文本输入映射到特征空间,以生成类别原型。将类别名称文本输入到类别生成模块前,首先将类别名称构建成文本提示,例如“一张{标签}的照片”,以减少网络对多义文本的错误判别,再将文本提示输入到类别原型生成模块中。为特定类别文本名称构建n个文本提示,从而构造一个类别的n个类别原型,表征每个类别内部实例的不同表现形式,同时表征不同类别间的差异。10.步骤2)构建边缘优化模块:边缘优化模块的输入为语义分割网络的主干网络的解码器各层特征,输入特征图后,依次经过2层卷积层和激活层,获得1通道的物体边缘预测图。使用真实标注获得的类别边缘图对多层次的类别边缘预测图进行监督,并使用边缘三元损失联合分类损失的监督方式优化边缘图监督。其中,边缘三元损失联合分类损失的监督方式具体如下:在优化边缘图的三元损失函数中,将置信度高于阈值α且真值为边缘的像素集合视为真正例,将置信度低于β且真值为类别内部的像素集合视为假负例,将其余的真值为边缘的像素集合作为待优化目标;三元损失中将真正例、假负例、待优化目标位置的特征分别计算均值,使用余弦度量描述待优化目标与真正例和假负例的距离,使用交叉熵函数构建计算三元损失;根据对数据集边缘像素的统计量,将真正例、假负例与待优化目标的特征点数目添加总像素数目γ%的偏移量,以更快速收敛。其中,α、β和γ均为参数;α和β的取值原则为保证α》β,置信度高于α的真正例像素点个数较之置信度低于β的假负例的像素点个数更少,以确保真正例和假负例的特征代表性;γ的取值略小于真值掩码中类别边缘像素点的个数,以保证其平滑作用,确保计算梯度值相对稳定。11.步骤3)构造语义分割网络:通过步骤1)和步骤2)构造的类别原型生成模块和边缘优化模块与主干网络构造语义分割网络的整体结构。主干网络分为编码和解码两个部分;对于编码器,将原图像提取到倍原尺寸的特征图大小,c1维的特征图;解码器部分将编码器产生的特征图解码为输入原尺寸大小,c2维的特征图。解码器的每次上采样的特征作为边缘优化模块的输入,得到不同分辨率下的边缘预测图,并使用边缘三元损失进行监督。12.步骤4)语义分割网络训练推理流程:解码器最终输出的c2维向量与类别原型生成模块生成的类别原型运算得到最终分割结果。训练时,类别原型生成模块随机选取m个类别原型均值与解码器最终输出特征进行逐像素的余弦相似度量,余弦相似度最高的类别为该像素的预测类别。推理时,边缘优化模块不参与计算,解码器特征逐像素地与所有类别原型进行相似度比对,每个类别选取相似度得分最高的m个得分计算均值作为该像素属于该类别的预测分数。每个像素点在所有类别上预测分数最高的类别作为最终预测类别,所有像素点的预测结果组成分割结果图。13.本发明的有益效果:14.本发明的用于复杂场景高精度视觉感知的轻量级语义分割方法,以类别原型生成模块和边缘优化模块为基础构建语义分割网络。前者加强了网络对感兴趣类别物体的判别能力,减少了部分区域误分割的现象;后者强化了主干网络检测物体边缘的能力,构建了语义和边缘联合特征空间。类别原型预测掩码的时间复杂度与传统生成one-hot向量相同,边缘优化模块在预测时不参与计算,两者适合直接加入到轻量级语义分割框架中,因而适合部署到无人应用平台,使分割任务的速度与精度得到较好权衡,为复杂场景高精度立体视觉感知场景提供了一种新的解决方案。15.本发明提出的网络结构以超轻量级语义分割网络作为基线,使用clip文本编码器作为类别原型生成器,生成多个类别表征作为类中心引导网络学习,提升了网络在相近类别间的分割性能。同时,因网络的分割效果在边缘处较差,为提升物体边缘处分割准确率,本发明在网络解码器侧添加边缘优化模块,并提出用于边缘提取的三元损失函数。本发明的网络有效地提升了泛化性能,同时改善了类别边缘处的分割效果。附图说明16.图1为本发明的网络结构图。17.图2为本发明在通用数据集上的检测结果,结果第一列为原图,第二列为真实标注,第三列为基线网络效果,第四列为本发明的分割效果。具体实施方式18.以下结合附图和技术方案,进一步说明本发明的具体实施方式。19.本实施例在teslav100gpu、intel xeon cpu e5-2680 v4上使用cuda11.4后端进行实施。本发明提出的语义分割框架是在pytorch上实现的。在训练和推理两方面的图像分辨率都是1024×512,使用adam优化器,初始学习率设置为5e-4。批量大小为16。使用了零均值归一化、随机翻转、随机缩放(0.8到1.5之间)和裁剪来增加数据。使用cityscapes数据集(m.cordts,m.omran,s.ramos,t.rehfeld,m.enzweiler,r.benenson,u.franke,s.roth and b.schiele,"the cityscapes dataset for semanticurban scene understanding,"in 2016ieee conference on computervision and pattern recognition,cvpr 2016,las vegas,nv,usa,june 27-30,2016,2016.)作为网络的训练数据。cityscapes是一个包含5000个密集标记和20000个粗略标记的图像,涵盖语义和实例分割,分辨率为2048×1024。20.如图1所示,本发明方法的具体步骤如下:21.1)构建类别原型生成模块:其结构为一个文本输入transformer(raffel,c.,shazeer,n.,roberts,a.,lee,k.,narang,s.,matena,m.,zhou,y.,li,w.,and liu,p.j.exploring the limits of transfer learning with a unified text-to-text transformer.arxiv preprint arxiv:1910.10683,2019.),使用具有8个attention头的63m参数12层512宽的模型。对于一个输入文本,模块输出768维的文本表征。transformer结构后使用三层全连接网络将文本表征降维到64维,生成类别原型。在本发明中,将预测类别生成文本提示。例如类别“汽车”,生成文本提示“一张汽车的图片”、“汽车的模糊图片”、“汽车的清晰图片”等等。将生成的文本提示输入到类别原型生成模块中,构建每个类别的10个类别原型,这些类别原型具有类间差异和类内方差。22.2)构建边缘优化模块:边缘优化模块的输入为主干网络的解码器各层特征,输入特征图后,依次经过2层卷积层和激活层,获得1通道的物体边缘预测图。使用真实标注获得的类别边缘图对多层次的类别边缘预测图进行监督。本发明提出了边缘三元损失联合分类损失的监督方式优化边缘图监督。在优化边缘图的三元损失函数中,将置信度高于阈值0.9且真值为边缘的像素集合视为真正例,将置信度低于0.5且真值为类别内部的像素集合视为假负例,将其余的真值为边缘的像素集合作为待优化目标。三元损失中将真正例、假负例、待优化目标位置的特征分别计算均值,使用余弦度量描述待优化目标与真正例和假负例的距离,使用交叉熵函数构建计算三元损失。根据对数据集边缘像素的统计量,将真正例、假负例与待优化目标的特征点数目添加总像素数目0.5%的偏移量,以更快速收敛。23.3)构造语义分割网络:通过1)和2)构造的类别原型生成模块和边缘优化模块与主干网络构造整体结构。主干网络分为编码和解码两个部分。对于编码器,使用10层残差块将原图像提取到1/8原尺寸,128维的特征图;解码器部分使用6层残差块将编码器产生的特征图解码为输入原尺寸大小64维的特征图。解码器的每次上采样特征和编码器输出特征作为边缘优化模块的输入,得到不同分辨率下的边缘预测图,并使用边缘三元优化损失进行监督。24.4)网络训练推理流程:解码器最终输出的64维向量与类别原型运算得到最终分割结果。训练时,类别原型生成器随机选取3个类别原型均值与解码器最终输出逐像素特征进行余弦相似度量,余弦相似度最高的类别为预测类别。推理时,边缘优化模块不参与计算,解码器逐像素特征与所有类别原型进行相似度比对,每个像素点类别选取相似度得分最高的3个得分均值作为最后的预测分数。25.分别对类别原型生成模块、边缘优化模块进行消融实验以验证它们对整体结构的贡献,如表1所示。对于类别原型生成模块,首先使用随机生成的类别原型和语义分割中的对比学习方法(zhou,t.,wang,w.,konukoglu,e.,van gool,l.:rethinking semantic segmentation:a prototype view.in:cvpr(2022))进行监督取得了比基线好的效果;使用上一步的类别原型基础上加入了边缘检测头并使用传统交叉熵监督边缘检测头效果进一步提升;在前一步基础上加入本发明提出的边缘三元损失函数后,效果进一步提升;在前一步的基础上,将类别原型调整为类别原型生成器生成的原型,得到最好的分割效果。26.表1消融实验[0027][0028]从表1可以看出,本发明提出的方法在cityscapes验证数据集上达到了72.26miou,较之基线网络提升了2.24miou。与基线网络对比,本发明提出的方法在预测时间不变的前提下,提高了绝大多数感兴趣类别的预测精度,这意味着本发明的方案优于现有基线网络,可以更好地嵌入到无人应用平台。[0029]表3本发明算法与基线网络的iou比较[0030][0031][0032]表3展示了本发明分割方法相较于基线网络在cityscapes数据集验证集上对所有感兴趣类别的分割指标。可见,本发明提出的分割方法在绝大多数感兴趣类别上相较于基线都有了较大的性能提升。本发明的方法在一般类别,例如道路、人行道、建筑、植被、天空、汽车上取得了改进;同时在智能驾驶场景的独特类别,例如墙壁、围栏、电线杆、交通灯、交通标志、行人、骑手、卡车、公共汽车、火车、摩托车和自行车上取得显著的准确性改进。这些独特类别训练数据较少、形状形态更特殊、或者与其他类别易混淆。例如,本发明方法在汽车等易与其他类别混淆的类别上本发明提出的方法在cityscapes验证数据集上达到了72.26miou,较之基线网络提升了2.24miou。因此,本发明在改进复杂结构边缘(例如交通灯、交通标志、栅栏)和分别相似类别间差异(例如汽车与公共汽车、卡车)有了很大的改进。结合图2,对于第一二行的图像,基线网络出现了对汽车类别和围墙类别的子区域误分割现象,同一物体内部的小部分被识别成了临近的其他车辆类型和建筑物类型类别,而在本专利方法的分割结果中,将车辆类别和围墙正确分割,减少了临近类别识别类别错误的情况。在第三行的分割结果中,本专利方法相较于基线网络在细小的电线杆、交通标志等类别上分割区域更完整、边界更清晰。因此,通过可视化实验证明本发明提出的方法在基线网络的基础上减少了部分子区域误分割的现象,同时优化了细小类别的边界,使网络的分割性能得到了提升。与基线网络对比,本发明提出的方法在预测时间不变的前提下,提高了绝大多数感兴趣类别的预测精度,这意味着本发明的方案优于现有基线网络,可以更好地嵌入到无人应用平台。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
用于复杂场景高精度立体视觉感知的轻量级语义分割方法 专利技术说明
作者:admin
2023-06-28 20:06:37
729
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术