计算;推算;计数设备的制造及其应用技术一种基于改进sparse r-cnn的目标检测方法1.本发明涉及计算机视觉领域,尤其涉及一种时间消耗少检测精度高的目标检测方法。背景技术:2.目标检测作为计算机视觉领域中的一项基本任务,在许多下游任务中得到了广泛的应用,比如自动驾驶、人脸识别等。其中抛开使用的硬件性能,下游任务中使用的目标检测算法性能将极大地影响下游任务本身。一般地,传统目标检测算法主要包括预处理、窗口滑动、特征提取、特征选择、特征分类和后处理等6个关键步骤。其中,窗口大小、滑动方式对特征提取的质量影响较大,常采用部位形变模型及其扩展模型对滑动窗口进行判别,如方向梯度直方图、尺度不变特征变换等,整个检测过程效率与精度都较低。近数十年,随着深度学习算法的快速发展,目标检测算法的效率和性能也得到了极大的提升,各种高精度、低耗时的目标检测模型也相继问世。目前的目标检测算法主要可以为分为两类:单阶段模型和两阶段模型。其中单阶段模型指的是将目标的定位和识别放在一个无分支的深度神经网络中直接输出输入图像中所有对象的位置和类别,经典的单阶段检测模型主要有yolo系列、ssd系列等;而两阶段模型首先使用候选框检测算法粗略确定图像中物体可能存在的位置,比如r-cnn中的选择性搜索算法和faster r-cnn中的rpn网络等。对于单阶段检测模型而言,由于去除了候选框提取分支,一般而言检测速度要优于两阶段检测模型,但是精度却不及两阶段检测模型。因此两阶段和单阶段检测模型的侧重方面有所不同,单阶段模型更加注重检测速度,而两阶段检测模型更加注重精度。近年来,随着深度神经网络在工业界的使用,精度-速度更加权衡的检测模型成为了研究的热点,各种拥有较好精度-速度权衡的检测模型层出不穷。最近提出的目标检测新范式sparse r-cnn,拥有着较高的检测精度同时检测速度也优于大部分检测模型,最为关键的是sparse r-cnn实现简单,非常方便工业界的部署、算法复现以及改进。但是目前sparse r-cnn也存在着一些问题:(1)sparse r-cnn中采用了特征金字塔的候选框分配策略,即:,其中表示当目标大小为时应该分配的目标层级,分别表示目标的宽度和高度。此时,每一个目标只会被分配给一个特征层级,无法利用充分利用所有特征对目标进行检测。3.由于sparse r-cnn方法面临着上述问题,需要提出一个能有效解决这些问题的sparse r-cnn改进方法。技术实现要素:4.本发明设计了一种精度与效率更加权衡的改进sparse r-cnn方法一种基于改进sparse r-cnn的目标检测方法包括以下步骤:步骤101:图像特征提取步骤,使用主干网络对输入图像提取特征,通过卷积处理输出特征图;步骤102:区域特征提取步骤,以初始候选框及图像特征提取步骤中得到的输出特征图为输入,使用方法进行双线性插值处理,提取初始候选框所在区域的区域特征;步骤103:区域特征混合步骤,以初始候选框特征与区域特征提取步骤得到的区域特征为输入,根据特征混合函数对区域特征进行融合,获得与每个候选框对应的混合区域特征;步骤104:区域特征细化步骤,以初始候选框特征与区域特征混合步骤输出的混合区域特征为输入,通过动态卷积对混合区域特征进行细化处理获得细化候选框特征;所述动态卷积是指使用初始候选框特征动态地生成卷积核,再对每个候选框的混合区域特征进行卷积;步骤105:区域特征预测步骤,解码细化候选框特征,获得对应区域内的物体类别以及物体的所在的具体位置,并跳转至步骤102,重复k次;训练阶段,使用k次迭代中区域特征预测步骤输出的所有预测结果计算损失,训练改进sparse r-cnn网络;测试阶段,使用最后一次迭代中区域特征预测步骤输出的预测结果作为改进sparse r-cnn的最终输出结果。5.所述步骤101使用基于resnet结构的分类网络作为检测主干网,将卷积层conv3、conv4、conv5输出的图像特征图作为下一步骤的输入,同时使用步长为2的卷积对卷积层conv5输出的图像特征图进行下采样,下采样结果作为下一步骤的额外输入。6.所述步骤103中区域特征融合的具体步骤如下:步骤201:将步骤102提取出的区域特征和初始候选框特征作为输入;步骤202:使用线性投影函数将输入的初始候选框特征投影为一个混合权重向量用于混合区域特征;步骤203:使用标准的softmax函数对混合权重向量进行归一化处理;步骤204:使用经过归一化处理的混合权重向量作为权重进行特征的加权混合,得到与每个候选框对应的混合区域特征。7.所述步骤105使用多个卷积层组成的分类头和回归头分别将输入的细化特征转换为预测分类分数和边界框偏移,用于预测物体的具体类别和位置。8.通过使用特征混合处理方法混合区域特征,使得混合的特征既具有高维的抽象语义同时也具有低维的位置信息,有利于目标的检测与识别,特别是对于小目标对象检测。此外,由于提出的特征混合处理并没有引入过多的计算量和参数量,因此在极大提高精度的同时并没有明显增加检测时间。改进后的sparse r-cnn的精度与速度权衡将比原始sparse r-cnn更加优异。附图说明9.图1显示了改进sparse r-cnn的整体流程图。10.图2显示了改进sparse r-cnn的模型图。实施方式11.下面结合实例对本发明的技术方案进行具体说明。12.首先我们对改进sparse r-cnn的初始输入数据进行一个简单说明。具体如下表所示:13.其中初始候选框的数量n默认为100或300,初始候选框特征的数量与初始候选框数量一致,两者一一对应。14.如图1所示,本发明提供了一种基于改进sparse r-cnn的目标检测方法,图2是改进的sparse r-cnn模型图。方法包括以下步骤。15.1.图像特征提取步骤使用主干网络对输入图像提取特征(默认主干网络为resnet50),输出特征图,其中分别为resnet网络中conv3、conv4、conv5这3个卷积层输出的结果,特征图是通过在特征图上施加一个步长为2的卷积得到的,我们使用m表示输出特征图的数量,即m=4(包括后续步骤中的m)。计算方式如下所示,16.其中x表示输入图像,表示resnet主干网络。17.2.区域特征提取步骤将图像特征提取步骤中得到的输出特征图以及初始候选框作为输入,使用方法提取各个区域的特征,18.其中表示第i个候选框在l层特征图上提取的区域特征,d表示通道数,s表示区域特征大小,方法与mask r-cnn中的方法一致,主要使用双线性插值方法获取区域特征。19.3.区域特征混合步骤将初始候选框特征与区域特征提取步骤得到的区域特征作为区域特征混合步骤的输入,为每个候选框提取对应的混合区域特征,具体计算方式如下所示,20.其中表示与第i个初始候选框对应的混合区域特征,d表示通道数,s表示区域特征大小。表示特征混合函数,其具体的步骤如下所示。21.步骤201:区域特征提取步骤的输出和初始候选框特征作为特征混合函数的输入。22.步骤202:使用线性投影函数将输入的初始候选框特征投影为m个权重值。计算方式如下所示:23.其中表示第i个候选框特征经过投影函数得到的第l个权重值,表示第i个初始候选框特征,表示线性投影函数,d表示向量维度。24.步骤203:使用标准的softmax函数对输出的m个权重值进行归一化处理。计算方式如下所示,25.步骤204:使用经过归一化处理的m个权重值作为混合特征图的权重向量进行加权混合,得到最终的混合区域特征。具体计算方式如下所示,26.其中表示第i个候选框在特征图上的区域特征,表示最终第i个候选框获得的混合区域特征。27.4.区域特征细化步骤将区域特征混合步骤输出的候选框混合区域特征以及初始候选框特征作为输入以获取细化候选框特征,28.其中表示第i个初始候选框对应的细化特征向量,d表示向量维度,表示动态头模块,该模块使用混合区域特征和初始候选框特征通过动态卷积进行交互获得细化特征;所述动态卷积是指使用初始候选框特征动态地生成卷积核,再对每个候选框的混合区域特征进行卷积。29.5.区域特征预测步骤分类头和回归头均由多个卷积层构成,分别用于将输入的细化候选框特征转化为预测分类分数和边界框偏移。使用分类头和回归头解码区域特征细化步骤输出的细化候选框特征,分别生成预测类别分数和边界框偏移。将边界框偏移作用于初始候选边界框生成预测边界框,同时使用输出的预测边界框替换原来的初始候选边界框,以及使用细化候选框特征替换原来的初始候选框特征并跳转至区域特征提取步骤,重复k次(默认k为6)。分类头和回归头解码细化候选框特征的具体公式如下所示,[0030][0031][0032]其中,分别表示对应于第i()个初始候选框的预测类别分数和偏移量,category表示类别数;表示分类头和回归头,将偏移量应用于候选框,与faster r-cnn中的公式一致。[0033]训练阶段,使用k次迭代中区域特征预测步骤输出的所有预测结果计算损失训练改进sparse r-cnn网络,包括类和边界框预测。测试阶段,使用最后一次迭代中区域特征预测步骤输出的预测结果作为改进sparse r-cnn的最终输出结果,包括类和边界框预测。[0034]具体实施时,我们采用pytorch实现上述基于改进sparse r-cnn的目标检测方法。我们使用开源的检测框架detectron2来进行实现本发明。我们的方法主要是标准国际图像数据集coco进行训练和测试,其中方法实施采用的设置和已有工作是保持一致的,以方便公平对比。测试的指标是map(全类平均正确率),该指标综合衡量了各个类别的检测精度,因此所有的对比方法都使用这个指标来公平对比。[0035]通过使用特征混合处理方法混合区域特征,使得混合的特征既具有高维的抽象语义同时也具有低维的位置信息,有利于目标的检测与识别,特别是对于小目标对象检测。此外,由于提出的特征混合处理并没有引入过多的计算量和参数量,因此在极大提高精度的同时并没有明显增加检测时间。改进后的sparse r-cnn的精度与速度权衡将比原始sparse r-cnn更加优异。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种基于改进SparseR-CNN的目标检测方法与流程 专利技术说明
作者:admin
2023-07-07 15:35:24
967
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术