计算;推算;计数设备的制造及其应用技术1.本发明涉及目标检测和识别技术领域,具体为一种基于互相关自注意力机制的目标特征提取方法。背景技术:2.随着深度学习的发展,基于卷积神经网络基础的图像处理方法逐渐成为主流。在深度学习中,随着数据信息量的快速增长,如何利用注意力机制,将有限的计算能力集中到目标区域,成为了当前的研究热点。目前有很多研究将注意力机制融合进特征提取中,首先卷积神经网络可以利用注意力机制,通过可学习的权重自动计算需要突出表示的特征区域,其次为了模仿人类的注意力行为,找到图像中的焦点区域。3.注意力机制可以分为空间注意力机制、通道注意力机制和自注意力机制三类。hou等人提出了coordinate attention(ca)机制,在空间维度对特征图进行处理,分别从两个维度进行池化操作,可以捕获信息的长程依赖和精确位置。wang等人首先对特征图进行池化操作,然后对特征图的通道维度进行一维卷积运算,来获得通道间的相互联系。为了将空间注意力机制和通道注意力机制结合,woo等人提出了cbam模块,先在通道维度进行权重分配,后在空间维度进行目标搜寻。transformer模型最早将自注意力机制应用于自然语言处理领域,随后由vit模型将自注意力机制扩展到计算机视觉领域。自注意力机制能够通过图像本身像素间的联系寻找到目标所在位置,同时能够一次性捕获全局信息。可以看出,基于卷积操作的空间注意力机制和通道注意力机制不具有自注意力机制捕获全局信息的特点,而自注意力机制则不能够使通道间信息交互。基于现有注意力机制的优缺点,本发明提出一种基于互相关自注意力机制的目标特征提取方法。技术实现要素:4.本发明的目的在于提供一种基于互相关自注意力机制的目标特征提取方法;利用了传统自注意力机制能够捕获全局信息的能力,并通过通道注意力机制实现了通道间的信息交互,在此基础上使用互相关矩阵寻找出特征图中的相似信息,进而找到图像中的注意力区域,以此实现高效且精准的目标识别。5.本发明是这样实现的:一种基于互相关自注意力机制的目标特征提取方法;具体按以下步骤执行;6.s1:首先输入大小为h*w*c的特征图x;7.s2:对特征图进行窗口划分操作;再将输入张量沿长和宽的方向每n个像素划分为一组,每一个窗口的大小为n*n;最后将窗口中的三维张量从h*w*c延展为hw*1*c。8.s3:线性层扩张通道维度为2*c,沿通道维度划分矩阵为矩阵m和矩阵v;具体按以下步骤执行;9.通过线性层扩张通道维度为2*c,沿通道维度划分矩阵为矩阵m和矩阵v,其中m矩阵和v矩阵中的每一列如式(1)和式(2):[0010][0011][0012]其中,其中i∈[0,c],c表示矩阵的通道数。[0013]s4:获取互相关矩阵;具体按以下步骤执行,[0014]s4.1:将m矩阵中每一列向量复制为h*w列,再将复制后得到的大小为(h*w)*(h*w)的矩阵复制为两份,并将其中一份进行转置,最后将复制后的矩阵和其转置矩阵相减,获得了m矩阵中每个元素与其他元素的差异,该矩阵定位为mdis;[0015]s4.2:将mdis矩阵中每个通道对应位置元素相加,获得的分子矩阵为,[0016]s4.3:将分母矩阵定义为其表达式如式(3):[0017][0018]s4.4:将分子矩阵除分母矩阵,获得相似性矩阵mmask,计算式如式(4);[0019][0020]s4.5:将矩阵mmask使用1*1大小的卷积核进行卷积操作。[0021]s5:激活操作;将卷积后的张量使用激活函数进行激活,将激活函数定义如式(5);[0022]m*=sofimax(1-sigmoid(x))ꢀꢀꢀꢀ式(5)[0023]其中,其中x为输入张量,m*为通过激活函数后的矩阵。[0024]s6:进行自注意力计算;将激活后的矩阵m*与矩阵v进行乘积运算;将运算后的张量结果进行重新排列为h*w*c;再将重新排列的结果与通道注意力机制得到的通道权重进行对应通道相乘;[0025]s7:进行通道注意力计算;[0026]s8:输出大小为h*w*c的特征图y。[0027]进一步,添加通道注意力机制,首先将输入的特征图h*w*c,经过平均池化,得到大小为1*1*c的特征图;将特征图使用大小为3*1的一维卷积核进行卷积运算;将卷积后的特征值通过sigmoid函数进行激活,其具体实现公式如式(6):[0028]e(x)=sigmoid(c3×1(avgpool(x)))ꢀꢀ式(6)[0029]其中,x表示输入的特征,c3×1表示尺寸为3*1的卷积操作。[0030]进一步,运行的网络模型为yolov5,运行步骤如下:[0031]s8.1:获取数据集,并将数据集进行mosaic数据增强;将增强后的数据送入网络中进行训练;[0032]s8.2:将一种基于互相关自注意力机制的目标特征提取方法应用与yolov5网络中,将neck结构中的最后三个c3模块进行替换,替换方法为:[0033]s8.2.1:将输入张量复制为2份,分别通过两个分支进行处理;[0034]s8.2.2:将其中一个分支经过1*1卷积和改进的自注意力机制;将另一个分支经过1*1卷积;[0035]s8.2.3:将两个分支的输出结果进行concat操作,沿通道维度进行拼接后,经过1*1卷积操作;[0036]s9:优化算法采用随机梯度下降算法sgd作为优化器,以16张图片作为一个训练批次,模型初始学习率为1e-2,权重衰减参数为5e-4,且动量为0.937,训练300个epoch。在模型训练的初始阶段,采用3个epoch进行热身训练;[0037]s10:训练模型后对图片进行预测,得到结果。[0038]进一步,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被主控制器执行时实现如上述中任一项所述的方法。[0039]与现有技术相比,本发明的有益效果是:[0040]寻找特征图中元素间的相关性,获取目标的相似特征,同时令通道间信息共享,实现空间维度和通道维度的注意力区域选取。本发明提高了模型对图像中待测信息的识别效果,提升了模型的识别精度。附图说明[0041]为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。[0042]图1是本发明模型流程图。[0043]图2是本发明在yolov5网络中运行结构图。[0044]图3是本发明中互相关自注意力机制的模块原理图。[0045]图4是本发明中互相关自注意力机制的流程图。[0046]图5是本发明中通道注意力操作的模块原理图。[0047]图6是本发明中互相关自注意力机制中的分子矩阵原理图。具体实施方式[0048]为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。[0049]请参阅图1-6,一种基于互相关自注意力机制的目标特征提取方法,运行的网络模型为yolov5,在本发明中使用的yolov5的各模块包括:[0050]1、focus模块:将rgb图像的三通道扩大四倍变为十二个通道,再经过一次卷积运算得到二倍下采样的特征图;[0051]2、conv模块:由二维卷积、批归一化和激活函数组成;[0052]3、spp模块:将输入图像分别进行5*5、9*9、13*13的最大池化操作,再通过卷积获得融合后的特征;[0053]4、c3模块:包含三个conv模块和一个bottleneck结构,其中一条支路经过conv模块和bottleneck模块,另一条经过conv模块,将两个支路结果进行concat操作并经过最后一个conv模块;[0054]5、互相关c3模块:在c3模块的基础上将bottleneck结构替换为互相关自注意力机制。[0055]本实施例中,将本发明与yolov5网络结合后,运行步骤如下:[0056]s1:获取数据集,进行数据划分,将数据集进行mosaic数据增强。[0057]s2:搭建yolov5网络模型。[0058]s3:,将一种基于互相关自注意力机制的目标特征提取方法应用与yolov5网络中,将neck结构中的最后三个c3模块进行替换,步骤如下:[0059]s3.1:将输入张量复制为2份,分别通过两个分支进行处理。[0060]s3.2:将其中一个分支经过1*1卷积和改进的自注意力机制。[0061]s3.3:将另一个分支经过1*1卷积。[0062]s3.4:将两个分支的输出结果进行concat操作,沿通道维度进行拼接后,经过1*1卷积操作。[0063]s4:将处理好的数据集送入模型中进行训练,通过测试图像检测模型结果。[0064]s5:优化算法采用随机梯度下降算法(sgd)作为优化器,以16张图片作为一个训练批次,模型初始学习率为1e-2,权重衰减参数为5e-4,且动量为0.937,训练300个epoch。在模型训练的初始阶段,采用3个epoch进行热身训练。本发明使用pytorch框架进行搭建,并使用intel xeon gold 5320cpu@2.20ghz,nvidia rtx a4000 gpu,系统为ubuntu 18.04。[0065]s6:将原始yolov5模型和加入本发明提出方法的yolov5模型进行对比,比较两种网络测试效果,结果如表1所示:[0066]表1实验结果对比表[0067] precision(%)recall(%)ap(%)yolov578.671.273.3提出的方法79.276.977.1[0068]精准率指标表示的含义是模型预测出的所有目标中,真正为目标的是多少。召回率指标表示的是在模型在所有真正目标中成功预测出了多少。平均精度可以平衡精准率和召回率两个指标,将召回率作为横坐标,精准率作为纵坐标,计算两个参数围成的曲线(pr-curve)下的面积大小。[0069]完成以上步骤,可以实现高效、准确的目标识别,能够提升目标预测准确率。[0070]本实施例中,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被主控制器执行时实现如上述的任一项所述的方法。[0071]以上所述仅为本发明的优选实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种基于互相关自注意力机制的目标特征提取方法
作者:admin
2022-10-01 06:56:05
247
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术
- 下一篇: 一种屏幕多角度摆动机构的制作方法
- 上一篇: 核苷酸混合物在用于防治阿尔茨海默症制剂中的应用的制作方法