发布信息

基于改进的通道注意力机制的目标检测模型搜索方法与流程

作者:admin      2022-07-30 11:45:35     657



计算;推算;计数设备的制造及其应用技术1.本发明涉及目标检测模型设计及优化技术,特别涉及一种基于改进的通道注意力机制的目标检测模型搜索方法。背景技术:2.在计算机视觉领域中,目标检测是最热门的研究领域之一,而且在现实场景中有十分重要的应用,例如智能监控、自动驾驶、人脸检测等。目前,基于深度神经网络的目标检测模型,具有识别精度高,速度快等优点,已经成为了目标检测算法中的主流。目前,主流的基于深度神经网络的目标检测模型主要包括基于回归的目标检测算法和基于候选框的目标检测算法。其中,基于候选框的目标检测算法,如fast rcnn、faster rcnn、spp-net等,具有检测精度较高的检测精度,特别是面对小物体、拥挤等较难任务时,也具有较强的优势。3.一般来说,基于候选框的目标检测算法由三个部分组成:第一部分为主干网络,主要任务是提取图像特征;第二部分为候选区域提出,即通过rpn(region proposal network)网络,产生预测目标框proposals;第三部分为roi pooling,主要作用是对产生的预测目标框进行回归调整,并进行分类。目标检测模型的性能很大程度上依赖于主干网络的特征提取能力。4.为了增强主干网络的特征提取能力,在主干网络中融入通道注意力机制,通道注意力机制通过明确建模通道之间的相互依赖,自适应地重新校准通道相关的特性响应,减少模型中的冗余特征信息,进而提高模型的特征提取能力。通道注意力机制需要利用全连接层捕获非线性跨通道交互,为了平衡模型的性能和参数量,需要先用一个全连接层降维,再利用一个全连接层还原维度,增加了模型的复杂度和参数量。此外,现有的目标检测模型通常通过手工集成通道注意力机制,这极大的依赖于模型设计者的专业知识,而且获得的目标检测模型可能不是最优的。技术实现要素:5.本发明的目的是解决上述现有技术中存在的问题,本发明提供一种基于改进的通道注意力机制的目标检测模型搜索方法。6.为解决上述问题,本发明提供如下技术方案:本技术提供了一种基于改进的通道注意力机制的目标检测模型搜索方法,包括以下步骤:7.步骤s1,基于预定的计算模块集合生成搜索空间,其中包括改进的通道注意力机制模块;给定带有标签的目标检测数据集,将该数据集划分为训练数据集dtrain,验证数据集dval和测试数据集dtest;8.步骤s2,基于搜索空间生成m个神经网络模型,每个个体包含输入层,封装数个子网络块,每个子网络块内包含数个计算节点,并以全连接层为输出层;m为大于1的整数;9.步骤s3,将每个个体编码为一个整数序列,m个个体组成初始种群;10.步骤s4,基于imagenet数据集,对初始种群中的所有个体进行预训练,并为每个个体保存权值wi;11.步骤s5,基于预训练的初始种群和给定的目标检测数据集,以平均精度(map)作为评价指标,执行搜索步骤,搜索算法为进化算法;12.步骤s6,若满足预设的搜索算法终止条件,则结束搜索,并输出最优的个体序列,并将该序列解码为神经网络模型。13.所述的改进的通道注意力机制通过在通道域维度上为每个通道赋予一个权值,该权值表示该通道与特征图中的关键信息的相关度,权值越高,即相关度越大。所述的改进的通道注意力机制的结构由扩张卷积层、全局平均池化层、卷积核为k的一维卷积层、sigmoid层组成。所述的通道注意力机制将输入的特征图集合转换为转换特征图集合其计算过程为:14.(1)将特征图集合输入至扩张卷积层,提取特征。通道注意力机制依赖于感受野所提供的信息,有效的扩大卷积核感受野的覆盖范围可以有效的帮助通道注意力机制获取到更加准确的全局信息,本发明中采用扩张卷积,其可以通过扩张率,在不增大卷积核参数量的同时,扩大感受野,扩张率为超参数,计算公式为:15.ha=dil_convd(x)16.其中,ha表示扩张卷积层的输出,dil_conv表示扩张卷积,d表示扩张率。17.(2)全局平均池化层,利用全局平均池化层提取s个特征图的全局特征,其计算公式为:18.hb=gap_pooling(ha)19.其中,hb为全局平均池化层的输出。h2为一组一维向量,h2∈{h1,h2,……,h3},表示s个通道的全局特征。20.(3)为了避免降维和完成部分跨通道交互,利用一维卷积层,完成相邻通道的特征映射。所述特征映射公式如下:21.hc=c1dk(hb)22.其中,c1d表示一维卷积层。k表示所述一维卷积层卷积核的尺寸,即用于跨通道交互的通道数。hc表示一维卷积核的输出,且23.(4)利用sigmoid激活函数形成s个通道的权重集合w,且w={w1,w2,……,wc}。24.wd=σsigmoid(hc)25.(5)利用相乘模块,为每个通道赋予相应的权重。相乘模块的公式如下:26.u=x*wd27.式中,u为改进的通道注意力机制模块的输出。28.步骤s4,基于imagenet数据集,对初始种群中的所有个体进行预训练,并为每个个体保存权值wi;预训练方式为采样训练,训练过程为:29.(1)imagenet数据集的每一个mini-batch随机从初始种群中采样一个个体进行训练。并保存优化权值w*(a)。每个个体在被采样之后,会先继承之前训练得到的权值,之后再进行训练。优化目标为最小化神经网络架构a基于训练集ctrain的损失值目标函数为:[0030][0031][0032]其中,a为初始种群,a为采样到的神经网络架构个体,w为未优化权值,神经网络架构a通过训练数据集训练,通过最小化训练集ctrain损失值得到优化后的权值w*(a);[0033](2)当imagenet训练集遍历完毕之后,基于imagenet验证集评估每个个体的精度,并记录每个个体的验证集损失值[0034](3)重复步骤(1)—(2)直到模型收敛;[0035]基于预训练的初始种群和给定的目标检测数据集,以平均精度(map)作为评价指标,执行搜索步骤,搜索算法为进化算法,其具体步骤为:[0036](1)为每一个个体融合fpn网络、rpn网络、roi pooling层、分类模块、边界框回归模块,构成目标检测模型;[0037](2)初始化进化算法超参数,包括交叉概率pc,变异概率pm,最大进化代数g,每个个体训练的轮次(epoch)数e;[0038](3)基于训练集dtrain,对每个个体训练e个轮次;[0039](4)利用验证集dval评估每个个体的平均精度(map)值,作为每个个体的适应度值。[0040](5)基于当前种群,利用锦标赛选择法,选出两个个体,作为父代个体;[0041](6)根据交叉率pc,利用单点交叉方法对所述的两个父代个体序列中执行交叉操作,得到两个子代个体;[0042](7)重复步骤(5)-(6),直到子代个体数量达到m个,组成子代种群;[0043](8)基于训练集dtrain,对子代种群中的每个个体训练e个轮次;[0044](9)利用验证集dval评估子代种群中的每个个体的平均精度(map)值,作为每个个体的适应度值。[0045](10)根据变异率pm,对子代种群中的个体序列中的某一计算模块进行替换或者删除;[0046](11)将当前种群和子代种群合并,共包含由2m个个体,利用环境选择,选出适应度值排名前m个个体,组成下一代种群;并反馈至步骤(5),直到达到预设的进化代数。[0047]与现有技术相比,上述申请具有如下优点或者有益效果:[0048]本发明通过利用改进的通道注意力机制和神经网络架构搜索技术,提高目标检测模型主干网络的特征提取能力。相比于传统的通道注意力机制,改进的通道注意力机制降低了注意力机制模块的参数量,在前向计算过程中避免了先降维再升维的过程,可以降低通道注意力机制模块的计算复杂度。此外,本发明通过神经网络架构搜索技术,将改进的通道注意力机制模块自适应的集成到主干网络结构中,不依赖于模型设计者的专业知识,可以有效的提高主干网络的特征提取能力。附图说明[0049]图1是本发明的算法流程图;[0050]图2是本发明的一个目标检测模型整体架构示意图;[0051]图3是本发明的一个改进的通道注意力机制示意图。具体实施方式[0052]结合以下具体实施例,对本发明的优选实施方案进行描述,但不能以此限制本专利的保护范围。[0053]本发明结合具体实施例,并参照附图,进一步详细说明。[0054]本技术提供了一种基于改进的通道注意力机制的目标检测模型搜索方法,包括以下步骤:[0055]步骤s1,基于预定的计算模块集合生成搜索空间,搜索空间中包含的计算模块为:3×3深度可分离卷积模块,5×5深度可分离卷积模块,3×3最大池化模块,3×3平均池化模块,改进的通道注意力机制(d=2),改进的通道注意力机制(d=3)。给定带有标签的目标检测数据集,将该数据集划分为训练数据集dtrain,验证数据集dval和测试数据集dtest;[0056]步骤s2,基于搜索空间生成m个神经网络模型,每个个体包含输入层,封装五个子网络块,其中,第一,第三,第五子网络块为normal block,内部所有计算节点的步长为1,通过normal block输出的特征图的大小不会发生变化,第二,第四子网络为reduction block,内部所有的计算节点的步长为2,经过reduction block输出的特征图的大小会缩减为原来的一半;每个子网络块内包含五个计算节点,每个计算节点包含两个计算模块,即每个计算节点有两个输入,分别由两个计算模块计算,将两个计算模块的输出相加之后,作为计算节点的输出;并以全连接层为输出层;m为大于1的整数;[0057]步骤s3,将每个个体编码为一个整数序列,m个个体组成初始种群;[0058]步骤s4,基于imagenet数据集,对初始种群中的所有个体进行预训练,并为每个个体保存权值wi;[0059]步骤s5,基于预训练的初始种群和给定的目标检测数据集,以平均精度(map)作为评价指标,执行搜索步骤,搜索算法为进化算法;[0060]步骤s6,若满足预设的搜索算法终止条件,则结束搜索,并输出最优的个体序列,并将该序列解码为神经网络模型。[0061]所述的改进的通道注意力机制通过在通道域维度上为每个通道赋予一个权值,该权值表示该通道与特征图中的关键信息的相关度,权值越高,即相关度越大。如图3所示,所述的改进的通道注意力机制的结构由扩张卷积层、全局平均池化层、卷积核为k的一维卷积层、sigmoid层组成。所述的通道注意力机制将输入的特征图集合转换为转换特征图集合其计算过程为:[0062](4)将特征图集合输入至扩张卷积层,提取特征。扩张卷积层可以在不增大卷积核参数量的同时,扩大感受野。本实施例中,共包含两种改进的通道注意力机制,通过扩张卷积的扩张率进行区分,扩张率分别为d=2和d=3,计算公式为:[0063]ha=dil_conv(x)[0064]其中,ha表示扩张卷积层的输出,dil_conv表示扩张卷积。[0065](5)全局平均池化层,利用全局平均池化层提取s个特征图的全局特征,其计算公式为:[0066]hb=gap_pooling(ha)[0067]其中,hb为全局平均池化层的输出。h2为一组一维向量,h2∈{h1,h2,……,h3},表示s个通道的全局特征。[0068](6)为了避免降维和完成部分跨通道交互,利用一维卷积层,完成相邻通道的特征映射。所述特征映射公式如下:[0069]hc=c1dk(hb)[0070]其中,c1d表示一维卷积层。k表示所述一维卷积层卷积核的尺寸,即用于跨通道交互的通道数。hc表示一维卷积核的输出,且[0071](4)利用sigmoid激活函数形成s个通道的权重集合w,且w={w1,w2,……,wc}。[0072]wd=σsigmoid(hc)[0073](5)利用相乘模块,为每个通道赋予相应的权重。相乘模块的公式如下:[0074]u=x*wd[0075]式中,u为改进的通道注意力机制模块的输出。[0076]步骤s4,基于imagenet数据集,对初始种群中的所有个体进行预训练,并为每个个体保存权值wi;预训练方式为采样训练,训练过程为:[0077](1)imagenet数据集的每一个mini-batch随机从初始种群中采样一个个体进行训练。并保存优化权值w*(a)。每个个体在被采样之后,会先继承之前训练得到的权值,之后再进行训练。优化目标为最小化神经网络架构a基于训练集ctrain的损失值目标函数为:[0078][0079][0080]其中,a为初始种群,a为采样到的神经网络架构个体,w为未优化权值,神经网络架构a通过训练数据集训练,通过最小化训练集ctrain损失值得到优化后的权值w*(a);[0081](2)当imagenet训练集遍历完毕之后,基于imagenet验证集评估每个个体的精度,并记录每个个体的验证集损失值[0082](3)重复步骤(1)—(2)直到模型收敛;[0083]基于预训练的初始种群和给定的目标检测数据集,以平均精度(map)作为评价指标,执行搜索步骤,搜索算法为进化算法,如图1所示,其具体步骤为:[0084]为每一个个体融合fpn网络、rpn网络、roi pooling层、分类模块、边界框回归模块,构成目标检测模型;在融合fpn网络时,默认采用一组卷积核为1的卷积层,降低通道数,匹配fpn网络。首先对计算模块3进行1×1卷积,降低通道数得到p6,然后通过依次进行2倍最近邻上采样得到p5,p4,p3,p2,其中,p5,p4,p3,p2层的特征图需要与对应的计算模块特征图的长宽相同,以便进行逐元素相加。上采样完成之后,由fpn网络融合各层次图像特征信息,即融合分辨率高但语义信息不足的浅层特征和语义信息丰富但分辨率低的深层特征。其中,在p3-p6层,每一层都有9个anchor,定义anchor的大小为:32×32,64×64,128×128,256×256,512×512,比例设置为1:2,1:1,2:1。rpn网络输出的预测值包含有预测值(dets)包含有物体类别、边框位置的4位回归向量(x,y,w,h)、该物体的得分,由分类层,回归层产生。标签值(gts)中包含物体类别、边框位置的4位真值向量。对每一个anchor,都对应一个n维的一位有效编码(one-hot)向量,n为物体类别数,对于分类层来说,每个anchor都要n个类别,即一个n维向量,表示每一类的概率,基于one-hot编码,选择概率值最高的设置为1,其余n-1类设置为0。此外,每个anchor的4位回归向量(x,y,w,h)由回归层输出,用于预测anchor和它相对应的标签框位置的偏移量以精修anchor的位置,并计算损失。分类层和回归层参数不共享。此外,rpn输出的特征图,将通过roi池化操作,将所有特征图的尺寸统一为7×7,进一步输入到全连接网络中,预测每一个roi的分类,并预测偏移量以精修边框的位置,并计算损失。[0085](1)初始化进化算法超参数,包括交叉概率pc=0.95,变异概率pm=0.1,最大进化代数g=50,每个个体训练的轮次(epoch)数e=10;[0086](2)基于训练集dtrain,对每个个体训练e个轮次;[0087](3)利用验证集dval评估每个个体的平均精度(map)值,作为每个个体的适应度值。利用map值作为适应度函数,其表达式为:[0088][0089][0090]其中,p为类别j的准确率,r为类别j的召回率,apj为类别j的ap值,h为数据集中的类别总数。[0091](4)基于当前种群,利用锦标赛选择法,选出两个个体,作为父代个体;具体步骤为:[0092]步骤1,从种群中随机选两个个体,适应度值较高的个体保留为父代个体1;[0093]步骤2,重复步骤s51,直到产生预定数量的个体,保留为父代个体2。[0094](4)根据交叉率pc,利用单点交叉方法对所述的两个父代个体序列中执行交叉操作,得到两个子代个体;具体步骤为:[0095]步骤1,在区间[0,1]内随机产生一个数r,随机从第一种群中选择两个个体[0096]步骤2,若r《pm,将两个个体对应的染色体,沿左侧对齐,执行单点交叉;并将交换后的染色体保留至子代种群;[0097]步骤3,若r》pm,将两个个体保留至子代种群中,不执行任何操作;[0098](5)根据变异率pm,对子代种群中的个体序列中的某一计算模块进行替换或者删除;具体步骤为:[0099]步骤1,在区间[0,1]内随机产生任一个体对应的一个随机数t;[0100]步骤2,若r《pm,执行变异,将该个体中的某一模块进行替换或者删除;[0101]步骤3,若r》pm,则不执变异;[0102](6)重复步骤(5)-(6),直到子代个体数量达到m个,组成子代种群;[0103](7)基于训练集dtrain,对子代种群中的每个个体训练e个轮次;[0104](8)利用验证集dval评估子代种群中的每个个体的平均精度(map)值,作为每个个体的适应度值。[0105]将当前种群和子代种群合并,共包含由2m个个体,利用环境选择,选出适应度值排名前m个个体,组成下一代种群;并反馈至步骤(5),直到达到预设的进化代数。[0106]以上仅是本发明优选实施例,并非对实施方式的限制,对于所属领域普通技术人员来说,在不脱离本发明技术原理前提下,还可以做出其他改进与优化,而由此所进行的改进与优化也应视为本发明的保护范围。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部