发布信息

用于行人重识别的匹配方法、装置、智能终端及存储介质与流程

作者:admin      2022-08-02 22:20:32     267



计算;推算;计数设备的制造及其应用技术1.本发明涉及视频监控技术领域,尤其涉及的是用于行人重识别的匹配方法、装置、智能终端及存储介质。背景技术:2.近年来,领域通用和开放世界度量在开放世界中面临若干挑战。虽然这些度量是从普通人的匹配中学习到的,但是,这些度量是在朴素假设下学习到的,比如为小规模网络学习度量,而这些小规模网络只有几对摄像头。此外,这些度量仅考虑短时间的重识别问题,其中,图像在有限的时间内被捕获,并且不考虑服装的变化。在现实世界中,同一个行人可以在多个摄像头网络域中被观察到,并且,在不同的时间间隔,该行人可以在不同的摄像头网络域中呈现不同的衣服;进一步地,该行人在实时视频中可能被遮挡。而目前度量只考虑裁剪良好的人在图像中间的图像作为输入,现有技术得到度量的鲁棒性、鉴别性和通用性不好,导致开放世界行人重识别的匹配准确性不高。3.因此,现有技术还有待改进和发展。技术实现要素:4.本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种用于行人重识别的匹配方法、装置、智能终端及存储介质,旨在解决现有技术中度量只考虑裁剪良好的人在图像中间的图像作为输入,现有技术得到度量的鲁棒性、鉴别性和通用性不好,导致开放世界行人重识别的匹配准确性不高的问题。5.本发明解决问题所采用的技术方案如下:6.第一方面,本发明实施例提供一种用于行人重识别的匹配方法,其中,所述方法包括:7.提取图库图像和被检索图像,并分别获取所述图库图像对应的第一行人前景图像和所述被检索图像对应的第二行人前景图像;获取预设的二进制分割掩码,并将所述二进制分割掩码、所述第一行人前景图像和所述第二行人前景图像输入已训练的度量学习模型,得到若干分割区域对应的特征距离;其中,每个分割区域对应第一行人前景图像的部分图像区域;每个分割区域对应第二行人前景图像的部分图像区域;所述度量学习模型基于各种服饰、各种姿态和各种部分被遮挡的样本训练得到;8.根据若干分割区域对应的特征距离,得到若干分割区域对应的相似度得分,并根据各个分割区域对应的相似度得分,得到匹配结果。9.在一种实现方式中,所述基于预设的模型分别获取所述图库图像对应的第一行人前景图像和所述被检索图像对应的第二行人前景图像包括:10.基于多人解析模型,对所述图库图像进行分割,得到所述图库图像对应的第一行人前景图像;11.基于多人解析模型,对所述被检索图像进行分割,得到所述被检索图像对应的第二行人前景图像。12.在一种实现方式中,所述度量学习模型的训练过程包括:13.获取初始图像对,并通过改变所述初始图像对中的前景图像的外观属性的方式,对所述初始图像对进行样本扩充,得到扩充图像对;将所述扩充图像对加入所述初始图像对,得到图像样本对;将所述图像样本对作为正图像样本对,并根据所述正图像样本对获取负图像样本对;14.将所述二进制分割掩码、所述正图像样本对和所述负图像样本对输入度量学习模型,输出若干分割区域对应的预测特征距离;15.根据各个分割区域对应的预测特征距离,得到总损失函数,并根据所述损失函数对所述度量学习模型的参数进行调整,以得到已训练的度量学习模型。16.在一种实现方式中,所述通过改变所述初始图像对中的前景图像的外观属性的方式,对所述初始图像对进行样本扩充,得到扩充图像对包括:17.基于预设的第一网络,对所述初始图像对中的前景图像进行姿态转换,得到所述初始图像对对应的第一图像对;18.基于预设的第二网络,对所述第一图像对进行训练域转换;19.基于预设的第三网络,将经过训练域转换后的第一图像对中的前景图像进行服饰变换,得到第二图像对;20.获取所述第二图像对对应的初始语义图,并将所述初始语义图中部分区域的所有像素值置0,得到目标语义图;将所述目标语义图分别乘以所述第二图像对中的每一个图像,得到扩充图像对。21.在一种实现方式中,所述度量学习模型包括卷积神经网络和交叉卷积模块;所述将所述二进制分割掩码、所述正图像样本对和所述负图像样本对输入度量学习模型,输出若干分割区域对应的预测特征距离包括:22.将所述正图像样本对和所述负图像样本对输入所述卷积神经网络,输出所述正图像样本对对应的第一特征对和所述负图像样本对对应的第二特征对;23.基于所述二进制分割掩码对所述第一特征对和所述第二特征对进行分割,得到四张图像样本各个分割区域的特征;24.将四张图像样本各个分割区域的特征输入交叉卷积模块,得到若干分割区域对应的预测特征距离。25.在一种实现方式中,所述预测特征距离包括第一预测特征距离、第二预测特征距离和第三预测特征距离;所述根据各个分割区域对应的预测特征距离,得到总损失函数包括:26.获取预设的第一边距和预设的第二边距;其中,所述第一边距和第二边距均为度量学习模型的训练阈值参数;27.针对每个分割区域,将每个分割区域对应的第一预测特征距离减去每个分割区域对应的第二预测特征距离后加上所述第一边距,得到每个分割区域对应的第一损失函数;28.将每个分割区域对应的第一预测特征距离减去每个分割区域对应的第三预测特征距离后加上所述第二边距,得到每个分割区域对应的第二损失函数;29.将每个分割区域对应的第一损失函数加上每个分割区域对应的第二损失函数,得到每个分割区域对应的损失函数;30.将所有分割区域对应的损失函数进行相加,得到总损失函数。31.在一种实现方式中,所述根据各个分割区域对应的相似度得分,得到匹配结果包括:32.计算所有分割区域对应的相似度得分的平均值,得到平均相似度得分;33.当平均相似度得分大于预设的阈值时,匹配结果为所述第一行人前景图像和第二行人前景图像匹配成功;34.当平均相似度得分小于预设的阈值时,匹配结果为所述第一行人前景图像和第二行人前景图像匹配失败。35.第二方面,本发明实施例还提供一种用于行人重识别的匹配装置,其中,所述装置包括:36.前景图像获取模块,用于提取图库图像和被检索图像,并分别获取所述图库图像对应的第一行人前景图像和所述被检索图像对应的第二行人前景图像;37.特征距离获取模块,用于获取预设的二进制分割掩码,并将所述二进制分割掩码、所述第一行人前景图像和所述第二行人前景图像输入已训练的度量学习模型,得到若干分割区域对应的特征距离;其中,每个分割区域对应第一行人前景图像的部分图像区域;每个分割区域对应第二行人前景图像的部分图像区域;所述度量学习模型基于各种服饰、各种姿态和各种部分被遮挡的样本训练得到;38.匹配结果获取模块,用于根据若干分割区域对应的特征距离,得到若干分割区域对应的相似度得分,并根据各个分割区域对应的相似度得分,得到匹配结果。39.第三方面,本发明实施例还提供一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如上述任意一项所述的用于行人重识别的匹配方法。40.第四方面,本发明实施例还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述中任意一项所述的用于行人重识别的匹配方法。41.本发明的有益效果:本发明实施例首先提取图库图像和被检索图像,并分别获取所述图库图像对应的第一行人前景图像和所述被检索图像对应的第二行人前景图像;然后获取预设的二进制分割掩码,并将所述二进制分割掩码、所述第一行人前景图像和所述第二行人前景图像输入已训练的度量学习模型,得到若干分割区域对应的特征距离;其中,每个分割区域对应第一行人前景图像的部分图像区域;每个分割区域对应第二行人前景图像的部分图像区域;所述度量学习模型基于各种服饰、各种姿态和各种部分被遮挡的样本训练得到;最后根据若干分割区域对应的特征距离,得到若干分割区域对应的相似度得分,并根据各个分割区域对应的相似度得分,得到匹配结果;可见,本发明实施例中由于度量学习模型基于各种服饰、各种姿态和各种部分被遮挡的样本训练得到,使得模型学习到的度量的鲁棒性、鉴别性和通用性更好,在开放世界长时间的行人重识别的匹配中准确性更高。附图说明42.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。43.图1为本发明实施例提供的用于行人重识别的匹配方法流程示意图。44.图2为本发明实施例提供的训练深度学习模型的示意图。45.图3为本发明实施例提供的深度学习模型应用的示意图。46.图4为本发明实施例提供的用于行人重识别的匹配装置的原理框图。47.图5为本发明实施例提供的智能终端的内部结构原理框图。具体实施方式48.本发明公开了用于行人重识别的匹配方法、装置、智能终端及存储介质,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。49.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。50.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。51.由于现有技术中,通用领域的行人重识别方法制定的标准中希望解决不可识别的人在不可见域的度量学习时不需要微调的问题,现有的度量学习假设1.近距离设置,对于每一个被检索的人都可以在图库中进行匹配;2.度量训练时用于短时间的重识别,如假设行人的衣服和外观都没有随着时间而改变;3.并不关注人在实时的拥挤场景下出现身体部分不对齐和被遮挡的情况;换句话说,真实世界的数据集不同于目前行人重识别度量的学习集。52.为了解决现有技术的问题,本实施例提供了一种用于行人重识别的匹配方法,通过度量学习模型基于各种服饰、各种姿态和各种部分被遮挡的样本训练得到,使得模型学习到的度量的鲁棒性、鉴别性和通用性更换,在开放世界长时间的行人重识别的匹配中准确性更高。具体实施时,首先提取图库图像和被检索图像,并分别获取所述图库图像对应的第一行人前景图像和所述被检索图像对应的第二行人前景图像;然后获取预设的二进制分割掩码,并将所述二进制分割掩码、所述第一行人前景图像和所述第二行人前景图像输入已训练的度量学习模型,得到若干分割区域对应的特征距离;其中,每个分割区域对应第一行人前景图像的部分图像区域;每个分割区域对应第二行人前景图像的部分图像区域;所述度量学习模型基于各种服饰、各种姿态和各种部分被遮挡的样本训练得到;最后根据若干分割区域对应的特征距离,得到若干分割区域对应的相似度得分,并根据各个分割区域对应的相似度得分,得到匹配结果;53.举例说明54.假设真实世界中的一个人p3,是在相机视频域d3的t1时刻被捕捉到的图像实例。现在,假设同一个人p3分别在相机视频域d2,d4,d5和d7的t2,t3,t4和t5时刻被捕捉到,但是没有在相机视频域d1和d6中被捕捉到。现实世界中的重识别度量的目的是找到所有不关联视频域中存在的p3的匹配人选,而p3在长时间的重识别背景下可能经历遮挡和更换服装的情况,这样,在现实世界中p3的匹配变得复杂起来。55.近期有些研究工作开始关注学习语义部分匹配来处理人的身体部分被遮挡和不对齐的问题,但是这些度量在封闭集中学习,并用于短时重识别,封闭集中人的特征仅限于在一个小范围的相机视频网络中学习和优化(通常一个视频域中有2-5对视图),并且封闭集没有关注视频域的通用特征学习。故,这些度量依然无法解决服装改变导致的长时间的重识别问题。56.这样,现实世界的行人重识别的挑战在于:在多视频域中,如何找到任意一个随机被检索人的匹配结果,也就是说,需要跨视频域网络中找到匹配结果。同时需要处理现实世界中当一个人处于拥挤的场景中时,人的身体部位出现不对齐或者被遮挡的情况,此外,还需要解决在长时间的重识别过程中行人可能变换服装的情况。最后,重识别的另一个挑战在于开放数据集的问题,如不管给定的被检索人是否存在于图像库,我们迫切需要重识别度量能在上述提到的开放世界复杂现实场景中保持域通用性、可判别性和鲁棒性。57.示例性方法58.本实施例提供用于行人重识别的匹配方法,该方法可以应用于视频监控的智能终端。具体如图1所示,所述方法包括:59.步骤s100、提取图库图像和被检索图像,并分别获取所述图库图像对应的第一行人前景图像和所述被检索图像对应的第二行人前景图像;60.具体地,图库为一个图库集合,每次可以从图库集合中选取三张图像,被检索图像为包含被检索人的图像。在本实施例中,基于预设的模型分别获取所述图库图像对应的第一行人前景图像和所述被检索图像对应的第二行人前景图像;预设的模型可以为行人检测模型或者多人解析模型,也就是说可以通过行人检测模型或者多人解析模型将所述图库图像中的行人分割出来,得到第一行人前景图像;通过行人检测模型或者多人解析模型将被检索图像中的行人分割出来,得到第二行人前景图像。61.得到第一行人前景图像和第二行人前景图像后,就可以执行如图1所示的如下步骤:s200、获取预设的二进制分割掩码,并将所述二进制分割掩码、所述第一行人前景图像和所述第二行人前景图像输入已训练的度量学习模型,得到若干分割区域对应的特征距离;其中,每个分割区域对应第一行人前景图像的部分图像区域;每个分割区域对应第二行人前景图像的部分图像区域;所述度量学习模型基于各种服饰、各种姿态和各种部分被遮挡的样本训练得到;62.具体地,预设的二进制分割掩码可以根据现有技术的方法计算得到,度量学习模型采用两个卷积网络,一个是cnn的卷积神经网络,一个是交叉视图表示学习卷积块,其中,可以用cnn的卷积神经网络提取两个行人前景图像的特征,用交叉视图表示学习卷积块获取两个行人前景图像中各个被分割部分对应的交叉特征,进而得到两个行人前景图像中各个部分对应的特征距离。度量学习模型基于各种服饰、各种姿态和各种部分被遮挡的样本训练得到,因此,可以学习到行人在长时间的重识别过程中更换服饰后的度量,为后续准确匹配做准备。63.在一种实现方式中,所述度量学习模型的训练过程包括如下步骤:64.h100、获取初始图像对,并通过改变所述初始图像对中的前景图像的外观属性的方式,对所述初始图像对进行样本扩充,得到扩充图像对;将所述扩充图像对加入所述初始图像对,得到图像样本对;将所述图像样本对作为正图像样本对,并根据所述正图像样本对获取负图像样本对;65.h200、将所述二进制分割掩码、所述正图像样本对和所述负图像样本对输入度量学习模型,输出若干分割区域对应的预测特征距离;66.h300、根据各个分割区域对应的预测特征距离,得到总损失函数,并根据所述损失函数对所述度量学习模型的参数进行调整,以得到已训练的度量学习模型。67.具体地,为了学习到开放世界和现实场景的通用度量,本发明随机选择几个通用视频域(也即相机视频域)作为训练域,比如d=5个域,分别是market-1501,duke,cuhk02,cuhk03和viper,实际中训练域可以尽可能的多。68.在步骤h100中,先获取一对初始图像(idx1,a,idx1,b),初始图像对都包含行人x1,来自于相机视图域d1的随机相机视图对(如视图a和视图b),实际中,在相机视图域d1中可能存在多个相机视图对(如2-10对视图),为了简单起见,我们只考虑2个视图,此外,重识别中大多数相机视频域均不重叠,这样行人x1的初始图像(idx1,a,idx1,b)不会在其他训练域(如d2,d3,d4,和d5)中被捕捉到。现在,根据初始图像对,就可以生成真实的训练数据。如通过改变所述初始图像对中的前景图像的外观属性的方式,对所述初始图像对进行样本扩充,得到扩充图像对;相应的,所述通过改变所述初始图像对中的前景图像的外观属性的方式,对所述初始图像对进行样本扩充,得到扩充图像对包括如下步骤:基于预设的第一网络,对所述初始图像对中的前景图像进行姿态转换,得到所述初始图像对对应的第一图像对;69.基于预设的第二网络,对所述第一图像对进行训练域转换;70.基于预设的第三网络,将经过训练域转换后的第一图像对中的前景图像进行服饰变换,得到第二图像对;71.获取所述第二图像对对应的初始语义图,并将所述初始语义图中部分区域的所有像素值置0,得到目标语义图;将所述目标语义图分别乘以所述第二图像对中的每一个图像,得到扩充图像对。72.具体地,第一网络为姿态生成网络,取x1的初始图像对(idx1,a,idx1,b),然后获取图像对中行人的姿态进行改变。为了达到上述目的,本发明采用现有技术的语义注意算法(可以为融合空间注意力机制的图像语义描述算法,也可以为基于自适应注意力机制的图像语义理解算法)得到目标姿态,通过目标姿态来改变初始图像对中行人的姿态。本发明将不同的随机目标姿态和目标姿态的语义图像输入到语义注意网络中,得到与行人x1原来姿态不同的各种新姿态图像对。在本实施例中,我们随机产生10对随机姿态,如,把ia作为行人x1的rgb图像,s作为ia的语义图像,p作为行人x1的源姿态掩码,基于s得到。进一步地,目标姿态掩码p'和目标姿态的语义图s'也输入到姿态生成网络φ,通过姿态生成网络φ得到x1的新的姿态图像i'a,公式如下:73.i'a=φ(w,ia,p,s,p',s')ꢀꢀꢀ(1)74.其中,φ是姿态生成网络,包含参数w。基于相同的原理,可以得到ib的新的姿态图像i'b,这样就可以得到行人姿态转换后的第一图像对(i'a,i'b)75.得到各种不同的姿态的第一图像对后,将各种不同的姿态的第一图像对加入到原始的图像对(ia,ib)中,得到扩充后的图像对,然后从扩充后的图像对选择一对包含行人x1的图像对,并将其转移到不同的训练域中。比如,行人x1来自于视频域d2,现在,在产生的各种姿态的图像对中随机选择一对图像,并将该对图像转移至随机的一个视频域中,比如将该对图像转移至视频域d1,d3或d4中的一个。采用现有技术中的方法(第二网络可以为生成函数网络),将行人x1图像对转移至d1域以外的其他域中。例如,域d2中的行人x1的图像对(ia,ib),然后将改变了姿态的图像对(i'a,i'b),也即第一图像对,通过下面的公式转移到域d3中:[0076][0077][0078]这里,fg'是通过现有技术的方法学习到的域d3的生成函数,用于将图像对(i'a,i'b)转移到域d3中,为生成函数网络的参数。[0079]将行人x1的图像对转移到不同的随机训练域的目的是实现真实世界数据,例如行人x1可以在不同的时间间隔在多个相机视频域中被观察到,重识别度量可以学习到域内不同相机视频的复杂关系,同时可以学习到行人从一个视频域到另一视频域转换过程中的复杂非线性关系。这样,我们可以学习到通用的不同行人特征和属性,实现在不可见域的全局可鉴别性和鲁棒性。[0080]接下来就是对进行姿态转换和训练转换后的图像进行行人x1的各种服饰变换,从而得到真实开放世界数据,已实现行人x1在不同的时间间隔更换衣服的长时间重识别问题。为了随机生成行人x1的各种服饰,本发明采用第三网络(语义引导像素采样网络)。网络的输入为行人x1的图像对和随机的五个其他行人的图像对,五个其他行人的图像对中行人的衣服外观用于改变行人x1的服饰。虽然,原始模型用于6个语义部分,但是人的衣服有各种各样的设计、材质和颜色,因此,我们改变了双臂、双腿、躯干、头部和双腿的语义引导像素采样,从而得到不同部分的像素级改变,然后给每个不同的部分设置不同的衣服。对行人x1的图像对(ia,ib)进行衣服颜色和样式的改变,得到第二图像对,改变方式为用预设的随机行人的衣服颜色和样式来改变行人x1的图像对(ia,ib)的,公式如下:[0081]b'=v→b,ꢀꢀꢀ(4)[0082]其中,v是随机选择的其他5个人,用于改变x1的衣服,b是ia的像素向量。b'是转换图像的8个语义部分的像素集合,比如i'a包含ia所有的像素值。为了得到更佳复杂和真实的数据,本发明选择一个单一语义部分用于将其像素值转移到b的相应部分,这样,我们得到新像素图像b',集合v通过下述公式得到:[0083]v={{nj}o}u,ꢀꢀꢀ(5)[0084]这里,j是行人u的第o部分的所有像素值,类似的,b通过下述公式得到:[0085]b={mj}o,ꢀꢀꢀ(6)[0086]这里,j是行人x1的图像ia的第o部分的所有像素值。[0087]接下来,获取所述第二图像对对应的初始语义图s,并将所述初始语义图中部分区域的所有像素值置0,得到目标语义图;例如目标语义图si,j=0,将所述目标语义图分别乘以所述第二图像对中的每一个图像,得到扩充图像对,也即得到遮挡样本,公式如下:[0088]ioccluded=i'axsi,j=0ꢀꢀꢀ(7)[0089]这里,ioccluded为遮挡样本,其第i部分的所有j个元素均为0。将所述扩充图像对加入所述初始图像对,得到图像样本对。[0090]现在已经得到各个视频域的所有扩充的训练样本,也即扩充图像对,现在也就得到一个开放世界数据,其中,被训练的人经历各种姿态的改变、各种服装的改变和身体不同部分的各种遮挡。现在假设,数据集中包含n个人,用集合a来表示,a用下面的公式给定:[0091]a={{p}s}n,ꢀꢀꢀ(8)[0092]这里,p代表人,s是p的图像的个数,n代表人的个数。[0093]从数据集a中随机抽取10%的人形成开放世界数据,然后将这个开放数据中每个人一半的数据抽取出来用作图库视图,同时将另一半用于被检索视图。数据集a中剩余90%的人也用作开放世界数据中的被检索视图。在形成开放数据的过程中,本发明选择的样本的方式为:图库视图可以包含源域中的人的样本,也可以包含其他训练域中的各种姿态、各种服装和各种身体部分被遮挡的人的样本。类似的,被检索图像同样包含所有上述样本。[0094]最后,将所述图像样本对作为正图像样本对,并根据所述正图像样本对获取负图像样本对;针对所述正图像样本对中的每个正图像样本,生成与所述正图像样本对应的冒名顶替者,得到两个冒名顶替者,将两个冒名顶替者作为负图像样本对。例如,行人x1的正图像对(ia,ib),那么两个冒名顶替者属于其他人的图像对。在本发明中,一个冒名顶替者是ia的冒名顶替者,另一冒名顶替者是ib的冒名顶替者,并且,冒名顶替者所处的域可以与正图像对(ia,ib)的域不同,也可以与正图像对(ia,ib)的域相同,具体不做限制。[0095]所述度量学习模型包括卷积神经网络和交叉卷积模块;步骤h200包括如下步骤:[0096]h201、将所述正图像样本对和所述负图像样本对输入所述卷积神经网络,输出所述正图像样本对对应的第一特征对和所述负图像样本对对应的第二特征对;[0097]h202、基于所述二进制分割掩码对所述第一特征对和所述第二特征对进行分割,得到四张图像样本各个分割区域的特征;[0098]h203、将四张图像样本各个分割区域的特征输入交叉卷积模块,得到若干分割区域对应的预测特征距离。[0099]具体地,与现有技术不同,本发明的特征提取不是所有包含噪音的背景像素的特征,而是只提取前景像素中的特征。因此,本发明的方法提取的特征可以更好的学习到一个人的特征,并且可以学习到人各个部分更深层的关系。具体实现时,采用现有技术中的方法得到提前计算好的二进制分割掩码,然后将该分割掩码和分割后得到的行人前景rgb图像输入到度量学习模型中。实际中,将所述正图像样本对的rgb图像和所述负图像样本对的rgb图像输入所述卷积神经网络,输出所述正图像样本对对应的第一特征对和所述负图像样本对对应的第二特征对;如ia的特征,ib的特征,ia的冒名顶替者的特征和ib的冒名顶替者的特征。然后将二进制分割掩码对、ia的特征,ib的特征,ia的冒名顶替者的特征和ib的冒名顶替者的特征进行分割,得到ia中行人各个部分的特征,ib中行人各个部分的特征,ia的冒名顶替者中行人各个部分的特征,ib的冒名顶替者中行人各个部分的特征。如,将现有技术计算得到的分割掩码和rgb图像输入到前景分割网络中,如假设i为原始rgb图像,前景分割图像i'通过下式给出:[0100]i’=ixsi[0101]这里,si为第i部分的分割二进制图,在本实施例中,行人(也即包含行人的前景图像)被分成20个部分。为了得到每个部分的特征,需要将不同部分的特征分离得到各个部分的交叉视图表示,以学习每个不同部分的度量。再一次使用现有技术计算得到的分割掩码,得到每个部分的特征。在本实施例中,如图2所示,行人每个部分的特征提取使用分割掩码,公式如下:[0102]fi=fxsi,ꢀꢀꢀ(10)[0103]这里,fi为第i部分的特征,f为卷积神经网络提取的特征,si为第i部分的分割二进制图。然后将上述所有特征输入交叉卷积模块,针对被分割后的行人的每个部分,得到ia与ib的各个部分的第一预测特征距离,ia与ia的冒名顶替者的各个部分的第二预测特征距离,ib与ib的冒名顶替者的第三预测特征距离。例如,g(x'i,k,x'j,k)为行人每个部分单独的特征对x'i,k和x'j,k的特征距离,x'i,k和x'j,j为第k部分的特征。g(x'i,k,x'j,k)是通过类似于四元组网络的一个交叉视图表示学习卷积模块,输入的是两个不相关视图的两个相关部分的特征,如视图a的头部特征和视图b的头部特征,在交叉视图学习过程中,很可能一些部分在一个或者两个视图中被遮挡或者不可见。对于这种情况下,本发明使用给定视图中的可见部分去获得交叉视图表示。例如,i5部分仅仅在视图a中可见,在视图b中不可见。本发明视图a中i5部分应用随机高斯噪声和特征遮挡,形成另外一个特征对。高斯噪声的表达式如下:[0104][0105]然后,用i5部分的特征(比如x'i),并用它的高斯遮挡特征(比如x”j),我们就能计算得到g(x'i,x”j),类似地,在两个视图域均不可见的部分的交叉视图表示,可以用0的随机特征向量去获得一个0值的交叉视图表示,如g(,..),这样,不需要更新各个部分度量的权重。在本实施例中,度量用mk表示,其中,k表示一个部分,k个不同部分得到k个不同的度量。[0106]在步骤h300中,所述预测特征距离包括ia与ib的第一预测特征距离,ia与ia的冒名顶替者的第二预测特征距离,ib与ib的冒名顶替者的第三预测特征距离;所述根据各个分割区域对应的预测特征距离,得到总损失函数包括如下步骤:获取预设的第一边距和预设的第二边距;其中,所述第一边距和第二边距均为度量学习模型的训练阈值参数;针对每个分割区域,将每个分割区域对应的第一预测特征距离减去每个分割区域对应的第二预测特征距离后加上所述第一边距,得到每个分割区域对应的第一损失函数;将每个分割区域对应的第一预测特征距离减去每个分割区域对应的第三预测特征距离后加上所述第二边距,得到每个分割区域对应的第二损失函数;将每个分割区域对应的第一损失函数加上每个分割区域对应的第二损失函数,得到每个分割区域对应的损失函数;将所有分割区域对应的损失函数进行相加,得到总损失函数。[0107]具体地,预设的第一边距为α1,预设的第二边距α2,其中,所述第一边距和第二边距均为度量学习模型的训练阈值参数;针对每个分割区域,将每个分割区域对应的第一预测特征距离减去每个分割区域对应的第二预测特征距离后加上所述第一边距,得到每个分割区域对应的第一损失函数g(xi,xj)-g(xi,xd1)+α1,将每个分割区域对应的第一预测特征距离减去每个分割区域对应的第三预测特征距离后加上所述第二边距,得到每个分割区域对应的第二损失函数;将每个分割区域对应的第一损失函数加上每个分割[0108]区域对应的第二损失函数,得到每个分割区域对应的损失函数g(xi,xj)-g(xj,xd2)+α2,将所有分割区域对应的损失函数进行相加,得到总损失函数:[0109]lquad=∑[g(xi,xj)-g(xi,xd1)+α1]+∑[g(xi,xj)-g(xj,xd2)+α2]ꢀꢀꢀ(12)[0110]其中,xi,xj,xd1,xd2为第k个部分的特征,α1和α2为边距。然后根据总损失函数,更新每个部分的度量以及特征提取网络的权重。总损失函数用于更新所有特征提取网络的权重直到所有部分的特征都从这个单一联合网络(度量学习模型)中提取,最终得到已训练的度量学习模型。[0111]模型训练结束,就可以进行测试,测试时,图库图像和被检索图像均可以从视频帧中获取,如cctv中,这样,每个图像帧捕捉到不止一个人,这样,可以通过分割掩码进行分割,得到包含行人的若干前景图像。然后提取若干前景图像的每个部分的特征,然后对图库图像和被检索图像中的人的每个部分进行自动匹配。[0112]得到若干分割区域对应的特征距离后,就可以执行如图1中如下步骤:s300、根据若干分割区域对应的特征距离,得到若干分割区域对应的相似度得分,并根据各个分割区域对应的相似度得分,得到匹配结果。[0113]具体地,如图3所示,根据若干分割区域对应的特征距离,得到若干分割区域对应的相似度得分,对于每个分割区域(如头、躯干、双手、双脚)等都会形成被检索图像与图库图像的特征距离,采用现有技术的方法就可以得到各个分割区域对应的相似度得分(如头的相似度得分),然后根据各个分割区域对应的相似度得分,得到匹配结果。相应的所述根据各个分割区域对应的相似度得分,得到匹配结果包括如下步骤:计算所有分割区域对应的相似度得分的平均值,得到平均相似度得分;当平均相似度得分大于预设的阈值时,匹配结果为所述第一行人前景图像和第二行人前景图像匹配成功;当平均相似度得分小于预设的阈值时,匹配结果为所述第一行人前景图像和第二行人前景图像匹配失败。如对k个部分的相似度得分进行求平均,得到平均相似度得分:[0114][0115]其中,scorek为第k部分相似度得分,预设的阈值t(如取值0.75),当savg》t时,则匹配结果为被检索图像和图库图像匹配成功;当savg《t时,则匹配结果为被检索图像和图库图像匹配失败。[0116]本发明的亮点:[0117]为了解决现实世界的重新识别与最近的领域通用度量和开放世界度量之间的差距,我们的工作提出了一种新的稳健度量。学习该度量可以为短时间和长时间的re id构建复杂的域间关系,在长时间re id中,不同域中的人的姿态和服装可能不同。此外,为了处理实时室外监控中的身体部分未对齐和被遮挡问题,我们学习了对象中每个语义部分的度量,以匹配不相交交叉视图对中的相应部分。因此,所学习的特征在不可见的域中更健壮、更具全局通用性和全局区分性,同时,该度量在许多不可见的域中具有健壮的能力,在这些域中,人面临大量身体部分被遮挡。因此,可以在现实世界中学习各个身体各个不同部分的度量来匹配任何不可见域中的人,而无需在特定给定域上进一步微调来学习度量。[0118]示例性设备[0119]如图4中所示,本发明实施例提供一种用于行人重识别的匹配装置,该装置包括前景图像获取模块401、特征距离获取模块402和匹配结果获取模块403:前景图像获取模块401,用于提取图库图像和被检索图像,并分别获取所述图库图像对应的第一行人前景图像和所述被检索图像对应的第二行人前景图像;[0120]特征距离获取模块402,用于获取预设的二进制分割掩码,并将所述二进制分割掩码、所述第一行人前景图像和所述第二行人前景图像输入已训练的度量学习模型,得到若干分割区域对应的特征距离;其中,每个分割区域对应第一行人前景图像的部分图像区域;每个分割区域对应第二行人前景图像的部分图像区域;所述度量学习模型基于各种服饰、各种姿态和各种部分被遮挡的样本训练得到;[0121]匹配结果获取模块403,用于根据若干分割区域对应的特征距离,得到若干分割区域对应的相似度得分,并根据各个分割区域对应的相似度得分,得到匹配结果。[0122]基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图5所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用于行人重识别的匹配方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏,该智能终端的温度传感器是预先在智能终端内部设置,用于检测内部设备的运行温度。[0123]本领域技术人员可以理解,图5中的原理图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。[0124]在一个实施例中,提供了一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:提取图库图像和被检索图像,并分别获取所述图库图像对应的第一行人前景图像和所述被检索图像对应的第二行人前景图像;[0125]获取预设的二进制分割掩码,并将所述二进制分割掩码、所述第一行人前景图像和所述第二行人前景图像输入已训练的度量学习模型,得到若干分割区域对应的特征距离;其中,每个分割区域对应第一行人前景图像的部分图像区域;每个分割区域对应第二行人前景图像的部分图像区域;所述度量学习模型基于各种服饰、各种姿态和各种部分被遮挡的样本训练得到;[0126]根据若干分割区域对应的特征距离,得到若干分割区域对应的相似度得分,并根据各个分割区域对应的相似度得分,得到匹配结果。[0127]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。[0128]综上所述,本发明公开了用于行人重识别的匹配方法、装置、智能终端及存储介质,所述方法包括:提取图库图像和被检索图像,并分别获取所述图库图像对应的第一行人前景图像和所述被检索图像对应的第二行人前景图像;获取预设的二进制分割掩码,并将所述二进制分割掩码、所述第一行人前景图像和所述第二行人前景图像输入已训练的度量学习模型,得到若干分割区域对应的特征距离;其中,每个分割区域对应第一行人前景图像的部分图像区域;每个分割区域对应第二行人前景图像的部分图像区域;所述度量学习模型基于各种服饰、各种姿态和各种部分被遮挡的样本训练得到;根据若干分割区域对应的特征距离,得到若干分割区域对应的相似度得分,并根据各个分割区域对应的相似度得分,得到匹配结果。可见,本发明实施例中由于度量学习模型基于各种服饰、各种姿态和各种部分被遮挡的样本训练得到,使得模型学习到的度量的鲁棒性、鉴别性和通用性更换,在开放世界长时间的行人重识别的匹配中准确性更高。[0129]基于上述实施例,本发明公开了一种用于行人重识别的匹配方法,应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部