计算;推算;计数设备的制造及其应用技术1.本发明涉及视频识别技术领域,尤其涉及一种基于零样本学习的视频动作识别方法。背景技术:2.海量视频数据中待识别的动作类型日益增加,如跑步、打篮球等,同时,同一批视频数据可能具有不同维度的动作标签。面对这样复杂的场景,标注足量的训练样本成本较高。如何快速高效地对视频中的动作进行识别,从而帮助后续的视频审核、用户推荐成为亟待解决的问题。3.深度学习的成功依赖于海量的训练数据,这使得训练好的模型缺少对于不可见类别的泛化能力与迁移能力。零样本学习的提出有效地解决了不可见类别的训练问题,其目标为通过学习可见类别的视觉特征与语义特征,从而实现对不可见类别的数据进行分类。零样本学习使得机器具有知识迁移的能力,其无需训练新类别的样本,可以减轻繁琐的人工标注过程,避免重新训练分类器,更加符合现实生活中的海量类别分类问题。4.零样本学习的范式为构建视觉特征与语义特征的联合空间。在训练阶段,在联合空间中对齐可见类别的视觉特征与对应的语义特征;在测试阶段,对于每一个待测试的视觉特征,通过最近邻搜索(nearest neighbor search,nns)算法寻找与其最匹配的语义特征,从而得到其所属的类别。5.零样本学习中核心的问题在于如何构建合适的语义特征实现可见类别到不可见类别的迁移过程。在零样本动作识别领域中,常见的语义特征可以分为以下三类:6.(1)手工标注属性。标注人员事先定义一个属性的集合,若某一类视频具有相应的属性,则对应属性标为1,否则标为0。对于同一类视频,其手工标注属性为由0、1组成的离散向量。虽然手工标注属性能够较好地连接可见类别和不可见类别,但它有以下两个缺点:a)该属性为人为手工标注,可能带有强烈的主观意愿,无法精准表达视频的语义信息;b)对于不同的数据,可能存在不同的属性集合,即不同数据的手工属性可能不同,无法直接迁移到任意数据使用,可扩展性较差。7.(2)词嵌入向量。考虑到手工标注属性的两个缺点,研究人员开始思考更加简单有效的方法——自然语言处理中的编码器。对于每一个动作名称,可以使用诸如word2vec、glove以及bert等预训练好的编码器得到其对应的词向量。受益于庞大的预训练语料库,该词向量可以直接作为语义属性连接可见类别与不可见类别。虽然词嵌入向量简单易用,但是它无法准确衡量不同动作之间的关系,同时没有利用视频本身的信息,在不可见类别上的性能有限。8.(3)视频中的物体属性。考虑到词嵌入向量的缺点,研究人员考虑使用视频本身的信息——视频中的物体作为语义特征。具体来说,从视频中采样固定长度的帧,将每一帧送入目标检测器或物体分类器得到其出现概率最大的物体,这些物体信息可以编码得到语义特征,从而连接可见类别与不可见类别。该类特征目前被广泛使用,在不可见类别上具有较好的性能。9.虽然视频中的物体属性取得了较好的性能,但是它只利用了视频中的空间信息(即每一帧的物体属性),忽略了视频的时序信息(即不同帧之间物体的动作关系),无法为视频提供准确的语义特征。技术实现要素:10.本发明针对现有技术视频中物体属性的缺点,提供一种基于零样本学习的视频动作识别方法,提出了一个新的视频属性作为语义特征,该属性同时考虑视频的空间信息(物体、场景)与时序信息(运动、互动),能够更加准确地描述视频的语义特征,从而更好地连接可见类别与不可见类别,在不可见类别上具有更高的识别准确率。同时,针对该语义特征的性质设计了一个新的对比损失函数,该损失函数使得视觉-语义联合空间具有更好的对齐性与均匀性,使得训练好的模型在不可见类别上具有更高的识别准确率。11.为了实现上述目的,本发明提供如下技术方案:12.一种基于零样本学习的视频动作识别方法,包括以下步骤:13.s1、对于可见类别视频数据,通过视觉编码器提取视觉特征;通过视频捕获器提取实例级别的捕获内容,实例级别的捕获内容包含了视频的空间信息和时序信息,通过自然语言处理中的编码器sbert得到捕获内容对应的捕获内容特征;14.s2、对于类别级别的类别名和类别描述,通过自然语言处理中的编码器sbert得到对应的类别名特征和类别描述特征,将捕获内容特征、类别名特征以及类别描述特征输入至关系蒸馏模块,关系蒸馏模块通过学习实例级别的捕获内容特征、类别级别的类别名特征以及类别描述特征之间的共现关系,从而为每个视频生成视觉-实例级别的视频属性;15.s3、根据视觉-实例级别的视频属性对比损失函数优化视觉-语义联合空间,直至模型收敛,得到训练好的零样本动作识别模型;16.s4、在不可见类别视频数据上评估训练好的零样本动作识别模型的性能,可见类别视频数据集合与不可见类别视频数据集合不存在交集。17.进一步地,步骤s1中,可见类别视频数据表示为其中,xn指原始视频片段,yn∈s指视频片段对应的类别名,s={1,...,k}指可见类别的类别集合,共有k类视频,n指可见类别中的视频个数。18.进一步地,步骤s1中,对于每一个视频数据xn,视频捕获器的输出为其中,tsl表示事件的开始时间,tel表示事件的结束时间,cl表示事件的描述语句,l表示对于视频数据xn,视频捕获器输出l个事件的描述语句。19.进一步地,通过自然语言处理中的编码器sbert将l个事件对应的捕获内容特征进行平均,从而得到每个视频捕获内容对应的捕获内容特征,如式(2)所示:[0020][0021]其中,cl表示事件的描述语句。[0022]进一步地,步骤s2中视觉-实例级别的视频属性的生成过程为:[0023]通过自然语言处理中的编码器sbert得到类别名yn以及类别描述desn对应的特征,如式(3)所示:[0024][0025]其中,hn为类别名特征,dn为类别描述特征;[0026]将捕获内容特征cn、类别名特征hn以及类别描述特征dn输入至关系蒸馏模块,得到实例级别的视频属性an,如式(4)所示:[0027]an=multihead(cn,hn,hn)+multihead(cn,dn,dn)ꢀꢀꢀꢀꢀꢀꢀ(4)[0028]其中,multihead(q,k,v)指多头注意力机制,其拼接了h个自注意力模块从而获取不同子空间中的信息,多头注意力机制的计算过程如式(5)所示:[0029][0030]其中,第一个公式表示自注意力模块的计算过程,第二个公式表示多头注意力机制的计算过程,第三个公式表示多头注意力中每一个头的计算过程,q表示查询值(query),k表示键值(key),kt为k的转置,v表示价值(value),wo,wiq,wik,wiv为可学习的参数,concat为拼接操作。[0031]进一步地,步骤s3中,对于视频的视觉特征vn,经过视觉投射器得到视觉表征f(vn);对于视频的实例级别的视频属性an,经过属性投射器得到语义表征g(an);经过两个投射器后,视觉特征和实例级别的视频属性被映射到视觉-语义联合空间中。[0032]进一步地,在视觉-语义联合空间中,既拉近同一个视频的视觉表征与语义表征,拉远不同视频的视觉表征与语义表征;又拉近同一类视频数据的视觉表征,拉远不同类视频数据的视觉表征,如式(6)所示:[0033][0034]其中,τ为温度系数,l指每一个视频数据的类别,f(vk)表示批数据中第k个样本对应的视觉表征,n为批大小。[0035]进一步地,步骤s4中,不可见类别的视频数据表示为m指不可见类别中的视频个数,不可见类别的类别集合为共有t类视频。[0036]与现有技术相比,本发明的有益效果为:[0037]本发明提供的基于零样本学习的视频动作识别方法,提出了一个新的实例级别的视频属性作为语义特征,该语义特征利用了视频的空间信息与时序信息,能够为视频提供更加精确的语义描述,从而更好地连接可见类别与不可见类别,在不可见类别上能够取得更高的识别准确率。具体来说,通过关系蒸馏模块学习实例级别捕获内容与类别级别的类别名、类别描述之间的共现关系,从而得到实例级别的视频属性。该实例级别的视频属性既包含了视频的个性(来源于视频捕获),又包含了视频所属类别的特性(来源于类别名、类别描述)。[0038]同时,为了更好地优化视觉-语义联合空间,本发明设计了一个新的对比损失函数——视觉-实例级别的视频属性对比损失函数。该对比损失函数既考虑了不同视频个体视觉表征与语义表征之间的关系,又考虑了不同类别视频视觉表征之间的关系,使得视觉-语义联合空间具有更好的对齐性与均匀性,这两个特性使得训练好的模型在不可见类别上的性能更优。附图说明[0039]为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。[0040]图1为本发明实施例提供的基于零样本学习的视频动作识别方法的流程图。[0041]图2为本发明实施例提供的基于零样本学习的视频动作识别方法的网络结构图。具体实施方式[0042]为了更好地理解本技术方案,下面结合附图对本发明的方法做详细的说明。[0043]本发明实施例提供的基于零样本学习的视频动作识别方法,流程如图1所示,网络结构如图2所示,具体包括以下步骤:[0044]s1、对于可见类别视频数据,通过视觉编码器提取视觉特征;通过视频捕获器提取实例级别的捕获内容,实例级别的捕获内容包含了视频的空间信息和时序信息,通过自然语言处理中的编码器sbert得到捕获内容对应的捕获内容特征;[0045]s2、对于类别级别的类别名和类别描述,通过自然语言处理中的编码器sbert得到对应的类别名特征和类别描述特征,将捕获内容特征、类别名特征以及类别描述特征输入至关系蒸馏模块,关系蒸馏模块通过学习实例级别的捕获内容特征、类别级别的类别名特征以及类别描述特征之间的共现关系,从而为每个视频生成实例级别的视频属性;[0046]s3、根据视觉-实例级别的视频属性对比损失函数优化视觉-语义联合空间,直至模型收敛,得到训练好的零样本动作识别模型;[0047]s4、在不可见类别视频数据上评估训练好的零样本动作识别模型的性能,可见类别视频数据集合与不可见类别视频数据集合不存在交集。[0048]其中关于参数设定如下:[0049]在训练阶段,仅能使用可见类别的视频数据其中,xn指原始视频片段,yn∈s指视频片段对应的类别名,s={1,...,k}指可见类别的类别集合,共有k类视频,n指可见类别中的视频个数。[0050]在测试阶段,训练好的模型将在不可见类别的视频数据上进行测试,m指不可见类别中的视频个数,不可见类别的类别集合为共有t类视频。[0051]需要注意的是,可见类别的类别集合s与不可见类别的类别集合应当不存在交集,具体来说,需要可见类别与不可见类别之间的词向量距离大于一定距离,如式(1)所示。[0052][0053]其中θ为距离阈值。[0054]在本方案中,原始的可见类别数据集选用kinetics700,它包含700类动作类别,共有536469个视频数据。不可见类别数据集选用ucf101和hmdb51。对于ucf101,它包含101类动作类别,共有13320个视频数据;对于hmdb51,它包含51类动作类别,共有6767个视频数据。为了保证可见类别的类别集合s与不可见类别的类别集合不存在交集,本实施例中将距离阈值θ设为0.05,得到清洗后的可见类别数据集kinetics662,它包含662类动作类别,共有501614个视频数据。[0055]本发明实施例的整体流程步骤如下:[0056]s1、对于可见类别视频数据将其输入至视觉编码器得到视觉特征vn,将其输入至视频捕获器得到实例级别的捕获内容,并输入至自然语言处理中的编码器sbert得到对应的捕获内容特征cn。[0057]s2、将类别级别的类别名yn以及类别描述desn输入至自然语言处理中的编码器sbert,得到对应的类别名特征hn以及类别描述特征dn,将cn、hn以及dn输入至关系蒸馏模块,得到实例级别的视频属性an。[0058]实例级别视频属性生成过程为:[0059]对于每一个视频数据(xn,yn),将其输入至视频捕获器得到实例级别的捕获内容。具体来说,对于每一个视频数据xn,视频捕获器的输出为其中,tsl表示事件的开始时间,tel表示事件的结束时间,cl表示事件的描述语句,l表示对于视频数据xn,视频捕获器会输出l个事件的描述语句。视频捕获输出的描述语句中既包含了视频的空间信息(物体、场景),又包含视频的时序信息(运动、互动)。例如,对于一个“俯卧撑”类别的视频,视频捕获输出的描述语句为“一个男孩跪在地板上,他的胳膊上下运动”,既包含了空间信息(男孩、地板上),又包含了时序信息(跪、胳膊上下运动),能够为视频提供更加准确的语义特征。为了综合考虑l个事件的信息,本实施例将这l个事件对应的特征进行平均,从而得到每个视频捕获内容对应的特征,如式(2)所示。[0060][0061]然而,受限于视频捕获器的能力,视频捕获输出的描述语句中可能存在一些噪声,这些噪声会影响不可见类别上的性能。例如,对于“化妆”类别的视频,视频捕获输出的描述语句容易出现“有一个人在摄像头前坐着”,这些宽泛的语句与类别本身的特性关系有限,使得不同类别之间的差异变小。[0062]因此,为了生成既保留视频个性(捕获内容),又具有类别特性的语义特征,本方案设计了一个关系蒸馏模块,该模块通过学习实例级别的描述语句、类别级别的类别名yn以及类别描述desn之间的共现关系,从而为每个视频生成实例级别的视频属性。[0063]首先,通过sbert得到类别名yn以及类别描述desn对应的特征,如式(3)所示。[0064][0065]将cn、hn以及dn输入至关系蒸馏模块,得到实例级别的视频属性an,如式(4)所示。[0066]an=multihead(cn,hn,hn)+multihead(cn,dn,dn) (4)[0067]其中,multihead(q,k,v)指多头注意力机制,它拼接了h个自注意力模块从而获取不同子空间中的信息。多头注意力机制的计算过程如式(5)所示。[0068][0069]其中,q表示查询值(query),k表示键值(key),v表示价值(value),wo,wiq,wik,wiv为可学习的参数,concat为拼接操作。[0070]这里得到的an既包含视频中的时空信息,又包含类别本身的特性,可以为视频提供更加准确的语义特征,从而更好地连接可见类别与不可见类别。[0071]s3、根据视觉-实例级别的视频属性对比损失函数优化视觉(vn)-语义(an)联合空间,得到训练好的零样本动作识别模型。[0072]为了优化视觉-语义联合空间,本发明针对所提出的实例级别的视频属性的性质设计了一个新的对比损失函数。对于视频的视觉特征vn,经过视觉投射器得到视觉表征f(vn);对于视频的实例级别的视频属性an,经过属性投射器得到语义表征g(an)。经过两个投射器后,视觉特征和实例级别的视频属性被映射到视觉-语义联合空间中。在联合空间中,拉近同一个视频的视觉表征与语义表征,拉远不同视频的视觉表征与语义表征。同时,为了保证联合空间具有更好的对齐性(alignment)与均匀性(uniformity),本发明考虑不同类别视觉表征之间的关系。具体来说,在联合空间中,拉近同一类视频数据的视觉表征,拉远不同类视频数据的视觉表征,如式(6)所示:[0073][0074]其中τ为温度系数,l指每一个视频数据的类别。f(vk)表示批数据中第k个样本对应的视觉表征,n表示批大小。[0075]对比损失函数最早出现于自监督学习中,常被用于学习具有判别力的表征,该表征可以迁移到下游任务中。在自监督学习中,输入模型的为正例对和负例对,在空间中拉近正例对,拉远负例对,其中核心的工作在与如何从数据集中构建正例对和负例对。具有代表性的工作simclr通过对数据进行数据增强来构建正例对,其对比损失函数如式(7)所示:[0076][0077]其中,(f(vn),f(vj))为正例对,vj表示与vn相对应的正例。部分已有的零样本动作识别方法也采用了对比损失函数,它们引入了类别的监督信息。具体来说,在空间中拉近视觉表征与其对应类别的语义表征,拉远视觉表征与其他类别的语义表征,其对比损失函数如式(8)所示:[0078][0079]其中s为可见类别的类别集合。sn为vn对应的语义信息,sk为s中每一类别的语义信息。需要注意的是,对于这些方法而言,同一类别的视频共享相同的语义特征,其忽略了同一类视频不同个体之间的差异。本发明提出了一个新的实例级别的视频属性作为语义特征,该实例级别的视频属性既包含了视频的个性(来源于视频捕获),又包含了视频所属类别的特性(来源于类别名、类别描述),能够为视频提供更加精准的语义描述。因此,在设计对比损失函数时,本发明拉近同一个视频的视觉表征与语义表征,拉远不同视频的视觉表征与语义表征;同时,拉近同一类视频数据的视觉表征,拉远不同类视频数据的视觉表征,如式(6)所示。这样的设计使得联合空间具有更好的对齐性(alignment)与均匀性(uniformity),在ucf101以及hmdb51数据集上的性能达到了业界领先的水平[0080]s4、在不可见类别视频数据上评估模型性能。[0081]在零样本动作识别中,核心的工作在于构建准确的语义特征,从而连接可见类别与不可见类别。本发明通过视频捕获模块,充分考虑了视频的空间信息(物体、场景)与时序信息(运动、互动),从而提供了更加精准的语义特征。同时,本发明通过设计了新的对比损失函数,使得视觉-语义联合空间具有更好的对齐性与均匀性,这两个特性使得训练好的模型在不可见类别上的性能更优。[0082]综上所述,本发明提供了一种简单有效的零样本视频动作识别方法,该方案在ucf101以及hmdb51数据集上的性能达到了业界领先的水平,如表1所示。[0083]表1 ucf101以及hmdb51数据集上的性能测试结果[0084]方法语义信息训练数据集ucf准确率训练数据集hmdb准确率wganmaucf37.5%‑‑odmaucf38.3%‑‑dazslmaucf48.9%‑‑act2vecwucf22.1%hmdb23.5%tarnwucf23.2%hmdb19.5%wganwucf25.8%hmdb29.1%odwucf26.9%hmdb30.2%obj2actwucf30.3%hmdb15.6%ts-gcnwucf34.2%hmdb23.2%saoewucf40.4%‑‑psgnnwucf43.0%hmdb32.6%e2ewkinetics48.0%kinetics31.2%e2e(aug)wkinetics49.2%kinetics32.6%ereducf51.8%hmdb35.3%clasterwucf52.7%hmdb42.6%本发明iakinetics63.3%kinetics41.1%[0085]其中,ma指手工标注属性,w指词嵌入向量,ed指在词嵌入向量的基础上融入视频中的物体属性,ia指本发明提出的实例级别的视频属性。[0086]以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,但这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种基于零样本学习的视频动作识别方法
作者:admin
2022-08-02 22:40:07
636
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术
- 下一篇: 基于蚁群算法的知识图谱补全方法及其相关设备与流程
- 上一篇: 一种骨髓脱钙组合物、制备方法及用途与流程