发布信息

视频识别方法及其装置与流程

作者:admin      2022-08-31 08:27:26     990



计算;推算;计数设备的制造及其应用技术1.本技术涉及图像处理领域,尤其涉及一种视频识别方法及其装置。背景技术:2.深度神经网络最近在视频识别领域取得了广泛的成功,在包括视频的动作识别、事件检测、索引、检索等应用上均在以往性能的基础上有了很大的提升,设计出高性能的深度神经网络也成为了视频相关应用效果提升与技术落地的关键,而在相关技术中,对视频识别的神经网络结构,主要的缺陷在于很难在准确度和运算效率之间达到很好的平衡。技术实现要素:3.本技术旨在至少在一定程度上解决相关技术中的技术问题之一。4.为此,本技术第一方面实施例提出了一种视频识别方法,通过获取待识别视频中的视频帧的初始特征图;从初始特征图开始,依次进行n次特征融合处理,其中,第i次特征融合处理所处理的特征图i为第i-1次特征融合处理所输出的目标特征图i-1,i和n均为正整数,1<i≤n;特征融合处理包括:在每个特征提取通道上对特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,并对混合特征元素进行全特征维度的融合,得到融合后特征图i,对融合后特征图i进行跨通道感知,得到目标特征图i;基于第n次特征融合处理输出的目标特征图n,对待识别视频进行类别识别,以获取待识别视频的目标类别。5.本技术实施例提出的视频识别方法,将待识别视频中的特征元素之间的混合分解为三个独立特征维度的交互,再使用线性投影来对不同特征维度的交互结果进行结合,从而降低了计算复杂度与参数数量,在视频识别问题上达到了准确度与计算效率上更好的平衡。6.根据本技术的实施例,对特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,包括:对特征图i中的高度特征元素在高度维度上进行元素混合,以得到混合高度特征元素;对特征图i中的宽度特征元素在宽度维度上进行元素混合,以得到混合宽度特征元素;对特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素。7.根据本技术的实施例,对特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素,包括:获取特征图i在时间维度上的时间特征元素,并对时间特征元素进行分组;对每个分组内部的时间特征元素进行混合,以获得混合时间特征元素。8.根据本技术的实施例,对时间特征元素进行分组,包括:对时间特征元素进行均匀分组,以获取时间特征元素的第一分组。9.根据本技术的实施例,对时间特征元素进行分组,包括:对时间特征元素进行离散采样,以获取时间特征元素的第二分组。10.根据本技术的实施例,对时间特征元素进行分组,包括:在时间特征元素进行均匀分组的基础上,对时间特征元素进行窗口平移,以获取时间特征元素的第三分组。11.根据本技术的实施例,对时间特征元素进行分组,包括:从第一个时间特征元素开始,将每个时间特征元素与该时间特征元素之后连续的预设个数的时间特征元素确定为一组,以获取时间特征元素的第四分组。12.根据本技术的实施例,获取待识别视频中的视频帧的初始特征图,包括:将待识别视频中的视频帧向特征空间投影,以获取初始特征图。13.根据本技术的实施例,视频识别方法,包括:将待识别视频中的视频帧输入分类识别模型中,由分类识别模型中的三维投影层对视频帧进行投影,得到初始特征图;由分类识别模型中的n个三维多层感知机网络,从初始特征图开始依次进行n次特征融合处理,以输出目标特征图n;其中,n个三维多层感知机网络串行连接,第一个三维多层感知机网络的输入为初始特征图,第i个三维多层感知机网络输入的特征图i为第i-1个三维多层感知机网络所输出的目标特征图i-1,i和n均为正整数,1<i≤n;将目标特征图n输入分类识别模型中的平均池化层以对目标特征图n进行平均池化操作,并将进行平均池化操作后获取的均值特征图输入分类识别模型中的全连接层,以获取由全连接层输出的待识别视频的目标类别。14.根据本技术的实施例,三维多层感知机网络包括特征元素混合单元和跨通道感知单元,其中:由特征元素混合单元对特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,并对混合特征元素进行全特征维度的融合,得到融合后特征图i;由跨通道感知单元对融合后特征图i进行跨通道感知,输出目标特征图i。15.根据本技术的实施例,特征元素混合单元,包括:高度特征元素混合子单元、宽度特征元素混合子单元和时间特征元素混合子单元;方法还包括:由高度特征元素混合子单元对特征图i中的高度特征元素在高度维度上进行元素混合,以得到混合高度特征元素;由宽度特征元素混合子单元对特征图i中的宽度特征元素在宽度维度上进行元素混合,以得到混合宽度特征元素;由时间特征元素混合子单元对特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素。16.根据本技术的实施例,每相邻两个三维多层感知机网络之间包括一个过渡层,将目标特征图i输入过渡层中,由过渡层对目标特征图i增加特征提取通道的数量,并降低目标特征图i的分辨率。17.本技术第二方面实施例提出了一种视频识别装置,包括:获取模块,用于获取待识别视频中的视频帧的初始特征图;处理模块,用于从初始特征图开始,依次进行n次特征融合处理,其中,第i次特征融合处理所处理的特征图i为第i-1次特征融合处理所输出的目标特征图i-1,i和n均为正整数,1<i≤n;特征融合处理包括:在每个特征提取通道上对特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,并对混合特征元素进行全特征维度的融合,得到融合后特征图i,对融合后特征图i进行跨通道感知,得到目标特征图i;识别模块,用于基于第n次特征融合处理输出的目标特征图n,对待识别视频进行类别识别,以获取待识别视频的目标类别。18.根据本技术的实施例,处理模块,还用于:对特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,包括:对特征图i中的高度特征元素在高度维度上进行元素混合,以得到混合高度特征元素;对特征图i中的宽度特征元素在宽度维度上进行元素混合,以得到混合宽度特征元素;对特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素。19.根据本技术的实施例,处理模块,还用于:对特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素,包括:获取特征图i在时间维度上的时间特征元素,并对时间特征元素进行分组;对每个分组内部的时间特征元素进行混合,以获得混合时间特征元素。20.根据本技术的实施例,处理模块,还用于:对时间特征元素进行分组,包括:对时间特征元素进行均匀分组,以获取时间特征元素的第一分组。21.根据本技术的实施例,处理模块,还用于:对时间特征元素进行分组,包括:对时间特征元素进行离散采样,以获取时间特征元素的第二分组。22.根据本技术的实施例,处理模块,还用于:对时间特征元素进行分组,包括:在时间特征元素进行均匀分组的基础上,对时间特征元素进行窗口平移,以获取时间特征元素的第三分组。23.根据本技术的实施例,处理模块,还用于:对时间特征元素进行分组,包括:从第一个时间特征元素开始,将每个时间特征元素与该时间特征元素之后连续的预设个数的时间特征元素确定为一组,以获取时间特征元素的第四分组。24.根据本技术的实施例,获取模块,还用于:获取待识别视频中的视频帧的初始特征图,包括:将待识别视频中的视频帧向特征空间投影,以获取初始特征图。25.根据本技术的实施例,视频识别装置中:获取模块,用于将待识别视频中的视频帧输入分类识别模型中,由分类识别模型中的三维投影层对视频帧进行投影,得到初始特征图;处理模块,用于由分类识别模型中的n个三维多层感知机网络,从初始特征图开始依次进行n次特征融合处理,以输出目标特征图n;其中,n个三维多层感知机网络串行连接,第一个三维多层感知机网络的输入为初始特征图,第i个三维多层感知机网络输入的特征图i为第i-1个三维多层感知机网络所输出的目标特征图i-1,i和n均为正整数,1<i≤n;识别模块,用于将目标特征图n输入分类识别模型中的平均池化层以对目标特征图n进行平均池化操作,并将进行平均池化操作后获取的均值特征图输入分类识别模型中的全连接层,以获取由全连接层输出的待识别视频的目标类别。26.根据本技术的实施例,处理模块中,三维多层感知机网络包括特征元素混合单元和跨通道感知单元,其中:由特征元素混合单元对特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,并对混合特征元素进行全特征维度的融合,得到融合后特征图i;由跨通道感知单元对融合后特征图i进行跨通道感知,输出目标特征图i。27.根据本技术的实施例,处理模块中,特征元素混合单元,包括:高度特征元素混合子单元、宽度特征元素混合子单元和时间特征元素混合子单元;方法还包括:由高度特征元素混合子单元对特征图i中的高度特征元素在高度维度上进行元素混合,以得到混合高度特征元素;由宽度特征元素混合子单元对特征图i中的宽度特征元素在宽度维度上进行元素混合,以得到混合宽度特征元素;由时间特征元素混合子单元对特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素。28.根据本技术的实施例,处理模块中,每相邻两个三维多层感知机网络之间包括一个过渡层,将目标特征图i输入过渡层中,由过渡层对目标特征图i增加特征提取通道的数量,并降低目标特征图i的分辨率。29.本技术第三方面实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以实现如本技术第一方面实施例的视频识别方法。30.本技术第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于实现如本技术第一方面实施例的视频识别方法。31.本技术第五方面实施例提出了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如本技术第一方面实施例的视频识别方法。附图说明32.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:33.图1是本技术一个实施例的一种视频识别方法的示例性示意图。34.图2是本技术一个实施例的分类识别模型的示意图。35.图3是本技术一个实施例的一种三维多层感知机网络的结构示意图。36.图4是本技术一个实施例的对特征图i中的时间特征元素在时间维度上进行元素混合的示意图。37.图5(a)是对时间特征元素进行均匀分组以获取时间特征元素的第一分组的示意图。38.图5(b)是对时间特征元素进行离散采样以获取时间特征元素的第二分组的示意图。39.图5(c)是在时间特征元素进行均匀分组的基础上,对时间特征元素进行窗口平移以获取时间特征元素的第三分组的示意图。40.图5(d)是从第一个时间特征元素开始,将每个时间特征元素与该时间特征元素之后连续的预设个数的时间特征元素确定为一组以获取时间特征元素的第四分组的示意图。41.图6是本技术一个实施例的一种视频识别装置的示意图42.图7是本技术一个实施例的一种电子设备的示意图。具体实施方式43.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本技术,而不能理解为对本技术的限制。44.图1是本技术提出的一种视频识别方法的示例性实施方式,如图1所示,该视频识别方法,包括以下步骤:45.s101,获取待识别视频中的视频帧的初始特征图。46.确定待识别视频,并将待识别视频中的视频帧向特征空间投影,以获取初始特征图。其中,待识别视频可为高为h、宽为w、时长为t的三通道输入视频,示例性的,将待识别视频中的视频帧向特征空间投影时使用的局部窗口可为7×7×4以及采样间隔可为4×4×4,每一个采样的局部像素被一个共享的线性层投影到特征提取通道数量为c1的特征空间,以获取初始特征图。47.s102,从初始特征图开始,依次进行n次特征融合处理,其中,第i次特征融合处理所处理的特征图i为第i-1次特征融合处理所输出的目标特征图i-1,i和n均为正整数,1<i≤n;特征融合处理包括:在每个特征提取通道上对特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,并对混合特征元素进行全特征维度的融合,得到融合后特征图i,对融合后特征图i进行跨通道感知,得到目标特征图i。48.获取初始特征图后,从初始特征图开始,依次进行n次特征融合处理,其中,第i次特征融合处理所处理的特征图i为第i-1次特征融合处理所输出的目标特征图i-1,i和n均为正整数,1<i≤n。49.其中,特征融合处理包括:在每个特征提取通道上对特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,并对混合特征元素进行全特征维度的融合,得到融合后特征图i,对融合后特征图i进行跨通道感知,得到目标特征图i。50.其中,特征维度包括高度维度、宽度维度和时间维度,在对特征图i进行在特征维度上的特征元素混合以得到混合特征元素时,对特征图i中的高度特征元素在高度维度上进行元素混合,以得到混合高度特征元素;对特征图i中的宽度特征元素在宽度维度上进行元素混合,以得到混合宽度特征元素;对特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素。51.可选的,为了减少运算复杂度和参数数量,本技术可对时间特征维度上的时间特征元素进行分组后再进行元素混合。52.s103,基于第n次特征融合处理输出的目标特征图n,对待识别视频进行类别识别,以获取待识别视频的目标类别。53.根据第n次特征融合处理输出的目标特征图n,对待识别视频进行类别识别,以获取待识别视频的目标类别。示例性的,可对目标特征图n进行平均池化操作,并将进行平均池化操作后获取的均值特征图,并基于对均值特征图的处理,获取待识别视频的目标类别。54.其中,待识别视频的目标类别指的是待识别视频所对应的视频类别,比如说汽车类,宠物类和美食类等。55.本技术实施例提出的视频识别方法,将待识别视频中的特征元素之间的混合分解为三个独立特征维度的交互,再使用线性投影来对不同特征维度的交互结果进行结合,从而降低了计算复杂度与参数数量,在视频识别问题上达到了准确度与计算效率上更好的平衡。56.本技术提出的视频识别方法,可基于分类识别模型实现,该分类识别模型的整体结构,包括三维投影层、n个三维多层感知机网络、过渡层、平均池化层和全连接层。57.图2是分类识别模型的示意图,如图2所示,以该分类识别模型中的三维多层感知机网络的个数为4个为例,本技术提出的视频识别方法具体步骤包括:58.将待识别视频中的视频帧输入分类识别模型中,由分类识别模型中的三维投影层对视频帧进行投影,得到初始特征图。其中,待识别视频可为高为h、宽为w、时长为t的三通道输入视频,三维投影层使用的局部窗口为7×7×4以及采样间隔为4×4×4,每一个采样的局部像素被一个共享的线性层投影到特征提取通道数量为c1的特征空间,因此,三维投影层输出的初始特征图的特征维度为又由于其特征提取通道数量为c1,三维投影层输出的初始特征图可表示为59.获取三维投影层输出的初始特征图后,由分类识别模型中的4个三维多层感知机网络,从初始特征图开始依次进行4次特征融合处理,以由第4个三维多层感知机网络输出最终的目标特征图4,其中,4个三维多层感知机网络串行连接,第一个三维多层感知机网络的输入为初始特征图,第i个三维多层感知机网络输入的特征图i为第i-1个三维多层感知机网络所输出的目标特征图i-1,i和n均为正整数,1<i≤4。60.具体来说,第一个三维多层感知机网络的输入为初始特征图第一个三维多层感知机网络的输入为目标特征图161.第二个三维多层感知机网络的输入为目标特征图1第二个三维多层感知机网络的输出为目标特征图262.第三个三维多层感知机网络的输入为目标特征图2第三个三维多层感知机网络的输出为目标特征图363.第四个三维多层感知机网络的输入为目标特征图3第四个三维多层感知机网络的输出为目标特征图464.其中,第二个三维多层感知机网络、第三个三维多层感知机网络和第四个三维多层感知机网络中的开头,都包括一个过渡层,将前一个三维多层感知机网络输出的目标特征图i输入过渡层中,由过渡层对目标特征图i增加特征提取通道的数量,即c4》c3》c2》c1;并降低目标特征图i的分辨率,在经过渡层后,在该三维多层感知机网络中,目标特征图i的特征提取通道的数量和目标特征图i的分辨率不再发生变化。65.将第四个三维多层感知机网络输出的目标特征图4输入分类识别模型中的平均池化层以对目标特征图4进行平均池化操作,并将进行平均池化操作后获取的均值特征图输入分类识别模型中的全连接层,以获取由全连接层输出的待识别视频的目标类别。66.下面详细介绍三维多层感知机网络的结构,图3是本技术示出的一种三维多层感知机网络的结构示意图,如图3所示,三维多层感知机网络包括特征元素混合单元(token-mixing mlp)和跨通道感知单元(channel mlp),而特征元素混合单元内部细分为高度特征元素混合子单元(height mixing)、宽度特征元素混合子单元(width mixing)、时间特征元素混合子单元(grouped time mixing)以及线性投影子单元(linear projection)。其中,如图3所示,特征元素混合单元和跨通道感知单元两个部分均包含层归一化(layernorm)和残差结构来帮助感知机神经网络优化。67.其中:三维多层感知机网络中的特征元素混合单元,用于对特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,并由线性投影子单元对混合特征元素进行全特征维度的融合,得到融合后特征图i。其中,特征维度包括高度维度、宽度维度和时间维度,在对特征图i进行在特征维度上的特征元素混合以得到混合特征元素时,由高度特征元素混合子单元对特征图i中的高度特征元素在高度维度上进行元素混合,以得到混合高度特征元素;由宽度特征元素混合子单元对特征图i中的宽度特征元素在宽度维度上进行元素混合,以得到混合宽度特征元素;由时间特征元素混合子单元对特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素。68.本技术提出对高度、宽度和时间特征维度上的特征元素,每次只沿着一个特征维度进行特征元素混合,如此一来,每一次特征元素混合输入的特征元素数量可以得到显著的降低。对混合特征元素进行全特征维度的融合可以表达成为三个特征维度上元素混合结果的线性映射:[0069][0070]其中xh表示高度特征元素混合子单元输出的混合高度特征元素,xw表示宽度特征元素混合子单元输出的混合宽度特征元素,xt表示时间特征元素混合子单元输出的混合时间特征元素,fc为线性投影子单元中全连接层用来混合不同维度混合的结果。对于高度特征元素混合子单元和宽度特征元素混合子单元,可使用循环全连接层对高度特征元素和宽度特征元素进行建模。[0071]三维多层感知机网络中的跨通道感知单元,由两个线性层组成,两个线性层之间加入了非线性激活层来提升网络的拟合能力,跨通道感知单元用于对融合后特征图i进行跨通道感知,输出目标特征图i。[0072]具体来说,将任一三维多层感知机网络的输入的目标特征图i-1表示为特征x,则三维多层感知机网络的计算公式为:[0073]y=token-mixing-mlp(ln(x))+x[0074]z=channel-mlp(ln(y))+y[0075]其中ln为层归一化(layer norm),该三维多层感知机网络的输出z,也即目标特征图i,将被作为下一个三维多层感知机网络的输入。[0076]本技术实施例提出的视频识别方法,将待识别视频中的特征元素之间的混合分解为三个独立特征维度的交互,再使用线性投影来对不同特征维度的交互结果进行结合。而在时间维度的元素混合中,提出了分组时序混合操作,将待识别视频中的特征元素按时间顺序切分成不同的分组,每个分组内部独立进行信息混合,从而降低了时序混合操作的计算复杂度与参数数量,在视频识别问题上达到了准确度与计算效率上更好的平衡。[0077]图4是本技术提出的一种视频识别方法的示例性实施方式,如图2所示,基于上述实施例的基础上,对特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素,包括以下步骤:[0078]s401,获取特征图i在时间维度上的时间特征元素,并对时间特征元素进行分组。[0079]获取特征图i在时间维度上的时间特征元素,如果把待识别视频中所有时间特征元素当作一个分组,直接使用线性映射对所有时间特征元素进行混合,当输入特征为时,这种时序混合的输出为:[0080][0081]其中w∈rtc×tc是线性投影矩阵。尽管这种将所有时间特征元素都放在一个分组的方法可以获取更长时间的元素关联性,但其运算复杂度达到o(hwt2c2),参数数量为o(t2c2),两个指标都会随着待识别视频长度的增加平方级增长。[0082]因此,为了减少运算复杂度和参数数量,本技术对时间特征元素进行分组。[0083]在对时间特征元素进行分组时,下面介绍4中分组方式:[0084]作为一种可实现的方式,称之为短时混合(short-range gtm)方式:在对时间特征元素进行分组时,可获取待识别视频对应的时间特征元素的总个数t,以及分组后每个分组需要包含的时间特征元素的总个数s,即需要把时间特征元素按顺序平均分为t/s个分组,以获取时间特征元素的第一分组。示例性的,图5(a)是对时间特征元素进行均匀分组以获取时间特征元素的第一分组的示意图,如图5(a)所示,假设共有6个时间特征元素,分别为x1、x2、x3、x4、x5和x6,每两个时间特征元素分为一组,则可将x1和x2作为一组,将x3和x4作为一组,将x5和x6作为一组,将用此方式获取的时间特征元素的分组记为第一分组。另一示例性的,假设待识别视频对应的时间特征元素的总个数t为100,分组后每个分组需要包含的时间特征元素的总个数s为10,则需要把时间特征元素按顺序平均分为100/10=10个分组,即第1个时间特征元素至第10个时间特征元素为一组,第11个时间特征元素至第20个时间特征元素为一组,以此类推,第91个时间特征元素至第100个时间特征元素为一组,共分为10组。[0085]作为一种可实现的方式,称之为长时混合(long-range gtm)方式:相比短时混合方式,为了获取更长时间的关联性,可获取待识别视频对应的时间特征元素的总个数t,以及分组后每个分组需要包含的时间特征元素的总个数s,在对时间特征元素进行分组时,可对时间特征元素按顺序进行离散采样,每个分组内的时间特征元素为不连续的,以获取时间特征元素的第二分组。图5(b)是对时间特征元素进行离散采样以获取时间特征元素的第二分组的示意图,如图5(b)所示,假设共有6个时间特征元素,分别为x1、x2、x3、x4、x5和x6,每两个时间特征元素分为一组,对时间特征元素按顺序进行离散采样后,则将x1和x4作为一组,将x2和x5作为一组,将x3和x6作为一组,将用此方式获取的时间特征元素的分组记为第二分组。另一示例性的,假设待识别视频对应的时间特征元素的总个数t为100,分组后每个分组需要包含的时间特征元素的总个数s为10,则需要把时间特征元素按顺序平均分为100/10=10个分组,则第1、11、21、31……91个时间特征元素分为一组,第2、12、22、32……92个时间特征元素分为一组,以此类推,第10、20、30、……100个时间特征元素分为一组,共分为10组。[0086]作为一种可实现的方式,称之为窗口移动混合(shift-window gtm)方式:可获取待识别视频对应的时间特征元素的总个数t,以及分组后每个分组需要包含的时间特征元素的总个数s,在对时间特征元素进行分组时,在如上述短时混合(short-range gtm)方式对时间特征元素进行均匀分组的基础上,对时间特征元素进行窗口平移,以获取时间特征元素的第三分组。其中,对时间特征元素进行窗口平移,指的是将分组定住后,对各分组内的时间特征元素进行平移,示例性的,假设待识别视频对应的时间特征元素的总个数t为100,分组后每个分组需要包含的时间特征元素的总个数s为10,则需要把时间特征元素按顺序平均分为100/10=10个分组,在上述均匀分组后获得第1个时间特征元素至第10个时间特征元素为一组,第11个时间特征元素至第20个时间特征元素为一组,以此类推,第91个时间特征元素至第100个时间特征元素为一组,共分为10组的基础上,对时间特征元素进行窗口平移,若对时间特征元素进行窗口平移的平移个数为5,则第6个时间特征元素至第15个时间特征元素分为一组,第16个时间特征元素至第25个时间特征元素分为一组,以此类推,第86个时间特征元素至第95个时间特征元素分为一组,除此之外,将排在最前的第1个时间特征元素至第5个时间特征元素以及排在最后的第96个时间特征元素至第100个时间特征元素分为一组,共分为10组。另一示例性的,图5(c)是在时间特征元素进行均匀分组的基础上,对时间特征元素进行窗口平移以获取时间特征元素的第三分组的示意图,如图5(c)所示,假设共有6个时间特征元素,分别为x1、x2、x3、x4、x5和x6,每两个时间特征元素分为一组,在时间特征元素进行均匀分组的基础上,对时间特征元素进行窗口平移后,则将x1和x6作为一组,将x2和x3作为一组,将x4和x5作为一组,将用此方式获取的时间特征元素的分组记为第三分组。[0087]作为另一种可实现的方式,称之为元素移动混合(shift-token gtm)方式:可获取待识别视频对应的时间特征元素的总个数t,以及分组后每个分组需要包含的时间特征元素的总个数s,在对时间特征元素进行分组时,可从第一个时间特征元素开始,将每个时间特征元素与该时间特征元素之后连续的预设个数的时间特征元素确定为一组,以获取时间特征元素的第四分组。图5(d)是从第一个时间特征元素开始,将每个时间特征元素与该时间特征元素之后连续的预设个数的时间特征元素确定为一组以获取时间特征元素的第四分组的示意图,如图5(d)所示,假设共有6个时间特征元素,分别为x1、x2、x3、x4、x5和x6,每两个时间特征元素分为一组,在从第一个时间特征元素开始,将每个时间特征元素与该时间特征元素之后连续的预设个数的时间特征元素确定为一组后,则将x1和x6作为一组,将x2和x1作为一组,将x3和x2作为一组,将x4和x3作为一组,将x5和x4作为一组,将x6和x5作为一组,将用此方式获取的时间特征元素的分组记为第四分组。另一示例性的,假设待识别视频对应的时间特征元素的总个数t为100,分组后每个分组需要包含的时间特征元素的总个数s为10,则从第一个时间特征元素开始,将每个时间特征元素与该时间特征元素之后连续的9个时间特征元素确定为一组,即将第1个时间特征元素至第10个时间特征元素为一组,第2个时间特征元素至第11个时间特征元素为一组,第3个时间特征元素至第12个时间特征元素为一组,以此类推。[0088]需要注意的是,在上述分类识别模型中的不同的三维多层感知机网络各自对应的时间特征元素混合子单元中,可对以上4中分组方式混合使用,也可在不同的三维多层感知机网络各自对应的时间特征元素混合子单元中,只使用一种分组方式以对时间特征元素进行分组。[0089]s402,对每个分组内部的时间特征元素进行混合,以获得混合时间特征元素。[0090]对上述获得的时间特征元素混合子单元中的每个分组内部的时间特征元素进行混合,以获得混合时间特征元素。可选的,在每个分组的内部可使用线性投影方式来进行时间特征元素的混合。图5(a)、图5(b)、图5(c)和图5(d)中的y1、y2、y3、y4、y5和y6分别代表线性投影方式混合后的混合时间特征元素。[0091]本技术实施例提出的视频识别方法,在时间维度的元素混合中,提出了分组时序混合操作,将待识别视频中的特征元素按时间顺序切分成不同的分组,每个分组内部独立进行信息混合,从而降低了时序混合操作的计算复杂度与参数数量。[0092]图6是本技术示出的一种视频识别装置的示意图,如图6所示,该视频识别装置600,包括获取模块601、处理模块602和识别模块603,其中:[0093]获取模块601,用于获取待识别视频中的视频帧的初始特征图;[0094]处理模块602,用于从初始特征图开始,依次进行n次特征融合处理,其中,第i次特征融合处理所处理的特征图i为第i-1次特征融合处理所输出的目标特征图i-1,i和n均为正整数,1<i≤n;特征融合处理包括:在每个特征提取通道上对特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,并对混合特征元素进行全特征维度的融合,得到融合后特征图i,对融合后特征图i进行跨通道感知,得到目标特征图i;[0095]识别模块603,用于基于第n次特征融合处理输出的目标特征图n,对待识别视频进行类别识别,以获取待识别视频的目标类别。[0096]本技术实施例提出的视频识别装置,将待识别视频中的特征元素之间的混合分解为三个独立特征维度的交互,再使用线性投影来对不同特征维度的交互结果进行结合,从而降低了计算复杂度与参数数量,在视频识别问题上达到了准确度与计算效率上更好的平衡。[0097]进一步的,处理模块602,还用于:对特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,包括:对特征图i中的高度特征元素在高度维度上进行元素混合,以得到混合高度特征元素;对特征图i中的宽度特征元素在宽度维度上进行元素混合,以得到混合宽度特征元素;对特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素。[0098]进一步的,处理模块602,还用于:对特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素,包括:获取特征图i在时间维度上的时间特征元素,并对时间特征元素进行分组;对每个分组内部的时间特征元素进行混合,以获得混合时间特征元素。[0099]进一步的,处理模块602,还用于:对时间特征元素进行分组,包括:对时间特征元素进行均匀分组,以获取时间特征元素的第一分组。[0100]进一步的,处理模块602,还用于:对时间特征元素进行分组,包括:对时间特征元素进行离散采样,以获取时间特征元素的第二分组。[0101]进一步的,处理模块602,还用于:对时间特征元素进行分组,包括:在时间特征元素进行均匀分组的基础上,对时间特征元素进行窗口平移,以获取时间特征元素的第三分组。[0102]进一步的,处理模块602,还用于:对时间特征元素进行分组,包括:从第一个时间特征元素开始,将每个时间特征元素与该时间特征元素之后连续的预设个数的时间特征元素确定为一组,以获取时间特征元素的第四分组。[0103]进一步的,获取模块601,还用于:获取待识别视频中的视频帧的初始特征图,包括:将待识别视频中的视频帧向特征空间投影,以获取初始特征图。[0104]进一步的,视频识别装置600中:获取模块601,用于将待识别视频中的视频帧输入分类识别模型中,由分类识别模型中的三维投影层对视频帧进行投影,得到初始特征图;处理模块602,用于由分类识别模型中的n个三维多层感知机网络,从初始特征图开始依次进行n次特征融合处理,以输出目标特征图n;其中,n个三维多层感知机网络串行连接,第一个三维多层感知机网络的输入为初始特征图,第i个三维多层感知机网络输入的特征图i为第i-1个三维多层感知机网络所输出的目标特征图i-1,i和n均为正整数,1<i≤n;识别模块603,用于将目标特征图n输入分类识别模型中的平均池化层以对目标特征图n进行平均池化操作,并将进行平均池化操作后获取的均值特征图输入分类识别模型中的全连接层,以获取由全连接层输出的待识别视频的目标类别。[0105]进一步的,处理模块602中,三维多层感知机网络包括特征元素混合单元和跨通道感知单元,其中:由特征元素混合单元对特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,并对混合特征元素进行全特征维度的融合,得到融合后特征图i;由跨通道感知单元对融合后特征图i进行跨通道感知,输出目标特征图i。[0106]进一步的,处理模块602中,特征元素混合单元,包括:高度特征元素混合子单元、宽度特征元素混合子单元和时间特征元素混合子单元;方法还包括:由高度特征元素混合子单元对特征图i中的高度特征元素在高度维度上进行元素混合,以得到混合高度特征元素;由宽度特征元素混合子单元对特征图i中的宽度特征元素在宽度维度上进行元素混合,以得到混合宽度特征元素;由时间特征元素混合子单元对特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素。[0107]进一步的,处理模块602中,每相邻两个三维多层感知机网络之间包括一个过渡层,将目标特征图i输入过渡层中,由过渡层对目标特征图i增加特征提取通道的数量,并降低目标特征图i的分辨率。[0108]为了实现上述实施例,本技术实施例还提出一种电子设备700,如图7所示,该电子设备700包括:处理器701和处理器通信连接的存储器702,存储器702存储有可被至少一个处理器执行的指令,指令被至少一个处理器701执行,以实现如上述实施例所示的视频识别方法。[0109]为了实现上述实施例,本技术实施例还提出一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机实现如上述实施例所示的视频识别方法。[0110]为了实现上述实施例,本技术实施例还提出一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上述实施例所示的视频识别方法。[0111]此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。[0112]在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。[0113]尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部