发布信息

一种基于交叉注意力机制的多模态情感识别方法 专利技术说明

作者:admin      2023-06-28 16:06:51     381



计算;推算;计数设备的制造及其应用技术1.本发明涉及计算机视觉技术领域,尤其涉及一种基于交叉注意力机制的多模态情感识别方法。背景技术:[0002]“完善心理健康和精神卫生服务”,民众对心理健康的需求日益增大。然而,在线下心理咨询服务不便的情况下,如何在远程环境下准确获取咨询者情感状态,为之提供高质量线上心理咨询服务,成为亟待解决的问题。因此,采用一种实时在线情感识别方法辅助心理咨询,以提高心理咨询师在线上环境下对咨询者的情感体察、进而高效进行心理疏导,意义重大。[0003]通常,咨询者的情感类型可以从面部表情、语音情感等方面反映出来。然而,在线心理咨询场景下,存在以下问题:①经常出现由各种遮挡引起的视觉信息丢失,导致无法准确判断咨询者当前面部表情及情感状态的情况;②仅依靠单方面的信息捕捉很难准确客观判断当前咨询者的情感状态,而且面部表情等外显行为具有一定欺骗性,致使检测结果的准确率降低;③传统多模态信息融合交互性较差,且常出现多方面信息冲突现象,判断效果较差。④对于心理咨询师而言,缺少在线心理咨询者状态的实时情感状态反馈等一系列辅助功能。[0004]因此,当前在线心理咨询场景下尚不能有效的识别咨询者的情感,识别的客观性与精准度不能满足诊疗要求。技术实现要素:[0005]本发明提供一种基于交叉注意力机制的多模态情感识别方法,用以解决现有技术在线心理咨询场景下无法准确识别咨询者当前情感状态的缺陷,通过多模态信息互补,综合、全面地提高在线心理咨询场景下情感识别的客观性与精准度,从而辅助在线心理咨询高效高质进行。[0006]本发明提供一种基于交叉注意力机制的多模态情感识别方法,包括:[0007]采集用户同一时刻的面部表情图像、语音信号以及面部肌电信号;[0008]分别对所述面部表情图像、所述语音信号以及所述面部肌电信号进行预处理;[0009]将预处理后的所述面部表情图像、所述语音信号以及所述面部肌电信号分别输入训练好的情感识别模型中以获取单模态情感识别结果,输出识别得到的面部表情类型、语音情感类型和肌电情感类型;[0010]基于预设的权值,对识别得到的面部表情类型、语音情感类型和肌电情感类型进行加权求和,输出融合特征后的多模态融合情感类型。[0011]根据本发明提供的一种基于交叉注意力机制的多模态情感识别方法,将识别得到的面部表情类型、语音情感类型和肌电情感类型中每两者进行比较,输出单一单模态情感识别结果与其他两种单模态情感识别结果的比较结果,若任一比较结果与预设的异常情况相同时,判断当前用户存在情绪异常。[0012]根据本发明提供的一种基于交叉注意力机制的多模态情感识别方法,分别对所述面部表情图像、所述语音信号以及所述面部肌电信号进行预处理包括:[0013]对所述面部表情图像依次进行去除遮挡、图像修复重建以及图像增强操作,提取有效面部信息,消除无用信息;[0014]对所述语音信号依次进行预加重、分帧加窗操作,提取有效语音信息,消除无用信息;[0015]对所述面部肌电信号进行去噪处理,提取有效肌电信息,消除无用信息。[0016]根据本发明提供的一种基于交叉注意力机制的多模态情感识别方法,通过训练好的情感识别模型对预处理后的所述面部表情图像、所述语音信号进行识别时,基于交叉注意力机制对识别中的所述面部表情图像、所述语音信号进行跨膜态交互,使所述面部表情图像、所述语音信号各自对应的原单模态信息的向量同时包含图像信息以及对话语音信息。[0017]根据本发明提供的一种基于交叉注意力机制的多模态情感识别方法,将预处理后的所述面部表情图像、所述语音信号以及所述面部肌电信号分别输入训练好的情感识别模型中以获取单模态情感识别结果:所述情感识别模型包括表情识别子网络、语音情感识别子网络以及面部肌电情感识别子网络;[0018]将预处理后的所述面部表情图像输入预训练的所述表情识别子网络,将面部表情图像分为若干个预设尺寸的图像块后进行合并,直至输出预设维度的特征图,利用标签空间拓扑信息和标签分布学习进行辅助分类,输出识别得到的分类结果;[0019]将预处理后的所述语音信号输入预训练的所述语音情感识别子网络,将语音信号两层卷积,提取局部特征,经过输出层输出识别得到的分类结果;[0020]将预处理后的所述面部肌电信号输入预训练的所述面部肌电情感识别子网络,通过预设数目个的特征向量分别对应面部不同采样点的每个特征,输出得到分类结果。[0021]根据本发明提供的一种基于交叉注意力机制的多模态情感识别方法,所述表情识别子网络利用具有各类面部情绪标签的至少一幅面部表情图像样本训练得到,所述语音处理子网络利用具有各类语音情绪标签的至少一个音频样本训练得到,所述肌电识别子网络利用具有肌电情绪标签的至少一个肌电样本训练得到。[0022]根据本发明提供的一种基于交叉注意力机制的多模态情感识别方法,对识别得到的面部表情类型、语音情感类型和肌电情感类型进行加权求和,通过多模态融合加权求和函数输出融合特征后的多模态融合情感类型,包括:[0023]p=wf·pf+ws·ps+we·pe[0024]其中,为面部表情概率分布,为语音情感概率分布,为肌电情感概率分布;wf、ws、we分别为预设的面部表情模态、语音模态、面部肌电模态的权重,而且wf+ws+we=1;[0025]取多模态融合加权求和函数计算数值的最大值作为多模态融合情感识别结果。[0026]另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述多模态情感识别方法的步骤。[0027]本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述多模态情感识别方法的步骤。[0028]本发明提供的一种基于交叉注意力机制的多模态情感识别方法,至少具有如下的技术效果:[0029](1)本发明通过将面部表情图像、语音信号、面部肌电信号同时用于多模态情感识别中,结合三种来源的表情相关信号,将外显行为与内隐状态结合,能够有效减少欺骗性,真实反映咨询者心理情感状态,多模态情感识别克服了传统检测方法中检测维度单一、主观性强的局限性,减少漏检、误检的问题,对在线心理咨询质量的提高和在线心理咨询辅助具有重要意义。[0030](2)通过对于表情识别子网络、语音情感识别子网络的识别过程中进行面部表情图像和语音信号的交叉注意力交互,能够在更细粒度领域进行多模态信息融合,提高了多模态信息融合的准确性,对多模态信息交互方式改进、情感识别的准确性提升有重要意义。[0031](3)本发明中提出的情感状态实时反馈三种单模态情感识别结果以及一种多模态融合情感结果,能有效为心理咨询师提供更为全面的信息,能及时、准确、客观地评价心理咨询者当前情感状态,为心理咨询师提供精准高效的诊断辅助。附图说明[0032]为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。[0033]图1是本发明提供的基于交叉注意力机制的多模态情感识别方法的流程示意图;[0034]图2是本发明提供的基于交叉注意力机制的多模态情感识别方法的信号采集示意图;[0035]图3是本发明提供的基于交叉注意力机制的多模态情感识别方法的情感识别模型的结构示意图。具体实施方式[0036]为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0037]本技术的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或模块。[0038]需要说明的是,本发明涉及的术语“第一第二”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一第二”区分的对象在适当情况下可以互换,以使这里描述的本发明的实施例能够以除了在这里描述或图示的那些以外的顺序实施。[0039]在一个实施例中,如图1所示,本发明提供一种基于交叉注意力机制的多模态情感识别方法,包括:[0040]采集用户同一时刻的面部表情图像、语音信号以及面部肌电信号;[0041]分别对所述面部表情图像、所述语音信号以及所述面部肌电信号进行预处理;[0042]将预处理后的所述面部表情图像、所述语音信号以及所述面部肌电信号分别输入训练好的情感识别模型中以获取单模态情感识别结果,输出识别得到的面部表情类型、语音情感类型和肌电情感类型;[0043]基于预设的权值,对识别得到的面部表情类型、语音情感类型和肌电情感类型进行加权求和,输出融合特征后的多模态融合情感类型。[0044]进一步,在识别得到三种单模态情感识别结果和多模态识别结果之后,将识别得到的面部表情类型、语音情感类型和肌电情感类型中每两者进行比较,输出单一单模态情感识别结果与其他两种单模态情感识别结果的比较结果,若任一比较结果与预设的异常情况相同时,判断当前用户存在情绪异常。[0045]在一个实施例中,如图2所示的,在线心理咨询者为正在利用在线心理咨询专业记录设备进行在线心理咨询的对象,可利用专业记录设备分别采集在线心理咨询者的面部表情rgb图像img、对话语音信号voi、面部肌电信号emg,如利用在线心理咨询专业记录设备记录在线心理咨询者的音视频,利用表面电极收集在线心理咨询者皱眉肌区与颧肌区的肌电数据;[0046]作为示例的,在线心理咨询专业记录设备包括但不限于rgb摄像头、语音记录仪、肌电检测设备、计算机及心理咨询综合分析系统打包一体化设备;[0047]作为示例的,在线心理咨询专业记录设备帧率设置为30帧/秒,每隔两帧提取一张面部表情rgb图像,即每秒提取10幅面部表情rgb图像;对于语音,以11025hz的采样率对输入的原始音频信号进行采样;对于肌电,以32hz的采样率对于输入的原始肌电信号进行采样。[0048]根据本发明提供的一种基于交叉注意力机制的多模态情感识别方法,分别对所述面部表情图像、所述语音信号以及所述面部肌电信号进行预处理包括:[0049]对所述面部表情图像依次进行去除遮挡、图像修复重建以及图像增强操作,提取有效面部信息,消除无用信息;[0050]对所述语音信号依次进行预加重、分帧加窗操作,提取有效语音信息,消除无用信息;[0051]对所述面部肌电信号进行去噪处理,提取有效肌电信息,消除无用信息。[0052]在一个实施例中,对在线心理咨询者的面部表情rgb图像img、进行预处理包括如下步骤:[0053]首先对面部表情rgb图像img去除遮挡、图像修复重建、图像增强,从而有效提取面部信息,消除无用信息;[0054]作为示例的,以u-net作为基础架构,采用拉普拉斯先验网络llc和对称匹配模块sym对面部表情rgb图像img进行图像处理;需要说明的是,u-net是一种卷积网络结构,用于快速、精确地分割图像;[0055]首先利用拉普拉斯算子δ处理面部表情rgb图像img,对遮挡图像进行面部表情信息恢复,采用拉普拉斯先验网络llc,该子网中包括三个卷积层,第一层卷积参数为拉普拉斯算子δ,完成后获得拉普拉斯边图,将边缘图归一化后发送到后两层alexnet进行卷积,以进一步提取边缘信息;[0056]处理完毕后,将得到的第一面部表情rgb图像img1其发送到接下来的对称匹配模块,以进一步提取边缘信息;采用对称匹配模块对第一面部表情rgb图像img1进行去除遮挡、图像修复重建、图像增强,将该模块嵌入u-net的连续卷积和反卷积层中进行图像处理,得到处理完毕的第二面部表情rgb图像img2。[0057]进一步,对称匹配模块利用左右脸对称区域相似性,根据目标图像中对称匹配的相似度,对相似度高的区域进行增强,反之,对相似度低的区域进行抑制,实现对称平滑;具体的,相似度是ssim(结构相似度),范围为0~1,根据数值判断大小,具体的增强和抑制区域以预设的相似度数值作为高低分界点;[0058]计算像素损失,像素损失lp是实际输出图像和目标图像y之间的归一化欧氏距离,h、w、c分别表示图像的高度、宽度、特征数量。lp具体定义如下:[0059][0060]计算对称损失lsym,先分别计算处理后面部图像和目标面部图像的左右对称区域之间的差异;根据目标图像中对称匹配的相似度,对相似度高的区域进行增强,反之,对相似度低的区域进行抑制,实现对称平滑;[0061]具体的,定义表示平均池化操作,ψ表示对图像的对称翻转操作。目标面部图像左右对称区域之间的差异i和处理后面部图像左右对称区域之间的差异表示如下:[0062][0063]对称损失lsym具体计算方式如下:[0064][0065]平滑损失ls根据目标图像的邻域差异得到相应权重,差异越大,权重越低,定义ψ为权重值归一化,λh和λw分别对应h和w方向上相邻像素之间的归一化差分权重;δh和δw是h方向和w方向上相邻像素差值;[0066]则相邻像素之间的归一化差分权重与相邻像素差值具体计算方式如下:[0067][0068]平滑损失ls具体计算方式如下:[0069][0070]综合上述三个损失项,对称匹配模块损失函数定义如下:[0071]lall=α1lp+α2lsym+α3ls,#[0072]其中参数α1,α2,α3分别表示三类损失对应权重;可选的,参数范围分别设定为α1∈[0.9,1.1],α2∈[0.1,0.2],α3∈[0.1,0.2];[0073]在一个实施例中,对所述语音信号依次进行预加重、分帧加窗操作,提取有效语音信息,消除无用信息,具体包括:[0074]首先利用数字滤波器进行信号预加重,得到第一语音信号voi1,该滤波器传递函数定义如下:[0075]h(z)=1-μz-1,#[0076]其中μ为预加重系数,使用μ∈[0.9,1]定义传递函数;[0077]进一步,基于汉明窗(hamming)处理第一语音信号voi1,对其进行分帧加窗,其窗函数如下:[0078][0079]对音量进行零点矫正后,使用最大音量的0.1作为门槛值进行端点检测。[0080]作为示例的,对于已进行端点检测分段后的样本,以150个采样点为一帧将每个样本依序截取成300帧。采用补零、截断方法,将一维样本信号统一转换为大小为(300,150)的二维信号;此处仅作为对本发明的示例,不应视为对本发明的限定;[0081]在一个实施例中,对所述面部肌电信号进行去噪处理,提取有效肌电信息,消除无用信息,具体包括:[0082]首先,使用小波变换对肌电信号去噪,得到第一面部肌电信号emg1,小波变换具体方法表示如下:[0083][0084]ψ(t)为基本小波函数,ψ*为共轭函数,f(t)为输入信号emg,a为变换尺度,b为位移参数;[0085]可选的,选择d5小波进行小波变换;[0086]对于处理后的第一面部肌电信号emg1,提取其时域均方根rms、平均绝对值mav、方差var、标准差std、过零点数zc、波长ws与积分肌电值iemg7个特征;[0087]根据本发明提供的一种基于交叉注意力机制的多模态情感识别方法,通过训练好的情感识别模型对预处理后的所述面部表情图像、所述语音信号进行识别时,基于交叉注意力机制对识别中的所述面部表情图像、所述语音信号进行跨膜态交互,使所述面部表情图像、所述语音信号各自对应的原单模态信息的向量同时包含图像信息以及对话语音信息。[0088]根据本发明提供的一种基于交叉注意力机制的多模态情感识别方法,将预处理后的所述面部表情图像、所述语音信号以及所述面部肌电信号分别输入训练好的情感识别模型中以获取单模态情感识别结果:所述情感识别模型包括表情识别子网络、语音情感识别子网络以及面部肌电情感识别子网络;[0089]将预处理后的所述面部表情图像输入预训练的所述表情识别子网络,将面部表情图像分为若干个预设尺寸的图像块后进行合并,直至输出预设维度的特征图,利用标签空间拓扑信息和标签分布学习进行辅助分类,输出识别得到的分类结果;[0090]将预处理后的所述语音信号输入预训练的所述语音情感识别子网络,将语音信号两层卷积,提取局部特征,经过输出层输出识别得到的分类结果;[0091]将预处理后的所述面部肌电信号输入预训练的所述面部肌电情感识别子网络,通过预设数目个的特征向量分别对应面部不同采样点的每个特征,输出得到分类结果;[0092]在一个实施例中,如图3所示的,本实施例提供的情感识别模型的fvemo-trans网络结构示意图,fvemo-trans识别器中包括表情识别子网络subnet-i、语音情感识别子网络subnet-v、面部肌电情感识别子网络subnet-e;所述表情识别子网络subnet-i利用具有面部表情标签的至少一幅面部表情rgb图像样本训练得到,所述语音处理子网络subnet-v为利用具有情绪标签的至少一个音频样本训练得到,所述肌电识别子网络subnet-e为利用具有情绪标签的至少一个肌电样本训练得到;[0093]fvemo-transformer中,表情识别子网络subnet-i、语音情感识别子网络subnet-v中均使用了transformer模块,在transformer编码完成后,使用交叉注意力机制cross-atten进行跨模态交互,使上述两模型中原本只具有各自单模态信息的向量同时包含表情图像信息与语音信息;[0094]fvemo-transformer中,表情识别子网络subnet-i、语音情感识别子网络subnet-v、面部肌电情感识别子网络subnet-e可输出各自单模态情感。[0095]具体的,表情识别子网络subnet-i使用swin-trans架构提取面部表情rgb图像特征fea-i,同时利用标签空间拓扑信息lst和标签分布学习ldl进行辅助分类。[0096]表情识别子网络的swin-trans架构提取面部表情rgb图像数据的面部表情rgb图像特征fea-i;其构建了四个阶段,具体流程为:[0097]作为示例的,将预处理后的尺寸为224×224×3的面部表情图像img作为输入,进行块状分区后划分为多个尺寸为4×4图像块集合;[0098]第一阶段,对图像块集合进行线性嵌入处理,将图像块原始特征维度转换,之后在此基础上应用自注意力模块——双层窗口transformer块对图像块进行处理,处理后得到固定输出维度的图像;其中,双层窗口transformer块由两个连续的窗口transformer基础块组成,第一个窗口transformer基础块包括ln层归一化、基于窗口的多头自注意力模块(w-msa)、带有非线性激活函数gelu的双层多重感知机(mlp)架构,在每个msa和mlp模块之间应用ln层归一化模块,每个模块之后采用残差连接;第二个窗口transformer基础块基础块包括ln层归一化、基于移动窗口的多头自注意力模块(sw-msa)、带有非线性激活函数gelu的双层多重感知机(mlp)架构。在每个msa和mlp模块之间应用ln层归一化模块,每个模块之后采用残差连接;[0099]使用移动窗口分隔,对于连续的窗口transformer块,计算过程如下所示:[0100][0101]其中,和sk分别表示(s)w-msa模块和mlp模块的输出特征;[0102]第二阶段,将第一阶段处理后结果再次进行块状合并处理,使用窗口transformer块进行特征变换处理,[0103]为了获得多尺寸的特征信息,构建层级式transformer,在第三、四阶段重复第二阶段操作,改变特征图维度,具体包括:[0104]通过块状合并层连接每组2×2的相邻块特征,在4×96维连接层上应用线性层,达到两倍下采样的效果,同时在维度通道处采用1×1卷积,从而控制图像的输出维度为2×96。[0105]在一个实施例中,语音处理子网络subnet-v使用transformer与支持向量机svm结合构成,称为tran-svm架构,通过语音处理子网络提取在线心理咨询者当前的语音情感特征,包括:[0106]首先,将音频信号两层卷积,提取局部特征,两层卷积输入尺寸分别为(300,128,32)与(300,128,1);接着进入transformer模块层,该层基础模块包括ln层归一化、多头注意力模块mha和前馈神经网络模块fnn,每个模块后采用残差连接;[0107]之后通过全连接层(输入维度fc-dim=64)、dropout(输入维度dp-dim=64)、softmax层(输入维度sm-dim=4)得到分类结果和模型参数设置;最后将其作为预训练模型,输入原始音频信号以提取特征并训练支持向量机svm分类器,得到支持向量机svm的分类结果;[0108]其中,卷积层采用xavier初始化设置卷积核,激活函数为relu,损失函数为交叉熵损失,损失函数定义如下:[0109][0110]使用正余弦函数编码音频序列位置信息:[0111][0112]其中,p表示待研究对象在序列中的实际位置。在一个具体的示例中,每帧向量的特征维度d取值为256。[0113]选择高斯核函数作为进行支持向量机svm数据映射。该函数表示如下:[0114][0115]其中,参数σ用于控制函数的径向作用范围;[0116]以上仅作为对本发明实施例的示例,不解释为对本发明的进一步限定。[0117]在一个实施例中,面部肌电情感识别子网络subnet-e提取在线心理咨询者当前的肌电情感特征fea-e,肌电处理主要使用bp神经网络实现,例如:[0118]设定网络输入层节点数n=28,输出层节点数k=7,隐藏层数l=8,激活函数选定为softmax;[0119]其中输入的28个特征向量对应皱眉肌区与颧肌区4个采样点的7个特征,7个输出节点对应高兴(hap)、悲伤(sad)、生气(ang)、中性(neu)、惊奇(sur)、恐惧(fer)、厌恶(dis)七种情感分类结果;该实施例仅仅作为对本发明的进一步解释,不用于限定本发明的范围;[0120]根据本发明提供的一种基于交叉注意力机制的多模态情感识别方法,所述表情识别子网络利用具有各类面部情绪标签的至少一幅面部表情图像样本训练得到,所述语音处理子网络利用具有各类语音情绪标签的至少一个音频样本训练得到,所述肌电识别子网络利用具有肌电情绪标签的至少一个肌电样本训练得到;[0121]在一个实施例中,表情识别子网络subnet-i的训练过程包括:获取在线心理咨询者面部表情rgb图像,利用移动窗口transformer(swin-trans)架构提取其面部表情rgb图像特征fea-i,利用标签空间拓扑信息lst和标签分布学习ldl进行表情识别;[0122]其中,标签空间拓扑信息lst和标签分布学习ldl使用带有高兴(hap)、悲伤(sad)、生气(ang)、中性(neu)、惊奇(sur)、恐惧(fer)、厌恶(dis)、紧张(anx)面部表情标签的至少一张面部表情rgb图像样本训练得到,包括:[0123]使用openface方法有效提取动作单元和面部特征点,利用k近邻算法构建面部表情rgb图像img对应的k近邻图。将训练集中的每幅图像,及其邻近的两幅图像索引,与局部相似度一同存储于索引相似性列表中。利用该列表训练骨干网络。[0124]具有softmax的模型f(x∣θ)使用标签li和将输入xi映射到标签分布,li是第i个实例对象的逻辑标签,是第t个辅助任务中向量xi的标签。假设逻辑标签足够接近原始标签来代表真实值,损失函数l为真实值标签与预测标签之间的js散度,损失函数为:[0125][0126]利用第i幅图像的网络预测f(xi∣θ)及其相邻图像j在辅助任务的网络预测f(xj∣∣θ)间的偏差指导网络参数的更新,估计其局部相似度以描述相邻图像网络预测的相对重要性,局部相似度如下所示:[0127][0128]其中nt表示辅助任务t的标签空间中xi的k近邻的集合;[0129]在此假设在辅助标签空间中彼此接近的图像更有可能具有相似的标签分布,故而越大,f(xi∣θ)与f(xj∣∣θ)之间距离越近。[0130]任务指导损失ωt(f(x∣θ))为:[0131][0132]利用所有输入图像的输出分布来最小化分类损失和任务指导损失ωt(f(x∣θ))来优化表情识别子网络subnet-i,使得模型更具有鲁棒性;实际应用过程中,在基于一定数量的应用样本进行训练以及计算后,可根据损失函数调整来调整识别子网络的各项参数,使模型更完善;[0133]根据本发明提供的一种基于交叉注意力机制的多模态情感识别方法,对识别得到的面部表情类型、语音情感类型和肌电情感类型进行加权求和,通过多模态融合加权求和函数输出融合特征后的多模态融合情感类型,包括:[0134]p=wf·pf+ws·ps+we·pe[0135]其中,为面部表情概率分布,为语音情感概率分布,为肌电情感概率分布;wf、ws、we分别为预设的面部表情模态、语音模态、面部肌电模态的权重,而且wf+ws+we=1;[0136]取多模态融合加权求和函数计算数值的最大值作为多模态融合情感识别结果。[0137]进一步,在获取在线心理咨询者的情感结果之后,为心理咨询师实时提供咨询者此时的面部表情识别、语音情感状态识别、面部肌电情感识别与多模态融合识别四个结果;作为示例的,预设的情感状态异常情况可如下表记载所示;[0138]表1表情-肌电模态组合情绪异常情况[0139][0140]表2表情-语音模态组合情绪异常情况[0141][0142]表3肌电-语音模态组合情绪异常情况[0143][0144]例如表1中,当表情的单模态识别结果为高兴,但此时肌电识别得到的单模态识别结果为悲伤,表明此时两种单模态识别结果彼此冲突;;当三个单模态情感识别模块结果差异较大时,系统将进行情感状态预警提醒,提示心理咨询师注意咨询者当前情感状态不稳定或具有特定情感疾病患病症状,以便及时进行情感干预等疏导、治疗措施。[0145]本发明还提供一种电子设备,该电子设备可以包括:处理器(processor)、通信接口(communications interface)、存储器(memory)和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信。处理器可以调用存储器中的逻辑指令,以执行上述各方法所提供的多模态情感识别方法的步骤。[0146]此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。[0147]另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的多模态情感识别方法的步骤。[0148]又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法所提供的多模态情感识别方法的步骤。[0149]以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。[0150]通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。[0151]最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部