计算;推算;计数设备的制造及其应用技术1.本发明涉及自然语言处理和深度学习技术领域:,特别涉及一种基于异质融合和对称翻译的图文情感分类方法及系统。背景技术::2.随着互联网和计算机科学的迅速发展,大量社交平台和商业网站逐渐涌现,比如微博、抖音、小红书、美团等,以b站为首的各类视频网站及淘宝等购物平台被广泛使用,极大影响了人们的生活和交流的方式。人们在各类平台上的表达方式越来越多样化,并不仅仅局限于文字,还可以通过图片和视频来表达自己的观点,比如用户会在b站上传自己的视频,并附上一些文字,也会在购物网站上对自己使用过的商品以照片和文字的形式进行评价。消费者可以根据已有的商品评价决定是否购买,商家可以通过用户的评价来判断用户对商品的喜好以及商品的受欢迎程度,决定如何更好地服务于用户等。3.每一种信息的来源或者形式,都可以称为模态,而文本、图片和音频构成了现实当中最常见的三种模态。随着互联网上的多模态内容不断增长,多模态情感分析的任务应运而生。多模态情感分析旨在利用文本、图片、音频等多模态的内容,充分利用它们之间的互补性,分析蕴含其中的用户情感。以往情感分析都是局限于单个模态,比如文本情感分析,只需要着眼于挖掘和推理文本中蕴含的情感即可,多模态情感分析需要对多个模态的数据进行处理,这带来了很多挑战,相比于单模态数据,多模态包含了更多的信息,可以相互补充,帮助机器更好地理解情感。多模态情感分析任务是社会计算和情感分析领域的重要研究内容,已成为近几年的研究热点。4.现有的图文情感分类方法例如truong等人提出的vistanet模型和huang等人提出了深度多模态融合模型,vistanet模型的主要创新点在于使用注意力机制让图片特征向量去指导文本特征向量的生成,解决了两种模态向量空间不一致也即数据异质的问题,无形之中还能学习到文本与图像的直接关联信息,融合效果较之前的模型要好一些。但该模型也只是单纯地使用图片特征向量指导文本特征向量,虽然能进行隐式的融合,但是用于指导的图片特征向量本质上还是与文本特征向量是异质的,这样也会限制融合的效果。深度多模态融合模型首先使用两个独立的注意力机制模块对文本和图片分别进行特征提取,然后使用多模态注意力机制模块进行文本和图片的融合,并进行最终的情感分类。但该模型未充分考虑文本模态的作用,情感分类效果一般。技术实现要素:5.为了解决现有图文情感分类方法特征提取能力不足、模态异质、未充分考虑文本模态的作用,以及图文融合方式单一的问题,本发明提供了一种基于异质融合和对称翻译的图文情感分类方法及系统。6.为实现上述目的,根据本发明第一方面,提供一种基于异质融合和对称翻译的图文情感分类方法,所述方法包括:7.输入文本和图片,通过情感分类模型,获得情感分类,其中,情感分类模型的训练方法包括:8.s1、对数据集中的文本和图片数据进行特征提取,分别得到文本中单词的特征向量表示和图片的特征向量表示;9.s2、基于注意力机制,对单词特征向量进行编码得到句子特征向量;10.s3、基于transformer架构,将文本中的句子和图片分别设置为源模态和目标模态进行编码,取transformer编码器输出的融合向量进行拼接作为指导向量;11.s4、基于注意力机制和指导向量,对句子特征向量进行编码得到文本特征向量。12.s5、将transformer编码器的输出向量和文档的特征向量进行拼接得到最终的向量表示,并进行情感分类和情感分类模型的参数调整。13.进一步地,所述步骤s1中使用bert模型获得单词的特征向量表示xi,t,使用vgg16获得图片的特征向量表示pj。14.进一步地,所述步骤s2中编码的过程包括以下步骤:15.s21、对选定的单词特征向量xi,t,使用双向lstm从前后两个方向分别对xi,t进行编码,将两个方向获得的隐藏层向量进行拼接,得到最终隐藏层向量hi,t;16.s22、对隐藏层向量hi,t,使用注意力机制进行计算,然后进行归一化处理:17.vi,t=v·tanh(wvhi,t+bv)[0018][0019][0020]其中,v表示一个随机初始化的矩阵,vi,t表示单词对于整个句子的权重值,tanh表示激活函数,exp表示指数函数,wv和bv是随机初始化的值,在训练中自动调整,αi,t表示经过归一化后的单词对于整个句子的权重值,si表示得到的句子特征向量。[0021]进一步地,所述步骤s3中,transformer编码器的编码方式为:[0022]εs→p=fs→p(xs)[0023]εp→s=fp→s(xp)[0024][0025]其中,xs表示文本作为源模态,xp表示图片作为源模态,εs→p和εp→s是编码器的两个输出向量,f表示transformer架构的激活函数,表示拼接操作,ε表示指导向量。[0026]进一步地,所述步骤s4中,所述对句子特征向量进行编码包括以下步骤:[0027]s41、对选定的句子特征向量si,使用双向lstm从前后两个方向分别对si进行编码,将两个方向获得的隐藏层向量进行拼接,得到句子隐藏层向量hi;[0028]s42、使用tanh激活函数对指导向量ε和句子隐藏层向量hi使用非线性的方式映射到同一向量空间,从而获得图文融合后产生的指导向量的特征向量表示f,文本特征向量表示gi;[0029]s43、基于注意力机制将f和gi作内积运算,为了更多考虑文本因素,单独加上gi,得到表示句子注意力权重的向量ui,计算公式为:[0030]ui=u·(f⊙gi+gi)[0031]其中,u代表随机初始化得到的参数矩阵,⊙表示内积运算;[0032]s44、对权重向量ui进行归一化计算,然后将归一化计算后的权重γi和句子隐藏层向量hi加权求和得到文本特征向量d;其中,hi表示句子隐藏层向量,γi表示经过归一化后的第i个句子相对整个文本的权重值。[0033]进一步地,所述步骤s5中,首先将获得的指导向量和文本特征向量拼接得到最终的向量表示,然后使用全连接网络对所述最终的向量表示进行分类,并通过反向传播算法调整情感分类模型的参数。[0034]根据本发明的第二方面,提供了一种基于异质融合和对称翻译的图文情感分类系统,所述系统包括情感分类模型和训练模块,其中,训练模块用于将数据集中的图片和文本输入情感分类模型,并利用数据集中图片和文本对应的情感分类和情感分类模型输出的分类进行比较,并通过反向传播算法调整情感分类模型的参数;[0035]情感分类模型包括:模态特征提取模块,用于对数据集中两个模态的数据进行特征提取,分别得到文本中单词的特征向量和图片的特征向量;[0036]异质融合注意力模块,基于注意力机制结合单词对句子情感极性的影响生成句子的特征向量,同时基于注意力机制结合句子对文本情感极性的影响生成文本的特征向量;[0037]对称翻译融合模块,用于将句子和图片分别设置为源模态和目标模态,使用transformer将源模态翻译成目标模态,取编码器的输出作为两个模态融合后的向量表征;[0038]情感分类模块,将两个transformer编码器的输出向量和文本的特征向量进行拼接得到最终的向量表示,并通过全连接网络输出情感分类。[0039]本发明提供的一种基于异质融合和对称翻译的图文情感分类方法及系统,与现有图文情感分类方法及系统相比,具有如下有益效果:[0040]1、本发明更多地考虑了文本模态的作用,使用异质融合注意力机制来考虑句子中各个单词对于情感极性的影响,以及文本中各个句子对于情感极性的影响。[0041]2、本发明使用对称翻译模块融合后的向量指导生成文本向量,解决了指导向量与文本向量异质的问题,同时在文本向量生成过程中又再次考虑了文本与图片的融合,而不是单一的融合方式,进一步提升了图文融合的效果。附图说明[0042]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。[0043]图1为本发明一个实施例的基于异质融合和对称翻译的图文情感分类方法的流程示意图;[0044]图2为本发明另一个实施例的基于异质融合和对称翻译的图文情感分类方法的流程示意图;[0045]图3为本发明一个实施例的基于异质融合和对称翻译的图文情感分类方法的步骤s2的流程示意图;[0046]图4为本发明一个实施例的基于异质融合和对称翻译的图文情感分类方法的步骤s3的流程示意图;[0047]图5为本发明一个实施例的基于异质融合和对称翻译的图文情感分类方法的步骤s4的流程示意图;[0048]图6为本发明一个实施例的基于异质融合和对称翻译的图文情感分类系统的系统结构示意图。具体实施方式[0049]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。[0050]本发明提供一种基于异质融合和对称翻译的图文情感分类方法,如图1和2所示,所述方法包括:[0051]输入文本和图片,通过情感分类模型,获得情感分类,其中,情感分类模型的训练方法包括:[0052]s1、对数据集中的文本和图片数据进行特征提取,分别得到单词特征向量xi,t和图片特征向量pj。其中,i表示选定文本中的第i个句子,t表示第i个句子中的第t个单词,假设第i个句子中一共包含c个单词,j表示样本中第j张图片。[0053]s2、基于注意力机制,对选定的单词特征向量xi,t进行编码得到每个句子的特征向量si。其中,i表示选定文本中的第i个句子,假设选定文本中一共包含l个句子。[0054]s3、基于transformer,将句子特征向量si和图片特征向量pj分别设置为源模态和目标模态进行编码,分别取编码器输出的εs→p和εp→s进行拼接作为指导向量ε。[0055]s4、基于注意力机制和指导向量ε,对句子特征向量si进行编码得到文本特征向量d。[0056]s5、将transformer编码器的输出向量和文档的特征向量进行拼接得到最终的向量表示,并进行情感分类和情感分类模型的参数调整。[0057]在步骤s1中使用bert模型获得单词的特征向量表示xi,t,使用vgg16获得图片的特征向量表示pj。[0058]具体过程如下:对输入的文本和图片数据进行特征提取,分别得到单词特征向量和图片特征向量。[0059]单词特征向量用xi,t表示,图片特征向量用pj表示,其中,i表示选定文本中的第i个句子,t表示第i个句子中的第t个单词,假设第i个句子中一共包含c个单词,j表示样本中第j张图片。以第i个句子“theyhavealargeselectionofmacaroonstoowhicharedelectable”为例,词向量xi,t为句中第t个单词的向量表示。[0060]在步骤s2中,在编码过程中,对每个待输入的单词特征向量xi,t,使用双向lstm从前后两个方向分别进行计算,并取每一时刻两个方向的隐藏层向量进行拼接得到最终的隐藏层向量输出hi,t。[0061]接着对双向lstm编码后的向量进行注意力机制的计算,目的是得到每个单词相对于整个句子的权重,权重值代表了当前单词对于整个句子情感的影响,得到权重值之后计算当前句子的最终向量表示si,如图3所示。[0062]例如“theyhavealargeselectionofmacaroonstoowhicharedelectable”,在编码完成后可以得到句子中每个单词相对于整个句子的权重,权重值代表了当前单词对于整个句子情感极性的影响。具体的编码方法为:[0063]s21、对选定的单词特征向量xi,t,使用双向lstm从前后两个方向分别对xi,t进行编码:[0064][0065]其中,xi,t表示第i个句子的第t个单词的特征向量,和分别表示xi,t从左到右和从右到左两个方向上的隐藏层向量,hi,t表示将上述两个隐藏层向量进行拼接得到的最终的隐藏层向量。在每一个时刻,当前隐藏层向量hi,t的计算都要依赖上一个时刻的隐藏层向量hi,t-1和当前输入xi,t。[0066]s22、对得到的隐藏层向量hi,t进行注意力机制的计算,之后计算当前句子的最终特征向量表示:[0067]vi,t=v·tanh(wvhi,t+bv)[0068][0069][0070]其中,v表示一个随机初始化的矩阵,vi,t表示单词对于整个句子的权重值,tanh表示激活函数,exp表示指数函数,wv和bv是随机初始化的值,在训练中自动调整,αi,t表示经过归一化后的单词对于整个句子的权重值,取值范围[0,1],si表示得到的句子特征向量。[0071]在经过编码后得到的句子向量,是考虑了句子中每个单词对整个句子的情感影响,而不是简单进行拼接得到的句子向量。[0072]在步骤s3中,将选定文本中的句子特征向量与图片特征向量分别设置为源模态和目标模态,然后使用编码器解码器架构将源模态翻译成目标模态,取编码器的两个输出向量拼接作为指导向量,指导下一步骤文本向量的生成,解决了指导向量与文本向量异质的问题,同时在文本向量生成过程中又再次考虑了文本与图片的融合,进一步提升了图文融合的效果,如图4所示。翻译是指编码和解码,过程如下:[0073](1)确定句子向量和图片向量:s2中编码获得的句子特征向量si和s1中获得的图片特征向量pj。[0074](2)计算融合向量的过程:使用两个transformer将两个特征向量分别设为源模态和目标模态进行编码得到融合向量εs→p和εp→s:[0075]εs→p=fs→p(xs)[0076]εp→s=fp→s(xp)[0077]其中,xs表示文本作为源模态,xp表示图片作为源模态,εs→p和εp→s是编码器的输出的融合向量,f表示transformer架构中的激活函数。[0078](3)得到指导向量的过程:将两个融合向量进行拼接得到指导向量ε:[0079][0080]其中,表示拼接操作。[0081]通过以上(1)-(3)步骤,即可得到图文融合向量ε,并用其指导下一步工作。[0082]在步骤s4中,根据句子特征向量si结合指导向量ε生成文本特征向量d,如图5所示,具体过程如下:[0083]s41、对句子向量si进行编码:使用双向lstm从前后两个方向分别对si进行编码:[0084][0085]其中,si表示第i个句子的特征向量,和分别为第i个句子从左到右和从右到左两个方向上的隐藏层向量,hi表示将双向lstm得到的两个隐藏层向量进行拼接得到的最终的隐藏层向量。[0086]s42、对隐藏层向量和指导向量进行编码:使用tanh激活函数将指导向量和句子隐藏层向量使用非线性的方式映射到同一向量空间,计算公式为:[0087]f=tanh(wfε+bf)[0088]gi=tanh(wghi+bg)[0089]其中,wf、wg、bf和bg是随机初始化的值,在训练中自动调整,f表示图文融合后产生的指导向量的特征向量表示,gi表示文本特征向量表示。[0090]s43、计算句子注意力权重的向量ui:将f和gi作内积运算,为了更多考虑文本因素,单独加上gi,得到表示句子注意力权重的向量ui,计算公式为:[0091]ui=u·(f⊙gi+gi)[0092]其中,u代表参数矩阵,将f和gi作内积运算,表示它们之间的相似度。由于f和gi内积后的结果只代表它们之间的交互,不代表文本的信息,因此需要加上gi,从而更多地考虑文本的影响。上述得到的向量ui,代表第i个句子的注意力权重,权值越大,代表该句子对文本情感的影响力越大。[0093]s44、对权重向量ui进行归一化计算得到文本表示,首先对权重向量ui进行归一化计算,然后将归一化计算后的权重γi和句子隐藏层向量hi加权求和得到文本特征向量d,具体过程如下:[0094][0095][0096]其中γi表示注意力分数,将注意力分数与各自的句子隐藏层向量加权求和,得到了最终的文本向量表示,作为情感分类表征向量的来源之一。这个文本向量不止包含了文本的信息,还包含了文本与图片融合的信息,因为第二层注意力机制中,使用的是对称翻译时产生的融合向量ε指导生成的注意力权重。[0097]在步骤s5中,首先将两个transformer编码器的输出向量和文本特征向量拼接得到最终的向量表示,然后使用一个全连接网络对该向量表示进行分类,具体过程如下:[0098]a=concat(d,εs→p,εp→s)[0099][0100]其中,d表示文本特征向量,εs→p和εp→s表示编码器的两个输出向量,concat表示拼接操作,linear表示全连接网络,表示最终得到的情感分类结果,然后通过图片和文本自带的分类和反向传播算法调整情感分类模型的参数。[0101]本发明还提供一种基于异质融合和对称翻译的图文情感分类系统,如图6所示,包括训练模块和情感分类模型,其中,训练模块用于将数据集中的图片和文本输入情感分类模型,并利用数据集中图片和文本对应的情感分类和情感分类模型输出的分类进行比较,并通过反向传播算法调整情感分类模型的参数;[0102]情感分类模型包括模态特征提取模块,用于对数据集中两个模态的数据进行特征提取,分别得到文本中单词的特征向量和图片的特征向量;具体参见上文的步骤s1。[0103]异质融合注意力模块,基于注意力机制结合单词对句子情感极性的影响生成句子的特征向量,同时基于注意力机制结合句子对文本情感极性的影响生成文本的特征向量,具体参见上文的步骤s2和s4。[0104]对称翻译融合模块,用于将句子和图片分别设置为源模态和目标模态,使用transformer将源模态翻译成目标模态,取编码器的输出作为两个模态融合后的向量表征;具体参见上文的步骤s3。[0105]情感分类模块,将transformer编码器的两个输出向量和文本的特征向量进行拼接得到最终的向量表示,用于情感分类,具体参见上文的步骤s5。[0106]本发明未详细阐述的技术内容属于本领域技术人员的公知技术。[0107]尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域:的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。当前第1页12
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种基于异质融合和对称翻译的图文情感分类方法及系统
作者:admin
2022-08-31 08:53:45
419
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术
- 下一篇: 超声空化辅助淹没脉动气射流抛光系统
- 上一篇: 一种离合式断桥复合密封结构的制作方法