发布信息

基于实体遮掩数据增强的材料知识识别方法及系统与流程 专利技术说明

作者:admin      2023-06-29 06:07:18     973



医药医疗技术的改进;医疗器械制造及应用技术1.本技术涉及材料知识识别技术领域,特别是涉及一种基于实体遮掩数据增强的材料知识识别方法及系统。背景技术:2.本部分的陈述仅仅是提到了与本技术相关的背景技术,并不必然构成现有技术。3.利用自然语言处理和知识图谱技术,对文本数据进行了命名实体识别和知识图谱构建方面的研究在深度学习发展之后有了深入的研究。命名实体识别作为自然语言处理的基础任务,其目的是从文本数据中抽取满足规则的实体,如人名、地名等,并对这些具有特定意义的实体进行归类。命名实体识别的技术主要分为以下三类:基于词典与规则的方法、基于统计模型的方法和基于深度学习的方法。4.基于词典与规则的方法:早期的命名实体识别方法主要依靠各领域专家制定特征词规则和维护专业词典来实现,当特征词的构建规则能够较为准确地反映出文本特性时,这种方法往往能取得较高的准确率。但是,基于词典与规则的方法普适性低,可移植性差,对于不同的领域需要各自的领域专家重新进行规则的书写,在实体数量和数据规模较为庞大的今天,人力和时间成本都比较大。5.基于统计模型的方法:随着自然语言处理的发展,基于统计模型的方法开始流行。这种方法通过人工构建特征,在已经标注的训练语料中学习知识,根据模型对文本进行标签标注,不再需要人工定义规则。常用的模型有隐马尔科夫模型、条件随机场、最大熵模型等。但是,基于统计模型的知识抽取泛化效果差,一般误差较高。6.基于深度学习的方法:随着计算机硬件的更新换代,计算机算力不断提升,神经网络在计算机视觉、自然语言处理等领域中取得了巨大的成功。基于深度学习的方法已经成为ner的主流方法,它将ner视为序列标注任务,将输入的文本数据向量化,再通过多层神经网络自动提取文本特征,最终映射到标签空间进行实体识别。常用的神经网络模型有循环神经网络、长短期记忆神经网络(long short-term memory,lstm)等。7.材料行业属于垂直领域,其材料类型多种多样。构建材料领域知识,可以帮助从业人员梳理材料领域的专业知识,可以提高材料研发和生产效率。但是,材料领域数据存在数据规模小,标注数据缺乏等问题,实体关键信息不清晰,难以搭建实体识别模型,同时,对材料相关领域的知识点识别研究也较少。传统基于词典和规则的实体抽取方法,在词典和规则覆盖的范围内有较高的准确率,可是泛化效果较差,满足不了大规模知识抽取的需求,基于深度学习的知识抽取模型有很好的泛化效果,可是对训练语料数量要求比较高;无法应对于材料知识识别。技术实现要素:8.为了解决现有技术的不足,本技术提供了一种基于实体遮掩数据增强的材料知识识别方法、系统、电子设备及计算机存储介质,通过语义和模型的方式,对材料领域样本在不增加手动标记成本的情况下,增加文本数据量并提高模型的鲁棒性,然后利用迁移学习的方法进行识别,降低文本标注数据成本,提高在材料领域的文本识别效果。9.第一方面,本技术提供了一种基于实体遮掩数据增强的材料知识识别方法;10.基于实体遮掩数据增强的材料知识识别方法,包括:11.获取材料知识数据,通过实体遮掩隐藏材料知识数据中的材料核心信息,基于语义,对隐藏后的材料知识数据进行数据增强处理;12.构建平行语料文本生成模型,将数据增强后的材料知识数据输入平行语料文本生成模型,获取对应的平行语料文本;13.将数据增强后的材料知识数据和对应的平行语料文本输入训练好的材料知识识别模型,获取材料知识识别结果。14.进一步的,所述基于语义,对隐藏后的材料知识数据进行数据增强处理的具体步骤包括:15.根据同义词词典,将材料知识数据中标注数据的非实体词替换为同义词;16.向材料知识数据中的非实体词部分随机插入词语;17.随机将材料知识数据中标注数据的实体替换为其他同类型的实体。18.进一步的,所述材料知识识别模型包括依次连接的输入层、嵌入层、基于transformer的编码器和输出层。19.进一步的,所述输入层用于将数据增强后的材料知识数据和对应的平行语料文本输入材料知识识别模型,所述嵌入层用于将数据增强后的材料知识数据和对应的平行语料文本映射到词嵌入空间并获取每个词的词嵌入表示,所述基于transformer的编码器用于随机遮掩数据的词嵌入表示并基于被遮掩词语前后的语境预测被遮掩部分的词语识别材料知识,所述输出层用于输出材料知识识别结果。20.进一步的,所述将数据增强后的材料知识数据和对应的平行语料文本输入训练好的材料知识识别模型,获取材料知识识别结果的具体步骤包括:21.将数据增强后的材料知识数据和对应的平行语料文本输入材料知识识别模型,随机遮掩数据增强后的材料知识数据和对应的平行语料文本;22.将随机遮掩后的材料知识数据和对应的平行语料文本映射到词嵌入空间并获取每个词的词嵌入表示,根据词嵌入表示,随机遮掩词嵌入表示;23.基于被遮掩词语前后的语境预测被遮蔽部分,获取材料知识识别结果。24.进一步的,所述材料知识识别模型为bert模型。25.进一步的,所述平行语料文本生成模型为transformer模型。26.第二方面,本技术提供了基于实体遮掩数据增强的材料知识识别系统;27.基于实体遮掩数据增强的材料知识识别系统,包括:28.数据增强模块,被配置为:获取材料知识数据,通过实体遮掩隐藏材料知识数据中的材料核心信息,基于语义,对隐藏后的材料知识数据进行数据增强处理;29.平行语料文本生成模块,被配置为:构建平行语料文本生成模型,将数据增强后的材料知识数据输入平行语料文本生成模型,获取对应的平行语料文本;30.材料知识识别模块,被配置为:将数据增强后的材料知识数据和对应的平行语料文本输入材料知识识别模型,获取材料知识识别结果。31.第三方面,本技术提供了一种电子设备;32.一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述基于实体遮掩数据增强的材料知识识别方法的步骤。33.第四方面,本技术提供了一种计算机可读存储介质;34.一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述基于实体遮掩数据增强的材料知识识别方法的步骤。35.现有技术相比,本技术的有益效果是:36.本技术提供的技术方案,通过规则、语义技术以及transformer技术进行材料领域数据增强,融合了传统语义方法和基于模型的建模技术,其可以解决材料领域的知识识别小样本问题,高效提升材料知识效果。附图说明37.构成本技术的一部分的说明书附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。38.图1为本技术实施例提供的流程示意图;39.图2为本技术实施例提供的平行语料文本生成的流程示意图;40.图3为本技术实施例提供的材料识别模型的训练流程示意图;41.图4为本技术实施例提供的材料知识识别模型的网络架构示意图;42.图5为本技术实施例提供的多头注意力机制的网络架构示意图。具体实施方式43.应该指出,以下详细说明都是示例性的,旨在对本技术提供进一步的说明。除非另有指明,本技术使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。44.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。45.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。46.术语解释:47.非实体词:非识别目标的词语。48.实施例一49.现有技术中,材料领域数据存在数据规模小,标注数据缺乏等问题,实体关键信息不清晰,难以搭建实体识别模型,同时,对材料相关领域的知识点知识识别研究也较少;因此,本技术提供了一种基于实体遮掩数据增强的材料知识识别方法。50.接下来,结合图1-图5对本实施例公开的一种基于实体遮掩数据增强的材料知识识别方法进行详细说明。该基于实体遮掩数据增强的材料知识识别方法,包括如下步骤:51.s1、获取材料知识数据,通过实体遮掩隐藏材料知识数据中的材料核心信息,基于语义,对隐藏后的材料知识数据进行数据增强处理;具体步骤包括:52.s101、根据同义词词林,将材料知识数据中标注数据的非实体词替换为同义词。53.s102、向材料知识数据中的非实体词部分随机插入词语,向文本数据输入噪声,增加系统鲁棒性。54.s103、随机将材料知识数据中标注数据的命名实体替换为其他同类型的命名实体,丰富实体表述多样性。55.此外,在进行语义增强的过程中为了保证核心材料信息不被丢失,需要对材料核心信息进行遮掩,比如材料名称,保证材料识别语料在转换过程中核心信息的完整性。56.以“聚酰亚胺薄膜,其适合用作电子元件的基材薄膜,在耐热性,刚性,高频特性方面优异并且还在热变形稳定性方面优异”为例,数据增强的结果如下表所示:[0057][0058]s2、构建平行语料文本生成模型,将数据增强后的材料知识数据输入平行语料文本生成模型,获取对应的平行语料文本;其中,平行语料文本生成模型为transformer模型,transformer就是一个基于多头注意力机制的模型,attention可以解决rnn及其变体存在的长距离依赖问题,也就是attention机制可以有更好的记忆力,能够记住更长距离的信息,另外,最重要的就是attention支持并行化计算,transormer在平行语料建模具有很好的优势。[0059]注意力机制已经在计算机视觉上取得了巨大成功,也逐渐被应用在自然语言处理的任务中。其核心在于为每一个输入向量学习相应的权重,使网络在执行预测时,更多关注输入序列中相关的部分,忽略其他成分。自注意力机制属于注意力机制的一种,自注意力机制在序列内部进行注意力处理,通过计算每个字与该句子中所有字的相互关系,捕获文本特征,再根据字之间的关联性调整每个字的权重,最终获得整个句子的增强语义表示,提升命名实体识别的效果。[0060]自注意力机制的输入为查询向量q和一组键-值对(《k,v》),k和v也被称为键向量和值向量,这三个向量是通过将输入元素的嵌入分别乘以权重矩阵(wq,wk,wv)得到的。先将查询向量与键向量进行计算,为了防止结果过大进行尺度变换,再通过softmax函数计算出权重矩阵,经汇总加权后与值向量一起得到最后的自注意力输出,即比例点积注意力计算。计算公式如下所示:[0061][0062]其中为尺度标度,大小是键向量k的维度。[0063]多头自注意力机制是多个自注意力机制的集成表示,指先对输入序列重复做h次自注意力计算,这个h的值就被称之为头数,然后将结果拼接起来后再进行线性变换。多头自注意力机制在两方面提升了注意力机制的性能:扩展了模型专注于输入序列不同位置的能力;给出了注意力层的多个“表示子空间”。其计算公式如下:[0064]multihead(q,k,v)=concat(head1,head2,...,headh)wo[0065]其中,headi=attention(qi,ki,vi),wo为拼接之后的权重矩阵,concat表示拼接操作。[0066]子结构的前向神经网络由两个线性变换构成,激活函数为relu函数。[0067]ffn(x)=max(0,xw1+b1)w2+b2[0068]式中,w1、w2、b1、b2参数在训练中自动学习,输入维度与输出维度相同,均为dmodel;隐藏层的维度为dff=4·dmodel。[0069]s3、将数据增强后的材料知识数据和对应的平行语料文本输入训练好的材料知识识别模型,获取材料知识识别结果;其中,材料知识识别模型包括依次连接的输入层、嵌入层、基于transformer的编码器和输出层,输入层用于将数据增强后的材料知识数据和对应的平行语料文本输入材料知识识别模型,嵌入层用于将数据增强后的材料知识数据和对应的平行语料文本映射到词嵌入空间并获取每个词的词嵌入表示,基于transformer的编码器用于随机遮掩数据的词嵌入表示并基于被遮掩词语前后的语境预测被遮掩部分的词语识别材料知识,输出层用于输出材料知识识别结果。具体步骤包括:[0070]s301、将数据增强后的材料知识数据和对应的平行语料文本输入材料知识识别模型,随机遮掩数据增强后的材料知识数据和对应的平行语料文本;[0071]s302、将随机遮掩后的材料知识数据和对应的平行语料文本映射到词嵌入空间并获取每个词的词嵌入表示,根据词嵌入表示,随机遮掩词嵌入表示;[0072]s303、基于被遮掩词语前后的语境预测被遮蔽部分,获取材料知识识别结果。[0073]实施例二[0074]本实施例公开了基于实体遮掩数据增强的材料知识识别系统,包括:[0075]数据增强模块,被配置为:获取材料知识数据,通过实体遮掩隐藏材料知识数据中的材料核心信息,基于语义,对隐藏后的材料知识数据进行数据增强处理;[0076]平行语料文本生成模块,被配置为:构建平行语料文本生成模型,将数据增强后的材料知识数据输入平行语料文本生成模型,获取对应的平行语料文本;[0077]材料知识识别模块,被配置为:将数据增强后的材料知识数据和对应的平行语料文本输入材料知识识别模型,获取材料知识识别结果。[0078]此处需要说明的是,上述数据增强模块、平行语料文本生成模块和材料知识识别模块对应于实施例一中的步骤,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。[0079]实施例三[0080]本发明实施例三提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,计算机指令被处理器运行时,完成上述基于实体遮掩数据增强的材料知识识别方法的步骤。[0081]实施例四[0082]本发明实施例四提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述基于实体遮掩数据增强的材料知识识别方法的步骤。[0083]本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。[0084]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。[0085]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。[0086]上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。[0087]以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部