计算;推算;计数设备的制造及其应用技术1.本发明涉及金融企业单位地址文本序列、电商平台相关性匹配等中文自然语言处理领域,具体而言,涉及一种基于自监督表示学习的企业单位地址匹配方法及装置。背景技术:2.文本匹配,或者说是文本相关性匹配是自然语言处理领域的一个重要分支,通过对文本进行相关性匹配,我们可以发现用户潜在的兴趣,可以通过相关技术方法给用户提供更好的内容。在金融、电信、交通、电商、营销等领域都有重要的应用价值。例如在搜索平台或者是电商领域,我们经常会根据需要去搜索感兴趣的内容。例如,“最好吃的四川火锅”或者“杭州市西湖区的工商银行”等相关话题。由于有时搜索内容和平台提供内容不完全一致,所以我们需要对平台展示内容或者相关文本做一个相关(相似)性的判断,来给用户展示最准确的内容,提升平台和公司的用户粘性。3.目前对于文本匹配的处理技术主要分为两大类:传统机器学习方法:首先需要进行特征工程,特征工程结束即可建立模型。其优点是训练速度快,同时也能保证一定的精度,但是特征工程量巨大;深度学习方法:深度学习模型在此领域分为两种基于交互的模型与基于表示的模型,如图1所示,基于交互模型会首先融合两个序列进行处理,经过模型隐藏层得到特征向量在输出层输出相似度。基于表示模型会对两个序列分别进行特征提取,向量表示,最终通过相似度算法计算两个向量的相似度。4.上述介绍的文本匹配的技术都有一些缺点。传统机器学习的特征工程构建过程太复杂,需要建立文本和字符本身和交融特征,然后还需要评估有效性。深度学习的基于表示和交互的方法存在模型结构复杂,但是在特定场景的效果较差。例如,在企业单位地址这个强序列场景中,文本匹配的规则和一般的相关性场景会不同,交换地址token序列的顺序,可能会出现不相关性的情况。5.综上所述,现有的文本匹配技术无法同时满足下面的要求:6.1)一套通用简介的文本处理框架;7.2)对特定场景的文本匹配有补充处理能力;8.3)评价指标超出行业平均水平。技术实现要素:9.针对现有的文本匹配处理方式产生的问题,本发明提出了一种基于自监督表示学习的企业单位地址匹配方法及装置,提供一种基于深度学习模型的文本匹配技术,使得可以通过制定正负训练样本和模型训练方式,对一对以及多对文本对之间进行相关或相似性匹配,在少量标注样本的情况下,学习特定场景下更具有区分度的语义表征,并且实现单位地址的精准匹配,同时在评价指标上优于近几年最先进的模型。10.本发明的目的是通过以下技术方案来实现的:第一方面,本发明提供了一种基于自监督表示学习的企业单位地址匹配方法,该方法包括以下步骤:11.(1)获取单位地址匹配场景下的地址,将地址数据标注成地址token序列的方式对其进行构造;12.(2)初始化正样本集合和负样本集合,在地址token长度的范围内初始化一个整数k,遍历地址token序列,随机选取k个位置对token进行修改,得到正负地址token样本加入到对应的集合中,将所有的地址串和对应的标签拼接,得到正样本训练集和负样本训练集;13.(3)构建文本匹配模型,该模型将输入的文本进行编码,获取到经过编码的字向量表征后,采用注意力模块用代表着句向量的最后时间步的隐向量和字向量进行注意力操作,得到最终加权的句向量。14.(4)基于正样本训练集和负样本训练集对文本匹配模型通过有监督的学习方式进行训练;然后再通过无监督的方式对文本匹配模型进行训练,反向传播优化自监督表示学习的损失函数,得到训练后的文本匹配模型;15.(5)基于训练好的文本匹配模型,直接将需要匹配的文本对,依次输入到文本匹配模型中获取文本的特征表达,采用相似度算法来计算文本匹配模型输出的文本特征向量的相似度,将计算出的相似度和相似度阈值比较,得到企业单位地址匹配。16.进一步地,步骤(2)中,以一定的概率对token进行删除、替换和简写来生成正样本,然后通过对token打乱的方式来生成负样本。17.进一步地,步骤(4)中,所述无监督的学习方式利用模型中的dropout mask,对每一个句子进行两次前向传播,得到两个不同的embeddings向量,将同一个句子得到的向量对作为正样本对,对于每一个向量,选取其他句子产生的embeddings向量作为负样本,以此来训练文本匹配模型。18.进一步地,步骤(4)中,自监督表示学习的损失函数定义如下:[0019][0020]第二方面,本发明提供了一种基于自监督表示学习的企业单位地址匹配装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现所述的基于自监督表示学习的企业单位地址匹配方法的步骤。[0021]第三方面,本发明提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现所述的基于自监督表示学习的企业单位地址匹配方法的步骤。[0022]本发明的有益效果:[0023]1.本发明所提出的一种基于自监督表示学习的企业单位地址匹配方法,能实现单位地址的精准匹配;[0024]2.本发明所提出的基于自监督表示学习对单位地址的匹配和通过无监督和有监督结合的方式,能够在少量标注样本的情况下学习到特定场景中更具有区分度的语义表征;[0025]3.本发明实施例提供的基于自监督表示学习的企业单位地址匹配装置和计算机可读存储介质,能够在执行时实现基于自监督表示学习的企业单位地址匹配方法的步骤。附图说明[0026]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。[0027]图1为深度文本匹配技术示意图;[0028]图2为自监督表示学习模型结构示意图;[0029]图3为有监督学习过程示意图;[0030]图4是本发明一种基于自监督表示学习的企业单位地址匹配装置的结构图。具体实施方式[0031]以下结合附图对本发明具体实施方式作进一步详细说明。[0032]本发明提供的一种基于自监督表示学习的企业单位地址匹配方法。具体步骤如下:[0033](1)获取单位地址匹配场景下的地址,将地址数据标注成地址token序列的方式对其进行构造;[0034](2)初始化正样本集合和负样本集合,在地址token长度的范围内初始化一个整数k,遍历地址token序列,随机选取k个位置对token进行修改,得到正负地址token样本加入到对应的集合中,将所有的地址串和对应的标签拼接,得到正样本训练集和负样本训练集;[0035](3)构建文本匹配模型,该模型将输入的文本进行编码,获取到经过编码的字向量表征后,采用注意力模块用代表着句向量的最后时间步的隐向量和字向量进行注意力操作,得到最终加权的句向量。[0036](4)基于正样本训练集和负样本训练集对文本匹配模型通过有监督的学习方式进行训练;然后再通过无监督的方式对文本匹配模型进行训练,反向传播优化自监督表示学习的损失函数,得到训练后的文本匹配模型;[0037](5)基于训练好的文本匹配模型,直接将需要匹配的文本对,依次输入到文本匹配模型中获取文本的特征表达,采用相似度算法来计算文本匹配模型输出的文本特征向量的相似度,将计算出的相似度和相似度阈值比较,得到企业单位地址匹配。[0038]本发明的自监督表示学习的文本匹配模型的整体结构如图2所示,首先是将输入的文本进行编码,本发明采用bi-lstm来编码。在获取到经过bi-lstm的字向量表征后,采用注意力模块用代表着句向量的最后时间步的隐向量和字向量做attention,得到最终加权的句向量。最后通过本发明设计的训练方式,分别对正负样本对进行编码,同时设置一个自监督表示学习的损失函数,来优化表示学习模型在特征空间上的表达。[0039]首先需要构造样本,在单位地址匹配的场景,样本都是一些地址序列。可以通过将地址数据标注成地址token序列的方式对其进行构造。例如,将“苏州工业园区娄葑学校”标注成“苏州,r;工业,i;园区,i;娄葑,u;学校,i;”。本发明的文本匹配模型采用有监督和无监督结合的方式来进行表示学习。有监督的学习方式是通过找到相同或者相似的地址序列标签样本作为正样本对(x,x+),可以通过对训练数据进行统计或者是通过局部数据增强的方式将地址token替换成有效的地址序列。这些样本在表示学习中起到主导作用,用来指引编码器的表征范围。有监督表示学习的样本构造算法如下所示:[0040][0041][0042]首先初始化两个集合:x+和x-,分别为正负样本集合。然后在地址token长度address_len的范围内初始化一个整数k,然后在遍历地址token序列时,随机的选取k个位置对token进行修改。具体来说,以一定的概率对token进行删除、替换和简写来生成正样本;然后通过打乱的方式来生成负样本;最后将正负地址token样本加入到对应的集合中去。当目前的地址序列遍历完成时,将所有的地址串和对应的标签拼接起来,输出到训练集文件中。[0043]具体的有监督学习方式,如图3所示。左边输入编码器的是主样本,在右边是通过标注标签的方式进行局部增强来获取正样本对。在右边的上面三条样本中,分别使用了不同的方式进行增强,主要包括删除重复表达部分、替换和简写部分地址token以及删除token。通过这种方式去模拟真实场景中的用户输入表达,能让模型将某一类地址序列标签的表征距离拉近,提高模型预测的准确率。右边最下面的虚线部分是构造的负例,尽可能让负样本对之间没有重复的标签,并且对应的序列顺序也不同。[0044]无监督的学习方式,利用模型中的dropout mask,对每一个句子进行两次前向传播,得到两个不同的embeddings向量。将同一个句子得到的向量对作为正样本对,对于每一个向量,选取其他句子产生的embeddings向量作为负样本,以此来训练模型。对于带有dropout的模型,在训练过程中dropout都是打开的,且对于每个不同样本在其前向传播的过程中dropout都不是固定一致的,因此不需要做其他额外的设置,只需要将每个句子复制两份传入模型即可。通过这种无监督的方式,模型在此场景下能学习到近似单位地址序列的表达,能够解决真实文本匹配场景中数据存在的错输、颠倒、重复等不规律问题。[0045]在模型的训练过程中会结合有监督和无监督的方式。在训练过程中,每一组batch中正负样本对的数量都不同。在有监督过程中直接构造出正负样本对,所以可以随机在不同batch中设置正负样本对的比例,增强模型泛化性;在无监督过程中,需要将所有的样本,分别通过编码器进行两次编码输出得到正样本对。将同一个batch中其他不同源句子产生的dropout增广embedding作为负样本,构成负样本对。所以在无监督过程中,正负样本对的比例为1:n-1,其中n为batch中样本总数。最终,模型的训练通过反向传播优化自监督表示学习的损失函数,自监督表示学习的损失函数定义如下:[0046][0047]其中λ和1λ是平衡权重,目的是希望增加有监督表示学习样本部分的损失权重,让其在表示学习中起到主导作用。为有监督过程的对比学习损失函数,为无监督过程的对比学习损失函数。[0048]基于训练好的模型,可以直接将需要匹配的文本对,依次输入到模型中获取文本的特征表达。最后可以通过相似度算法来计算特征向量的相似度。根据不同的应用场景,可以划分不同的概率区间,来给文本对标记标签。[0049]在单位地址匹配的实际应用中,使用本发明所提出的方法和现有的较先进的方法进行实验对比,具体如下:[0050]本发明实施例使用有标签的数据约10198条,具体的数据形式如表1所示:[0051]表1[0052][0053][0054]其中,1代表完全匹配,0代表不匹配。然后还有无标签的数据约90万条。对无标签的数据经过上述的分词和构建过程。也产生一部分有标签数据,所以加起来有标签的数据为9万条。无标签数据90万条。使用本发明方法训练自监督表示学习的模型。[0055]本发明实施例采用基于tensorflow深度学习框架实现。采用预训练的elmo的词向量初始化模型结构中的字符词向量,字符词向量的维度为200,词典的大小为5k。在训练过程中会对这部分字符词向量进行更新。对于损失函数中的λ,经验性地将其设置为0.7。为了能实现无监督的表示学习,在bi-lstm编码器和句子隐向量做attention之前,使用了dropout,dropout的几率本发明设置为0.5。bi-lstm的隐状态维度本发明分别设为200。本发明采用一块rtx-titan图形处理器(gpu)进行训练。[0056]另外,本发明做了两组对照实验。第一组实验是和最近提出的对比学习范式simcse进行对比,simcse采用无监督的方式在地址数据集上进行表示学习。第二组实验是和文本匹配的经典模型sentence-bert进行对比实验。本发明还在手工数据集manual address pair上进行了指标分析。[0057]具体的实验结果如表2所示:[0058]表2[0059][0060]可以看到,auc和f1这两项指标本发明的模型达到最优。在人工制作的数据集上,本发明的pair-mse指标是可以达到最低的,证明了本发明模型在单位地址文本匹配场景下的有效性以及一定的泛化性。[0061]与前述基于自监督表示学习的企业单位地址匹配方法的实施例相对应,本发明还提供了基于自监督表示学习的企业单位地址匹配装置的实施例。[0062]参见图4,本发明实施例提供的一种基于自监督表示学习的企业单位地址匹配装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的基于自监督表示学习的企业单位地址匹配方法。[0063]本发明基于自监督表示学习的企业单位地址匹配装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明基于自监督表示学习的企业单位地址匹配装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。[0064]上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。[0065]对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。[0066]本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于自监督表示学习的企业单位地址匹配方法。[0067]所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、sd卡、闪存卡(flash card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。[0068]上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种基于自监督表示学习的企业单位地址匹配方法及装置与流程 专利技术说明
作者:admin
2023-06-28 18:04:53
950
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术