计算;推算;计数设备的制造及其应用技术1.本技术涉及人工智能技术领域,尤其涉及基于蚁群算法的知识图谱补全 方法及其相关设备。背景技术:2.近年来,知识图谱已经在金融、电商、医疗等多个领域得到了广泛应用, 但构建知识图谱的成本很高,容易出现节点之间关系的缺失,譬如在著名的 知识图谱freebase中,66%的人都是缺少出生地这一关系的。因此需要做知 识图谱实体补全(又叫知识图谱推理)。给定知识图谱中需要补全的三元组《 头实体h,关系r,?》,需要在整个知识图谱中进行搜索,经过若干中间实体 的传递,最终找到满足关系r要求的尾实体t,从而形成完整的三元组《h,r,t》。3.pra(path ranking algorithm)算法目前具有代表性的一种知识图谱补 全方法。该算法的主要思想是:从某个节点出发,采用随机游走(每一步选 择与上一个节点有连接关系的一个节点)方式,进行深度优先搜索得到候选 路径,且用连接两个实体的路径作为特征,来预测两个实体之间的关系。学 习阶段分为特征抽取、特征计算和构造分类器三个部分。当知识图谱节点数 量巨大时,pra算法采用的随机游走方式计算效率低,效果不佳。技术实现要素:4.本技术实施例的目的在于提出一种基于蚁群算法的知识图谱补全方法及 其相关设备,提高了计算机补全知识图谱的效率。5.为了解决上述技术问题,本技术实施例提供一种基于蚁群算法的知识图 谱补全方法,采用了如下所述的技术方案:6.一种基于蚁群算法的知识图谱补全方法,包括下述步骤:7.接收语料文档,对所述语料文档进行实体识别操作,获得多个实体,基 于所述实体构建知识图谱,其中,所述知识图谱包括实体节点和边节点;8.将所述实体节点和所述边节点分别输入至预训练的向量转换模型中,分 别获得输出的实体嵌入向量和边嵌入向量;9.基于所述实体嵌入向量和所述边嵌入向量,计算推理模型从当前的实体 节点到下一个实体节点的运动概率,将所述推理模型从任意实体节点出发, 按照对应的运动概率在所述知识图谱中进行迭代推理,直至达到预设的停止 条件,完成当前次迭代推理;10.在每次迭代推理后,从所有所述推理模型经过的路径中确定出最短路径, 并判断是否达到最大的迭代次数,若否,则继续进行所述迭代推理,直至达 到最大的迭代次数,若是,则根据所述最短路径补全所述知识图谱,获得目 标知识图谱。11.进一步的,所述从所有所述推理模型经过的路径中确定出最短路径的步 骤包括:12.计算每个所述推理模型经过的总路径的语义距离,将语义距离最小的所 述总路径作为最短路径。13.进一步的,所述基于所述实体嵌入向量和所述边嵌入向量,计算推理模 型从当前的实体节点到下一个实体节点的运动概率的步骤包括:14.基于所述实体嵌入向量和所述边嵌入向量计算所述实体节点之间的语义 距离,并计算所述实体节点之间的边的信息素的残留强度;15.根据所述语义距离和所述信息素的残留强度计算所述运动概率。16.进一步的,所述并计算所述实体节点之间的边的信息素的残留强度的步 骤包括:17.分别计算每个推理模型在一次迭代推理后,对实体节点之间的边贡献的 信息素的增量;18.根据所述信息素的增量计算每个所述推理模型对实体节点之间的边的信 息素的残留强度,作为单一模型信息素残留强度;19.分别对每个边对应的所述单一模型信息素残留强度进行加和,获得所述 信息素的残留强度。20.进一步的,根据如下公式计算所述单一模型信息素残留强度:21.其中,为第t+1 次迭代推理后,所述实体节点i和实体节点j之间边eij的单一模型信息素残 留强度,ρ为预设参数,为一轮迭代推理后,一个推理模型对 实体节点i和实体节点j之间边eij贡献的信息素的增量,为第t次迭代 推理后,所述实体节点i和实体节点j之间边eij的单一模型信息素残留强度。22.进一步的,所述根据所述语义距离和所述信息素的残留强度计算所述运 动概率的步骤包括:23.根据如下公式计算所述运动概率:[0024][0025]其中,为所述运动概率,allowednodes为不在预设的禁忌表中的实体 节点的集合,所述禁忌表中存储有每个所述推理模型分别已经经过的实体节 点,τij(t)为实体节点i和实体节点j之间的边eij上的信息素的残留强度,ηij为实体节点i和实体节点j之间的语义距离的倒数,α和β分别为预设参数。[0026]进一步的,所述在将所述实体节点和所述边节点分别输入至预训练的向 量转换模型中,分别获得输出的实体嵌入向量和边嵌入向量的步骤之后,还 包括:[0027]基于所述实体嵌入向量和所述边嵌入向量计算实体节点之间的语义距离;[0028]根据预设的兴趣区域和所述语义距离确定每个所述实体节点的邻居节点;[0029]所述直至达到预设的停止条件,完成当前次迭代推理的步骤包括:[0030]直至形成的路径长度等于所述出发节点的邻接节点的数量或运动概率均 为0,完成当前次迭代推理。[0031]为了解决上述技术问题,本技术实施例还提供一种基于蚁群算法的知识 图谱补全方法装置,采用了如下所述的技术方案:[0032]一种基于蚁群算法的知识图谱补全方法装置,包括:[0033]接收模块,用于接收语料文档,对所述语料文档进行实体识别操作,获 得多个实体,基于所述实体构建知识图谱,其中,所述知识图谱包括实体节 点和边节点;[0034]输入模块,用于将所述实体节点和所述边节点分别输入至预训练的向量 转换模型中,分别获得输出的实体嵌入向量和边嵌入向量;[0035]计算模块,用于基于所述实体嵌入向量和所述边嵌入向量,计算推理模 型从当前的实体节点到下一个实体节点的运动概率,将所述推理模型从任意 实体节点出发,按照对应的运动概率在所述知识图谱中进行迭代推理,直至 达到预设的停止条件,完成当前次迭代推理;[0036]判断模块,用于在每次迭代推理后,从所有所述推理模型经过的路径中 确定出最短路径,并判断是否达到最大的迭代次数,若否,则继续进行所述 迭代推理,直至达到最大的迭代次数,若是,则根据所述最短路径补全所述 知识图谱,获得目标知识图谱。[0037]为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了 如下所述的技术方案:[0038]一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可 读指令,所述处理器执行所述计算机可读指令时实现上述的基于蚁群算法的 知识图谱补全方法的步骤。[0039]为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质, 采用了如下所述的技术方案:[0040]一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可 读指令,所述计算机可读指令被处理器执行时实现上述的基于蚁群算法的知 识图谱补全方法的步骤。[0041]与现有技术相比,本技术实施例主要有以下有益效果:[0042]本技术通过构建知识图谱,将知识图谱中的补全任务抽象为蚁群算法中 的蚂蚁寻找最佳路径任务。计算运动概率,将多个推理模型分别根据对应的 运动概率在知识图谱中进行迭代推理,进而确定出最短路径,根据最短路径 发现知识图谱中缺失的实体间的关系。本技术的方法较现有方法更易找到全 局最优解,提高了搜索效率。附图说明[0043]为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需 要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的 一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。[0044]图1是本技术可以应用于其中的示例性系统架构图;[0045]图2是根据本技术的基于蚁群算法的知识图谱补全方法的一个实施例的 流程图;[0046]图3是根据本技术的基于蚁群算法的知识图谱补全方法装置的一个实施 例的结构示意图;[0047]图4是根据本技术的计算机设备的一个实施例的结构示意图。[0048]附图标记:200、计算机设备;201、存储器;202、处理器;203、网络 接口;300、基于蚁群算法的知识图谱补全方法装置;301、接收模块;302、 输入模块;303、计算模块;304、判断模块。具体实施方式[0049]除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技 术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的 术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的 说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们 的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或 上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描 述特定顺序。[0050]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或 特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该 短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备 选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施 例可以与其它实施例相结合。[0051]为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对 本技术实施例中的技术方案进行清楚、完整地描述。[0052]如图1所示,系统架构100可以包括终端设备101、102、103,网络104 和服务器105。网络104用以在终端设备101、102、103和服务器105之间提 供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信 链路或者光纤电缆等等。[0053]用户可以使用终端设备101、102、103通过网络104与服务器105交互, 以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户 端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、 邮箱客户端、社交平台软件等。[0054]终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电 子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(movingpicture experts group audio layer iii,动态影像专家压缩标准音频层面 3)、mp4(moving picture experts group audio layer iv,动态影像专家 压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。[0055]服务器105可以是提供各种服务的服务器,例如对终端设备101、102、 103上显示的页面提供支持的后台服务器。[0056]需要说明的是,本技术实施例所提供的基于蚁群算法的知识图谱补全方 法一般由服务器/终端设备执行,相应地,基于蚁群算法的知识图谱补全方法 装置一般设置于服务器/终端设备中。[0057]应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。 根据实现需要,可以具有任意数目的终端设备、网络和服务器。[0058]继续参考图2,示出了根据本技术的基于蚁群算法的知识图谱补全方法的 一个实施例的流程图。所述的基于蚁群算法的知识图谱补全方法,包括以下 步骤:[0059]s1:接收语料文档,对所述语料文档进行实体识别操作,获得多个实体, 基于所述实体构建知识图谱,其中,所述知识图谱包括实体节点和边节点;[0060]在本实施例中,知识图谱的构造:接收语料文档di,设di中第i个句子 为xi。采用命名实体识别技术,将文档中的实体识别出来。基于所述实体构 建知识图谱。构成知识图谱g,g中所有实体节点集合为e,所有边节点的集 合为r。[0061]需要说明的是,上述命名实体识别技术已较为成熟,本发明不限定具体 方法,可以采用基于bi-lstm+crf算法或基于bert预训练模型等模型。[0062]本技术的蚁群算法参数定义:推理模型形成用于执行蚁群算法的程序, 有多个推理模型同时工作。[0063]蚁群算法(ant colony optimization,aco),是一种用来在图中寻找优 化路径的机率型算法。该算法具有许多优良的性质:(1)采用正反馈机制, 使得搜索过程不断收敛,最终逼近最优解;(2)每个个体可以通过释放信息 素来改变周围的环境,且每个个体能够感知周围环境的实时变化,个体间通 过环境进行间接地通讯;(3)搜索过程采用分布式计算方式,多个个体同时 进行并行计算,算法的计算能力和运行效率高;(4)启发式的概率搜索方式 不容易陷入局部最优,易于寻找到全局最优解。[0064]在本实施例中,基于蚁群算法的知识图谱补全方法运行于其上的电子设 备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方 式接收语料文档。需要指出的是,上述无线连接方式可以包括但不限于3g/4g 连接、wifi连接、蓝牙连接、wimax连接、zigbee连接、uwb(ultra wideband) 连接、以及其他现在已知或将来开发的无线连接方式。[0065]s2:将所述实体节点和所述边节点分别输入至预训练的向量转换模型中, 分别获得输出的实体嵌入向量和边嵌入向量。[0066]在本实施例中,对所有的实体节点和边节点,采用该领域常见的transe 及其后续改进方法或者bert模型,得到各自的实体嵌入向量和边嵌入向量。[0067]具体的,所述在将所述实体节点和所述边节点分别输入至预训练的向量 转换模型中,分别获得输出的实体嵌入向量和边嵌入向量的步骤之后,还包 括:[0068]基于所述实体嵌入向量和所述边嵌入向量计算实体节点之间的语义距离;[0069]根据预设的兴趣区域和所述语义距离确定每个所述实体节点的邻居节点;[0070]所述直至达到预设的停止条件,完成当前次迭代推理的步骤包括:[0071]直至形成的路径长度等于所述出发节点的邻接节点的数量或运动概率均 为0,完成当前次迭代推理。[0072]在本实施例中,预设的停止条件为:形成的路径长度等于所述出发节点 的邻接节点的数量或运动概率均为0。停止后,形成可行路径。邻居实体发现: 将知识图谱g中所有的实体节点和边节点,输入到bert模型,该模型输出节 点对应的实体嵌入向量和边嵌入向量。不失一般性,对任一实体节点ei,初始 指定一个语义距离为半径,形成一个兴趣区域aoi(area of interesting), 位于该范围内与ei有直接连接的节点即为ei的邻居节点。其中,邻居节点在推 理中的作用仅用于后续的限制每条路径的最大长度。具体的:设定每条路径 最大长度(即pmax),防止陷入无限搜索的局面。当pmax等于aoi(即兴趣 区域)内的邻居节点数量时即停止。走过的路径长度是走过一条边即加1。[0073]其中,所述基于所述实体嵌入向量和所述边嵌入向量计算实体节点之间 的语义距离的步骤包括:[0074]根据如下公式计算所述语义距离:[0075]ds(ei,ej)=sim(ei,ej)×sim(∑rei,∑rej),其中ei、ej为所述实体 节点,ds(ei,ej)为所述语义距离,sim为余弦相似度,∑rei为ei的所有连接 边的边嵌入向量之和,∑rej为ej的所有连接边的边嵌入向量之和。[0076]在本实施例中,ds(ei,ej)为实体节点ei和ej之间的语义距离。 sim(ei,ej)为两个实体节点的实体嵌入向量的余弦相似度,∑rei为ei所有连 接边的边嵌入向量之和。[0077]s3:基于所述实体嵌入向量和所述边嵌入向量,计算推理模型从当前的 实体节点到下一个实体节点的运动概率,将所述推理模型从任意实体节点出 发,按照对应的运动概率在所述知识图谱中进行迭代推理,直至达到预设的 停止条件,完成当前次迭代推理。[0078]在本实施例中,其中,将所有与当前实体节点具有直接边相连接的实体 节点,作为所述下一个实体节点。所述将所述推理模型按照对应的运动概率 在所述知识图谱中进行迭代推理的步骤包括:在预设禁忌表的约束下,将所 述推理模型按照对应的运动概率在所述知识图谱中进行迭代推理,其中,所 述禁忌表中存储有每个所述推理模型分别已经经过的实体节点。经过的路径 不能回到出发点,这样会形成闭环,禁忌表存储了走过的路径,用于约束节 点的选择。[0079]具体的,所述基于所述实体嵌入向量和所述边嵌入向量,计算推理模型 从当前的实体节点到下一个实体节点的运动概率的步骤包括:[0080]基于所述实体嵌入向量和所述边嵌入向量计算所述实体节点之间的语义 距离,并计算所述实体节点之间的边的信息素的残留强度;[0081]根据所述语义距离和所述信息素的残留强度计算所述运动概率。[0082]在本实施例中,通过语义距离和信息素的残留强度进行运动概率的计算。[0083]其中,所述计算所述实体节点之间的边的信息素的残留强度的步骤包括:[0084]分别计算每个推理模型在一次迭代推理后,对实体节点之间的边贡献的 信息素的增量;[0085]根据所述信息素的增量计算每个所述推理模型对实体节点之间的边的信 息素的残留强度,作为单一模型信息素残留强度;[0086]分别对每个边对应的所述单一模型信息素残留强度进行加和,获得所述 信息素的残留强度。[0087]在本实施例中,τij(t):在第t次迭代后,知识图谱中实体节点i和实 体节点j之间边eij上信息素的残留强度,为二维数组,该二维数组的元素的 初始值为0。其中,eij指的是实体节点i和实体节点j之间的边节点。分别对 每个边对应的所述单一模型信息素残留强度进行加和,即获得τij(t)(即信 息素的残留强度)。[0088]进一步的,根据如下公式计算所述单一模型信息素残留强度:[0089]其中,为第t+1 次迭代推理后,所述实体节点i和实体节点j之间边eij的单一模型信息素残 留强度,ρ为预设参数,为一轮迭代推理后,一个推理模型对 实体节点i和实体节点j之间边eij贡献的信息素的增量,为第t次迭代 推理后,所述实体节点i和实体节点j之间边eij的单一模型信息素残留强度。[0090]在本实施例中,从第t次到第t+1次迭代,按照以下方式执行信息素更 新:[0091]一个推理模型在经过实 体节点i和实体节点j时,对两者之间边eij的贡献的增量为q为预设的信 息素总信息量,lk为推理模型在本次迭代时经过总路径的长度(经过的总路径 的长度指经过的知识图谱的边的个数),即可以知道,在一次推理中,推理模 型经过的对应的各边的信息素的增量是相同的。[0092][0093]其中,δτij表示一次迭代后边eij上信息素的增量。表 示一次推理后推理模型k对知识图谱中边eij贡献的信息素的增量。[0094]ρ:信息素残留系数,由于推理模型释放的信息量会随着时间的转移而逐 渐挥发,以至于路径上的信息素不能无限递增,该系数太小时会降低算法的 全局搜索能力,过大时容易使算法陷入局部最优,影响全局搜素能力;通常 取值[0.1,0.99]。[0095]δτij:一次迭代后边eij上信息素的增量。一轮推理后推理模型k 对知识图谱中边eij的信息素的贡献量。[0096]q:信息素总信息量,为推理模型经过一轮迭代后向途经路径释放信息素 的总量,通常取值[10,1000]。[0097]m:推理模型的总数,每次迭代推理中,每个推理模型所走出的每条路径 为候选解,m个推理模型一轮迭代后所走出来的m条路径为一个解子集。[0098]此外,所述根据所述语义距离和所述信息素的残留强度计算所述运动概 率的步骤包括:[0099]根据如下公式计算所述运动概率:[0100][0101]其中,为所述运动概率,allowednodes为不在预设的禁忌表中的实体 节点的集合,所述禁忌表中存储有每个所述推理模型分别已经经过的实体节 点,τij(t)为实体节点i和实体节点j之间的边eij上的信息素的残留强度,ηij为实体节点i和实体节点j之间的语义距离的倒数,α和β分别为预设参数。[0102]在本实施例中,ηij:实体节点i与j之间的能见度,反映了由实体节点 i转移到实体节点j的启发程度。能见度为二者之间的语义距离的倒数。[0103]α:信息启发因子,取值[0,5],反映了推理模型在从某实体节点向另一 实体节点移动时,这两个实体节点之间的边所累积的信息素在指导推理模型 选择实体节点时的随机性因素的程度,α为自定义的随机化参数。[0104]β:期望值启发式因子,取值[0,5],反映了推理模型在从某实体节点向 另一实体节点转移时,期望值在指导推理模型程序搜索中的相对重要程度。 其大小反映了推理模型程序在路径搜素中的先验性、确定性等因素的强弱,β 为自定义的随机化参数。[0105]推理模型k从当前所在实体节点到下一个实体节点的运动概率。其 中,所述下一个实体节点为所有与当前节点具有边相连的节点。[0106]tabu(k):禁忌表,用于存放第k个推理模型已经过的实体节点。 allowednodes为不在禁忌表中的实体节点的集合。[0107]需要说明的是,在完成每次迭代推理后,需要对每个所述推理模型经过 的路径上的信息素进行更新,便于下一次迭代推理中计算信息素的残留强度。[0108]s4:在每次迭代推理后,从所有所述推理模型经过的路径中确定出最短 路径,并判断是否达到最大的迭代次数,若否,则继续进行所述迭代推理, 直至达到最大的迭代次数,若是,则根据所述最短路径补全所述知识图谱, 获得目标知识图谱。[0109]在本实施例中,根据最短路径补全知识图谱的具体步骤包括:确定所述 最短路径的起始的实体节点和最后一个实体节点。将最后一个实体节点与倒 数第二个实体节点之间的关系作为目标边关系,将目标边关系作为起始的实 体节点和最后一个实体节点之间的关系,进而补充所述知识图谱,获得目标 知识图谱。本技术中,最短路径中的第一个节点到最后一个节点之间原来是 没有边的,本技术通过最短路径建立边,边上的关系为倒数第二个实体节点 到最后一个实体节点之间的关系。例如:假设经过路径为:《王某某-同事-》 张某某,《张某某-下属-郑某某》,...,《赵某某-工作于-美国》,最后可形成 《王某某-工作于-美国》这个新的边,补全了知识图谱,获得目标知识图谱。[0110]其中,所述从所有所述推理模型经过的路径中确定出最短路径的步骤包 括:[0111]计算每个所述推理模型经过的总路径的语义距离,将语义距离最小的所 述总路径作为最短路径。[0112]在本实施例中,将语义距离最小(即边权重最小)的所述总路径作为最 短路径。[0113]在本技术应用于医疗领域时,前期的训练语料为医疗相关训练语料,通 过医疗相关训练语料对向量转换模型进行训练,获得预训练的向量转换模型。 在实际应用时,接收医疗相关语料文档作为本技术的语料文档,根据上述过 程进行后续的知识图谱补全,获得医疗知识图谱,医疗知识图谱可以应用于 医疗相关的各个方面,例如病情的判断、向病人推荐科室等,均可以使用医 疗知识图谱。[0114]本技术通过构建知识图谱,将知识图谱中的补全任务抽象为蚁群算法中 的蚂蚁寻找最佳路径任务。计算运动概率,将多个推理模型分别根据对应的 运动概率在知识图谱中进行迭代推理,进而确定出最短路径,根据最短路径 发现知识图谱中缺失的实体间的关系。本技术的方法较现有方法更易找到全 局最优解,提高了搜索效率。[0115]本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其 中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字 计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用 知识获得最佳结果的理论、方法、技术及应用系统。[0116]人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分 布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能 软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理 技术、自然语言处理技术以及机器学习/深度学习等几大方向。[0117]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可 存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如 上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读 存储记忆体(read-only memory,rom)等非易失性存储介质,或随机存储记 忆体(random access memory,ram)等。[0118]应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显 示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有 明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序 执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多 个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在 不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或 者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。[0119]进一步参考图3,作为对上述图2所示方法的实现,本技术提供了一种基 于蚁群算法的知识图谱补全方法装置的一个实施例,该装置实施例与图2所 示的方法实施例相对应,该装置具体可以应用于各种电子设备中。[0120]如图3所示,本实施例所述的基于蚁群算法的知识图谱补全方法装置300 包括:接收模块301、输入模块302、计算模块303以及判断模块304。其中: 接收模块301,用于接收语料文档,对所述语料文档进行实体识别操作,获得 多个实体,基于所述实体构建知识图谱,其中,所述知识图谱包括实体节点 和边节点;输入模块302,用于将所述实体节点和所述边节点分别输入至预训 练的向量转换模型中,分别获得输出的实体嵌入向量和边嵌入向量;计算模 块303,用于基于所述实体嵌入向量和所述边嵌入向量,计算推理模型从当前 的实体节点到下一个实体节点的运动概率,将所述推理模型从任意实体节点 出发,按照对应的运动概率在所述知识图谱中进行迭代推理,直至达到预设 的停止条件,完成当前次迭代推理;判断模块304,用于在每次迭代推理后, 从所有所述推理模型经过的路径中确定出最短路径,并判断是否达到最大的 迭代次数,若否,则继续进行所述迭代推理,直至达到最大的迭代次数,若 是,则根据所述最短路径补全所述知识图谱,获得目标知识图谱。[0121]在本实施例中,本技术通过构建知识图谱,将知识图谱中的补全任务抽 象为蚁群算法中的蚂蚁寻找最佳路径任务。计算运动概率,将多个推理模型 分别根据对应的运动概率在知识图谱中进行迭代推理,进而确定出最短路径, 根据最短路径发现知识图谱中缺失的实体间的关系。本技术的方法较现有方 法更易找到全局最优解,提高了搜索效率。[0122]在本实施例的一些可选的实现方式中,上述装置300还包括:语义距离 计算模块和邻接节点确定模块,语义距离计算模块用于基于所述实体嵌入向 量和所述边嵌入向量计算实体节点之间的语义距离。邻接节点确定模块用于 根据预设的兴趣区域和所述语义距离确定每个所述实体节点的邻居节点。所 述计算模块303进一步用于直至形成的路径长度等于所述出发节点的邻接节 点的数量或运动概率均为0,完成当前次迭代推理。[0123]所述语义距离计算模块进一步用于根据如下公式计算所述语义距离:[0124]ds(ei,ej)=sim(ei,ej)×sim(∑rei,∑rej),其中ei、ej为所述实 体节点,ds(ei,ej)为所述语义距离,sim为余弦相似度,∑rei为ei的所有连 接边的边嵌入向量之和,∑rej为ej的所有连接边的边嵌入向量之和。[0125]计算模块303包括第一计算子模块和第二计算子模块,其中,第一计算 子模块用于基于所述实体嵌入向量和所述边嵌入向量计算所述实体节点之间 的语义距离,并计算所述实体节点之间的边的信息素的残留强度;第二计算 子模块用于根据所述语义距离和所述信息素的残留强度计算所述运动概率。[0126]所述第一计算子模块包括第一计算单元、第二计算单元和第三计算单元, 其中,第一计算单元用于分别计算每个推理模型在一次迭代推理后,对实体 节点之间的边贡献的信息素的增量;第二计算单元用于根据所述信息素的增 量计算每个所述推理模型对实体节点之间的边的信息素的残留强度,作为单 一模型信息素残留强度;第三计算单元用于分别对每个边对应的所述单一模 型信息素残留强度进行加和,获得所述信息素的残留强度。[0127]所述第二计算单元进一步用于根据如下公式计算所述单一模型信息素残 留强度:[0128]其中,为第t+1 次迭代推理后,所述实体节点i和实体节点j之间边eij的单一模型信息素残 留强度,ρ为预设参数,为一轮迭代推理后,一个推理模型对 实体节点i和实体节点j之间边eij贡献的信息素的增量,为第t次迭代 推理后,所述实体节点i和实体节点j之间边eij的单一模型信息素残留强度。[0129]在本实施例的一些可选的实现方式中,第二计算子模块进一步用于根据 如下公式计算所述运动概率:[0130][0131]其中,为所述运动概率,allowednodes为不在预设的禁忌表中的实体 节点的集合,所述禁忌表中存储有每个所述推理模型分别已经经过的实体节 点,τij(t)为实体节点i和实体节点j之间的边eij上的信息素的残留强度,ηij为实体节点i和实体节点j之间的语义距离的倒数,α和β分别为预设参数。[0132]在本实施例的一些可选的实现方式中,判断模块304进一步用于计算每 个所述推理模型经过的总路径的语义距离,将语义距离最小的所述总路径作 为最短路径。[0133]本技术通过构建知识图谱,将知识图谱中的补全任务抽象为蚁群算法中 的蚂蚁寻找最佳路径任务。计算运动概率,将多个推理模型分别根据对应的 运动概率在知识图谱中进行迭代推理,进而确定出最短路径,根据最短路径 发现知识图谱中缺失的实体间的关系。本技术的方法较现有方法更易找到全 局最优解,提高了搜索效率。[0134]为解决上述技术问题,本技术实施例还提供计算机设备。具体请参阅图4, 图4为本实施例计算机设备基本结构框图。[0135]所述计算机设备200包括通过系统总线相互通信连接存储器201、处理器 202、网络接口203。需要指出的是,图中仅示出了具有组件201-203的计算 机设备200,但是应理解的是,并不要求实施所有示出的组件,可以替代的实 施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算 机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息 处理的设备,其硬件包括但不限于微处理器、专用集成电路(applicationspecific integrated circuit,aslc)、可编程门阵列(field‑‑programmablegate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入 式设备等。[0136]所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器 等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板 或声控设备等方式进行人机交互。[0137]所述存储器201至少包括一种类型的可读存储介质,所述可读存储介质包 括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问 存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除 可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁 盘、光盘等。在一些实施例中,所述存储器201可以是所述计算机设备200的 内部存储单元,例如该计算机设备200的硬盘或内存。在另一些实施例中,所 述存储器201也可以是所述计算机设备200的外部存储设备,例如该计算机设 备200上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数 字(secure digital,sd)卡,闪存卡(flash card)等。当然,所述存储 器201还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设 备。本实施例中,所述存储器201通常用于存储安装于所述计算机设备200的 操作系统和各类应用软件,例如基于蚁群算法的知识图谱补全方法的计算机 可读指令等。此外,所述存储器201还可以用于暂时地存储已经输出或者将要 输出的各类数据。[0138]所述处理器202在一些实施例中可以是中央处理器(centra l processinguni t,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理 器202通常用于控制所述计算机设备200的总体操作。本实施例中,所述处 理器202用于运行所述存储器201中存储的计算机可读指令或者处理数据, 例如运行所述基于蚁群算法的知识图谱补全方法的计算机可读指令。[0139]所述网络接口203可包括无线网络接口或有线网络接口,该网络接口203 通常用于在所述计算机设备200与其他电子设备之间建立通信连接。[0140]本技术还提供了另一种实施方式,即提供一种计算机可读存储介质,所 述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至 少一个处理器执行,以使所述至少一个处理器执行如上述的基于蚁群算法的 知识图谱补全方法的步骤。[0141]通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘) 中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器, 空调器,或者网络设备等)执行本技术各个实施例所述的方法。[0142]显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的 实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。 本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使 对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进 行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体 实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替 换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在 其他相关的技术领域,均同理在本技术专利保护范围之内。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
基于蚁群算法的知识图谱补全方法及其相关设备与流程
作者:admin
2022-08-02 22:40:09
782
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术
- 下一篇: 一种包含上转换材料的太阳能电池系统
- 上一篇: 一种基于零样本学习的视频动作识别方法