医药医疗技术的改进;医疗器械制造及应用技术1.本发明属于数据挖掘技术领域,具体涉及一种基于词向量表征和注意力机制的药物重定位方法及系统。背景技术:2.药物的研发是一项极其漫长复杂、开销巨大的过程,一款新药要从实验室研发到成功推向市场,需要投入平均13亿美元,耗费10~15年时间,且由于未知的毒副作用或药代特性,得到新药物分子的有效率仅为2.01%。所以挖掘已进入临床阶段的老药物对新疾病潜在治疗作用的药物重定位受到高度关注,广泛应用于癌症、传染病、罕见病等疾病的药物研究中。识别药物-靶蛋白交互作用是药物重定位研究中的关键步骤,通过计算模型预测特定靶蛋白的潜在交互药物能有效提升研发实验效率,降低药物筛选过程耗时,从而加速药物研发、降低药物成本,具有重大的经济价值和研究价值,值得长期关注和重点研究。3.现有的计算药物重定位模型,主要包括以下四种方法,基于矩阵分解的方法、基于网络传播的方法、基于机器学习的方法、基于深度学习的方法等。现有的模型方法存在一定的局限性,如:4.第一、冷启动问题,矩阵分解方法和网络传播方法均仅能对已知交互作用的药物和靶蛋白进行预测,无法处理新加入的药物、靶蛋白信息;5.第二、手动特征问题,机器学习方法和传统的深度学习方法需要依赖专业知识手动构建药物和靶蛋白的特征工程,无法并行优化和推广到通用任务;6.第三、泛化性能问题,高质量有标签药物-靶蛋白交互作用数据的有限性及不合理应用,导致很多相关模型都存在显著的泛化性能问题,在随机切分的测试集上报告出优异的预测指标,但面对新的药物或靶蛋白预测能力急剧下降。技术实现要素:7.本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于词向量表征和注意力机制的药物重定位方法及系统,利用bert预训练模型构建药物和靶蛋白的动态词向量特征,基于注意力机制形成融合特征,通过多个分类器的集成学习来提高预测的准确率和泛化性能,解决药物-靶蛋白交互作用分类预测问题。8.本发明采用以下技术方案:9.本发明基于词向量表征和注意力机制的药物重定位方法,包括以下步骤:10.s1、建立小分子化合物药物-人体组织靶蛋白交互作用数据集drugbank;11.s2、分别构建化合物简化分子线性输入规范smiles字符串动态词向量模型和氨基酸序列动态词向量模型,得到所有药物和靶蛋白片段的词向量表征预训练模型;12.s3、基于步骤s2得到的词向量表征预训练模型,构建基于注意力池化的卷积层,对药物和靶蛋白进行向量建模,得到药物-靶蛋白对的融合特征,构建全连接深度学习网络,得到药物-靶蛋白交互作用预测分类模型bertdti;将步骤 s1建立的小分子化合物药物-人体组织靶蛋白交互作用数据集drugbank,按照标签反转对抗分布划分成三组训练集和验证集,分别训练一个bertdti模型,再按照bagging原则进行集成学习,得到bertdti集成模型;13.s4、将未知可用药物的新目标靶蛋白与数据集中所有药物分别组合构建待预测的药物-靶蛋白对,利用步骤s3得到的bertdti集成模型进行预测,按照模型输出概率值从大到小对预测结果排序,得到目标靶蛋白的潜在交互作用药物候选列表,缩小备选药物范围,指导后续的药物重定位。14.具体的,步骤s1中,对小分子化合物药物-人体组织靶蛋白交互作用数据集drugbank中的原始药物-靶蛋白信息进行清洗和整理,保留每种药物的简化分子线性输入规范和每种蛋白质的一维氨基酸序列。15.具体的,步骤s1具体为:16.s101、抽取已批准上市和实验阶段的小分子药物-靶蛋白阳性交互作用数据;保留阳性交互作用数据条目大于3的药物信息;剔除铁盐、锌盐等过小的无机化合物药物;保留smiles字符串长度小于300的化合物药物信息;17.s102、从bingdingdb数据库中筛选收集包含药物和靶蛋白的阴性交互作用数据;从开源实验数据继续抽取阴性交互作用药物-靶蛋白数据;剔除不同来源的药物-靶蛋白交互作用数据中的无效数据;18.s103、获得所有药物的唯一确定smiles字符串表达式以及每种靶蛋白的唯一确定氨基酸序列表达式;得到drugbank数据集,drugbank数据集包含 31989条药物-靶蛋白交互作用数据,其中14803个正样本,17186个负样本,涵盖4784种药物和4377种靶蛋白。19.具体的,步骤s2具体为:20.s201、应用主流动态词向量模型bert在无标签的化合物smiles数据集上训练词向量表征,得到smiles字符串的动态词向量预训练模型;21.s202、应用主流动态词向量模型bert在无标签的蛋白质数据集上训练词向量表征,得到氨基酸片段的动态词向量预训练模型。22.具体的,步骤s3具体为:23.s301、对步骤s1得到的drugbank数据集进行标签反转对抗分布划分成三组训练集/验证集;24.s302、基于步骤s2得到的动态词向量预训练模型,构建基于注意力池化的卷积策略,将各个smiles片段词向量和氨基酸序列片段的词向量按照不同结构间的注意力权重合并为整个药物-靶蛋白对的融合向量表征;25.s303、基于步骤s302得到药物和靶蛋白对的融合向量表征,采用全连接网络对药物-靶蛋白交互作用进行二分类预测,采用交叉熵作为模型损失函数,将整个模型记为bertdti;26.s304、在步骤s301得到的三组标签反转对抗分布数据集上,分别训练三个bertdti模型,迭代过程以模型在验证集上的损失下降情况和召回率提升情况决定是否停止迭代;27.s305、采用bagging思想对三个bertdti模型进行集成学习,按照其各自验证集上的最高召回率作为权重,对模型输出的概率值投票,得到最终的分类预测结果。28.进一步的,步骤s301具体为:29.s3011、将drugbank数据集中的所有数据按照靶蛋白随机划为3个组合,每个靶蛋白组合分别记为t1,t2,t3;30.s3012、将t1组合中的所有负样本和t2,t3组合中的所有正样本全部划为训练集、将t1组合中的所有正样本和t2,t3组合中的所有负样本全部划为验证集,由此得到第一组数据集,记为ta;31.s3013、分别对t2和t3同样处理,得到另外两组数据集tb、tc,三组数据集中训练集和验证集的标签呈完全对抗分布。32.进一步的,步骤s302中,整个药物-靶蛋白对的融合向量表征具体为:[0033][0034][0035]其中,dck为药物表征矩阵的卷积输出,pck为靶蛋白表征矩阵的卷积输出,为第k个卷积核结果中药物表征矩阵中词i对词j的注意力权重,为第k个卷积核结果中靶蛋白表征矩阵中词i对词j的注意力权重,m为卷积核总数,k为卷积核序号,do为药物的特征向量输出结果,po为靶蛋白的特征向量输出结果。[0036]具体的,步骤s4具体为:[0037]s401、对于需要预测的新目标靶蛋白,将其与drugbank数据集中已知的所有药物依次配对形成待预测的药物-靶蛋白对,分别送入s304中训练好的三个bertdti模型进行预测;[0038]s402、对步骤s401的三个bertdti模型预测结果进行集成投票,得到每个药物-靶蛋白对的最终预测概率;[0039]s403、将所有药物按照预测概率值从大到小排序,取前l位即得目标靶蛋白的潜在交互候选药物。[0040]进一步的,步骤s402中,3个bertdti模型集成后的模型输出计算如下:[0041][0042]其中,mi表示第i个bertdti模型输出的概率值,ωi表示第i个bertdti模型的权重。[0043]第二方面,本发明实施例提供了一种基于词向量表征和注意力机制的药物重定位系统,包括:[0044]数据模块,建立小分子化合物药物-人体组织靶蛋白交互作用数据集 drugbank;[0045]词向量模块,分别构建化合物简化分子线性输入规范smiles字符串动态词向量模型和氨基酸序列动态词向量模型,得到所有药物和靶蛋白片段的词向量表征预训练模型;[0046]分类器模块,基于词向量模块得到的词向量表征预训练模型,构建基于注意力池化的卷积层,对药物和靶蛋白进行向量建模,得到药物-靶蛋白对的融合特征,构建全连接深度学习网络,得到药物-靶蛋白交互作用预测分类模型 bertdti;将数据模块建立的小分子化合物药物-人体组织靶蛋白交互作用数据集drugbank,按照标签反转对抗分布划分成三组训练集和验证集,分别训练一个bertdti模型,再按照bagging原则进行集成学习,得到bertdti集成模型;[0047]预测模块,将未知可用药物的新目标靶蛋白与数据集中所有药物分别组合构建待预测的药物-靶蛋白对,利用分类器模块得到的bertdti集成模型进行预测,按照模型输出概率值从大到小对预测结果排序,得到目标靶蛋白的潜在交互作用药物候选列表,缩小备选药物范围,指导后续的药物重定位。[0048]与现有技术相比,本发明至少具有以下有益效果:[0049]本发明一种基于词向量表征和注意力机制的药物重定位方法,使用bert模型完成对药物和靶蛋白的词向量表征,实现从大规模无标签化合物和蛋白质数据研究向药物重定位研究的迁移学习;基于注意力池化的卷积策略,完成药物ꢀ‑靶蛋白对的特征向量构建,实现端到端的特征工程,解决了以往方法需要专业生物化学背景理论知识的问题;通过集成学习提升方法的效率和准确率。[0050]进一步的,采用简化分子线性输入规范smiles字符串作为drugbank数据集中药物的记录形式,采用一维氨基酸序列作为数据集中靶蛋白的记录形式,主要由于这两种方法都是用文本字符的形式序列化地描述药物和靶蛋白实体,可以直接应用成熟的自然语言处理技术进行建模。[0051]进一步的,对原始数据的收集和处理考虑负标签样本的可靠性和真实性,及对实际常见药物和人体靶蛋白的有效覆盖。相比于之前的传统方法中从未标记的无标签样本中随机抽样构建负标签样本的思路,本方法以drugbank数据库和bindingdb数据库为中心,正样本全部来自drugbank数据库中来自生化实验和专利的明确阳性交互作用,负样本大多来自bindingdb数据库中经实际实验验证的阴性交互作用,基本覆盖了目前市面已临床应用及实验阶段常见的小分子药物和人体靶蛋白,且正负样本比例基本均衡。解决了以往方法训练数据中可能存在的标签不真实、不平衡问题,提高了模型的准确率,保证了模型在实际特定靶蛋白潜在交互作用药物预测上的应用能力;本方法在研究过程中,对准备好训练数据按照数据对抗分布进行细致化切分,用以加强对模型泛化性能的对比分析。之前的传统方法中,多是对已有的数据集作简单的随机拆分处理,已知的药物和靶蛋白在训练集测试集中一致分布,导致模型在测试集上的评估指标虚高,当训练好的模型应对完全未在训练集中出现过的药物和靶蛋白时,往往出现预测性能大幅下降的情况。[0052]进一步的,本方法应用了迁移学习解决高质量有标签药物-靶蛋白交互作用数据不足的问题,将自然语言处理先基于大规模无标记文本做模型预训练,进而在下游细分领域小规模数据集上针对特定任务进行微调的思想应用到药物重定位领域。引入有机化学研究领域针对7700万种无标签化合物smiles字符串表达式的预训练模型和蛋白质研究领域针对近2万条人类已知全部蛋白质组氨基酸序列的预训练模型,作为训练本方法中bertdti模型的基础,从而加深了特征工程的深度抽象层次,强化了smiles字符串和化合物结构间、氨基酸序列和蛋白质结构间的表征联系,大幅提升了模型的泛化性能,构建词向量表征时,本方法经过对比,选用了动态词向量表征技术,提升了模型的有效性。传统的静态词向量表征工程中,构建一个固定的词-向量对照关系,每个单词都有一个固定的词向量表示,不随其上下文变化而变化,无法表示同义词等,经过实验发现,基于这种静态词向量表征的药物-靶蛋白交互作用模型较过往经典方法并未有显著的效果提升。而动态方法,并不直接构建出显式的词向量结果,直接根据上下文语境,得到随上下文变化的动态表征。这种思路应用在本方法的建模中,可以按照smiles片段在不同的结构中的位置得到不同向量表征,从而映射出更深层次的结构特性,更好地描述完整的药物化合物特征;在类似的文本分类任务中,往往通过直接池化的方式处理文本中各单词的词向量,从而获取整段文本你的特征向量用于后续任务,包括平均值池化和最大值池化等,这些方法在诸多任务中都取的了良好的效果。但存在一个显著的问题是所有的普通池化策略都在一定程度上丢失了序列的相对信息,有序的上下文华景的单词分布并不能有效地体现在最终的句向量中。本方法应用一种注意力池化的卷积策略,完成从片段的词向量到完整smiles字符串和氨基酸序列的建模过程。其中,考虑到药物重定位问题更多地需要关注到针对特定靶蛋白的潜在药物挖掘,需要强化不同的药物对特定靶蛋白的交互作用,所以对于smiles字符串采用自注意力机制,对氨基酸序列采用全局注意力机制,建模smiles中每个片段对氨基酸序列的每个片段的注意力权重,从而得到最终的药物-靶蛋白对的整体向量表征。[0053]进一步的,本方法相比于其他传统方法及采用静态词向量表征的对比方法,在泛化性能上有更优的表现。主要体现在,应对数据分布对抗的升级,模型的 auc和召回率等主要评估指标为出现明显的下降,模型预测效果不随着训练集测试集中的数据分布变化而变化。尤其是在面对训练过程未出现的新药物、新靶蛋白时,模型仍能准确地预测出其交互情况,相比有传统方法中在随机拆分数据集上测试结果优良,应对实际新靶蛋白问题时效果较差的情况,本方法有显著改善,具有更佳的应用价值;基于bagging思想对模型进行集成学习,提升其预测能力,将训练集以靶蛋白为中心构建标签反转分布对抗测试实验,将一部分靶蛋白的负样本全部划入训练集,正样本全部划入验证集,基于模型在验证集上的召回率指标指导训练过程并得到最终的权重参数,这一过程扰动了待集成模型的训练数据的分布,增大了方差。再通过bagging并行训练,降低其预测结果的方差,从而达到提升模型整体泛化性能的目标。[0054]进一步的,按照步骤s301进行标签反转数据对抗划分,可以使模型在训练过程中实际计算的正负样本的靶蛋白呈完全对抗分布。大约三分之一的靶蛋白只有负样本,三分之二的靶蛋白只有正样本,模型必须建模实际的交互作用本身才能在训练集和验证集上取得更好的评估指标输出,避免了因为数据分布导致模型通过简单地将某一类靶蛋白的所有相关样本全部划为正类或负类而造成错误结果。反转标签分布对抗测试使得模型的训练过程指标更真实地展示出模型学习到交互作用特征的程度,在此基础上进行循环学习率设置、dropout设置等超参数调优才能取得更直接有效地成果,也保证了模型最终的强泛化能力,为其后续的应用实践奠定基础。[0055]进一步的,基于注意力机制完成药物-靶蛋白对从smiles字符串和氨基酸序列到融合向量表征端到端地构建。在类似的文本分类相关问题中,传统方法多采用的平均值池化或最大值池化,虽然也能取得良好的效果,但存在一个显著的问题就是这些普通池化策略一定程度上丢失了序列的相对信息,有序的上下文环境的单词分布并不能有效地体现在最终的句向量中。本发明中模型特征向量的构建方法即有效地解决了这个问题,保持了一定程度的序列信息。考虑到药物重定位问题中,更多地需要关注到针对特定靶蛋白的潜在药物挖掘,需要关注到不同的药物对特定靶蛋白的交互作用,所以对于氨基酸序列采用了全局注意力机制,建模smiles中每个片段对氨基酸序列的每个片段的注意力权重。[0056]进一步的,针对无已知交互作用的待研究靶蛋白,将其与数据集中所有的小分子化合物药物分别配对,构成无标签的药物-靶蛋白对,模型针对这一批数据的预测结果是一系列概率值,其相对大小表征了交互作用的可能性。取其中排序靠前的,即可作为该靶蛋白的潜在候选药物,大概率包含真正有交互作用的药物,以次进而指导后续实验研究,可以起到节省实验开支和时间的目的。[0057]进一步的,bagging集成学习方法通过无互相依赖的基学习器单独并行训练后投票决策集成,可降低统计方差,缓解各个基分类器可能出现的过拟合现象,使得最终融合模型比单个独立模型的预测结果更平滑,效果更好。在反转标签对抗分布数据的每个训练集上分别训练,以在每个验证集上的最高召回率作为模型集成权重,即可完成有效的集成学习过程,达到提升模型预测准确率的目标。[0058]可以理解的是,上述第二方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。[0059]综上所述,本发明使用词向量表征和注意力机制对药物-靶蛋白交互作用进行建模和预测,保证了所收集数据的负样本有效性和样本均衡;使用迁移学习和动态词向量表征完成训练测试,提升了模型的泛化性能;使用注意力机制构建整体的特征工程,整合了不同结构层次间的关联;通过集成学习,提升了模型识别药物-靶蛋白交互作用的分类能力。[0060]下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。附图说明[0061]图1为本发明的总体流程图;[0062]图2为本发明中数据集的建立流程示意图;[0063]图3为小分子药物化合物smiles字符串示意图;[0064]图4为靶蛋白的多级结构原理示意图;[0065]图5为动态词向量表征bert模型的相关原理示意图,其中,(a)为多头注意力机制,(b)为transformer结构,(c)为bert模型简图;[0066]图6为划分得到标签反转对抗分布的训练集测试集示意图;[0067]图7为drugbank反转标签分布对抗数据集的划分结果明细图;[0068]图8为基于注意力池化的卷积策略融合特征向量示意图;[0069]图9为bertdti模型示意图;[0070]图10为模型测试过程中不同实验测试模式的划分原理图;[0071]图11为bertdti模型在不同实验模式下的评价指标图;[0072]图12为基于三个反转标签对抗测试数据集进行集成学习的过程示意图;[0073]图13为三个bertdti集成学习模型在测试集上的评价指标图;[0074]图14为基于乳腺癌相关靶蛋白问题的模型应用实践示意图;[0075]图15模型在乳腺癌相关靶蛋白问题上的初步检验效果图。具体实施方式[0076]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0077]在本发明的描述中,需要理解的是,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。[0078]还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。[0079]还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。[0080]应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等,但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一预设范围也可以被称为第二预设范围,类似地,第二预设范围也可以被称为第一预设范围。[0081]取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。[0082]在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域 /层。[0083]基于自然语言处理领域中的迁移学习思想的,将药物的smiles表达式和靶蛋白的氨基酸序列都视为文本语句,构建自动的通用特征工程和和端到端的分类模型,具有很高的应用实践价值。[0084]本发明提供了一种基于词向量表征和注意力机制的药物重定位方法,利用 bert模型对药物smiles字符串和靶蛋白氨基酸序列进行建模,保留了序列间的结构特性,使得动态词向量更有效地表征药物和靶蛋白;关注了数据来源和分布,降低了标签失真带来的模型偏差;基于注意力机制构建药物-靶蛋白对的向量表征,端到端地完成无需专业理论背景知识的特征工程;通过迁移学习和集成学习,引入有机化学领域针对化合物和蛋白质研究的先验知识,提升模型的泛化性能。[0085]请参阅图1,本发明一种基于词向量表征和注意力机制的药物重定位方法,包括以下步骤:[0086]s1、数据集收集和整理;[0087]请参阅图2,建立基于drugbank小分子药物-靶蛋白交互作用数据集,具体包括以下步骤:[0088]s101、阳性样本获取;[0089]从drugbank数据库v5.1.5版本中抽取已批准上市和实验阶段的小分子药物-靶蛋白阳性交互作用数据;仅保留阳性交互作用数据条目大于3的药物信息;剔除铁盐、锌盐等过小的无机化合物药物;仅保留smiles字符串长度小于300 的化合物药物信息。获取到14927条正交互作用数据,涵盖4792种小分子药物及2678种靶蛋白。[0090]s102、阴性样本获取;[0091]s1021、从bingdingdb数据库中筛选收集包含步骤s101中药物和靶蛋白的阴性交互作用数据。获取到对应的9142条负样本数据,涵盖2213种小分子药物及3214种靶蛋白;[0092]s1022、从近两年该领域论文中开源的实验数据继续抽取阴性交互作用药物ꢀ‑靶蛋白数据,作为补充。获取到其他8061条负样本数据,涵盖2623种小分子药物和2908种靶蛋白;[0093]s1023、剔除不同来源的药物-靶蛋白交互作用数据中的无效数据;[0094]s103、数据处理;[0095]s1031、基于pubchemcid 2.3.0工具获得所有药物的唯一确定smiles字符串表达式,如图3所示;[0096]s1032、基于uniprot数据库获取每种靶蛋白的唯一确定氨基酸序列表达式,如图4所示。[0097]最终得到31989条样本数据,涵盖4784种药物和4377种靶蛋白,包括 14803个正样本和17186种负样本。[0098]s2、对步骤s1中的实验数据训练得到动态词向量表征模型;[0099]s201、应用自然语言处理领域的主流动态词向量模型bert在大规模无标签的化合物smiles数据集上训练其词向量表征,得到smiles字符串的动态词向量预训练模型;[0100]s202、应用自然语言处理领域的主流动态词向量模型bert在大规模无标签的蛋白质数据集上训练其词向量表征,得到氨基酸片段的动态词向量预训练模型。[0101]进一步的,步骤s201实际应用的是来自chithrananda等2020年提出的 chemberta模型,在pubchem中7700万无标签化合物训练得到,实际结构为6 层12头注意力的transformer层堆叠;步骤s202实际应用的是来自roshan等 2019年提出的tape模型,在pfam数据库的无标签人体蛋白质数据上训练得到,实际结构包含512个单元、12层12头注意力的transformer堆叠,其原理如图5所示。[0102]s3、模型训练和验证[0103]s301、对步骤s1得到的drugbank数据集进行标签反转对抗分布划分成三组训练集-验证集;[0104]请参阅图7,具体步骤如下:[0105]s3011、将drugbank数据集中的所有数据按照靶蛋白随机划为3个组合,每个靶蛋白组合分别记为t1,t2,t3;[0106]s3012、将t1组合中的所有负样本和t2,t3组合中的所有正样本全部划为训练集、将t1组合中的所有正样本和t2,t3组合中的所有负样本全部划为验证集,由此得到第一组数据集,记为ta;[0107]s3013、类似地,分别对t2和t3同样处理,得到另外两组数据集tb、tc,这三组数据集中训练集和验证集的标签呈完全对抗分布,数据集间有较大差异,可用于集成学习,划分结果如图7所示。[0108]s302、基于步骤s2得到的动态词向量预训练模型,构建基于注意力池化的卷积策略,将各个smiles片段词向量和氨基酸序列片段的词向量按照不同结构间的注意力权重合并为整个药物-靶蛋白对的融合向量表征;[0109]请参阅图8,具体步骤如下:[0110]首先,在输入层设定smiles字符串最大长度ld和氨基酸序列最大长度lp,将构建的词向量拼接成矩阵,对未达最大长度的序列进行零填充。设为药物表征矩阵,其中,hd是药物gram词向量的维度,ld是药物smiles序列的长度,是第i个smiles词的hd维词向量;为靶蛋白表征矩阵,hp是氨基酸gram词向量的维度,lp是氨基酸序列的长度,是第j个氨基酸词的hp维词向量。[0111]然后,在卷积层构建m=3个卷积核,大小分别是1×hd(hp),2×hd(hp), 3×hd(hp),分别用以提取药物表征矩阵d和靶蛋白表征矩阵p的局部特征,设单个卷积层的权重为wk,偏置为b,设d,p的卷积输出dck,pck如下:[0112]dck=tanh(wkxi+b)[0113]pck=tanh(wkyi+b)[0114]其中,k=1,…,m。[0115]接着给每个卷积层的输出分配一个初始化注意力权重,对于smiles部分,采取自注意力机制,整个smiles矩阵d只与d本身计算注意力权重,得到dha;对于氨基酸部分,采取全局注意力机制,氨基酸序列矩阵p与其本身和smiles 矩阵d同时计算权重,得到pha,分别送入各自的池化层:[0116]dha=tanh(w′ck)[0117]pha=tanh(w′pck+w″dck)[0118]通过softmax操作构建注意力向量dak和pak:[0119][0120][0121]其中,j=1,...,lp。[0122]最后的输出层,分别用卷积层的输出点乘各自注意力矩阵即得到词向量的拼接结果和分别表示药物和靶蛋白的特征向量:[0123][0124][0125]由此实现从从(d,p)到(do,po)端到端的向量融合过程,从单个词的静态词向量表征构建出smiles和氨基酸序列的整体向量表征。考虑到药物重定位问题,更多地需要关注到针对特定靶蛋白的潜在药物挖掘,需要关注到不同的药物对特定靶蛋白的交互作用,所以对于氨基酸序列采用了全局注意力机制,建模smiles中每个片段对氨基酸序列的每个片段的注意力权重。[0126]s303、采用全连接网络对药物-靶蛋白交互作用进行二分类预测,采用交叉熵作为模型损失函数,将整个模型记为bertdti,如图9所示;[0127]基于步骤s302分别得到药物和靶蛋白的注意力特征向量do和po,将公结果拼接即得整个药物-靶蛋白对的特征向量,维度是hd+hp,将其送入全连接网络完成后续的分类任务,得到对该药物-靶蛋白对交互作用的预测[0128][0129]针对该二分类问题,采用交叉熵损失进行深度学习模型的训练,则对于给定的数据集模型整体的损失函数j为:[0130][0131]其中,θ是网络的参数。[0132]选择优化器为sgd,激活函数为relu,学习率为1e-5,迭代次数为100,批尺寸为128,训练模型,采用四个分类评估指标评价测试结果:准确率 (accuracy)、精准率(precision),召回率(recall),roc曲线下面积(auc)。[0133]指标具体计算方法如下:[0134]针对n个标签数据样本(包含p种药物,q种靶蛋白,n+个正样本,n-个负样本)的预测任务中,对于某款药物dj(0≤j<p)和某靶蛋白tk(0≤k<q),构建特征向量mi(0≤i<n)后送入深度学习模型进行预测,得到概率值pi。[0135]针对模型设定一个阈值θ,若pi>θ,判定该药物与该靶蛋白有阳性交互作用,yi=1;若pi<θ,判定该药物与该靶蛋白有阳性交互作用,yi=0。[0136]对于有标签的训练样本,将y与其真实标签对比计算以下四个基本统计量:[0137][0138][0139][0140][0141]其中,tp(tn)表示被正确识别的正样本(负样本)数量,fp(fn)表示被错误识别的正样本(负样本)数量。由此可以得到具体的模型评估指标。[0142]准确率acc指模型预测正确的样本数占总样本数的比例:[0143][0144]精准率pre指模型预测的正样本中实际正样本的比例:[0145][0146]召回率recall指实际正样本中被模型预测为正样本的比例,也称真阳性率 tpr:[0147][0148]假阳性率fpr指实际负样本中被识别为正样本的比例:[0149][0150]设定不同的阈值θ,得到每个样本的不同预测值yi,进而得到不同的真阳率 tpr和假阳率fpr。[0151]以假阳率fpr为横坐标,以真阳率tpr为纵坐标,绘制不同θ下的坐标点,自左下到右上依次连接即得roc曲线,计算曲线下积分面积可得auc指标,用以衡量二分类模型的效果:[0152][0153][0154]为了测试模型效果和泛化性能,在s1得到的drugbank数据集上,进行数据分布对抗测试,以在已知标签的数据上展示模型对药物-靶蛋白交互作用的预测能力。相比于传统方法中按照经典机器学习思路对训练集、测试集的随机划分,本发明在对比实验中对数据集按照数据分布对抗进行了更细致的处理,具体为:将drugbank数据集按照药物和靶蛋白是否在训练集测试集中对抗分布,将其划分为了x0,x1,x2,x3四种不同的实验模式,具体过程如图10所示,其中:[0155]1)按照传统机器学习思路,随机划分训练集和测试集,保证两者的药物和靶蛋白分布一致,得到x0模式;[0156]2)训练集和测试集的药物完全不同,呈对抗分布,靶蛋白随机均匀分布,得到x1模式;[0157]3)训练集和测试集的靶蛋白完全不同,呈对抗分布,药物随机均匀分布,得到x2模式;[0158]4)训练集和测试集的药物及靶蛋白均完全不同,呈对抗分布,得到x3模式;[0159]本发明在此四种不同模式的drugbank数据集上进行模型测试,对比领域内相关研究论文提到的其他方法,得到不同模式下的评价指标图,如图11所示。[0160]s304、在步骤s301得到的三组标签反转对抗分布数据集上,分别训练三个 bertdti模型,迭代过程以模型在验证集上的损失下降情况和召回率提升情况决定是否停止迭代,其具体过程,如图12所示;[0161]s305、采用bagging思想对三个bertdti模型进行集成学习,按照其各自验证集上的最高召回率作为权重,对模型输出的概率值投票,得到最终的分类预测结果,最终的评价指标图如图13所示;[0162]s4、模型实践应用[0163]s401、对于需要预测的新目标靶蛋白,将其与drugbank数据集中已知的所有药物依次配对形成待预测的药物-靶蛋白对,分别送入步骤s304中训练好的三个bertdti模型进行预测;[0164]s402、对步骤s401的三个bertdti模型的预测结果进行集成投票,得到每个药物-靶蛋白对的最终预测概率;[0165]输出结果计算如下:[0166][0167]其中,mi表示第i个bertdti模型输出的概率值,ωi表示第i个bertdti模型的权重,及其在训练过程中验证集上的最高召回率。[0168]s403、将所有药物按照预测概率值从大到小排序,取前l位即得该目标靶蛋白的潜在交互候选药物。[0169]本发明再一个实施例中,提供一种基于词向量表征和注意力机制的药物重定位系统,该系统能够用于实现上述基于词向量表征和注意力机制的药物重定位方法,具体的,该基于动态词向量表征和注意力机制的药物重定位系统包括数据模块、词向量模块、分类器模块以及预测模块。[0170]其中,数据模块,建立小分子化合物药物-人体组织靶蛋白交互作用数据集 drugbank;[0171]词向量模块,分别构建化合物简化分子线性输入规范smiles字符串动态词向量模型和氨基酸序列动态词向量模型,得到所有药物和靶蛋白片段的词向量表征预训练模型;[0172]分类器模块,基于词向量模块得到的词向量表征预训练模型,构建基于注意力池化的卷积层,对药物和靶蛋白进行向量建模,得到药物-靶蛋白对的融合特征,构建全连接深度学习网络,得到药物-靶蛋白交互作用预测分类模型 bertdti;将数据模块建立的小分子化合物药物-人体组织靶蛋白交互作用数据集drugbank,按照标签反转对抗分布划分成三组训练集和验证集,分别训练一个bertdti模型,再按照bagging原则进行集成学习,得到bertdti集成模型;[0173]预测模块,将未知可用药物的新目标靶蛋白与数据集中所有药物分别组合构建待预测的药物-靶蛋白对,利用分类器模块得到的bertdti集成模型进行预测,按照模型输出概率值从大到小对预测结果排序,得到目标靶蛋白的潜在交互作用药物候选列表,缩小备选药物范围,指导后续的药物重定位。[0174]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0175]准备好需要预测潜在交互药物的靶蛋白,将其氨基酸序列按每行一条记录为文本文件,得到模型应用数据集;利用步骤s3中训练好的模型对该数据集测试,得到最终的模型应用结果。[0176]请参阅图14,基于乳腺癌相关靶蛋白的模型应用实践步骤如下:[0177]1)首先从最新版本(v5.1.7)的drugbank数据库中抽取了14组与乳腺癌相关的药物-靶蛋白交互作用对(检索关键词:homo sapiens breast cancer),并确保该14组药物和靶蛋白数据均未作为标签数据出现在模型训练集中,关注该 14种靶蛋白的潜在交互药物预测问题;[0178]2)将构建的drugbank数据集中已有的4784种药物分别与该11种靶蛋白组合,形成4784组无标签药物-靶蛋白对样本,加上已知的一组阳性交互样本,得到了14种乳腺癌相关靶蛋白的4785组药物-靶蛋白对测试集;[0179]3)应用步骤3得到的bertdti集成模型分别对该14×4785组药物-靶蛋白对进行预测,对模型对输出的预测概率值在每种靶蛋白内从大到小排序,排名越靠前,说明模型预测对交互作用概率越大,药物越有可能与该靶蛋白产生阳性交互;[0180]4)分别取排序结果的前l个药物,作为该靶蛋白的潜在候选药物列表,判定已知的正样本是否被涵盖在该候选列表内,统计不同长度(l=20,50,100) 下,能有效涵盖正样本的候选药物列表数量,初步评估模型的应用效果,如图 15所示;[0181]5)对每种靶蛋白的药物候选列表的的前10名结果在uniprot蛋白质数据库和chembl化合物数据库中进行手动检索,查阅相关生物医学文献,证明其交互作用的有效性。[0182]综上所述,本发明一种基于词向量表征和注意力机制的药物重定位方法及系统,首先对药物-靶蛋白交互作用数据集进行收集和处理,保证了负标签数据的真实性和标签整体均衡,按照数据分布对抗的思路进行拆分;其次利用迁移学习的思想,构建基于动态词向量表征和注意力机制的特征工程,完成了端到端的药物smiles字符串和靶蛋白氨基酸序列的特征向量建模;集成学习了多个分类器结果,提升了模型识别药物-靶蛋白交互作用的分类能力和泛化性能;最后将模型应用到现实场景下,验证了本发明的准确性和可行性。[0183]本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 cd-rom、光学存储器等)上实施的计算机程序产品的形式。[0184]本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。[0185]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。[0186]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。[0187]以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
基于词向量表征和注意力机制的药物重定位方法及系统
作者:admin
2022-09-03 10:59:02
792
- 下一篇: 一种双级复叠式弹热制冷机及其制冷方法
- 上一篇: 一种智慧工地建筑物联网报警装置的制作方法