发布信息

一种基于随机搜索算法和对接评估的蛋白质多肽设计集成装置

作者:admin      2022-09-03 18:03:52     546



医药医疗技术的改进;医疗器械制造及应用技术1.本发明涉及蛋白质多肽设计领域,尤其涉及一种基于随机搜索算法和对接评估的蛋白质多肽设计集成装置。背景技术:2.自j.l.lau和m.k.dunn首次在医学上用于胰岛素治疗以来1.,多肽已广泛应用于临床研究,包括诊断和治疗。与小分子不同,蛋白质-蛋白质/肽的相互作用发生在相当平坦的蛋白质表面,其表面积更大,为此外,与小分子相比,肽具有更高的结合亲和力和特异性、更低的毒性和平衡的构象弹性[3-4]。因此,目前进入市场的多肽数量约为80个[5],目前进入临床前阶段[6]的多肽数量超过500个。[0003]用来设计肽的强大技术是噬菌体展示。噬菌体展示是利用噬菌体的自然循环,将所需肽与噬菌体/病毒外壳蛋白融合并显示在病毒粒子/噬菌体[7]表面的一种高通量筛选技术。噬菌体展示方法中使用的库的大小是至关重要的,哪种大型数据集库更可取。然而,克隆一个超大的库在技术上是复杂的,耗时的,并且需要资源[8-9]。[0004]随着技术和生物信息学领域的进步,大量的硅方法被开发出来,有效地帮助大规模肽筛选,基于序列的方法,利用肽的主要结构和物理化学性质,或基于结构的方法,依赖于结构元素和蛋白质-肽的相互作用。然而,这些方法存在挑战,包括依赖数据库库(本地模板)导致大量的库搜索,以及启动参数的主观性[10-11]。此外,基于序列的方法使用数据评估受体和配体之间的结合亲和力,从而产生不准确和嘈杂的结果[12]。相反,基于结构的方法,如对接和分子动力学模拟,利用结构互补性来计算两个分子之间的结合亲和力。不幸的是,由于计算和时间资源,基于结构的方法通常只优化现有的天然蛋白或肽[13-14]。因此,目前基于结构的方法在广谱设计中遇到了发现潜在的独特肽基序的困难。[0005]该方法将基于序列和基于结构的方法结合起来,即差分进化随机搜索算法和分子对接算法。这种集成的方法提供了一个迭代反馈肽优化,使快速和大规模的从头肽设计没有任何基本的结构指导。[0006]随机搜索算法,如遗传算法,已有效地作为一个闭环方法,以相对较小的初始库[15]设计抗菌肽(amps)。遗传算法方法减少了待评估多肽的数量(20l,l是一个多肽序列的长度)[16]。遗传算法采用一个或多个准则作为适应度值或矩阵。适应度值或矩阵作为权重值,计算每20个氨基酸的概率。因此,具有较高概率的氨基酸被高度选择作为上一代最有效肽的替代。迄今为止,机器学习已经与遗传算法相结合,通过选择或匹配具有所需物理化学特征[17]的残基来帮助肽设计过程。与遗传算法相似,差分进化的操作也模仿了遗传进化过程(初始化、突变、交叉、选择),但差分进化不是用字符串编码,而是用二进制向量编码。在实践中,差异进化已成功应用于药物组合优化[18-19]。另一方面,从几十年前开始,对接作为一种结构方法被广泛应用于多肽或蛋白质的设计中。对接揭示了分子相互作用的基本机制、结合姿势以及模型中每个元素在原子层次上的内部几何结构。大多数对接研究分三步进行,首先确定目标蛋白的热点区域或结合位点,然后寻找结合位姿,最后计算结合亲和力[21-22]。[0007]references[0008][1]j.l.lau,m.k.dunn,bioorg med chem 2018,26,2700-2707.[0009][2]m.pelay-gimeno,a.glas,o.koch,t.n.grossmann,angew chem int ed engl 2015,54,8896-8927.[0010][3]s.marqus,e.pirogova,t.j.piva,j biomed sci 2017,24,21.[0011][4]a.c.lee,j.l.harris,k.k.khanna,j.h.hong,int j mol sci 2019,20.[0012][5]m.muttenthaler,g.f.king,d.j.adams,p.f.alewood,nature reviews drug discovery 2021,20,309-325.[0013][6]k.fosgerau,t.hoffmann,drug discov today 2015,20,122-128.[0014][7]m.s.zambrano-mila,k.e.s.blacio,n.s.vispo,ther innov regul sci 2020,54,308-317.[0015][8]x.d.kong,v.carle,c.diaz-perlas,k.butler,c.heinis,acs chem biol 2020,15,2907-2915.[0016][9]k.bozovicar,t.bratkovic,int j mol sci 2019,21,215.[0017][10]m.yoshida,t.hinkley,s.tsuda,y.m.abul-haija,r.t.mcburney,v.kulikov,j.s.mathieson,s.reyes,m.d.castro,l.cronin,chem 2018,4,533-543.[0018][11]z.s.hashemi,m.zarei,m.k.fath,m.ganji,m.s.farahani,f.afsharnouri,n.pourzardosht,b.khalesi,a.jahangiri,m.r.rahbar,s.khalili,front mol biosci 2021,8,669431.[0019][12]p.vanhee,a.m.van der sloot,e.verschueren,l.serrano,f.rousseau,j.schymkowitz,trends biotechnol 2011,29,231-239.[0020][13]k.wichapong,c.silvestre-roig,q.braster,a.schumski,o.soehnlein,g.a.f.nicolaes,comput struct biotechnol j 2021,19,934-948.[0021][14]p.hart,p.hommen,a.noisier,a.krzyzanowski,d.schuler,a.t.porfetye,m.akbarzadeh,i.r.vetter,h.adihou,h.waldmann,angew chem int ed engl 2021,60,1813-1820.[0022][15]w.f.porto,l.irazazabal,e.s.f.alves,s.m.ribeiro,c.o.matos,a.s.pires,i.c.m.fensterseifer,v.j.miranda,e.f.haney,v.humblot,m.d.t.torres,r.e.w.hancock,l.m.liao,a.ladram,t.k.lu,c.de la fuente-nunez,o.l.franco,nat commun 2018,9,1490.[0023][16]c.d.fjell,h.jenssen,w.a.cheung,r.e.hancock,a.cherkasov,chem biol drug des 2011,77,48-56.[0024][17]k.boone,c.wisdom,k.camarda,p.spencer,c.tamerler,bmc bioinformatics 2021,22,239.[0025][18]p.nowak-sliwinska,a.weiss,x.ding,p.j.dyson,h.van den bergh,a.w.griffioen,c.m.ho,nat protoc 2016,11,302-315.[0026][19]i.wong,w.liu,c.m.ho,x.ding,slas technology 2017,22,289-305.[0027][20]i.d.kuntz,j.m.blaney,s.j.oatley,r.langridge,t.e.ferrin,journal of molecular biology 1982,161,269-288.[0028][21]p.hosseinzadeh,p.r.watson,t.w.craven,x.li,s.rettie,f.pardo-avila,a.k.bera,v.k.mulligan,p.lu,a.s.ford,b.d.weitzner,l.j.stewart,a.p.moyer,m.di piazza,j.g.whalen,p.j.greisen,d.w.christianson,d.baker,nat commun 2021,12,3384.[0029][22]h.m.li,z.p.dong,q.y.wang,l.x.liu,b.x.li,x.n.ma,m.s.lin,t.lu,y.wang,mol pharmaceut 2017,14,2236-2244.[0030]尽管现有的设计多肽的方法在药物开发方面取得了显著的成就,但没有任何基本结构指导的多肽从头设计仍然是一个长期的挑战。[0031]1.现有的方法严重依赖于天然蛋白的基序,因此妨碍了从这些模板之外发现潜在的多肽。[0032]2.基于序列方法的优化过程仅基于数据进行评估,导致结果不准确。[0033]3.基于结构的方法是耗时的,因此局限于小范围的肽筛选。[0034]因此,本领域的技术人员致力于开发一种设计和优化多肽的装置,而无需对目标蛋白,特别是那些不需要任何先验知识的新蛋白进行结构指导。技术实现要素:[0035]有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是在不需要蛋白质的先验知识的情况下如何快速有效、多样化、高通量、低成本地设计多肽。[0036]为实现上述目的,本发明提供了一种基于随机搜索算法和对接评估的蛋白质多肽设计集成装置,其特征在于,包括集成结构预测模块和集成对接模块,其中集成结构预测模块用于成多肽序列的预测三维结构,集成对接模块用于生成多肽序列,并将多肽序列的预测三维结构与目标蛋白的三维结构进行对接,计算三维结构中多肽与目标蛋白的相互作用的参数,基于定义的评分评价通过随机搜索算法选取优化的多肽序列。[0037]在本发明的较佳实施方式中,所述集成对接模块采用python编程语言编写的算法生成多肽序列。[0038]在本发明的另一较佳实施方式中,所述集成对接模块采用基于遗传进化过程的差异进化算法来产生多肽序列,所述差异进化算法包括初始化过程、突变过程、交叉过程和选择过程,所述初始化过程产生初始序列,所述突变过程产生突变序列,所述交叉过程产生交叉序列,所述选择过程包括生成所有多肽序列的预测三维结构,并将所有多肽序列的预测三维结构与目标蛋白的三维结构对接,计算三维结构中多肽与目标蛋白的相互作用的参数,基于定义的评分评价选择多肽序列;重复突变过程、交叉过程和选择过程,每一次将选择的多肽序列作为下一次迭代的初始序列进行传播,直到选择的多肽序列的评分评价值不再显著提高。[0039]在本发明的另一较佳实施方式中,所述初始序列由20种氨基酸中随机选择序列长度生成,随机选择一个残基并随机替换初始序列中任意一个位置的残基得到突变序列,初始序列被突变多次,得到多个突变序列,将所有突变后的残基按照其在突变序列中的位置进行排列组合,而其余残基及其位置不变,生成多个交叉序列。[0040]在本发明的另一较佳实施方式中,所述初始序列被突变3次,一个初始序列产生3个突变序列,通过排列组合3个突变序列中所有的突变后的残基的位置,而其余残基及其位置不变,生成6个交叉序列,共生成10个序列。[0041]在本发明的另一较佳实施方式中,所述集成结构预测模块包含蛋白质结构预测工具,对生成的多肽序列的三维结构进行建模,生成多肽序列的预测三维结构。[0042]在本发明的另一较佳实施方式中,所述集成对接模块包含对接工具,用于评估生成的多肽序列与目标蛋白三维结构之间的相互作用,进行对接计算,具体获得表示多肽与目标蛋白三维结构对接位姿质量的均方根偏差rmsd值与表示多肽与目标蛋白三维结构相互作用强度的对接结合分数,评分评价定义为rmsd值与对接结合分数绝对值的比值,具体如下公式所示:[0043]评分评价=rmsd/|对接结合分数|,[0044]具体到每一个多肽和目标蛋白三维结构对接计算获得的评分评价的值即为评分评价值。[0045]在本发明的另一较佳实施方式中,所述20种氨基酸分别为丝氨酸、苏氨酸、缬氨酸、甲硫氨酸、天冬氨酸、亮氨酸、赖氨酸、异亮氨酸、精氨酸、丙氨酸、苯丙氨酸、色氨酸、酪氨酸、天冬酰胺、谷氨酸、谷氨酰胺、半胱氨酸、脯氨酸、组氨酸、甘氨酸。[0046]在本发明的另一较佳实施方式中,所述随机搜索算法选用模拟退火算法、进化策略、遗传算法中的一种。[0047]在本发明的另一较佳实施方式中,集成对接模块生成多肽序列时,通过设置序列的长度、突变残基的数量和每次迭代生成的肽的数量,用于优化生成的多肽序列。[0048]与现有技术相比,本发明提出的技术方案是基于顺序的方法和基于结构的方法的集成装置。因此,本文涵盖了这两种方法的各自的优点。本发明装置的方法考虑了结构互补性,这在基于序列的方法中被忽视,但对破译分子相互作用的潜在机制至关重要。本发明中的设计多肽的装置能够满足以下要求:[0049]1.快速有效。随机搜索算法每次迭代选择最适合的肽段,丢弃性能最差的肽段。[0050]2.提高多样性。不需要模板指导的从头设计允许在宽序列搜索空间中进行搜索。[0051]3.大规模筛查。使大规模肽筛选成为可能,这在基于结构的方法中是不常见的。[0052]4.与实验方法相比,成本更低。[0053]5.简单易行。没有对先验知识和技能的要求。[0054]本发明的装置能够使迭代肽优化没有任何结构指导,其实现的差分进化随机算法允许在宽序列空间中进行探索,而不是进行穷尽搜索。因此,将差异进化与对接评估相结合,可以实现基于结构互补性的次肽突破优化过程。[0055]以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。附图说明[0056]图1是本发明的一个较佳实施例的装置的集成随机搜索算法的工作流程和对接方法的示意图。[0057]图2a是使用本发明的一个较佳实施例的装置设计的靶向arf6-gtp蛋白的多肽的评分评价值分布[0058]图2b是使用本发明的一个较佳实施例的装置设计的靶向arf6-gtp蛋白的多肽的第20次迭代的均方根差(rmsd值)和对接结合分数分布图。[0059]图3是使用本发明的一个较佳实施例的装置设计的靶向arf6-gtp蛋白的多肽的三维结构对接图(上)以及elisa法测定的设计的肽的结合能力的示意图(下)。具体实施方式[0060]本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。[0061]本发明的装置包括集成结构预测模块和集成对接模块,其中集成结构预测模块用于成多肽序列的预测三维结构,集成对接模块用于生成多肽序列,并将多肽序列的预测三维结构与目标蛋白的三维结构进行对接,计算三维结构中多肽与目标蛋白的相互作用的参数,基于定义的评分评价通过随机搜索算法选取优化的多肽序列。[0062]本发明的装置的工作方法如图1所示,在集成对接模块中,肽序列的生成采用python编程语言编写的算法。根据采用遗传进化过程(初始化、突变和交叉)的差异进化,将产生初始序列、突变序列、和交叉序列,图1中的步骤1。一个优选的实施例中,初始序列由20个氨基酸中随机选择l序列长度生成。这20个氨基酸就是常见的20种氨基酸,如图1所示,分别为丝氨酸、苏氨酸、缬氨酸、甲硫氨酸、天冬氨酸、亮氨酸、赖氨酸、异亮氨酸、精氨酸、丙氨酸、苯丙氨酸、色氨酸、酪氨酸、天冬酰胺、谷氨酸、谷氨酰胺、半胱氨酸、脯氨酸、组氨酸、甘氨酸。突变序列是通过替换初始序列中的一个残基得到的,被用于替换的突变残基从上述20种氨基酸随机选择一种,需要替换的初始序列中某一残基的位置也是随机选择的。为了增强多样性,每个初始序列被突变3次,当然也可以选择突变其它的次数,例如4次、5次等。因此,一个初始序列将产生3个突变序列。最后,通过排列从3个突变序列中提取的突变残基来生成交叉序列,具体如图1所示,将所有突变后的残基按照其在突变序列中的位置进行排列组合,而其余残基及其位置不变,生成多个交叉序列。因此,一个初始序列将产生6个交叉序列。总的来说,一个初始序列将生成9个新序列,总共生成10个序列。[0063]接着,利用集成结构预测模块中的结构预测工具对多肽的三维结构进行建模,结构预测工具可以是现有的结构预测工具。[0064]然后,在集成对接模块中,利用对接工具评估多肽与目标蛋白三维结构之间的相互作用。这个对接工具也可以是现有的对接工具。[0065]多肽的选择基于用户定义的评分评价。在优选的实施例中,评分评价定义为从对接工具中获得的rmsd值与对接结合分数绝对值的比值,具体到每一个多肽和目标蛋白三维结构对接计算获得的评分评价的值即为评分评价值。其中rmsd值表示多肽与目标蛋白三维结构对接位姿的质量,rmsd值越小,对接性能越好,对接结合分数表示多肽与目标蛋白三维结构相互作用强度,其绝对值越高,表明相互作用越强。[0066]重复图1中的第一步到第四步,即循环进行突变、交叉序列以及包含建模、对接计算、生成评分评价以及基于评分评价的多肽选择过程,每一次将基于评分评价选择的多肽作为下一次迭代的初始序列进行传播,直到肽的评分评价值不再显著提高,即达到优化平台。[0067]本发明的一个实施例中,生成了10个初始序列。从这10个初始序列中,产生了30个突变序列和60个交叉序列。因此,在第一次迭代中评估了100个序列。之后,从那100个具有最佳评分评价值(最小评分评价值)的序列中选出第二次迭代的初始序列。然后,选择的序列将经历突变和交叉过程,以及结构预测、对接和选择过程。[0068]此外,为了进一步优化和得到需要的多肽,随机搜索算法还可以选用模拟退火算法、进化策略、遗传算法中的一种,采用不同的随机算法,相应地采用不同的算法设计。集成对接模块生成多肽序列时,可通过设置序列的长度、突变残疾的数量和每次迭代生成的肽的数量等参数,优化生成的多肽序列。还可以选择不同的评分评价,用于选择适合的肽段。[0069]为了验证本发明的装置的效果,本技术还利用本发明的装置设计了靶向与癌症预后不良相关的arf6蛋白(arf6-gtp)活性状态的多肽。在计算优化过程中,pep12和pep15的结合效果良好,具有较高的亲和力和稳定性,并通过实验室elisa实验验证了其结合能力。结果如图2a-2b所示,图2a展示了在每次迭代的所有肽的评分评价值,评分评价值的分布在第一个截断值(评分评价值=0.2)以下,随着下方的点(多肽)数量的增加呈下降趋势。图2b展示了第20次迭代的rmsd值和对接结合分数的比例分布。前15个肽(最小的评分评价值)用截线左侧的点表示,截线左侧为选择的肽,右侧为废弃的肽。如图3所示,示出了几个选择的多肽与arf6-gtp蛋白的预测相互作用区域(上)和采用elisa法测定设计肽的结合能力的示意图,可以看出pep12和pep15与目标蛋白都具有较强的结合能力。[0070]以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部