发布信息

一种酮还原酶突变体的设计及应用的制作方法

作者:admin      2022-11-04 17:16:02     436



医药医疗技术的改进;医疗器械制造及应用技术1.本发明涉及蛋白酶突变体的计算机辅助设计和虚拟筛选,更具体地,涉及一种结合了蛋白酶稳定突变体的虚拟筛选和催化活性突变体的虚拟筛选的计算方法,以实现对非天然底物活性的蛋白酶突变体的设计。背景技术:2.蛋白酶催化剂在现代合成工业中具有重要作用,随着酶催化应用范围的不断扩大,自然界中存在的天然酶的催化性能已经不能满足酶学研究和工业化应用的要求。定向进化是人们改造蛋白酶的重要技术手段之一,是一种更接近自然进化方式的蛋白质工程的策略,又称为实验室进化,是在生物体外模拟自然进化过程的具有一定目的性的快速改造蛋白质的方法,在未知目标蛋白三维结构信息和作用机制的情况下,能够在很短时间内完成原本在自然界中需要几百万年的进化过程,从而获得具有所期望功能的酶。近年来,定向进化技术广泛应用于制药、食品以及化学化工等领域所需酶催化剂的开发,引发了生物催化技术领域的又一次革命,极大地拓展了蛋白质工程学的研究和应用范围。申请人一直致力于酶的定向进化技术的研究和应用,已经成功开发出大量的用于医药和精细化学品生产的蛋白酶催化剂。然而,实验室定向进化通常需要筛选大量的酶突变文库,这些突变文库本身的构建以及后续的筛选工作对研究人员而言都是繁重的任务。申请人在对前期大量定向进化样本研究的基础上,结合计算生物学和生物信息学技术,总结设计出一套可行的计算方法,能够对所设想的酶突变体进行有效的计算机虚拟筛选,对具有期望性能的酶突变体进行可靠的预测,进而大大缩减实验室定向进化过程所需构建和筛选的突变文库的范围。本技术公开的计算方法不仅是实验室定向进化过程的有力补充,与实验室的定向进化技术相结合,而且能突破实验室所能构建和筛选的文库范围的限制,可以减少研发成本,提高研发效率,更加有效地获得具备所期望性能的酶突变体。3.现在已经公开了许多计算方法用于研究蛋白质。例如有分子对接算法用于观察小分子底物与蛋白质的结合方式,有用于构建蛋白质三维模型的同源建模和从头建模算法,还有用于计算蛋白质结构稳定性的工具foldx、i-mutant、rosetta等等,这些方法都已经广泛地应用于蛋白质的突变设计当中。但是由于这些算法本身都属于经验数学计算形式,计算公式中包含一些物理原理的能量计算项,也包含对现有数据库统计获得的统计能量项,到目前为止计算机辅助突变设计方法都有其各自的局限性,而通过计算预测得出的突变体的性能也很难与实验验证结果有可靠的吻合。目前并没有给出一个蛋白酶突变体的计算设计流程来可靠地预测具有所期望性能的酶突变体。技术实现要素:4.本发明特别开发了一种用于对酶突变体进行有效的计算机虚拟筛选,对具有期望性能的酶突变体进行可靠的预测的计算方法。本发明构建了特殊的稳定性计算结果的处理方法,并创造性地增加了反应能垒的计算过程,可提高蛋白酶突变虚拟筛选的准确性,不仅能大大减少实验所需筛选的突变数量,节省人力和物力,而且意外地实现了传统的酶定向进化手段无法达成的对酶进行工程化改造的效果。5.本发明的计算方法如图1所示,包含以下4个具体步骤:6.(1)蛋白质结构模型获取:根据目标蛋白酶的氨基酸序列得到蛋白质的三维结构模型。该结构模型可以是来自于已记录在pdb(protein data bank)数据库中的实验获得的结构模型,也可以是根据蛋白质序列用同源建模或从头建模方法虚拟构建的结构模型,一般的同源性较高的同源建模会比从头建模得到的模型更准确。对于不同来源的蛋白结构都需要处于催化构象,即底物分子(产物或过渡态)-蛋白复合物。7.(2)底物对接分析:确定目标蛋白酶的三维结构上结合底物分子的氨基酸位点,然后将酶的天然底物或目标底物(包含非天然底物)与蛋白质进行对接。根据天然底物或目标底物对接结果构象的不同选择蛋白结构活性位点中适合突变的位点。当下有较多计算软件都可实现分子对接,如discovery studio、schrodinger、yasara(含autodock和autodock vina插件) 等等。通过对对接构象的比对筛选出需要突变的氨基酸位点。8.(3)突变体稳定性计算:根据对接结果筛选得出的位点进行单点突变体和/或多点组合突变体的稳定性计算。首先使用python脚本批量生成所需进行虚拟筛选的突变体集合,然后可以使用yasara或rosetta等软件生成每个突变体的结构模型,并用ddg_monomer、 cartesian_ddg、foldx、provean、elaspic或amber ti等算法计算每个突变体的结构稳定性,最后使用python分析脚本计算每个突变体结构与野生型酶结构的自由能差(δδg)。9.对于上述稳定性计算的结果可以有两种处理策略:简单排序法【3a】和统计法【3b】。10.【3a】简单排序法:即简单地对突变体的δδg结果由低到高排序,选取排序靠前的部分突变体作为计算机虚拟筛选预测得到的稳定突变体。11.【3b】统计法:即对突变体的δδg结果由低到高排序,并选取排序靠前的部分突变体和排序靠后的部分突变体进行突变氨基酸残基的频率分析,对于一个具体的氨基酸位点,将稳定突变体中出现频率较高的氨基酸残基类型减去不稳定突变体中出现频率较高的氨基酸残基类型,得到该位点上理论可突变的氨基酸残基类型的集合,最后将各个位点的可突变氨基酸残基进行排列组合作为计算机虚拟筛选预测得到的稳定突变体。12.突变体稳定性计算结果的评判标准:δδg≤-1kcal/mol为稳定突变体;δδg≥1 kcal/mol为不稳定突变体;-1kcal/mol《δδg《1kcal/mol为无效突变体。该标准也适用于其它计算方法得出的稳定性结果的评判。13.对于蛋白质结构稳定性的计算目前已有较多方法可以实现,因此在该流程中不局限于使用 rosetta程序。本发明在稳定性计算过程中的创造性贡献在于构想并采用了统计法【3b】对计算结果进行处理,使用统计分析的方法对各个位点上的氨基酸残基突变进行筛选,然后将筛选出的突变进行组合作为计算机虚拟筛选预测得到的稳定突变体。14.目前的计算机虚拟筛选方法一般止步于此,即采用简单排序法【3a】得到虚拟筛选预测的稳定突变体后,紧接着在实验室用具体的实验方案对这些突变体进行验证,并没有再进一步使用任何计算方法来评估这些稳定突变体的催化活性。此外,由于稳定性计算的局限性,由简单排序法【3a】判断得到的稳定突变体会遗漏一部分在实验验证中稳定性和活性实际上较高的突变体。本发明在此给出统计法【3b】对稳定突变体进行筛选,可以获得目前算法无法预测出的稳定突变体。而且,目前常见的计算方法虽然通过虚拟筛选排除了大量结合不稳定的突变体,缩小了需要在实验室进行验证的突变体数量,但不能通过计算对预测出的稳定突变体做进一步的催化反应活性高低的判断,也不能评估预测出的稳定突变体对非天然底物是否有活性。15.本发明公开的蛋白酶突变体设计方法在此基础上,进一步增加了对各个突变体在催化化学反应过程中(天然底物或非天然底物)的反应能垒的计算方法和过程,实现了对预测出的稳定突变体的催化活性高低的判断,并能够评估预测出的稳定突变体对非天然底物是否有活性。16.(4)反应能垒计算:这是基于不同底物反应状态的力场描述的方法,同时提供了价键理论框架内化学反应的量子力学描述。这使反应能垒计算既可以利用基于力场的经典方法的计算速度,又可以承载大量的化学和热力学信息,从而对成键和断键过程进行了有意义的物理描述。反应能垒计算前的准备工作包括选择模拟力场、确定目标酶的反应限速步骤、底物小分子化合物结合的反应过渡态形式等等。确定计算参数之后,反应能垒计算将在cadee流程中实现,本发明用qtools对计算结果进行分析。在cadee计算流程中,例如,默认设置的是12.6ns的模拟计算时间,首先在90ps的模拟时间内将系统从0.01k逐渐加热到300k,例如,在模拟中对所有蛋白质原子施加200kcal mol-1的谐波抑制,对所有水原子施加20kcal mol-1的谐波抑制,然后随着温度的升高逐渐降低谐波抑制。使用berendsen恒温器调节温度,使用1fs的时间步长,并且对于所有模拟,将反应坐标设置为λ=0.5,以开始对接近过渡态的反应步骤进行后续的反应能垒计算。对于四个平行计算中的每个副本执行8ns的分子动力学(molecular dynamics,md)模拟,将模拟结果用作经验价键模拟的起点。在8ns的md 模拟中每1ns拍摄一次快照、获得接近过渡状态的结构,并以此结构进行520ps的经验价键模拟,分布在每个20ps的26个fep/us窗口中(λ=0、0.05、0.075、0.1、0.125、0.15、 0.2、0.25、0.30、0.35、0.40、0.425、0.45、0.55、0.575、0.6、0.65、0.70、0.75、0.80、 0.85、0.875、0.90、0.925、0.95、1)。如果使用cadee默认设置的计算流程,这将会是一个十分漫长的计算过程,因此本发明将计算过程中的md模拟时间从8ns减少为4ns,而每个平行计算副本中的重复计算循环数较少到4个,这样计算时间可降低到少于24小时,而且计算结果也不会出现较大变化。在多核计算机中cadee可以实现多任务并行计算,因此在高性能的计算机上,cadee可以实现大规模突变体的催化活性的筛选。17.反应能垒是由反应物分子到达活化分子所需的最小能量,能垒的大小可以体现反应发生的难易程度。如图2所示,酶和底物自由状态下的势能与二者相结合形成的活化分子的势能之差就是反应能垒,即从能量最低点(酶底物结合最优构象)到能量最高点(酶底物过渡态结合最优构象)的差值。在我们计算流程中即为初始状态能量最低点与活化状态能量最高点能量之差。18.突变体催化活性的实验验证:将图1计算得到的催化活性突变体在实验室构建并表达出来,然后检测对目标底物的催化活性,以验证计算方法预测的突变体是否具有所期望的催化性能。19.在传统的定向进化过程中,通常对所进化的蛋白酶没有明确的突变位点,更无法预知哪些氨基酸残基是有益的突变,往往只能构建大量的多样性文库,这些文库的筛选会占据大量的时间和物力。而在本发明的计算设计流程实施之后,即在蛋白酶与底物分子对接的基础上进行酶结构稳定性的计算,以及用本发明公开的稳定性结果处理方法进行虚拟筛选,可以过滤掉大量不稳定突变及无效突变,所需实验室筛选的突变文库将会大大减小。关于目前酶的稳定性计算,一方面,计算本身都属于经验算法,不可能保证完全的准确性,而且为了计算的可行性,氨基酸骨架的柔性变化等很多因素不被视作变量,此外,对于底物对接中的小分子往往当成刚体进行对接,而且周围的环境因素也被简化对待,所以,在计算方法的实际应用中,预测得到的突变体在实验室验证的成功率并不高,且往往会遗漏很多好的突变体。此外,目前的计算方法中,一般在稳定性计算结果处理上都采用对能量进行直接排序从而找出能量尽可能低的突变体,认为这就是最可能对目标反应有活性的突变序列。而在本发明中,申请人结合多年实践经验对稳定性结果处理方法进行再优化,在本发明中特别提出了突变的频率分析,即将稳定突变中出现频率较高的氨基酸残基突变类型减去不稳定突变中出现频率较高的氨基酸残基类型得到的该位点上理论可突变的氨基酸残基类型,最后将各个位点的可突变的氨基酸残基进行组合得到稳定突变体,在一定程度上保证了有效的突变不会被轻易排除,而这类突变体在目前已知算法的虚拟筛选过程中往往被忽视。20.依据目前算法中能量函数的各参数分析,目前算法设计中的计算实际上计算的是酶突变体蛋白结构的稳定性,并未涉及到酶突变体催化具体反应过程的活性判断。酶突变体整体结构的稳定性是酶工程化改造的一方面,也是具有催化活性的前提,而酶催化活性的发现(特别是对非天然底物活性的开创)和提高才是工业界更加关注的,因为利用高活性的酶突变体来提高对底物的催化效率可以实现工业上的实用性,但现有的计算方法在稳定性筛选完成之后未能实现关于催化活性的判断。因此,本发明在优化了稳定性计算方法的基础上,进一步将反应能垒计算应用于判断酶突变体催化具体反应过程中的活性,将底物分子、中间体以及反应过渡态等多因素加以考虑,实现了对预测出的稳定突变体的催化活性高低的判断。本发明公开的计算设计方法能够获得范围更精简的突变体文库供实验验证,大大提高了蛋白酶突变虚拟筛选的准确性和研发效率;反应能垒的计算有效地筛选了具有活性的酶突变体,提升了酶工程化改造的效率和效果。附图说明21.图1为蛋白酶突变体的计算设计流程22.图2为反应能垒示意图23.图3为酮还原酶催化1,3-丁二醇生成4-羟基-2-丁酮的反应24.图4为反应能垒计算流程25.图5为1,3-丁二醇原子序号26.图6为酮还原酶催化4-羟基-2-丁酮生成1,3-丁二醇的反应27.图7为酮还原酶催化1,3-丁二醇生成4-羟基-2-丁酮28.图8为4-羟基-2-丁酮和1,3-丁二醇的gc谱图29.图9为(r)-(-)-1,3-丁二醇和(s)-(-)-1,3-丁二醇的gc谱图具体实施方式30.下面用实施例来进一步说明本发明,对本发明的技术方案进行清楚、完整地描述,但本发明并不受其限制。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外,下述实施例中所涉及的设备和试剂未经特别注明的话,均是采用市售的设备和试剂。31.实施例:设计对一个非天然底物(天然底物的对映异构体)有活性的酮还原酶的突变体32.专利cn111321129a中公开的酮还原酶,可以不对称地将4-羟基-2-丁酮转化为较为昂贵的(r)-(-)-1,3-丁二醇,这是非常有意义和工业价值的;同时,该酶也可以催化将醇转化为酮的反应,但由于酶对底物的专一性,上述酶只能催化(r)-(-)-1,3-丁二醇的底物。若以外消旋的1,3-丁二醇为底物(即(r)-(-)-1,3-丁二醇和(s)-(-)-1,3-丁二醇的1:1的混合物),把其中的(r)-(-)-1,3-丁二醇转化为4-羟基-2-丁酮,保留(s)-(-)-1,3-丁二醇不变,导致总体的转化率很低。而实际的工业生产中,外消旋的1,3-丁二醇非常易得,价格远低于手性纯的(r)-(-)-1,3-丁二醇,开发一个能将外消旋的1,3-丁二醇全部转化为4-羟基-2-丁酮的酮还原酶,将具有很好的工业应用价值。这个实施例以cn 111321129a中公开的、对 (r)-(-)-1,3-丁二醇选择性为》99%的酮还原酶为起点,其氨基酸序列如seq id no:2所示,其dna序列如seq id no:1所示;seq id no:2到对(s)-(-)-1,3-丁二醇没有活性,即 (s)-(-)-1,3-丁二醇对seq id no:2来说是一个非天然底物。采用本发明公开的计算设计算法,经虚拟筛选预测了10个对(r)-(-)-1,3-丁二醇和(s)-(-)-1,3-丁二醇同时具备活性的酮还原酶突变体,再经过对这10个预测突变体的实验验证,成功找到了保持高催化活性的、可以将(r)-(-)-1,3-丁二醇和(s)-(-)-1,3-丁二醇同时转化为4-羟基-2-丁酮的酮还原酶突变体。具体如图3所示。33.计算设计过程:34.(1)结构获取:以yasara软件包对seq id no:2进行同源建模获得目的蛋白的结构模型。35.(2)底物对接分析:将(r)-(-)-1,3-丁二醇和(s)-(-)-1,3-丁二醇分别与目的蛋白对接,对接过程由yasara软件包实现。对接结果在yasara中进行可视化分析。(s)-(-)-1,3‑ꢀ丁二醇与目的蛋白的对接结果显示,i144、h145、q150、y188等位点的氨基酸残基侧链的位阻过大。因此本实施例选择这些位点作为进行下一步的虚拟筛选。36.(3)突变稳定性计算:根据突变氨基酸选择合适的氨基酸种类,具体如表1所示。然后用python脚本生成rosetta要求的突变组合输入文件,可能出现的突变组合有400种突变体。使用cartesian_ddg算法计算每个突变体结构与野生型酶结构的自由能差(δδ g)。37.表1氨基酸突变种类[0038][0039]之后用上述的【3b】统计分析方法对计算结果进行分析,结果如表2所示。[0040]表2计算分析结果[0041][0042](4)反应能垒计算:将上一步得到的突变进行组合共有36种突变体,使用cadee计算流程进行反应能垒计算,计算流程如图4所示,1,3-丁二醇原子序号如图5所示。[0043]模拟设置:首先将模拟系统溶解在以(s)-(-)-1,3-丁二醇为底物的c3原子为中心,半径为的tip3p模型水分子的球形水滴中,其中所有原子在以内模拟中心是完全可移动的,使用10kcal mol-1谐波抑制器约束模拟中心中位于17和之间的所有原子,并且使用200kcal的谐波力常数约束以外的原子。使用shake算法将h原子约束在溶剂中。使用的截止值来计算除经验价键区域中的原子以外的所有原子之间的非成键相互作用,对于这些原子所有相互作用均明确计算至超过此临界值的所有长距离静电均使用局部反应场(lrf)方法进行处理。[0044]从反应能垒计算结果中,选取反应能垒最低的10个突变体,如表3所示。[0045]表3对(s)-(-)-1,3-丁二醇的催化反应能垒最低的10个酮还原酶突变体[0046][0047](5)实验验证:[0048](5.1)以图6所示反应,验证表3所示10个突变体对1.3-丁二醇手性选择性的改变在反应瓶里加入0.1g 4-羟基-2-丁酮、0.5ml异丙醇、0.1g表达了酮还原酶的湿菌体(重组表达过程参考专利cn111321129a公开的方法)、0.005g辅因子nad+,并用0.1m pbs(ph7)将反应瓶中的最终反应体积补足为5ml。反应用水浴控温40℃,搅拌速度400rpm,1h后取样用hplc检测,计算所得的产物1,3-丁二醇的手性值(ee%, enantiomeric excess)如表4所示。其中ee%的计算公式为ee%=([r]-[s])/ ([r]+[s]),[r]表示样品中(r)-(-)-1,3-丁二醇的浓度,[s]表示样品中 (s)-(-)-1,3-丁二醇的浓度。[0049]表4[0050][0051]注1:未检测到(s)-(-)-1,3-丁二醇。[0052]表4的ee%结果表明,10个酮还原酶突变体(即seq id no:4,6,8,10,12,14,16,18,20 和22)催化图6的反应时,不仅生成了(r)-(-)-1,3-丁二醇,也生成了(s)-(-)-1,3‑ꢀ丁二醇,说明计算预测的这10个酮还原酶突变体具备了对(s)-(-)-1,3-丁二醇的活性。[0053](5.2)对于工业上易得的(r)-(-)-1,3-丁二醇和(s)-(-)-1,3-丁二醇同时存在的外消旋体底物,申请人通过实验对上述10个酮还原酶突变体进行催化性能的验证,反应如图7所示。[0054]在反应瓶里加入0.1g外消旋1,3-丁二醇(即(r)-(-)-1,3-丁二醇和(s)-(-)-1,3‑ꢀ丁二醇的1:1的混合物)、0.5ml丙酮、0.1g表达了酮还原酶的湿菌体(重组表达过程参考专利cn111321129a公开的方法)、0.005g辅因子nad+,并用0.1m pbs(ph7) 将反应瓶中的最终反应体积补足为5ml。反应用水浴控温40℃,搅拌速度400rpm, 1h后取样于hplc检测,计算所得的摩尔转化率如表5所示。[0055]表5[0056][0057][0058]由于seq id no:2仅对(r)-(-)-1,3-丁二醇有活性,对(s)-(-)-1,3-丁二醇没有活性,其催化图7所示反应时,底物(即外消旋1,3-丁二醇)所能达到的理论最高转化率为50%。表5中的转化率数据结果表明,设计的10个酮还原酶突变体(即seq idno:4,6,8,10,12,14,16,18,20和22)能达到》50%的转化率,说明这些突变体能够将(r)-(-)-1,3-丁二醇和(s)-(-)-1,3-丁二醇同时转化为4-羟基-2-丁酮。[0059]化合物的分析检测方法[0060]gc转化率分析方法:色谱柱为db-wax 15m*0.25mm*0.25μm,载气为n2,检测器为fid,进样口温度为250℃,分流比为28:1,检测器温度为300℃,进样量为1μl,柱温为130℃,以10℃/min升温至150℃后以20℃/min升温至160℃,其中4-羟基-2-丁酮的保留时间为1.5min,1,3-丁二醇的保留时间为2.3min,如图8。[0061]gc手性分析方法:样品前处理方法为取200μl灭活液,加入50μl mstfa与30μl无水吡啶于1.5ml离心管混合均匀,振荡反应30min。色谱柱为cp-chirasil dex cb (cp7502)25m*0.25mm*0.25μm,载气为n2,检测器为fid,进样口温度为250℃,分流比为28:1,检测器温度为300℃,进样量为1μl,柱温为105℃,停止时间为9min, (r)-(-)-1,3-丁二醇的保留时间为6.4min,(s)-(-)-1,3-丁二醇的保留时间为 6.6min,如图9。[0062]应理解,在阅读了本发明的上述内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本技术所附权利要求书所限定的范围。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部