医药医疗技术的改进;医疗器械制造及应用技术用于设计疫苗的系统和方法相关申请的交叉引用1.本技术要求2019年10月21日提交的美国临时专利申请序列号62/924,096的优先权,所述申请的全部内容通过引用并入本文。技术领域2.本公开文本总体上涉及用于生成疫苗的系统和方法。背景技术:3.哺乳动物免疫系统使用两种通常机制来保护身体免受环境病原体的侵害。当遇到源自病原体的分子时,免疫应答激活,以确保针对该病原生物的保护。4.第一免疫系统机制是非特异性(或先天)炎症应答。先天免疫系统显现识别病原体上而非机体本身上存在的特定分子。5.第二免疫系统机制是特异性或获得性(或适应性)免疫应答。对于每种损伤或感染,先天应答基本上是相同的。相比之下,获得性应答特异性地响应于病原体中的分子或源自病原体的分子而发生。免疫系统识别自身和非自身(例如病原体或源自病原体的)蛋白质之间的结构差异并且对所述结构差异进行应答。免疫系统识别为非自身的蛋白质称为抗原。病原体通常表达大量高度复杂的抗原。获得性免疫系统利用两种机制:第一种为响应于病原体中存在的许多不同分子(称为抗原)产生免疫球蛋白(抗体)。第二种为募集受体以结合抗原的加工形式,所述抗原的加工形式被呈递在细胞表面以便被其他细胞鉴别为受感染的细胞。6.总之,获得性免疫是由称为b和t淋巴细胞(或简称为b和t细胞)的特化免疫细胞介导的。获得性免疫对抗原结构具有特异性记忆。重复暴露于相同的抗原会增加应答,这可增加针对该特定病原体的诱导保护水平。b细胞通过抗体的作用产生和介导它们的功能。b细胞依赖性免疫应答称为“体液免疫”,因为抗体存在于体液中。t细胞依赖性免疫应答称为“细胞介导的免疫”,因为效应活性直接由效应t细胞的局部作用介导。效应t细胞的局部作用通过t细胞与次级效应细胞(诸如激活的巨噬细胞)之间的协同相互作用而被放大。结果是病原体被杀死并且防止导致疾病。7.与病原体类似,疫苗通过在疫苗接种部位激活先天免疫应答并且激活抗原特异性t和b细胞来发挥作用,这些细胞可在次级淋巴组织中产生长期记忆细胞。疫苗与疫苗接种部位的细胞以及与t细胞和b细胞的精确相互作用对于疫苗的最终成功至关重要。8.在确定候选抗原是否是功能性和有效的疫苗时,通常需要对候选抗原进行严格的测试和评价方案。传统上,候选抗原在临床前通过一种如下方法进行测试,其中通过体外测定、离体测定和使用各种动物模型(例如,小鼠模型、雪貂模型等)评估候选抗原。9.可以用于测量生物应答的一种示例性测定类型是血凝抑制测定(hai)。hai应用如下血凝过程,其中红细胞(rbc)表面上的唾液酸受体与流感病毒(和几种其他病毒)表面上存在的血凝素糖蛋白结合,并且创建相互连接的rbc和病毒颗粒的网络或晶格结构,称为血凝,其以浓度依赖性方式发生在病毒颗粒上。这是一种物理测量,作为病毒结合体内病原体靶向细胞上的类似唾液酸受体的能力的替代。抗病毒抗体的引入在针对另一种病毒的人类或动物免疫应答中发生(所述另一种病毒在遗传上可能与测定中用于结合rbc的病毒类似或不同)。这些抗体干扰病毒-rbc相互作用并且改变病毒的浓度,足以改变测定中观察到血凝时的浓度。hai的一个目标可以是表征抗血清或其他含有抗体的样品中抗体的浓度,这与它们在测定中引起血凝的能力有关。防止血凝的抗体的最高稀释度称为hai滴度(即测量的应答)。10.另一个测量生物应答的方法是测量由人类或动物免疫应答引发的潜在的更大组的抗体,所述潜在的更大组的抗体不一定能够影响hai测定中的血凝。为此,一种常见的方法是利用酶联免疫吸附测定(elisa)技术,其中将病毒抗原(例如血凝素)固定在固体表面,然后允许来自抗血清中的抗体与抗原结合。读出测量外源酶对底物的催化作用,所述底物与来自抗血清的抗体或自身与抗血清的抗体结合的其他抗体复合。对底物的催化作用产生可易于检测的产物。这种体外测定有许多变型。一种这样的变型称为抗体取证(af);这是一种多重珠阵列技术,允许同时针对许多抗原测量单个血清样品。与hai滴度相比,这些测量表征了浓度和总抗体识别,hai滴度被认为更具体地与血凝素分子对唾液酸结合的干扰有关。因此,抗血清的抗体在一些情况下可能具有与一种病毒的血凝素分子(相对于另一种病毒的血凝素分子)的对应hai滴度相比成比例更高或更低的测量值;换句话说,af和hai这两个测量值通常不是线性相关的。11.目前,常规的候选抗原测试只能在引发预想的“保护性”免疫应答的条件下执行。也就是说,如果一种动物或测定未能展现对候选抗原的适当应答,则候选抗原通常被“下移选择”(也就是说,作为生产性候选物被放弃)。例如,通常使用依序选择方案测试流感抗原,其中首先通过体外测定评估抗原,以确保抗原易于大规模生产。以抗原通过这些要求为条件,然后通过免疫例如小鼠来评估抗原,以测量其从小鼠中引发保护性免疫应答的能力。此应答通常被认为是对抗原本身和各种其他病毒株和/或病毒株组分的保护性应答,期望针对这些病毒株和/或病毒株组分进行保护。此后,可以以类似的方式对雪貂进行评估,条件是小鼠或其他先前的测量已经证明了什么可以被认为是保护性应答的提示。仅次于在人类中的评估,可以评估离体平台诸如人类免疫系统复制品或非人类灵长类动物;同样,以先前步骤的成功为条件。技术实现要素:12.在一个方面,提供了一种用于设计疫苗的系统。所述系统包括一个或多个处理器。所述系统包括存储可执行计算机指令的计算机存储器,其中当所述可执行计算机指令由所述一个或多个处理器执行时,使得所述一个或多个处理器执行一个或多个操作。所述一个或多个操作包括将多个驱动器模型应用于第一时间序列数据集,所述多个驱动器模型被配置为生成表示一个或多个分子序列的输出数据,所述第一时间序列数据集指示:一个或多个分子序列,以及对于所述一个或多个分子序列中的每个,包括该分子序列作为天然抗原的致病株的流行的一个或多个时间。所述一个或多个操作包括对于所述多个驱动器模型中的每个,通过以下方式训练所述驱动器模型:i)从所述驱动器模型接收输出数据,所述输出数据表示基于所接收的第一时间序列数据集的一个或多个所预测分子序列;ii)将平移模型应用于表示所预测的一个或多个分子序列的所述输出数据,所述平移模型被配置为基于所述输出数据的一个或多个所预测分子序列来预测关于多个平移轴线对分子序列的生物应答,以生成表示对应于所述多个平移轴线中特定平移轴线的一个或多个第一平移应答的第一平移应答数据;iii)基于所述第一平移应答数据调整所述驱动器模型的一个或多个参数;以及iv)重复步骤i-iii多次迭代,以生成表示对应于所述特定平移轴线的一个或多个经训练平移应答的经训练平移应答数据。所述一个或多个操作包括基于所述一个或多个经训练平移应答选择所述多个驱动器模型中的一组经训练驱动器模型。所述一个或多个操作包括:对于所述组的经训练驱动器模型中的每个经训练驱动器模型,将所述经训练驱动器模型应用于第二时间序列数据集,以生成表示针对特定季节的一个或多个所预测分子序列的经训练输出数据;将所述平移模型应用于最终输出数据,以生成第二平移应答数据,所述第二平移应答数据表示关于所述多个平移轴线中的每个平移轴线的一个或多个第二平移应答;以及基于所述第二平移应答数据,选择所述组的经训练驱动器模型中的经训练驱动器模型的子集。13.所述多个驱动器模型中的至少一个可以包括递归神经网络。所述多个驱动器模型中的至少一个包括长短期记忆递归神经网络。14.表示基于所接收的第一时间序列数据集的一个或多个所预测分子序列的所述输出数据可以包括表示多个致病季节中每个季节的抗原的输出数据。表示多个致病季节中每个季节的抗原的所述输出数据可以包括通过预测如下分子序列确定的抗原,所述分子序列将跨在特定季节流行的所有致病株生成最大化的合计生物应答。表示多个致病季节中每个季节的抗原的所述输出数据可以包括通过预测如下分子序列确定的抗原,所述分子序列将生成将有效针对特定季节流行的最大数量的病毒免疫的应答。15.所述多个平移轴线可以包括以下中的至少一者:雪貂抗体取证(af)轴线、雪貂血凝抑制测定(hai)轴线、小鼠af轴线、小鼠hai轴线、人类复制品af轴线、人类af轴线或人类hai轴线。迭代次数可以基于预定的迭代次数。迭代次数可以基于预定的误差值。所述一个或多个第一平移应答可以包括以下中的至少一者:预测的雪貂hai滴度、预测的雪貂af滴度、预测的小鼠af滴度、预测的小鼠hai滴度、预测的人类复制品af滴度、预测的人类af滴度或预测的人类hai滴度。16.选择所述多个驱动器模型中的所述组的经训练驱动器模型可以包括将所述多个驱动器模型中的每个驱动器模型分配给一类驱动器模型,其中每个类与用于训练该驱动器模型的多个平移轴线中的特定平移轴线相关联。选择所述多个驱动器模型中的所述组的经训练驱动器模型可以包括,对于所述多个驱动器模型中的每个驱动器模型,将该驱动器模型的一个或多个经训练平移应答与分配给和该驱动器模型相同类的至少一个其他驱动器模型的一个或多个经训练平移应答进行比较。17.所述操作可以进一步包括:对于所述经训练驱动器模型的子集中的每个经训练驱动器模型,通过将对应于该经训练驱动器模型的第二平移应答数据与观察到的实验应答数据进行比较来验证所述经训练驱动器模型;以及响应于验证该经训练驱动器模型,生成疫苗,所述疫苗包括由对应于该经训练驱动器模型的经训练输出数据表示的一个或多个分子序列。18.在一个方面,提供了一种系统。所述系统包括计算机可读存储器,所述计算机可读存储器包括计算机可执行指令。所述系统包括至少一个处理器,所述至少一个处理器被配置为执行包括至少一个机器学习模型的可执行逻辑,所述至少一个机器学习模型被训练来预测一个或多个分子序列,其中当所述至少一个处理器正在执行所述计算机可执行指令时,所述至少一个处理器被配置为执行一个或多个操作。所述一个或多个操作包括接收时间序列数据,所述时间序列数据指示:一个或多个分子序列,以及对于所述一个或多个分子序列中的每个,包括该分子序列作为天然抗原的致病株的流行的一个或多个时间。所述一个或多个操作包括:通过存储在所述机器学习模型中包括的可执行逻辑的一个或多个部分的一个或多个数据结构来处理所述时间序列数据,以基于所述时间序列数据来预测一个或多个分子序列。19.基于所述时间序列数据预测一个或多个分子序列可以包括预测所预测的一个或多个分子序列将赋予的用于在未来时间使用的一种或多种免疫学特性。基于所述时间序列数据预测所述一个或多个分子序列可以包括预测如下一个或多个分子序列,所述一个或多个分子序列将跨所述时间序列数据的所有致病株生成最大化的合计生物应答。基于所述时间序列数据预测所述一个或多个分子序列可以包括预测如下一个或多个分子序列,所述一个或多个分子序列将生成将有效覆盖所述时间序列数据的最大数量致病株的生物应答。所预测的一个或多个分子序列能够用于设计针对在所述时间序列数据的流行的一个或多个时间之后的时间期间流行的致病株的疫苗。20.机器学习模型可以包括递归神经网络。21.这些和其他方面、特征和实现方式可以被表达为方法、设备、系统、部件、程序产品、执行交易的方法、用于执行功能的手段或步骤,以及其他方式,并且将从包括权利要求在内的以下描述中变得清楚。22.本公开文本的实现方式可以提供一个或多个以下优点。与传统技术相比,可以为未来的致病季节设计疫苗,以在对该未来致病季节的至少一个致病株的生物应答量方面提供更多保护。与传统技术相比,可以为未来的致病季节设计疫苗,以在有效覆盖该未来致病季节的多种致病株的广度方面提供更多保护(也就是说,在未来的致病季节引发对多种致病株的有效免疫应答)。与传统技术不同,可以对很少观察到的株系(其可能提供“更多的保护”,因为它们与经常观察到的株系相比与更多的株系发生交叉反应)进行评估,并且可以预测它们的疫苗接种有效性。23.这些和其他方面、特征和实现方式可以被表达为用于执行功能的方法、设备、系统、部件、程序产品、手段或步骤,以及其他方式。24.这些和其他方面、特征和实现方式将从以下描述(包括权利要求)中变得清楚。附图说明25.图1示出了用于设计疫苗的系统的例子。26.图2a至图2b示出了设计用于设计疫苗的系统的方法的流程图。27.图3示出了用于设计疫苗的方法的流程图。28.图4示出了用于训练一个或多个驱动器模型以设计疫苗的方法的流程图。29.图5示出了描绘相对于用于设计疫苗的传统技术的按平移轴线改善的图表。30.图6示出了用于使用机器学习技术预测生物应答的系统的例子。31.图7示出了描绘用于使用机器学习技术预测生物应答的方法的例子的流程图。32.图8示出了用于训练机器学习模型预测生物应答的数据的例子。33.图9示出了用于训练机器学习模型预测生物应答的例子的流程图。具体实施方式34.选择候选疫苗(cv)和/或所述候选疫苗的表达为重组蛋白的抗原的传统方法通常可依赖于若干假定。作为说明性的例子,在流感的情况下,选择cv的传统方法可以假定如下:(1)对于任何给定的致病季节,存在“优势株”;(2)未感染的雪貂是流感漂移的准确模型(也就是说,雪貂中的交叉反应性证明了作为抗原的一种cv是否会提供针对其他流行流感株的保护);以及(3)雪貂交叉反应性的增加可以是人类疫苗功效增加的可靠预测因子。基于这些假定,选择cv的传统方法可具有以下方案:(1)选择针对优势株进行保护的cv;(2)使用例如雪貂hai建立保护相关性;以及(3)评估雪貂中临床分离株的交叉反应性。此外,选择cv的传统方法通常包括选择在推荐疫苗那一年的前一年流行的cv,以及针对其他经常观察到的致病株评估(通常使用雪貂)选择的cv。35.尽管这些假定可能在50年或更多年前在一年中观察到1至10种致病分离株时有助于有效的cvv选择,但这些假定可能不会有助于在当前的致病季节进行有效的cvv选择,在当前的致病季节中可能观察到并且报道了数千种致病分离株。这是因为可能难以将雪貂评估扩展到数千种致病分离株。结果可能是,例如,季节性流感疫苗的当前选择通常实现小于50%的疫苗有效性(也就是说,在寻求的病例个体中,与未接种疫苗的组相比,接种疫苗的人的组中严重疾病的减少百分比)。36.本说明书中描述的系统和方法可以用于减轻传统cv选择技术的上述缺点中的一个或多个。根据本公开文本中描述的系统和方法,使用初始的多个机器学习模型(在本说明书中可以称为驱动器模型)的子集选择一个或多个被预测在至少一个平移轴线上表现优异的分子序列(例如抗原序列)。平移轴线可指人类或非人类模型对例如抗原的生物应答的量度(例如,暴露于特定抗原的小鼠的所得hai滴度或收集的人类血清的所得hai滴度)。可以通过首先将初始的多个驱动器模型中的每个驱动器模型分配给一类平移轴线来选择驱动器模型的子集以便以合理的方式使用,其中每类平移轴线对应于多个平移轴线中的一个平移轴线(例如,雪貂af、雪貂hai、小鼠af、小鼠hai、人类复制品af、人类af或人类hai中的至少一者)。37.在一些实现方式中,基于时间序列数据(所述时间序列数据表示:多个分子序列,以及对于每个分子序列,包括该分子序列作为天然抗原的致病株的流行时间),每个驱动器模型被训练以预测如下分子序列,所述分子序列将跨在特定致病季节流行的所有致病株生成极端(例如,最大化的)生物应答(例如,最大化的小鼠hai滴度),或将生成将有效覆盖在特定致病季节流行的最大数量致病株的应答。在一些实现方式中,对于每个驱动器模型,被配置为预测关于多个平移轴线对分子序列的生物应答的平移模型被用于以平移应答数据的形式提供反馈,所述平移应答数据表示与分配给该驱动器模型的平移轴线类对应的一个或多个平移应答。38.此过程在多次迭代中执行,其中对于每次迭代,驱动器模型基于来自平移模型的反馈更新一个或多个参数(通常称为权重和偏差)。在多次迭代之后,选择一组经训练驱动器模型。对于每类平移轴线,所选择的一组经训练驱动器模型可以包括预测如下分子序列的经训练驱动器模型,所述分子序列导致如由该类平移轴线的平移模型预测的期望(通常:最高)合计(例如,平均)生物应答(例如,免疫应答)。对于所述组的经训练驱动器模型中的每个经训练驱动器模型,然后可以将由该经训练驱动器模型预测的抗原应用于平移模型,所述平移模型预测关于每个平移轴线对该抗原的应答。39.然后选择所述组的经训练驱动器模型中的经训练驱动器模型的子集。选择经训练驱动器模型的子集可以包括,对于每个平移轴线,选择所述组的经训练驱动器模型中的如下经训练驱动器模型,所述经训练驱动器模型预测跨在特定致病季节的所有致病株引发最高合计生物应答(如由该平移轴线的平移模型所预测)的抗原。使用从人类或非人类实验观察到的数据验证经训练驱动器模型的子集中的每个经训练驱动器模型。如果经训练驱动器模型被验证,则它可以用于基于由经验证的经训练驱动器模型预测的抗原来设计疫苗。40.在附图中,为了便于描述,示出了示意性元素的具体布置或排序,诸如表示装置、模块、指令块和数据元素的那些。然而,本领域的技术人员应该理解,附图中示意性元素的特定排序或布置并不意味着需要特定顺序或序列的处理或过程分离。此外,在附图中包括示意性元素并不意味着暗示这种元素在所有实现方式中都是必需的,或由这种元素表示的特征在一些实现方式中可能不包括在其他元素中或不与其他元素组合。41.另外,在附图中,在连接元素诸如实线或虚线或箭头用于展示两个或更多个其他示意性元素之间的连接、关系或关联时,缺少任何此类连接元素并不意味着暗示不存在连接、关系或关联。换句话说,元素之间的一些连接、关系或关联没有在附图中示出,以免模糊本公开文本。此外,为了便于图示,单个连接元素用于表示元素之间的多个连接、关系或关联。例如,在连接元素表示信号、数据或指令的通信时,本领域技术人员应该理解,这种元素表示一个或多个信号路径(例如,总线),如可能需要的,以影响通信。42.现在将详细参考实现方式,在附图中示出了其实施例。在以下详细描述中,阐述了许多具体细节以便提供对各种描述的实现方式的透彻理解。然而,对于本领域普通技术人员来说清楚的是,可在没有这些具体细节的情况下实践各种描述的实现方式。在其他情况下,没有详细描述熟知的方法、过程、部件、电路和网络,以免不必要地模糊实现方式的各个方面。43.下文描述了几个特征,每个特征可以彼此独立使用或者与其他特征的任意组合一起使用。然而,任何单个的特征可能不能解决上文讨论的任何问题,或者可能只解决上文讨论的问题之一。上文讨论的一些问题可能无法通过本文描述的任何特征完全解决。尽管可能提供了标题,与特定标题相关但未在具有该标题的部分中找到的数据也可以在本说明书的其他地方找到。44.图1示出了用于设计疫苗的系统100的例子。系统100包括计算机处理器110。计算机处理器110包括计算机可读存储器111和计算机可读指令112。系统100还包括机器学习系统150。机器学习系统150包括机器学习模型120。机器学习系统150可以与计算机处理器110分离或集成。45.计算机可读存储器111(或计算机可读介质)可以包括适用于本地技术环境的任何数据存储技术类型,包括但不限于基于半导体的存储器装置、磁存储器装置和系统、光存储器装置和系统、固定存储器、可移动存储器、盘存储器、闪速存储器、动态随机存取存储器(dram)、静态随机存取存储器(sram)、电可擦编程只读存储器(eeprom)等。在一个实现方式中,计算机可读存储器111包括具有可执行指令的代码段。46.在一些实现方式中,计算机处理器110包括通用处理器。在一些实现方式中,计算机处理器110包括中央处理单元(cpu)。在一些实现方式中,计算机处理器110包括至少一个专用集成电路(asic)。计算机处理器110还可以包括通用可编程微处理器、专用可编程微处理器、数字信号处理器(dsp)、可编程逻辑阵列(pla)、现场可编程门阵列(fpga)、专用电子电路等、或它们的组合。计算机处理器110被配置为执行程序代码装置,诸如计算机可执行指令112。在一些实现方式中,计算机处理器110被配置为执行机器学习模型120。47.计算机处理器110被配置为接收时间序列数据集161。时间序列数据集161可以包括表示以下的数据:一个或多个分子序列,以及对于一个或多个分子序列中的每个,包括该分子序列作为天然抗原的致病株的流行的一个或多个时间。作为说明性例子,对于a/singapore/infimh160019/2016、a/missouri/37/2017、a/kenya/105/2017、a/miyazaki/89/2017、a/ethiopia/1877/201、a/osorno/60580/2017、a/brisbane/1059/2017和a/victoria/11/2017,时间序列数据集161可以指示分子序列和流行时间(例如,具体月份、具体致病季节等)。尽管仅描述了8种致病株,但时间序列数据集161可以包括对应于数十亿致病株的分子序列信息和流行时间。时间序列数据集161可以通过一种或多种方式获得,诸如与数据库(包括基于云的环境)的有线或无线通信、光纤通信、通用串行总线(usb)、光盘只读存储器(cd-rom)等。48.机器学习系统150应用机器学习技术来训练机器学习模型120,当机器学习模型被应用于输入数据时,机器学习模型生成输入数据项是否具有相关联的一种或多种特性的指示,诸如输入数据项具有特定布尔特性的概率、标量特性的估计值或向量的估计值(即,多个标量的有序组合)。49.作为机器学习模型120的训练的一部分,机器学习系统150可以通过识别已经被确定为具有所讨论特性的输入数据项的正训练集来形成输入数据的训练集,并且在一些实现方式中,形成缺少所讨论特性的输入数据项的负训练集。50.机器学习系统150从训练集的输入数据中提取特征值,这些特征是被认为与输入数据项是否具有一种或多种相关特性潜在相关的变量。输入数据的特征的有序列表在这里称为输入数据的特征向量。在一些实现方式中,机器学习系统150应用降维(例如,经由线性判别分析(lda)、主分量分析(pca)、从神经网络学习的深度特征等)来将输入数据的特征向量中的数据量减少到更小、更有代表性的数据集。51.在一些实现方式中,机器学习系统150使用监督机器学习来训练机器学习模型120,其中正训练集和负训练集的特征向量用作输入。在一些实现方式中使用不同的机器学习技术,诸如线性支持向量机(线性svm)、针对其他算法的增强(例如adaboost)、神经网络、逻辑回归、朴素贝叶斯、基于记忆的学习、随机森林、袋装树、决策树、增强树或增强树桩。当应用于从输入数据项提取的特征向量时,机器学习模型120输出输入数据项是否具有所讨论的特性的指示,诸如布尔是/否估计、表示概率的标量值、表示多个特性的标量值的向量、或表示不同且不是先验固定数量的多个特性的标量值的非参数分布,其可在希尔伯特或类似的无限维空间中显式或隐式地表示。52.在一些实现方式中,验证集由除了训练集中的那些数据之外的另外的输入数据形成,这些数据已经被确定为具有或缺乏所讨论的特性。机器学习系统150将训练的机器学习模型120应用于验证集的数据,以量化机器学习模型120的准确性。在准确度测量中应用的常见测量包括:精确度=tp/(tp+fp)和召回率=tp/(tp+fn),其中精确度是机器学习模型120在其预测的总数(tp+fp或假阳性)中正确预测(tp或真阳性)的数量,而召回率是机器学习模型120在确实具有所讨论特性的输入数据项的总数(tp+fn或假阴性)中正确预测(tp)的数量。f得分(f得分=2*pr/(p+r))将精确度和召回率统一到单一的衡量标准中。在一些实现方式中,机器学习系统150迭代地重新训练机器学习模型120,直到出现停止条件,诸如模型120足够精确的准确度测量指示,或已经发生了多个训练轮次。53.在一些实现方式中,机器学习模型120包括神经网络。在一些实现方式中,神经网络包括递归神经网络rnn。rnn通常描述一类人工神经网络,其中节点之间的连接沿着时间序列形成有向图,这允许它展现时间动态行为。与前馈神经网络不同,rnn可以使用其内部状态(记忆)来处理输入的序列。在一些实现方式中,rnn包括长短期记忆(lstm)架构。lstm是指一种rnn架构,其具有反馈连接,不仅可以处理单个数据点(诸如图像),还可以处理整个数据序列(诸如语音或视频)。机器学习模型120可以包括其他类型的神经网络,诸如卷积神经网络、径向基函数神经网络、物理神经网络(例如,光学神经网络)等等。稍后参考图2a至图4更详细地讨论设计和训练机器学习模型120的示例性方法。54.机器学习模型120被配置为基于所接收的时间序列数据集161来预测一个或多个分子序列,以及所预测的一个或多个分子序列将赋予何种免疫学特性用于在未来时间使用。作为说明性例子,假定所接收的时间序列数据集161包括表示多个致病株的数据,其中发现每个致病株在2014年1月1日和2018年12月31日之间的一个或多个时间流行。机器学习模型120可以基于在2014年1月1日和2018年12月31日之间的一个或多个时间发现流行的致病株,预测如下一个或多个分子序列(例如,抗原),所述一个或多个分子序列将跨在2019年1月1日和2019年5月31日之间流行的所有病毒生成最大化的合计生物应答(例如,最大化的平均人类hai滴度)。另外地或替代性地,机器学习模型120可以基于在2014年1月1日和2018年12月31日之间的一个或多个时间发现流行的致病株,预测如下一个或多个分子序列,所述一个或多个分子序列将生成将有效覆盖(例如,有效接种疫苗对抗)在2019年1月1日和2019年5月31日之间流行的最大数量病毒的生物应答。预测的一个或多个分子序列可以用于设计针对未来时间期间(如先前例子的2019年1月1日至2019年5月31日)流行的病毒的疫苗。55.图2a至图2b示出了设计用于设计疫苗的系统的架构200的流程图。架构200包括多个驱动器模型210、平移模型220、以及反馈和选择模块230。首先,启动多个驱动器模型210。多个驱动器模型210中的每个都被配置为生成表示一个或多个分子序列(例如,抗原)的数据以及关于每个分子序列将赋予何种免疫特性以供使用的预测,如先前参考图1的机器学习模型120所讨论的。在示出的实现方式中,多个驱动器模型210包括第一驱动器模型210a、第二驱动器模型210b、第三驱动器模型210c、第四驱动器模型210d、第五驱动器模型210e、第六驱动器模型210f、第七驱动器模型210g、第八驱动器模型210h、第九驱动器模型210i和第十驱动器模型210j。尽管示出了十个驱动器模型,但是多个驱动器模型210可以包括更多或更少的驱动器模型(例如,5个驱动器模型、30个驱动器模型、100个驱动器模型等等)。驱动器模型中的一个或多个可以是例如前面参考图1描述的rnn。56.平移模型220被配置为针对多个平移轴线预测对分子序列的生物应答。在示出的实现方式中,平移模型220包括雪貂hai平移轴线220a、雪貂af平移轴线220b、小鼠hai轴线220c、小鼠af平移轴线220d和人类复制品af平移轴线220e。尽管示出了具体的平移轴线,但是实现方式不限于这些具体的平移轴线。例如,平移模型可以另外地或替代性地包括人类hai平移轴线、人类af平移轴线、人类复制品hai轴线或它们的组合等。稍后将参考图6至图9更详细地讨论平移模型220的一些实现方式。57.参考图2a,多个驱动器模型210的驱动器模型中的每个被分配给平移模型220的具体平移轴线。在示出的实现方式中,第一驱动器模型210a和第三驱动器模型210c被分配给雪貂hai平移轴线220a,第二驱动器模型210b和第六驱动器模型210f被分配给雪貂af平移轴线220b,第四驱动器模型210d和第八驱动器模型210h被分配给小鼠hai平移轴线220c,第五驱动器模型210e和第九驱动器模型210i被分配给小鼠af平移轴线220d,并且第七驱动器模型210g和第十驱动器模型210j被分配给人类复制品af平移轴线220e。58.多个驱动器模型210中的每个驱动器模型接收第一时间序列数据集201。第一时间序列数据集201可以包括多个分子序列和含有所述多个分子序列中的至少一个作为天然抗原的致病株的流行时间。作为说明性例子,第一时间序列数据集201可以包括所有观察到的在2014年1月1日和2018年12月31日之间的时间(其可以称为“致病时间段”)流行的致病株的分子序列和流行时间。基于所接收的第一时间序列数据集201,多个驱动器模型220中的每个驱动器模型能够生成表示一个或多个分子序列的输出数据。例如,输出数据可以表示致病时间段的每个致病季节的分子序列(诸如抗原)。对于每个致病季节,所述分子序列可以是基于来自该致病季节之前的一个或多个致病季节的时间株系数据通过预测如下的分子序列来确定的,所述分子序列将跨在该致病季节流行的所有病毒生成最大化的合计生物应答,和/或将生成有效覆盖(例如,有效接种疫苗对抗)该致病季节流行的最大数量病毒的应答。59.平移模型220能够从多个驱动器模型210的每个驱动器模型接收输出数据,并且为多个驱动器模型210的每个驱动器模型生成第一平移应答数据,所述第一平移应答数据表示与分配给该驱动器模型的特定平移轴线对应的一个或多个平移应答。在示出的例子中,平移模型220可从第一驱动器模型210a接收表示所预测的一个或多个分子序列的输出数据,并且根据雪貂hai平移轴线220a,跨在每个致病季节流行的所有致病株预测针对一个或多个分子序列中的每个分子序列的雪貂hai滴度(也就是说,对于特定致病季节的每个致病株,预测雪貂在被预测的分子序列免疫后暴露于所述致病株的免疫应答)。60.反馈和选择模块230接收与多个驱动器模型210中的每个驱动器模型对应的第一平移应答数据,所述反馈和选择模块将每个致病季节的所预测的应答与阈值应答进行比较。例如,对于每个驱动器模型,反馈和选择模块230可以合计(例如,平均化)跨每个致病季节的所有病毒的所预测生物应答,将合计应答与阈值合计应答进行比较,并且基于所述比较生成误差值。另外地或替代性地,对于每个驱动器模型,反馈和选择模块230可以对于每个致病季节将有效接种疫苗以对抗的病毒数量与阈值数量进行比较,并且基于该比较生成误差值。然后,反馈和选择模块230可以使得每个驱动器模型基于每个致病季节的误差值来调整一个或多个参数(诸如,它们的权重和偏差)。此过程重复多次迭代。迭代次数可以是设定的迭代次数,或基于阈值误差值来确定(也就是说,所述过程将继续,直到超过阈值误差值)。因此,在高水平时:(1)每个驱动器模型可以基于先前致病季节的致病株,为致病时间段的特定致病季节预测用于针对所述特定致病季节的致病株进行免疫的一个或多个分子序列;(2)可以针对每个致病季节评估每个驱动器模型的性能;以及(3)每个驱动器模型的参数可以基于其在每个致病季节的性能来调整。61.在多次迭代之后,将驱动器模型中的每个(现在可以称为经训练驱动器模型)的性能与分配给和该驱动器模型相同的平移轴线的其他驱动器模型进行比较,并且选择展现出最佳性能的驱动器模型以生成所选择的一组经训练驱动器模型240。例如,在多次迭代之后,可以将由第一驱动器模型210a预测的分子序列的合计预测雪貂hai滴度与由第三驱动器模型预测的分子序列的合计预测雪貂hai滴度进行比较,并且反馈和选择模块230可以选择与跨致病时间段的所有或一些致病季节的最高合计预测雪貂hai滴度(或有效接种疫苗对抗的致病株的最高数量)对应的驱动器模型。在示出的实现方式中,所选择的一组驱动器模型240包括第一驱动器模型210a、第二驱动器模型210b、第五驱动器模型210e、第七驱动器模型210g和第十驱动器模型210j。62.参考图2b,所选择的一组驱动器模型240中的每个接收第二时间序列数据集202,并且基于第二时间序列数据集202生成表示针对特定致病季节的一个或多个分子序列的经训练输出数据。类似于第一时间序列数据集201,第二时间序列数据集202可以包括表示所有观察到的在给定致病时间段内流行的致病株的分子序列和流行时间的数据。第二时间序列数据集202的致病时间段可以与第一时间序列数据集201的致病时间段相同或不同。所选择的一组驱动器模型240的驱动器模型中的每个能够预测针对一个或多个致病季节的一个或多个分子序列(例如,抗原)。在一些实现方式中,预测的一个或多个分子序列是针对时间时间段的致病季节中的一个(例如,最近的致病季节)。作为说明性例子,假定所接收的第二时间序列数据集202包括表示多个致病株的数据,其中发现每个致病株在2014年1月1日和2018年4月31日之间的一个或多个时间流行。基于发现在2014年1月1日和2017年9月30日之间的先前致病季节中流行的致病株,所选择的一组驱动器模型240的驱动器模型中的每个可以预测如下一个或多个分子序列(例如,抗原),所述一个或多个分子序列将跨在2017年10月1日和2019年4月31日之间流行的所有病毒生成最大化的合计生物应答。另外地或替代性地,基于发现在2014年1月1日和2017年9月30日之间的先前致病季节中流行的致病株,所选择的一组驱动器模型240的驱动器模型中的每个可以预测如下一个或多个分子序列,所述一个或多个分子序列将生成将有效覆盖(例如,有效接种疫苗对抗)2017年10月1日和2018年4月31日之间流行的最大数量病毒的生物应答。63.平移模型220从所选择的一组驱动器模型240的驱动器模型中的每个接收经训练输出数据,并且基于经训练输出数据为驱动器模型中的每个生成第二平移应答数据。对于每个驱动器模型,第二平移应答数据表示基于该驱动器模型的所预测一个或多个分子序列,跨平移模型220的所有平移轴线的一个或多个平移应答。作为说明性例子,平移模型220可从表示一个或多个分子序列的第一驱动器模型210a接收经训练输出数据。平移模型220可以预测针对由第一驱动器模型210a跨所有株系预测的一个或多个分子序列的雪貂hai滴度、雪貂af滴度、小鼠hai滴度、小鼠af滴度和人类复制品af滴度。反馈和选择模块230接收所选择的一组驱动器模型240的每个驱动器模型的第二平移应答数据。反馈和选择模块230能够针对每个平移轴线比较每个驱动器模型的性能,并且选择在每个轴线或轴线组合上性能最高的驱动器模型,以生成驱动器模型的所选子集250。使用先前的说明性例子,关于雪貂hai轴线220a,反馈和选择模块230可以比较跨在2019年1月1日和2019年5月31日之间流行的所有致病毒株,针对由所选择的一组驱动器模型240的驱动器模型中的每个预测的一个或多个分子序列的合计hai滴度。反馈和选择模块230然后可以选择被发现跨所有致病株具有最高合计hai滴度的驱动器模型。在示出的实现方式中,驱动器模型的所选子集250包括第二驱动器模型210b和第十驱动器模型210j。驱动器模型的所选子集250中的一个或多个可以被包括在先前参考图1讨论的机器学习模型120中。64.驱动器模型的所选子集250的驱动器模型中的每个然后可以基于来自真实世界实验的观察结果来验证。例如,可以将对应于第二驱动器模型210b的第二平移应答数据与在人类hai实验(或雪貂hai实验、小鼠hai实验等)中观察到的生物应答进行比较,其中人类受试者用由第二驱动器模型210b预测的一个或多个分子序列进行疫苗接种,并且暴露于2017年10月1日和2018年4月31日之间流行的一种或多种致病株。反馈和选择模块230可以比较所预测的应答和观察到的应答以生成误差值,并且反馈和选择模块230可以基于误差值确定对应于第二驱动器模型210b的一个或多个平移轴线(例如,如果第二驱动器模型210b是基于其在雪貂hai平移轴线220a上的性能而选择的,则为雪貂hai平移轴线220a)是人类应答的好预测器还是不好的预测器。如果误差值满足误差值阈值,则由第二驱动器模型210b预测的一个或多个分子序列可以用于设计针对至少2017年10月1日和2018年4月31日致病季节的疫苗,或用于设计针对甚至该致病季节之后的致病季节的疫苗。例如,如果使用真实世界的雪貂hai实验来验证第二驱动器模型210b,则所确定的误差值可以用于调整平移模型220、第二驱动器模型210b或两者的参数。65.图3示出了用于设计疫苗的方法300的流程图。出于说明的目的,方法300将被描述为由先前参考图2a至图2b描述的架构200执行。所述方法包括:将多个驱动器模型应用于第一时间序列数据集(框310),使用第一时间序列数据集训练每个驱动器模型(框320),选择一组经训练驱动器模型(框330),将所选择的一组经训练驱动器模型应用于第二时间序列数据集(框340),以及选择经训练驱动器模型的子集(框350)。66.在框310处,多个驱动器模型210中的每个驱动器模型接收第一时间序列数据集201。基于所接收的第一时间序列数据集201,多个驱动器模型220中的每个驱动器模型可以生成表示一个或多个分子序列的输出数据。67.在框320处,对于驱动器模型210中的每个,使用分配给该驱动器模型的平移模型220的平移轴线来训练该驱动器模型。图4示出了用于训练一个或多个驱动器模型以设计疫苗的方法400的流程图。参考图4,方法400包括从多个驱动器模型210的驱动器模型中的每个接收输出数据(框410),将平移模型220应用于输出数据,以根据分配给该驱动器模型的平移轴线为多个驱动器模型210的驱动器模型中的每个生成第一平移应答数据(框420),对于多个驱动器模型210中的每个驱动器模型,基于对应于该驱动器模型的第一平移应答数据来调整该驱动器模型的一个或多个参数(框430),并且重复框410-430多次迭代(框440)。68.在框330处,对于平移模型220的每个平移轴线,基于分配给该平移轴线的驱动器模型的性能,生成所选择的一组驱动器模型240。例如,在多次迭代之后,可以将针对由第一驱动器模型210a预测的分子序列的合计预测雪貂hai滴度与针对由第三驱动器模型210c预测的分子序列的合计预测雪貂hai滴度进行比较,并且反馈和选择模块230可以选择对应于最高合计预测雪貂hai滴度(或有效接种疫苗对抗的致病株的最高数量)的驱动器模型。69.在框340处,所选择的一组驱动器模型240中的每个接收第二时间序列数据集202,并且基于第二时间数据集202生成表示针对特定致病季节的一个或多个分子序列的经训练输出数据。70.在框350处,平移模型220从所选择的一组驱动器模型240的驱动器模型中的每个接收经训练输出数据,并且基于经训练输出数据为驱动器模型中的每个生成第二平移应答数据。对于每个驱动器模型,第二平移应答数据表示基于该驱动器模型的所预测一个或多个分子序列,跨平移模型220的所有平移轴线的一个或多个平移应答。作为说明性例子,平移模型220可从表示一个或多个分子序列的第一驱动器模型210a接收经训练输出数据。平移模型220可以预测针对由第一驱动器模型210a预测的一个或多个分子序列的雪貂hai滴度、雪貂af滴度、小鼠hai滴度、小鼠af滴度和人类复制品af滴度。反馈和选择模块230接收所选择的一组驱动器模型240的每个驱动器模型的第二平移应答数据。反馈和选择模块230能够针对每个平移轴线比较每个驱动器模型的性能,并且选择在每个轴线上性能最高的驱动器模型,以生成驱动器模型的所选子集250。71.图5示出了描绘相对于用于设计疫苗的传统技术的按平移轴线改善的图表。在一个示例性实验中,通过前述过程的特定情况选择五(5)种不同的疫苗候选物(简称mo/17、os/17、mi/17、et/17和ke/17,分别与毒株a/missouri/37/2017、a/osorno/60580/2017、a/miyazaki/89/2017、a/ethiopia/1877/2017和a/kenya/105/2017同源),然后相对于以传统方式选择的cv即a/singapore/infimh160019/2016,针对五(5)个不同的平移轴线(跨x轴显示)进行评价。通过本说明书中描述的系统和方法选择的五种不同cv中的每种被显示为平移轴线中的每个的带标签标记,并且为了视觉清晰起见在每个平移轴线内轻微抖动。对于每个平移轴线,y轴指示截至2018年4月15日在全球共享所有流感数据倡议(gisaid)全球数据库中报告的2018年3月临床分离株(在sequel中称为“季节性代表毒株”)被预测为比以传统方式选择的cv(a/singapore/infimh160019/2016)更好地受到特定抗原的保护的分数,所述以传统方式选择的cv是截至2018年3月对h3n2的护理标准(soc)。例如,最左边的列(雪貂hai)示出,平移模型预测a/missouri/37/2017将在雪貂中产生抗体,与以传统方式选择的cv相比,这些雪貂对所有这些季节性代表毒株具有一致更高的hai滴度。作为另外的例子,在最右列(人类血清抗体取证(af)),a/ethiopia/1877/2017和a/osorno/60580/2017被预测为不劣于以传统方式选择的cv。这些结果,综合起来,表明这五种候选者将展现出相异的和不同非劣性模式的所引发的免疫应答,如通过不同平移轴线评估的。示例性平移模型:72.图6示出了根据本公开文本的一个或多个实施方案的使用机器学习技术来预测生物应答的系统600的例子。如前所讨论,系统600可以用作平移模型。系统600包括计算机处理器610。计算机处理器610包括计算机可读存储器611和计算机可读指令612。系统600还包括机器学习系统650。机器学习系统650包括机器学习模型620。机器学习系统650可以与计算机处理器610分离或集成。73.计算机可读存储器611(或计算机可读介质)可以包括适用于本地技术环境的任何数据存储技术类型,包括但不限于基于半导体的存储器装置、磁存储器装置和系统、光存储器装置和系统、固定存储器、可移动存储器、盘存储器、闪速存储器、动态随机存取存储器(dram)、静态随机存取存储器(sram)、电可擦编程只读存储器(eeprom)等。在一些实现方式中,计算机可读存储器611包括具有可执行指令的代码段。74.在一些实现方式中,计算机处理器610包括通用处理器。在一些实现方式中,计算机处理器610包括中央处理单元(cpu)。在一些实现方式中,计算机处理器610包括至少一个专用集成电路(asic)。计算机处理器610还可以包括通用可编程微处理器、专用可编程微处理器、数字信号处理器(dsp)、可编程逻辑阵列(pla)、现场可编程门阵列(fpga)、专用电子电路等、或它们的组合。计算机处理器610被配置为执行程序代码装置,诸如计算机可执行指令612。在一些实现方式中,计算机处理器610被配置为执行机器学习模型620。75.计算机处理器610被配置为获得第一分子序列的第一分子序列数据661和第二分子序列的第二分子序列数据662。第一分子序列数据661可以包括候选抗原(例如,接种株)的氨基酸序列数据。候选抗原可以对应于例如h3n1病毒。第二分子序列数据662可以包括针对其寻求保护的已知病毒株的氨基酸序列数据。例如,第二分子序列可以是2001年出现的已知病毒株。在一些实现方式中,如稍后将参考图9进一步详细解释的,计算机处理器610还被配置为接收与第一分子序列和第二分子序列相关联的非人类生物应答数据。非人类生物应答数据可以包括例如测量非人类模型(例如,小鼠、雪貂、人类免疫系统复制品等)在接种第一分子序列后对第二分子序列的生物应答的生物应答读出(例如,抗体滴度)。如稍后参考图9进一步详细讨论的,在一些实现方式中,计算机处理器610能够将第一分子序列数据661和第二分子序列数据662编码为氨基酸错配。上述数据可以通过一种或多种方式获得,诸如与数据库(包括基于云的环境)的有线或无线通信、光纤通信、通用串行总线(usb)、光盘只读存储器(cd-rom)等。76.机器学习系统650应用机器学习技术来训练机器学习模型620,当机器学习模型被应用于输入数据时,机器学习模型生成输入数据项是否具有相关联的一种或多种特性的指示,诸如输入数据项具有特定布尔特性的概率,或标量特性的估计值。77.作为机器学习模型620的训练的一部分,机器学习系统650可以通过识别已经被确定为具有所讨论特性的输入数据项的正训练集来形成输入数据的训练集,并且在一些实现方式中,形成缺少所讨论特性的输入数据项的负训练集。78.机器学习系统650从训练集的输入数据中提取特征值,这些特征是被认为与输入数据项是否具有一种或多种相关特性潜在相关的变量。输入数据的特征的有序列表在这里称为输入数据的特征向量。在一些实现方式中,机器学习系统650应用降维(例如,经由线性判别分析(lda)、主分量分析(pca)、从神经网络学习的深度特征等)来将输入数据的特征向量中的数据量减少到更小、更有代表性的数据集。79.在一些实现方式中,机器学习系统650使用监督机器学习来训练机器学习模型620,其中正训练集和负训练集的特征向量用作输入。在一些实现方式中使用不同的机器学习技术,诸如线性支持向量机(线性svm)、针对其他算法的增强(例如adaboost)、神经网络、逻辑回归、朴素贝叶斯、基于记忆的学习、随机森林、袋装树、决策树、增强树或增强树桩。当应用于从输入数据项提取的特征向量时,机器学习模型620输出输入数据项是否具有所讨论的特性的指示,诸如布尔是/否估计、表示概率的标量值、表示多个特性的标量值的向量、或表示不同且不是先验固定数量的多个特性的标量值的非参数分布,其可在希尔伯特或类似的无限维空间中显式或隐式地表示。80.在一些实现方式中,验证集由除了训练集中的那些数据之外的另外的输入数据形成,这些数据已经被确定为具有或缺乏所讨论的特性。机器学习系统650将训练的机器学习模型620应用于验证集的数据,以量化机器学习模型620的准确性。在准确度测量中应用的常见测量包括:精确度=tp/(tp+fp)和召回率=tp/(tp+fn),其中精确度是机器学习模型620在其预测的总数(tp+fp或假阳性)中正确预测(tp或真阳性)的数量,而召回率是机器学习模型620在确实具有所讨论特性的输入数据项的总数(tp+fn或假阴性)中正确预测(tp)的数量。f得分(f-得分=2*pr/(p+r))将精确度和召回率统一到单一的衡量标准中。在一些实现方式中,机器学习系统650迭代地重新训练机器学习模型620,直到出现停止条件,诸如模型620足够精确的准确度测量指示,或已经发生了多个训练轮次。81.在一些实现方式中,机器学习模型620包括神经网络。在一些实现方式中,神经网络包括卷积神经网络。机器学习模型620可以包括其他类型的神经网络,诸如递归神经网络、径向基函数神经网络、物理神经网络(例如,光学神经网络)等等。稍后参考图8至图9更详细地讨论根据本公开文本的一个或多个实现方式的训练机器学习模型的特定方法。82.机器学习模型620被配置为基于所接收的数据预测对第二分子序列的生物应答663。例如,假定第一分子序列数据661表示要用作疫苗接种的候选抗原的氨基酸序列,并且第二分子序列数据662表示已知在2012年流行的病毒株的氨基酸序列。如果人类免疫系统接种了第一分子序列(即,候选抗原),机器学习模型620可以预测人类免疫系统在遇到第二分子序列(例如,已知病毒株)后将产生的生物应答(例如,抗体滴度)。83.图7示出了描绘根据本公开文本的一个或多个实现方式的使用机器学习技术来预测生物应答的方法700的例子的流程图。为了说明的目的,方法700被描述为由系统600执行,所述系统使用先前参考图6讨论的机器学习技术来预测生物应答。方法700包括接收第一分子序列的第一序列数据(框710),接收第二分子序列的第二序列数据(框720),以及预测对第二分子序列的生物应答(框730)。84.在框710处,计算机处理器710接收第一分子序列的第一分子序列数据161。如前所指示,第一分子序列数据161可以包括候选抗原(例如,接种株)的氨基酸序列数据。例如,候选抗原可以对应于h3n1病毒。85.在框720处,计算机处理器720接收第二分子序列的第二分子序列数据662。第二分子序列数据662可以包括针对其寻求保护的已知病毒株的氨基酸序列数据。例如,第二分子序列可以是2001年出现的已知病毒株。86.在一些实现方式中,方法700进一步包括将第一分子序列数据661和第二分子序列数据662编码为氨基酸错配。例如,可以比较第一分子序列和第二分子序列的类似区域,并且可以为区域中的每个不匹配的氨基酸配对编码“1”值,而为区域中的每个匹配的氨基酸配对编码“0”值。因此,可以向机器学习模型620提供第一分子序列与第二分子序列之间的非类似度,如由分子序列之间的类似区域内的位置处的不匹配氨基酸所限定的。87.在一些实现方式中,方法700进一步包括接收与第一分子序列和第二分子序列相关联的非人类生物应答数据。非人类生物应答数据可以包括例如测量非人类模型(例如,小鼠、雪貂、人类免疫系统复制品等)在接种第一分子序列后对第二分子序列的生物应答的生物应答读出(例如,抗体滴度)。88.在框730处,机器学习模型620基于所接收的数据预测对第二分子序列的生物应答。例如,如果人类免疫系统接种了第一分子序列(即,候选抗原),机器学习模型620可以预测人类免疫系统在遇到第二分子序列(即,已知病毒株)后将产生的生物应答(例如,抗体滴度)。在一些实现方式中,机器学习模型620被配置为预测对第二分子序列的非人类生物应答。例如,如果动物的免疫系统接种了第一分子序列,机器学习模型可以预测动物的免疫系统(例如,小鼠、雪貂等)在遇到第二分子序列后将产生的抗体滴度。训练机器学习模型来预测生物应答的方法:89.现在将描述用于训练机器学习模型620来预测生物应答的方法。图8示出了根据本公开文本的一个或多个实现方式的用于训练用于预测生物应答的机器学习模型的数据的例子。如所示,来自数千(或数百万、数十亿等)次实验的数据可用于构建来自例如雪貂、小鼠和体外人类免疫系统复制品(例如,)模型的生物应答读出和病毒序列数据的综合储存库。在示出的实施方案中,数据包括抗原序列数据、病毒序列数据和通过血凝抑制测定(hai)和抗体取证(af)测量的生物应答读出。病毒序列数据包括一组已知病毒株(称为“读出”组)。实验可以分成称为“循环”的批次(例如,循环1和循环2)。在每个循环中,用选择的分子序列(例如,h3蛋白质、疫苗制剂等)激发模型系统,并且测量所述模型系统产生针对一组“读出”病毒株(称为“读出组”)的免疫应答的能力。可以选择病毒读出组来表示在限定时期(例如,1950年至2016年)期间流行的流感株的广泛取样。90.为了将模型实验与人类结果相关联,可以针对“读出”组来测量人类血清。在示出的例子中,对于在模型系统中测试的每一对抗原株/读出株,在人类血清测量中并不总是有对应的对。这是因为人类样品可能是从接种疫苗的人身上收集的,而接种疫苗的时间段并不涵盖循环中的每个所用的全部年份。因此,机器学习模型可以被限制为仅在人类血清中测试的抗原和读出,并且人类读出滴度的向量可以被选择作为机器学习模型的目标向量。人类af读出可以来自疫苗接种后第21天收集的人类血清,所述时间通常足够受试者在接种后进行血清转化。91.使用从上述实验得到的数据,可以训练模型来预测生物应答。在一些实现方式中,可以使用线性模型。92.图9示出了根据本公开文本的一个或多个实现方式的用于训练机器学习模型预测生物应答的例子的流程图。如所示,首先制备数据矩阵900,其中每行对应于一对病毒抗原,诸如抗原株和“读出”株的h3区域。矩阵的列(或特征)包括雪貂模型af读出滴度902和小鼠模型af读出滴度903的具体列。在一些实现方式中,缺失的滴度数据用列的平均值来估算。然而,许多标准方法可以用于估算缺失的滴度数据。序列列901表示抗原株和“读出”株在选择区域中的氨基酸序列差异(seqdiff)表示,在示出的例子中,所述区域包括抗原株和“读出”株的h3区域。通过在h3氨基酸序列比对的每个位置检查在抗原株和“读出”株之间氨基酸是相同还是不同来制备seqdiff。如果两个株之间的氨基酸不相同,则可以编码“1”。如果两个株之间的氨基酸相同,则可以编码“0”。将两个序列编码为氨基酸错配基本上可以创建蛋白质汉明距离测量,其通常反映对应氨基酸不同的位置的数量。在一些实现方式中,在整个训练集中一致为“0”的列被丢弃。使用线性回归将每行的列901、902、903与对应的人类滴度904相关联。93.包括读出滴度的列902、903可以例如在拟合线性回归模型之前进行z得分变换。z得分可以指平均值为零且标准偏差为一的线性变换数据值,并且可以指示观察值在平均值之上或之下多少个标准差。因为seqdiff表示的编码可以是稀疏的,所以在一些情况下,主分量分析(pca)可以用于将seqdiff向量的维度减少到五个分量。pca是指统计学过程,它使用正交变换将一组可能相关的变量的观察值转换为一组称为主分量的线性不相关变量的值。pca可以用于强调变化,突出数据集中的强模式,并且将大量变量减少到较小的集合,而不会丢失较大集合中的大量信息。可以在数据的各种组合上训练线性模型,以更好地理解小鼠滴度、雪貂滴度和序列数据预测人类应答的相对能力。94.尽管如前所述,机器学习模型可以构建为线性模型来预测生物应答,但是在数据特征与人类生物应答之间可能存在非线性关系。因此,使用来自前述实验的数据,可以构建使用深度神经网络或其他非线性模型的模型,所述模型能够1)利用数据中的非线性关系来做出与前述线性模型相比相对准确的预测,以及2)同时做出对动物滴度和人类滴度两者的预测。一起预测所有滴度可以利用这种认识,即免疫应答的强信号可以直接编码在抗原株和“读出”株的蛋白质序列中。通过训练模型仅从序列预测人类和动物两者的滴度,机器学习模型可以被迫搜索驱动跨物种免疫原性的序列-功能关系。在统计学术语中,这可以称为“借用强度”,并且可以允许模型更好地利用一种类型的模型(例如,雪貂模型)的大量可用数据来生成对人类应答的更稳健的预测。此策略可以适于更多的病毒抗原,以及具有超过13000个示例行的数据矩阵的构建。与线性模型一样,每个病毒株和读出株对的h3区域的seqdiff表示可以用作输入数据。95.尽管,在一些实现方式中,对于线性模型,目标向量是人类滴度,但是非线性神经网络模型可以用例如七个输出列(雪貂hai和af滴度、小鼠hai和af滴度、mimic af、人类hai、人类af)来表示多目标回归问题。因为hai实验的检测极限通常为40(或,当表示为稀释度时,为1:40),所以任何低于此值的测量值都可以设置为40。类似地,如果af测量值低于所述值,则可以将其设置为10000。hai可以表示为log2(滴度/10),而af可以表示为log2(滴度)。如果在接种时(第0天)和血清转化后(第21天)进行测量,则人类和人类复制品数据可能具有额外的复杂性。因此,人类和人类复制品滴度可以表示为第21天/第0天的log2倍变化。在目标向量中滴度值缺失的情况下,可以将这些值设置为零,并且可以为这些位置屏蔽神经网络中的损失函数。这可以确保对缺失值的预测在训练期间不会对模型的适合度产生影响。96.在一些实现方式中,可以使用具有两个具有relu激活的128节点密集层和一个7节点密集输出层的神经网络。可以随机排除部分数据(例如,15%的数据)作为测试集,并且可以对神经网络训练多代(epoch)(例如,400、500、1000等)。在一些实现方式中,使用以下参数:学习率=0.001;权衰减=0.0001;批量大小=128。97.在一些实现方式中,l2损失函数用于人类复制品、人类af和人类hai目标向量。通常,l2损失函数最小化了估计目标值与现有目标值之间的平方差。在一些实现方式中,huber损失函数可以用于雪貂和小鼠数据。通常,在稳健回归中使用huber损失函数,并且至少在一些情况下,huber损失函数与l2损失函数相比对数据中的异常值更不敏感。为了进一步偏置模型,可以使用显式加权方案来对错误分类的人类样品施加另外的惩罚。例如,在训练的每代(epoch),可以将下列权重乘以每个目标损失:雪貂hai=0.8;雪貂af=1;小鼠hai=1;小鼠af=1;人类hai=2;人类af=2;mimic=1.5。98.尽管出于说明的目的,前面的说明有时可能在流感毒株的背景下描述了致病株,但是术语致病应广义地解释为涵盖任何感染原。例如,致病株可以指病毒株、细菌株、原生动物株系、朊病毒株、类病毒株或真菌株等。致病株可以对应于呼吸道合胞病毒和其他副粘病毒。致病株可以对应于百日咳、白喉或破伤风等。99.尽管前面的说明有时可能在流感季节的背景下描述致病季节,但是术语致病季节应广义地解释为涵盖任何离散的时间间隔。例如,致病季节可以指特定的月份、特定的周、特定的一系列周、特定的一系列月、特定的一系列天等等。此外,连续的致病季节可以是一致的或变化的。例如,两个连续的致病季节可以都是一个月长,或一个致病季节可以是一个月长,而第二个致病季节可以是4天长。100.尽管前面的说明描述了某些平移轴线/生物应答,诸如雪貂hai滴度和小鼠af滴度,但是实现方式不限于此。例如,生物应答/平移轴线可以对应于抗体表征(诸如对特定抗原和/或抗原片段组的亲和力和/或亲合力(例如蛋白质阵列、噬菌体展示文库等)),功能概况(诸如以确定抗药物抗体、免疫补体相互作用(例如吞噬作用、炎症、膜攻击)、抗体依赖性细胞毒性(adcc)或类似的fc介导的效应子功能),形成的免疫复合物的概况(例如受体结合概况),免疫沉淀测定,或这些的组合。生物应答/平移轴线可以对应于抗体与其他抗体或抗血清竞争结合靶标。生物应答/平移轴线可以对应于抗血清表征(其可以对应于前述抗体表征的那些),以及功能测定(诸如微中和测定、血凝抑制和神经氨酸酶抑制)、结合测定(诸如血凝测定)、酶反应测定(诸如酶联凝集素测定(ella))、配体结合测定(诸如唾液酸衍生物及其模拟物的结合)和荧光读出测定(诸如20-(4-甲基伞形酮基)-a-d-n-乙酰神经氨酸(munana)裂解)。101.生物应答/平移轴线可以对应于通过被动转移和/或外源表达或通过以下一种或多种方式实现的转移,利用单克隆或多克隆抗体的体内评估:逆转录病毒感染介导的转染或内源表达,或宿主基因组修饰(诸如通过crispr),两个体之间的液体转移,或这些的组合。生物应答/平移轴线可以对应于对通过免疫接种产生的免疫性进行的体内评估,以评估抗原性。生物应答/平移轴线可以对应于诸如主要组织相容性复合体(mhc)i类和ii类上的线性肽抗原的结合/亲和力测量的表征,并且还可以评估关于t细胞识别的生产性t细胞表位展示。生物应答/平移轴线可以对应于表征,诸如对抗原片段组(例如蛋白质阵列、噬菌体展示文库等)的亲和力,以鉴定被识别的表位。生物应答/平移轴线可以对应于离体和/或体外的功能概况,诸如以确定t细胞应答和/或介导的应答。生物应答/平移轴线可以对应于响应于自然感染和/或激发和/或免疫的适应性应答相关t细胞(例如αβ或γδt细胞)增殖(例如组织区室中的丰度)的体内和/或原位测量。生物应答/平移轴线可以对应于通过与其他表位竞争所测量的响应于自然感染和/或激发和/或免疫的适应性应答相关t细胞(例如αβ或γδt细胞)识别特异性的体外和/或离体测量。102.生物应答/平移轴线可以对应于由待对抗的病原体或替代物(诸如假型病毒或细菌)引起的组织形成、组织修复或入侵组织的形态学或生理学变化的原位、离体和/或体内评估。生物应答/平移轴线可以对应于相对于其他抗原和/或生理状态的原位、离体蛋白质、基因表达和/或非编码rna水平差异,所述其他抗原和/或生理状态例如通过生物标记诸如年龄、性别、虚弱、标称血清状态、种族、单倍型、地理位置来表征。生物应答/平移轴线可以对应于对自然发生的或通过人类或模式生物(诸如但不限于小鼠、大鼠、兔、雪貂、豚鼠、猪、牛、鸡、绵羊、鼠海豚、蝙蝠、狗、猫、斑马鱼和其他硬骨鱼,以及非人类灵长类动物诸如猴子和类人猿)传播的感染的保护、传播或其他总体生理应答的原位评估。103.关于在受控人类激发研究中包括的对同型和/或异型感染原的故意感染(即激发)的应答,生物应答/平移轴线可以对应于对血液或组织中存在的蛋白质或代谢物的原位、离体和/或体内评估,其中蛋白质可以是细胞因子、激素或信号传导分子,并且其中代谢物可以是维生素、辅因子或其他代谢副产物。生物应答/平移轴线可以对应于对可能受免疫应答影响或影响免疫应答的微生物组的原位、离体和/或体内评估。生物应答/平移轴线可以对应于响应于单独抗原或抗原与先天免疫细胞(诸如自然杀伤(nk)细胞、树突细胞(dc)、嗜中性粒细胞、巨噬细胞、单核细胞等)联合激发的离体功能概况、体外表型和/或功能性t细胞应答概况(受体表达、细胞因子产生、细胞毒性潜力)。生物应答/平移轴线可以对应于表观遗传分析,所述表观遗传分析使用如前所述的技术或方法收集或产生的样品执行。104.尽管前面的说明描述了用于训练机器学习模型来预测生物应答的某些方法和数据,但是也可以使用其他方法和数据。例如,神经网络模型可以包括比先前描述的模型更多或更少的层,其中每个层可以具有更多或更少的节点。105.在前面的描述中,已经参考许多具体细节描述了实现方式,这些细节可能因实现方式而异。因此,说明书和附图被认为是说明性的,而不是限制性的。本公开文本范围的唯一和排他的指示、以及申请人希望的本公开文本的范围是本技术中以权利要求提出的特定形式给出的权利要求(包括任何后续的修正)的字面和等同范围。本文中对包含在权利要求中的术语明确阐述的任何定义将决定权利要求中使用的这些术语的含义。此外,当我们在前面的描述或后面的权利要求中使用术语“进一步包括”时,这个短语后面的可以是附加的步骤或实体,或者前述步骤或实体的子步骤/子实体。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
用于设计疫苗的系统和方法与流程
作者:admin
2022-07-29 19:24:09
316
- 下一篇: 防脱挡结构、变速箱及轨道车辆的制作方法
- 上一篇: 一种医用超声波检测探头的制作方法