发布信息

蛋白质家族图谱的制作方法

作者:admin      2022-10-26 06:26:55     936



医药医疗技术的改进;医疗器械制造及应用技术蛋白质家族图谱1.本技术涉及用于识别与疾病选择信息或实体(entity)选择信息相关联的感兴趣的候选实体的装置、系统和方法。背景技术:2.在药物研发过程中,科学家的任务是鉴定可用于治疗感兴趣疾病的潜在药物(及其潜在关系)。通常情况下,科学家们不得不审查和研究太多或大量的靶向物、基因、药物和/或化合物,然后才能到选定少数可能的潜在药物。典型地,查询数据库,但不限于,查询例如感兴趣的疾病;该查询可能返回结果集,该结果集包括与感兴趣的疾病有关联的一组实体或实体对。结果集通常以标准的基于列表的结果格式或基于网格的结果格式显示或提供给用户,这需要用户和/或系统进一步管理(curate)和过滤具有不需要属性的不需要的实体(例如管制物质、非法药物、口服药物、静脉注射等)。3.例如,对特定疾病感兴趣的科学家可能希望生成一份可能对治疗该疾病具有新作用的分子/药物列表。他们可以查询与疾病相关的知识数据库,该数据库返回分子/药物的结果集或包括与疾病(例如,影响基因/蛋白质x的疾病、由药物d1治疗的疾病)相关的多个实体的任何其他结果集,和/或与疾病相关的多个实体对(例如,药物d1与靶标/基因/蛋白质x相关)或任何其他类型的关联。4.通常,结果集可以显示为标准的表格结果页面,带有不同的过滤器,用于删除具有科学家不感兴趣的各种不需要的属性的实体(例如管制物质、非法药物、口服药物、静脉注射等)。本质上,搜索结果列表包含与疾病相关的多个实体。尽管用户可以检查搜索结果列表,例如仅作为示例但不限于检查可能的感兴趣的分子(例如150-1000个分子),他们必须对它们进行分类,以试图确定可能未被用于经典治疗该疾病的感兴趣的候选实体。这可能是一个耗时的过程。鉴于搜索结果列表的大量可能结果和要求,有很多潜在的错误可能会潜入该过程,从而可能会做出重要假设或候选分子/药物或实体的选择不佳,导致在进一步研究和开发较差的候选实体集时成本高昂且浪费时间和资源。5.本质上,由于结果集的大量的结果,对查询结果进行分类以确定感兴趣的特定实体(未识别的先验)在实践中造成困难。机器学习(machine learning,ml)方法(例如贝叶斯网络(bayesian network))可能有助于解决其中一些相关困难。然而,这些方法往往很慢并且并非没有缺陷。例如,目前的ml方法缺乏合适的映射,无法对基础数据进行稳健搜索——忽略重要假设或提供较差的实体选择。实际上,它可能不仅成本高昂,而且确实浪费了可用于进一步研究和开发的时间和资源。6.需要一种机制、过程或装置,其能够有效和简洁地搜索与疾病选择信息相关联的实体,并生成有效和简洁的代表,以帮助和/或用于识别感兴趣的候选实体以在以下期间进行开发,不限于例如药物研发、优化等和/或根据应用需求。7.下文描述的实施例不限于解决上述已知方法的任何或所有缺点的实施方式。技术实现要素:8.本发明内容被提供以便以简化形式介绍概念的选择,该概念将在下文的详细描述中进一步描述。本发明内容并非旨在识别所要求保护的主题的关键特征或基本特征,也不旨在用于确定所要求保护的主题的范围;有助于实施本发明和/或用于实现基本相似的技术效果的变型和替代特征应被视为落入本文公开的本发明的范围内。9.本公开提供了用于处理搜索结果的方法、装置和/或系统,该搜索结果基于与实体选择信息或搜索查询相关联的预测实体和与实体选择信息或搜索查询相关联的已知实体,其与实体家族相关联的预测或已知实体相关联。处理搜索结果以确定与实体家族的实体相关联、相关和/或映射到实体家族的实体上的那些预测实体和已知实体。处理后的搜索结果作为图结构输出,其中图结构基于与分层(hierarchy)、分类(taxonomy)或本体(ontology)相关联的实体家族,其能够表示为链接的图结构。映射到实体家族的实体的一个或多个预测实体和/或一个或多个已知实体链接到实体家族的图结构的对应实体节点。链接的预测实体和已知实体叠加在图结构上,用于识别感兴趣的候选实体。10.在第一方面,本公开提供了一种识别与疾病选择信息或实体选择信息相关联的感兴趣的候选实体的计算机实施方法,该方法包括:接收被预测为与疾病选择信息或实体选择信息相关联的第一实体集;检索已知与疾病选择信息或实体选择信息相关联的第二实体集;生成第一实体集的实体、第二实体集的实体和与疾病选择信息或实体选择信息有关的图结构的实体之间的实体映射集,该图结构基于与第一实体集和第二实体集相关联的实体家族的实体分层、本体或分类;基于生成的实体映射集,将来自第一实体集和第二实体集的实体链接到图结构;以及基于确定来自第一实体集的每个实体在图结构上相对于图结构上的第二实体集的一个或多个实体的位置,从图结构上的第一实体集和第二实体集的那些链接实体中识别感兴趣候选实体。11.作为一个选项,该方法还包括:在图结构上重叠(overlaying)链接实体。作为另一个选项,重叠可以包括显示具有与链接实体相关联的叠加(overlay)的图结构。作为一个选项,在识别感兴趣的候选实体之前执行重叠步骤。附加地或可替代地,作为一个选项,在识别感兴趣的候选实体之后执行重叠步骤。12.任选地,基于确定第一实体集的实体、第二实体集的实体和/或图结构的家族实体之间的实体关联(entity association)来确定实体映射集。13.作为一个选项,实体映射集还包括来自以下组的任何一个或多个实体映射:第一实体集的实体之间的实体映射,其中,该实体映射的实体通过与其的实体关系被确定为关联的;第二实体集的实体之间的实体映射,其中,实体映射的实体通过与其的实体关系被确定为关联的;第一实体集的实体与第二实体集的实体之间的实体映射,其中,该实体映射的实体通过与其的实体关系被确定为关联的;第一实体集的实体与图结构的家族实体之间的实体映射,其中,该实体映射的实体通过与其的实体关系被确定为关联的;和第二实体集的实体与图结构的家族实体之间的实体映射,其中,该实体映射的实体通过与其的实体关系被确定为关联的。14.任选地,识别感兴趣的候选实体还包括:基于添加到图结构的第一实体集的那些实体与添加到图结构的第二实体集的那些实体之间的定位,识别图结构中感兴趣候选实体。15.作为一个选项,将来自第一实体集和第二实体集的每个实体作为实体节点添加到图结构是基于实体与图结构中对应于本体的、分层的和/或分类的实体家族的家族实体之间的预测实体关联;和16.任选地,将来自第一实体集和第二实体集的每个实体作为实体节点添加到图结构是基于所述每个实体与图结构中对应于本体的、分层的和/或分类的实体家族的家族实体之间的已知关联。17.作为另一选项,基于与来自第一实体集和/或第二实体集的每个实体相关联的置信度分数对链接到图结构的每个实体节点进行图形加权,其中图形加权可以包括对尺寸、颜色、形状和其他基于相应的置信度分数与实体节点关联的元数据进行加权。作为一个选项,置信度分数指示与实体节点相关的预测强度。18.任选地,将来自第一实体集和第二实体集的实体添加到图结构还包括:当在所述实体与第一实体集和第二实体集中的至少一个其他实体之间存在间接实体关联时,将所述实体作为实体节点添加到图结构中,第一和第二实体集中的至少一个其他实体与图结构的家族实体有关联。19.作为一个选项,该方法还包括:基于所述实体与第一实体集或第二实体集中的另一个实体之间的确定的实体关联,识别所述实体与图结构的所述实体之间的间接关联,所述另一个实体与图结构的所述家族实体具有直接或间接的关联;并且通过将实体添加到第一实体集或第二实体集中的所述另一个实体来链接实体。20.任选地,疾病选择信息包括代表来自以下组中的至少一种的数据:一种或多种疾病、一种或多种疾病的一种或多种症状、与一种或多种疾病相关联的一种或多种细胞类型、与一种或多种疾病相关联的一种或多种组织类型、与一种或多种疾病相关联的一个或多个器官、与一种或多种疾病相关联的一个或多个生物部分、或与一种或多种疾病相关的一个或多个疾病过程。21.作为一个选项,实体包括实体数据,其与来自至少以下组的实体类型:基因;疾病或疾病过程;化合物/药物;蛋白质;化学物质、器官、生物部分、组织、细胞、治疗和/或其他疗法;和/或与生物信息学、化学信息学(chemo(o)informatics)、生物学、生物化学、化学、医学、药理学和/或与诊断和/或药物研发等相关的任何其他领域相关的任何其他实体类型相关联。22.作为另一个选项,第一实体集与来自以下组的实体类型相关联:疾病、疾病过程等;第二实体集与来自以下组的实体类型相关联:药物、化学物质、化合物、药理学、治疗和/或其他疗法等;并且图结构的家族实体与来自以下组的实体类型相关联:蛋白质、基因、疾病和/或疾病过程。23.作为一个选项,接收第一实体集还包括:接收从一个或多个机器学习、ml、模型或实体识别系统输出的预测实体集,该机器学习、ml、模型或实体识别系统被配置用于预测或识别与疾病选择信息相关联的实体;接收第二实体集还包括:从一个或多个内容源检索已知与疾病选择信息相关联的实体来接收第二实体集,内容源包括代表已知与疾病选择信息相关联的实体的数据;生成图结构还包括:基于与家族实体的本体、分层和/或分类相关联的实体家族或家族类型生成图结构,其中图结构包括多个实体家族节点,每个实体家族节点代表与实体家族相关联的家族实体;将实体添加到图结构还包括:基于第一实体集的预测实体之间、第二实体集的已知实体之间、第一实体集和第二实体集的预测实体和已知实体之间、和/或第一实体集或第二实体集的预测实体或已知实体与图结构的家族实体之间的一个或多个实体映射,来填充(populate)图结构,以及将与实体家族节点相关联的那些实体映射的一个或多个实体链接到图结构;和基于添加到图结构的预测实体和已知实体之间的定位,从填充的图结构中识别感兴趣的候选实体。24.作为一个选项,确定实体映射还包括从第一实体集、第二实体集、图结构的实体家族和/或疾病选择信息确定交互实体对,其中实体对包括至少第一实体、第二实体和与之相关联的实体关系。25.任选地,每个交互实体对包括来自以下组的一个或多个:第一类型的实体和与其具有预测关系的第二类型的实体,其中第二类型的实体对应于与图结构的家族实体相关联的实体类型;第一类型实体和与其具有已知关系的第二类型实体,其中第二类型实体对应于与图结构的家族实体相关联的实体类型。26.作为一个选项,该方法还包括显示链接的分层树结构以识别感兴趣的候选实体,链接的分层树结构指示预测实体与对应于图结构的家族实体的一个或多个节点直接或间接链接。27.作为一个选项,检索第二实体集的步骤还包括从内容源检索已知的交互实体对集。28.任选地,已知的交互实体对集中的每个实体对包括:第一实体类型的第一实体和对应于不同于第一实体类型的与第二实体集的本体、分层或分类相关联的实体类型的第二实体。29.任选地,第一类型实体对应于与药物、化合物、化学信息学、其他药物靶点的基因和/或其他疗法相关的实体;第二类型实体对应于与蛋白质和/或基因家族相关的实体;和感兴趣的候选实体对应于第一类型实体的实体。30.作为一个选项,预测的交互生物实体集的每个实体对之间的关系包括基于与疾病选择信息相关联的疾病有关的第一实体类型的第一实体和第二实体类型的第二实体的关系。31.作为另一个选项,该方法还包括接收与选择以下至少一项相关联的用户输入:疾病、疾病症状和/或疾病过程;和根据用户输入生成疾病选择信息。32.作为一个选项,一个或多个ml模型包括关系ml模型(relational ml model),其被配置用于预测与疾病选择信息相关联的交互实体对。作为一个选项,关系ml模型基于机器学习技术使用标记的训练数据集和/或规则集来预测与疾病选择信息相关联的交互实体对进行训练。33.作为一个选项,一个或多个ml模型被配置用于从文本语料库预测与疾病选择信息相关联的交互实体对,该文本语料库包括大规模文档存储库,其包含与疾病选择信息、第一类型实体、第二类型实体和/或第二实体集的实体相关联的多个文档、文章、文献、网站和/或任何其他数字信息和/或数据。34.作为一个选项,还包括基于执行自动簇识别来检测感兴趣候选实体簇,所述自动簇识别与添加到图结构的第一实体集的实体和第二实体集的实体有关;并指示感兴趣候选实体簇,以识别可能的感兴趣候选者。35.作为一个选项,指示感兴趣的候选实体簇还包括将感兴趣的候选实体簇显示为图结构上的叠加。36.任选地,该方法还包括:基于将链接图结构输入到自动簇识别ml模型中执行自动簇识别,该自动簇识别ml模型被配置用于预测与感兴趣的候选者相关联的所述链接图结构中的感兴趣位置或区域;以及将预测的感兴趣位置或区域的指示显示为分层树结构上的叠加,用于识别感兴趣的候选实体。37.任选地,生成自动簇识别ml模型基于使用标记的训练数据集训练ml技术以在与感兴趣的候选者相关联的链接图结构中定位感兴趣的区域,其中用于训练基于ml技术的模型的所述标记的训练数据集是基于从与多个疾病选择信息有关的多个搜索查询导出的多个链接图结构中选择感兴趣的候选实体的一个或多个用户交互。38.作为一个选项,使用与感兴趣的候选实体有关的链接图结构中的感兴趣的定位区域相关联的规则集,基于训练ml技术生成自动簇识别ml模型,以定位与感兴趣候选者相关联的链接图结构中的感兴趣的区域。39.作为一个选项,该方法还包括基于用户与所生成和链接图结构的交互来更新自动簇识别ml模型。40.任选地,该方法还包括基于表示规则集的数据来执行自动簇识别,该规则集包括来自以下组的至少一个或多个规则:与定义与图结构的区域相对应的感兴趣的区域相关联的规则,其中第一类型的实体链接到远离第一类型的其他实体的第二类型的实体;与定义与图结构的区域相对应的感兴趣的区域相关联的规则,其中第一类型的实体链接到第二类型的实体,两者彼此或与所述图结构具有预测的关联;与定义与图结构的区域相对应的感兴趣区域相关联的规则,其中预测被链接的第一类型实体与第二类型实体之间的关联;与定义与图结构的区域相对应的相关的区域相关联的规则,其中疾病足够远离现有药物的已知治疗;以及与定义与图结构的区域相对应的相关的区域相关联的规则,其中未知药物声称靶向的基因与该疾病相关。41.在第二方面,本公开提供了一种装置,包括处理器单元、存储器单元和通信接口,所述处理器单元连接到所述存储器单元和所述通信单元,其中,所述装置被配置为实施根据第一方面的任何特征、其组合、对其的修改和/或如本文所述的计算机实施方法。42.在第三方面,本公开提供了一种系统,包括:用户界面,其被配置为接收代表疾病选择信息的数据;候选实体识别装置,其根据第二方面的任何特征、其组合、其修改和/或如本文所述,该候选实体识别装置连接到用于接收疾病选择信息的用户界面;和显示界面,其被配置用于显示链接图结构和识别的感兴趣的候选实体的指示。43.在第四方面,本公开提供了一种计算机可读介质,其包括存储在其上的代码或计算机指令,当由处理器单元执行时,使处理器单元执行根据第一方面的任何特征、其组合、对其的修改和/或如本文所述的计算机实施方法。44.本文所述的方法可以由在有形存储介质上的机器可读形式的软件执行,例如以计算机程序的形式,包括计算机程序代码装置(means),当程序在计算机上运行时且计算机程序可以体现在计算机可读介质上的情况下,该计算机程序代码装置适于执行本文所述的任何方法的所有步骤。有形(或非暂时性)存储介质的示例包括磁盘、拇指驱动器、存储卡等,但不包括传播信号。该软件可以适合于在并行处理器或串行处理器上执行,从而可以以任何合适的顺序或同时执行方法步骤。45.上述方面和/或实施例中的每一个的特征可以适当地组合,这对技术人员来说是显而易见的,并且可以与本发明的任何方面组合。实际上,实施例的顺序以及优选特征的顺序和位置仅是指示性的并且与特征本身无关。旨在使每个优选和/或任选的特征不仅可与所有方面和实施例互换和/或组合,而且还可与每个优选特征互换和/或组合。附图说明46.将参考以下附图以示例的方式描述本发明的实施例,其中:47.图1a为说明根据本发明的从与疾病选择信息相关联的搜索结果中识别感兴趣的候选实体的示例性过程的流程图;48.图1b为说明根据本发明的用于从与疾病选择信息相关联的搜索结果中识别感兴趣实体的实体映射的示例的示意图;49.图1c为说明根据本发明的用于从与图1a和1b的疾病选择信息相关联的搜索结果中识别感兴趣的候选实体的示例性过程的流程图;50.图1d为说明根据本发明的用于从与图1a至1c的疾病选择信息相关联的搜索结果中识别感兴趣的候选实体的示例性过程的流程图;51.图1e为说明根据本发明的用于从与图1a至1d的疾病选择信息相关联的搜索结果中识别感兴趣的候选实体的示例性过程的流程图;52.图2a为说明根据本发明的用于从与疾病选择信息相关联的搜索结果中识别感兴趣的候选实体的与疾病选择信息相关的搜索查询系统的示例的示意图;53.图2b为说明根据本发明的用于从与疾病选择信息相关联的搜索结果中识别感兴趣的候选实体的与实体选择信息相关的另一搜索查询系统的另一示意图;54.图3为说明根据本发明的用于从与疾病选择信息相关联的搜索结果中识别感兴趣实体的拓扑图结构的示例的示意图;55.图4为说明根据本发明的实体映射的示例的示意图,其中预测和已知的实体结果集被映射到另一拓扑图结构的本体实体;56.图5a为说明根据本发明的基于图2b的实体映射系统的另一示例的示意图;57.图5b为说明根据本发明的实体映射的另一示例的示意图;58.图6a为说明根据本发明的另一示例拓扑图结构的示意图,其中候选实体簇被叠加以识别感兴趣实体的候选者;59.图6b为说明根据本发明的拓扑图结构的另一示例的示意图,其中候选实体簇被叠加以识别感兴趣实体的候选者;60.图6c为示出根据本发明的拓扑图结构的又一示例的示意图,其中候选实体簇被叠加以识别感兴趣实体的候选者;61.图7a为说明根据本发明的计算系统和设备的示意图;和62.图7b为说明根据本发明的系统的示意图。63.在所有附图中使用共同的参考数字来指示相似的特征。具体实施方式64.下文仅以示例的方式描述本发明的实施例。这些示例代表了申请人目前已知的将本发明付诸实践的最佳模式,尽管它们不是可以实现本发明的唯一方式。该描述阐述了示例的功能以及构建和操作示例的步骤顺序。然而,相同或等效的功能和顺序可以通过不同的示例来实现。为避免任何疑问,除非本文提供相反的明确声明,否则任何实施例中描述的特征可与任何其他实施例的特征组合和/或任何实施例可与任何其他实施例组合。简而言之,本文所述的特征并非旨在区分或排他,而是旨在互补和/或可互换。65.本发明涉及用于从与例如但不限于疾病选择信息相关联的搜索结果中识别感兴趣的候选实体的过程和系统。可以在接收到与选择疾病、疾病症状和/或疾病过程或途径等中的至少一个相关联的用户输入时,生成疾病选择信息。接收或检索被预测为与疾病选择信息相关联的第一实体集,以及检索或接收已知与疾病选择信息相关联的第二实体集。可以在与疾病选择信息有关的第一实体集的实体、第二实体集的实体和图结构的实体之间生成实体映射集。图结构是基于与第一和第二实体集相关联的实体家族的实体分层、本体或分类。来自第一和第二实体集的实体基于所生成的实体映射集链接到图结构。从链接图结构中,可以基于确定来自第一实体集的每个实体在图结构上相对于图结构上的第二实体集的一个或多个实体的位置,而从图结构上的第一和第二实体集的那些链接实体中识别感兴趣的候选实体。66.本发明的至少以下优点涉及本文描述的用于从与疾病选择信息相关联的搜索结果中识别感兴趣的候选实体的过程和系统的配置。特别是,获得预测的和已知的单独实体集的优点是减少了所需的采样量。例如,已知的实体集提供了对特定图结构(可能是部分图或完整图)的中心节点的有效识别,作为拓扑图的父节点(parent node)可以参考的参考点,从而减少了与只有单个实体集相比所必需的计算量。67.此外,本文所述的过程和系统通过在本体树/拓扑图上图形化/自动聚类感兴趣的实体而不是通过结果集线性滚动来增强对结果列表的审查,包括手动和自动。更具体地,可以自动识别感兴趣的候选实体。例如,一个或多个候选实体的自动簇识别可包括检测一个或多个实体簇/实体以识别感兴趣的候选实体,并显示包括突出每个检测到的感兴趣的簇的一个或多个指示的叠加。总之,上述优点提供了检查与疾病选择信息相关联的搜索结果以识别感兴趣的候选实体并有效地进行所识别的感兴趣的候选实体的进一步研究和开发的改进手段。68.文本语料库(corpus)可以包括或表示大规模文档存储库,其包含与疾病选择信息、第一类型的实体、第二类型的实体和/或第二实体集的实体相关联的多个文档、文章、文献、网站和/或任何其他数字信息和/或数据。数据或文本的语料库可以包括或表示大规模数据集或存储库,其包括来自一个或多个数据源、内容源、内容提供者等的任何信息、文本或数据。在根据本发明的示例中使用的文本语料库的示例可以仅作为示例包括,但不限于,与疾病选择信息、第一类型的实体、第二类型的实体和/或第二实体集的实体相关联的文档、文章、文献、网站和/或任何其他数字信息和/或数据、非结构化数据/文本、一个或多个非结构化文本、半结构化文本、文档、文档部分、文档的句子和/或段落、表格、结构化数据/文本、正文、专利和/或专利申请、出版物、文本、电子邮件、图像和/或视频,或可能包含大量与一个或多个感兴趣的域对应的信息的任何其他信息或数据等。该数据可以由以下来生成和/或与以下一起存储或通过以下进行存储:一个或多个源、内容源/提供者或多个源(例如,pubmed、medline、维基百科(wikipedia)、美国专利局数据库(us patent office databases)、欧洲专利局数据库(european patent office databases)和/或任何其他专利数据库),并可用于形成从中可识别和/或提取实体、实体类型和实体关系等的文本语料库。例如,可以检索和处理文本语料库的文本部分(例如,来自文本语料库的数据的句子、段落、部分或片段)以识别、检测和/或提取一个或多个实体和/或与其之间的关系。文本部分可以描述与一个或多个实体和/或与感兴趣域相关联的感兴趣的实体相关联的实体关系。文本部分可以被处理以识别、检测和/或提取,仅作为示例但不限于,a)与感兴趣域相关联的一个或多个感兴趣实体,每个实体可以是可分离的感兴趣实体;和b)形成和/或限定与一个或多个感兴趣实体相关联的关系的一个或多个关系实体,其可以是可分离的。69.此类大规模数据集或数据/文本语料库可包括来自一个或多个数据源的数据或信息,其中每个数据源可提供代表多个非结构化和/或结构化的文本/文档、文档、文章或文献等的数据。尽管来自出版商、内容提供商/源的大多数文档、文章或文献都具有特定的文档格式/结构,例如,pubmed文档以xml格式存储,其中具有关于作者、期刊、出版日期以及文档中的章节和段落的信息,这类文档被认为是数据/文本语料库的一部分。为简单起见,本文描述了大规模数据集或数据/文本语料库,仅作为示例,但不限于作为文本语料库70.实体或感兴趣的实体可以包括或表示实体数据,诸如但不限于,例如对象(object)、项目(issue)、单词(word)或短语(phrase)、文本片段或信息的任何部分或来自文本部分的事实等,其可以与特定实体类型相关联并与关系相关联。仅作为示例但不限于,实体或感兴趣的实体可以是信息的任何部分或具有关系的事实,或与另一个实体或感兴趣的实体具有关系的事实,仅通过举例但不限于,信息的一个或多个部分、或另一个或多个事实等。感兴趣的实体还可以包括或代表用户等感兴趣的任何实体。例如,在生物学、化学信息学或生物信息学领域中,感兴趣的实体可以包括或表示与来自(仅作为示例但不限于)至少以下组的实体类型:基因;疾病或疾病过程;化合物/药物;蛋白质;化学物质、器官、生物部分、组织、细胞、治疗和/或其他疗法;和/或与生物信息学、化学信息学、生物学、生物化学、化学、医学、药理学、和/或与诊断和/或药物研发等相关的任何其他领域相关的任何其他实体类型相关联的实体数据。特别地,其他疗法可以包括,例如但不限于,对靶标具有治疗或生物学影响的任何物质或过程。例如,这种治疗或生物学影响可以是影响基因的化合物或化学疗法。举例来说,其他疗法可以包括但不限于对靶标具有治疗或生物学影响的任何物质或过程。例如,这种治疗或生物学影响可以是影响基因的化合物或化学疗法。例如,生物实体类型的生物实体可以由代表来自文本部分的对象、词或短语的数据表示,该文本部分基于该实体所在的文本部分或文本的上下文描述或描写该生物实体类型。生物实体可以包括实体数据,该实体数据对应于与生物域相关联的生物实体类型,其基于(仅作为示例但不限于)来自以下组的一个或多个实体类型:基因;疾病;化合物/药物;蛋白质;化学品、器官、生物制品(biological);或与生物信息学或化学信息学等相关的任何其他实体类型。71.通常来说,第一实体集可以包括基于来自(例如但不限于)生物信息学和/或化学信息学等领域的任何实体类型而预测为与疾病选择信息相关联的实体。第二实体集可以包括基于来自(例如但不限于)生物信息学和/或化学信息学领域等的任何实体类型已知与疾病选择信息相关联的实体。图结构的实体家族可以与实体类型相关联,该实体类型例如但不限于可以表示为实体分层、本体或分类,并且与第一和第二实体集的实体类型相关联或有关。例如,实体家族可以基于(例如但不限于)来自以下组的至少一种实体类型:蛋白质、基因、疾病和/或疾病过程。第一和/或第二实体集可以基于(例如但不限于)来自生物信息学和/或化学信息学领域等的一个或多个实体类型。例如,来自以下组的实体类型:基因;疾病或疾病过程;化合物/药物;蛋白质;化学物质、器官、生物部分、组织、细胞、治疗和/或其他疗法;和/或与生物信息学、化学信息学、生物学、生物化学、化学、医学、药理学和/或与诊断和/或药物研发等相关的任何其他领域相关的任何其他实体类型。72.第一和第二实体集中的每个实体还可以包括代表与疾病选择信息相关联的实体关系的数据。然后可以在第一实体集、第二实体集和实体家族的图结构的实体之间执行实体映射。例如,可以基于预测的与第二实体集的实体的实体关系将来自第一实体集的实体映射到来自第二实体集的实体,反之亦然。例如,第一实体集可以包括一个或多个交互实体对,其对应关系被预测为与疾病选择信息相关联,并且第二组可以类似地包括一个或多个交互实体对,其对应关系已知与疾病选择信息相关联。这些交互实体对和/或关系可以用于确定在第一实体集的每一个、第二实体集和图结构的家族实体之间关联的实体映射。例如,已知交互实体对集的实体对可以包括第一实体类型的第一实体和对应于与图结构的实体家族相关联的实体类型的第二实体,因此第一实体类型的第一实体可以映射到图结构的对应实体。73.在一个示例中,实体映射可以包括通过关系直接映射到蛋白质家族的蛋白质上的基因。在另一个示例中,化合物/药物可以通过蛋白质映射到蛋白质家族,其中,据推测蛋白质提出了已知和可能的药物靶标与药物蛋白质家族的组合。在任何一种情况下,都生成实体映射。包括来自第一或第二实体集的实体和来自图结构的实体的实体映射可用于将来自第一或第二实体集的那些实体链接到图结构。图结构可以是静态的,由此来自第一和第二实体集的实体的链接可以使用逻辑链接,这使得当来自第一和第二集的更多实体时被链接/添加时能够重新使用或部分重新使用实体家族的图结构。基于对应的实体映射将来自第一和第二实体集的实体链接到图结构可以包括:将来自第一和第二实体集的那些实体以图形和逻辑方式链接到图结构,其中图形链接可以用于直观地显示图形结构和到来自第一和第二实体集的实体的链接,而逻辑链接能够执行自动簇识别以分析链接的图结构,以从第一实体集中自动识别感兴趣的候选实体。例如,静态图结构可以包括用于疾病选择的所有蛋白质家族。部分结构或图结构的一部分(省略图结构的与疾病选择不相关的部分)可用于显示图结构的相关部分,包括识别的感兴趣候选实体。静态图结构和维护数据结构消除了重复生成和存储拓扑图或图结构的需要,该数据结构包括表示基于实体映射的第一和第二实体集的实体和/或图结构的实体之间的逻辑链接的数据,拓扑图或图结构包括第一和第二实体集的实体和/或图结构的实体家族的实体之间的所有实体映射。这允许对预测的、已知的实体和实体家族以及它们之间的映射的大型(增加的)数据集进行有效的内存管理。74.一旦基于第一实体集、第二实体集和/或图结构的实体家族生成实体映射,则可以将来自第一和第二实体集的一个或多个实体以逻辑方式链接到实体家族的图结构的实体中。来自第一实体集的已经被映射和/或链接到实体家族的图结构上和/或链接到也链接到图结构的实体上的那些实体,然后可以基于自动候选实体识别系统用于识别感兴趣候选实体(例如,药物),其可能导致独特和/或有用的发现。这种自动候选实体识别系统可以基于,例如但不限于,以下组中的一个或多个:规则集,其基于第一和第二实体集到图结构的逻辑链接;一个或多个ml模型,其用于基于第一和第二实体集与图结构的逻辑链接来识别和/或预测感兴趣候选实体;和/或混合系统,其包括基于规则的系统和/或用于识别和/或预测感兴趣候选实体的ml模型。75.例如,当图结构基于疾病家族并且第一实体集包括来自药物实体类型的实体时,则该规则集例如可以包括:例如,基于疾病节点和药物节点(其对于该疾病是前所未有的)或者可替选地基因节点(其是先前未发现与该疾病相关的)之间的最短路径和/或距离(即足够远)的规则。根据该规则集,感兴趣候选实体(例如,药物/基因/疾病)可以被识别为一个或多个实体簇。特别地,基于所生成的实体映射集,拓扑图上的实体被链接到第二实体集至图结构。基于确定来自第一实体集的每个实体在图结构上相对于图结构上的第二实体集的一个或多个实体的位置,可以从图结构上的第一和第二实体集的那些链接实体识别感兴趣候选实体。例如,可以基于基因的蛋白质家族将已知基因和/或预测的基因映射到蛋白质家族。76.识别过程和/或聚类可以通过自动簇识别进一步自动化,并且考虑到在拓扑图上显示的叠加的目的,该拓扑图包括突出每个检测到的感兴趣簇的一个或多个指示。叠加可以是向用户显示实体家族的图结构并将所显示的图结构与来自已经映射到图结构的实体的第一和第二集(set)的实体叠加。例如,来自第一集和第二集的实体可以显示为拓扑图上的叠加,其中实体以与拓扑图上的实体不同的颜色显示。这随后可以由用户以自动或半自动方式用于识别候选实体。上述情况下的自动簇识别可以应用本文描述的任何一种或多种ml技术或其他合适的聚类方法,其基于训练ml模型以定位与感兴趣候选者相关联的链接分层树结构中的感兴趣区域。77.这些ml技术可以包括一种或多种计算方法或计算方法的组合,这些计算方法可用于生成分析模型、分类器和/或算法,这些模型、分类器和/或算法有助于解决复杂问题,例如但不限于神经网络(neural network,nn)结构、基于树/图的分类器、线性模型等,和/或任何适合对嵌入集和/或在ml模型或分类器训练期间生成的嵌入词汇数据集进行建模/操作的ml技术。经过训练的ml模型或分类器可用于从文本语料库中提取实体/关系。关于ml技术的使用,为一个或多个关系实体中的每一个关系实体(例如,在描述与一个或多个感兴趣特定实体相关联的关系的文本语料库中找到的特定关系实体)生成嵌入集和/或嵌入词汇数据集。特别是,ml技术可用于在药物研发、预测和分析复杂生物过程和/或相关药物候选者的背景下生成嵌入;对与一个或多个关系有关的输入数据分类。通过ml技术进行的训练或其分类可以具有与输入数据相关联的相同或相似的输出目标。代表实体/关系图的数据用作输入标记的训练数据集,用于训练与预测或分类以下领域的客观问题和/或过程相关的一个或多个ml模型:生物学、生物化学、化学、医学、化学信息学、生物信息学、药理学以及与诊断、治疗和/或药物研发等相关的任何其他领域。78.此处描述的本发明可以使用的ml技术的示例还可以包括或基于(仅作为示例但不限于):可以在标记和/或未标记的数据集上训练以生成与标记和/或未标记的数据集关联的嵌入模型、ml模型或分类器的任何ml技术或算法/方法、一种或多种监督ml技术、半监督ml技术、无监督ml技术、线性和/或非线性ml技术、与分类相关的ml技术、与回归相关的ml技术等、和/或它们的组合。ml技术的一些示例可包括或基于(仅作为示例但不限于):主动学习、多任务学习、迁移学习(transfer learning)、神经信息解析、一次性学习、降维、决策树学习、关联规则学习、相似性学习、数据挖掘算法/方法、人工神经网络(nn)、深度nn、深度学习、深度学习ann、归纳逻辑编程、支持向量机(svm)、稀疏字典学习(sparse dictionary learning)、聚类、贝叶斯网络、强化学习、表示学习(representation learning)、相似性和度量学习、稀疏字典学习、遗传算法、基于规则的机器学习、学习分类器系统中的一项或多项和/或其一种或多种组合等。79.监督ml技术的一些示例可以包括或基于(仅作为示例但不限于)ann、dnn、关联规则学习算法、先验算法、算法、基于案例的推理、高斯(gaussian)过程回归、基因表达式编程、数据处理的组方法(group method of data handling,gmdh)、归纳逻辑编程、基于示例的学习(instance-based learning)、惰性学习、学习自动机、学习向量量化、逻辑模型树、最小消息长度(决策树、决策图等)、最近邻域算法、类比建模、可能近似正确学习(probably approximately correct,pac)学习、波纹向下规则(ripple down rule)、知识获取方法、符号机器学习算法、支持向量机、随机森林、分类器集合、引导聚合(bootstrap aggregating,bagging)、提升(元算法)、有序分类、信息模糊网络(information fuzzy network,ifn)、条件随机场、方差分析(anova)、二次分类器、k-最近邻法、增长(boosting)、冲刺(sprint)、贝叶斯网络(bayesian network)、朴素贝叶斯(bayes)、隐马尔可夫模型(hidden markov models,hmm)、分层隐马尔可夫模型(hierarchical hidden markov model,hhmm)以及任何其他能够从标记的训练数据推断函数或生成模型的ml技术或ml任务等。80.无监督ml技术的一些示例可以包括或基于(仅作为示例但不限于)期望最大化(expectation-maximization,em)算法、矢量量化、生成拓扑图、信息瓶颈(information bottleneck,ib)方法和任何其他能够推断函数以描述隐藏结构和/或从未标记的数据生成模型和/或通过忽略标记的训练数据集中的标签推断出函数的ml技术或ml任务等。半监督ml技术的一些示例可以包括或基于(仅作为示例但不限于)以下中的一种或多种:主动学习、生成模型、低密度分离、基于图的方法、协同训练、转导或任何其他ml技术、任务或能够利用未标记数据集和标记数据集进行训练的监督ml技术类别(例如,通常训练数据集可以包括结合有大量的未标记数据的少量标记的训练数据等)中。81.人工nn(ann)ml技术的一些示例可包括或基于(仅作为示例但不限于)以下中的一种或多种:人工nn、前馈nn、递归nn(recursive nn,rnn)、卷积nn(convolutional nn,cnn)、自动编码器nn、极限学习机、逻辑学习机、自组织映射和其他ann ml技术或连接系统/计算系统,其来自构成动物大脑的生物神经网络启发且能够学习或生成基于标记和/或未标记的数据集的模型。深度学习ml技术的一些示例可包括或基于(仅作为示例但不限于)以下中的一种或多种:深度信念网络(deep belief network)、深度玻尔兹曼机(deep boltzmann machine)、dnn、深度cnn、深度rnn、分层时间记忆(hierarchical temporal memory)、深度玻尔兹曼机(deep boltzmann machine,dbm)、堆叠式自动编码器和/或任何其他能够基于从标记和/或未标记的数据集中学习数据代表来学习或生成模型的ml技术。82.本领域技术人员将理解和明白,用于生成如本文所述和/或使用的一个或多个ml模型的ml技术可适用于在文本或文献的任何语料库、一个或多个感兴趣实体的任何类型或实体类型、与其关系和/或主题,和/或应用程序操作。83.图1a为说明根据本发明的用于从与疾病选择信息和/或实体选择相关联的搜索结果识别感兴趣候选实体的示例性过程100的流程图。疾病选择信息可以包括,例如但不限于,代表以下组中的至少一种的数据:疾病、疾病的症状、或与疾病相关的疾病过程或途径。实体选择可以包括,例如但不限于,表示选择实体类型的一个或多个实体的数据。过程100包括以下一个或多个步骤:在步骤101中,检索或接收被预测为与疾病选择信息或实体选择相关联的第一实体集(例如,也称为第一实体集(预测的))。例如,第一实体集可以是由一个或多个ml模型预测为与疾病选择信息或实体选择相关联的实体集。一个或多个ml模型可以被配置为从文本语料库等识别和/或预测与疾病选择信息(或实体选择)相关联的实体。在步骤102中,检索或接收已知与疾病选择信息或实体选择相关联的第二实体集(例如,也称为第二实体集(已知的))。例如,第二实体集可以是可以驻留在存储介质(例如但不限于,例如数据库、内容源、搜索索引数据结构和/或知识库等)中的实体集,并且已知与疾病选择信息相关联或已知与实体选择相关联。可以基于规则集、一个或多个搜索算法等、和/或用于检索已知与疾病选择信息/实体选择相关联的实体的任何其他类型的过程或系统,从存储介质检索第二实体集。第一实体集可以包括与疾病选择信息(或实体选择)相关联的任何实体类型的一个或多个实体。第二实体集可以包括与疾病选择信息(或实体选择)相关联的任何实体类型的一个或多个实体。84.在步骤103中,生成第一实体集的实体、第二实体集的实体以及与疾病选择信息(或实体选择)相关的图结构的实体之间的实体映射集。图结构可以基于,例如但不限于,与第一和第二实体集相关联和/或与疾病选择信息(或实体选择)相关联的实体家族的实体分层、本体或分类。实体家族具有可以表示为图结构的多个实体。实体映射可以通过将第一实体集(或预测的实体列表)与第二实体集(或已知的实体列表)组合然后基于这些映射生成图来发生。该组合可以包括确定第一实体集中的每个实体所关联的关系,确定第二实体集中的每个实体所关联的关系,和/或确定实体家族的每个实体所关联的关系,并识别第一实体集、第二实体集和与实体家族相关联的实体之间的实体映射。附加地或可替代地,实体映射可以包括将第一实体集中的每个实体映射到(如果有)第二实体集中的一个或多个实体,和/或图结构中的一个或多个实体。该映射可以基于确定在第一实体集的每个所述实体与第二实体集的每个实体和/或图结构的每个实体之间是否存在实体关系。如果在第一实体集的实体和第二实体集的实体之间存在映射,则将该实体映射存储在实体映射集中。如果第一集的实体和图结构的实体之间存在映射,则将该实体映射存储在实体映射集中。如果第二集的实体与图结构的实体之间存在映射,则该实体映射也存储在实体映射集中。该实体集的每个实体映射可以包括第一实体、实体关系和第二实体。每个实体映射还可以为实体映射中的每个实体指示所述每个实体属于哪个实体集(预测的、已知的或图结构)。至少,实体映射中第一实体集中的每个实体被指示为预测的实体,并且实体映射中第二实体集中的每个实体被指示为已知的实体。因此,可以基于第一实体集、第二实体集和图结构的实体来生成实体映射集。85.在步骤104中,基于所生成的实体映射集将来自第一和第二实体集的实体链接到图结构。链接来自第一和第二实体集的那些实体可以包括基于实体映射将来自第一和第二实体集的实体逻辑链接到图结构的实体。代表逻辑链接的数据可以与代表图结构的数据分开存储。可替代地或附加地,通过将来自第一和第二实体集的链接实体添加到图结构的实体来扩充图结构,生成扩充的图结构。86.在步骤105中,基于确定来自第一实体集的每个实体在图结构上相对于图结构上的第二实体集的一个或多个实体的位置,而从图结构上的第一和第二实体集的那些链接实体中识别感兴趣候选实体。识别感兴趣候选实体可以包括基于处理来自第一和第二实体集的实体到图结构的链接来自动和/或半自动地识别感兴趣候选实体。例如,可以使用自动或半自动识别感兴趣候选实体来处理链接图结构,其基于(例如但不限于)簇识别系统、过程或引擎和/或配置用于识别感兴趣候选实体的ml候选识别模型。87.步骤105还可以包括将在图结构上叠加链接实体,其中叠加可以包括显示具有与链接实体相关联的叠加的图结构。可以在识别感兴趣候选实体之前执行叠加,这允许用户手动识别感兴趣候选实体,和/或帮助训练ml模型以识别感兴趣候选实体等。可替代地或附加地,可以在系统已经自动或半自动识别感兴趣候选实体之后执行叠加,其基于(例如但不限于)与图结构中已知链接实体有关的预测的链接实体的聚类、与从图结构中识别感兴趣候选实体相关联的规则集。感兴趣候选实体可能属于第一实体集。叠加可以包括突出、显示和/或指示所识别的感兴趣候选实体。88.在操作中,接收到的第一实体集(预测的)和第二实体集(已知的)与图结构的实体一起使用,以确定第一实体集(预测的)、第二实体集(已知的)的实体与图结构的实体之间的实体映射。确定这些映射可基于可用于生成图结构,其中可基于所生成的图结构的实体之间的关联来导出或确定实体映射集。具体地,基于与疾病选择信息相关的第一实体集、第二实体集的实体和图结构的家族实体之间的多个确定的实体映射集,图结构可以链接来自第一和第二实体集的实体。利用生成的图结构,可以基于来自第一实体集的每个实体在图结构中相对于图结构中的第二实体集的一个或多个实体的定位/位置,识别与第一实体集和第二实体集的那些链接实体相关的感兴趣候选实体。例如,图结构可以基于,例如但不限于,与第一和第二实体集相关联的实体家族的实体分层、本体或分类。89.在一个示例中,疾病选择信息可以简单地是与疾病相关联的查询。接收到的第一(预测的)实体集可以包括预测为与疾病相关联的实体的第一类型和第二类型。第一实体集的第一类型可以是本体实体(例如,蛋白质/基因),且第二种类型可能是非本体实体(例如,药物/化合物)。蛋白质/基因和药物/化合物可以通过对应于蛋白质/基因和药物/化合物的实体关系而与特定疾病相关联。反过来,第二(已知的)实体集可以是特定蛋白质家族的实体,其中蛋白质家族的实体被验证(根据知识库或其他可信来源)与疾病相关。可以基于基因家族生成拓扑图结构。来自第一实体集的一种或多种药物可以基于一个或多个实体关系映射/链接到第二实体集的蛋白质家族的实体。根据实体映射,拓扑图结构可以通过将来自第一和/或第二实体集的实体链接到图结构的基因实体来扩充。90.所得到的链接拓扑图可以通过自动或半自动识别感兴趣候选实体进行处理,该自动或半自动识别感兴趣候选实体基于(例如但不限于)簇识别系统、过程或引擎、和/或ml候选识别模型,和/或通过用户经由聚类技术识别来自第一实体集的实体进行处理,该第一实体集的实体例如但不限于在常规列表结果集之前被遗忘的感兴趣药物等。至少,链接到图结构的第一实体集的实体可以显示在拓扑图的叠加中,并且链接到图结构的第二实体集的实体可以显示在拓扑图的叠加中为用户提供视觉线索以有效地提取与实体集相关联的信息。由于与来自链接到图结构的第二实体集(已知)的实体簇紧密接近和/或最小的跳数(hop),用户可以选择第一(预测的)实体集中的实体簇作为感兴趣候选实体。这也可以使用自动聚类过程来确定,其中,基于聚类,所识别的感兴趣候选实体被叠加、突出并显示给用户。可替代地或附加地,可以存储识别的感兴趣候选实体,并且响应于疾病选择信息,将与识别的感兴趣候选实体相关联的结果集发送和/或呈现给用户。使用但不限于例如自动聚类识别过程的候选实体的自动/半自动识别可以基于一个或多个ml模型,该ml模型基于用户反馈来训练,用户反馈指示从叠加图结构中识别出的感兴趣候选实体。例如,从视觉提示指示用户识别感兴趣候选实体的用户反馈可以作为训练数据被馈送以用于训练一个或多个ml模型,以执行如本文所述的自动聚类和/或识别感兴趣候选实体,以用于进一步处理和识别感兴趣候选实体。91.在另一个示例中,所预测的本体实体(例如,蛋白质/基因)和非本体实体(例如,药物/化合物)之间的关联可以构成一个或多个实体对,这些实体对源自一个或多个ml模型,例如但不限于关系模型或推理模型。关系模型或推理模型可以包括本文描述的一个或多个ml模型。实体对可以至少包括蛋白质/基因和药物/化合物以及与之相关的实体关系(例如,诱导/抑制)。更具体地说,蛋白质/基因和药物/化合物可能具有与之相关的预测关系,其中药物/化合物对应于与图结构的家族实体相关联的实体类型。可替选地或任选地,蛋白质/基因和药物/化合物可以具有已知的关系,其中药物/化合物根据已知的关系对应于与图结构的家族实体相关联的实体类型。可以根据已知的关系提取药物/化合物,以将其包括为第一(预测的)实体集。92.在又一示例中,已知的关系可用于从一个或多个内容源检索或提取已知的实体集。当从文献中提取背景(context)时,提取是在句法(syntactic)基础上执行的,以允许在诸如知识图谱中进行更有意义的推理。示例性句法提取如下:93.初始表示:(以eat)a“is_associated_with(与相关联)”(关系标签始终相同,通常为“is_associated_with”);94.表示判断:(以svo)a“上调”b(我们从中得出生物学方向性:从a到b,符号:正);95.添加背景:a“上调”b“在肝脏中”“在als患者中”。96.从文献中提取背景还可以包括:提取解剖位置,也可以作为生物容器背景,即组织、物种、细胞类型;实验细节:例如,测定类型(化合物效力发生在某种类型的测定中(例如,基于细胞));条件事件:例如特定蛋白质的激活,基因的突变;疾病:在als患者或健康患者中观察到这种交互;和基因状态修饰符:例如sod1的磷酸化。97.特别是,提取背景有助于学习给定关系的背景。此类关系及其实体可通过一个或多个第三方系统提取,第三方系统例如但不限于reach,一种用于自动化大规模机器读取和从生物医学论文中提取关系和实体的系统;基于规则的、开放域信息提供者(open domain informer,odin)等,此处提供的一个或多个ml模型;和/或其他第三方系统,例如但不限于openie(包括神经版本)、stanford corenlp、spacy等;和/或任何其他类型的合适系统,组合这些系统的混合系统;其组合;对其修改;如本文所述和/或根据应用要求。提取可以是事件驱动的,其中事件与某个背景的关系有关。事件可能是基因中的突变,因此在提取过程中可以根据背景推断存在突变时的蛋白质-蛋白质交互或药物-基因-突变交互。此外,通用语义角色标签的适应性改变可用于提供代表谓词(predicate)的基本参数(argument)的核心参数,其中附加参数表示谓词的普通属性,例如时间和位置。在提取背景时,这些附加参数通常包含背景信息。98.图1b为说明根据本发明的用于从与疾病选择信息或实体选择相关联的搜索结果识别感兴趣实体的实体映射110的示例的示意图。图中示出了多个确定的实体映射集。实体映射集可以包括以下的一个或多个映射:通过映射112的第一实体集111的蛋白质111a和药物111b;通过映射117的第二实体集114的蛋白质家族a 114a和蛋白质家族b 114b;通过映射115的蛋白质家族a 114a和蛋白质111a或通过映射116的蛋白质家族b 114b和药物111b;以及第一实体集111的蛋白质111a和第二实体集24的蛋白质家族a 114a之间的映射119。图结构118可以基于蛋白质家族a 114a和/或b 114b以形成蛋白质簇或图118,其中实体映射集的实体在适用时链接到图结构118的实体。此外,实体映射的实体(或映射的实体)通过与其的实体关系被确定为相关联的。第一实体集111的蛋白质111a和第二实体集的蛋白质家族a 114a以及与它们相关联的实体关系115可以一起形成交互实体对,其中一个实体(例如,蛋白质111a)对应于与图结构118的实体(例如,蛋白质家族a 114a)相同的实体类型。因此,交互实体对的另一个实体可以链接到图结构118的所述相同实体。类似地,第一实体集111的药物111b和第一实体集111的蛋白质111a以及与其相关联的实体关系112可以形成另一个交互实体对,其中一个实体(例如,药物111b)对应于与图结构118的实体的类型不同的实体类型(例如,药物实体类型)。但是,由于蛋白质111a与蛋白质家族a 114a形成交互实体对,而后可以推断药物实体111b可以链接到与图结构118的蛋白质家族a 114a对应的实体。因此,第一实体集111的交互实体对的药物实体111b可以链接到图结构118的对应实体。该过程可以针对第一和第二实体集111或114的实体以及图结构118的实体的所有映射119执行。99.在操作中,实体映射119用于将第一和第二实体集111或114的实体链接到图结构118。识别链接图结构118中感兴趣候选实体可以基于链接到图结构118的第一实体集的实体和链接到图结构118的第二实体集的那些实体之间的定位。来自第一和第二实体集的实体作为实体节点链接到图结构118。链接的位置可以基于实体与图结构118中对应于图结构118的本体、分层和/或分类实体家族的家族实体之间的预测的实体关联。当将来自第一和第二实体集的每个实体作为实体节点链接到图结构118时,可以考虑或基于所述每个实体与图结构118中对应于图结构118的本体、分层和/或分类实体家族的家族实体之间的已知关联。100.此外,当将来自第一和第二实体集的实体链接到图结构时,间接实体关联可以存在于所述实体与第一和第二实体集中与图结构的家族实体具有关联的至少一个其他实体之间。识别所述实体与图结构的所述实体之间的间接关联。该识别是基于在所述实体与第一或第二实体集中的另一个实体之间确定的实体关联,第一或第二实体集中的另一个实体与图结构的所述家族实体具有直接或间接关联。因此,该实体被链接到第一或第二实体集中的所述另一个实体。101.在一个示例中,感兴趣药物可以被识别为与感兴趣蛋白质家族的家族具有间接关联。这种间接关联可以基于药物与不同蛋白质家族之间确定的实体关联来识别,其中家族中的蛋白质表现出高度的同源性。102.在另一个示例中,药物可能与已知受体有直接关联,例如,通过药物作用模式。根据药物作用模式,可以基于第二种药物可用于减轻疾病症状的已知信息和受体与疾病相关的事实推断出第二种药物和受体的间接关联。103.在不同的示例中,在实体映射的链接实体对的定位之间穿过图结构的可能路径是基于本文描述的一个或多个ml模型来确定的。更具体地,ml模型被配置为使用本文所述的文本语料库从与疾病选择信息相关联的第一和第二实体集中预测交互实体对。然后可以将交互的实体对链接到图结构。104.图1c为说明根据本发明的用于从与疾病选择信息相关联的搜索结果中识别感兴趣候选实体的另一个示例性过程120的另一个流程图。该过程120可以包括以下步骤:在步骤121中,示例性过程120接收疾病选择信息。在步骤122中,示例性过程100使用一个或多个ml模型和疾病选择信息生成预测的第一交互实体集。ml模型被配置为基于疾病选择信息从文本语料库中预测交互实体对。在步骤123中,示例性过程120从存储介质检索已知与疾病选择信息相关联的第二实体集,该存储介质,例如但不限于数据库、内容源和/或知识库等。在步骤124中,基于与疾病选择信息相关联的实体家族和/或基于与第二实体集相关联的实体家族并将来自预测的第一交互实体集的一个或多个实体对链接到分层树或图结构的节点,示例性过程120生成分层树或图结构。105.在步骤125中,示例性过程120基于链接的实体对来识别感兴趣候选实体。识别感兴趣候选实体可以包括,例如但不限于,使用自动候选实体识别和/或半自动候选实体识别。自动和/或半自动候选实体识别可以基于但不限于对链接到相同、相近或遥远的家族实体节点的预测实体簇的簇识别,该节点链接到与已知实体簇。自动和/或半自动候选实体识别可以基于(例如但不限于)基于到链接到图结构的已知实体的最小、最大或平均距离对链接到图结构的每个预测实体进行排序。距离可以几何方式计算,例如但不限于,例如通过跨越或在图结构网络上的跳数和/或其他相似性度量,例如但不限于ml方法/技术和/或ml模型,该ml模型基于与感兴趣的候选实体和/或其他数据相关的用户反馈来训练,其他数据描述不同示例候选实体和/或图结构/网络内的点之间的相似性或差异。可替代地或附加地,自动和/或半自动候选实体识别可以包括和采用用于识别感兴趣的预测实体簇、识别已知实体簇和/或两者的混合物的社区检测算法,例如但不限于,combo、conclude、fast greedy、leading eigen、louvain或spinglass。预测实体组本身也可以根据它们到已知实体簇的最小或平均距离、或组成该组的已知实体的比例来排序。实体的排序列表(例如,感兴趣候选实体),或实体的排序组(例如,感兴趣的候选实体)可以在用户界面中呈现给用户。106.在操作中,接收到的疾病选择信息用于生成第一实体集和第二实体集。第一实体集可以通过接收从一个或多个机器学习、ml、模型或实体识别系统输出的预测实体集来生成,该一个或多个机器学习、ml、模型或实体识别系统被配置用于预测或识别与疾病选择信息相关联的实体。第二实体集可以通过从一个或多个内容源或知识库等接收已知与疾病选择信息相关联的实体集来生成,内容源包括代表已知与疾病选择信息相关联的实体的数据。从检索到的第一和第二实体集,可以基于与家族实体的本体、分层和/或分类相关联的实体家族或家族类型来生成图结构。该图结构包括多个实体家族节点,每个实体家族节点代表与该实体家族相关联的家族实体。107.基于第一实体集的预测实体之间、第二实体集的已知实体之间、第一和第二实体集的预测实体与已知实体之间、和/或在第一或第二集的预测或已知实体与图结构的家族实体之间的一个或多个实体映射来填充图结构。实体映射用于将与实体家族节点相关联的那些实体映射中的一个或多个实体链接到图结构。因此,基于链接到图结构的预测实体和已知实体之间的定位,从填充的图结构中识别出感兴趣的候选实体。108.在一个示例中,链接(linking)或链接(linkage)是基于与实体映射相关联的关系类别来确定的,其中关系类别可以是预测的或已知的。可以使用ml模型导出类别关系,其中这种模型基于规则集来预测连接。对于所有预测的实体对,可以在第一类型的第一实体与对应于第二类型的第二实体的图结构的节点之间形成连接。实际上,图结构上的实体基于生成的实体映射集链接到第二实体集。可以基于确定来自第一实体集的每个实体在图结构上相对于图结构上的第二实体集的一个或多个实体的位置来识别来自图结构上的第一实体集的那些链接实体的感兴趣候选实体。在已知蛋白质和预测基因的情况下,可以将已知蛋白质和/或预测基因映射到蛋白质家族。109.图1d为说明根据本发明的用于从与图1a到1c的疾病选择信息相关联的搜索结果识别感兴趣的候选实体的示例性过程130的流程图。在步骤132中,示例性过程从本体实体类型的第二实体集生成分层树结构。在步骤134中,示例性过程接收预测的实体对,每一对包括第一类型的第一实体和本体类型的第二实体。在步骤136中,对于所有预测实体对,将第一类型的第一实体链接到与第二类型的第二实体相对应的分层树的节点。在可选步骤138中,突出与分层树的节点具有未知关系的第一类型的那些实体。110.图1e为说明根据本发明的使用与参考图1a至1d描述的疾病选择信息相关联的搜索结果来识别图结构中的感兴趣候选实体的示例性候选识别过程140的流程图。候选识别过程140可以包括以下步骤:在步骤142中,从图结构中识别感兴趣候选实体,该图结构可以是分层树结构。在步骤144中,检测图结构(或分层树)中的候选实体簇。在步骤146中,显示使用叠加的候选实体簇。在步骤148中,基于检测到的簇的叠加来识别候选实体。111.在操作中,可以执行自动簇识别(通过簇识别引擎)以检测与链接到图结构的第一实体集的实体和第二实体集的实体相关的感兴趣候选实体的簇。自动簇识别是基于将链接的图结构输入到(例如但不限于)自动簇识别ml模型来执行的,该自动簇识别ml模型配置用于预测与感兴趣的候选实体相关联的链接图结构中的感兴趣位置或区域。检测到的候选实体簇指示用于识别可能的感兴趣候选的感兴趣候选实体簇。所指示的感兴趣候选实体簇可以显示为图结构上的叠加。更具体地,所指示的感兴趣候选实体簇将预测的感兴趣位置或区域显示为图结构上的叠加。这可以由用户或用于识别感兴趣候选实体的其他自动系统使用。112.可替代地或附加地,自动簇识别可以基于,例如但不限于,基于规则的系统,该系统基于代表规则集的数据对链接图结构进行操作,该规则集包括来自以下组的至少一个或多个规则:与定义与图结构的区域相对应的感兴趣区域相关联的规则,其中第一类型的实体链接到第二类型的实体,该第二类型的实体远离第一类型的其他实体;与定义与图结构的区域相对应的感兴趣区域相关联的规则,其中第一类型的实体链接到第二类型的实体,两者彼此或与图结构都具有预测的关联;与定义与图结构的区域相对应的感兴趣区域相关联的规则,其中预测第一类型实体与第二类型实体之间的关联;与定义与图结构的区域相对应的感兴趣区域相关联的规则,其中疾病与现有药物的已知治疗有足够远的距离;以及与定义与图结构的区域相对应的感兴趣区域相关联的规则,其中药物声称靶向的基因与该疾病的关联未知。113.在一个示例中,规则可能是疾病是否与现有药物/实体的已知治疗方法相距足够远,因此是前所未有的。规则的另一个示例可以评估声称靶向该疾病的药物/实体之间是否缺乏经典(直接)关联。一个或多个规则或规则集可用于识别潜在的感兴趣候选实体。114.在进一步的示例中,用于执行自动簇识别的规则集可以包括,例如但不限于,结合ml模型或其他合适的聚类技术的规则集中的一个或多个规则,其基于训练ml技术以在与感兴趣候选者相关的链接分层树结构中定位感兴趣区域。115.图2a为说明根据本发明的用于识别与实体/实体类型和/或疾病选择信息的选择相关的感兴趣候选实体的系统200的示例的示意图。系统200可用于实施用于识别感兴趣候选实体的过程、系统或装置的相应方面、特征和/或步骤(如参考图1a至1e和/或2b至7b所述)、其修改、其组合和/或本文所述。在该示例中,可以对感兴趣疾病201进行查询以生成疾病选择信息。从疾病选择信息产生预测的实体203和/或已知的实体205作为结果集。预测的结果集可以使用例如但不限于训练的关系模型202从预测的交互实体集导出。训练的关系模型202可以包括一个或多个ml模型,其接收与感兴趣疾病201相关联的疾病选择信息并处理文本语料库以识别和/或输出被预测为与疾病选择信息具有关联的实体的结果集。已知结果集可以从与疾病选择信息相关联的知识库204中检索或包括已知与疾病选择信息相关联的其他实体集。更重要的是,预测结果集的实体被进一步映射/链接206到已知结果集的实体,其中已知结果集可用于基于代表实体家族的图结构产生和显示拓扑图207。例如,代表实体家族的分层实体本体的分层树图/结构。反过来,图结构或分层树结构可用于帮助簇识别引擎和/或用户以图形方式/自动识别感兴趣簇208,以便识别先前未知与感兴趣疾病具有关联的感兴趣候选者209。116.具体来说,分层树/图结构是基于已知结果集以及预测集中的一个或多个实体对链接到分层树结构的节点生成的。从而基于链接的实体对来识别感兴趣候选实体。分层树结构可以是基于与家族实体的本体、分层和/或分类相关联的实体家族或家族类型的图结构。图结构可以包括多个实体家族节点,每个实体家族节点代表与实体家族相关联的家族实体。117.在一个示例中,对特定的感兴趣疾病进行查询以生成与该疾病相关的实体类型列表。实体类型可用于预测与疾病相关的蛋白质-药物对集。类似地,可以从与疾病相关的知识库中检索到已知蛋白质家族集。该蛋白质-药物对集被相应地映射到蛋白质家族,使得基于实体本体,该映射可以通过图结构(例如但不限于知识图)来可视化地描绘。知识图可以突出与以前未知的疾病相关联的新的感兴趣候选者。118.图2b为说明根据本发明的用于识别与实体选择信息(例如,疾病选择信息)相关联的感兴趣候选实体的另一示例系统210的另一示意图。系统210可用于实施用于识别感兴趣候选实体的过程、系统或装置的相应或类似的方面、特征和/或步骤(如参考图1a至1e和/或2b至7b所述),其修改、其组合和/或如本文所述。系统210包括实体选择模块212,其用于接收与实体类型相关联的实体选择信息(例如,与疾病实体类型相关的疾病选择信息)。实体选择模块212耦合到获取预测实体模块216,其被配置为输出预测为与实体选择信息相关联的实体集。实体选择模块212还耦合到获取已知实体模块218,其被配置为输出已知与实体选择信息相关联的实体集。获取预测实体模块216和获取已知实体模块218都耦合到实体映射模块222,用于生成预测实体集与已知实体集和/或与预测和/或已知实体集相关联的家族实体集之间的映射。119.获取预测实体模块216耦合到一个或多个推理ml模型或推理系统214,其被配置用于预测和/或提取实体以形成被预测为与实体选择信息相关联的第一实体集,该实体为与来自文本语料库(例如,与实体选择信息相关联的内容或文献数据库等,例如但不限于,pubmed、专利、文献和/或任何其他文本)的实体选择信息相关联的实体。例如,选择疾病的实体选择模块212可以接收搜索查询。获取预测实体模块216使用该疾病选择信息来预测,和/或从一个或多个ai/机器学习、ml、模型214或实体识别/提取系统214输出的实体集,配置用于从相关的文本语料库中预测或识别与疾病选择信息相关的实体。预测实体集(例如被预测为与实体选择信息相关联的第一实体集)被发送到实体映射模块222。120.获取已知实体模块216耦合到一个或多个知识库、数据库222a和/或来自一个或多个推理ml模型或推理系统220b,该推理ml模型或推理系统220b被配置为提取与实体选择信息相关联的已知实体,以形成已知与实体选择信息相关联的第二实体集。例如,选择疾病的实体选择模块212可以接收搜索查询。该疾病选择信息被获取已知实体模块218用于从知识库220a和/或推理ml模型220b等中检索与疾病选择信息相关联的已知实体集。已知实体集(例如,已知与实体选择信息相关联的第二实体集)被发送到实体映射模块222。121.实体映射模块222被配置为映射从获取预测实体模块216接收的预测实体集、从获取已知实体模块218接收的已知实体集、和/或与实体家族相关联的实体,实体家族可以是可表示为图结构的实体家族(例如,实体家族可以是分层、本体和/或分类实体家族)并且与预测和已知实体集相关联。例如,疾病选择信息可以是疾病。预测的实体可以包括蛋白质实体、药物实体、靶标实体和预测与疾病相关的任何其他实体。已知实体包括蛋白质实体、药物实体、靶标实体和已知与疾病相关的任何其他实体。实体家族可以被选择为基因实体家族和/或蛋白质实体家族,其与预测和/或已知实体集的实体相关联。基因/蛋白质实体家族是本体实体家族,因此可以用来形成静态图结构。实体映射模块可以确定与预测实体集、已知实体集和/或实体家族的实体有关的关系,并执行映射操作,其确定用于预测实体集的一个或多个实体与已知实体和/或实体家族的实体的映射集、已知实体集的一个或多个实体与预测的实体和/或实体家族的实体的映射集等。实体映射集用于将那些实体从预测实体集和已知实体集映射到实体家族的实体。122.拓扑叠加模块224接收实体映射集并生成拓扑图,其中实体家族形成静态图结构,在该结构上,可能具有到实体家族静态图结构的一个或多个实体的映射的来自预测和已知实体集的那些实体根据相应的映射链接到那些实体。与链接的预测和已知实体集相关联的实体节点在拓扑构造上重叠并显示为链接到静态图结构的相应家族实体。这可以向用户显示和/或由自动/半自动识别系统226使用或处理,该识别系统226被配置为从链接到静态图结构的预测实体集中识别感兴趣实体和/或感兴趣实体簇。自动/半自动识别系统226可以基于与候选实体等的识别相关联的过程/方法和/或步骤来实施,如本文参考图1a至2a和/或图3所描述的。拓扑叠加可用于识别/选择与实体选择信息等相关联的感兴趣候选实体。123.实体的自动识别模块226可以将识别的感兴趣候选实体的集或簇输出到候选选择模块228。候选选择模块228可以将识别出的感兴趣候选实体发送到拓扑叠加模块224,用于叠加和/或突出与图结构中识别的感兴趣候选实体相对应的实体。可替代地或附加地,候选选择模块228可以向用户发送或显示包括代表所识别的感兴趣候选实体的数据的列表数据集。可替代地或附加地,候选选择模块228可以在实体的区域中显示实体家族的子图,该实体的区域与链接到实体家族的实体的所识别的感兴趣候选实体相对应。124.特别地,感兴趣候选实体的簇可以从在图结构上显示的叠加或作为拓扑叠加来识别,这可以基于预测实体集的那些实体(例如,被预测为与实体选择信息相关联的第一实体集)以及已知实体集的那些实体(例如,已知与实体选择信息相关联的第二实体集)之间的定位来确定,预测实体集的那些实体链接到叠加中的图结构,已知实体集的那些实体链接到叠加中的图结构。例如,链接到图结构的预测实体集中的几个实体簇(其位于链接到图结构的已知实体集中的几个实体的簇附近),可以指示可能的感兴趣候选实体集。可替代地或附加地,候选实体簇可以基于将链接图结构输入到自动簇识别ml模型中,通过在自动识别模块226中执行自动簇识别来确定,该ml模型被配置用于预测与感兴趣候选者相关联的链接图结构中的感兴趣位置或区域。结果可以由用户确认并迭代反馈以更新ml模型和/或拓扑叠加。候选实体簇显示为拓扑叠加,以用于识别新的和先前的未知簇,以选择感兴趣候选实体。在更新自动簇识别和/或拓扑叠加的迭代过程期间,用户可以干预或与生成的且链接的图结构交互。125.在操作中,用于生成和更新拓扑叠加的自动簇识别ml模型基于训练ml技术以定位与感兴趣候选实体相关联的链接图结构中的感兴趣区域。可以使用带标签的训练数据集来完成训练,其中用于训练ml技术的标记训练数据集可以基于从与多个实体选择信息(例如,疾病选择信息)相关的多个搜索查询中导出的多个链接图结构中选择感兴趣的候选实体的一个或多个用户交互。以这种方式,可以生成自动簇识别系统,用于从链接图结构中识别感兴趣的候选实体。126.图3为说明根据本发明的用于从实体结果集识别感兴趣实体的过程中的图结构302的示例的示意图300,该实体结果集与疾病选择信息或实体选择信息相关,如参考图1a至2b所描述。图结构可以基于与第一和第二实体集相关联的实体家族的实体分层、本体或分类。例如,图结构可以基于,例如但不限于,拓扑图、分层树结构、和/或适合显示实体家族的任何其他类型的图结构。在该示例中,图结构302是从实体家族生成的拓扑图,该实体家族与来自预测实体结果集203和已知实体结果集205的映射206的本体实体相关联。该拓扑图结构302可以是分层树的形式,其表示与实体家族相关联的分层本体。拓扑图302可以如图3所示的预定义格式显示。在该示例中,拓扑图302以展开的格式示出。展开的格式可以帮助显示拓扑图302的节点之间的节点和边线(edge)。拓扑图302包括一个或多个实体家族节点,其中每个实体家族节点表示与实体家族相关联的家族实体或来自本体的广义实体。可替代地,可以使用诸如表格格式的视觉格式来显示拓扑图302。127.树/图302中的中心节点304是实体家族中最普通的实体,代表实体家族的实体子族(subfamily)的所有父节点306a/b/c/d/e和代表更具体的实体的其他子节点308a/b/c/d/e/f/g/h/i/j可以关联和/或链接到实体家族中最普通的实体。父节点306b代表广义实体或实体家族的子族或来自本体的广义实体。每个子节点308a/b/c/d/e/f/g/h/i/j可以表示其对应父节点306a/b/c/d/e的实体子族,或其对应父节点306a/b/c/d/e的更具体的实体,叶节点310a-310n表示与本体的实体家族/子族等相关联的单个/特定实体。128.在一个示例中,拓扑图302的节点可以表示基因/蛋白质家族。实体子族可以是膜受体,其链接到代表进一步子族的第一和第二子节点。第一子节点代表神经营养因子受体的子族,且第二子节点代表tnf受体的子族。每个子节点都链接到几个叶节点。例如,第一子节点链接到trk家族受体和ngfr叶节点,且第二子节点链接到白细胞介素(interleukin)受体和tnf族受体。129.图4为说明根据本发明的基于实体家族的图结构400的示例的示意图,该图结构400具有基于实体映射的叠加以及与疾病选择信息相关联的预测和已知实体结果集与表示为拓扑图的实体家族的链接,如参考图1a至3所描述。重复使用对图2a和/或2b的相同或相似组件的引用以进行说明和简化。在这个示例中,预测的实体结果集(例如,预测为与疾病选择信息相关联的第一实体集)和已知的实体结果集(例如,已知与疾病选择信息相关联的第二实体集)被映射并链接到表示为拓扑图或图结构400的实体家族的本体实体。图结构可以基于与第一和第二实体集相关联的实体家族的实体分层、本体或分类。在该示例中,图结构400基于,例如但不限于,与第一和第二实体集相关联的基因/蛋白质的实体本体。图400中的中心节点402是基因实体家族的最普通实体,父实体家族节点404a到404c代表基因实体家族的实体子族,叶实体节点406a-406g代表与基因实体家族本体中的基因实体家族/子族等相关联的单个/特定实体。130.在第一示例中,可以进行与执行特定类型实体的搜索相关的查询,例如与特定疾病410相关的药物/化学物质和/或蛋白质/靶标或与所选特定类型的实体家族相关的疾病选择信息,所选特定类型为,例如但不限于基因/蛋白质。尽管在该示例或本文中描述了疾病选择信息或疾病1,但这仅作为示例并且本发明不受此限制,本领域技术人员应当理解,可以针对任何实体、实体类型和/或实体选择信息进行查询,任何实体、实体类型和/或实体选择信息与感兴趣的或根据需要的实体、实体类型等相关联。如参考图2a或2b描述的和/或如本文描述的关系/推理模型202/214可以被配置为从文本语料库做出与疾病1或疾病选择信息相关联的实体的预测集203/216。例如,第一关系模型可以被配置为从文本语料库预测与疾病1或疾病选择信息相关联的药物实体集d1到d3 408a/b/c,其可以作为第一类型的实体的第一子集输出,第一类型的实体的第一子集预测与疾病1或疾病选择信息相关联。关系/推理模型202/214中的另一个可以被配置为从文本语料库进行另一组预测,预测的蛋白质目标实体t1和t2 406b和406g与疾病1或疾病选择信息相关联,其可以作为第二类型实体的第二子集输出,第二类型实体的第二子集预测为与疾病1或疾病选择信息相关联。预测实体的第一子集和第二子集具有不同的实体类型,例如,第一实体子集属于药物实体类型,且第二个实体子集属于蛋白质/基因靶标实体类型。实体的第一子集408a-408c(例如药物d1-d3)可以映射/链接到预测与它们(实体的第一子集408a-408c)相关联的相应的实体第二子集406g或406b(例如靶标/基因t1、t2等),以形成从药物到靶标的预测实体映射集的预测实体结果203/216。在这个示例中,预测的实体结果包括以下的预测实体映射:预测与靶标t1 606b相关的药物d1 608a;预测与靶标t1 606b相关的药物d2 608b;和预测与靶标t2 606g相关联的药物d3 606c。与预测实体结果集203/216的预测实体映射相关联的实体可用于填充拓扑图400;进而,链接和/或显示到对应叶节点,该叶节点与预测实体映射集的预测实体映射的至少一个实体相同。预测实体映射集用于利用药物实体来填充图400,该药物实体与特定基因/蛋白质靶标的相应叶节点相关联。131.例如,预测的第一实体映射:药物d1与靶标t1 406b相关联,其中实体t1 406b具有图400的基因实体家族的公共叶实体节点406b。这意味着根据该第一预测实体映射,药物实体d1 408a可以链接到图400的实体节点t1 406b。类似地,第二预测实体映射:药物d2 408b与靶标t1 406b相关联,其中实体t1 406b具有图400的基因实体家族的公共叶实体节点406b。这意味着根据该第二预测实体映射,药物实体d2 408b可以链接到图400的实体节点t1 406b。最后,第三预测实体映射:药物d3 408c与靶标t2 406g相关联,其中实体t2 406g具有图400的基因实体家族的公共叶实体节点406g。这意味着根据该第三预测实体映射,药物实体d3 408c可以链接到图400的实体节点t2 406g。这可以帮助簇识别引擎和/或用户识别感兴趣的候选实体。132.已知结果集205a/218是从与本体实体相关联的已知信息生成或获取的,本体实体来自知识库且与疾病有关,其中基础关联可以映射到图结构400中。已知实体结果集405b可以基于查询来生成或获取,该查询用于执行对与特定疾病1或疾病选择信息相关联的实体的搜索,用于搜索,例如但不限于已知与疾病选择信息相关联的知识库、可信存储库和/或第二实体集205a/218和205b/218的内容源。例如,可以从知识库中检索与疾病1或疾病选择信息相关的已知药物的第一子集。可以从知识库中检索与疾病1或疾病选择信息相关的已知靶标的第二子集。基于已知实体的第一子集和第二子集之间的已知关联,可以将已知实体的第一子集映射/链接到对应的已知实体的第二子集。在此示例中,已知实体结果包括以下实体映射:已知与靶标t3 406e相关联的药物d4 408d。已知实体结果集205a/218和205b/218的实体映射可用于填充拓扑图400;进而,链接和/或显示到对应的叶节点和/或父节点,对应叶节点和/或父节点与已知实体映射的至少一个实体相同。例如,已知实体映射205b/218:药物d4 408d与靶标t3 406e相关联,其中实体t3 406e具有图400的基因实体家族的公共叶实体节点406e。这意味着根据该已知的实体映射,药物实体d4 408d可以链接到图400的实体节点t3 406e。这可以帮助簇识别引擎和/或用户识别感兴趣的候选实体。133.可替代地或附加地,当从与疾病选择信息相关联的知识库检索已知结果集205a/218和205b/218时,预测结果集203/216的实体可以映射/链接到已知结果集的实体以产生一个或多个实体映射或实体映射集。实体映射可用于基于图结构或分层树结构来产生拓扑图400,图结构或分层树结构表示与预测和/或已知结果集相关联的实体家族的分层实体本体;并且进而,显示以帮助簇识别引擎和/或用户在识别(以前未知的)感兴趣候选者时以图形方式/自动识别感兴趣簇。134.链接的图结构400使用户/自动识别(簇)引擎能够了解链接到图结构400的预测实体在何处适合本体实体的分层。基于表示分层实体本体的分层树结构,已知和预测结果集205a、205b和203(或218和216)被显示在拓扑图400上的叠加中。总之,从与本体实体相关联的已知信息生成已知结果集205a/218,该已知信息与来自知识库的疾病相关,使得可以以分层方式映射关联。135.在此示例中,根据疾病1 410的已知事实,已知主要靶标t1 406b和t3 406e与疾病1相关。也可以检索疾病1的已知药物,并且已知药物d4 408d映射到靶标t3 406e。其他已知结果集也可以基于任何其他实体或实体对从与疾病相关联的已知信息生成,任何其他实体或实体对基于本体实体(例如,蛋白质/基因)和另一非本体实体(例如,药物/化合物)。已知和预测的实体结果集205a、205b和203(或218和216)可以显示为分层树结构(例如拓扑图)上的叠加,以便用户和/或自动识别引擎可以立即识别相关/不相关的实体簇并专注于感兴趣实体。从结果集中,多个叠加可以结合分层树使用。第一叠加可能与关系模型预测相关联,该关系模型预测与疾病(例如,分别与靶标t1、t1和t3相关联的药物d1、d2、d3)相关联。第二叠加可能是特定疾病(例如,已知与靶标t1和t3相关的疾病1)的已知事实。第三叠加可以显示关于实体与特定疾病或本体实体(例如,已知与特定疾病相关的靶标t3相关联的药物d4)的关联的其他已知事实。136.图5a为说明根据本发明的用于生成拓扑图结构501以用于识别感兴趣候选实体的图生成系统500的另一个示例的示意图。在该示例中,为简单起见,与在图2b的系统210所使用的相似或相同组件的附图标记被使用。假设实体选择信息已被选择与示例疾病1相关,其被提供到获取预测实体模块216和获取已知实体模块218。获取预测实体模块216使用一个或多个推理ml模型和/或基于规则的系统等来检索被预测为与疾病1相关联的预测实体集。在这种情况下,与疾病1相关联的预测实体集包括,例如但不限于,靶标1 502a、靶标2 502b等。预测实体集502中的每个预测实体可以包括代表置信度分数或排序的数据,该置信度分数或排序提供对预测实体与疾病1的关联的可靠程度的估计,即已知与疾病1关联的预测实体的置信度。这是由于使用文本语料库等的推理ml模型估计预测的实体与疾病1相关联。如果存在同一实体的多个实体被估计为与疾病1相关联,则可以对这些实体进行加权和组合以形成单个置信度分数,其包括表示给予与疾病1相关联的预测实体的置信度水平的数值的数据。例如,据说被预测与疾病1相关的预测靶标502a可以具有置信度分数0.5。据说被预测为与疾病1相关的预测目标502b可能具有置信度分数0.8。当在图结构501上显示已知实体的叠加时,可以使用这些置信度分数。每个预测实体的置信度分数可以指示与预测实体相关联的预测强度,该预测实体被预测为与实体选择信息(例如,疾病1)相关联。137.获取已知实体模块218使用一个或多个知识库、数据库、内容源、和/或推理ml模型、和/或基于规则的系统等来检索已知与疾病1相关联的已知实体集。在这种情况下,与疾病1相关联的已知实体集包括,例如但不限于,靶标1 503a、药物1 503b等。已知实体集503中的每个已知实体可以包括代表置信度分数或排序的数据,该置信度分数或排序指示已知实体广为人知程度的估计,即已知实体是已知的置信度。这可能是由于使用推理ml模型和/或从一个或多个知识库估计已知实体,其中可能存在与已知实体相关的矛盾关系,这些关系可能被加权等,以形成置信度分数,其包括代表给予已知实体的广为人知程度或置信度水平的数值的数据。例如,据说已知与疾病1相关的已知靶标503a可能具有置信度分数0.8。据说已知与疾病1相关的已知药物1的置信度分数可能为0.5。当在图结构501上显示已知实体的叠加时,可以使用这些置信度分数。每个已知实体的置信度分数可以指示确信的强度或对已知实体已知与实体选择信息(例如,疾病1)等相关联的知名度的度量和估计。138.预测和已知实体集502和503被发送到实体映射模块222。实体映射模块222还使用与预测和已知实体集502和503相关联的所选择的实体家族,其中该实体家族对应于能够被表示为如本文所述的图结构的分层、本体和/或分类实体家族。在这种情况下,实体家族可以是包括蛋白质实体p1、p2、p3等的蛋白质家族。尽管在本示例中使用了蛋白质家族,但这只是为了简单起见并且仅作为示例,并且本发明不受此限制,本领域技术人员应当理解,可以使用能够表示为图结构的任何其他类型的实体家族,和/或可以使用如本文所述的能够表示为图结构的实体类型,和/或根据应用的需要。实体映射模块222可以使用一个或多个ml模型和/或基于规则的系统来检索关系等,这些关系与预测和/或已知实体集502和/或503的每个实体以及实体家族504的实体相关。可替代地或附加地,模块216和/或218使用的ml推理模型和/或知识库也可以检索和包括预测和已知集502和/或503内的这种信息和/或关系。据此,实体映射模块222从预测和已知实体集502和503的那些实体确定实体映射集505,那些实体直接和/或间接映射到实体家族504的实体上。139.实体映射可以基于将预测实体集502与已知实体集503组合,然后基于这些映射生成图。该组合可以包括确定预测实体集502中的每个实体502a-502b等与之相关联的关系,确定已知实体集中的每个实体503a-503b等与之相关联的关系,和/或确定实体家族504的每个实体504a-504c等与之相关联的关系,并识别预测实体集的实体、已知实体集503的实体和/或实体家族504的实体之间的实体映射505。140.附加地或可替代地,实体映射505可以包括将预测实体集502中的每个实体映射到(如果有的话)已知实体集503的一个或多个实体,和/或实体家族504的一个或多个实体,构成图结构501。映射505可以基于确定在构成图结构的预测实体集502的每个所述实体、已知实体集503的每个实体和/或实体家族504的每个实体之间是否存在实体关系。如果在预测集502的实体和已知实体集503的实体之间存在映射,则将该实体映射存储在实体映射集中。如果在预测集502的实体和与图结构相关联的实体家族504的实体之间存在映射,则该实体映射也被存储在实体映射集中。如果已知集503的实体和与图结构相关联的实体家族504的实体之间存在映射,则该实体映射也存储在实体映射集中。实体集的每个实体映射可以包括代表第一实体、实体关系和第二实体的数据。每个实体映射还可以包括代表实体映射中的每个实体的指示的数据,所述实体集(预测的、已知的或实体家族)中的每个实体属于该实体映射。至少,来自实体映射中的预测实体集502的每个实体被指示为预测实体,并且来自实体映射中的已知实体集503的每个实体被指示为已知实体。因此,可以基于预测实体集、已知实体集和实体家族504的实体生成实体映射集。141.在该示例中,确定实体映射集505包括但不限于例如:预测的靶标2实体502b映射到蛋白质实体p2 504b或与蛋白质实体p2 504b相关;预测的靶标1实体502a映射到蛋白质实体p3 504c或与蛋白质实体p3 504c相关;已知药物1实体503b映射到蛋白质实体p1 504a或与蛋白质实体p1 504a相关等。当预测实体映射到已知实体或与已知实体相关,并且已知实体映射到实体家族的实体或与实体家族的实体相关时,可能会发生间接映射,这意味着预测实体映射到实体家族的实体或与实体家族的实体相关。此映射也包含在实体映射中。实体映射模块222然后将实体映射集和/或实体家族发送到拓扑绘图模块224。142.拓扑绘图模块224基于实体家族504生成图结构和/或检索静态图结构。图结构包括基于与实体家族504相关联的分层、本体和/或分类的链接在一起的多个实体节点504a-504c。每个实体节点504a-504c与实体家族504的一个实体相关联。在这种情况下,实体家族可能是蛋白质,因此实体节点基于蛋白质本体或与蛋白质家族内的蛋白质实体相关联的本体关系链接在一起。例如,蛋白质实体p1 504a是在蛋白质本体中比蛋白质实体p2 504b和p3 504c更高的父节点,蛋白质实体p2 504b和p3 504c是父蛋白质实体p1504a的子节点或叶节点。它们通过边线(用实线表示)链接在一起,形成一个带有根父节点(例如,节点p1 504a)的链接图结构和从根父节点下来的多个后代节点(例如,节点p2 504b和p3 504c)。然后使用实体映射集来确定预测实体集502中的哪些实体以及已知实体集503中的哪些实体能够与边线(例如,虚线)链接到基于实体家族504的图结构的一个或多个实体504a-504c。可以链接到实体家族504的实体的来自预测实体集502和已知实体集503的那些实体被叠加到实体家族的图结构501上,其中与预测和已知实体集502和503的实体相关联的实体节点通过边线链接到实体家族的实体。基于实体映射505将预测集502和已知集503的实体与实体家族504的实体链接可以包括将链接的预测和已知实体叠加在实体家族504的图结构501上。叠加可包括显示图结构501,其叠加与来自预测和已知实体集502和503的链接实体相关联。143.在该示例中,假设实体映射集505包括但不限于例如:预测的靶标2实体502b映射到蛋白质实体p2 504b或与蛋白质实体p2 504b相关;预测的靶标1实体502a映射到蛋白质实体p3 504c或与蛋白质实体p3 504c相关;已知药物1实体503b映射到蛋白质实体p1 504a或与蛋白质实体p1 504a相关等;然后,预测的靶标2实体节点502b被叠加并链接(通过虚线)到图结构501的蛋白质实体节点p2 504b,预测的靶标1实体节点502a被叠加并链接(通过虚线)到图结构501的蛋白质实体节点p3 504c,并且已知药物1实体节点503b被叠加并链接(通过虚线)到蛋白质实体节点p1 504a。从链接图结构501,与预测实体集502相关联的候选实体可以被识别为感兴趣的候选实体,例如但不限于,参考图2b的自动识别模块226所描述的,和/或如参考图1a至4和/或5b至7b的过程、方法、其步骤、和/或其系统所描述的参考识别感兴趣候选实体所述的,其组合、其修改和/或类似物。144.叠加和显示来自预测实体集502的那些预测实体可以在识别感兴趣的候选实体之前和/或当发现或识别来自预测集502的感兴趣候选实体时执行,在识别感兴趣的候选实体之后,这些可以被叠加和显示在图结构501上。如果链接到实体家族的实体的已知实体和预测实体中的每一个具有相关联的置信度分数,则当在图结构501上叠加这些预测和/或已知实体时,可以使用这些置信度分数来参数化实体节点,并相对于那些具有较低置信度分数的预测和已知实体,以图形方式加权或区分或突出那些具有高置信度分数的预测和已知实体。例如,链接到图结构501中实体家族的实体的预测和/或已知实体可以基于与来自预测和/或已知实体集502和/或503的每个实体相关联的置信度分数进行图形化加权。对预测和/或已知实体节点502a或503b进行图形加权可以包括基于它们对应的置信度分数对与这些实体节点相关联的尺寸、颜色、形状和其他元数据进行加权。145.当通过但不限于自动/半自动候选实体识别模块226和/或与识别感兴趣的候选实体相关联的过程、方法、步骤(如参考图1a至4和5b至7b等所描述的)执行候选实体识别时,也可以使用置信度分数。这些可以帮助以最大置信度识别那些感兴趣的候选实体。146.图5b为说明根据本发明的实体映射522的另一个示例的示意图510。在该图中,示出了在预测实体集518的实体、已知实体集520的实体和生成与疾病选择信息相关的图结构512的实体之间的实体映射集。可以实时或分别从相应的实体存储、已知存储514和预测存储516接收所预测和已知的实体。更具体地,实体映射集540包括预测实体集530的实体之间的实体映射、已知实体集532的实体之间的实体映射、第一实体集的实体与第二实体集534的实体之间的实体映射、预测实体集的实体与图结构536的家族实体之间的实体映射、以及已知实体集的实体与图结构538的家族实体528之间的实体映射。实际上,基于所生成的实体映射集和与之相关的底层实体关系,实体映射集将来自预测和已知实体集的实体链接到图结构。147.图6a为说明根据本发明的另一拓扑图600的示例的示意图,其中候选实体簇被叠加用于识别实体的感兴趣候选者。拓扑图600描绘了叠加并显示在与丝氨酸蛋白酶相关联的实体家族的拓扑图600上的感兴趣实体的簇(具有散列(hash)标记的实体节点),其表示为包括丝氨酸蛋白酶实体节点的多个实体家族节点(610、620、621、622、623、624、625),该节点表示为带有黑色轮廓的白色圆圈。丝氨酸蛋白酶实体节点:620、621、622、623、624和625是与中心节点610处的感兴趣的特定(丝氨酸)蛋白酶相关的子族/亚组实体节点。拓扑图的每个实体家族节点(610、620、621、622、623、624、625)是可能参与各种生物过程的丝氨酸蛋白酶家族的蛋白酶。例如,激肽释放酶(kallikreins)节点620(通常以调节血压等生理功能而得知)是实体家族节点620,其是与中心/根节点处的丝氨酸蛋白酶家族(s1a家族)610相关的丝氨酸蛋白酶亚组,它显示为基于丝氨酸蛋白酶实体家族的本体的实体对。类似地,丝氨酸蛋白酶的不同子族分布在拓扑图600的各个实体家族节点(620、621、622、623、624、625)上。不同家族的丝氨酸蛋白酶基于本体排列在拓扑图结构600中,其中更突出的关系相对于作为中心/根节点610的丝氨酸蛋白酶节点610的距离更近。该距离可以基于到每个感兴趣实体的最小或平均距离,其中距离是通过穿过拓扑图的跳数以几何方式计算的。148.特别地,丝氨酸蛋白酶s1a家族是切割肽键(蛋白水解)的内肽酶(endopeptidase),其中丝氨酸作为在活性位点处的亲核氨基酸。在图6a中,拓扑图600上指定的“丝氨酸蛋白酶s…”实体源于作为s1a家族的中心/根节点610的丝氨酸蛋白酶节点610,与类弹性蛋白酶(elastase-like)和丝氨酸蛋白酶6有关。例如,该组可以包括,例如但不限于特定基因成员:sp46、sp52、sp60、bdna:gh08420、sp90、sp151、ser4、sp137、jon25b、sp 112、jon65a、sp98、sp 171、jon66c、jonah 66c、ser99dc、jon99c、jon 99c6、jon99cc6、ser3和sp47。此外,其他成员如sp 154、sp 185和sp189可能与类凝乳蛋白酶(chymotrpsin-like)和类胰蛋白酶(trypsin-like)丝氨酸蛋白酶的组分组相关,其中该成员可以是s1a家族的特定成员或成员组。149.此外,图6a说明各种基因实体作为基因实体节点630、631、632、633和634的叠加,它们被表示为具有对角散列线的圆圈。通常,在与实体家族相关联的图结构上,叠加链接不同实体类型的预测和已知实体,由此叠加包括显示具有与所链接实体相关联的叠加的实体家族的图结构以便识别感兴趣的候选实体。在图6a中,基因实体包括编码相应的蛋白质的plg、cma1、plau、f2、klkb1、plat和pcsk9(例如,显示为散列圆圈),其被发现(例如,已知或预测实体)并映射到相应的丝氨酸蛋白酶子族实体节点,并链接到丝氨酸蛋白酶600的拓扑图结构。在这种情况下,基因实体包括plg、cma1、plau、f2、klkb1和plat,它们表示为与丝氨酸蛋白酶p节点624链接和相关的基因实体节点630、631、632、633、634和635。边线指示对应基因实体节点和丝氨酸蛋白酶实体624之间的关系。叠加至少提供了视觉提示,用于识别基因实体簇并因此识别感兴趣的候选实体。具体来说,考虑到用户反馈或描述图结构内不同示例点之间相似性或差异的其他数据,感兴趣候选实体的识别是通过根据与已知实体的最小或平均距离对预测实体进行排序来完成的,距离以几何方式通过穿过网络/图结构的跳数或其他相似性测量/方法计算。150.图6b为说明根据本发明的另一拓扑图650的示例的示意图,其中候选实体簇被叠加以用于识别感兴趣的候选实体。在该示例中,实体节点的家族实体集形成拓扑图650的静态图结构,由具有白色圆圈和黑色轮廓的节点表示,边线将表示家族实体集的分类、分层或本体链接在一起。映射到拓扑图650上的预测实体集(例如,第一实体集)由预测实体节点表示,这些预测实体节点表示为水平散列的节点,预测实体的实体节点和拓扑图的另一个家族节点之间的边线表示基于到拓扑图650的映射的预测实体和拓扑图的其他家族节点之间的关系。映射到拓扑图650的已知实体集由已知实体节点表示,这些节点表示为对角散列的节点,其中已知实体的实体节点和拓扑图650的另一个家族节点之间的边线表示基于到拓扑图650的映射的已知实体和拓扑图650的其他家族节点之间的关系。151.在拓扑图650的将预测和已知实体节点链接到拓扑图650的静态图的家族实体节点的部分中,预测和已知实体节点基于尺寸、颜色、阴影、散列和/或形状属性来表示以区分预测实体节点(实体)和已知实体节点,预测实体节点(实体)和已知实体节点分别位于第一(预测)或第二(已知)实体集中。也就是说,实体节点在尺寸、颜色、散列和/或形状属性方面以不同的方式表示,以强调构成拓扑图650的静态图部分的为家族实体的那些实体节点(例如,带有黑色圆圈的白色节点),映射到家族实体和/或预测实体的已知实体集的那些实体节点(例如,具有对角散列的节点),以及映射到家族实体和/或已知实体的预测实体集的那些实体节点(例如,具有水平散列的节点)。例如,实体节点的尺寸可以表示,仅作为示例但不限于,对应于预测实体集映射的已知实体集和/或实体家族集的那些实体节点(实体)的预测强度。预测强度可以被测量(例如但不限于)为提取或推断的多个预测或关系的集群,该多个预测或关系是相同的或被聚集以具有相同的含义。可替代地或附加地,预测强度可以基于(但不限于例如)预测关系的ml模型的置信度或置信度分数,因为可以使用多个ml模型从文本语料库推断和/或提取与预测实体集相关的关系。特别地,已知实体(具有对角散列线条的节点)和预测实体(具有水平散列线条的节点)与作为此处显示的拓扑图650的静态图结构的一部分(嵌入)的那些家族实体重叠或在叠加中表示。在叠加中有放大的节点,其尺寸取决于归因于来自ml模型的实体预测的预测强度和/或置信度分数等。在这种情况下,预测的基因实体sod1 664具有比预测实体rrm2 662、预测实体prmt1 663或预测实体nos2 664更高的预测强度/置信度分数,而已知实体ern1 660是已知实体。152.在一个示例中,预测强度/置信度分数可以基于可以从数据中预测的连接数量以及效果来评估。例如,预测强度/置信度分数可以取该簇中的观察对的比例的最小值,这些观察对也被分配到k测试簇中的同一簇。预测实体nos2 664可以基于与作为中心节点651的酶家族节点651的距离进一步与预测实体prmt1 663区分开来,这表明与其关系的接近程度。实体节点prmt1 663、ern1 660和nos2 664链接到该部分图650的中心节点(酶)651。中心节点可以在图之间或取决于所考虑的图哪个部分来变化,即在疾病选择信息与氧化还原酶相关的情况下,氧化还原酶652可以是中心节点。153.特别地,区分实体nos2 664与prmt1 663的距离(或相对距离)可以是例如最小或平均距离。最小或平均距离可以在酶651与nos2 664和prmt1 663(分别)之间进行几何计算。基于从预测实体节点到另一个实体节点穿过拓扑图650的跳数来评估距离。假设用户反馈或描述拓扑图中不同示例点之间的相似性或差异的其他数据的情况下,可以使用算法或经由本文描述的ml方法来测量距离。154.此外,节点还可以包括它们的关联元数据(可从其自身或从其他节点导出),这些元数据可能有助于预测强度,例如响应于图连通性变化的元数据。特别地,元数据可以与特定节点的连接器运算符相关联,连接器运算符可以对连接类型进行编码。元数据可以是与节点的输入和输出以及它们如何被链接或添加/更新到图结构上相关联的参数。155.图6c为示出根据本发明的又一拓扑图680的示例的示意图,其中候选实体的簇被叠加以用于识别感兴趣实体的候选。实体家族基于蛋白质家族,且预测和已知实体基于基因实体。部分图显示了基于与疾病选择信息相关的已知基因实体、与疾病选择信息相关的预测基因实体和/或与蛋白质实体家族相关的蛋白质实体家族实体/组/亚组之间的实体映射集生成的789个相关实体的完整图。与图680相关联的蛋白质实体家族的实体家族节点由具有黑色轮廓的白色节点表示。链接到实体家族图680的已知基因节点由具有对角散列的节点表示。链接到实体家族图680的预测基因节点由具有水平散列的节点表示。156.在该示例中,蛋白质实体图或拓扑图680叠加有4个已知基因(即ntrk1、musk、mmp2、lifr)和5个预测基因(app、fas、tspo、sigmar1、mmp9)。已知基因和预测基因被叠加到对应于41个节点的各种蛋白质家族上,这些节点与实体映射集下的各个蛋白质家族的蛋白质相关联。这些蛋白质家族通常包括g蛋白偶联受体(g-protein-coupled receptor,gpcr)691、肽受体692、膜受体693、酪氨酸蛋白694和金属蛋白酶695。另一方面,预测的和已知的基因被链接,以便允许以与链接的基因相关的叠加来显示图结构。所显示的图结构680本身是基于与本文呈现的已知和预测的基因组相关联的实体家族的实体分层、本体或分类而生成和更新的,在这种情况下实体家族是蛋白质实体家族。157.如本文参考图1a至6c和/或图7a至7b所述,一个或多个ml模型可用于预测第一实体集的实体和/或预测第二实体集的实体,第一实体集的实体被预测为与疾病选择信息和/或实体选择信息相关联,第二实体集的实体已知与疾病选择信息或实体选择信息相关联。例如,可以使用机器学习(ml)关系或推理模型,其中可以使用标记的训练数据集和/或规则集来训练ml关系/推理模型,以从一个或多个文本语料库确定与疾病选择信息相关联的实体或与疾病选择信息相关联的交互实体对,该文本语料库涉及如生物学、生物化学、化学、医学、化学信息学、生物信息学、药理学的领域以及与诊断、治疗和/或药物研发相关的任何其他领域。在这种情况下,ml关系/推理模型可以根据作为输入的疾病选择信息确定文本语料库的文本部分是否包括至少一个或一对交互实体。基于该确定,可以从文本语料库中检索实体和/或交互实体对以生成预测实体集作为输出。158.在疾病选择信息的一个示例中,可以是具有记忆丧失症状的阿尔茨海默默病(alzheimer’s)。考虑到疾病选择信息,ml关系模型预测一组与阿尔茨海默病相关的基因-蛋白质实体对,例如app-体对淀粉样肽,前提是ml模型通过标记的训练数据集和/或规则集进行训练,以确定与疾病选择信息相关的交互实体对。数据集和/或规则集可以基于描述网络/图结构内不同示例点之间的相似性或差异的数据集,这取决于用户反馈。可以基于到已知实体的最小或平均距离产生预测实体的排名,其中距离是通过穿过图结构的跳数以几何方式计算的。159.如本文参考图1a至6c和/或图7a至7b所述,一个或多个ml模型可用于从链接图结构中识别感兴趣的候选实体。例如,根据本发明的ml候选实体识别模型或自动簇识别ml模型可用于处理如本文所述的链接图结构以识别感兴趣的候选实体,其可叠加在图结构上和/或在图结构上向用户显示。通常,自动簇识别通过将感兴趣的候选实体的输入分离到感兴趣的候选实体簇中来识别感兴趣候选者。候选实体簇可以被显示(未示出)为实体家族的图结构上的叠加。特别地,候选实体识别或自动簇识别ml模型可以通过使用标记的训练数据集定位与感兴趣候选者相关联的链接图结构中的感兴趣区域,来预测与感兴趣候选者相关联的链接图结构中的感兴趣位置或感兴趣区域,其中,可以使用用于训练ml模型的所用的标记训练数据集,其基于从多个链接图结构中选择感兴趣的候选实体的一个或多个用户交互,所述多个链接图结构是从与多个疾病选择信息/实体选择信息相关的多个搜索查询或从与相对于感兴趣候选实体定位链接图结构中的感兴趣区域相关联的规则集中导出的。在一个受监督的示例中,候选实体识别或自动簇识别ml模型使用标记的训练数据集根据感兴趣候选者的k维输入来估计特定标签。该任务是通过使用与定位感兴趣区域相关联的规则集来完成的,该规则集能够预测新模式的标签。实际上,如果不对特定标签空间施加进一步约束,则可以相应地更新或调整规则集。候选实体识别或自动簇识别ml模型从而估计特定标签的感兴趣候选簇。在一个示例中,将拓扑图的实体被用作候选实体识别或自动簇识别ml模型的输入,其中应用k均值聚类将数据成员分配给k个簇或实体分组。基于分组,可以根据来自底层实体的簇的数量来识别感兴趣实体。160.其他社区检测算法可用于识别预测实体、已知实体或两者的簇,连同或代替本文描述的ml模型。作为示例,这些算法包括但不限于combo、conclude、fast greedy、leading eigen、louvain和spinglass。无论是使用一个或多个算法还是以其他方式使用一个或多个ml模型来对实体进行分组,对于该分组,可以根据它们到已知实体簇的最小或平均距离、或组成该组的已知实体的比例对分组进行进一步排序。因此,可以在用户界面上向用户呈现实体的排序列表或排序组,其中用户界面可以显示和/或识别用户感兴趣的区域。这种识别可以使用一种或多种算法或通过本文描述的一个或多个ml模型来实现。161.图7a为示出计算系统700的示意图,计算系统700包括耦合到通信网络710的计算设备、服务器和/或装置702,通信网络710可用于实施根据本发明的过程、系统、方法、ml模型等的一个或多个方面,和/或实施如参考图1a至6c和/或图7b所描述的过程、系统、方法和/或ml模型和设备等的一个或多个方面、其组合、其修改、文中描述的和/或根据应用需要。计算设备702包括一个或多个处理器单元(μ理)704、存储器单元706和通信接口(communication interface,ci)708,其中一个或多个处理器单元704连接到存储器单元706和通信接口708。通信接口708可以通过通信网络710将计算设备702与一个或多个数据库、文本语料库、和/或其他处理系统或计算设备/服务器连接。存储器单元706可以存储一个或多个程序指令、代码或组件(component),例如但不限于用于操作计算设备702的操作系统(operating system,os)706a和用于存储与实施功能(functionality)和/或一个或多个函数或功能相关的附加数据和/或其他程序指令、代码和/或组件的数据存储(data store,ds)706b,该一个或多个函数或功能与如本文所述和/或参照附图1a至7b中的至少一个描述的装置、模块、ml模型、系统、机制和/或系统/平台/架构的一个或多个方法和/过程相关联。162.本发明的其他方面可以包括一个或多个装置和/或设备,其包括通信接口、存储器单元和处理器单元,处理器单元连接到通信接口和存储器单元,其中处理器单元、存储单元和通信接口被配置为执行如本文参考图1a至7b中的任一个所描述的系统、装置、方法和/或过程、其修改和/或其组合。163.图7b为示出根据本发明的系统720的示意图。该系统可以包括查询模块或组件722,其用于接收疾病选择信息和/或实体选择等并相应形成查询;预测实体生成模块724,其用于基于查询生成预测实体的集或列表;已知实体获取模块726,其被配置用于基于查询检索已知实体的集或列表;图或拓扑图生成模块728,其被配置为生成代表与预测和已知实体集有关的实体家族相关联的图结构的数据,用于将预测和已知实体集映射到彼此且映射到实体家族等,用于将那些预测和已知的映射实体彼此链接和/或链接到家族图的实体;叠加模块730,其被配置为显示与来自链接到家族图等的预测和已知实体集的那些实体进行叠加的家族图,叠加模块可以基于预测置信度显示预测实体并将这些预测实体与链接到图的已知实体区分开,叠加模块可以基于来自识别模块732等的结果显示、和/或突出/区分识别出的感兴趣的候选实体;和识别模块732被配置用于基于预测实体相对于图中链接的已知实体的位置来识别感兴趣的候选实体,该识别可以基于自动和/或半自动候选识别算法,该候选识别算法基于识别可能包括感兴趣候选实体的链接到图的预测实体簇,感兴趣的候选实体;系统720和模块/组件722-732可以包括如本文所述或如参照图1a至7a所述的与本发明相关联的方法、过程和/或系统的功能、其组合、其修改和/或根据应用需求等。164.系统720可以包括用户界面,其配置为接收代表诸如疾病选择信息或实体选择等查询的数据;候选实体识别装置,其连接到用于接收基于疾病选择信息/实体选择的查询的用户界面,其中候选实体识别装置生成预测实体并检索与接收到的疾病选择信息相关联的已知实体。预测实体和已知实体被映射并链接到图结构,图结构基于与预测和/或已知实体相关联的实体家族。系统720还可以包括显示界面,其被配置为显示链接图结构,其中感兴趣的候选实体和已识别的感兴趣候选实体的指示被突出或叠加在图结构上。在一个示例中,用户界面可以是图形用户界面(graphic user interface,gui)或要在目标显示背景中显示的应用程序。基于gui的显示背景和输入参数的gui的多个元素可以根据与各个元素相关联的优先级度量来评估。在另一示例中,显示界面可以是液晶显示器,其利用液晶与偏光片组合的光调制特性。165.本发明的其他方面可以包括一个或多个装置和/或设备,其包括通信接口、存储器单元和处理器单元,处理器单元连接到通信接口和存储器单元,其中处理器单元、存储单元、通信接口被配置为执行系统、装置、方法和/或过程;其修改;其组合;如本文所述;和/或如参考图1a至9b所述。166.在上述实施例中,方法、装置、系统和/或计算系统/设备可以由服务器实施,该服务器可以包括单个服务器或服务器网络。在一些示例中,服务器的功能可以由分布在地理区域上的服务器网络(例如全球分布的网络)提供。本发明的其他方面可以包括一个或多个装置和/或设备,其包括通信接口、存储器单元和处理器单元,处理器单元连接到通信接口和存储器单元,其中处理器单元、存储单元、通信接口被配置为执行系统、装置、方法和/或过程;其修改;其组合;如本文所述;和/或如参考图1a至7b所述。167.在上述实施例中,方法、装置、系统和/或计算系统/设备可以由服务器实现,该服务器可以包括单个服务器或服务器网络。在一些示例中,服务器的功能可以由分布在地理区域的服务器网络提供,例如全球分布式服务器网络,并且用户可以基于用户位置连接到服务器网络中的适当一个服务器。168.为了清楚起见,以上描述参考单个用户论述本发明的实施例。应当理解,实际上系统可以由多个用户共享,并且可能同时由非常大量的用户共享。169.上述实施例是全自动或半自动的。在一些示例中,系统的用户或操作者可以手动地指示待执行的方法的一些步骤。170.在本发明描述的实施例中,系统可以被实现为任何形式的计算和/或电子设备。这样的设备可以包括一个或多个处理器,其可以是微处理器、控制器或任何其他合适类型的处理器,用于处理计算机可执行指令以控制设备的操作以便收集和记录路由信息。在一些示例中,例如在使用片上系统架构的情况下,处理器可以包括一个或多个固定功能块(也称为加速器),其以硬件(而不是软件或固件)实现方法的一部分。可以在基于计算的设备处提供包括操作系统的平台软件或任何其他合适的平台软件,以使应用软件能够在设备上执行。171.本文描述的各种功能可以用硬件、软件或其任何组合来实现。如果以软件实现,则这些功能可以作为一个或多个指令或代码在计算机可读介质上存储或传输。计算机可读介质可以包括,例如计算机可读存储介质。计算机可读存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实施的易失性或非易失性、可移动或不可移动介质。计算机可读存储介质可以是计算机可以访问的任何可用存储介质。作为示例而非限制,此类计算机可读存储介质可包括ram、rom、eeprom、闪存或其他存储设备、cd-rom或其他光盘存储、磁盘存储或其他磁存储设备,或任何可用于携带或存储指令或数据结构形式的所需程序代码并可由计算机访问的其他介质。如本文所使用的盘(disc)和盘(disk)包括压缩盘(compact disc,cd)、激光盘、光盘、数字通用盘(dvd)、软盘和蓝光盘(bd)。此外,传播的信号不包括在计算机可读存储介质的范围内。计算机可读介质还包括通信介质,其包括促进计算机程序从一个地方到另一个地方的传输的任何介质。例如,连接可以是通信介质。例如,如果软件使用同轴电缆、光纤电缆、双绞线、dsl或无线技术(如红外线、无线电和微波)从网站、服务器或其他远程源传输,则包含在通信介质的定义中。上述的组合也应包括在计算机可读介质的范围内。172.可替代地或另外,本文描述的功能可以至少部分地由一个或多个硬件逻辑组件来执行。例如但不限于,可以使用的硬件逻辑组件可以包括现场可编程门阵列(field-programmable gate array,fpga)、应用程序专用集成电路(application program-specific integrated circuit,asic)、应用程序专用标准产品(application program-specific standard product,assp)、系统单芯片系统(system-on-a-chip system,soc)、复杂可编程逻辑器件(complex programmable logic device,cpld)等。173.尽管以单个装置或系统进行说明,但应理解计算设备或系统可以是分布式系统或分布式系统的一部分。因此,例如,若干设备可以通过网络连接进行通信并且可以共同执行描述为由计算设备执行的任务。174.尽管以本地设备进行说明,但是将理解,计算设备可以位于远程并且通过网络或其他通信链路(例如,使用通信接口)访问。此外,如本文所述的系统、装置和/或方法可以远程分布或定位并通过网络或其他通信链路(例如,使用通信接口)访问。175.文中使用的术语“计算机”指代任何具有处理能力以使其可以执行指令的设备。本领域技术人员将认识到,这种处理能力被结合到许多不同的设备中,因此术语“计算机”包括pc、服务器、移动电话、个人数字助理和许多其他设备。176.本领域技术人员将意识到用于存储程序指令的存储设备可以分布在网络上。例如,远程计算机可以存储描述为软件的过程的示例。本地或终端计算机可以访问远程计算机并下载部分或全部软件来运行程序。可替代地,本地计算机可以根据需要下载软件片段,或者在本地终端执行一些软件指令,在远程计算机(或计算机网络)执行一些软件指令。本领域技术人员还将认识到,通过利用本领域技术人员已知的常规技术,所有或部分软件指令可以由专用电路(例如dsp、可编程逻辑阵列等)执行。177.应当理解,上述优势和优点可以涉及一个实施例或可以涉及几个实施例。实施例不限于解决任何或所有所述问题的实施例或具有任何或所有所述优势和优点的实施例。变型应被认为包括在本发明的范围内。178.任何提及“一(an)”项目指这些项目中的一个或多个。术语“包括”在本文中用于表示包括所识别的方法步骤或元素,但是这样的步骤或元素不包括排他性列表,并且方法或装置可以包含额外的步骤或元素。179.如本文所用,术语“模块(module)”、“组件(component)”和/或“系统(system)”旨在涵盖配置有计算机可执行指令的计算机可读数据存储,该计算机可执行指令在由处理器执行时导致执行某些功能。计算机可执行指令可以包括例程、函数等。还应理解,模块、组件和/或系统可以位于单个设备上或分布在多个设备上。180.此外,如本文所用,术语“示例性”旨在表示“用作某事物的说明或示例”。181.此外,在详细描述或权利要求中使用的术语“包括(include)”的范围内,该术语旨在以类似于术语“包括(comprising)”的方式具有包容性,因为“包括(comprising)”在权利要求中用作过渡词进行解释。182.附图示出了示例性方法。虽然这些方法被显示和描述为以特定顺序执行的一系列动作,但是应该明白和理解,这些方法不受序列顺序的限制。例如,一些动作可以以与本文描述的顺序不同的顺序发生。此外,一个动作可以与另一个动作同时发生。此外,在一些情况下,可能不需要所有动作来实施本文描述的方法。183.此外,本文描述的动作可以包括可以由一个或多个处理器实施和/或存储在一个或多个计算机可读介质上的计算机可执行指令。计算机可执行指令可以包括例程、子例程、程序、执行线程等。更进一步,方法的动作结果可以存储在计算机可读介质中、显示在显示设备上等。184.本文所述方法的步骤顺序是示例性的,但是这些步骤可以以任何合适的顺序进行,或者在合适的情况下同时进行。此外,在不脱离本文所述主题的范围的情况下,可以添加或替换步骤,或者可以从任何方法中删除单个步骤。上述任何示例的方面可以与所描述的任何其他示例的方面组合以形成进一步的示例,而不会失去所寻求的效果。185.应当理解,优选实施例的上述描述仅作为示例给出,并且本领域技术人员可以进行各种修改。上述内容包括一个或多个实施例的示例。当然,出于描述上述方面的目的,不可能描述上述设备或方法的每一种可能的修改和改变,但是本领域普通技术人员可以认识到各个方面的许多进一步的修改和排列是可能的。因此,所描述的方面旨在涵盖落入所附权利要求的范围内的所有这样的改变、修改和变化。尽管以上已经以一定程度的特殊性或参考一个或多个单独的实施例描述了各种实施例,但是本领域的技术人员可以在不脱离本发明的精神或范围的情况下对所公开的实施例进行多种改变。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部