发布信息

基因选择方法以及装置

作者:admin      2022-11-02 06:36:30     507



医药医疗技术的改进;医疗器械制造及应用技术1.本发明利用基因组序列数据和通过对于多种转录组的新一代碱基序列分析累积的数据。2.本发明利用所积累的数据来预测基于在作物的进化过程中产生的基因组重复的基因之间的功能重复性。3.本发明涉及选择所预测的有效基因的方法以及装置。背景技术:::4.近来,出现了利用基因剪刀来将目标基因准确定为靶标的基因组编辑技术,并在多种领域中得到应用。5.但是,对于植物而言,在大部分进化过程中广泛产生基因组水平的复制。6.由于这种原因,序列相似的基因之间呈现出高功能重复性。7.因此,在采用仅将目标基因准确确定为靶标的基因编辑技术的情况下,有可能在表型的确认方面存在困难。8.因此,对于植物这样的在序列相似的基因之间呈现出高功能重复性的对象而言,需要可有效选择基因的方法。技术实现要素:9.技术问题10.本发明的目的在于,提供对于在序列相似的基因之间呈现出高功能重复性的对象选择基因的方法以及装置。11.技术方案12.本发明公开一种基因选择方法。13.为此,本发明包括:获取步骤,基于与对象的多个基因相关的蛋白质序列,获取系统发生树图以及基因的表达量数据;相关关系确定步骤,随着以查询输入的特定基因包含于在上述系统发生树图中共享同域的多个基因,对上述特定基因与上述系统发生树图内的多个基因分别比较相互之间的表达模式,来确定相关关系;靶基因确定步骤,基于对上述特定基因所确定的相关关系,在上述对象的多个基因中确定功能与上述特定基因重复的靶基因;以及提供步骤,提供与所确定的上述靶基因相关的信息。14.发明的效果15.本发明的基因选择方法可基于对基因组和转录组的新一代碱基序列分析结果来有效选择功能相似的基因。16.本发明可通过以可视化的方式提供选择结果的用户界面(ui,userinterface)来在基因选择方面向使用人员提供便利。17.本发明的基因选择技术可利用作为大量生产以及储存的作物模型的水稻的染色体组序列信息和转录组信息来更准确地预测功能重复性。18.本发明可选择用于基因编辑的单靶基因或多靶基因,可划时代地促进相关的农艺性状研究。附图说明19.图1为用于说明基因选择方法的流程图。20.图2为用于更加具体说明基因选择方法的流程图。21.图3为用于说明为了进行基因选择而提供的用户界面的图。22.图4为示出对于以查询输入的特定基因采用基因选择方法后获取的结果方面的系统学热点图的图。23.图5为用于说明基因选择装置的框图。具体实施方式24.以下,参照附图详细说明本发明。25.图1为用于说明基因选择方法的流程图。26.本公开的基因选择方法可适用于多种对象,但在本实施例中,将以水稻作为对象的一例来进行说明。27.在步骤s110中,基因选择装置可基于与对象的多个基因相关的蛋白质序列来获取系统发生树图以及基因的表达量数据。28.基因选择装置利用从pfam数据库提供的基因组的蛋白质域信息来判断染色体组上是否存在详细的基因。29.之后,可利用作为水稻的代表性基因组序列信息的水稻基因组注释计划(ricegenomeannotationproject)的msu7型的蛋白质序列来制作系统发生树图。30.并且,基因选择装置将在msu7型水稻基因组排列与水稻的多个组织相关的转录组序列分析数据。31.因此,可按照各个组织生成基因的表达量信息。32.基因选择装置可对所生成的各个组织的基因的表达量信息执行标准化。33.基因选择装置能够以符合以查询输入的水稻基因的方式对系统发生树图和标准化的各个组织的基因的表达量信息进行组合。34.基因选择装置能够以查询接收与特定基因相关的识别信息。35.例如,作为用于基因编辑的水稻基因的识别信息,基因选择装置可获取基因座位点号(locusid)。36.在此情况下,基因座位点号(locusid)可基于在图3中的后述的用户界面(ui)上的基因识别输入项上使用人员所输入的值为基础来获取。37.只是,这仅属于一例,基因选择装置以查询来接收对于特定基因的识别信息的方法并不限定于所述的例。38.另一方面,可在系统发生树图和基因的表达量信息的组合方面利用python语言和etetoolkit。39.在步骤s120中,基因选择装置使得以查询输入的特定基因包含于在系统发生树图中共享同域的多个基因。40.因此,可通过对特定基因与系统发生树图内的多个基因分别比较相互之间的表达模式来确定相关关系。41.基因选择装置可基于系统发生树图来识别与特定基因共享同域的多个基因。42.基因选择装置可通过分别对所识别的多个基因与特定基因之间的表达值的模式来获取相关系数。43.在此情况下,相关系数可利用皮尔逊相关系数(pcc,pearsoncorrelationcoefficient)值。44.在步骤s130中,基因选择装置可基于对特定基因所确定的相关关系来在对象的多个基因中确定靶基因。45.基因选择装置可将在上述步骤s120中确定的多个相关值中的其值达到阈值以上的至少一个基因确定为靶基因。46.在此情况下,阈值基于以查询输入特定基因之前计算的对于其他输入基因的各自的相关关系的信息来确定。47.只是,阈值还可根据使用人员的输入来确定。48.在步骤s140中,基因选择装置可提供与所确定的靶基因相关的信息。49.基因选择装置可在用户界面(ui)上显示靶基因的识别信息以及靶基因与以查询输入的特定基因之间的相关值。50.并且,基因选择装置还可将相关值处于阈值范围内的多个基因和各自的相关值一同显示在用户界面(ui)上。51.图2为用于更加具体说明基因选择方法的流程图。52.参照图2,可为了进行基因选择而执行系统学数据处理步骤(210)以及转录组数据处理步骤(220)。53.以下,具体说明系统学数据处理步骤(210)以及转录组数据处理步骤(220)。54.首先,作为对象的基因数据,基因选择装置可从pfam数据库获取对于msu7型的多个基因的蛋白质序列。55.在系统学数据处理步骤(210)中的步骤212中,基因选择装置可对所获取的多个蛋白质序列中的多个代表蛋白质序列执行再注释(re-annotation)。56.在执行再注释之后,基因选择装置可在步骤214中对所有pfam域生成fasta文件。57.在步骤216中,基因选择装置对所生成的多个fasta文件的多个序列进行排列,在步骤218中,可基于所排列的多个序列来获取系统发生树图。58.基因选择装置可通过对近似极大似然树(approximatemaximumlikelihoodtree)进行多次自举法(bootstrapping)来获取系统发生树图。59.例如,在对55801个msu7基因的蛋白质序列采用100次的用于生成近似极大似然树的自举法的结果,以pfam域为基准,可获取3965个系统发生树图。60.并且,在转录组数据处理步骤(220)中的步骤222中,基因选择装置可整合对于msu7型的多个基因的各个组织的核糖核酸(rna)序列数据。61.在步骤224中,基因选择装置将向整合后的核糖核酸序列数据执行质量控制。62.而且,可将其映射于msu7型水稻标准染色体组。63.在步骤226中,基因选择装置可从将核糖核酸(rna)序列数据映射于msu7水稻标准染色体组的结果计算表达值。64.而且,在步骤228中,可对所计算的表达值执行标准化。65.基因选择装置可通过组合系统发生树图和标准化后的表达值来执行用于对功能与以查询接收的特定基因重复的基因进行选择的冗余数字化步骤(redundancydigitizingprocess,230)。66.在步骤232中,基因选择装置可生成由在系统学数据处理步骤(210)中所生成的3965个系统发生树图共享同域的多个基因构成的系统学热点图。67.并且,在步骤234中,基因选择装置可在所生成的热点图选择以查询接收的特定基因本身和特定基因的多个姐妹节点。68.在步骤236中,基因选择装置可计算对于多个姐妹节点的皮尔逊相关系数(pcc)值。69.基因选择装置对与多个姐妹节点相关的各个皮尔逊相关系数(pcc)值和阈值进行比较。70.由此,可选择功能与以查询接收的特定基因重复的基因。71.基因选择装置可在用户界面上显示分别与多个姐妹节点相关的多个皮尔逊相关系数(pcc)值以及与所选择的多个基因相关的信息。72.对此,将参照图3来在后述内容中进行更具体的说明。73.基因选择方法可通过网络工具来向使用人员提供如上所述的一系列步骤。74.并且,基因选择装置将在不存在与以查询输入的特定基因相似的基因组的情况、虽存在基因组但具备独立系统的情况以及存在基因组且属于相同的系统树但具备独立的表达模式的情况下将其确定为单一基因编辑的靶标。75.而且,对于存在相似的基因组且在相同的系统树中具备相似表达模式的基因,可将这些同时确定为基因编辑的靶标。76.由此,与因未考虑功能的相似性而难以选择基因的现有的基因编辑研究不同,基因选择方法可使得作物的表型的获取变得容易。77.图3为用于说明为了进行基因选择而提供的用户界面(ui)(300)的图。78.可在为了进行基因选择而提供的用户界面(ui)(300)提供系统学热点图或提供用于基因选择的数据组所需的超级链接信息(310)。79.并且,用户界面(ui)(300)上可包含能够解释系统学热点图的说明信息(320)。80.例如,可包含与表示功能相似度的彩色图的值相关的信息。81.并且,可在用户界面(ui)(300)上显示搜索窗口(330),以便能够输入要以查询输入的基因的识别信息。82.使用人员可向搜索窗口(330)输入所关注的特定基因的识别信息,可通过点击提交按钮来请求对于功能与特定基因重复的多个基因的选择。83.根据使用人员的基因选择请求,可在用户界面(ui)(300)上显示用于提供整个系统学热点图的第一面板(340)以及用于提供功能相似的多个基因的系统学热点图的第二面板(350)。84.可在系统学热点图显示呈现出与以查询输入的特定基因之间的表达值相似度的皮尔逊相关系数(pcc)值。85.而且,可按特定区间使用不同颜色来显示皮尔逊相关系数(pcc)值,以便能够直观识别相似度。86.图4为示出对于以查询输入的特定基因采用基因选择方法后获取的结果方面的系统学热点图的图。87.参照图4,基因选择装置对以查询输入的特定基因执行基因选择的结果,可将在不存在相似基因组的情况(nopfaminformation)、虽存在相似基因组但具备独立表达模式的情况(functionaldominant)、虽存在相似基因组但独立分化的情况(uniqueclade)下的多个基因确定为单一基因编辑的靶标。88.并且,基因选择装置可将存在相似的基因组且在相同的系统树中具备相似的表达模式的多个基因(functionalredundant)全部确定为基因编辑的靶标。89.在此情况下,作为用于确定具备相似的表达模式的多个基因的基准,将利用皮尔逊相关系数值,皮尔逊相关系数(pcc)值越接近1,表示表达特性越相似,皮尔逊相关系数(pcc)值为负值或越接近0,表示没有表达特性的相似度。90.另一方面,可通过对皮尔逊相关系数(pcc)值和预设的阈值进行比较来判断是否确定为基因编辑的靶标。91.例如,在阈值为0.7的情况下,将相同的系统树中的皮尔逊相关系数(pcc)值达到0.7以上的多个基因判断为存在功能重复性,从而确定为多重基因编辑的靶标。92.在此情况下,阈值可基于实验性地获取的数据来预设。例如,阈值可基于以查询输入特定基因之前计算的对于其他输入基因的各自的相关关系的计算结果来确定。93.根据其他例,阈值还可根据使用人员的输入来确定。94.可在网络上通过用户界面(ui)向使用人员提供基因选择方法。95.由此,使用人员可通过几次点击来轻松得到功能与使用人员所希望的特定基因重复的基因相关的信息。96.图5为用于说明基因选择装置(500)的框图。97.基因选择装置(500)可包括输入部(510)、显示器(520)、处理器(530)以及存储器(540)。98.处理器(530)可根据所提出的上述基因选择方法来做操作。99.只是,基因选择装置(500)的结构要素并不限定于之前所述的例。100.根据其他实施例,基因选择装置(500)可包括比前述的结构要素更多的结构要素或可包括更少的结构要素。101.输入部(510)可获取与以查询输入的特定基因相关的信息。102.输入部(510)可成为供使用人员输入与特定基因相关的识别信息的输入单元。103.并且,为了请求对功能与特定基因重复的基因进行选择,输入部(510)还可接收触发在网络上提供的用户界面的各个功能的使用人员的输入。104.显示器(520)可显示用于执行基因选择功能的用户界面(ui)。105.可在显示器(520)显示参照图3说明的用户界面(ui)。106.并且,作为基因选择结果,显示器(520)可显示是否存在功能与特定基因重复的基因以及在存在功能重复的基因的情况下的与之相关的识别信息以及相关值。107.处理器(530)可基于与对象的多个基因相关的蛋白质序列来获取系统发生树图以及基因的表达量数据。108.处理器(530)可对对象的基因的代表蛋白质序列执行注释(annotation),可基于注释的执行结果,来在pfam域生成多个fasta文件。109.处理器(530)可通过所生成的多个fasta文件的序列排列来获取系统发生树图。110.并且,处理器(530)可通过在对象的基因组排列与对象的多个组织相关的转录组序列分析数据来生成各个组织的基因的表达量信息。111.处理器(530)可通过对所生成的各个组织的基因的表达量信息执行标准化来获取包含基因表达值的基因数据。112.处理器(530)使得以查询输入的特定基因包含于在系统发生树图中共享同域的多个基因。113.由此,可通过对特定基因与系统发生树图内的多个基因分别比较相互之间的表达模式来确定相关关系。114.处理器(530)可基于对特定基因所确定的相关关系来在对象的多个基因中确定靶基因。115.处理器(530)可提供与所确定的靶基因相关的信息。116.存储器(540)可存储处理器(530)判断是否存在功能与特定基因重复的靶基因所需的信息。117.存储器(540)可存储基于与对象的多个基因相关的蛋白质序列获取的系统发生树图以及基因的表达量数据。118.本发明的装置可包括:处理器;存储器,用于存储以及运行程序数据;永久性存储部(permanentstorage),例如磁盘驱动器;通信端口,用于与外部装置进行通信;以及使用人员界面装置,例如触控板、按键(key)、按钮等。119.以软件模块或算法体现的方法能够以可在上述处理器上运行的计算机可读代码或程序指令的方式存储于计算机可读记录介质。120.其中,计算机可读记录介质有磁存储介质(例如,只读存储器(rom,read-onlymemory)、随机存取存储器(ram,random-accessmemory)、软盘、硬盘等)以及光学存储介质(例如,只读光盘存储器(cd-rom)、数字多功能光盘(dvd:digitalversatiledisc))等。121.计算机可读记录介质可分散在通过网络连接的多个计算机系统来以分散方式存储及运行计算机可读代码。122.介质可由计算机读取,将存储于存储器,可在处理器中执行。123.本发明可通过多个功能块结构以及多种处理步骤来呈现。124.这种多个功能块可由执行多个特定功能的多种数量方式的硬件和/或软件的搭配来体现。125.本发明可采用可通过一个以上的微处理器的控制或其他控制装置执行多种功能的存储器、处理、逻辑(logic)、查找表(look-uptable)等的集成电路结构。126.与本发明中的多个结构要素通过软件编程或软件要素呈现相似,本发明可由c语言、c++语言、java、汇编程序(assembler)等编程语言或脚本语言来实现,涉及数据结构、多个程序、多个例程或由其他多个编程结构的组合实现的多种算法。127.功能方面可由在一个以上的处理器运行的算法来体现。并且,为了执行电子环境设置、信号处理和/或数据处理等,本发明可采用现有技术。“机制”、“要素”、“单元”、“结构”等术语在使用方面取广义,并不限定于机械性、物理性结构。上述术语可包含与处理器等有关联的软件的一系列程序(routines)的含义。128.在本发明中说明的特定实施方式为一实施例,并不以任何种类的方法来限定本发明的范围。129.为了简化说明书,与多个现有电子结构、多个控制系统、软件、多个上述系统的其他功能相关的记载可被省略。130.并且,附图中所示的多个结构要素之间的线的连接或连接部件属于功能性连接和/或物理性连接或电路连接的例示,在实际装置中,可被代替或可由追加性的多种功能性连接、物理性连接或电路连接等来实现。131.并且,如若不像“必要”、“重要”这样没有具体提及,则有可能不是实施本发明的过程中必要的结构要素。132.在本发明的说明书(尤其,发明要求保护范围)中,术语“上述”以及与之相似的指向性术语的使用将完全适用于单数以及复数。133.并且,在将范围(range)记载于本发明的情况下,包括将属于上述范围的个别值用于其中的发明(若没有相反的记述),与在发明的详细说明中记载构成上述范围的各个个别值相同。134.最后,若没有对构成本发明的方法的多个步骤明确记述顺序或没有相反的记述,则将以适当的顺序执行上述多个步骤。135.本发明并不必须限定于上述多个步骤的记述顺序。在本发明中,所有例示或例示性术语(例如,等等)的使用仅用于详细说明本发明,若没有被发明要求保护范围限定,则上述例示或例示性术语并不限定本发明的范围。当前第1页12当前第1页12









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部