医药医疗技术的改进;医疗器械制造及应用技术1.本发明涉及预后预测技术领域,特别是涉及一种肺癌预后预测模型构建方法及肺癌预后预测系统。背景技术:2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。3.在癌症研究中,个性化预后预测模型的研究大多集中于使用基于回归的方法,如基于cox比例风险回归模型的肺癌生存预测模型。然而,在回顾性研究中,由于多种原因,临床和生存数据可能包含许多缺失值。如果该研究包括长期随访数据,一些临床协变量可能没有被测量。因此在临床数据集中,协变量数据的缺失是非常常见的,这对基于回归的模型提出很大的挑战。4.目前处理不完全协变量数据的方法包括完全案例分析法和基于填补的方法。完全案例分析法去除含有缺失的记录,容易导致选择偏倚;基于填补的方法仅局限于对整个数据集实施,无法做到个性化预测。在风险预测模型建立的过程中,对缺失数据如果处理不当,可能会影响结果,降低分析的准确性。技术实现要素:5.为了解决上述问题,本发明提出了一种肺癌预后预测模型构建方法及肺癌预后预测系统,解决传统预测模型在临床数据缺乏关键预测变量时难以预测的问题,提高临床预测的准确性。6.为了实现上述目的,本发明采用如下技术方案:7.第一方面,本发明提供一种肺癌预后预测模型构建方法,包括:8.对获取的肺癌疾病变量经单变量分析后筛选得到肺癌预测因子,根据肺癌预测因子构建贝叶斯网络模型;9.对肺癌预测因子通过特征选择进行二次筛选得到肺癌预后因子,根据肺癌预后因子构建多因素cox比例风险回归模型;10.在贝叶斯网络模型中引入肺癌生存结局变量,得到新网络结构;11.根据多因素cox比例风险回归模型,预测肺癌预后因子在组合状态下的生存概率,得到肺癌生存结局变量的条件概率表;12.对新网络结构和条件概率表进行拟合得到肺癌预后预测模型。13.作为可选择的实施方式,肺癌生存结局变量的条件概率表为:[0014][0015]其中,s0(t)为第t年的基线风险函数;βi为对应变量xi的cox比例风险回归模型的回归系数;p为多因素cox比例风险回归模型中肺癌预后因子个数。[0016]作为可选择的实施方式,根据肺癌预测因子采用模型平均方法构建贝叶斯网络模型,由贝叶斯网络模型建模肺癌预测因子间的相互依赖关系。[0017]作为可选择的实施方式,对肺癌预测因子采用lasso-cox回归特征选择方法进行二次筛选,得到肺癌预后因子。[0018]作为可选择的实施方式,所述肺癌预测因子包括:吸烟、高龄、胸腔积液、病理分期、肺脓肿、肺心病、间质性肺病、肺栓塞、呼吸衰竭、红细胞计数、纤维蛋白原和嗜酸性粒细胞。[0019]作为可选择的实施方式,所述肺癌预后因子包括:分期、性别、年龄、吸烟、饮酒、慢性阻塞性肺疾病、靶向治疗、肺炎、间质性肺疾病、呼吸衰竭、纤维蛋白原和病理分类。[0020]第二方面,本发明提供一种肺癌预后预测系统,包括:[0021]第一模型构建模块,被配置为对获取的肺癌疾病变量经单变量分析后筛选得到肺癌预测因子,根据肺癌预测因子构建贝叶斯网络模型;[0022]第二模型构建模块,被配置为对肺癌预测因子通过特征选择进行二次筛选得到肺癌预后因子,根据肺癌预后因子构建多因素cox比例风险回归模型;[0023]网络结构学习模块,被配置为在贝叶斯网络模型中引入肺癌生存结局变量,得到新网络结构;[0024]网络参数学习模块,被配置为根据多因素cox比例风险回归模型,预测肺癌预后因子在组合状态下的生存概率,得到肺癌生存结局变量的条件概率表;[0025]预后预测模型构建模块,被配置为对新网络结构和条件概率表进行拟合得到肺癌预后预测模型;[0026]预后预测模块,被配置为根据肺癌预后预测模型对患者肺癌患病风险进行概率预测。[0027]作为可选择的实施方式,预后预测模块中,根据肺癌预后预测模型采用似然加权推理算法进行肺癌患病风险概率的预测。[0028]第三方面,本发明提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成肺癌预后预测方法;所述肺癌预后预测方法包括:[0029]对获取的肺癌疾病变量经单变量分析后筛选得到肺癌预测因子,根据肺癌预测因子构建贝叶斯网络模型;[0030]对肺癌预测因子通过特征选择进行二次筛选得到肺癌预后因子,根据肺癌预后因子构建多因素cox比例风险回归模型;[0031]在贝叶斯网络模型中引入肺癌生存结局变量,得到新网络结构;[0032]根据多因素cox比例风险回归模型,预测肺癌预后因子在组合状态下的生存概率,得到肺癌生存结局变量的条件概率表;[0033]对新网络结构和条件概率表进行拟合得到肺癌预后预测模型;[0034]根据肺癌预后预测模型对患者肺癌患病风险进行概率预测。[0035]第四方面,本发明提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成肺癌预后预测方法;所述肺癌预后预测方法包括:[0036]对获取的肺癌疾病变量经单变量分析后筛选得到肺癌预测因子,根据肺癌预测因子构建贝叶斯网络模型;[0037]对肺癌预测因子通过特征选择进行二次筛选得到肺癌预后因子,根据肺癌预后因子构建多因素cox比例风险回归模型;[0038]在贝叶斯网络模型中引入肺癌生存结局变量,得到新网络结构;[0039]根据多因素cox比例风险回归模型,预测肺癌预后因子在组合状态下的生存概率,得到肺癌生存结局变量的条件概率表;[0040]对新网络结构和条件概率表进行拟合得到肺癌预后预测模型;[0041]根据肺癌预后预测模型对患者肺癌患病风险进行概率预测。[0042]与现有技术相比,本发明的有益效果为:[0043]针对临床数据中广泛存在的缺失数据问题,本发明提出一种基于贝叶斯网络不确定性推理的肺癌预后预测模型构建方法和肺癌预后预测系统,解决现有预测模型中无法在缺失协变量时对患者预测风险的缺陷,可有效精准地预测患者的风险。[0044]本发明提出一种肺癌预后预测模型构建方法和肺癌预后预测系统,根据肺癌预测因子构建贝叶斯网络模型;贝叶斯网络能够建模肺癌预测因子之间的概率依赖关系,更加准确地推理出缺失变量的概率分布,从而提高临床预测的准确性。[0045]本发明提出一种肺癌预后预测模型构建方法和肺癌预后预测系统,将贝叶斯网络与多因素cox比例风险回归模型相结合,通过构建贝叶斯网络自动对缺失值进行填补,推断出缺失数据的可能值;根据多因素cox比例风险回归模型,对缺失数据的所有可能状态预测其生存概率,由于贝叶斯网络具有辅助不确定性推理的能力,所构建的肺癌预后预测模型在临床诊断和风险预测任务上具有准确且鲁棒的性能。[0046]本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明[0047]构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。[0048]图1为本发明实施例1提供的肺癌预后预测模型构建方法流程图;[0049]图2(a)为本发明实施例1提供的lasso cox回归模型特征选择预测因子的lasso系数分布图;[0050]图2(b)为本发明实施例1提供的lasso cox回归模型特征选择交叉验证选择最优正则化参数图;[0051]图3(a)-图3(b)为本发明实施例1提供的肺癌预后预测模型在训练集和验证集的roc曲线图;[0052]图4(a)-图4(b)为本发明实施例1提供的肺癌预后预测模型在训练集和验证集的校准曲线图;[0053]图5为本发明实施例1提供的肺癌预后预测模型和cox比例风险回归模型的决策曲线对比图。具体实施方式[0054]下面结合附图与实施例对本发明做进一步说明。[0055]应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。[0056]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。[0057]在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。[0058]实施例1[0059]为了解决临床风险评估中数据缺失的问题,本实施例构建一种肺癌预后预测模型,肺癌预后预测模型基于生存贝叶斯网络模型构建,生存贝叶斯网络模型将贝叶斯网络与多因素cox比例风险回归模型相结合。通过构建贝叶斯网络,自动对缺失值进行填补,推断出缺失数据的可能值;根据多因素cox比例风险回归模型,对缺失数据的所有可能状态预测其生存概率,再由每种状态对应的概率加权生存概率来预测肺癌个体患者的生存。由于贝叶斯网络具有辅助不确定性推理的能力,所构建的肺癌预后预测模型在临床诊断和风险预测任务上具有准确且鲁棒的性能。[0060]如图1所示,本实施例提供一种基于贝叶斯网络不确定性推理的肺癌预后预测模型构建方法,包括:[0061]对获取的肺癌疾病变量经单变量分析后筛选得到肺癌预测因子,根据肺癌预测因子构建贝叶斯网络模型;[0062]对肺癌预测因子通过特征选择进行二次筛选得到肺癌预后因子,根据肺癌预后因子构建多因素cox比例风险回归模型;[0063]在贝叶斯网络模型中引入肺癌生存结局变量,得到新网络结构;[0064]根据多因素cox比例风险回归模型,预测肺癌预后因子在组合状态下的生存概率,得到肺癌生存结局变量的条件概率表;[0065]对新网络结构和条件概率表进行拟合得到肺癌预后预测模型。[0066]在本实施例中,获取肺癌患者的人口学信息和病理学信息;包括:性别、年龄、职业、婚姻状况、肺癌家族史、吸烟、饮酒、肺炎、胸腔积液、肺脓肿、肺心病、间质性肺病、肺栓塞、呼吸衰竭、红细胞计数、单核细胞计数、直接胆红素、嗜酸性粒细胞计数、纤维蛋白原、放化疗、靶向治疗、用药、分期、病理诊断类型、是否手术、手术方式、肺癌总生存期。[0067]上述信息的纳入标准为通过做手术或活检(支气管镜活检,肺活检或者淋巴结活检)首次确诊为肺癌,icd-10编码为c34;排除标准为继发性肺癌、身份证号格式异常、死因登记数据异常记录等。[0068]在本实施例中,研究终点定义为死亡结局,肺癌总生存期定义为肺癌确诊时间至死亡时间或最后随访时间的间隔,对患者资料进行编码及离散化处理。[0069]在本实施例中,将肺癌患者数据分为训练集和测试集,通过训练集构建模型,通过测试集验证模型;其中,训练集中的患者包含完整协变量信息,验证集上患者缺失某些协变量信息;具体地,训练集包括2137名不包含任何缺失协变量数据的肺癌患者,验证集包括3103名有缺失协变量信息的肺癌患者。[0070]为构建肺癌预后预测模型,识别可能与肺癌患者死亡风险相关的因素,本实施例采用单因素cox比例风险回归模型,在候选的肺癌疾病变量中筛选得到肺癌预测因子;[0071]具体地,定义p《0.05,以对所有候选的肺癌疾病变量经单变量分析后进行筛选,将筛选得到的肺癌预测因子纳入多因素分析。[0072]在本实施例中,肺癌预测因子包括:吸烟、高龄、胸腔积液、较差的病理分期、肺脓肿、肺心病、间质性肺病、肺栓塞、呼吸衰竭、较高的红细胞计数、较高的纤维蛋白原和较高的嗜酸性粒细胞。[0073]在本实施例中,根据肺癌预测因子采用模型平均方法构建贝叶斯网络模型,由贝叶斯网络模型建模肺癌预测因子之间的相互依赖关系,因而推断出缺失变量的后验概率分布。[0074]在本实施例中,贝叶斯网络结构采用禁忌搜索(tabu search)算法由数据驱动的方式来学习,并结合医学文献的先验知识作为黑名单和白名单。[0075]例如,根据现有的医学证据,允许将年龄变量和性别变量指向吸烟变量,并且任何变量都不允许指向年龄和性别;此外,吸烟是慢性阻塞性肺病的主要病因,因此吸烟是慢性阻塞性肺病的父节点。[0076]为了避免单一的贝叶斯网络结构可能导致过拟合的问题本实施例在结构学习过程中采用模型平均策略。[0077]为了学习一个鲁棒的网络结构,本实施例使用bootstrap对数据重新采样200次,学习200个网络结构;然后利用模型平均方法在200个bootstrap重采样网络上得到收敛的贝叶斯网络结构。[0078]为了进一步简化贝叶斯网络模型,防止贝叶斯网络模型过拟合问题。本实施例对肺癌预测因子采用lasso特征选择方法进行二次筛选,得到肺癌预后因子,根据基于肺癌预后因子,构建多因素cox比例风险回归模型。[0079]具体地,如图2(a)-图2(b)所示,通过lasso-cox回归10折交叉验证变量选择得到肺癌预后因子,以此构建多因素cox比例风险回归模型,得到基线风险、绝对风险以及生存概率。[0080]具体地,经二次筛选后,得到12个肺癌预后因子,包括:分期、性别、年龄、吸烟、饮酒、慢性阻塞性肺疾病、靶向治疗、肺炎、间质性肺疾病、呼吸衰竭、纤维蛋白原和病理分类。[0081]经多因素分析发现,病理分期较差、吸烟、年龄较大、慢性阻塞性肺疾病、纤维蛋白原水平较高、肺炎将增加肺癌的死亡风险。[0082]为了将贝叶斯网络对缺失数据的有效推理能力与cox比例风险回归模型良好的生存预测能力相结合,本实施例构建生存贝叶斯网络模型,作为肺癌预后预测模型;具体包括:[0083]首先,在贝叶斯网络中引入肺癌生存结局变量,得到生存贝叶斯网络的结构;在生存贝叶斯网络中,将肺癌预后因子指向肺癌生存结局变量。[0084]然后,采用多因素cox比例风险回归模型,预测肺癌预后因子组合下的生存概率,得到肺癌生存结局变量节点的条件概率表,计算公式为:[0085][0086]其中,survival status为每个肺癌患者的生存结局,1表示死亡,0表示生存;s0(t)代表第t年的基线风险函数;βi为对应变量xi的cox模型的回归系数;p为多因素cox回归模型中肺癌患者的预后因素的个数,πe为肺癌生存节点的父节点集合。[0087]最后,对得到的新贝叶斯网络结构和条件概率表进行拟合,得到最终的生存贝叶斯网络模型;生存贝叶斯网络模型中包含一组离散预测因子和肺癌生存结局变量。[0088]在本实施例中,根据生存贝叶斯网络模型,采用基于马尔科夫链蒙特卡洛采样法的似然加权推理算法,对含缺失变量信息的患者进行肺癌生存概率的预测。[0089]在本实施例中,为验证肺癌预后预测模型的有效性,使用测试集对生存贝叶斯网络模型进行验证,分别采用auc和校准图评估模型的校准和区分能力,并通过决策曲线分析比较预测生存贝叶斯网络模型与cox比例风险回归模型的临床效用。[0090]排除验证队列中的删失个体,剩余1433个样本用于模型内部验证。对于3年肺癌生存结局,模型在训练队列中的一致性指数为0.841(95%ci:0.828~0.856),在验证队列中的一致性指数为0.802(95%ci:0.787~0.817),表明该模型具有比较好的区分能力,对应的roc曲线如图3(a)-图3(b)所示。[0091]验证队列3年生存期的校准曲线显示预测概率和观测概率之间具有良好的一致性,校准曲线在45度直线附近,表明模型的校准良好,对应的校准图如图4(a)-图4(b)所示。[0092]通过决策曲线分析(decision curve analyses,dca)比较生存贝叶斯网络模型与cox比例风险回归模型的临床效用。对于cox比例风险回归模型,使用非参数缺失数据填补方法missforest对测试样本中的缺失协变量进行填补。然后计算每个模型在不同风险阈值的净收益,如图5所示,决策曲线结果显示,在阈值概率高达80%的范围内,生存贝叶斯网络模型的标准化净效益高于cox比例风险回归模型,表明在缺失协变量下具有较好的预测表现。[0093]本实施例提出的肺癌预后预测模型集成了缺失数据不确定性推理方法,从而允许在应用过程中输入不完全协变量数据。具体包括使用贝叶斯网络对临床变量之间的依赖关系建模,然后使用该网络执行数据填补,从而得到完整的数据集应用于cox比例风险回归模型中;贝叶斯网络不确定性推理算法对数据缺失比例具有更强的鲁棒性,适用于缺失率高的临床数据集。[0094]贝叶斯网络作为一种概率图模型,它依赖于一个有向无环图来建模随机变量之间的结构化依赖关系,并表示一个联合概率分布。学习完贝叶斯网络后,根据估计的联合概率分布计算出的未知变量的后验概率分布对缺失数据可能值进行推理。本实施例使用贝叶斯网络的方式与之前的研究类似,但与它们不同的是,本实施例使用了一种全局结构学习方法并加入了已知的先验知识,从而获得更准确的模型。相比于其他常用的填补方法,基于贝叶斯网络不确定性推理的方法可以改善患者的生存预测准确性。[0095]实施例2[0096]本实施例提供一种肺癌预后预测系统,包括:[0097]第一模型构建模块,被配置为对获取的肺癌疾病变量经单变量分析后筛选得到肺癌预测因子,根据肺癌预测因子构建贝叶斯网络模型;[0098]第二模型构建模块,被配置为对肺癌预测因子通过特征选择进行二次筛选得到肺癌预后因子,根据肺癌预后因子构建多因素cox比例风险回归模型;[0099]网络结构学习模块,被配置为在贝叶斯网络模型中引入肺癌生存结局变量,得到新网络结构;[0100]网络参数学习模块,被配置为根据多因素cox比例风险回归模型,预测肺癌预后因子在组合状态下的生存概率,得到肺癌生存结局变量的条件概率表;[0101]预后预测模型构建模块,被配置为对新网络结构和条件概率表进行拟合得到肺癌预后预测模型;[0102]预后预测模块,被配置为根据肺癌预后预测模型对患者肺癌患病风险进行概率预测。[0103]此处需要说明的是,上述模块对应于实施例1中所述的步骤,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。[0104]在更多实施例中,还提供:[0105]一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成肺癌预后预测方法;所述肺癌预后预测方法包括:[0106]对获取的肺癌疾病变量经单变量分析后筛选得到肺癌预测因子,根据肺癌预测因子构建贝叶斯网络模型;[0107]对肺癌预测因子通过特征选择进行二次筛选得到肺癌预后因子,根据肺癌预后因子构建多因素cox比例风险回归模型;[0108]在贝叶斯网络模型中引入肺癌生存结局变量,得到新网络结构;[0109]根据多因素cox比例风险回归模型,预测肺癌预后因子在组合状态下的生存概率,得到肺癌生存结局变量的条件概率表;[0110]对新网络结构和条件概率表进行拟合得到肺癌预后预测模型;[0111]根据肺癌预后预测模型对患者肺癌患病风险进行概率预测。[0112]应理解,本实施例中,处理器可以是中央处理单元cpu,处理器还可以是其他通用处理器、数字信号处理器dsp、专用集成电路asic,现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。[0113]存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。[0114]一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成肺癌预后预测方法;所述肺癌预后预测方法包括:[0115]对获取的肺癌疾病变量经单变量分析后筛选得到肺癌预测因子,根据肺癌预测因子构建贝叶斯网络模型;[0116]对肺癌预测因子通过特征选择进行二次筛选得到肺癌预后因子,根据肺癌预后因子构建多因素cox比例风险回归模型;[0117]在贝叶斯网络模型中引入肺癌生存结局变量,得到新网络结构;[0118]根据多因素cox比例风险回归模型,预测肺癌预后因子在组合状态下的生存概率,得到肺癌生存结局变量的条件概率表;[0119]对新网络结构和条件概率表进行拟合得到肺癌预后预测模型;[0120]根据肺癌预后预测模型对患者肺癌患病风险进行概率预测。[0121]该方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。[0122]本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。[0123]上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种肺癌预后预测模型构建方法及肺癌预后预测系统
作者:admin
2022-08-31 13:08:48
609
- 下一篇: 一种精准智能化定位设备及定位方法
- 上一篇: 验证码的验证方法、装置、电子设备以及存储介质与流程