2025年1月22日,Caihong Ning等人在《EClinicalMedicine》杂志上发表了一篇题为《Development and validation of an explainable machine learning model for mortality prediction among patients with infected pancreatic necrosis》的文章。该文献旨在开发并验证一种可解释的机器学习模型,用于预测感染性胰腺坏死(IPN)患者的90天死亡率,以辅助临床决策。
IPN是急性胰腺炎(AP)最危险的并发症之一,尽管近年来重症监护和微创技术的进步降低了IPN死亡率,但其死亡率仍维持在15%-20%以上。传统预测工具(主要依赖线性假设),难以捕捉复杂临床特征间的非线性关联,且现有研究多为回顾性、单中心设计,样本量小且缺乏外部验证。机器学习因其在复杂模式识别和预后预测中的优势,逐渐被应用于胰腺炎研究,但针对IPN死亡率预测的机器学习模型仍较少,且缺乏可解释性和临床部署。本研究填补了这一空白,首次系统比较了10种生存分析模型,并通过SHAP方法揭示了关键预测因子的阈值效应和交互作用,为临床决策提供了透明化的依据。
研究数据来源于中国两家三级医院的IPN患者队列:
模型开发队列:2011年1月至2023年1月前瞻性纳入中南大学湘雅医院的364例IPN患者,排除慢性胰腺炎、慢性器官功能障碍、妊娠及数据不完整者后,最终纳入344例,其中90天死亡率为24.1%。
外部验证队列:2018年1月至2023年1月回顾性收集中南大学湘雅三医院的157例IPN患者,经相同排除标准筛选后,最终纳入132例,死亡率为31.8%。
纳入了10种生存分析机器学习模型用于预测IPN患者的死亡预测:Cox比例风险模型(coxph)、弹性网络广义线性模型(glmnet)、递归分割与回归树(rpart)、随机生存森林(RSF)、梯度提升机(gbm)、支持向量机(svm)、极限梯度提升(xgboost)、深度生存模型(deepsurv)、深度学习生存分析模型(deephit)、Cox时间模型(coxtime),为了在一致条件下对多个机器学习模型进行公正和客观的评估,设计了一个涉及嵌套重采样、自动超参数调整和随机搜索技术的基准测试,最终根据C指数和Brier分数选择性能最优的RSF模型(C指数=0.865)。在特征选择方面,为了简化模型以增强适用性,采用逐步前向选择方法根据上述选择的模型选择最佳特征子集。从区分度、校准度和临床实用性方面评估了最终模型的性能。使用C指数和时间依赖性曲线下面积(AUR)测量识别能力,通过校准曲线和综合Brier评分评估校准能力,还使用决策曲线分析(DCA)评估了临床效用。研究引入了SHAP算法,通过总结图和依赖图揭示了关键预测因子并调查与结果之间的关系,此外,SHAP交互图用于识别两个特征之间潜在的交互效应。为了促进模型的可访问性和可用性,开发了两个公开可用的Shiny应用程序,从而实现了个体化生存预测和个性化解释。(图1)。
研究人群的临床特征见表1。模型开发队列中有344例患者,外部验证队列中有132例患者,其中死亡患者分别为83例(24.1%)和42例(31.8%)。在模型开发队列中,73.0%为男性,27.0%为女性。该队列的中位年龄为48(37-55)岁。验证队列的危重急性胰腺炎和多器官衰竭(MOF)发生率显著升高,器官衰竭的中位持续时间更长,APACHE II评分较高(P < 0.05)。衍生队列与验证队列在性别、年龄、病因等基线特征上无显著差异,但验证队列中危重急性胰腺炎(62.9% vs. 52%)和多器官衰竭(47.7% vs. 34.3%)比例更高,且APACHE II评分中位数更高(9 vs. 8),提示验证队列患者病情更重。(表1)
经过基准测试,RSF算法实现了最好的预测性能,平均C指数最高为0.865(0.066),最低平均Brier评分为0.147(0.121),优于其他模型(C指数范围为0.698至0.863,Brier评分范围为0.151至0.353)(图2)。实现最佳C指数的最终模型由10个特征构建,包括年龄、吸烟或饮酒、APACHE II评分、器官衰竭数量、器官衰竭持续时间、血流感染、胰腺CRE感染、从发病到首次干预的时间、手术入路和出血。此外,还开发了具有所有功能的RSF模型以用于模型解释。这两种RSF模型,无论是利用最佳特征还是所有特征,都经历了超参数优化。(图2)
在衍生队列中,C指数为0.863(95%CI:0.854-0.875),有1000次Bootstrap重新采样(图3A),表明区分能力良好。同时,使用校准图来评估30天、60天和90天总生存率的预测准确性,揭示了与理想曲线的对应关系(图3B)。综合Brier评分为0.153(95%CI:0.143-0.163),Bootstrap重新采样1000次,进一步证实了该模型的高可靠性。此外,DCA肯定了RSF模型作为启动医疗干预工具的值得赞扬的临床适用性(图3C)。在外部验证队列中,用于评估RSF模型的时间依赖性AUR曲线、校准图和DCA曲线如图3D-F所示,C指数为0.857(95%CI:0.850-0.865),Brier评分为0.084(95%CI:0.076-0.092)。(图3)
SHAP方法用于通过生成候选特征对个体预测的重要性排名来解释模型的可解释性。如图4所示,前9个最重要的预后特征导致死亡可能性高的因素包括器官衰竭数量、APACHE II评分、器官衰竭持续时间、血流感染、从发病到首次干预的时间、BISAP评分、严重程度分类、年龄和出血。(图4)
此外,SHAP依赖图用于解释关键预测因子与结果的关系。从主效应图和总效应图(图5)来看,MOF、阳性血流感染、BISAP评分≥3、重症急性胰腺炎和出血与死亡风险增加相关。APACHE II评分、器官衰竭持续时间、从发病到首次干预的时间和死亡风险之间存在潜在的非线性关系和重要阈值。具体来说,当APACHE II评分低于10时,死亡风险不会增加,当10至20时,死亡风险略有增加,当大于20时,死亡风险显着增加。此外,当器官衰竭的持续时间超过约21天时,死亡风险要高得多,当从发病到首次干预的时间超过约30天时,死亡风险要低得多。(图5)
从交互SHAP值的热图(图6)中,器官衰竭的数量、器官衰竭的持续时间、从发病到首次干预的时间、血流感染、BISAP评分、APACHEII评分和严重程度分类之间存在强烈的交互作用。具有高相互作用SHAP值和临床显著性(图6和7)。例如,如图7A所示,负相互作用(SHAP相互作用值<0,表明预后较好)介于年龄< 50岁和多器官功能衰竭之间,然而,这种模式在年龄≥50岁和MOF之间是相反的。积极的相互作用效应表明,年龄≥50岁和MOF的患者将比两个变量的附加预后效应预期的更差。(图6、7)
最后,我们将最终的RSF模型实施到一个基于Web的交互式Shiny应用程序中,该应用程序为个体提供生存预测和解释。此外,它还提供了模型的全局解释。鉴于收集APACHE II评分所需的所有变量可能具有挑战性,并且可能限制模型的临床适用性,开发了一个替代的在线模型,没有APACHE II评分系统。
成功开发并验证了一个可解释的机器学习模型,能够准确预测IPN患者的90天死亡率,这表明其在指导临床管理和改善患者预后方面具有卓越的潜力。
上一篇:妊娠期母体长链多不饱和脂肪酸与新生儿身体组成有关?
下一篇:02.24-03.02 临床预测模型研究顶刊快报