发布时间: 2024-11-27 10:11:17
2024年,一篇题为《Development and validation of a machine learning-based predictive model for assessing the 90-day prognostic outcome of patients with spontaneous intracerebral hemorrhage》的机器学习文章发表在《Journal of Translational Medicine》杂志上,作者为Zhi Geng等。这项研究旨在利用机器学习算法建立一个实用平台,以预测自发性脑内出血(sICH)患者的短期预后结果。
一、研究背景
sICH是最致残和最致命的卒中亚型之一,约占所有卒中类型的10%至20%,是全球人口的第二大死亡原因。因此,预测sICH患者的预后和早期干预尤为重要。现有研究表明,中低收入国家的sICH发病率高于富裕国家(分别为每100,000人117例和每100,000人94例),且与其他种族相比,亚洲的sICH发病率显著上升。sICH的疾病负担很大程度上归因于对可控风险因素管理的忽视。因此,建立一个实用的sICH预后风险预测模型至关重要,可以实现更精准的管理和改善患者的治疗效果。
二、数据来源
这项研究回顾性收集了2018年1月至2022年3月在合肥市第二人民医院神经内科收治的413例sICH患者,并将其纳入研究样本。验证样本由2022年12月至2023年5月在安徽医科大学第一附属医院神经内科收治的74例sICH患者组成,用于训练、验证和测试机器学习模型。
三、研究方法
这项研究包括在入院时收集的sICH患者的临床相关特征,涵盖了人口学特征、既往病史、实验室检查和影像学数据。连续变量经过标准化处理,分类变量采用一次性编码方法。通过递归特征消除方法,研究筛选出最优子集,以获得最有利的特征组合。随后,这些优化的特征被集成到五个机器学习模型中,包括逻辑回归(LR)、随机森林(RF)、支持向量机(SVM)、梯度提升决策树(LightGBM)和极限梯度提升(XGBoost)。使用内部五重交叉验证确定每个模型的最适超参数,并通过内部测试集来识别表现优异的机器学习模型。最后,通过外部五折交叉验证选取平均性能最佳的模型作为最终模型,并进行外部验证。通过ROC曲线、准确性及其它相关指标全面评估机器学习模型的性能。通过SHAP图阐明模型中各变量的重要性,从而确定最精简的特征组合,进而建立实用的预后预测平台。
四、结果
1、临床特点
表1提供了训练集和外部测试集数据之间基线特征的比较。在大多数特征上,训练集和外部测试集之间没有显著差异。高血压患者、AST水平、GCS评分在外部测试集中的数值明显高于训练集(91.89% VS 72.64%,P<0.001;32.31±21.13 VS 26.42±12.17,P=0.022;12.86±3.42 VS 13.70±3.08,P=0.047)。相反,饮酒患者、脑室内出血发生率、尿酸水平、NIHSS评分这些特征的训练集比例明显高于外部测试集比例(28.57% VS 13.51%,P=0.007;24.32% VS 9.2%,P<0.001;351.04±123.55 VS 266.43±105.84,P<0.001;10.08±9.73 VS 7.59±8.56,P=0.040)。
表2描述了训练集中sICH患者不同症状的组间差异。中老年患者与脑室内出血发生率这两个特征的预后不良组比例明显高于预后良好组比例(56.1% VS 44.2%,P=0.016;48.9% VS 11.2%,P<0.001)。此外,两组之间的血肿量也有显著差异(P=0.000)。
2、预测因素选择
这项研究采用递归特征消除法策略进行特征筛选,以此确定了最佳子集包括NIHSS评分、AST水平、年龄、白细胞、血肿量、尿氮、中性粒细胞、葡萄糖、肌酐、收缩压、ALT水平、淋巴细胞、舒张压、尿酸和GCS评分。
3、多种机器学习模型性能
内部测试集中所有模型的AUC范围在0.85至0.95之间,其中RF模型最有效(AUC:0.916,95%CI:0.859~0.972)(图1)。在外部五折交叉验证期间,RF的平均性能排名最高(AUR:0.906±0.029)(图2)。表3说明了不同机器学习预测模型之间常见性能指标的比较。基于这些结果,选择RF模型作为最终风险预测模型。而且RF模型的性能在外部测试集中依旧保持稳定(AUR:0.817,95%CI:0.705~0.928)(图3)。
4、变量重要性和变量解释
本研究根据SHAP图可视化预测变量对结果的影响。具体来说,变量对结果的影响可以通过SHAP值的大小(由颜色变化指示)和变量x轴上的趋势(出现不良结果的概率)来直观地解释。例如,在NISS评分的情况下,与NISS评分较低的人(以蓝色表示)相比,评分较高的人(以红色表示)更容易出现不良预后(右侧)。同样,对于AST水平升高的个体(红色),sICH患者的预后可能不利(右侧)。对于那些血肿量不是>20 ml(以蓝色表示)(位于右侧)的个体来说,sICH患者的预后可能不利(图4)。
5、网络计算器的实现
本研究还利用RF模型中的变量重要性和变量组合构成的模型预测数据,绘制了组合AUC和变量重要性的折线图。从图中可以看出,NIHSS评分、AST水平、年龄、白细胞和血肿量等特征的合并能够达到优化和简化的预测效果(图5)。基于这五项指标构建了网络计算器(图6),促进sICH患者预后风险的个性化预测。(https://surge-ustc.shinyapps.io/hemorrhage_ predicate/)
五、总结
这项研究基于RF模型的结果构建了一个预测模型,其中纳入了五个临床上可获得的预测因子,对sICH患者的短期预后具有可靠的预测功效。同时,外部验证集的性能也更加稳定,可用于准确预测sICH患者的短期预后。
【END】
上一篇:解密IGF家族与肌少症的双向因果关系:基于孟德尔随机化的大规模GWAS分析
下一篇:多变量广义加性混合模型探究阿司匹林对孕期MAP和UtA-PI影响