发布时间: 2025-05-08 13:53:55
2025年4月24日,王晓旭等人在《Ren Fail》杂志上发表了一篇题为《Development and external validation of a machine learning model for cardiac valve calcification early screening in dialysis patients: a multicenter study》的文章。 心脏瓣膜钙化(CVC)在透析患者中很常见,并且与心血管风险增加有关。然而,早期筛查受到成本问题的限制。该文献旨在开发和验证机器学习模型,以增强CVC的早期检测。
一、研究背景
CVC是透析患者的常见并发症,其发生率是普通人群的8倍,且与心血管风险显著相关。CVC可导致瓣膜狭窄、心律失常、心肌缺血甚至死亡,但早期筛查因成本和技术限制未广泛普及。目前尚无研究利用机器学习模型预测透析患者的CVC风险,因此本研究通过整合临床数据和实验室指标,构建并验证一种高效筛查工具。
二、数据来源
2020年1月至2023年6月期间,在中国四家临床中心共招募了2681例年龄在18至80岁之间的终末期肾病患者。这些患者在肾内科和血液净化中心接受常规血液透析(HD)或腹膜透析(PD)。所有患者在住院期间均接受了超声心动图评估。研究排除了之前诊断患有心脏瓣膜病、风湿性心脏病、心律失常或有心脏手术史的参与者(图1)。
三、研究方法
将苏州医院的患者以7:3的随机分为训练集和验证集。东南医院的患者作为外部验证集来评估模型。采用六种机器学习算法,包括类别提升(CatBooth)、极端梯度提升(XGBooth)、决策树、支持向量机(SVM)、随机森林和逻辑回归,基于特征选择的结果来构建风险模型。使用10倍交叉验证评估预测性能。通过接收者操作特征曲线下面积(ROC)和精确度召回曲线(AUPRC)评估模型性能。同时计算准确性、精确性和F-1评分等指标。使用校准曲线和Brier评分评估校准,决策曲线分析来评估临床适用性。如果逻辑回归优于其他方法,根据其结果构建诺模图以供实际应用。使用约登(Youden)指数和内部验证数据集中预测风险概率的分布来确定风险阈值,以将参与者分为高、中和低风险组,然后在外部验证数据集中验证这些阈值。(图2)
四、结果
1.基线特征
该研究共有2140名透析患者。中位年龄为56岁,其中男性1259人(58.8%)。在这些患者中,782名(36.5%)被诊断出患有CVC。超声心动图显示,CVC患者的IVST和LVEF较低,左心室后壁厚度(LVPW)较高,左心室质量(LVM)、左心室质量指数(LVMI)和左心室扩张功能障碍(LVDD)患病率增加,见表1。
在852名参与者中,32.9%被诊断出患有CVC。与无CVC的参与者相比,患有CVC的参与者通常年龄较大,透析持续时间较长,收缩压(SBP)、天冬氨酸转氨酶(AST)、碱性磷酸酶(ALP)、γ-谷氨酰转移酶(GGT)和空腹血糖(FPG)较高,但收缩压(DBP)和白蛋白(ALB)水平较低。此外,CVC组糖尿病、冠状动脉粥样硬化性心脏病(CHD)和高脂血症的患病率以及抗糖尿病和降血脂药物的使用率较高(表2)。
2.独立危险因素
基于来自四个中心的数据,调查了独立影响CVC的因素。通过单因素回归分析,确定了20个CVC的潜在危险因素。p <0.05的变量包括年龄、DBP、透析方式(血液透析)、透析持续时间以及糖尿病、高血压、CHD、高脂血症和中风病史。最后,多元逻辑回归分析确定了7个CVC独立风险因素,如表3所示。
3.模型开发与验证
LASO回归分析确定了与透析患者CVC风险相关的12个预测变量,如图2所示。使用单变量和多元逻辑回归进一步分析了通过LASO回归确定的12个预测变量。最终,确定了五个关键特征:年龄、透析持续时间、糖尿病、CHD、高血脂症、中风、不含钙的磷酸盐结合剂、抗糖尿病药物、ALP、FPG、Apo-A1和iPTH(表4)。然后将这些变量用作预测因子来构建CVC存在的风险预测模型。
如图3所示,Catboost提供了最高的临床预测准确性,AUROC为0.719(95%CI:0.667-0.765),逻辑回归模型随后的AUROC为0.710(95%CI:0.619-0.755)。在此基础上,在内部和外部验证数据集上对六种预测模型的稳定性和通用性进行了系统验证。逻辑回归模型表现出最高的性能,内部验证数据集中的AUROC为0.806(95%CI:0.750-0.863),外部验证数据集中的AUROC为0.757(95%CI:0.720-0.793),优于所有其他模型(图4)。
两个验证集的模型校准结果表明,逻辑回归模型的校准曲线更接近理想线,内部验证数据集中的Brier评分为0.170,外部验证数据集中的Brier评分为0.221,表明与其他模型相比具有更好的校准性(图5)。此外,决策曲线分析表明,基于内部和外部验证集的综合预测性能,从逻辑回归中得出的临床预测可实现最高的总体净效益,并为患者提供跨越大多数风险阈值水平的益处(图6)。
考虑到逻辑回归模型在内部和外部验证数据集中都显示出更好的临床预测价值,因此将其选为最佳模型,并使用动态诺模图进行描述(图7)。
使用Youden指数来区分高危患者和非高危患者,根据62%的比例将患者分为这两组。图8结果显示,高、中、低风险人群CVC的患病率分别为65.6%、20.2%和7.5%。当将这些定义的临界值应用于外部验证数据集时,高、中、低风险组中CVC的患病率分别为68.9%、43.2%和14.2%。风险分层在内部和外部验证组中均表现出良好的差异(所有p值均< 0.001)。(图8)
五、总结
基于年龄、透析时长、碱性磷酸酶(ALP)、载脂蛋白A1(Apo-A1)和全段甲状旁腺激素(iPTH)的逻辑回归模型能有效识别CVC高风险透析患者,其高预测精度和临床实用性为早期干预提供了可靠工具。
下一篇:利用机器学习模型预测新冠疫情后急性和慢性肾脏疾病:利用美国国家电子健康记录