语言 ▾
中文EN

利用机器学习算法为辅助生殖技术(ART)相关活产结果构建预测模型

发布时间:  2025-02-14 14:05:04


2024年12月30日,《Scientific reports》发表了一篇名为“Machine learning algorithms in constructing prediction models for assisted reproductive technology (ART) related live birth outcomes”的研究论文,该研究旨在通过在具有代表性的大样本中国患者中使用体外受精(IVF)初期时容易获得的人口统计学特征和临床指标来开发和内部验证活产的预后预测模型。



一、研究背景


对辅助生殖技术(ART)活产结果预测模型的回顾表明,目前可用的模型通常存在方法或研究设计局限性,例如使用效率低下的随机拆分数据进行验证、缺失值的报告不明确、仅报告模型的区分能力,以及仅纳入接受IVF治疗的孕妇。尽管Dhillon等人开发的预测模型具有很高的报告质量,但它来自英国人群,对其他人群的适用性仍不清楚。另一项综述指出,只有一项活产儿的预后预测研究存在低偏倚风险,但它仅包括接受单精子注射(ICSI)治疗的夫妇。

在这种情况下,我们的目标是通过在具有代表性的大样本中国患者中使用IVF初期时容易获得的人口统计学特征和临床特征,开发和内部验证活产的预后预测模型。


二、数据来源


参与者于2015年1月至2022年12月期间从在中国西南部云南省昆明医科大学第二附属医院接受ART治疗的夫妇中招募。我们的数据库包含13,620名开始使用ICSI治疗的第一次和后续IVF的患者的所有治疗周期的数据。


三、研究思路


本文在接受ART治疗的大量中国患者样本中容易获得的活产人口统计学和临床指标中筛选了潜在的预测因子。拟合单变量和多变量logistic回归(LR)以测量候选预测因子与活产结果之间的粗略和调整关联。使用三种机器学习算法(随机森林,RF;极端梯度提升,XGBoost;光梯度提升机,LightGBM)进一步确认由多变量LR筛选出的候选预测因子中活产结果的最重要预测因子:选择在3种使用算法中至少2种中排名前6的变量。对于所选的重要预测因子,应用受试者工作特征(ROC)曲线以确定其相对于活产结局的最佳临界值。基于统计模型和多种机器学习算法,我们确定了预测ART患者活产结局的指标。


四、主要结果


1、相关因素与活产率之间的关联


为了初步探讨定量变量对活产率的影响,我们根据推荐的阈值将年龄分类为分类变量,而其他定量变量根据其四分位数分为四个级别:极低水平(<p25)、低水平(P25–P50)、中等水平(P50–P75)、和高水平(>P75)。拟合单变量二元LR后,我们将具有统计学意义的变量(p<0.01)纳入进一步的多变量分析中,结果显示:产妇年龄和体重指数、不孕症持续时间、既往ART周期、向前运动精子活力、促性腺激素(Gn)持续时间、Gn总剂量、基础卵泡刺激素(FSH)、人绒毛促性腺激素(HCG)日的雌二醇(E2)和HCG日的黄体生成素(LH)与活产率显著相关(表2)。



2、机器学习结果


我们使用三种不同的机器学习算法(RF,XGBoost,LightGBM)将筛选出的变量合并到多变量分析中。在所有三种算法中,七个指标被确定为最重要的指标:产妇年龄、不孕症持续时间、基础FSH、向前运动精子活力以及HCG日的E2、LH和P(图2)。除不孕症持续时间外,我们通过使用其余6个定量变量的ROC曲线确定了预测活产结果的最佳临界值,确定的临界值为:产妇年龄、基础FSH、向前运动精子活力以及HCG日E2、LH和P的最佳临界值为产妇年龄36.97岁,基础FSH为5.57mIU/mL,向前运动精子活力为33.52%,E2为7227.50pg/mL,HCG日LH为3.04mIU/mL,HCG日P为1.33ng/mL(图3)。




最后,我们仅使用上述7个变量和逻辑回归和三种不同的机器学习算法(RF、XGBoost、LightGBM)构建了预测模型。交叉验证和引导方法都表明LR和RF具有最佳的模型性能。具体而言,LR的交叉验证AUROC为0.671(95%CI0.630-0.713),Brier评分为0.183(95%CI0.170-0.196),AUROC为0.671(95%CI0.662-0.683),Brier评分为0.183(95%CI0.179-0.187)用于引导。RF具有相似的鉴别和校准性能,其次是XGBoost和LightGBM(表3)。标准化回归系数表明,在纳入的7个指标中,产妇年龄与活产结局的相关性最强,其次是HCG日的P,HCG日的E2,而基础FSH表现为最弱的预测因子。



五、文章小结


综上所述,我们使用逻辑回归和机器学习算法为接受IVF的夫妇(有或没有ICSI治疗)的活产结局构建了预后预测模型。由不同方法产生的模型产生了相似的预测性能,并且logistic回归模型被认为具有最佳性能,并被推荐用于进一步验证。未来对纵向设计的研究并纳入更有意义的指标是必要的,以验证和提高当前模型的预测准确性。



参考文献:

Peng J, Geng X, Zhao Y, Hou Z, Tian X, Liu X, Xiao Y, Liu Y. Machine learning algorithms in constructing prediction models for assisted reproductive technology (ART) related live birth outcomes. Sci Rep. 2024 Dec 30;14(1):32083. doi: 10.1038/s41598-024-83781-x. PMID: 39738723; PMCID: PMC11685426.




上一篇:超声标志物对复发性流产妊娠结局的预测价值:一项回顾性研究

下一篇:02.10-02.16 临床预测模型研究顶刊快报



邮编:400000
联系电话:13651835632
电子邮件:zhoubaihao910@126.com
地址:重庆市沙坪坝区龙湖光年4号楼
Copyright © 2022 重庆嘉舟生物科技有限公司 All Rights Reserved 渝ICP备2022013225号