发布时间: 2024-04-03 09:30:04
先单因素后多因素筛选变量:
利用先单因素回归,后多因素回归筛选出较为显著的变量作为预测因子(可选择p<0.05或者0.1)
逻辑回归逐步法筛选变量:
利用R中“rms”包中的“stepAIC”函数帮助我们以AIC为停止标准来筛选变量
利用LASSO回归,以增加惩罚项的方式来筛选变量,选择变量参数一般使用lamuda.min或者lamuda.1se。
示例1
该文首先利用三种方法筛选变量,后比较三种方法AIC,根据AIC来判断那个方法筛选出来变量更适合用来预测
示例2
该文章利用LASSO先筛选变量,再利用逻辑回归向后法最终选出变量
总结:临床预测模型的核心是变量筛选,只有筛选出具有较高区分度的指标,才能提升模型的预测能力。我们也展开讨论各个方法的优缺点
优势:简单快捷筛选变量,可以考虑多个因素对结局的影响,减少单个因素带来的偏倚。
劣势:待筛选变量中若存在较强相关性,回给模型带来共线性风险
优势:(1)过拟合风险降低:LASSO通过对系数加入L1正则化项来限制系数的大小,有效地减少了模型的过拟合风险。这使得LASSO在处理高维数据或样本量较少的情况下表现更为出色。(2)处理共线性:LASSO能够在变量之间存在共线性的情况下进行变量选择。通过将相关性高的特征的系数推向零,LASSO可以帮助处理共线性问题,提高模型的稳定性和可靠性。(3)交叉验证选择正则化参数:在LASSO中,正则化参数(lambda)的选择可以通过交叉验证来完成,从而获得更好的泛化性能。这使得LASSO在不同数据集上都能够取得较好的性能,并且更具普适性。
但是变量筛选并没有一个确定性的套路,若单纯逻辑回归或者LASSO回归不能给我们筛选出理想的变量,利用考虑使用多种方法共同使用来筛选变量。
参考文献:
[1] Dai YF, Lin LZ, Lin N, He DQ, Guo DH, Xue HL, Li Y, Xie X, Xu LP, He SQ. APA scoring system: a novel predictive model based on risk factors of pregnancy loss for recurrent spontaneous abortion patients. J Obstet Gynaecol. 2022 Aug;42(6):2069-2074. doi: 10.1080/01443615.2021.2021507. Epub 2022 Jan 20. PMID: 35048758.
[2] Kolte AM, Westergaard D, Lidegaard Ø, Brunak S, Nielsen HS. Chance of live birth: a nationwide, registry-based cohort study. Hum Reprod. 2021 Mar 18;36(4):1065-1073. doi: 10.1093/humrep/deaa326. PMID: 33394013.
[3] Li Y, Wu IXY, Wang X, Song J, Chen Q, Zhang W. Immunological parameters of maternal peripheral blood as predictors of future pregnancy outcomes in patients with unexplained recurrent pregnancy loss. Acta Obstet Gynecol Scand. 2024 Mar 21. doi: 10.1111/aogs.14832. Epub ahead of print. PMID: 38511530.
[4] Meng X, Wang N, Yu M, Kong D, Zhang Z, Chang X, Guo Y, Li Y. Development of a nomogram for predicting grade 2 or higher acute hematologic toxicity of cervical cancer after the pelvic bone marrow sparing radiotherapy. Front Public Health. 2022 Sep 9;10:993443. doi: 10.3389/fpubh.2022.993443. PMID: 36159246; PMCID: PMC9501870.
上一篇:孕期糖尿病风险降低新策略?超重孕妇鱼油与益生菌干预效果揭秘