2022年6月14日,一篇题为“Machine learning-based risk factor analysis and prevalence prediction of intestinal parasitic infections using epidemiological survey data”的机器学习研究论文发表在《PLOS neglected tropical diseases》,作者为Aziz Zafar等人。这项研究旨在将机器学习技术与传统逻辑回归相结合,分析肠道寄生虫感染的风险因素,并预测其流行率,从而为发展中国家如埃塞俄比亚的公共卫生决策提供支持。
先前的流行病学研究调查了各种寄生虫病的患病率和风险因素,包括原生动物和土壤传播的蠕虫(STH,例如钩虫和蛔虫)感染。尽管机器学习在数据分析方面取得了进展,但这些研究中的大多数仍使用传统的逻辑回归来识别重大风险因素。
这项研究基于2016年至2017年对埃塞俄比亚奥罗米亚地区学童的调查。研究获得了孩子父母或法定监护人的书面同意,并使用了由采访者主导的调查问卷。总共收集了954名埃塞俄比亚学童的54种肠道寄生虫病风险因素的调查数据。为了确保数据的完整性,我们剔除了缺乏任何一个结果变量值的样本,共排除了12例。最终用于分析的数据集中共有942个有效的样本。
对于每个样本,我们将感染分为二进制(感染或未感染)的四种结果,检测出任何一种寄生虫标记为“感染”:任何土壤传播的线虫(STH):蛔虫(A. lumbricoides)、鞭虫(T. trichiura)、钩虫(A. duodenale或N. americanus)以及丝虫(S. stercoralis);线虫:任何线虫寄生虫的卵或幼虫;原虫:贾第鞭毛虫(G. lamblia)或 阿米巴原虫(E. histolytica);任何寄生虫感染:任何原虫或线虫寄生虫。
在这项研究中,使用了对954名埃塞俄比亚学童的54种肠道寄生虫病风险因素的调查数据。研究使用了多种特征选择方法,包括信息增益(IG)、ReliefF(ReF)、联合互信息(JMI)和最小冗余最大相关性(MRMR)。此外,使用分类器(例如逻辑回归(LR)、支持向量机(SVM)、随机森林(RF)和XGBoost (XGB)预测儿童的寄生虫感染状况,并比较了它们的准确度和受试者工作特征曲线下面积(AUROC)得分。为了获得最佳模型训练,还进行了十倍交叉验证并调整了分类器超参数。为了平衡数据集,使用了合成少数过采样(SMOTE)方法。此外,研究还使用关联规则学习来建立风险因素与寄生虫感染之间的联系。
表1列出了研究中调查的所有风险因素,包括人口统计学变量、社会经济变量、健康相关变量、环境变量和血液学变量。本研究共纳入942名学童,其中54.8%(516名)为女性,55.7%(525名)居住在城市地区,9.2%(87名)年龄小于6岁,43.4%(408名)介于6至10岁之间,其余儿童年龄超过10岁。79.5%(749名)的儿童接受了驱虫治疗。感染情况如下:5.1%的儿童感染了线虫(48例),5.8%(55例)感染了原生动物,15.1%(142例)感染了任何类型的蠕虫,20.1%(189例)感染了任何寄生虫。
2. 特征选择方法与逻辑回归模型识别的风险因素比较
特征选择方法为风险因素分析提供了新的且互补于逻辑回归的方法。表2比较了通过特征选择方法与逻辑回归模型识别的风险因素。结果显示特征选择方法(IG、Ref、MRM、JMI)和逻辑回归模型在识别重要风险因素方面存在一定的重叠,但也揭示了一些新的风险因素。例如,频繁燃烧娜夫塔(nafta)、木炭、木柴和粪便在特征选择方法中多次出现,但在逻辑回归模型中未被识别。一些变量如家庭中有哮喘儿童、水源、茅草屋顶、母亲有花粉症、血小板计数和养猪在特征选择方法中被识别,但在逻辑回归模型中未被识别。
图1展示了不同分类器(LR、SVM、RF、XGBoost)在预测寄生虫感染方面的性能。当使用联合相互信息(JMI)考虑前20个风险因素或使用所有特征时,随机森林(RF)和支持向量机(SVM)分类器可实现最高准确率。感染的最佳预测因素是社会经济、人口统计学和血液学特征。
图2展示了不同模型(LR、SVM、RF、XGB)在预测寄生虫感染时的ROC曲线和AUC值。RF和SVM模型的AUC值最高,表明这些模型在预测寄生虫感染方面具有最高的区分能力。XGB模型的AUC值略低于RF和SVM,但仍优于LR模型。
表3列出了基于关联规则学习的前五条规则,这些规则揭示了某些风险因素组合与寄生虫感染之间的强关联。例如,拥有狗和马与寄生虫感染有强烈的关联,但这些动物在逻辑回归模型中未被识别为显著因素。频繁燃烧木柴和低平均红细胞血红蛋白浓度与寄生虫感染有关联。
研究结果强调了使用机器学习算法识别新风险因素和验证先前确定的风险因素的重要性。虽然在研究中,特征选择方法与逻辑回归重叠,但它们也揭示了大量这些方法未发现的风险因素。此外,证明了特征选择和关联规则学习是检测寄生虫感染风险因素的有效策略。最后,与LR分类器相比,SVM、RF和XGB分类器产生了高度准确的预测模型。表明与标准逻辑回归模型相结合,机器学习技术可以识别新的风险因素并预测感染风险。
Zafar A, Attia Z, Tesfaye M, et al. Machine learning-based risk factor analysis and prevalence prediction of intestinal parasitic infections using epidemiological survey data. PLoS Negl Trop Dis. 2022;16(6):e0010517. Published 2022 Jun 14. doi:10.1371/journal.pntd.0010517
上一篇:发文新思路:妊娠期体重轨迹和不良妊娠结局关联(潜在类别轨迹模型)
下一篇:金属和LE8与美国成人死亡率的交互关联:一项前瞻性队列研究