发布时间: 2025-10-29 09:39:34
2025年10月3日,刘珂珂等人在《China CDC Wkly》上发表了一篇题为《Predicting Cycloplegic Spherical Equivalent Refraction Among Children and Adolescents Using Non-cycloplegic Data and Machine Learning—China, 2022-2024》的文章。本研究旨在开发和验证一种基于机器学习(ML)的模型,利用非睫状肌麻痹屈光等效球镜、眼轴长度、角膜曲率半径、轴长/角膜曲率半径比值和裸眼视力等参数,预测5-18岁儿童的睫状肌麻痹等效球镜,为在无法实施睫状肌麻痹的情况下进行大规模屈光不正监测提供实用工具。
一、研究背景
屈光不正筛查是中国儿童面临的一项重大公共卫生挑战,研究预计到2050年,中国城乡儿童及青少年的近视率将处于高位,高度近视比例也显著上升。睫状肌麻痹验光是评估儿童屈光不正的金标准,但由于实际操作中的限制和潜在副作用,难以在大规模学校筛查中广泛实施。目前依赖的非睫状肌麻痹验光存在较大变异性,尤其在调节力强的低龄儿童中。近年来,ML技术在眼科参数预测中展现出潜力,但其在桥接非睫状肌麻痹与睫状肌麻痹测量值方面的应用,在基于人群的研究中仍探索不足。眼部生物参数是评估儿童远视储备和屈光发育的重要客观指标。
二、数据来源
数据来源于2020年至2024年中国疾病预防控制中心组织的一项全国性儿童青少年眼部发育横断面调查,覆盖北京、山西、辽宁、浙江、山东、河南、湖南、广东、重庆和陕西等10个省级行政区。多数地区根据经济发展水平选取两个城市,采用多阶段整群抽样方法从幼儿园至高中招募学生。所有参与者均接受标准化眼部检查,包括使用同一型号台式自动验光仪进行非睫状肌麻痹和睫状肌麻痹验光,睫状肌麻痹使用0.5%托吡卡胺每5分钟一次、共四次。仅分析右眼数据。最终纳入58,252名参与者,训练集46,603人(80.0%),测试集11,649人(20.0%),两组在年龄、性别、城乡分布及眼部参数上均均衡。患者入组流程见补充图S1。
三、研究方法
等效球镜计算为球镜度数加一半柱镜度数。变量选择通过单变量分析评估各预测变量与屈光误差的关联,计算方差膨胀因子(VIFs)评估多重共线性,并应用最小绝对收缩和选择算子(LASSO)回归筛选变量。最终纳入分析的变量包括眼轴长度、角膜曲率半径、轴长/角膜曲率半径比值、裸眼视力和年龄;性别和地区虽具理论重要性但未在LASSO模型中保留。数据集按80:20随机分为训练集和测试集。首先建立多元线性回归模型作为基线,其在测试集上R²为0.79,均方根误差(RMSE)为0.73屈光度(D),平均绝对误差(MAE)为0.54 D,表明需更灵活算法。随后采用随机森林回归和极端梯度提升(XGBoost)回归构建预测模型,性能通过R²、RMSE、实际-预测值散点图和Bland–Altman图评估。所有分析使用R软件(4.5.1版)完成。
四、结果
1. 基线特征
表1总结了参与者的基线特征,显示训练集和测试集在年龄、性别、城乡分布以及各项眼部测量指标上均具有良好平衡性。训练集与测试集的平均年龄分别为8.25±2.82岁和8.27±2.86岁,性别分布相似(男性占比51.7% vs 51.8%),城乡居住模式接近(城市居民占比76.6% vs 76.1%)。两组在非睫状肌麻痹等效球镜(-0.63±1.44 D vs -0.64±1.46 D)、睫状肌麻痹等效球镜(均为0.09±1.57 D)、眼轴长度(23.20±1.04 mm vs 23.21±1.05 mm)、角膜曲率半径(7.78±0.26 mm vs 7.79±0.26 mm)、眼轴长度/角膜曲率半径比值(均为2.98±0.12)和裸眼视力(均为4.85±0.28 logMAR)上均非常接近。
2. 模型性能比较
随机森林和XGBoost模型均表现出强大的预测性能。如表2所示,随机森林模型在测试集上达到了R²=0.88,RMSE为0.55 D,MAE为0.40 D;而XGBoost模型表现相当,R²=0.89,RMSE=0.54 D,MAE=0.39 D。训练集的性能更为优异,随机森林的R²高达0.94,RMSE为0.39 D;XGBoost在训练集上R²为0.90,RMSE为0.51 D。这些数值表明两种机器学习算法均能较好地根据非睫状肌麻痹数据预测睫状肌麻痹等效球镜,且XGBoost在测试集上的综合表现略优于随机森林。
3. 特征重要性
通过置换特征重要性分析,两种机器学习模型均识别出一致的关键预测因子。如图1所示,在测试集中,对随机森林模型最重要的四个特征依次是非睫状肌麻痹等效球镜、眼轴长度/角膜曲率半径比值、眼轴长度和裸眼视力;XGBoost模型的特征重要性排序与此完全一致。在训练集中,这一排序也保持稳定。角膜曲率半径和年龄这两个变量虽然也被纳入模型,但其相对重要性显著低于前四个核心预测因子。这一结果凸显了结合屈光度和生物测量参数进行综合预测的价值。
4. 预测一致性
模型预测值与实际测量值之间的一致性通过散点图和Bland-Altman图进行评估。如图2所示,测试集中两种模型的预测值与实际睫状肌麻痹等效球镜值在一致性线附近紧密分布,随机森林(图2A)和XGBoost(图2C)的散点图均显示出良好的线性趋势,表明预测精度较高。Bland-Altman分析(图3)进一步证实了这一点:在测试集中,两种模型95%的预测误差均落在±2.0 D的界限内,且平均差异接近于零。尽管训练集(图3B和D)的一致性界限比测试集(图3A和C)更窄,这符合预期,但测试集的结果仍表明模型在未见数据上具有可接受的一致性和较小的残余偏差。
五、总结
本研究成功构建了基于随机森林和XGBoost的ML模型,能够利用非睫状肌麻痹验光数据和眼部生物参数准确预测儿童及青少年的睫状肌麻痹等效球镜。模型在测试集中表现出优异的预测性能,明确了非睫状肌麻痹等效球镜、眼轴长度/角膜曲率半径比值、眼轴长度和裸眼视力为关键预测因子。Bland-Altman分析证实了预测结果与真实值之间的良好一致性。该模型为在睫状肌麻痹验光不可行的情况下,进行大规模屈光不正监测提供了准确且实用的替代方案。







上一篇:三阴性乳腺癌识别和预后预测的人工智能系统的开发和验证:一项多中心回顾性研究