语言 ▾
中文EN

hdWGCNA,为单细胞与机器学习搭起了“友谊”的桥梁

发布时间:  2024-08-28 09:06:16



hdWGCNA是针对高维单细胞转录组数据的一类分析方法,它可以跨细胞和空间层次进行基因共表达分析,所以hdWGCNA分析还是沿用以往的WGCNA的方法,识别高度共表达模块,将高维的基因数据转为共表达模块基因,从而完成分析。那么,hdWGCNA与机器学习的结合能擦出什么火花呢,一起来看看吧。


题目:IPF 中的新型 AT2 细胞亚群和诊断生物标志物:将机器学习与单细胞分析相结合

杂志:Int J Mol Sci

影响因子:IF=6.055

发表时间:2024.7.15




1

研究背景


特发性肺纤维化 (IPF) 是一种具有挑战性的间质性肺疾病,涉及肺泡组织重塑、成纤维细胞增殖和过量细胞外基质 (ECM) 积聚。诊断后平均生存期约为 3 年,治疗选择有限,因此,全面了解 IPF 的发病机制并制定有效的早期检测和治疗方法至关重要。上皮细胞功能障碍在特发性肺纤维化的发病机制中起着至关重要的作用。肺泡上皮 II 型细胞(AT2)是一个多样化且代谢活跃的细胞群,对表面活性剂的产生和肺功能的维持至关重要。AT2 细胞在肺稳态和疾病中表现出功能多样性。单细胞 RNA 测序 (scRNA-seq) 的最新进展极大地提高了我们对不同病理背景下细胞异质性的理解 。虽然之前的研究已经通过高通量分析表征了正常和纤维化肺组织中肺泡上皮细胞的转录谱,但对纤维化肺组织中 AT2 细胞亚型的组成、基因表达模式和具体作用的全面了解仍然难以实现。







2

研究思路


对正常和纤维化肺组织的单细胞 RNA 测序数据进行了全面检查,分析了 IPF 和正常组织之间细胞组成的变化,并研究了每个细胞群中差异表达的基因。随后,通过使用 hdWGCNA 确定了与 IR_AT2 亚型相关的三个独特基因共表达模块。此外,使用各种机器学习算法改进并确定了 IPF 相关的 AT2 相关基因 (IARG) 特征。








3

数据来源










4

主要结果


1、正常和纤维化肺组织中 AT2 细胞的单细胞转录图谱

为了研究人类 IPF 肺组织内 AT2 细胞的异质性,作者收集并分析了 IPF 患者和正常对照的 scRNA-seq 数据,确定了 12 个主要细胞群,包括巨噬细胞、NK/T 细胞、AT2 细胞、肥大细胞、单核细胞、成纤维细胞、间充质干细胞 (MSC)、内皮细胞、棒状细胞、纤毛细胞、基底细胞和 AT1 细胞(图 2A-B)。随后检查了 IPF 和正常组织之间的细胞组成变化(图 2C)。此外,还对每个细胞群的差异表达基因 (DEG) 进行了分析(图 2D)。



然后作者又对AT2 细胞进行再分层和注释,将 AT2 细胞分为 11 个假定细胞群(图 3A)。结果发现,与正常肺组织相比,纤维化肺组织中 AT2 细胞簇 10 和 11 显著增加,将其定义为 IPF 相关 AT2 (IR_AT2) 簇(图 3A-B 和图 S1)。这一发现表明这些特定细胞群在纤维化中可能发挥关键作用。

为了进一步探讨IPF相关AT2细胞参与肺纤维化发展的潜在分子机制,作者对IPF相关AT2细胞中高表达的特征基因进行了功能富集分析。结果显示HIF1和IL17信号通路、细胞衰老和IR_AT2簇1之间存在显著关联,而IR_AT2簇2的特征基因在p53和hedgehog信号通路以及细胞周期中显著富集(图3D-F)。此外,转录因子分析表明,IR_AT2 簇 1 和 IR_AT2 簇 2 中的转录因子KLF5和MYC分别被显著激活(图 3G)。



2、拟时间轨迹分析与细胞通讯分析

为了研究 IR_AT2 细胞在 IPF 发展中的起源,对 AT2 细胞进行了拟时序轨迹分析,该分析揭示了 IR_AT2 细胞在发育轨迹中的独特位置(图4A-C)。 

为了系统地研究各种 AT2 细胞亚群的细胞间相互作用,作者进行了细胞通讯分析。该分析表明,IR_AT2 细胞表现出与参与 IPF 发病机制的其他细胞亚型的强大通信能力(图 4D). IR_AT2 簇 1 和 IR_AT2 簇 2 均表现出更强的分泌能力(图4E)。 另外,研究发现,IR_AT2 簇可以通过粘附配体-受体对(如 MIF/CD74/CD44、GDF5/TGFBR2 和 GAS6/AXL)直接与其他 AT2 细胞亚型相互作用(图 4F、G)。此外,在 IR_AT2 细胞与其他细胞亚型之间的通讯中,促炎信号通路(包括 MIF、GDF 和 GAS)上调(图 4H-J 和图 S2)。



3、通过 hdWGCNA 识别与 IPF 相关的 AT2 相关的关键模块

作者利用高维加权基因共表达网络分析 (hdWGCNA)来检查 IR_AT2 细胞内的关键模块。该分析揭示了 12 个不同的基因共表达模块(图5B-C 和图S3)。值得注意的是,黄色、绿黄色、蓝色和紫色模块主要在 IR_AT2 细胞内表现出高水平的激活(图 5D)。 此外,作者还探讨了模块之间的相关性(图 5E-F)。



4、各种机器学习算法识别 IPF 相关 AT2 细胞的特征基因

基于hdWGCNA筛选结果,进一步利用外部数据集(GSE70866)采用三种机器学习算法识别与IPF相关AT2细胞相关的枢纽基因。LASSO回归算法确定了与IPF患者预后显著相关的10个关键基因(图 6A-B)。随机森林分析按重要性对所有基因进行排序,并突出显示前 30 个基因(图 6C-D)。 此外,Xgboost算法筛选出了10个关键基因(图 6E). 最后确定了三个关键基因:IER3、KRT18和RAB25。



5、基于机器学习的特发性肺纤维化预测模型的构建

为了更深入地了解 IR_AT2 细胞基因特征与纤维化之间的相关性,首先分析了正常和纤维化肺组织中与 IPF 相关 AT2 细胞 (IARG) 相关的基因评分。研究结果显示 IPF 肺组织中的 IARG 评分显著增加,表明这些基因与纤维化过程之间存在潜在相关性 (图6G)。

然后,作者基于已识别的 IARG 特征构建的预测模型来预测 IPF 的发病和进展。首先,进行了ROC曲线分析,以评估已识别的枢纽基因的诊断性能。结果显示,IER3、KRT18、RAB25和整体 IARG 评分均表现出高于 0.65 的 AUC 值,表明这三个基因特征可有效区分 IPF 患者(图7A-B)。此外,IPF 患者中这三种基因水平升高和 IARG 评分较高与生存时间较短相关(图7C-D)。肺一氧化碳扩散能力预测百分比 (% DLCO) 与 IARG 评分升高之间始终存在负相关性 (相关系数 = −0.44,p值 < 0.05),如图所示图 7E。

最后,应用七种机器学习算法并优化每个模型的参数,然后重复五次十倍交叉验证。使用GSE110147数据集进行训练,使用GSE32537数据集评估最终模型的预测能力。通过评估两个模型的 AUC 值,最终选择了“svm”机器学习算法模型(图 7G-H)。








5

文章小结


该研究增强了我们对纤维化肺组织中 AT2 群体异质性的理解,通过揭示 AT2 亚群中独特的分子和生物学特征并强调特征基因的预后重要性,为 IPF 的发展提供了宝贵的见解。该研究的新颖之处在于它对 IPF 中的 AT2 亚型进行了全面的单细胞水平分类,识别了这些亚型特有的独特分子和生物学特征,并使用先进的计算方法来揭示预后基因特征。这种综合方法可以更深入地了解 AT2 细胞异质性及其在 IPF 进展中的作用,为潜在的靶向治疗策略铺平了道路。




上一篇:CFPS数据库使用指南及案例

下一篇:NCDB数据库使用指南及案例



邮编:400000
联系电话:13651835632
电子邮件:zhoubaihao910@126.com
地址:重庆市沙坪坝区龙湖光年4号楼
Copyright © 2022 重庆嘉舟生物科技有限公司 All Rights Reserved 渝ICP备2022013225号