发布时间: 2024-10-14 14:08:02
一、TCGA数据库概述
(一)背景信息
TCGA数据库即肿瘤基因组图谱计划,由美国国家癌症研究所(NCI)和美国国家人类基因组研究所(NHGRI)于2006年联合启动的项目,收录了各种人类癌症(包括亚型在内的肿瘤)的临床数据,基因组变异,mRNA表达,miRNA表达,甲基化等数据,是癌症研究者很重要的数据来源。TCGA数据库收录了33种癌症,超过20000个样本的数据信息。这些数据包括转录组(mRNA,lncRNA和miRNA)、基因组(突变、CNV)、表观组(DNA甲基化)、蛋白组及临床信息数据。它的优点是数据质量高,组学数据丰富,样本量大以及临床信息全面。相比于GEO数据库,TCGA数据库是专门收录癌症患者相关信息的。TCGA包括了癌症病人各种各样的测序数据,包括RNA 测序,MicroRNA 测序,DNA 测序,基于 SNP 的平台,基于芯片的 DNA 甲基化测序,反相芯片。
(二)TCGA数据库用途
TCGA数据库集成了多种肿瘤类型的基因数据、临床数据和图片数据。TCGA数据对于研究肿瘤基因组变异、分子特征和临床表现具有重要意义,可以改善临床诊断和治疗肿瘤的效果。
(三)TCGA数据采集方式
TCGA数据库通过收集整理多种癌症相关的各种组学数据,提供了一个大型的癌症研究参考数据库。
(四)TCGA数据库样本特征
TCGA数据库收录了33种癌症类型,超过30000例肿瘤样本,超过20000个基因的表达信息。TCGA存放的主要是转录组数据。实际上,TCGA还存放了基因组、表观组和蛋白组的数据,而且这些数据与转录组数据是重叠的,临床信息也非常全面。
二、TCGA数据库使用指南
(一)访问和获取
(二)数据下载
TCGA数据库免费使用,无需注册即可下载使用
1、进入官网点击进入“Repository”。
2、进入“Repository”后,先看右上角“Chart”,处是否为0,不为0的话要先清除之前下载的数据,清除的方法是选择“Chart”,然后点击右下角的“Remove From Cart”进行删除。
3、进入“Repository”后,在右边筛选需要下载的数据和格式,右边筛选包括,数据类别,数据类型,实验策略,工作流类型,数据格式。以临床、病理报告为例。
4、选择好数据加入到“Chart”。
5、打开右上角的购物车标图案,里面包含了要下载的文件,在下载相关数据中点击想要下载的数据即可免费下载。
6、下载之后的界面如下:
(三)TCGA数据使用
数据下载完成之后,可以对数据格式进行转换,或者直接用R软件读取文件进行后续分析。TCGA数据库目前也存在一些局限。首先,TCGA是针对肿瘤研究而开启的研究计划,里面不含有非肿瘤疾病的数据,如果开展非肿瘤疾病的数据挖掘,要用其他数据库,如GEO。其次,TCGA的样本以肿瘤组织为主,正常或癌旁对照组织的样本数过少,往往需要结合GTEx数据库中的正常样本进行校正。第三,目前单细胞测序已经普及,而TCGA的数据仍然局限于二代测序,需要结合其他数据库来完成深度分析。
三、TCGA数据类型
TCGA存放的主要是转录组数据。同时涵盖了基因组、表观遗传、蛋白组等各个组学数据,提供了一个全方位、多维度的数据。
四、TCGA数据库研究案例
透明细胞肾细胞癌频繁基因突变及其与临床病理特征的相关性: 基于中国人群和 TCGA 数据库的初步研究
2024年8月,北京致癌作用与转化研究重点实验室泌尿外科学者在《BMC urology》(医学-3区)发表了题为“Frequent gene mutations and the correlations with clinicopathological features in clear cell renal cell carcinoma: preliminary study based on Chinese population and TCGA database”的研究论文。本文章基于癌症基因组图谱 (TCGA) 在线数据库,使用 TCGA-KIRC 队列来验证中心突变基因表达与 ccRCC 预后之间的关系。应用单因素和多因素 Cox 回归分析来评估该枢纽基因的预后意义。结果表明:VHL 基因是 ccRCC 中最常见的突变基因。在我们的队列中,BAP1 和 PTEN 与较高的肿瘤分级显著相关,DNM2 与较低的肿瘤等级显著相关。BAP1 或 PTEN、BAP1 或 SETD2、BAP1 或 TP53、BAP1 或 MTOR、BAP1 或 FAT1 和 BAP1 或 AR 突变型 (MT) 组与我们的队列中较高的肿瘤分级显著相关。此外,我们发现 HMCN1 是一个枢纽突变基因,与较差的预后密切相关,并可能增强抗肿瘤免疫反应。
TCGA 数据库中 LGALS2 表达的调查揭示了其在乳腺癌免疫治疗和耐药性中的临床相关性
2023年10月,吉林大学动物学院实验动物系学者在《Scientific reports》(综合性期刊-2区)发表了题为“Investigation of LGALS2 expression in the TCGA database reveals its clinical relevance in breast cancer immunotherapy and drug resistance”的研究论文。本研究基于 TCGA 和 METABRI 等公共数据库,通过构建 Kaplan-Meier 生存曲线、Spearman 相关性分析、岭回归模型,分析了 LGALS2 的表达水平以及 BRCA 患者的临床病理特征、诊断和预后、免疫浸润等。研究表明,LGALS2 可作为乳腺癌的诊断和预后标志物,它调节 T 细胞参与肿瘤免疫治疗的生物活性,减少患者临床耐药的发生。
GRN 是一种预后生物标志物,与神经胶质瘤的免疫浸润相关:一项基于 TCGA 数据的研究
2023年4月,中南大学湘雅医院学者在《Frontiers in oncology》(医学-3区)发表了题目为“GRN is a prognostic biomarker and correlated with immune infiltration in glioma: A study based on TCGA data”的研究论文,本文基于TCGA 数据库,采用 Logistic 回归研究临床数据与 GRN 表达之间的关联。还使用多变量 Cox 分析评估了 GRN 表达和其他临床病理变量 (性别和年龄) 对生存率的影响。使用了相关性热图来识别 22 种不同类型的免疫细胞相关性。研究结果表明:GRN 表达增加与肿瘤分级有显着关系,GRN 是 GBM 状态的潜在指标。