语言 ▾
中文EN

NCDB数据库使用指南及案例

发布时间:  2024-08-28 09:29:33


1.数据库概述

1.1背景信息

NCDB数据库(http://www.facs.org/quality-programs /cancer/ncdb.)是由美国癌症协会和美国外科学院癌症委员会联合创立的,旨在收集和分析癌症治疗和结果数据。该数据库自1989年起持续发展,收集美国1500多家医院的数据,收录了超过70%的新诊断癌症病例,已经成为一个全面的癌症患者数据源,为美国境内数百万癌症病例的研究提供了重要支持。


1.2数据库用途

NCDB主要用于分析和改善癌症的诊断、治疗和预后。通过对健康、社会经济等领域的数据收集与分析,NCDB能够帮助医疗机构和研究人员识别癌症治疗的最佳实践,发现治疗中的差异,并制定改善癌症治疗效果的策略。

癌症治疗效果分析:研究不同治疗方法对各种癌症类型的效果,包括手术、化疗、放疗的组合疗法。

生存率研究:分析不同群体(如不同种族、性别、社会经济状态)的癌症生存率,识别健康差异。

健康政策评估:评估健康政策或治疗指南的实施效果,帮助制定新的治疗策略。

医疗质量评估:研究不同医院或地区的治疗质量差异,推动医疗服务改进。

1.3数据采集方式

NCDB的数据主要通过参与项目的医疗机构收集,这些机构包括全美各地经过认证的癌症治疗中心。数据采集方式包括使用问卷调查、病例报告系统、以及医院病历系统的数据记录。

NCDB的数据质量控制非常严格。参与的医疗机构必须遵守数据提交的标准,并定期接受审计和评估,以确保数据的准确性和完整性。每个数据提交周期结束后,数据会经过多重检查和验证,以确保其符合研究和分析的需求。NCDB的数据覆盖了自1985年起的所有病例,且每年都会更新。这使得研究人员能够进行时间趋势分析,观察不同时间点的治疗效果和生存率变化,识别出长期趋势和模式。

1.4样本特征

NCDB的数据样本涵盖了各种癌症患者的人口特征,如年龄、性别、地理位置、种族、社会经济状态等。每年的数据包含超过70%的新诊断的癌症病例,因此它是一个非常具有代表性的大数据集。

NCDB的患者群体主要包括那些在美国癌症委员会(CoC)认可的癌症计划中接受了癌症诊断或治疗的个体。然而,那些仅与医生在CoC机构中互动但没有实际接受护理的患者并不会被纳入NCDB的报告范围。该数据库涵盖的患者通常是被诊断为大多数原位或浸润性原发肿瘤的患者,以及患有大多数良性脑部病变的个体。然而,由于某些皮肤癌和子宫颈原位癌的高发病率和较高治愈率,这些病例的治疗信息可以不向NCDB报告。此外,NCDB在收集数据时不会包括个人识别信息,如姓名和社会安全号码,这种做法可能会对数据库中的患者群体产生一定影响。对于被诊断出患有多种恶性肿瘤的患者(无论这些诊断是否在同一时间或不同时间发生),每一个诊断都会被记录为独立的NCDB条目,且这些条目之间不会进行关联。


2.使用方式

2.1访问和获取

用户可以通过注册和审核后访问NCDB的数据。这通常包括学术研究人员、公共卫生专家和医疗机构。访问权限可能需要提交研究目的和计划,以确保数据的使用符合伦理规范。

访问NCDB的数据通常需要通过申请程序,并需要满足一定的资格条件。学术研究人员、医疗机构和政府机构通常可以申请访问权限,但需提交详细的研究计划和伦理审查结果。数据访问可能有不同级别,从汇总数据到个体级别数据,具体权限视研究目的和数据敏感性而定。


 2.2数据使用指南

NCDB为用户提供详细的操作指南,说明如何下载数据、使用统计工具进行分析、以及如何解释分析结果。用户通常需要具备一定的数据分析技能,才能充分利用这些数据进行研究。


3.数据类型

NCDB数据库包括大量的癌症相关数据类型,主要包括健康指标、肿瘤特征、治疗方案、治疗结果、社会经济状况等。这些数据有助于研究癌症的发病率、治疗效果、以及不同社会群体的健康差异。

NCDB的数据是高度结构化的,分为多个数据集和变量。每个数据集通常与癌症的某一特定方面相关,如肿瘤的类型、分期、治疗方法、患者生存率等。数据库还包括有关医院信息、治疗设备、以及患者的长期随访数据。每个记录都包含患者的详细人口统计信息、肿瘤特征(如肿瘤的大小、分级、位置)、治疗方法(如手术、放疗、化疗)和治疗结果(如生存时间、复发情况)。

尽管NCDB数据非常丰富,但它也有一定的局限性。例如,它主要包括经过认证的癌症治疗中心的数据,而不一定代表所有癌症患者。数据中的社会经济变量有限,可能无法全面反映患者的社会背景。此外,尽管NCDB包含了大量的病例信息,但个别患者的详细治疗历史和病程进展可能未完全记录,尤其是在多次转诊或跨机构治疗的情况下。


4.研究案例


2024年8月,美国明尼苏达州罗切斯特市梅奥诊所神经外科学者在《J Neurooncol》(二区Top,IF=3.2)发表题为:“The impact of socioeconomic determinants on the access to care and survival in patients with spinal chordomas- a national cancer database analysis”的研究论文。文章基于NCDB数据库,根据种族和社会经济决定因素,构建了 Kaplan-Meier 曲线以比较不同群体之间的生存概率。结果表明,在拥有其他政府保险的患者、高收入四分位数患者、大都市地区患者和学术/研究中心患者中,生存概率更高。在未投保的患者、农村地区和社区癌症计划中,生存概率较低。


2024年7月美国纽约州西奈山伊坎医学院人口健康科学与政策系医疗保健提供科学研究所学者在《Otolaryngol Head Neck Surg》(一区Top,IF=2.6)发表题为:“Machine Learning Methods in Classification of Prolonged Radiation Therapy in Oropharyngeal Cancer: National Cancer Database”的研究论文。文章基于NCDB数据库,研究机器学习 (ML) 算法在对口咽鳞状细胞癌 (OPSCC) 患者延长放射治疗持续时间(RTD)风险进行分层的准确性。将 8 种不同的 ML 算法与使用各种性能指标的传统逻辑回归进行了比较。结果表明,RF 优于传统的 logistic 回归。应用此类算法可能有助于识别高危患者,并实现早期干预以提高生存率。


2024年5月,内布拉斯加大学医学中心学者在《Cancers (Basel)》(一区Top,IF=4.5)发表题为:“Overall Survival and Prognostic Factors in Metastatic Triple-Negative Breast Cancer: A National Cancer Database Analysis”的研究论文。文章基于NCDB数据库,采用Kaplan-Meier曲线估计转移性三阴性乳腺癌总生存期 (OS) 结局,在多变量分析中采用向后消除的Cox比例风险模型来识别影响OS的因素,通过分析,确定了转移性三阴性乳腺癌的预后因素。这些发现将有助于在诊断时个体化预后,优化治疗策略,并在未来的临床试验中促进患者分层。




上一篇:hdWGCNA,为单细胞与机器学习搭起了“友谊”的桥梁

下一篇:CLHLS数据库使用指南及案例



邮编:400000
联系电话:13651835632
电子邮件:zhoubaihao910@126.com
地址:重庆市沙坪坝区龙湖光年4号楼
Copyright © 2022 重庆嘉舟生物科技有限公司 All Rights Reserved 渝ICP备2022013225号