TCGADataPrimer..docx

下载文档 降价啦

37
0
约6.66千字
约 8页
2017-01-12 发布于重庆
举报
版权申诉
保障服务

TCGADataPrimer..docx

1、本文档共8页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

TCGADataPrimer.

TCGA Data Primer TCGA数据入门Added by Anna Chu, last edited by Jillaine Hadfield on Oct 27 2011 翻译：任重鲁TCGA数据入门提供了对TCGA和数据的高水平描述，这些数据同样提供给研究团体。这个入门介绍了TCGA数据，数据流程以及数据应用。数据入门一共包括以下几个部分：1. TCGA简介；2. TCGA数据概述；3. TCGA数据档案；4. 数据访问；5. 处理TCGA数据。第一、TCGA数据简介本章节提供对于TCGA及其产生的数据的高水平描述，分为以下四个部分：1. TCGA概观；2. 隐私策略；3. TCGA数据流程；4. TCGA主要标示符。TCGA概观The Cancer Genome Atlas(TCGA)癌症基因组图谱是企图全面的并列的去努力地加速理解癌症的分子基础，它通过利用包括大规模基因组测序的基因组分析技术来实现。TCGA的总体目标是提高我们对癌症的诊断、治疗和预防的能力。为了以科学严谨的方式达到这个目标，美国国立癌症研究所(National Cancer Institute NCI)和美国国立人类基因组研究所(National Human Genome Research Institute NHGRI)用分阶段的策略来启动TCGA。试点项目开发并测试了系统地探究人类20多种癌症中全基因组图谱的改变所需的研究框架。查看TCGA来获得关于这个项目更多的信息。隐私策略TCGA项目在从人类癌症参与者中收集的样本里生产出大量的基因组信息。项目同样收集了这些样本的大量临床信息。汇总的数据对每一个个体都是独一无二的，尽管数据里缺少任何直接识别个体的信息，但是仍然存在被生物信息学方法和/或第三方数据库重新识别出个体的风险。因为参与者隐私保护是NIH，NCI和TCGA最为关注的，人的主体性的保护和数据访问政策的执行，用来使得捐助人隐私风险最小化并且他们数据的机密性也有所妥协。作为这一努力的一部分，从TCGA生成的数据被分为两个层级：Open access，开放访问，存储的数据不能被汇总产生一个对于个体来说是独一无二的数据集。这一层级不需要用户的认证去访问数据。Controlled access，受约束的访问，网站把临床数据和潜在地能用来识别单独个体的唯一个体信息保护起来。这一层级需要用于的认证区访问数据。查看Access Control Policy来获得关于数据分层的更多信息。TCGA数据流程附图中说明的以下步骤总结了通过TCGA管道的数据流程：1.组织样本及其临床数据是由Tissue Source Sites(TSS)组织来源点收集的，然后送交给Biospecimen Core Resources(BCRs)生物标本核心资源。2.BCRs提交临床数据和元数据到Data Coordinating Center(DCC)数据整理中心，并把分析物送交给Genome Characterization Center(GCCs)基因组鉴定中心和Sequencing Center(GSCs)测序中心，在这里生成突变信号并把信号提交到DCC。3.GSCs同样也提交跟踪文件、序列和比对图到Cancer Genomics Hub(CGHub)癌症基因组中心。4.被提交到DCC和CGHub的数据可供研究团体和Genome Data Analysis Centers(GDACs)基因组数据分析中西使用。5.分析渠道和GDACs产出的数据结果通过DCC对研究团体提供服务。下表提供了对来自TCGA不同中心和小组的快速总览，要想对特定的小组或中心获得更多的信息，请单击相应的标签：中心/小组描述TSS组织来源点，收集样本（组织，细胞，血液）和临床元数据，然后把这些数据和样本送到BCR。每一个组织来源点都有一个ID来识别。BCR生物标本核心资源，是TCGA的样本中心，在这里样本及其参与者的临床信息被小心地分类，处理，质量检验和存储。分析物在BCR被等分并且分配等分条形码，之后送到其它中心。GCC基因组鉴定中心，在这里用高通量技术来分析癌症基因组的改变。鉴定出来的基因组的改变被GSCs用来进一步的研究。GCCs把在数据档案中的鉴定实验的实验结果文件转移到DCC。GSC基因组测序中心，在这里利用高通量方法去识别各种癌症的基因组序列中的改变。GSCs对分析物（由BCRs提供）进行测序并且分析假定的体细胞和生殖细胞的突变。测序结果被送到癌症基因组中心，突变结果被送到被送到DCC。DCC数据整理中心，是提供TCGA数据的核心。DCC对数据格式进行标准化并且验证提交的数据。 DCC接受并且验证从BCRs，GCCs和GSCs获得的数据，之后研究团体才能通过TCGA门户网站的应用程序对