如何利用在线资源研究癌症基因组
【字体: 大 中 小 】 时间:2012年03月06日 来源:生物通
编辑推荐:
由于癌症基因组数据较为全面,目前进入这一领域研究的相关科研人员将能获得更多,更高质量的信息,但是研究分析不是一件容易的事情,近期知名生命科学期刊The Scientist杂志以“Combing the Cancer Genome”为题,介绍了癌症基因组研究中一些有效的在线资源,以及如何运用,可谓是这方面研究的指引手册。
生物通报道:癌症基因组研究无疑已成为癌症研究领域的一大热点,而且这种研究技术无需研究人员十分扎实的生物信息学基础,就能获得高回报——癌症研究人员已经积累了不少小突变,拷贝数变异,表观遗传学变化,表达水平差异的分析数据,以及大量癌症类型的临床特征数据,早在2008年科学家们就公布了首个癌症基因组序列(急性髓细胞白血病)。
这意味着目前进入这一领域研究的相关科研人员将能获得更多,更高质量的信息,当然研究分析不是一件容易的事情,正如Dana Farber癌症研究所的副教授William Hahn所说的那样,“要想了解这些信息,并掌握如何运用的方法,是一个巨大的挑战。”
近期知名生命科学期刊The Scientist杂志以“Combing the Cancer Genome”为题,介绍了癌症基因组研究中一些有效的在线资源,以及如何运用,可谓是这方面研究的指引手册。
文章指出,目前可获取的基因组数据来自几个大型国际合作组织,癌症基因组图谱研究计划(Cancer Genome Atlas pilot program,TCGA)就是其中一项,这是一项由美国国立癌症研究所和美国国家人类基因组研究合作进行的项目,于2005年晚期启动,目标是“测试一种大规模、系统性分析癌细胞基因组变化的方法的可行性”,为检测、治疗、预防癌症提供基因组信息。
而英国癌症基因组计划则致力于收集一种称为COSMIC的数据,这是世界上体细胞突变唯一最详细目录。除此之外还有国际癌症基因组联盟(The International Cancer Genome Consortium,ICGC),这一联盟于2008年成立,投资10亿美元,用10年时间详尽、深入研究可导致癌症的变异基因,并绘制癌症变异基因的全图谱。这是一个“一站式的购物门户”,能获得来自12个联盟成员国的数据,包括TCGA和COSMIC数据。
一旦研究人员获得了这些数据,那么接下来就需要了解这些数据能干什么,不能干什么,但是无论寻找的何种类型的数据,首先要确保的是数据分析应该考虑到一些假设情况,这样在一天结束后,能返回实验室,或者临床上进行验证。
目标基因是否在癌症中出现突变?
一个良好的开端就是分析感兴趣基因的突变和其它异常,ICGC数据门户提供了几条研究路线。输入一个基因名称,NCBI登录号,或者Ensembl基因ID,点击基因报告(Gene Report),就能在突变摘要(Mutation Summary)中找到已发现的突变和拷贝数变化,以及迄今为止,这些突变在肿瘤中出现的频率。COSMICsection就在体细胞突变列表下方,包括了点突变,少量缺失,以及插入突变等方面的数据。
另外一种方法就是在一种肿瘤中寻找所有受到影响的基因,在ICGC数据门户中,研究人员能通过点击数据搜索(Database Search)下的Genes,然后选择感兴趣的肿瘤类型,以及一些其它参数,比如分析的途径等,这样就能找到所有受到影响的基因。除此之外,TCGA数据门户中,还可以从Download Data menu上选择批量下载(Bulk Download),获取体细胞突变数据,以及其它类型数据,比如拷贝数,DNA甲基化,基因表达。
ICGC和TCGA数据目前都已向公众开发,但是需要注意的是这些数据是经处理过的:序列已经通过不同的技术得到验证,病人识别信息,比如生殖细胞SNPs已经被删除。而且还要考虑到ICGC搜索时的一些来自其它门户,比如TCGA的补充数据,因为ICGC的数据是几个月才更新一次的,而TCGA数据则是当有新数据的时候就更新。除此之外ICGC并不能储存TCGA的原始数据,因此还是需要向TCGA提交数据访问请求(Data Access Request)的。(生物通:张迪)
下篇:癌症基因组在线研究手册
(未完待续……)
原文摘选:
Combing the Cancer Genome
Exploring the field of cancer genomics can give a researcher without a sturdy footing in bioinformatics a bad case of information overload. But the potential payoff is high. Cancer researchers have been amassing data on small mutations, copy number variations, epigenetic changes, expression level differences, and clinical features for a number of cancer types since long before the first whole cancer genome sequence (of an acute myeloid leukemia) was completed in 2008. That means researchers diving into the fray today will have more—and higher quality—information at their fingertips than ever before. Yet navigating it won’t be easy, says William Hahn, an associate professor of medicine who studies a number of cancers at the Dana-Farber Cancer Institute in Boston. “It’s a huge challenge to know what’s out there and how to use it.”