《Nature》:人类基因组中有史以来研究最多的十大基因
【字体: 大 中 小 】 时间:2017年11月24日 来源:生物通
编辑推荐:
奥地利维也纳大学的Peter Kerpedjiev编辑出了一个包含有史以来研究最多的基因列表,也就是人类基因组和其它生物基因组的一份“顶级列表”(见下图)。
——这些在生物学中研究最多的基因带给了我们不少惊喜
生物通报道:奥地利维也纳大学的Peter Kerpedjiev是一位曾进行生物信息学培训的软件工程师,目前正在攻读博士学位,他表示需要一个遗传学速成课程,因为他认为这样有助于了解生物学的一些基础知识,“如果我想和其他科学家进行有效的交流,那么我需要了解哪些基因?”他希望能得到答案。
为此,Kerpedjiev直奔基因数据。多年来,美国国家医学图书馆(NLM)一直在其被许多人接受的PubMed数据库(这个数据库包含了关于定义每个基因的信息)中系统性标记几乎所有的文章,Kerpedjiev提取了所有标记为描述基因结构、功能和位置,以及其编码蛋白质的论文。
他针对这些记录进行排序,编辑出了一个包含有史以来研究最多的基因列表,也就是人类基因组和其它生物基因组的一份“顶级列表”(见下图)。
在这个列表中,排在第一的是TP53基因
三年前,Kerpedjiev曾首次进行了他的分析,当时描述了关于p53基因或蛋白的论文有约6600份。而时隔三年,这个数字已经达到了约8,500份,也就是说,平均下来,每天有两篇描述TP53基础生物学新细节的论文发表。
其实,P53本来就是明星基因,生物通上关于这种基因(或蛋白)的文章就有三百多篇(如2005年关于p53研究进展汇总)。这种抑癌基因(TP53蛋白是肿瘤抑制蛋白)属于最早发现的抑癌基因之一,在遏制肿瘤细胞生长、DNA修复、以及细胞程序化死亡等方面扮演着十分重要的角色。因此p53蛋白被称为基因组守护者。通常50%以上的癌症病人中p53基因发生了突变。
约翰霍普金斯大学医学院的癌症遗传学家Bert Vogelstein就说:“这也解释了它的持久力。因为在癌症中,没有更重要的基因了”。
不过列表上的一些其它基因就不如p53那么有名了,其实它们也是在过去的基因研究中备受关注的基因,只不过随着技术的进步,这些基因慢慢的被淘汰了。
“这个列表还是惊人的,”Kerpedjiev说,他现在是哈佛医学院(Harvard Medical School)基因组数据可视化研究的博士后了,“其中有些基因是可以预测的,而一些基因则完全出乎意料。”
为了了解更多信息,Nature与Kerpedjiev一起分析了这些有史以来研究最多的基因,这个图表不仅仅只是基因的列表,而且也揭示了生物医学研究的重要趋势,指出了对特定疾病或公共健康问题的关注如何改变基因研究的偏重性,同时也说明了许多跨学科和疾病领域的一些基因是如何占据的主导研究地位。
在人类基因组中大约有20,000个蛋白质编码基因,NLM标记论文中超过四分之一的都是关于其中100个基因,许多都没有被研究过。“这说明了我们不了解的有多少,”剑桥大学(University of Cambridge)的科学史家Helen Anne Curry说。
“时髦”的和“不时髦”的基因
2002年,在第一次公布了人类基因组草图之后,NLM开始系统性地将“基因参考功能”(也就是GeneRIF)添加到论文中(1)。这种注释一直延伸到了20世纪60年代,其中也采用了其它数据库来帮助填写细节。这并不是一个完美的策划记录。
“大体上说,这个数据集背景很多,”NLM科学家Terence Murphy说。针对2002年以前发表论文的取样可能也存在一些偏差。这意味着一些基因被过度重视,而一些基因可能被错过了。Murphy说:“但这并不严重,当你聚合起多个基因时,可能可以减少这些偏差。”
有一点需要注意的是,PubMed记录的是几个不同的历史时期中基因相关论文对某个特殊主题的关注。例如,在20世纪80年代中期之前,许多遗传研究聚焦于血红蛋白,也就是在红细胞中发现的携氧分子。人类遗传学研究中有超过10%的研究是关于血红蛋白的。
当时,研究人员还继续在Linus Pauling和Vernon Ingram早期工作的基础上展开研究,这两位学者是开创了分子水平研究疾病的生物化学家,并在20世纪40年代和50年代发现了血红蛋白异常会导致镰刀状细胞贫血症。分子生物学家Max Perutz在1962年还获得了诺贝尔化学奖,其理由是他发现了血红蛋白结构三维图谱,之后他也在几十年时间里探讨了蛋白质的形状与其功能的关系。
美国国家卫生研究院的医学家和高级历史顾问Alan Schechter认为,血红蛋白基因是那时的“桂冠”基因,“为理解和研发分子疾病的可能治疗方法提供了一个新的大门”。
作为一位镰刀状细胞贫血症的研究人员,Schechter自己在20世纪70年代和80年代早期的重大遗传学会议和血液疾病会议上也探讨过这些基因,当时这样的基因是谈话的焦点。但随着基因组测序和DNA操控技术的新发展,科学家们开始转向其他基因和疾病,其中包括曾被认为是神秘传染病的艾滋病。
甚至在1983年发现艾滋病毒HIV是艾滋病的病因之前,临床免疫学家,例如David Klatzmann还提出这种疾病患者有一种特殊的模式。现在任职巴黎第六大学的Klatzmann回忆说:“我对这些人没有T4细胞感到震惊。”他在细胞培养实验中发现HIV似乎选择性地感染和破坏这些细胞,也就是免疫系统T细胞的一个组成部分。但问题是:病毒如何进入细胞的呢?
Klatzmann推断,免疫学家用来定义这些细胞的表面蛋白(后来称为CD4)也可以作为HIV进入细胞的受体。结果证明他是正确的,他在1984年12月发表了一篇研究报告,还有来自伦敦癌症研究所分子病毒学家Robin Weiss等人都提出的类似的观点(2-4)。
在那三年里,CD4成为了生物医学文献中的“巅峰”基因。从1987年到1996年一直保持这样的状态,这个时期CD4占据了NLM所有标签的1-2%。
这种关注的部分原因也在于大家正在努力解决正在出现的艾滋病危机。在20世纪80年代后期,有几家公司开始利用CD4蛋白基因工程修饰形式进行治疗,希望能在感染健康细胞之前清除HIV颗粒。但是,美国国家癌症研究所艾滋病和癌症病毒项目主任Jeffrey Lifson说,小型人体试验的结果证明“不足”。
CD4盛行的另外一大原因与基础免疫学有关。1986年,研究人员意识到表达CD4的T细胞可以细分为两种不同的类别,一种消除细胞感染细菌和病毒,另一种用于抵抗寄生虫,如蠕虫,保护机体免受侵袭(没有入侵细胞,但能引发疾病)。
纽约大学医学院的免疫学家Dan Littman说:“这是一个相当令人激动的时刻,因为我们真的了解得很少。”Littman曾帮助克隆了编码CD4的DNA,并将其插入到细菌中(5),由此可以进行大量的蛋白质研究。
十年之后,Littman共同领导了三个研究小组,他们发现进入细胞的艾滋病病毒使用的是另外一种,并不是CD4,而是一种被确定为CCR5的蛋白质。CCR5和第二个共同受体CXCR4自此成为了全球HIV研究的焦点,迄今为止还没有实现阻断病毒进入细胞。
到九十年代初,TP53逐渐冒出来头来。但是在它爬到人类基因阶梯的顶端之前,一个名为GRB2的基因其实已经占据了科学家视线多年。
当时,研究人员希望能识别与细胞通讯有关的特定蛋白质相互作用。由于细胞生物学家Tony Pawson的开创性工作,科学家们了解到了一些细胞内小蛋白质含有一个称为SH2的模块,它可以与细胞表面的活化蛋白质结合,并将信号传递给细胞核。
1992年,耶鲁大学医学院的生物化学家Joseph Schlessinger(7)指出,由GRB2(生长因子受体结合蛋白2)编码的蛋白质就是这个中继点。它包含一个SH2模块以及两个激活参与细胞生长和存活的蛋白质的结构域。
“这是一个分子媒介,”Schlessinger说。
此后其他研究人员很快就填补了空白,开启了信号转导的研究领域。然而尽管许多其他细胞信号传导组件陆续被发现,并最终延伸到了癌症,自身免疫性疾病,糖尿病和心脏病的治疗上去,但是GRB2依然处于顶端位置,并且在20世纪90年代后期成为三年的top-referenced 基因。
其中部分原因在于GRB2“是信号传导级联两个部分之间的第一个物理连接”,加州大学圣地亚哥分校的生物化学家Peter van der Geer说。此外,“它还涉及细胞调控的许多不同方面”。
在研究最多的基因清单中,GRB2是一个异类,因为它既不是疾病的直接原因,也不是药物靶点,这可能也解释了为何它之后不再受关注。
卡罗林斯卡研究所(Karolinska Institute)长期TP53研究员,巴黎第六大学(Pierre and Marie Curie University)的Thierry Soussi说:“一些冉冉升起的新星也因为没有临床价值而快速倒下”。具有持久力的基因通常表现出某种吸引资助机构支持的治疗潜力。“事实总是这样,基因的重要性与其临床价值密切有关”。
这也与基因的某些性质相关联,如表达水平,在种群之间的变化程度以及结构的特征。本月在德国海德堡举行的一个研讨会上,西北大学的系统生物学家Thomas Stoeger指出,他可以预测哪些基因最受关注,只需将这些基因属性与算法想结合。
Stoeger认为,这些关联原因很大程度上归结于他称为的所谓可发现性(discoverability)。流行的基因碰巧出现在生物学热门领域中,可以通过工具进行分析。Stoeger说:“一些目标研究起来,要比其他目标容易得多。这是一个问题,因为大量的基因没有被描述,也没有被深入研究,在理解人类健康和疾病方面留下了很大的空白。”
正确的地点,正确的时间
Stoeger还追踪了流行基因的一般特征是如何随时间而改变。例如他发现,在20世纪80年代,研究人员主要关注细胞外发现的蛋白质产物的基因。这可能是因为这些蛋白质最容易分离和研究。最近才注意到在细胞内发现产物的基因。Stoeger说,这种转变是随着人类基因组发表而产生的,这一跃进开启了更大比例的基因研究。
然而,许多研究最多的基因并不适合这个趋势。如p53蛋白在核内有活性。虽然TP53在2000年左右成为研究最多的基因,但它与许多主宰生物学研究的基因一样,在最初的发现之后并没有得到正确的理解,这也许可以解释为什么在1979年后,TP53为何需要这么多年才站在了列表的顶端。
起初,癌症研究界把它误认为癌基因,也就是当癌症突变时,它驱动了癌症发展的基因。直到1989年,Vogelstein实验室的研究生Suzanne Baker发现,这实际上是一种抑癌基因。自此P53的基因功能研究才逐渐崭露头角,Baker(现在是圣朱迪儿童研究医院的脑肿瘤研究员)说:“你可以从发表论文的高峰看到,那时确实有很多人真的很感兴趣”。
人类癌症的继续研究也帮助科学家们找到了“亚军”:TNF,在NLM数据中有超过5,300次被引用。TNF编码一种肿瘤坏死因子,因其能杀死癌细胞而于1975年命名。但是抗癌作用并不是TNF的主要功能。科学家们在人体中检测时发现,TNF蛋白的治疗形式疗效很好。
这一基因原来是炎症的介质,对肿瘤的作用反而是次要的。这在20世纪80年代中期变得清晰起来,因此科学家们的注意力迅速转移到检测阻断其作用的抗体上。现在,抗肿瘤坏死因子疗法是治疗类风湿性关节炎等炎症性疾病的主要药物,全球年销售额达数百亿美元。
纽约曼哈塞特医院研究所(Feinstein Institute for Medical Research)的神经外科医生和免疫学家Kevin Tracey说:“这是一个对基因和基因产物的知识对迅速地改变了世界健康状况的范例”。
此外,令TP53地位受到威胁的还有APOE,这是二十世纪70年代中期首次被描述为参与清除血液中胆固醇的一种转运蛋白基因,APOE蛋白被认为是一种预防心脏疾病的降脂治疗方法。
但最终,在20世纪80年代后期发现的他汀类药物淘汰了APOE,不过神经科学家Allen Roses和他的同事们发现APOE蛋白与阿尔茨海默病患者的粘性脑斑块结合在一起。他们在1993年发现APOE4基因的一种特殊形式,与这种疾病的患病风险增加密切相关(10)。
一个基因要想成为顶端基因,需要生物学,社会压力,商业机会和医疗需求等方面一定程度的融合。但是,一旦它站到了顶端,“就会在条件改变的情况下发生变动,”英国利兹大学(University of Leeds)的科学史学家Gregory Radick说。
现在的问题是条件如何改变,什么新的发现可能会是一个契机,将今天的顶端基因拉下马呢?
(生物通:张迪)
原文标题:
The most popular genes in the human genome
参考文献:
1.Mitchell, J. A. et al. AMIA Annu. Symp. Proc. 2003, 460–464 (2003).
2.Klatzmann, D. et al. Science 225, 59–63 (1984).
3.Klatzmann, D. et al. Nature 312, 767–768 (1984).
4.Dalgleish, A. G. et al. Nature 312, 763–767 (1984).
5.Maddon, P. J. et al. Cell 42, 93–104 (1985).
6.Deng, H. et al. Nature 381, 661–666 (1996).
7.Lowenstein, E. J. et al. Cell 70, 431–442 (1992).
8.Baker, S. J. et al. Science 244, 217–221 (1989).
9.Mahley, R. W. et al. J. Clin. Invest. 83, 2125–2130 (1989)
10.Strittmatter, W. J. et al. Proc. Natl Acad. Sci. USA 90, 1977–1981 (1993).
11.Morgan, T. H. Science 32, 120–122 (1910).
12.Green, M. M. Genetics 184, 3–7 (2010).
13.Friedrich, G. & Soriano, P. Genes Dev. 5, 1513–1523 (1991).