如何找到测序污染:新手必备工具
【字体: 大 中 小 】 时间:2015年10月16日 来源:生物通
编辑推荐:
毫无疑问,在实验过程中越早剔除污染物越好,“这些污染会增加实验直接的成本,”来自爱丁堡大学的Dominik Laetsch 说,出现污染,“每分钱理论上你得到的核苷酸信息就越少,”因为需要花时间处理和分析不需要的序列。但也有个好消息——即使序列中充满了 PhiX、引物、载体和不想要物种的基因,还是能在别人看到你最终公布的基因组之前剔除它们。
——一些研究表明,目前已经公布的基因组存在多种污染,随着这个问题越来越突出,我们需要找出方法来应对
生物通报道:Supratim Mukherjee在进行数据分析的时候,发现数以百计的微生物基因组中会重复出现同一种噬菌体序列,这令他感到很惊讶。并不是只有Mukherjee一人发现此种情况,最近大量的报告表明,发表的基因组出现污染要比之前想象的多得多。那么这些污染是如何出现的呢?我们又能做些什么,避免这些情况的出现呢?
就此The Scientist杂志请教了几位研究人员,他们分享了一些Tips,可以检测和预防出现“流氓序列”。
如何检测?
毫无疑问,在实验过程中越早剔除污染物越好,“这些污染会增加实验直接的成本,”来自爱丁堡大学的Dominik Laetsch 说,出现污染,“每分钱理论上你得到的核苷酸信息就越少,”因为需要花时间处理和分析不需要的序列。但也有个好消息——即使序列中充满了 PhiX、引物、载体和不想要物种的基因,还是能在别人看到你最终公布的基因组之前剔除它们。
Laetsch就开发了这样的一个工具,帮助数据分析之前进行序列清除,这个工具叫Blobtools-light,是目前的最新版本,能将你的contigs(组装成最终序列中的测序DNA重叠部分)与NCBI数据库中的已知序列进行比对,然后软件还会通过可视化方式来解释这种比对——来自相似生物物种的序列会突出来。
“我们利用这作为初步筛选工具,”Laetsch说,她正在进行病原细菌的相关研究。
此外,还有一个类似的程序:ProDeGe (Protocol for fully automated Decontamination of Genomes,全自动净化基因组协议)(ISME, doi:10.1038/ismej.2015.100, 2015).
与Blobtools一样,ProDeGe采用的也是公共数据库,可以检测一个基因组中的污染,然后将contigs分组归类到“无污染”组和“污染”组。比价而言,Blobtools-light可以提供可视化序列图表,ProDeGe则能帮助研究人员识别并鉴定污染物是什么。
“这种方法比较简单,不用了解太多”,Mukherjee说,“因此对于不擅长此类工具的研究人员来说比较合适。”
当然还有其它方法,如NCBI的VecScreen,这是一种可以快速识别序列中污染载体的方法,晚些时候NCBI网站还将公布更多更先进的工具。
不过所有用来检测污染物的工具都必须把握住特异性和敏感度之间的平衡,也就是精确识别出污染物,而不删除靶标序列。因此了解清楚你的整体数据就显得额外重要,比如说,如果你分析的是新的基因组,那么程序肯定会提示了污染物水平高,因为已有数据库并未包含你的序列数据。
又或者,如果你知道会出现高污染细菌基因组,那么就能列出污染物清单,Edwards说,“我推荐多运行几个工具,比对结果。”
未完待续……