薛宇:生物信息学预测——你能成为PI吗?
【字体: 大 中 小 】 时间:2014年06月05日 来源:科学网
编辑推荐:
这篇论文里,作者根据PubMed里25,604个学者的信息,利用机器学习的算法设计了一个预测工具,除一法的检验性能是AUC=0.83,能够准确的预测研究人员是否有机会成为PI。算法不讲了,无非就是个特征选择加线性拟合,对搞生信的来说属于入门级的算法。
吃完晚饭回办公室来忙事,看见QQ上学生留言,推荐了最新一期Current Biology杂志上的一篇论文:
van Dijk D, Manor O, Carey LB. Publication metrics and success on the academic job market. Curr Biol. 2014 Jun 2;24(11):R516-R517.
附带预测工具的网站是:http://www.pipredictor.com/
论文讲的啥咱过会儿再讨论,按惯例先扯点儿不着边儿的东西。首先给各位讲个笑话,话说诺基亚的手机以前还挺好,现在越做越垃圾,最奇葩的是电池的电力如果耗尽,要么是电池报废,要么是系统崩溃。前者是去年的事情,换了块电池继续用,系统崩溃是前天的事情,当时没什么反应。修手机的师傅说,这手机要重刷系统,我说,哦,刷吧。等刷完今天拿来一看,我靠,毛都不剩了。赶紧问说这通讯录还能恢复吗?师傅摇摇头:不知道。回来在办公室里坐着,等下班的时候才反应过来了:兄弟我这回算是失联了。
上述这个笑话讲完,咱接着再讲个更搞笑的。话说晚上加班完回家正郁闷通讯录没了,以后怎么跟兄弟们联系呢。豆儿他妈围过来,说大豆儿(这是有来历的,咱家的称呼以小豆子为中心,所以我是大豆,我爸就是老豆,我妈自然就是豆奶了)你又在那里装啥深沉呢?我说手机通讯录没了,郁闷呢。豆妈拿我手机摆弄了两下,通讯录又给恢复了。我...我说这是啥技术?豆妈说你难道不知道手机有实时同步的功能?我摇头:不知道,我搞生信的又不是修手机的。话音刚落豆儿妈上来就一顿暴打。所以这件事情说明,搞生信跟修手机没有关系。
好,废话讲完,咱讲正事儿。这篇论文不长,总共就两页,图也就一个,讲的啥这么有意思呢?且听我慢慢道来。作者忽悠道,现在只要有个学术机构的教职,马上成坨的简历就给你发过来,怎么评价这个人行啊,还是不行啊?所以要有个定量的依据,比如哈佛是看Top 5,不是领域的世界前五不要;咱是数NCS,看影响因子,看你论文数,然后还有个答辩;台湾就比较简单了,发表论文的影响因子总和。这样大家总都有争议,比如不应该数NCS啊,不要只看IF啊,要看引用啊,等等。总之各种争议。
这篇论文里,作者根据PubMed里25,604个学者的信息,利用机器学习的算法设计了一个预测工具,除一法的检验性能是AUC=0.83 (这块儿别纠结,兄弟我很专业的告诉你,准确性不错了),能够准确的预测研究人员是否有机会成为PI。算法不讲了,无非就是个特征选择加线性拟合,对搞生信的来说属于入门级的算法。主要的结论有:
1. 这个预测分析是针对生物、医学及相关领域开展的,PubMed检索不到文献的不在该预测的考虑之中。
2. 如果你现在已经成为一名PI,那么恭喜你,因为这篇论文的结果表明,只有6.2%的论文作者能够成为PI,所以这是个小概率事件。
3. 什么因素是决定你能否成为PI的关键条件呢?作者的特征选择结果里,职业开始前的五个最重要的因素依次是:8年内第一作者论文数量,8年内论文总数,8年内最高影响因子,8年内影响因子超过6的一作论文,和4年内的论文总数。所以答案很清楚了:你发表的论文数量,和论文的影响因子,是成为PI最最重要的因素。
4. 每年发多少文章才有机会成为PI?作者的结果显示,成为PI的学者,在职业生涯开始前大约平均每年要发表一篇论文;而没有成为PI的学者,大约每年发表论文的数量是0.6左右。所以这件事情告诉我们,论文的数量很重要,灌水是必须的。
5. 那么影响因子多高叫高呢?作者的结果显示,PI们在职业生涯开始前的平均IF,大约接近6,而没有成为PI的学者们,大约是5。所以IF仅有1的差距,就已经很明显了。这表明第一,学者们要灌水;第二,还得想办法把水灌到IF高的杂志,比如华大基因,专门往NCS上灌,有本事啊!
6. 那引用重要不重要呢?比较重要,但不是那么特别重要。权重在第7、8、9位的特征,都是引用相关的。所以作者的解释是,发的好要比引得好更重要。
7. 性别很重要。因为这是权重第6位的特征。研究结果表明男性更容易成为PI。(我靠,这是赤果果的性别歧视啊!)
8. 有很多PI在职业生涯开始前从来没有发过高影响因子的论文,为啥还能做PI呢?这篇论文的作者发现,这些PI的特点就是发论文多,第一作者论文的数量是其他学者的两倍。由此可见天道酬勤,发不上NCS使劲灌水好像也可以,只不过平均6分的期刊,灌起来还是挺需要技术含量的。
9. 大学排名不重要。这个就很搞笑了,作者居然用的是上海交大的世界前500大学排名!这个不得不赞啊!研究者所在的大学或研究机构的排名,对能否成为PI贡献很小,特征权重只排到第16位。所以英雄不问出身,是哈佛、科大或者华工出来的对你成为PI没有太大的影响。
10. 从第一篇论文开始到成为PI的时间,这个平均值大约是7年。经过7年以上才拿到PI的,一般是论文发在影响因子比较低的期刊,但是引用比较好的学者。所以好的工作没有发表在好的杂志,也别泄气,耐心等等再说,没准儿成为高引的论文,那成为PI的概率就大大增加了。
讲完论文之后咱做个总结吧:
第一,这篇论文的作者是搞生信的,算是大同行。作者能有精力折腾这个,说明咱搞生信的学者真是想象力丰富和时间充裕到蛋疼。算法不稀奇,咱这边生信专业的本科生大二也就能玩儿了,关键是需要收集和整理数据,还要用到文献处理的技术,总之就是数据处理很麻烦,计算分析很简单。
第二,作者在论文的结尾部分,强调的是这个工作只是发现关联,并不强调因果。
第三,作者考虑的文献从1990-2014,但仅考虑了1996-2000间发表第一篇论文的研究者,这样超过13年才成为PI的研究者,大约有0.1%会被忽略掉。
第四,这个预测还挺有意思的,我04-06年发表了10篇PubMed可检索的论文,都是共同第一作者的;我的学生读博士期间共发表了13篇论文,有第一、共同第一和参与作者的论文,预测的结果表明我俩成为PI的概率都是96%!我还有个做的挺好的学生,但成为PI的概率只有46%。
第五,以后实验室每年底的年度总结就好办了,每位学生的总结报告首页一定要附上未来成为PI概率的计算预测结果,这比天天催学生们发论文的效果要好的多。哈!