查看原文
其他

【NGS接龙】薛宇:漫谈生物信息圈儿的那些年、那些事!

2015-11-20 薛宇 测序中国


编者按:在中国生物信息这个圈子里,活跃着一群年轻、高智、积极向上、敢于探索的一线学者,在全球生物信息迅速发展的这十年里,TA们取得了一项又一项的成果,TA们是活跃在生命科学、计算科学交叉领域的发烧友!华中科技大学生命科学与技术学院教授薛宇便是这其中的一份子。本期NGS接龙,有请薛宇教授以他独特的风格给大家讲述生物信息圈儿的那些年、那些事!


科研就要有迅雷不及掩耳盗铃的风格


按惯例上来先扯点儿无关的。话说上一篇博文《Shirley:迅雷不及掩耳盗铃的科研风格》写完之后,发给Shirley、文胜兄和勇哥看看有没有问题,Shirley立马以迅雷不及掩耳盗铃的速度回了封很长的信。上来先指出我一个理解上的错误:CRISPR/Cas9筛选之后的测序,是用PCR去扩充已经通过病毒载体整合到基因组上的gDNA,而不是测转录组。接着就开始洋洋洒洒的吐槽,说老弟啊,做新方向不容易啊,我们实验室13年那会儿就看见CRISPR/Cas9了,但那时候没有高通量的数据,“没处下手”啊!等到14年1月高通量的数据一出,我们就知道计算的机会来了,当时组里来了个大讨论,我们马上就发现gRNA的设计和筛选之后怎么排序结果(CRISPR screen hit calling)是两个号问题。两个工具其实14年5月份就做完了,但是因为在筛选这个领域没有名气,并且杂志一般都会优先考虑花钱产生新数据的工作,所以拖了很久才投稿。

Shirley继续吐槽,说这个吧,CRISPR/Cas9应用可能会很广,不光是研究,也可以转化,例如基因治疗(Gene therapy)。但是基因治疗不是咱搞计算的菜,所以做高通量筛选的数据分析才是咱生信该干的事情。当然这样问题就来了:基于CRISPR/Cas9筛选的计算方法能算是一个研究方向吗?但如果咱要是决定研究这个方向并且持续钻研10年,“怎么可能不是一个方向? 打一枪换一个地方的工作只能算是傻忙”。只有“打持久战”才能稳步的建立名声。所以当一个新领域超级有前途并且你也希望投身其中10年的话,最好在你晕晕乎乎的时候就赶紧动手,因为绝大多数竞争者可能更晕菜。Shirley举了个例子,NGS技术出来不久,07年Richard M. Myers研究组在他们第一篇ChIP-Seq文章发表之前就把数据给了他们组,他们当时看数据感觉也不比老方法ChIP-chip好多少,所以拖到08年才发表相关的分析工具MACS(ChIP-seq数据分析的一个经典软件,引用2000左右)。等到单细胞基因组刚出来的时候,大家都觉得数据质量差所以Shirley也就懒得动手。但这个技术发展的很快,所以等到技术改进了数据好的时候已经没机会了。因此Shirley认为:“错失良机,痛定思痛!CRISPR screen 不能再傻了”。

Shirley总结,科学家不能躺在过去的功劳薄里,你的最后一篇文章代表你的水平(“you are as good as your last paper”)。所以要想做的快,研究方向就得集中,文章发的少且精,做真正感兴趣的并且要么是做第一个引导这个方向,要么就是做最后一个干掉这个方向。

编辑注:Shirley,中文名,刘小乐,目前担任哈佛大学公共卫生学院生物统计与计算生物学系的终身正教授、Dana-Farber 肿瘤研究所功能性癌症表观遗传组学中心主任, 和同济大学生物信息学系教授并长江学者讲座教授。


言归正传,那些年我们一起错过的机会


前段时间好友转了我一篇“测序中国”上的文章《【NGS接龙】原国家基因库负责人张勇:成长历练后的梦想追逐》,咱生信圈叫张勇的有三位,另一个在同济还有一位在北京动物所,在各自的方向上都相当的强。好朋友写文章,而且写的意致盎然,咱自然要点赞,等看到最后不对劲了,搞了半天这是个接龙的游戏,一人写完点名另一个人开写。既然被点了名,那咱也就瞎写写,各位也就看了个乐儿吧!

话说咱读研究生那会儿是02年,先是跟着符师兄学做实验。咱是化学背景,化学实验一般周期没有生物实验长,比较快就能出结果,生物学的实验一般周期都比较长而且咱还没有学过生物,并且性子急结果越急越做不出来东西。所以后来老板建议,说要不你小子去搞生物信息学吧,这玩意儿有前途。并且给我提了个问题:你能不能做一个大家都能用得上的工具?02年那会儿国内搞生信的很不多,那时候最热门的研究方向有两个,一个是蛋白质二级结构预测,另一个是蛋白质的细胞亚定位预测。这俩方向是怎么来的呢?这是因为当时国内搞生信的希望划界问题,即哪些方法是生信可用的、哪些问题是生信可以解决的,等等。那时候大家都没有意识到的事情是,研究方向是可以硬闯出来的,甭管理论上是不是生信的菜,能冲进去一做10年怎么都能做成一个方向。之所以这俩方向能成为热门,是因为清华大学孙之荣先生与学生华苏军用支持向量机(Support Vector Machine, SVM)算法先是在JMB上发表了一篇二级结构预测的工作,又在Bioinformatics上发表了一篇细胞亚定位预测的工作。这两篇文章几乎是国内早期生信研究发表最好的工作,而且发表了之后一片哗然。因为当时人工神经网络(Artificial Neural Networks, ANNs)类算法是国内公认的可用于生信的主流方法,不过这类算法比较复杂,SVM是ANNs算法的一个特例和简化版本,属于一刀切的方法,比较容易实现。大家不能理解的是:为什么复杂的、更有技术含量的算法不能发的更好,反而是简单的东西能发的好呢?当然这个问题现在看来很简单,那时候大家还不能理解novelty的涵意,技术复杂度高与做的东西有意思之间并没有什么关系。这俩方向我都努力去尝试了,没做成,不过好友庆华兄倒是做了个细胞亚定位的预测工具还发表了。咱没做成的原因后来也想明白了,ANNs也好SVM也好,这些都是机器学习(Machine Learning)类算法,这是搞计算机或者自动化的菜,我一个学化学的瞎凑啥热闹?

这俩方向做不成没有关系,咱换个东西继续折腾。第三个我看好的方向是序列比对(Sequence alignment),可问题在于双序列比对的两个经典算法Needleman-Wunsch和Smith-Waterman我一个都看不懂,已有的方法看不懂,怎么有可能做新方法?后来看懂的时候是07年要给本科生们上课,琢磨着要是瞎讲估计要被学生投诉,所以老老实实翻课本、查文献,居然看懂了。因此这个机会自然是错过了。第四个选择的方向是分子动力学(Molecular Dynamics, MD),对,你木有看错,就是Michael Levitt拿诺奖的工作(参见《震撼了!生物信息学终于也发奖了!》)。这玩意儿我不会但是咱楼下的刘老师是高手,所以跑去请教。刘老师温文尔雅对学生历来和善,上来丢了本书给我说小伙儿回去先练练葵花宝典。书打开一看,我倒抽一口凉气:我靠,从第一页开始一路推公式推到最后一页。最后硬整了几个月一个公式没看懂,这个方向自然也就歇了。

02年底03年初还有个方向貌似很不错:基因芯片的数据分析。芯片刚出来的时候又贵数据质量又差,可那时候很多人已经很敏锐的察觉到这是个有前途的方向,所以当时国内搞生信的好多人都跳了这个坑,并且赚的盆满钵满。这个方向咱鼓捣了几个月没做成,没做成的原因是这玩意儿需要统计学的基础,咱不懂统计怎么做?所以只能眼睁睁看着机会飞走了。虽然现在基因芯片已经逐渐被NGS取代了,但当年转这方向的弟兄们一点儿都不吃亏,芯片数据分析和NGS分析比较相似,无非是前者用正态分布来模拟,后者用负二项分布来模拟,换个统计模型稍微改进点儿方法继续用,继续发文章发到手软。

当时还有几个很不错的方向。一个是蛋白质相互作用预测,主要是师兄发给我一篇JMB文章,说这个方向有前途。后来08年第一次请Shirley来科大访问的时候,她说这个方向其实没前途,因为那时候全世界只有三个研究组可以产生新数据,而有几百个研究组在做计算分析,我又是刚入门的菜鸟,怎么可能有竞争力?另一个就是siRNA设计效率预测(与sgRNA设计效率预测很类似)、miRNA预测以及miRNA靶基因的预测,当时国内国外跳这个坑的也是一大把,自然是都赚的眉开眼笑。咱错过了这个好机会,主要是因为第一,老板不感兴趣。老板不感兴趣是因为咱实验室主要做细胞有丝分裂,关心的是蛋白质而不是核酸,老板当时问我说你做这个能解决什么问题?咱支支吾吾半天也讲不清楚。第二,RNA干扰技术刚出来那几年是又贵沉默效率又差,你觉得哪个老板愿意花大把银子给一个做啥啥不成的研究生来练手?所以后来生物网络这个方向起来之后,咱又跑去做网络。不过网络这东西偏物理,咱物理学的不好提不出新概念,也做不出新方法。好容易拿着实验室师兄们做的数据构建了一个网络,被师兄们一句话批死了:实验结果也可能是错的,你这个网络怎么可能一定是正确的?

所以到04年的时候明白了几件事情:第一,刚开始做方法学不能指望有实验验证,要找能够在计算上讲清楚的问题来做。计算预测的确需要实验验证,但因为往往后续的实验时间很久新数据也很难拿到,所以计算上发展了不少检验预测性能的方法,例如除一法(Leave-one-out validation)和n倍交叉检验法(n-fold cross-validation)等。如果做得方法有用,预测的精准,解决的问题也不错,那么即使没有实验验证也还是会有很多人用,因为无论怎么说拿工具预测都不需要成本,即使不够准确也能缩小待验证的范围,不花钱还有便宜可占,当然是不用白不用。至于不要指望有实验验证,这个也很简单,既然你还是nobody,也就不要奢求有somebody会相信你是在做研究而不是忽悠。第二,要做的方向一定得是自己能搞定的,生信很杂,处理不同的问题往往需要不同学科的知识,没有这方面的背景基本上是不可能很快做出来的。第三,提高研究能力除了自己读文献做练习题之外,最好的方法是合作,有志同道合知识背景互补的搭档做起研究会快很多。搞生信自己一个人折腾的不是没有,但要做的又快又好差不多合作是必须。比方说,想出来一个有意思的问题这得需要生物学知识吧?生物没学好就得边儿呆着去了;问题想出来得转化成数学模型吧?数理差的边儿玩去了;模型构建好得编程实现吧?编程差的边儿喝茶去了;做完预测你得分析吧?统计学的差又得边儿站着了;分析完你得整点儿实验吧?体外实验大家不相信,你还得做点儿细胞,做完细胞大家又希望你做动物,做完动物大家又希望你结合点儿临床,有临床大家又想看看你这玩意儿能不能做个性化医疗,对吧?好的杂志你做多少东西编辑们也不会嫌多,做少了那就边儿呆着去。一个人能搞得定这么多东西?

等到04年6月,咱那时候看文献看的勤,正好看到一篇文章,做了一个新的磷酸化数据库Phospho.ELM,正好实验室研究方向细胞有丝分裂是受磷酸化调控的,咱对这个很熟悉,所以当时感觉机会来了,于是和丰丰讨论了之后立即动手,几个月之内就发了第一篇论文,后来慢慢就做成了一个小方向。期间核酸方面的研究,比如NGS技术从诞生到现在的成熟,咱看看不动手做。嘴上说不感兴趣其实是做不了。做不了的原因是:第一,我没钱不能产生新数据,为什么华大能够迅速进入NGS领域抢地盘?这玩意儿费钱费的厉害,学术单位不可能有华大这样的财力。国内早期做NGS能做得成的,要么砸钱是和华大合作,要么是借钱然后和华大合作;第二,我也没好的机器,这玩意儿计算量太大,没有超级计算机想做方法学是不可能的;第三,NGS做新算法需要很强的数理基础和编程实现能力,并且精力还得旺盛肯折腾,华大为什么能出一堆神童?聪明当然是必须的,年轻能扛得住折腾更重要。华大那位刚离职的小王爷,那可是能跑马拉松的主儿,体能不是一般的好;第四,全世界最好的生信学家都在做NGS,你觉得我能斗得过哪位?对吧,打不过咱还躲不过吗?生信的问题有的是,何必一棵树上吊死?后来朋友老建议我转NGS,每次要解释感觉麻烦,所以千言万语化成一句:没有兴趣。

做个总结,生命在于运动,人生在于折腾。搞研究嘛,做不成很正常,能做成那是侥幸,大家都错过很多机会,没有关系。另外,既然是接龙,那我邀请哈佛大学刘小乐教授来写下一篇,不过很大可能Shirley会写成英文版,要不装个词霸慢悠悠看吧!

----------------------------------------

注:本文中所有观点仅代表作者个人意见,如需转载请注明来源(测序中国),谢谢!

点击阅读原文,查看:【NGS接龙】原国家基因库负责人张勇:成长历练后的梦想追逐


点击下方二维码,关注 测序中国,回复以下【关键词】获取更多内容

回复【精准医疗】:聆听各方专家观点!

回复【NGS十年】:品味基因行业“大咖们”的独家分享!

回复【周报】:追踪刚刚过去的一周发生的新鲜事儿!



测序中国 seq.cn
基因科技|精准医疗



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存