查看原文
其他

Nature子刊:你想成为生物信息学家?

宏基因组 2023-02-03

The following article is from 生信宝典 Author 生信宝典

1. 理解你的目标并选择合适的工具

好的计算生物学家的关键是选择合适的工具。就像我们不能在不理解PCR的基本原理时就去实验室操作这个实验,同样地如果我们不理解软件的原理,就会不知道选择的软件是否合适、结果怎么解释。比如转录组序列比对需要选择支持Splice-map的工具,因为mRNA成熟时经历了剪接;比对会基因组时会初选跨越内含子的reads。理解算法不需要我们去读懂源码,但对其原理、适用性和特点要有个概念。

2. 对自己和他人的脚本设置陷阱测试

做实验需要正对照和负对照,运行脚本也是。脚本不知道我们的目的是什么,只要提供的数据格式正确,就可以运行不报错。但结果是否正确需要我们自己把关。通常是手写数个小的结果已知的数据集进行测试,涵盖自己能想到的尽可能多的情况,已确定脚本做的事情跟自己预期一致。

3. 记住自己是科学家不是程序员

完美是完成的敌人。牢记自己是科学家,研究的质量优先级高于代码的优雅。在确保核心算法无误的基础上,多关注生物问题,有时间再去完善代码和文档。

4. 使用版本控制工具

采用GitHub等记录脚本、文档的修改,维持多个版本和协作代码。写好README文件记录开发历程,何时因何故对代码作此修改,以备后续用到时再回想起来当初的设计。发表文章的同时发表脚本和数据,以便他人复现。也可以发表到这个Nature推荐的代码海洋竟然有文章作者上传的所有可重现性脚本,涉及单细胞、微生物组、转录组分析、机器学习等相关

5. 凡事流程化不可取 (不过早包装)

Pipeline是一系列脚本的集合,可以更方便结果的重现和类似分析工作的快速完成。但你需要衡量形成Pipeline是否节省了时间、是否有必要。三思而后行。大家如果熟悉Makefile,倒也无妨,不外乎是把Linux命令放到Makefile中运行。

6. 要拥有奥巴马般的自信

Yes you can! 不畏惧,用于尝试和探索,修改现有代码满足自己的需求。写代码其实就是怎么想的怎么写,写出来前几句,路就顺了。爱冒险,也接受会遇到坑,借助谷歌、讨论群,大踏步迈过去。

参加好的培训班是有意义的,可以节省很多时间,快速走上正确的道路。但切记,培训班只是开始,需要不断的练习。学习没有捷径,但可以借力加速。

7. 要有怀疑精神和质疑气魄

生物数据集尤其是来源于高通量测序的数据,庞大而有噪音干扰。即便是受过统计训练的生物学家在看到软件或流程输出的符合预期的结果时也会把怀疑置之脑后。通常需要多个不同角度的结果辅助一个结论。生物知识对解释实验结果至关重要,生物实验验证也是必须的。

8. 命令行下工作和编码

习惯在Unix/Linux命令行下工作,你会发现它们真的很强大。编程语言无优劣,选择在你身边最流行的,有问题可以交流。EXCEL会改变你的数据

9. 做一个数据侦探

计算生物学家很长时间都在分析和解释数据。数据里面包含0个或多个故事,但通常不太明显。需要我们从实验设计和分析过程来综合解析。勇于识别和排除数据中的系统偏差和异常点。与项目中的其它科学家通力合作,讨论结果,提出后续实验验证假设。也有可能你的数据什么都发现不了,果断放弃。

10. 不重复造轮子

通常无论多么奇怪的问题都有可能在网上搜索到解决方案,善用搜索引擎、论坛和社交工具。加入或成立本地的交流圈是很好的互相促进的开始。(自己衡量造轮子和搜索轮子哪个时间更划算

  • Mick Watson is at The Roslin Institute, University of Edinburgh, Edinburgh, UK, and is Head of Bioinformatics at Edinburgh Genomics, an academic genomics facility developing bioinformatics training in next-generation sequence analysis (http://genomics.ed.ac.uk). Follow him on Twitter, @BioMickWatson, and on his blog at http://biomickwatson.wordpress.com/.

  • Nick Loman works as an independent research fellow in the Institute for Microbiology and Infection at the University of Birmingham, Birmingham, UK, sponsored by a Medical Research Council Special Training Fellowship in Biomedical Informatics. Follow him on Twitter, @pathogenomenick, and on his blog at http://pathogenomics.bham.ac.uk/blog.

  • https://www.nature.com/articles/nbt.2740

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存