14岁的男孩说想学生信，应该给予哪些指导？

Original 生信宝典生信宝典 2022-03-28

前言

随着高通量测序技术的发展，越来越多的文章重视湿实验和数据分析结合。现今大数据当道，生信分析也似乎是很多医学或生物科研工作者的一把剑，上可问道 —分析实验数据发篇大文章，下可修枝裁芽 — 处理日常数据来个小美化。而从理论到实践的no error总是“路漫漫其修远兮”。Mark Twain说：出名要趁早，啥时候学生信，现在刚刚好。

上个月在国外著名社交网站 reddit (www.reddit.com)上，一个十四岁的男孩发了个帖子，他说自己能在Tensorflow上搭建流程，动手做过类似自动驾驶汽车和股票预测的小项目，现在对生信很感兴趣，于是发帖寻求经验分享。看看帖友们都是怎么回复的？

知识纲要

学好生信需要具备二代测序和基因组学的基础知识，另外扎实的生物学和统计学基础对后续工作会有很大帮助；
定期阅读 CNS（Science，Nature，Cell）期刊掌握最新科研动态；
在NCBI的PubMed库通过关键词“Bioinformatics”等可以浏览专业文章，其中有一些可以免费下载。不能下载的可以使用SCI-HUB客户端（文献神器V4.0）
医学专业相关的需要重视TCGA数据的挖掘。

在所有科学领域中，真正让人与众不同的是能够通过现有的技能和资源提出有关生物学的有趣且创造性的问题。想要做到这个就需要有一定量的生物学知识储备，否则怎么知道技术技能可以用来干什么呢？可以花一些时间阅读尽可能多的生信相关论文，然后尽可能多地学习生物学/化学/统计学。

网站推荐

网站：

Rosalind：是一个通过解决各种问题来学习生信的平台。没有编程基础的话，网站会推荐先从Python Village 模块开始学习python，慢慢适应各种解决生信问题的操作。网站主页还提供有生信算法的文档下载学习。（http://rosalind.info/problems/locations/）
edX：由哈佛大学和麻省理工学院等共同创建的大规模在线课程平台，里面有一些免费的编程/计算机科学的入门课程，可以通过它了解数据结构和流程逻辑，这比直接学习特定一门语言更重要。（https://www.edx.org/）
TED talks：很多人或多或少都看过一些TED演讲，里面也有关于生物学家的talks，在分享自己的科研经验之余，还会科普一些生物知识（推荐视频https://www.ted.com/talks/karissa_sanbonmatsu_the_biology_of_gender_from_dna_to_the_brain?language=zh-cn#t-599131，了解生活方式对基因的影响，以及不同性别到底意味着什么）。如果了解了一些趣闻并对科研产生兴趣，那更是极好的，毕竟兴趣也是我们最好的老师（之一）。
https://sci-hub.tw/：从NCBI上下载科研数据和文章是常规操作，然后有些文献的获得会需要一些权限，首先声明我们绝对尊重版权，支持正版。不过经费是薅出来的学生党可以考虑这个网站（听说很多有机构账号的老师也会从这里下载文章…）

语言/知识储备/软件推荐

语言

Python/R：这两门语言是数据科学和生物信息学中最流行的语言（包括他们的模块和工具包）

Bash：了解linux系统的基本操作命令和编程逻辑

计算机科学理论：学习基本数据结构（链接列表），算法（快速排序），关系代数

生物学理论：孟德尔遗传学，生物学的中心法则（详细理解）

生信方向知识：

细胞生物学（增强子，外显子剪接位点，常见的三级蛋白质模体motif）
常见的生物信息学问题/解决方案（fastq文件的GC含义，以及利用网站ORF finder找到DNA序列中的开放阅读框等）
生物信息学算法（史密斯·沃特曼算法，FM-index等）
专业书籍推荐，陈同老师之前梳理有一份学习生信的经验书单：学习生信的系列书籍

算法相关

算法导论（CLRS）：由美国麻省理工学院出版社出版，是当代计算机算法的经典书籍

Pro Deep Learning with TensorFlow: A Mathematical Approach to Advanced Artificial Intelligence in Python：发帖人说这本书理论部分很好，实践操作部分有点过时，他本人重点推荐的是Ian Goodfellow的《the Deep Learning book》

软件推荐

Prokka ：一款出色的基因预测软件，能快速注释细菌，古细菌和病毒基因组。（https://github.com/tseemann/prokka）
canu or flye：基因组装软件。Canu是Celera Assembler的一个分支，专门用于高噪声单分子序列的reads（例如PacBio RS II / Sequel或Oxford Nanopore MinION）；Flye可以de nove组装单分子序列reads，将PacBio和Oxford Nanopore的原始reads数组装成经过修饰的重叠群，它的特定模式还可以组装宏基因组(https://github.com/marbl/canu；https://github.com/fenderglass/Flye/)
软件还有很多，取决于研究方向，后面会专门介绍（可以先从文末收集一波之前的工具推荐）

在这个帖子中，最值得在意的是一个生信方向的研究生的回答：在编写流程的过程中，他主要在Linux上使用Bash脚本。关于学校课程安排是：