如何自学生物信息学?
越来越多同学在后台问,零基础小白如何自学生信?还有很多同学有这样的烦恼:
“自学生信,感觉知识很零散,怎么办?”
“从头开始学,怎么样才能快点学会处理数据?”
“除了教材,还有什么生信相关的书籍推荐?”
其实,对于初学生信的同学来说,选择合适的、高质量的书籍,的确是提高自学效率的好方法之一。
今天我们就来聊聊,如何通过高质量阅读学习生信。
Part1 知识建构
首先,学习任何学科,我们都必须对其有个完整的、宏观的认知。
什么是生物信息学?如果对这个问题没有建构出大体的概念,那么就会出现上面的问题——觉得生信的内容纷繁杂乱,自学下来知识很零散。
在这里,给大家推荐樊龙江老师的《生物信息学》这本书。
《生物信息学》
樊龙江
这是根据樊龙江老师上课的讲义,把各方面的知识拓宽后形成的一本入门生物信息学不可多得的好书。
我们来看看它的目录:
绪论
第一节 生物信息与生物信息学
一、迅速增长的生物信息
二、生物信息学的概念
第二节 生物信息学简史与展望
一、生物信息学发展简史
二、生物信息学技术的应用
三、生物信息学学科展望
第三节 本书的组织与使用
*第一篇 生物信息学基础
第1-1章 生物信息类型及其产生途径
第一节 生物信息的类型
第二节 DNA测序技术
一、第一代测序技术
二、第二代测序技术
三、第三代测序技术
第三节 高通量测序技术的应用
一、DNA/RNA相关测序
二、蛋白质一DNA/RNA互作测序
三、甲基化/宏基因组测序
第四节 蛋白质序列及其结构测定
一、蛋白质序列与蛋白质互作测定
二、蛋白质结构测定
第1-2章 分子数据库
第一节 分子数据库概述
一、分子数据库概念
二、数据库记录格式
三、数据库冗余、序列递交和检索
第二节 核苷酸及其相关数据库
一、DNA/RNA序列数据库
二、基因组数据库
三、非编码RNA数据库
第三节 蛋白质及其相关数据库
第四节 代谢途径等专业数据库
一、代谢途径数据库
二、代谢组学数据库和表型数据库
第1-3章 两条序列联配算法及序列搜索
第一节 序列联配基本概念
第二节计分矩阵
一、计分矩阵的一般原理
二、氨基酸替换矩阵
三、位置特异性计分矩阵(PSSM)
第三节 两条序列联配算法
一、Needleman-Wunsch算法
二、Smith-WaterTnan算法
第四节 BLAST算法及数据库搜索
一、BLAST算法
二、利用BLAST 进行数据库序列搜索
三、序列相似性的统计推断
第1-4章 多条序列联配算法及功能域分析
第一节 多序列联配概念及其算法
一、多序列联配概念
二、多序列全局联配算法
三、多序列局部联配算法
第二节 蛋白质序列功能域分析与模型
一、功能域概念
二、功能域模型
第三节 熵与信息量
一、不确定性与信息量
二、信息熵的应用
第1-5章 基因预测与功能注释
第一节 基因组序列构成与基因预测
一、基因组序列的基本构成
二、基因预测及其基本方法
第1-6章 系统发生树构建
第1-7章 蛋白质结构预测与药物设计
第1-8章 生物信息学计算机基础
*第二篇 高通量测序数据分析
第2-1章 基因组拼接与分析
第2-2章 基因组变异与分析
第2-3章 转录组分析
第2-4章 非编码RNA分析
第2-5章 甲基化与组蛋白修饰分析
第2-6章 宏基因组分析
第2-7章 蛋白质组分析
*第三篇 生物信息学外延与交叉
第3一1章 系统生物学
第3-2章 群体遗传学
第3-3章 数量遗传学
第3-4章 合成生物学
*第四篇 生物信息学资源与实践
第4-1章 生物信息学常用代码和关键词
第4-2章 生物信息学数据库和在线分析工具
第4-3章 生物信息学实验
第4-4章 生物信息学常用英文术语及释义
参考文献
对于初学者来说,想要入门生信,一开始必须搞清楚一些基本概念,比如,基因组、转录组、蛋白组分别是什么?什么是染色体重组?什么是表观遗传?NGS技术是什么?测序仪的工作原理是什么?DNA是如何被测出来的等这些东西。
本书一共分为基础篇、高通量序列数据分析、生物信息学外延与交叉、资源与实践篇这四篇。认真学完这本书,相信你不仅能够回答出以上问题,还能够对生物信息学形成更加体系化的认识。
京东限时特价活动,想入手的小可爱直接扫码下方图片购买即可
二维码有效期24小时
Part2 工具与手段
如果我们用最通俗的说法来定义生物信息学,那就是用信息的手段去研究生物问题的学科。在这里面,信息是手段,生物问题是核心。
也就是说,利用不好信息这一手段,那么想要处理生物问题也只是惘然。
在生物信息学领域有过杰出贡献的统计物理学家郝柏林院士说过这样一句话,“生物是物,生物有理,生物有数,生物有形”。
从这句话中,我们不难看出,数据处理和分析在生信研究中的重要性。
接下来这几本书,能帮你更快学会如何做好信息处理和数据分析。
《深入浅出统计学》
Dawn Griffiths 著,李芳 译
这本书涵盖的知识点包括:信息可视化、概率计算、几何分布、二项分布及泊松分布、正态分布、统计抽样、置信区间的构建、假设检验、卡方分布、相关与回归等等。
书中的很多案例和习题比较好,能从简单的角度阐述复杂的概率统计的理论知识。一路根着做下来,对于统计这个事情本身有一个比较全面系统的理解。
阅读此书最大的感受是,它对得起它的名字!语言和案例生动有趣,适合小白入门,看完之后再去看专门统计教材更容易理解,真正做到了深入浅出。
京东限时特价活动,想入手的小可爱直接扫码下方图片购买即可
二维码有效期24小时
《生物信息学分析与实践——MATLAB生物信息学工具箱应用》
刘伟
随着MATLAB生物学工具箱的内容和函数的日渐丰富,利用MATLAB处理生物学数据越来越便捷。
这本书精选生物信息学分析中的重要案例,结合作者多年教学实践,借助MATLAB生物信息学工具箱,进行序列数据分析、芯片数据分析、高通量测序和质谱数据分析等,包括常规的序列比对和统计分析,直接访问网络数据库和本地数据库,以及进行RNA结构预测和多种图形的可视化等。
这本书实践性非常强强,是一本实用的生物信息学分析手册与操作指南,它从底层开始进行生物学数据常规分析,直观地演示各种函数的使用方法和分析结果。通过学习这本书,初学者可以更加深入的理解生物信息处理的基本原理和过程。
京东限时特价活动,想入手的小可爱直接扫码下方图片购买即可
二维码有效期24小时
《新一代测序数据分析》
[美] 王忻琨 著,陈浩峰,主 译
NGS是高通量检测技术里面目前应用最广泛的技术。也就是我们在测序中最常用的二代测序技术。学习生信,你不可以说自己不会NGS!
这本《新一代测序数据分析》主要介绍的就是NGS,内容包括新一代测序技术的生物学意义、测序原理、分析过程和应用领域等。
同时,详细讲解了新一代测序数据的分析方法,包括其在基因组从头测序和重测序、转录组测序、小RNA测序、ChIP测序、表观基因组测序及宏基因组测序等应用中的具体分析方法。
读完之后,我们可以对如何从海量的测序数据中分析总结出新知识、新发现,并应用到生信研究当中去有详细的掌握。
京东限时特价活动,想入手的小可爱直接扫码下方图片购买即可
二维码有效期24小时
《第二代测序信息处理》
[美] 布朗(Brown S.M.) 著,于军 译
市面上二代测序相关的书并不丰富。除了上面一本,这本书也是学习NGS不错的选择。
它几乎涵盖了NGS技术在生命科学领域的全部应用,包括从头测序(含基因组注释)、针对稀有变异检测和元基因组研究的扩增子测序、染色质免疫共沉淀测序(ChIP—seq)、RNA测序(RNA— seq)和肿瘤体细胞变异检测(包括单碱基替换、插入、缺失和易位)等。通过广泛使用的一线软件充分讨论数据分析方法,详述优工作流程。
总体来说是一本实用性强、可靠性强、专业指导性强的好书。可以了解到不同软件的详细使用方法和参数设置,以及为自身研究项目所需的第二代测序信息处理提供解决方案的参考。
京东限时特价活动,想入手的小可爱直接扫码下方图片购买即可
二维码有效期24小时
《RNA-seq 数据分析实用方法》
[芬] E.科佩莱恩 等 著,陈建国,张海谋 译
RNA-seq也就是转录组测序技术,它具有定量更准确、可重复性更高、检测范围更广、分析更可靠等特点。因此,RNA-seq数据分析也是我们必须掌握的一项技能!
这本书全面介绍了RNA-seq数据分析的基本原理和方法,内容涵盖数据分析的整个工作流程,包括质量控制、作图、组装、统计检验和代谢途径分析等。
在进行理论讲解的同时,书中还使用了较多实例,对于没有太多相关分析经验的初学者来说,也可以可参照这些实例进行分析!
京东限时特价活动,想入手的小可爱直接扫码下方图片购买即可
二维码有效期24小时
Part3 进阶
现在机器学习和生信的结合越来越火热,原因是更容易发高分文章!
谁不想更快地将自己的学习实践转化成实打实的成果呢?
现实是纯生信想发高分比较难,而很多牛人已经用机器学习在10+SCI上发了近60篇文章!
先学先吃红利!为此,给大家推荐以下两本书。
《机器学习》
周志华
想要入门机器学习,避不开周志华老师的这本经典之作!
全书大致分为3个部分:
第1 部分介绍机器学习的基础知识;
第2部分讨论一些经典而常用的机器学习方法,如决策树、神经网络、支持向量机、贝叶斯分类器、集成学习、聚类、降维与度量学习等;
第3部分为进阶知识,内容涉及特征选择与稀疏学习、计算学习理论、半监督学习、概率图模型、规则学习以及强化学习等。
总而言之,这本书印刷排版好,语言表达好,逻辑思路好,是一本非常值得推荐给机器学习入门者梳理知识的书。内容全面充实,完全够想发表文章的同学使用。
京东限时特价活动,想入手的小可爱直接扫码下方图片购买即可
二维码有效期24小时
《机器学习实战》
[美] Peter Harrington 著,李锐,李鹏,曲亚东 等 译
这本书实战的比重会更高一些。
它主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。
书的第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。
第四部分介绍了机器学习算法的一些附属工具。
它没有从理论角度来揭示机器学习算法背后的数学原理,而是通过“原理简述+问题实例+实际代码+运行效果”来介绍每一个算法。
学习计算机的人都知道,计算机是一门实践学科,没有真正实现运行,很难真正理解算法的精髓。这本书的好处就是边学边用。
京东限时特价活动,想入手的小可爱直接扫码下方图片购买即可
二维码有效期24小时
以上就是今天推荐的8本生信好书,非常适合自学生物信息学使用。持续关注本号头条推送,你将得到最全的生信干货!