生物信息学:导论与方法课程之序列比对中的基本概念 | 学习课
生物信息学是一门强大的新技术,是用来分析、存储、搜索海量生物医学数据的信息技术和计算技术。另一方面,生物信息学是一种研究生命科学问题的新方法、新思路,是一种从全基因组出发、从系统水平出发、基于数据整合,提出新假说、发现新规律的研究方法。
联川生物正在开展全员学习的生物信息学系列视频课程是由北京大学魏丽萍、高歌等教授主讲的“生物信息学:导论与方法课程”,几位教授通过14周的课程,系统地讲授生物信息学主要概念及方法,以及如何应用生物信息学手段解决生命科学问题。课程内容从基础的序列比对开始,循序渐进,围绕深度测序数据分析、计算基因组学、分子通路鉴定等当前研究的前沿热点内容进行介绍与讨论。
联川的小伙们想通过本次的全员学习,不断提升自己的知识水平。小编想来,这次学习的内容来自北大知名教授,关注我们的小伙伴们也能一起学习、进步,就将视频课程内容整理好分享给大家,与大家一起学习、一起进步,一起探讨生物信息学的相关知识。大家也可以在文末对照视频一起学习哦~
若有整理不当的地方,敬请大家留言交流呐~
(课程内容视频,请点击文末阅读原文)
• 为什么要开设一门讲原理&方法的课程,而不是“使用方法”的课程?
• 原因:计算机不是生物学家,它并不理解使用者所要解决的生物学问题。这些工具只是按照设定的流程,基于一定的假设(assumption)对数据进行操作和处理。所以如果你的输入数据、或者想要解决的问题,与这些工具最初的假设不符,它们就难免会犯错误。因此在没有对相关原理充分理解的情况下,盲目的使用工具,就会有成为被工具使用的危险。
• 目的:为大家介绍目前生物信息学领域主流工具与方法背后的原理,从而使大家可以更好的发挥这些计算工具强大的作用,同时尽量避免可能的风险。
• 每一类方法介绍涉及的内容
• Biology:这个方法要解决的生物学问题和背景是什么,或者说“为什么需要这个方法”;
• Data:使用这个方法需要什么样的输入数据、以及哪些参数;
• Model:介绍这个生物学问题是怎样被建模成为一个可以被计算机解决的计算问题;
• Discussion:讨论具体来实现这个模型所需要使用的算法、其性能,以及其约束和限制。
• Sequence Alignment-序列比对
• 定义:将两个或多个序列排列在一起,标明其相似之处。序列中可以插入间隔(通常用短横线“-”表示)。对应的相同或相似的符号(在核酸中是A, T(或U), C, G,在蛋白质中是氨基酸残基的单字母表示)排列在同一列上。
• 基本思想:基于生物学中序列决定结构,结构决定功能的普遍规律,将核酸序列和蛋白质一级结构上的序列都看成由基本字符组成的字符串,检测序列之间的相似性,发现生物序列中的功能、结构和进化的信息。
• 为什么要进行序列比对?
• 1. 序列之间的相似性就可以帮助我们推断这个未知新序列的可能的功能,通过它已知的序列之间的相似性来进行这种推断;
• 2. 从演化的角度来看的话,不同物种中相似的序列往往意味着其具有共同的祖先,也就是所谓的“同源”。事实上,序列间的相似性是在演化分析中用来构建演化树的重要依据之一。所以,从生物学的角度来说,序列比对的目的就是根据序列之间的功能或演化关系,来有效地检测序列之间的相似性。
• 简而言之:a获得共性序列; b序列测序; c突变分析; d种系分析; e保守区段分析; f基因和蛋白质功能分析。
• Pairwise Sequence Alignment (Protein) 案例讲解
• 在比对详细信息的红框内,第一行的数据代表序列1,第二行的数据代表序列2,他们的中间的一行符号(标记行)分别表示两序列对应碱基的匹配情况,详细如下:
• 竖线:相同的残基/对应碱基相等
• 点与冒号:
• 定义:即该位置发生了替换(substitution),表示替换前后这个序列的相似程度,或者残基之间相似程度;点表示比较相似,冒号表示不太相似。
• 衡量标准:substitution matrix,或者替换矩阵
• 空格(gap):
• 定义:认为一个空位对应于序列中发生的片段的插入或删除,也就是indel。它是一个缩写,叫做insertion/deletion。也就是说,在一条序列上的插入,就是另一条序列上的删除。
• 空位罚分(Gap penalty):因为indel通常会对序列的功能产生影响,所以空位在比对过程中总是对应于一个负分。
• 空位罚分规则--线性组合模式
• gap open:开启了一个新的空位
• gap extending:代表延续了一个空位
• 罚分公式:Penalty = d + (n-1)*e
• d为gap opening的罚分,n为连续多少个空位,e为gap extending的罚分
• 最终得分
• 用之前的替换得分减去空位罚分就能得到最后的分数。最后通过得分框的数据,来判断这两条序列的相似性。
课程内容就介绍完了,本系列课程均是整理自视频内容,大家也可以在文末对照视频一起学习哦~
MEGA软件下载安装&序列处理&进化树绘制&Newick格式介绍
云课堂(8)|MetaboAnalyst使用教程-Enrichment Analysis模块
云课堂(9)|MetaboAnalyst使用教程-Pathway Analysis模块
云课堂(10) | MicrobiomeAnalyst在线绘图教程
云课堂(13) | 高通量测序数据NCBI GEO数据库上传指南
云课堂(17) | Cytoscape内插stringAPP完成PPI蛋白互作分析指南
Enrichment Analysis 模块 | 云课堂(18)
蛋白质组学搜库数据下载 | 云课堂(19)
samtools常用指令 | 云课堂(20)