【课程介绍】生物信息学:导论与方法课程 | 学习课
生物信息学是一门强大的新技术,是用来分析、存储、搜索海量生物医学数据的信息技术和计算技术。另一方面,生物信息学是一种研究生命科学问题的新方法、新思路,是一种从全基因组出发、从系统水平出发、基于数据整合,提出新假说、发现新规律的研究方法。
联川生物正在开展全员学习的生物信息学系列视频课程是由北京大学魏丽萍、高歌等教授主讲的“生物信息学:导论与方法课程”,几位教授通过14周的课程,系统地讲授生物信息学主要概念及方法,以及如何应用生物信息学手段解决生命科学问题。课程内容从基础的序列比对开始,循序渐进,围绕深度测序数据分析、计算基因组学、分子通路鉴定等当前研究的前沿热点内容进行介绍与讨论。
联川的小伙们想通过本次的全员学习,不断提升自己的知识水平。小编想来,这次学习的内容来自北大知名教授,关注我们的小伙伴们也能一起学习、进步,就将视频课程内容整理好分享给大家,与大家一起学习、一起进步,一起探讨生物信息学的相关知识。大家也可以在文末对照视频一起学习哦~
若有整理不当的地方,敬请大家留言交流呐~
今天开始,我们将一起来学习前6周的内容,今天小编先介绍一下整个6周的学习内容,一起来看看吧~
(课程内容视频,请点击文末阅读原文)
框架
每周课程内容
主要目的
1. 告诉大家每周讲述的是什么生物学问题
2. 把这个生物学问题转换成什么样的计算问题
3. 主要的解决方法
week 1 Sequence alignment 序列比对
1 序列比对所针对解决的问题
1.1 两个DNA或蛋白的序列的相似度有多高?
1.2 他们在演化上可能同源吗?
1.3 我们能用1个蛋白的功能来预测另一个的功能吗?
2 这个问题转化成计算,又是需要解决什么问题
2.1 如何找到两个序列最优或近似最优的比对?
2.2 如何能做的快?
2.3 如何能量化相似性?
3 序列比对算法软件的历史介绍
自从上世纪60年代有了同一家族的两个蛋白的序列开始,序列比对就是生物信息学领域的一个重要问题。
3.1 Needman-Wunsch 全局比对算法,1970年
3.2 Smith-Waterman 局部比对算法,1981年
3.3 PAM矩阵(评估把两个氨基酸比对在一起的优劣程度),1978年
3.4 BLOSUM矩阵,1992年
week 2 Sequence database search & Ontology and pathway identification
1 序列数据库搜索
1.1 研究目的
在所有已知的序列中,哪些序列与我感兴趣的基因或蛋白的序列相似呢?
那些功能已知的基因的信息能否为我手头上的基因或蛋白的功能研究提供线索呢?
1.2 挑战
如何从众多的蛋白序列以及核酸序列中找到与研究目的基因相似的基因呢?
蛋白与核酸序列的数量,每年都在持续增长。
1.3 解决问题的软件/算法
BLAST,1990年
gapped-BLAST(有缝)& psi-BLAST(迭代),1997年
2 本体论和分子通路的鉴定
2.1 研究目的
如何存储海量的数据-讲述数据库和基因注释中的本体论(Ontology)概念;
如何使用这些数据和统计工具,来发现统计显著的模式;
课程以分子通路的鉴定为例,讲述如何找到一组基因或蛋白参与的最显著的分子通路;
如果实验发现一些基因在一种肿瘤组织和正常组织之间有统计显著的差异表达,那么这些基因主要涉及哪些蛋白家族、代谢、信号转导通路呢?
2.2 课程所选数据库以及软件
GO
KEGG
KOBAS软件
week 3 Markov Model and Hidden Markov Model Bioinformatic database and software resources
1 马尔可夫模型和隐马尔可夫模型
1.1 背景
生物信息学方法能够基于已知的信息对未知的信息进行预测,其中经典的模型包括马尔可夫模型和隐马尔可夫模型。
1.2 课程内容
什么是马尔可夫模型和隐马尔可夫模型;
如何构建这些模型;
如何对模型进行训练;
如何运用模型进行预测;
如何运用马尔可夫模型进行序列比对;
如何运用隐马尔可夫模型预测给定DNA序列中的编码区域;
讨论这些模型如何扩展应用于对基因的预测。
1.3 软件
GenScan 2000年(展示GenScan软件的工作原理)
2 生物信息学数据库和软件
2.1 背景&目的
生物信息学资源丰富;
为生物学信息学习提供有用信息。
2.2 课程内容
主要的生物学信息资源有哪些;
如何找到生物学信息资源;
介绍生物信息学重要的数据库和软件资源;
着重比较大的常用资源。
week 4 Next generation sequencing(NGS): reads mapping & variants calling Functional prediction of genetic varients
1 高通量测序技术
1.1 内容
新一代测序技术测量1个人的基因组DNA会产生9亿条100碱基长的短片段,如何借助参考基因组,通过这些短片段重构这个人的基因组,鉴定他的遗传变异呢?
这些片段的单碱基错误率比传统Sanger测序可能要高10-100倍,如何把这9亿条高噪音的片段回帖到参考基因组,把真正的遗传变异从测序错误中辨别出来呢?
1.2 方法
MAQ
BWA
GATK
2 遗传变异中的功能预测
2.1 内容
遗传变异之后如何判断这些遗传变异是否会改变蛋白结构和功能,是否会导致疾病;
上述问题可以归纳为如何利用已知知识建立模型的统计问题
2.2 算法
SIFT
Poluphen
SAPRED
week 5 NGS RNA-Seq and transcriptome analysis & prediction and analysis of noncoding RNAs
1 RNA-Seq 和转录分析
1.1 内容
高通量测序的另一个应用,就在于全基因组水平测量基因表达;
如何用高通量测序技术检测有哪些基因表达;
哪些基因在不同组织之间或正常组织与肿瘤组织之间有哪些差异表达,存在哪些可变剪切;
如何从测序角度计算基因表达量;
如何计算表达差异的统计显著性有多高呢;
如何把短片段拼接成剪切体。
1.2 软件
TopHat
Cufflinks
2 非编码RNA的预测和分析
2.1 背景
通过对表达谱的分析发现,有大量转录出来的甚至被剪切的转录本并不编码蛋白质,而是已非编码RNA的形式存在。
2.2 内容
讲述如何判断1个转录本是否编码蛋白;
这些非编码RNA可能的功能是什么;
如何利用已知的编码和非编码RNA来建立RNA编码潜能的预测模型;
如何找到非编码RNA的特征。
2.3 软件
CPC,2007年
week 6 Case study 1-Origination and evolution of new genes & Case studr 2-Evolution function analysis of DNA methyItransferase
1 背景
如何用生物信息学方法解决生命科学中的实际问题,课程将利用2个具体实例进行展示
2 具体实例
2.1 新基因的起源与演化
2.2 DNA甲基化酶的功能演化
3 内容
如何通过整合多种数据和软件来发现有序的模式和新的功能元件
课程内容就介绍完了,本系列课程均是整理自视频内容,大家也可以在文末对照视频一起学习哦~
MEGA软件下载安装&序列处理&进化树绘制&Newick格式介绍
云课堂(8)|MetaboAnalyst使用教程-Enrichment Analysis模块
云课堂(9)|MetaboAnalyst使用教程-Pathway Analysis模块
云课堂(10) | MicrobiomeAnalyst在线绘图教程
云课堂(13) | 高通量测序数据NCBI GEO数据库上传指南
云课堂(17) | Cytoscape内插stringAPP完成PPI蛋白互作分析指南
Enrichment Analysis 模块 | 云课堂(18)
蛋白质组学搜库数据下载 | 云课堂(19)
samtools常用指令 | 云课堂(20)