生物信息学:导论与方法课程之什么是生物信息学 | 学习课
生物信息学是一门强大的新技术,是用来分析、存储、搜索海量生物医学数据的信息技术和计算技术。另一方面,生物信息学是一种研究生命科学问题的新方法、新思路,是一种从全基因组出发、从系统水平出发、基于数据整合,提出新假说、发现新规律的研究方法。
联川生物正在开展全员学习的生物信息学系列视频课程是由北京大学魏丽萍、高歌等教授主讲的“生物信息学:导论与方法课程”,几位教授通过14周的课程,系统地讲授生物信息学主要概念及方法,以及如何应用生物信息学手段解决生命科学问题。课程内容从基础的序列比对开始,循序渐进,围绕深度测序数据分析、计算基因组学、分子通路鉴定等当前研究的前沿热点内容进行介绍与讨论。
联川的小伙们想通过本次的全员学习,不断提升自己的知识水平。小编想来,这次学习的内容来自北大知名教授,关注我们的小伙伴们也能一起学习、进步,就将视频课程内容整理好分享给大家,与大家一起学习、一起进步,一起探讨生物信息学的相关知识。大家也可以在文末对照视频一起学习哦~
若有整理不当的地方,敬请大家留言交流呐~
(课程内容视频,请点击文末阅读原文)
• Genome: the "manual of life" 生命的组装说明书
• mitochondriall DNA 线粒体DNA
• epigenetics 表观遗传学 (DNA甲基化、组蛋白修饰、核小体位置等)
• environments/nature (环境、环境与基因的相互作用)
• chance (生命过程中的随机因素)
• Human genome has 3.1 billion bases
• 2.9% of the bases encoding genes (2.9%编码蛋白的基因区间,这些基因区间在基因组的哪些位置,如何找出它们,找到基因后如何预测其被剪切成怎样的剪切体、翻译何种蛋白)
• 97.1% of the bases contain the rugulatory elements that
encode instructions on when, where, which, and how much proteins to make. (包含大量的调控元素,决定着在哪里、什么地方,表达哪些蛋白,表达了多少蛋白)
• The universal code: Other species' genomes The Tree of Life (除RNA病毒外,其他物种均由ATCG组成,构成生命之树,研究演化和群体遗传学问题)
• Human Genetic Variations
• 研究病人和正常人之间的遗传差别,确定哪些疾病是由基因突变造成的。
• 如何在大量碱基中找到确切的致病突变基因、怎样区分致病突变和非致病突变。
• How do you decode the instructions in this "manual of life" 如何解读
• 生命科学的机遇--二代测序&产生大量数据
• Genbnk growth 每20个月数据翻倍,数据量庞大的因素之一是新一代测序仪的产生
• SRA-sequence read archive 储存二代测序的原始数据,每5个月数据翻倍
• 除了核酸序列数据,还有表达谱、蛋白相互作用、代谢谱等大数据
• 生命科学的挑战--
• 高通量技术相对于sanger 测序,其错误率更高,如单个碱基单次测序的错误率是传统测序的100倍左右;
• 如何从大量的错误里找到研究所需要的真正信号,是具有很大挑战的;
• 总结:Opportunities and challenges hand-in-hand:the driving forces
of bioinformatics
• What is bioinformatics
• 定义:是一门交叉学科,主要通过开发并且应用计算和计算机技术来研究生物医学问题。
• 双重身份:1)一种技术,是一个管理、检索和分析海量生物医学数据的信息技术和计算技术;2)一种研究方法,是一种和传统生物学非常互补的一种研究方法,是自上而下,从全基因组出发,从系统水平出发,基于数据的一种产生新假说、发现新规律、发现新的功能元件的一种研究方法。
• 生命科学研究趋势:实验科学和生物信息学非常紧密的结合
• 主要研究问题:生物学和医学领域的问题
• 主要研究手段和开发技术:设计计算机、数学、统计和物理学
• BIO-围绕中心法则,研究基因型到表型
• 研究的问题
• 基因组水平:如何从基因组里找到基因,怎样比较两个基因组的相似性,演化的距离和最类似的部分;如何鉴定哪些区间被甲基化;
• RNA水平:鉴定两个组织之间有哪些基因的表达量是有显著统计性的差别;
• 蛋白水平:从Mass spec数据如何鉴定有哪些蛋白被表达,蛋白不是以一个线性形式存在,他是一个漂亮的三维结构,能否从他的一维序列预测其三维结构;
• 生物体里的基因和蛋白并非独立存在、独立工作,而是形成一个复杂的网络,如何构建蛋白相互作用网络、转录调控网络、代谢和信号转导网络;这些网络具有哪些动力学特征;
• 可实现的功能
• 细胞模拟;
• 对人基因组进行测序后,可以做大量的群体遗传学和人类遗传学研究,从而寻找不同疾病的致病基因;
• informatics--沿着数据到探索发现这一主线
• 需要的工具
• 管理海量数据需要非常先进的数据库系统;
• 分析海量、高噪音数据,需要大量算法软件和服务器
• 可实现的功能
• 数据挖掘;
• 建立预测模型,能够对生物的系统进行模拟。
课程内容就介绍完了,本系列课程均是整理自视频内容,大家也可以在文末对照视频一起学习哦~
MEGA软件下载安装&序列处理&进化树绘制&Newick格式介绍
云课堂(8)|MetaboAnalyst使用教程-Enrichment Analysis模块
云课堂(9)|MetaboAnalyst使用教程-Pathway Analysis模块
云课堂(10) | MicrobiomeAnalyst在线绘图教程
云课堂(13) | 高通量测序数据NCBI GEO数据库上传指南
云课堂(17) | Cytoscape内插stringAPP完成PPI蛋白互作分析指南
Enrichment Analysis 模块 | 云课堂(18)
蛋白质组学搜库数据下载 | 云课堂(19)
samtools常用指令 | 云课堂(20)