查看原文
其他

转录组分析的正确知识都了解了吗?

易生信 生信宝典 2022-03-28

转录组分析是目前应用最广的高通量测序分析技术之一。常见设计是不同样品之间比较,寻找差异基因、标志基因、协同变化基因、差异剪接和新转录本,并进行结果可视化功能注释网络分析等。

转录组的测序分析也相对成熟,从RNA提取、构建文库、上机测序再到结果解析既可以自己完成,又可以在专业公司进行。

概括来看转录组的分析流程比较简单,序列比对-转录本拼接 (可选)-表达定量-差异基因-功能富集-定制分析。整个环节清晰流畅,可以作为最开始接触高通量测序学习最合适的技术之一。

但重点和难点在于理解这些过程都是怎么做的,有什么需要注意的,结果怎么解读,后续分析怎么做。这些只有自己动手操作过,才可能有理解。而理解了一个,再去做其它类型分析,也会轻松很多。

实验设计这块重要的是对照和至少3个生物学重复,并选择合适的测序通量。ENCODE要求重复之间的Spearman correlation值大于0.9 (遗传背景不一致的生物重复相关系数要大于0.8)。定量基因表达和评估转录图谱相似性只需要中等测序深度;而研究新转录本和可变剪接则需要更深的测序;一般来讲长RNA-seq文库测序深度满足可用reads20-30 million (如果测PE150,换算成碱基数为6G-9G)。

另外一个需要注意的是测序的批次效应,保证自己的样品同时处理、RNA同时提取、同时构建文库和上机测序。这些环节虽然不能总受我们控制,但记录下对应的操作时间和批次,最后在绘制表达图谱时与实验相关参数进行关联展示 (利用我们介绍的热图简化高颜值可定制在线绘图工具-第三版),从而保证结果没有受到试验中处理批次的影响。ENCODE计划有一篇文章在比较人和小鼠不同组织的表达谱相似度时得到的结果是样品按物种而非组织聚在一起,这与之前认为的发育通路的保守性不符。后来发现是测序批次捣的鬼,做了批次效应矫正后,表达图谱按组织而非物种聚在一起了。

测序环节通常不需要自己操作,测序公司都很成熟,但测序的原理需要知道。这会影响到后续分析时参数的选择,比如知道什么是插入片段大小什么是链特异性测序,什么情况会有接头序列,双端测序如何测等。

获得数据后,就涉及到数据的传输和质量评估(也包括如何从公共数据库下载数据)和文件格式的转换。FASTQ格式解释和质量评估中有些提及。质量评估的意义在于从测序质量角度评价建库和测序的成功与否,指导接头和低质量碱基的去除。这一步参数控制的严格与否对后续的比对会有影响,同时也会受到后续分析选择的工具的影响。对Linux系统一定程度的了解,是进行这些工作的基础。

39个转录组分析工具,120种组合评估(转录组分析工具哪家强)中讲述了如何选择、评估合适的比对工具,序列拼装工具,定量工具和差异分析工具。值得我们在进入正式的分析之前,仔细阅读。另外类似的评估文章,还有几篇,都可以一并读一下,这样在后期分析时对工具的选择和使用才更得心应手。

工具比较类文章一般只告诉你做了什么,不告诉你这么做的原因是什么,而且每一步细分开来又有很多小细节需要注意,比如在比对环节就会涉及到:不同的样本如何选择合适的基因组和注释文件,什么样的软件支持Junction reads的比对,什么样的比对率是合适的,比对质量怎样,测序中RNA有无降解或选择偏好性,测序饱和度如何等。

这些可能都不会体现在最终的结果中,但都是确保后期结果可靠性所必须要做的事情。2002年诺贝尔奖得主Sydney Brenner曾对数据分析做过提醒Garbage in, Garbage out。软件是死的,提供了格式正确的输入,就可以得到输出,但输出正确与否,就得靠人的经验来判断了。

在后面的差异基因鉴定阶段,还存在把FPKM值转换为整数再提交给DESeq2做分析的,软件不报错,但结果不对。或者能顺着教程运行DEseq2分析,但换成自己的数据就不知道如何下手的 (DESeq2差异基因分析和批次效应移除)。这些问题都需要在实践过程中持续不断的试错、阅读更多的文章和教程来步步矫正。

做下测试题看看了解多少?

  1. 120分的转录组试题(第一份答案)

  2. 120分的转录组试题(第二份答案)

  3. 120分的转录组试题(第三份答案)

这当然是一个耗时耗力的过程,那么有没有一个更好的方式呢?

生信宝典团队经过紧张的筹备和基于以往三次转录组培训,12次总培训的基础,对转录组课程进行大规模更新,在生信学习系列教程的基础上进一步拓展和深入,跟大家一起去走过这段历程。我们的口号是易生信,毕生缘,希望能通过短暂高强度的训练快速推进大家在生信分析领域的进展。

之前的培训重点都在前面的流程分析,这次做了调整,流程分析整理一个清晰的输入、输出框架,包装好的流程脚本和参数注意,快速实战操作从源头。重点调整到后续的定制分析和绘图,涉及常见GO分析、单细胞转录组的聚类分析、配对样品和时间序列样品的GSEA富集分析、结合motif预测和转录因子ChIP的调控网络分析、定制化图形绘制、Cytoscape进行富集分析、调控网络、通路的可视化,目标基因筛选和可视化, WGCNA加权共表达网络分析,单细胞转录组分析和大家在报名过程中提出的自己的需求。

每部分都提供清晰的思维导图方便理解输入、输出、命令、参数和注意事项。

后续在我们的培训群也会提供长期的免费图形绘制合作服务,跟大家分享绘图代码,一起学习。

点击阅读原文可查看详细信息。(后面有更详细课程简介和每一部分的历史推文

看看往期学员对我们的评价吧。


课程简介

本课程一共3天,每天6节课,共18节课,全部课程均理论与实战结合(只要课上讲的都是可以带你自己实现的分析)。从分析平台搭建、Linux和R基础、图表解读和实战、转录组设计、分析标准流程、差异基因分析、功能富集分析、及各类高级分析(差异剪接、WGCNA分析、通路图绘制等),单细胞分析和CNS级图片修改排版。3天时间,老司机带您完成自学需要3个月甚至是1年的崎岖之路,助力您真正玩转转录组分析。

课程大纲

每节课1小时一个主题,理论结合实战,学懂原理,实战实操,全是老司机多年经验和代码的无私分享。下面是课程安排,如11代表第一天第一节课,26代表第二天第六节课,41为两周后的线上集中视频答疑。

编号主题简介
11转录组概述转录组设计、应用、批次效应等
12转录组分析流程简介基于/不基于比对的分析流程讲演
13Salmon定量实战不基于比对直接定量基因和转录本的表达
14差异基因分析DESeq2差异基因分析
15富集分析和可视化GO富集分析
16富集分析和可视化GSEA富集分析
17R基础数据读写、处理和可视化
21二代三代测序原理介绍建库测序过程及注意事项
22转录组软件安装Linux下一键配置
23STAR比对拼装差异剪接和差异基因分析
24WGCNA基因加权共表达网络分析和性状关联
25Cytoscape绘制共表达网络和调控通路网络图
26文章常见图表解读和Illustrator制作CNS标准图版
27Linux基础详细解释代码和文件格式转换
31单细胞转录组特点介绍注意事项
32单细胞数据预处理细胞和基因筛选
33单细胞分型PCA, TSNE, SC3聚类
34单细胞发育演化分析Pseudotime
35单细胞Marker基因鉴定差异分析,功能分析
36考试、圆桌论坛自评学习效果、知识点回顾
41答疑-线上答疑、考试内容串讲

教程内容简介如下:

转录组的应用、设计和案例分享

  1. 转录组学研究技术介绍

  2. 转录组学实验设计和测序原则、注意事项

  3. 二代、三代测序过程和原理解析

  4. 转录组学文章案例分析

  5. 在线基因表达资源数据库

转录组分析流程实战

  1. 转录组分析流程评估

  2. 测序数据质量评估和清洗

  3. 不基于比对的差异基因分析

  4. 基于比对的差异基因分析

  5. 转录本组装和选择性剪接分析

  6. 目标基因GSEA/GO富集分析

转录组高级分析

  1. WGCNA基因共表达分析

  2. WGCNA基因、表型关联分析

  3. Cytoscape 共表达网络绘制

  4. 转录组常见图形在线绘制

  5. KEGG/Reactome通路图绘制,表达映射

  6. 基因互作的文献挖掘和数据库挖掘展示

单细胞转录组分析

  1. 单细胞数据预处理和校正

  2. 细胞分型,PCA,  TSNE,  SC3聚类

  3. 单细胞发育演化分析

  4. 转录组常见图形在线绘制

  5. 单细胞Marker基因鉴定,差异分析和功能分析

  6. 别人的电子书,你的电子书,都在bookdown中有一本不错的单细胞分析教材

常见图表解读和图形编辑排版

在培训上,结合发表高水平文章,进一步讲解16种常用分析图的原理和使用范围,让你不仅读懂图,更知道如何应用于自己的研究,并亲自轻松完成绘图。

针对大家使用R语言绘图学习时间成本较高的问题,易生信团队针对常用16种图开发了免费绘图网站,一键出图,更可鼠标点选参数修改图形的个性样式。

成果发表是科研过程中不可缺的一部分,发表成果又少不了图形展示。文章图表排版是否整齐规范、协调一致、重点突出对一篇文章的发表也是有不少贡献的。之前推出的文章发表图的修改和排版讲演了部分图形编辑和排版操作,本次培训也会实践从原始图形、到细节修饰再到排版发表的整个过程和注意事项。

基因组浏览器用于多组学数据的可视化和关联分析,本地有IGV,在线有UCSC genome BrowserEpigenomebrowser,各有特色。

生信基础知识

  1. Linux/Windows下Rstudio和Linux命令的使用

  2. Linux/Windows下转录组分析流程的搭建

生物学家必要掌握的ShellR语言基础知识。

(如果基础薄弱,报名付款成功后,可免费领取基础程序课,做好准备工作, 让程序成为我们的得力工具而不是学习新知识的绊脚石。)

定制内容

如果您看到文章中有哪些图或分析工作需要重现,也请提出,一起讲述。

如果您有其它关注的问题,也请报名时提出,把这次课程变成您的定制讲解

  1. 120分的转录组试题(第一份答案)

  2. 120分的转录组试题(第二份答案)

  3. 120分的转录组试题(第三份答案)

授课模式

本课程以讲解流程和实际操作为主,采用独创四段式教学,封装好的代码全部分享,随处可用:

  • 第一阶段 3天集中授课;

  • 第二阶段 自行练习2周;

  • 第三阶段 在线直播答疑;

  • 第四阶段 培训视频继续学习;

  • 实现教-练-答-用四个环节的统一协调。

培训时间

2019-2-22 到 2019-2-24 (线下讲解实战)
每天早9点到晚6点,半封闭式教学 (最后1小时为集中讨论时间,最后一天会稍微提前一些,多留出时间讨论,也方便老师乘车返回)
报到时间:提前一天或者当天都可以

授课地点 (暂定,鼓楼附近)

北京市西城区鼓楼明德大厦 (北京市旧鼓楼大街47号院2号楼2010)。

课程价格

  1. 截止 2019-2-13  4500 元/人 (报名官网查看更多优惠)

  2. 名额有限,每次课程报名满40人后自动关闭报名通道

  3. 提供易汉博基因科技实习机会或工作机会

课程福利

  1. 座位按报名并缴费或预付款成功顺序从前到后龙摆尾式排序

  2. 赠送程序基础课和对应课程往期视频课一份 (http://bioinfo.ke.qq.com)

  3. 多人 (N,10>N>1) 组团报名并同时缴费,每人还可减免N-1百元 (最高500)

  4. 赠送金士顿U盘一个(32G含培训数据和脚本)

  5. 附推荐语分享对应的招生信息到朋友圈,截图发到train@ehbio.com 可获得200元生信宝典腾讯课堂课程优惠券(可拆分供多个课程使用)

复制以下链接
http://www.ehbio.com/Training/ 或
点击阅读原文跳转报名页

更多阅读


画图三字经 生信视频 生信系列教程 

心得体会 癌症数据库 Linux Python 

高通量分析 在线画图 测序历史 超级增强子

培训视频 PPT EXCEL 文章写作 ggplot2

海哥组学 可视化套路 基因组浏览器

色彩搭配 图形排版 互作网络

后台回复“生信宝典福利第一波”获取教程合集


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存