转录组数据分析的4个维度认识(数据分析继续免费哦)
首先感谢Jimmy大神在我孤独的生信入门阶段给予我非常多无私的引导和帮助!
昨天接到大神任务总结下转录组分析的四个维度,最近我正好也想理清楚下转录组分析的知识点,以便更好地理解RNA-Seq数据的分析结果和方法原理,因此趁周末有些许空暇看了文献并进行了知识点的梳理。
文献简介:这篇 Modeling and analysis of RNA-seq data: a review from a statistical perspective 详细介绍转录组分析四个层面的统计学计算模型和方法,
如下:
1.样本
2.基因
3.转录本
4.外显子
如果你感兴趣文献,自行搜索,我们不提供pdf下载通道。全文精华在下图,虽然看起来一股浓浓的PPT风格:
1.样本水平(相似性分析)常用的方法:
Pearson correlation coefficients
Spearman correlation coefficients
TROM (用相关基因替代整体全部基因来分析,消除管家基因表达的影响)
这个分析很容易理解啦,相关性分析后的相关性系数矩阵热图可视化是其中一个常见的手段,其实也可以是PCA图,层次聚类图,等等
全基因组表达差异分析(芯片只能检测已知基因)
实验条件
时间点
组织
细胞类型
物种
三种常见的基因表达归一化方法(去除测序深度和基因长度对差异分析的影响)
RPKM(The reads per kilobase per million mapped reads)单端测序
FPKM(the fragments per kilobase per million mapped reads)双端测序
TPM(the transcripts per million mapped reads)[目前有研究者认为更好的归一化方法](
两类归一化策略
基于分布:用全部基因或大部分基因的表达对不同样本进行归一化
The quantile normalization
DESeq
TMM
基于基因:用无差异的基因或管家基因表达对不同样本间进行归一化
PoissonSeq
基因共表达网络分析
GCNs (A gene co-expression network)帮助分析基因间的功能性关系和推断注释未知基因功能
最常用的方法WGCNA (WGCNA有开发号的R包,感兴趣可以去看下这篇文献),起初是应用与芯片数据的分析,目前可以用来分析归一化后的RNA-seq数据,被广泛用于分析基因表达矩阵来检查基因的聚类和基因的相关性
当然了,很多时候实验设计非常复杂,比如昨天生信技能树分享的:不同时间点不同药物浓度不同细胞系的转录表达(生信数据分析免费做)
mRNA-Seq(一种针对编码RNA的转录组水平测序)
两个主要任务
用于转录本的重组、发现、组装和鉴定;这里稍微提下最大的挑战在于短reads信息不全,难以鉴定长转录本
已知或新发现的转录本的分析和丰度估计
两个主要分析方法
rQuant
SLIDE
IsoLasso
CIDANE
Likelihood-based methods
Regression-based methods
计算选择性剪接中的外显子包含率即外显子可变剪接的概率
通过这篇文献综述的阅读,系统的了解转录组分析四个层面的基础知识点和统计学算法的概念和知识点,算法模型这块涉及到统计学知识,有点难懂,我想后面用到了再来一一详细了解,现在先熟悉RNA-Seq数据分析的软件使用,边用边学习积累相关统计学知识。
最后还是要感谢Jimmy大神的文献分享和督促学习,还有很多不懂,还需继续努力学习。
继续送一个福利
首先感谢学徒翻译和领读了这篇文章,虽然感觉一般般,但总归对大家来说是一个启发!
如果你有感兴趣的数据需要分析,RNA-seq相关的,或者芯片的,表达矩阵后的下游分析,我可以免费给你分析哈!发送数据集链接或者表达矩阵,以及简短的项目描述到我的邮箱
jmzeng1314@163.com
邮件正文最好是加上你是啥时候认识生信技能树的哦,或者其它一些寒暄的话,自我介绍也行。主要是考虑到可能想免费分析数据的朋友很多,所以会根据你的来信,我主观判定一个优先级哦。
如果你需要单细胞转录组数据免费分析,请看:根据感兴趣基因看肝癌免疫微环境的T细胞亚群差异 目前我有20多个愿意长期在我的指导下进行数据探索的学徒,等我的团队扩大到200人,我们应该是可以做到数据分析全部免费,敬请期待哈!