查看原文
其他

log与否会改变rpkm形式表达矩阵top的mad基因列表

生信技能树 生信菜鸟团 2022-06-06

我在生信技能树多次写教程分享WGCNA的实战细节,见:

提到过,只需要基因的表达量是适合计算相关性的即可,如果是 原始 counts值,可以直接转为 log(cpm+1) 的格式 ,更为重要的其实是挑选多少个基因进入后续的wgcna流程。但,实际上不同归一化方法很明显会影响基因表达量的相关性,rpkm,fpkm,tmp,counts以及它们的log与否,都是有影响的。不知道有没有人愿意来探索一下,到底哪一种形式最适合做WGCNA分析呢,评价指标是什么,金标准又是什么?这样的探索能算一个科研课题吗?能发SCI文章吗,如果做完了并且勇于写出来?

我相信,如果仅仅是为了发一个公众号,大家是不可能抽出时间来的!

不同归一化方式影响很多统计学指标

不仅仅是会影响基因之间的表达量相关性,而且通常我们的做wgcna会根据mad值来挑选top5000或者10000的基因,log与否的表达矩阵就会影响mad值,而且还影响了mad值排序,影响排序就影响了从top MAD筛选基因这个策略。

比如,如下代码:

rm(list = ls())  ## 魔幻操作,一键清空~
options(stringsAsFactors = F)#在调用as.data.frame的时,将stringsAsFactors设置为F

expr <- read.table('expr_rpkm.txt',
                   sep = '\t',header = T,row.names = 1)
expr[1:4,1:4]
g1=rownames(expr)[order(apply(expr,1,mad), 
                     decreasing = T)[1:5000]]

expr=log2(expr+1
g2=rownames(expr)[order(apply(expr,1,mad), 
                        decreasing = T)[1:5000]]

length(intersect(g1,g2))
# 3333 个基因是overlap的

很明显,log前后的表达矩阵的top 5000的MAD基因,虽然说有3333 个基因是overlap的,比例很高。

但是毕竟差异也不小,就给人一种感觉,生物信息学分析是不靠谱的。

换一个统计学方法,换一个阈值,换一个人来做,就不一样了!

你觉得呢?

WGCNA免费做

我们推文里面提到的各种各样的数据分析环节都是我非常有经验的,比如我在lncRNA的一些基础知识 ,和lncRNA芯片的一般分析流程 介绍过的那些图表,以及下面的目录的分析内容 对我来说是举手之劳,希望可以帮助到你!

同样的,本次活动我可以帮你免费做一次WGCNA分析,但是呢,我也没办法保证结果咋样,有时候数据集就是这样。

还是老规矩,发送数据分析要求,以及简短的项目描述到我的邮箱 jmzeng1314@163.com

邮件正文最好是加上你是啥时候认识生信技能树的哦,或者其它一些寒暄的话,自我介绍也行。主要是考虑到可能想免费分析数据的朋友很多,所以会根据你的来信,我主观判定一个优先级哦。目前我有20多个愿意长期在我的指导下进行数据探索的学徒,等我的团队扩大到200人,我们应该是可以做到数据分析全部免费,敬请期待哈!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存