谁说样本一定要按照编号排序呢

Original 生信技能树生信技能树 2022-06-07

学徒培养进行到了转录组实战环节，按照惯例我会挑选10+篇比较新的带数据集的RNA-seq文章给到学徒，让大家实战。

大家需要自己去找到数据集背后的测序数据，然后使用aspera下载fq文件，走hisat2+feature流程拿到表达量矩阵，然后根据样品信息进行分组后做差异表达分析和生物学数据库注释。基本上下游分析就是我五年前的《数据挖掘》系列推文；

但是这次学徒完成作业后，给了我一个很诡异的PCA结果，数据集是GSE130437，如下所示:

理论上呢，这个数据集是12个样品，首先分成2个细胞系，每个细胞系都是6个样品。各个细胞系内部应该是药物组和对照组泾渭分明的。但是不知道为什么学徒做出来的第二个PCA图出现了混杂。

所以我深入检查了这12个样品的相关性矩阵热图，如下所示：

cor_all

看起来呢，应该是其中一个细胞系的一个样品的分组弄错了，就是MD231细胞系里面的，而另外的那个MCF7细胞系是没有问题的哈。

所以我看到MD231细胞系差异分析结果也超级诡异，如下:

DEseq2_volcano

这个问题其实也很多人在公众号后台问过我，为什么他自己的差异分析拿不到任何统计学显著的基因。其实原因就是分组就搞错了，那我们继续深入检查哈。

去检查代码和数据

上游分析没有问题，就是aspera下载fq文件，走hisat2+feature流程拿到表达量矩阵，代码如下：

index=/home/jianmingzeng/reference/index/hisat/mm10/genome
hisat2=/home/jianmingzeng/biosoft/HISAT/hisat2-2.0.4/hisat2

ls raw_fq/*gz |  while read id; do 
$hisat2 -p 10 -x $index -U $id  -S ${id%%.*}.hisat.sam
done 

ls *.sam|while read id ;do (samtools sort -O bam -@ 5  -o $(basename ${id} ".sam").bam   ${id});done
rm *.sam 
ls *.bam |xargs -i samtools index {}

## gtf文件推荐去gencode数据库下载
gtf=/home/jianmingzeng/reference/gtf/gencode/gencode.vM12.annotation.gtf
featureCounts=/home/jianmingzeng/biosoft/featureCounts/subread-1.5.3-Linux-x86_64/bin/featureCounts   
# # # 如果使用conda安装的 subread，那么featureCounts  命令应该是在环境变量的。
$featureCounts -T 5 -p -t exon -g gene_id  -a $gtf -o  all.id.txt  *.bam  1>counts.id.log 2>&1 &

上面的代码是针对小鼠的转录组数据，如果是人类的数据，需要修改参考基因组文件索引，以及修改gencode下载的gtf文件哦。

下游分析主要是样本表型出错：

  b=read.table("SraRunTable.txt",sep=",",fill = T,header=T)
  b= b[,c(1,8,9,24,26)]

很有意思，确实是这个 SraRunTable.txt的样本并没有按照ID顺序排列。

学徒的代码里面缺一个检查操作，我添加了：


  identical(colnames(ensembl_matrix),b[,1])
  b=b[match(colnames(ensembl_matrix),b[,1]),]
  identical(colnames(ensembl_matrix),b[,1])

后面仍然是正常的分组信息啦：


  group_list=b$source_name
  group_list
  table(group_list)
  library(stringr)
  phe=as.data.frame(str_split(group_list,' ', simplify = T)[,1:2])
  colnames(phe)=c('cell','drug')

接下来就是我五年前的《数据挖掘》系列推文；

正确的结果

这样，每个细胞系后续分析都是正确的啦，从PCA上面也可以看出来。

高三女生醉酒后被强奸致死？检方回应

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时

女人最偏爱的十种男人

谁说样本一定要按照编号排序呢

去检查代码和数据

正确的结果

文末友情推荐

您可能也对以下帖子感兴趣

高三女生醉酒后被强奸致死？检方回应

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋 华人崩溃大哭 连空姐都吐了; 客机颠簸盘旋3小时

女人最偏爱的十种男人

生成图片，分享到微信朋友圈

谁说样本一定要按照编号排序呢

去检查代码和数据

正确的结果

文末友情推荐

您可能也对以下帖子感兴趣

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时