没有生物学背景的数据分析很危险

Original 生信技能树生信技能树 2022-08-10

前些天我在介绍GEO数据挖掘技术应用到RNA-seq数据分析的推文：GEO数据挖掘技术可以应用到表达芯片也可以是转录组测序布置了一个作业：下载到GSE106292 数据集的 Excel表格如何读入R里面，做出作者文章的那样的图，可以参考关键问题答疑：WGCNA的输入矩阵到底是什么格式，详细教程见：一文看懂WGCNA 分析(2019更新版)

本来以为是很简单，但是十万粉丝里面，我只收到了13份作业，可怜的13份答卷里面，还有5个是错的！其中大家错的最离谱的就是，搞不清楚文中的WGCNA针对的5个分组到底是什么！

首先关注原文WGCNA图

下面的5个分组，都是英文专有名词，大家不理解其实是很正常的，没有人什么生物学背景都精通。

如果你下载到GSE106292 数据集的 Excel表格，就会发现，作者的分组其实很诡异！

有 bone, tendon, muscle, ligament 但是呢，很明显并不是原文的WGCNA里面的：hondrocytes, osteoblasts, myoblasts, tenocytes and ligamentocytes ，如果没有背景知识，就很难办！

文章里面，也是，这5个分组，并不是 hondrocytes, osteoblasts, myoblasts, tenocytes and ligamentocytes

需要细读文章

文章描述WGCNA的段落是：

Here we implemented RNA sequencing to generate cell type- specific transcriptomes for chondrocytes, osteoblasts, myoblasts, tenocytes and ligamentocytes at 17 weeks post-conception (WPC) of human development. We then employed Weighted Gene Co- expression Network Analysis (WGCNA) to define tissue-specific gene modules that represent each cell type.

也就是说，都是 17 weeks post-conception (WPC) ，那么我们的表达矩阵的样本名字里面，的确没有这个肿么办!

当然，就需要祭出我们的大杀器了，GEO数据挖掘流程：

library(GEOquery)
gset <- getGEO('GSE106292')
pd=pData(gset[[1]])

就这么简单，就拿到了文章所有的样本的表型信息啦！

感兴趣细节的可以自己去研读挖掘系列推文；

但是样本信息仍然并不是WGCNA的分组

我们注意到，这个时候已经是5个组了：

的确并不是原文的：hondrocytes, osteoblasts, myoblasts, tenocytes and ligamentocytes ，

肿么办呢？

当然是继续看原文：

chondrocytes from the knee, myoblasts from the quadriceps, endosteal osteoblasts from the femur, and ligamentocytes and tenocytes from the anterior and posterior cruciate ligament and Achilles tendon, respectively

这样就把样本信息和WGCNA图表信息啦！