RNA芯片和测序技术的比较(学徒作业)
前面我们介绍了表达量研究领域的,基因芯片和RNA-seq测序技术,并且把详细的学习资料和视频教程免费共享在了B站。
有学员提出来了一个问题,就是可以比较同样实验设计的表达量探索研究,一个研究使用的是芯片,一个是测序,看看两者的差异基因情况的overlap情况。其实这样的例子非常多,比如下面这样的展现方式:
数据集是 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE118719
7 NPC biopsy specimens and 4 normal nasopharyngeal mucosal specimens were sampled. Total RNA were extracted from these samples, and analyzed by RNA-sequencing.
作者提供了RNA-seq的表达矩阵:https://ftp.ncbi.nlm.nih.gov/geo/series/GSE118nnn/GSE118719/suppl/GSE118719_mrna.expression.tsv.gz ,不过这个数据集本来就提供原始测序数据下载,也可以很方便的自己走一波数据分析流程拿到自己的表达矩阵。如果你也想走RNA-seq数据分析流程却不知的从何下手,不妨考虑:生信爆款入门-全球听(买一得五)(第5期)(可能是最后一期)你的生物信息学入门课。
NPC癌症组织与正常组织的HG-U133_Plus_2芯片在GEO数据库可以搜索到NPC相关表达矩阵:
文章是:Upregulated long non-coding RNA AFAP1-AS1 expression is associated with progression and poor prognosis of nasopharyngeal carcinoma. Oncotarget 2015 Aug 21;6(24):20404-18. PMID: 26246469
使用的是[HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array
数据集是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE64634
实验设计是:Total RNA extracted from laser-captured epithelium from 12 nasopharyngeal carcinomas and 4 normal healthy nasopharyngeal tissue specimens.
GSM1575894 normal nasopharyngeal tissue, specimen N1
GSM1575895 normal nasopharyngeal tissue, specimen N2
GSM1575896 normal nasopharyngeal tissue, specimen N3
GSM1575897 normal nasopharyngeal tissue, specimen N4
GSM1575898 nasopharyngeal carcinoma, specimen T1
GSM1575899 nasopharyngeal carcinoma, specimen T2
GSM1575900 nasopharyngeal carcinoma, specimen T3
GSM1575901 nasopharyngeal carcinoma, specimen T4
GSM1575902 nasopharyngeal carcinoma, specimen T5
GSM1575903 nasopharyngeal carcinoma, specimen T6
GSM1575904 nasopharyngeal carcinoma, specimen T7
GSM1575905 nasopharyngeal carcinoma, specimen T8
GSM1575906 nasopharyngeal carcinoma, specimen T9
GSM1575907 nasopharyngeal carcinoma, specimen T10
GSM1575908 nasopharyngeal carcinoma, specimen T11
GSM1575909 nasopharyngeal carcinoma, specimen T12
芯片数据处理就很容易啦,如果你还有疑问,不妨看看:(必看!)数据挖掘第3期(两天变三周,实力加量),医学生/临床医师首选技能提高课。
NPC癌症组织与正常组织的lncRNA芯片首先是Sep 30, 2019的 Long non-coding RNAs and mRNAs expression profilling in human nasopharyngeal carcinoma ,数据集是:GSE126683 使用的是Agilent-045997 Arraystar human lncRNA microarray V3 (Probe Name Version)芯片平台
GSM3611201 1_GX5: Normal
GSM3611202 2_GX6: Normal
GSM3611203 3_GX8: Normal
GSM3611204 4_662: NPC
GSM3611205 5_667: NPC
GSM3611206 6_751: NPC
文章的差异分析结果是:
We performed genome-wide lncRNAs expression in 3 pairs of NPC and normal nasopharynx tissues and identified 384 dysregulated lncRNAs (fold change ≥2 and P <0.05).
所以作者就从差异分析结果里面挑选了 FAM225A ,依据的标准是;
FAM225A was one of the most upregulated lncRNAs in NPC.
FAM225A significantly associated with poor survival in NPC.
这个研究使用的是:Arraystar Human LncRNA microarray V2.0 (Agilent_033010 Probe Name version) 数据集是:GSE95166
GSM2498136 T_1
GSM2498137 T_2
GSM2498138 T_3
GSM2498139 T_4
GSM2498140 I_1
GSM2498141 I_2
GSM2498142 I_3
GSM2498143 I_4
跟前面的数据集是:GSE126683 实验设计是一模一样,所以两个结果可以对比分析!
NPC的lncRNA芯片之转移与否发表在Biomed Res Int. 2015;的Long Noncoding RNA Expression Signatures of Metastatic Nasopharyngeal Carcinoma and Their Prognostic Value. 因为发表的较早,所以使用的是 Human lncRNA Array v2.0 (8 × 60 K, Arraystar). 统计学结果是:8,088 lncRNAs were found to be significantly differentially expressed (≥2-fold) 这篇文章并没有把其表达矩阵上传到GEO数据框,而是以附件Excel表格形式给出了,所以也可以重新分析看看。
其他NPC表达数据集数据集:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE40290
实验设计是;We collected 25 primary NK-NPCs and 8 nasopharynx tissues obtained from patients with inflamed nasopharyngeal mucosa. mRNA expression profiling was performed followed by bioinformatics analysis.
这个芯片平台有点奇怪:GPL8380Capitalbio 22K Human oligo array version 1.0
这个数据集还被挖掘过,NPC (GSE40290), 573 genes and 3,711 genes (green) were differentially expressed in high-TRIM26 NPC and low-TRIM26 NPC ,文章是:published: 28 June 2018 https://doi.org/10.1002/cam4.1537
基本上都只需要走标准分析流程,火山图,热图,GO/KEGG数据库注释等等。这些流程的视频教程都在B站和GitHub了,目录如下:
第一讲:GEO,表达芯片与R
第二讲:从GEO下载数据得到表达量矩阵
第三讲:对表达量矩阵用GSEA软件做分析
第四讲:根据分组信息做差异分析
第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析
第六讲:指定基因分组boxplot指定基因list画热图
感兴趣可以细读表达芯片的公共数据库挖掘系列推文 ;
文末友情宣传
强烈建议你推荐我们生信技能树给身边的博士后以及年轻生物学PI,帮助他们多一点数据认知,让科研更上一个台阶:生信爆款入门-全球听(买一得五)(第5期)(可能是最后一期)你的生物信息学入门课 (必看!)数据挖掘第3期(两天变三周,实力加量),医学生/临床医师首选技能提高课 生信技能树的2019年终总结 ,你的生物信息学成长宝藏 2020学习主旋律,B站74小时免费教学视频为你领路,还等什么,看啊!!!