这样拿差异基因集做肿瘤诊断模型不是明知故问吗
差异基因分析确实是人尽皆知了,不管是表达芯片还是RNA-seq测序拿到的表达矩阵,都可以走差异分析策略,哪怕是蛋白质组和代谢组拿到的矩阵,也是如此,其实图表没啥子区别。差异分析,火山图,热图等等标准流程,基本上读一下我在生信技能树的表达芯片的公共数据库挖掘系列推文 就明白了;
解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 从GEO数据库下载得到表达矩阵 一文就够 GSEA分析一文就够(单机版+R语言版) 根据分组信息做差异分析- 这个一文不够的 差异分析得到的结果注释一文就够
但是同样的也带来了一个问题,就是常规分析已经引起不了大家的兴趣,没办法脱颖而出,发文章就很困难。虽然说可以去找其它分子,比如circRNA,lncRNA,miRNA,但最终仍然是差异分析,火山图,热图,区别就是多了一个靶基因。
但是我看了一个2019年8月的文章,题目是:Genome-wide study of salivary microRNAs as potential noninvasive biomarkers for detection of nasopharyngeal carcinoma ,最后的落脚点居然是把统计学显著的差异基因拿去区分肿瘤样本和正常样本, 也就是诊断模型,diagnostic biomarker.
第一个数据是miRNA芯片, 22 newly diagnosed NPC patients and 25 healthy controls 芯片有2025 human miRNA probes.,但是本次实验合格的只有1105 miRNAs 筛选统计学显著的miRNA阈值是:P < 0.05 and |fold change| > 1.5得到4个上调,47个下调的miRNAs,热图展现。 进一步缩紧阈值,P < 0.01 and |fold change| > 2,得到 12 miRNAs 后续分析 第二个数据是qRT-PCR, 8 NPC patients and 8 healthy donors ,针对 12 miRNAs 。
神奇的诊断模型
作者就直接拿这12个miRNAs来构建模型,discovery数据集就是miRNA芯片(22 newly diagnosed NPC patients and 25 healthy donors ),然后validation数据集就是qRT-PCR数据(8 NPC patients and 8 healthy donors )。
结果当然是出奇的好:
For this miRNA panel, we were able to reach a discriminatory power of AUC = 0.999. When scoring with the 6 most altered miRNAs, the accuracy was high with an AUC of 0.941. This pilot study was designed as an initial step toward developing clinically applicable diagnostic biomarkers.
如下图,效果是相当的好:
因为是miRNA研究,所以文章里面有两个略显凑数的miRNA靶基因的网络图,很简单就可以使用cytoscape绘制。
这个模型好的,让我有点意外,其实关于NPC这个癌症的miRNA研究也有不少,如果我是审稿人,我会让研究者去处理几个公共数据库数据集,看看他们得到的这12个或者6个miRNA的诊断模型好使不!
学徒作业
我前面的教程:多个数据集整合神器-RobustRankAggreg包 ,提到了大家可以处理数据集:GSE7476, GSE13507, GSE37815 and GSE65635 ,尝试合并多个gse数据集,定位最后的差异基因,这个作业可能对大家来说有一点难度。
我这个时候出一个简单的作业,大家从数据集:GSE7476, GSE13507, GSE37815 and GSE65635 ,随便做一个差异分析兴趣top10的上下调基因,去另外一个数据集作为诊断模型,看看AUC效果咋样!
文末友情推荐
要想真正入门生物信息学建议务必购买全套书籍,一点一滴攻克计算机基础知识,书单在:什么,生信入门全套书籍仅需160 。如果大家没有时间自行慢慢摸索着学习,可以考虑我们生信技能树官方举办的学习班:
如果你没有服务器的话,做NGS数据分析实战可能会有点勉强,建议考虑:每天不足一块钱,定制生信云送给你