5分生信文章的花式套路
各位看官,本宫又和大家见面了,这两日出场频率有点高,是不是大家有点视觉疲劳?最近码了两期科普文,发现大家热情不高,不过也请大家谅解,毕竟并不是所有人都是生信方面的老司机,有些新来的盆友需要一些整体的认知,而老司机们就当是温故而知新又或者权当本宫扯了些段子好了,扯得不好也请指正,毕竟不是照抄教材。
好了,言归正传,今天给大家带来的是一篇心肌肥大(CH, Cardiac hypertrophy)相关的生信文章,虽然不知道为何它会发在Oncotarget上(剧情并没有像上次一样从癫痫扯到肿瘤不做实验,只挖掘数据库怎么发五分文章?)。。。文章题目是“Construction and analysis of cardiac hypertrophy-associated lncRNA-mRNA network based on competitive endogenous RNA reveal functional lncRNAs in cardiac hypertrophy”。
从题目可以看出这么几个关键词:1、心肌肥大;2、lncRNA-mRNA网络;3、ceRNA(竞争性内源RNA)机制。
这篇文章的思路并不复杂,就是根据ceRNA机制,花式筛选疾病相关的LncRNA。
CHLMN的构建
下图是CH相关的lncRNA-mRNA网路(CHLMN, CH related lncRNA-mRNA network )的构建流程。CHLMN是本文的基石网络。
首先,从Starbase和miRanda上获取lncRNA-miRNA相互作用的数据,共10429对,从Starbase上获取mRNA-miRNA相互作用的数据,共423975对。以miRNA为中间桥梁,构建了一个lncRNA-miRNA-mRNA的global网络,这是以数据库中的全部数据构建的网络,所以相当于一个背景网络。
接着,从GEO上下载了一份CH相关的表达谱数据GSE60291,关于这份数据,作者还做了一个工作——re-annoation,按照作者的话说,re-annoation对LncRNA而言是一项很有意义的工作,本宫推测是这样的,GSE6029的数据源文章是2014年发的,那会到现在,关于LncRNA的注释肯定在不断更新,序列还是那个序列,而研究者的认知已经发生了变化,所以利用序列比对(Blast)以及Gencode database,对之前的LncRNA序列进行了re-annoation,使之与现在的数据接轨,方便当下的研究。
从Genecode可以下载完整的基因注释结果:
re-annoation之后,作者就从GSE6029中筛选了差异基因(这里阈值是p-value < 0.01),然后将这些差异表达的mRNA和LncRNA放到之前的背景网络中,还是以miRNA为桥梁,利用超几何分布计算p-value,分析mRNA与LncRNA的相关性,小于0.01的入选。这样就得到了CHLMN。
CHLMN拓扑结构分析预测疾病相关LncRNA
得到CHLMN,自然少不了对它进行一番分析,利用Cytoscape中的Network分析插件就可以实现。作者分别选取网络结构中degree、betweenness和closeness这三个参数前10名的基因,韦恩图取交集得到三个LncRNAs。
接下来,就围绕这三个LncRNAs分别展开进一步的分析。
以RP11-344E13.3为例子,将RP11-344E13.3以及与它相关的mRNA进行GO分析和富集分析。GO结果表明这些基因与MAPK密切相关,接着作者引用文献说明MAPK在CH中的作用,以此说明自己分析结果的可靠性。
富集分析结果发现,一些mRNA和RP11-344E13.3富集到了一起,说明它们存在共表达,它们是好基友(ceRNA)。
然后作者又把这群好基友的媒人miRNA扯进来,做成一个RP11-344E13.3-miRNA-mRNA的网络:
作者引经据典说明这其中有好些miRNA在CH中起了重要作用,还有一些没有报道,那么这些没报道的就是本文的发现啊(看上去还是有点可信度的),所以大家赶紧开展这些未报道miRNA的研究啊!(那为何作者自己不研究呢?作者表示,反正我已经毕业了~~~PS:开个玩笑)
双向分层聚类预测疾病相关LncRNA
个别突破之后,作者又重回CHLMN分析的主战场,利用双向分层聚类(Bidirectional hierarchical clustering)分析CHLMN中的LncRNA与mRNA的关系。(实现方法是用R语言的gplots包,本宫暂时还没想出其他实现方法,想到了就及时分享给大家),结果发现了两个共表达模块(由共表达的mRNA和LncRNA构成)。
然后从CHLMN中把这两部分抽提出来
然后分别对两个网络中的基因进行GO和KEGG的分析,富集得到了与CH相关的一些生物学过程和通路(还是为了说明自己的分析靠谱,符合逻辑)。所以说这两个网络中的基因及其调控关系,对于CH的机制研究有着重要意义。
随机游走模型预测疾病相关LncRNA
最后,作者利用随机游走(Random walk)模型,从CHLMN选了5个已知的与CH相关的基因作为seed,进行了3000次随机游走,最终选出了2个具有统计学意义的LncRNA,然后从CHLMN中抽提出有关这两个LncRNAs的网络,并添加相关的miRNA,构成ceRNA的网络。
小结:文章的主旨就是根据ceRNA理论,利用不同的手段筛选疾病相关的LncRNAs,思路很清晰,方法很多样。同样的方法也可以应用于circRNA。其实所有生信文章都存在着数据可能不好,分析结果可能逻辑不通的问题,在可选数据有限的情况下,选择合适的分析方法,结合先前研究结果作为印证,对于文章本身是十分重要的。
(本文中所提及的数据库和工具可在小张聊科研公众号先前的文章中找到用法介绍,在公众号主页点击文章搜索-阅读全文即可)
PS:生信分析的文章经常会涉及到各种算法和数学模型,不知大家兴趣如何(投票数超过3000,具有统计学意义)。
长按二维码识别关注“小张聊科研”
关注后获取《科研修炼手册》1.0、2.0、3.0、4.0、基金篇精华合集