不做实验SCI论文发发发系列之——ceRNA网络
好久没讲生信文章的套路了,今天给大家分享一篇MOL BIOSYST(IF=2.78)上的生信文章,虽然MOL BIOSYST近年来影响因子有所下滑,但总体来说还是比较稳定的,并且审稿较快。
文章题目为“Reconstruction and analysis of the lncRNA–miRNA–mRNA network based on competitive endogenous RNA reveal functional lncRNAs in rheumatoid arthritis”,疾病类型是类风湿性关节炎,研究方法是基于ceRNA机制构建lncRNA-miRNA-mRNA的网络来揭示lncRNA的功能。
lncRNA的作用机制有很多种,由于绝大多数lncRNA本身并不编码蛋白,所以在研究lncRNA功能的时候还是需要借助与之相关的mRNA,那么如何建立这两者之间的关系?方法有很多,比如直接靶向作用,又比如像这篇论文所述通过ceRAN机制进行调控。如果说你做的是lncRNA机制研究,那么你可以从多角度进行阐释,如果你想简单地做一篇生信分析文章,选取一个角度就可以了。其实就是一个深度和广度取舍的问题。
下面进入正题,首先看一下文章的整体思路
1、从GEO数据库获取芯片测序数据
2、筛选差异基因
3、预测miRNA-lncRNA关系和miRNA-mRNA关系
4、构建ceRNA网络并分析网络拓扑结构
下面进行每一步的详细解读
1、从GEO数据库获取芯片测序数据
作者一共从GEO上获取了4份芯片数据,分别是两份miRNA数据、一份lncRNA数据、一份mRNA数据。
2、筛选差异基因
为什么是两份miRNA数据?我们可以看到,作者的ceRNA网络是从miRNA出发来找mRNA和lncRNA,所以miRNA的数据尤为重要,故而作者选取两份miRNA筛选差异基因取交集以增加数据的可信度。所有的差异基因筛选都是根据类风湿性关节炎和非类风湿性关节炎进行分组,筛选标准为P-values<0.05和fold change>2。
3、预测miRNA-lncRNA关系和miRNA-mRNA关系
miRNA与lncRNA的关系,作者通过RNAhybrid program这一软件预测完成,这一预测工具主要是基于miRNA与lncRNA结合的最低自由能(minimum
free energy, MFE)来预测二者之间结合能力的强弱。miRNA与mRNA的关系则是通过miranda和targetscan两个在线工具进行预测。
4、构建ceRNA网络并分析网络拓扑结构(文章的重点部分)
将上述预测工具得到的结果进行整理,筛选符合ceRNA机制的基因,筛选标准如下:1、利用Pearson相关系数(PCC)计算mRNA与lncRNA的相关性,筛选出表达正相关的pairs(PCC> 0.99和P< 0.05);2、mRNA与lncRNA有共同的相关miRNA,并且它们与miRNA表达负相关。
总的ceRNA网络图,包含7 lncRNAs、24 miRNAs和90 mRNAs,301个相互作用关系
网络构建好了之后,计算各节点的degree(方法在之前cytoscape的文章里都有介绍),筛选出degree>5的基因用作进一步分析,从这些基因中筛选出具有最多作用关系的3个lncRNA S5645.1、 XR_006437.1和J01878。
图A为lncRNA相关的ceRNA网络,图B为GO terms的关系网络
将这3个lncRNA相关的亚网络从总的网络中抽出来进行生物学功能分析,上图图B中所有的mRNA进行GO和KEGG分析,利用cytoscape的plug-in BinGO app构建GO的关系网络,当然了,这一关系网利用我们之前介绍的ClueGO也是可以完成的。
小结:文章的整体流程大致就是这样的了。本宫觉得文章还是有一些缺憾的:1、芯片数据的物种过于复杂,分别来源于人类、大鼠和小鼠,这一点是否合理?本宫推测可能是GEO上的数据有限,作者退而求其次只能选用不同来源的芯片数据进行合并分析;2、作者用于构建ceRNA网络的基因中,miRNA均为下调,mRNA和lncRNA均为上调,在实际ceRNA机制中,如果lncRNA的表达在疾病中被抑制,它本身调控的miRNA则会上调,相应的mRNA则会出现下调,而作者的ceRNA网络图中并不能反映出这样的调控作用。3、lncRNA与miRNA的作用关系,通过MFE进行预测准确性有限,并且会有很遗漏,如果采用WGCNA分析,文章的分值可以更高一些。
有科研问题要问?上科研微论坛!
关注后获取《科研修炼手册》1、2、3、4、5,基金篇精华合集