转录组分析如此简单--差异基因数据挖掘
大家好,前两期已经为各位老师介绍了关于转录组原始数据如何下载以及进行主流程,基于主流程分析后,所有基因的数据挖掘。本期小编将为各位老师解析最为关键的差异基因的数据挖掘。一般老师拿到转录组分析结果后,如果前期研究不是研究的很深刻,那么关键性的调控基因一般都需要在差异基因中进行挖掘。
关于差异基因的数据挖掘,第一步,老师们需要提前了解自己项目中,不同差异组合之间差异基因的数目问题。一般常规的差异基因数目在50-2000之间相对比较正常。如果差异基因数目太多,例如达到几万的水平或者太少只有几个,这种都不利于关键调控基因的挖掘。那么我们在通过差异表达基因数目统计之后,了解了自己项目差异基因的数目,如果差异基因数目太多,不利于筛选,那么老师们通过点击差异表达基因集查询,点击里面的添加差异基因,重新设置分析软件、FC、FDR值来控制差异基因的数目。软件选择一般默认即可,发现错误率FDR值可以调节0.1、0.05、0.01、0.005、0.001这几个值,值越小,相对差异基因的数目越少。FDR值是经过矫正过的Pvalue值,能够很好的控制假阳性。如果老师习惯用P值来表达差异显著性,我们也可以通过点击发现错误率这一块的进行更换。差异倍数FC值,常见的差异倍数为2或者4,在人或者哺乳动物里,差异倍数可以放宽至1.5。FC值越大,差异基因数目越多。如果老师后期想在原有的样本上增加一些差异分析,也可以通过差异分组的添加重新添加差异分析。添加完成后直接提交即可,一般十几分钟后就可以在差异基因数目统计里查看新添加的差异分组。
参数以及需要重新添加的差异分组添加完以后,就需要对差异分组的数据进行挖掘了,选中我们要挖掘的差异组合,在这里老师如果想将差异表达基因按照差异上调和差异下调的分别来分析的话,可以点击对应的只上调或者只下调基因,然后点击提交。这个分析一般很快,只需要几分钟就可运行完成。
结果运行完以后,老师们也可以按照上一期将所有基因挖掘的操作一样,在差异组合里直接输入自己关注的通路或者基因名称或者基因序列信息,来查找相关的基因。当然,我们今天讲的是如何在没有前期的文献基础情况下,通过差异基因的挖掘找到自己关注的基因。更多的是,运行结束后我们需要对差异基因进行一系列的分析,可通过点击绘图或者一键绘图进行左图中的分析。绘图是针对于某一个我们选中的分析进行,一键绘图是将左图中的所有分析都进行了。绘图分析完以后,分析结果是可以交互的。
例如常见的GO分析,当我们将差异GO分类分析完以后,根据GO注释信息找到自己关注的通路,如下图中表黑的通路是客户关注的通路。点击确定即可选中注释到这些通路上的差异。
提交完以后,针对选中的基因可以进行候选基因的保存,这里点击分析结果保存后,就可以在研究进展记录里查看本次数据挖掘的分析结果。或者老师也可以直接进行下载,下载本次分析的表格结果或者关键候选基因的核苷酸、氨基酸序列信息。
在这里,在给老师们安利一个小的分析点,可能做过GO分析的老师都知道,针对SCI论文里,GO分类结果只显示差异基因或者老师选定的候选基因,所有基因的柱子不会出现。小编给各位老师介绍下,在GO分类注释的时候,可通过参数设置,选择绘图数据,点击筛选出的基因即可锁定自己关注的基因且只针对自己关注的基因进行作图分析。
结合GO分类注释、KEGG分析注释信息进行第一波的候选基因查找。但是针对某些老师来说,前期研究不深入,分类注释信息提供的大类结果也没办法准确定位到那一大类的候选基因与表型的相关性比较强。这里就需要老师在富集结果里进行第二轮的差异基因锁定。富集结果主要有GO富集分析和KEGG富集分析,首先第一步也是点击GO富集和KEGG富集分析,根据富集分析的结果,可以快速锁定差异基因都显著富集到哪些通路上,接下来,只需要查阅文献,了解这些通路是否参与表型性状的调控。从来通过关键的候选通路来确定候选基因。具体运行如下,点击KEGG和GO富集分析,根据富集分析的结果,点击通路就可以锁定候选差异基因,点击提交后就可以调取出对应的候选基因。接下来可以点击分析结果保存也可以对候选基因进行序列信息下载。
另外,GO富集分析结果很多老师可能不太会看相关的分析图,具体分析结果见下图,一般我们是锁定图中颜色偏红模块,这些模块就代表差异基因显著富集到这些通路上,操作是一样的,老师只需要点击相关的模块,就会出现模块的功能,根据功能信息,然后确定即可锁定对应的候选基因。
结合GO/KEGG分类分析和富集分析锁定了候选基因基因以后,接下来老师们就可以针对候选基因进行重新作图,这部分的图表结果相对都比较有针对性,来解释基因在哪些通路上,是如何调控表型性状的。
另外,老师也可以根据差异表达基因的韦恩图来进行候选基因的锁定,通过不同差异组合的韦恩图分析后,找到共有差异或者特有差异基因。选中共有或者特有差异基因进行上一步的GO/KEGG等注释绘图分析,根据注释的通路信息锁定候选基因。当然,也可以选择差异基因表达趋势分析,根据实验处理缓解,预判差异基因随着处理时间或者处理浓度的增加,关键调控基因是持续上调还是持续下调,从而来快速锁定核心模块,接下载对模块内的基因进行选中注释分析,确定候选调控基因。操作过程中,样本选择一般所有样本都选,也可根据研究目的选择样本,聚类方式,一般选择K均值聚类即可。
上述基因表达趋势分析完以后,老师们就能拿到SCI论文里常见的分析共表达趋势图了如下图,不过,小编在这里给各位老师在安利一下,共表达趋势网络图在文章中的呈现形式,最好挑选和老师研究方向密切相关的模块,这样老师在成文分析的时候有针对性。
本期关于差异基因的数据挖掘讲解就到这里,下一期我们给各位老师解析基因结构挖掘以及结题报告更新的操作。
另外:本期讲的所有基因挖掘分析还有对应的视频教程,可供老师们更加方便直观的观看了解,具体视频链接如下:http://live.biocloud.net/course/179 当然,老师们也可以搜索百迈客云平台,注册账号后点击课堂,在全部课程里查找百迈客云分析与个性化实操讲解课程即可。
1. 文末留下使用体验及建议,点赞量前2名及1名幸运老师可以免费进行20个转录组样品云分析;
2. 转发本文到朋友圈及群聊,截图给后台登记,我们将在下周一抽取5名幸运老师,赠送20个样本转录组次账号分析或4套课程(任选其一)
3.已经参加过我们前面两期活动并中奖的老师,不能重复参与本期活动,活动1和活动2不能重复中奖;
4、本次兑奖截止日期到7月31号中午12点
文:张倩丽
排版:市场部
往期回顾
●客户文章|Plant Methods, 一种新型植物转录组测序技术