西北农林马闯组m6A/m5C/Ψ整合分析流程登顶Plant Physiol | m6A专题
2020年11月,植物学领域三大期刊之一的Plant Physiology发表了西北农林科技大学马闯课题组关于RNA表观修饰整合生信流程的相关研究。
The deepEA demo服务器地址:http://deepea.omicstudio.cloud.
The deepEA project 源代码地址:https://cma2015.github.io/deepEA.
The deepEA Docker 镜像地址:https://hub.docker.com/r/malab/deepea.
马闯组发布的deepEA是基于机器学习的一款Web界面的m6A/m5C等RNA甲基化修饰的整合生信分析流程的在线工具,可以实现从fastq到最终数据可视化的一体化展示。
deepEA开发是基于课题组前年开发的R包PEA(2018年发表在Brief in Bioinformatics)基础上的升级版,开发环境为Galaxy。
总之这款基于web的免费分析平台,能够支持对具有多种通用和特定功能的RNA修饰测序数据(m6A和m5C等)进行深入分析。
由于目前该web分析流程还处于不断完善中,几个月后将会对部分用户开放,请大家耐心等待。
目前,deepEA包括六个模块:测序数据预处理、测序质量控制、RNA修饰鉴定、功能注释、多组学整合分析和基于机器学习模型的预测分析。
由于云平台部分功能还未开放,目前我们仅以内网服务器在测试阶段中以玉米Zea mays作为示例来演示下如何在deepEA上对NCBI上已有的m6A测序数据进行分析。主要特别注意的是,deepEA目前仅支持植物m6A/m5C的分析,人动物酵母等物种暂不支持。
本次测试数据以中国农大在2020年Plant Physiology发表的一篇玉米的m6A测序数据为例进行演示。
在分析m6A测序数据之前,我们首先使用数据准备模块中的获取基因组序列和注释功能下载Zea mays B73参考基因组序列和GTF注释,下面两个截图展示了如何执行此步骤的详细信息:
下载完Zea mays B73参考基因组序列和注释后,我们开始从NCBI SRA的数据库下载原始m6A测序数据,这个过程可以通过数据准备模块中的获取测序数据功能来完成。右侧的panel中,无论是基因组注释信息还是测序数据下载进度,都会展示出来,当呈现绿色的时候,这个模块就已经完成了。有关详细信息,请参见以下屏幕截图:
sra格式转换为fastq格式(每个样本平均30分钟左右)
sra仅仅是NCBI存储测序数据的一个压缩格式而已,我们需要将sra解压缩为fastq格式才能进入后续分析。将SRR8383013.sra、SRR8383014.sra、SRR8383017.sra和SRR8383018.sra转换为fastq格式,每个样本平均花费时间约为半小时。如上图所示。对于每个SRA加入,将生成两个fastq文件(分为R1和R2)。
原始数据去接头(每个样本平均16分钟左右)
基因组比对(每个样本花费1小时左右)
在这个步骤当中,采用了目前主流的HISAT2比对软件来进行基因组信息比对。相比于STAR(由于容忍度高适合肿瘤样本)、Tophat(老牌基因组比对软件,速度较慢,碱基错配容忍度低)、bowtie、bwa之外,HISAT2比对速度可以提升几十倍。
由于内部已有建立完的index文件,已处理完毕的fastq数据可以采用HISAT2直接与玉米的B73基因组进行快速比对。
针对前面已处理好的clean data数据,只需要按照下面的提示进行一步步操作即可。比对结束后,会生成对应的bam文件显示在右侧的panel面板上。同时生成HISAT2导出的比对数据统计,如比对率、dup率、unmapped率等数据。
m6A peak calling(每个样本花费10分钟左右)
对2个生物学重复样本进行Peak calling,同时需要2个样本的IP样本和Input样本的bam格式文件。该步骤所使用的R包就是马闯课题组2018年开发的PEA。
下一步需要对2个生物学重复样本中的peak进行merge,按上图进行操作后,在最右侧的panel面板会生成一个intersect.bed的文件。
8.2 m6A在mRNA上的分布分析
8.4 GO基因功能富集分析
要运行此模块,需要下载deepEA提供的测试数据,然后将test\u data/Multi-omics Integrative Analysis/目录下的数据上传到deepEA服务器。然后可以在多组学综合分析模块中运行三组学数据集的功能综合分析。
基于机器学习策略预测m6A位点
10.2 用函数特征编码法对阴性和阳性样本进行编码预测(每个样本花费15分钟)
10.3 m6A预测因子的构建与评价
点击下方图片进入OmicStudio资料汇总(整合了B站和公众号中的精品资源,及时更新,永久有效)
云平台网址:https://www.omicstudio.cn
云平台特点:
免费免费免费
所见即所得
生信人员直接开发
可下载PPT格式
绘图带数据处理功能
分析参数多样(结合多年售后经验提供)
一键分析
联川生物云平台OmicStudio至今已帮助28000+科研伙伴处理各类组学数据,点击量累计超77000+。目前提供多种云工具、生信分析流程以及各种干货资料和用户文章,已被Theranostics,Bioresource Technology Reports等杂志的多篇文章引用。
相关阅读
重磅发布:RNA修饰变异在线数据库RMVar | m6A专题
YTHDF3促进带有m6A修饰的RNA的翻译和降解 | m6A专题
重磅综述:m6A修饰在RNA病毒中的作用 | m6A专题
珍藏版综述:肿瘤mRNA和非编码RNA的m6A修饰 | m6A专题
RNA修饰分析方法研究进展(3)——高通量测序法 | m6A专题
RNA修饰分析方法研究进展(2)——内切酶及质谱法 | m6A专题RNA修饰分析方法研究进展(1)——整体全分析法 | m6A专题