做完测序,下一步很重要的实验就是要找到m6A修饰的位点后进行下一步操作。比如在体外合成一段mRNA序列后决定该位点是否要携带m6A修饰。又或者过表达这段mRNA时把A碱基突变成其他碱基。总之无论如何,找到这个真正的m6A修饰位点还是非常关键的。
本教程只是适用于哺乳动物、真菌以及植物中都出现过的部分公认motif保守结构,植物的UGUAY等motif不在本次预测范围内。所以本教程只适合RRACH(R=A/G,H=A/U/C)这种motif。
接下来我们以SOCS3这个基因为例,尝试用最硬核的肉眼法来寻找m6A位点。
首先我们在Ensembl(www.ensembl.org)以human SOCS3基因为例下载这个基因的cDNA序列。
使用一款名为Notepad++的文本查看软件,将网页上的SOCS3某条转录本序列复制到Notepad++中。接下来按Ctrl+F,输入关键词GGACU、GGACA、GGACC、AGACU等符合RRACH motif规律的序列进行搜索,最后并将关键词在Notepad++中标记成自己的颜色。打开SRMAP数据库(http://www.cuilab.cn/sramp),将刚才拿到的SOCS3序列复制到右侧Mature mRNA mode中输入框中,二级结构为可选项我们这边选择了Yes(much slower)。之后点击Submit后数据库会新打开一个网页,对m6A位点和二级结构进行预测。记住,千万不要在中途关闭该网页,一般等待1-3分钟后会跳出预测结果。上图为预测后结果的网页展示图。我们可以清楚看到m6A位点涉及到的motif(用蓝色标记)和可信度,一般来说High的可信度较高而low的话需要注意在后期验证时候的准确性。那么SRMAP数据库据说只对哺乳动物的序列有效,那么植物是不是也可以用呢?答案是肯定的,我们将拟南芥DML2的mRNA序列输入到SRMAP后,点击submit,把所有符合RRACH的motif序列都给标记了出来。当然UGUAY可能还是得使用Notepad++那种非常粗暴的方式来解决。
网址:http://www.cuilab.cn/sramp
刚才在上一章节提到的SRAMP数据库由北京大学基础医学院的崔庆华教授开发,并发表在2016年的NAR杂志上。崔庆华教授专注于RNA表观修饰和非编码RNA的生物信息学工具开发,这款数据库操作简单实用,界面友好非常适合新手。网址:http://m6avar.renlab.org/
简介:这款数据库是中山大学生科院任间教授及中山大学肿瘤防治中心左志向教授共同开发的一款基于大数据和人工智能对NCBI的GEO数据库中收录的所有m6A测序数据进行预测后,获得一款高质量m6A的SNP数据库。目前收录绝大部分数据为人,来源包括MeRIP-seq及miCLIP-seq等。这款数据库专注于dbSNP数据库信息和m6A相结合,适合进阶玩家。 网址:https://whistle-epitranscriptome.com/
简介:这款被称作非常硬核的m6A修饰预测网站,是因为包括屈良鹄教授开发的RMBase以及其他诸多数据库仅通过简单搜索RRACH motif进行预测,不能区分随机发生的RRACH motif和位于附近真实含m6A修饰的motif,即位于m6A peak内的所有RRACH motif将被报告为m6A的一个位点,从而影响预测结果。而西交利物浦大学的孟佳教授基于数百个高通量测序的样本构建,结合了多个基因组和常规序列的特征,在m6A位点预测的准确性方面取得了重大改进。通过整合基因表达谱,RNA甲基化和PPI网络,进一步注释RNA甲基化位点的功能。但是需要注意的是,由于算法的改进过滤诸多假阳性位点,所以该数据库最后呈现的结果会比大家想象中要少一些。网址:http://rna.sysu.edu.cn/rmbase/
简介:中山大学屈良鹄教授团队开发一款综合旗舰级数据库,除了m6A修饰外还包括其他修饰类型。当然这个数据库优点就是大,缺点也很明显就是算法上没有Wistle等来得精细。目前另一个弊端在于该数据库已经于2020年只对中山大学校内网的师生开发,外网无法访问,至于再次开放时间未定。M6AMRFS:http://server.malab.cn/M6AMRFS/M6APred-EL:http://server.malab.cn/M6APred-EL/m6Acomet:http://www.xjtlu.edu.cn/biologicalsciences/m6acomet