查看原文
其他

实现全基因组RNA二级结构图谱的准确预测——广州超算健康医药最新研究进展

导 读

RNA是生物细胞的遗传信息传递载体,更是大部分病毒和类病毒的直接遗传载体,在基因转录、蛋白质翻译等生命活动中发挥着重要的作用。同其它生物大分子一样,RNA分子的功能性质很大程度上取决于它的结构特征,因此了解RNA的结构信息,特别是全基因组水平RNA二级结构图谱,对于揭示RNA的生物学功能具有着极其重要的意义。

近日,国家超算广州中心杨跃东教授研究团队基于XGBoost模型提出了GRASP(Genome-wide RnA Secondary structure Profile)方法,能准确预测RNA全基因组水平的二级结构图谱,并在基因突变分析等一系列生物学功能分析中发挥着重要的作用,研究成果发表在生物信息学顶级期刊《Bioinformatics》上。

高通量实验数据+人工智能,预测RNA二级结构图谱



传统的RNA二级结构预测方法主要基于热力学自由能优化方法,通过计算最低自由能获得RNA二级结构。然而,由于自由能函数的准确率不高,同时最低构象搜索是一个NP-hard问题,所以准确率有限。近年来,通过高通量测序技术,开发了多种实验方法来测定基因组水平的RNA二级结构图谱,然而,实验存在的高昂成本且耗时较长等问题难于覆盖所有的物种,同时由于基因测序的覆盖率有限,存在测定精度较低、无法覆盖全基因组的问题。因此,最近有研究组尝试采用全连接神经网络方法开发预测模型,然而该模型受限于训练数据不足只能采用浅层神经网络,导致模型容易陷入局部极小值,并且收敛速度较慢。

针对这一问题,杨跃东教授研究团队采用人工智能技术,基于梯度提升的XGBoost模型,开发出一种全新基于序列的RNA二级结构图谱预测方法——GRASP(Genome-wide RnA Secondary structure Profile)方法。近日,该研究成果成功发表在《Bioinformatics》上。

GRASP在综合数据集中测试结果优异



在对比试验中,训练数据分别来源于采用PARS方法鉴定的酵母(PARS-yeast)、人类(PARS-human)和寨卡病毒(SS-ZIKV)的RNA二级图谱数据,以及收录于RNAstrand数据库中的已知二级结构的RNA数据(SS-PDB)。为了避免高通量数据带来的高噪音,训练数据集仅选取实验分值置信度高的碱基位点作为正负样本,选择固定窗口内的相邻碱基作为输入进行模型训练。在训练过程中,采用网格搜索的方法寻找最优参数组合,并采用五折交叉验证防止模型的过拟合。



GRASP方法示意图
开发的GRASP方法在PARS-yeast、PARS-human和SS-PDB三个数据集上的交叉训练及测试结果均值优于RNAplfold和CROSS算法。为了进一步提高模型效果,综合三类数据集中的90%数据进行训练,在剩下的10%数据测试中证明可进一步提升预测结果,平均测试AUC值达到0.927。


GRASP在综合数据集中训练和测试结果

更重要的是,在对2018年底才发布的全新物种寨卡病毒的独立验证表明,GRASP方法能维持高度的准确性,AUC达到0.89,相比于其它方法提高5%以上。

不同算法在SS-ZIKV独立测试集中的结果比较



预测的RNA二级结构图谱在生物功能分析中的应用



GRASP预测结果可用于生物学功能分析,在与千人基因组中次要等位基因频率(MAF)的关联分析结果表明,GRASP预测的非配对概率与同义突变的MAF值相关性高达0.907,提示同义突变虽然不改变所翻译的氨基酸,但可能因导致RNA二级结构变化而引发疾病,使得MAF值较小。

GRASP与RNAplfold的预测结果与MAF值相关性比较

此外,研究团队还探究了预测的RNA二级结构图谱在翻译过程中的潜在功能,对人类mRNA编码区及其上下游序列进行统计分析,发现GRASP预测在编码区呈现以3个核苷酸为单位的周期性分布,在每个密码子中,第一个核苷酸形成配对的可能性往往最低,而第二个核苷酸则比其他两个更容易形成配对,该振动频率可能与翻译过程中密码子边界识别相关,RNAplfold的预测结果也显示出这种周期性,但不是很明显。另外,在起始密码子和终止密码子附近,碱基形成配对的概率突然下降然后快速上升,呈现“V”型分布,GRASP相比于RNAplfold的结果更明显,表明翻译起始位点和终止位点都倾向于形成非配对的单链结构,这也与在原核生物和真核生物中超过80%的mRNA起始密码子没有二级结构的发现相一致,这种未配对核苷酸的富集可能与启动蛋白质翻译过程密切相关。




天河二号健康医药智能平台推动研究进展



本研究提出的RNA二级结构图谱预测方法,能够准确、高效地对RNA二级结构图谱进行组学水平的预测,为进一步的健康医药研究提供了可靠的参考,具有非常重要的理论及实用价值。高效的研究成果产出得益于国家超算广州中心基于天河二号精心打造的健康医药智能平台。该平台不但提供可定制化的计算及存储资源,还汇聚了健康医药领域主流公共数据集/库、且集成了该领域丰富的应用软件,为本项研究工作在数据预处理、特征提取、大规模模型训练、参数优化等方面提供了专业保障,极大地推动了科研进展与产出。目前,相关算法已部署至该健康医药智能平台,开放给该领域内的研究人员参考,共同推动RNA二级结构预测及相关方面的工作。


近年来,国家超算广州中心紧跟粤港澳大湾区建设发展战略,推动超算和大数据、人工智能融合创新发展进程,坚持研发与应用并举的发展思路,面向各领域搭建了超算系统与应用的桥梁。除本次研究用到的健康医药智能平台外,还精心打造有星光超算应用平台、高精度气象业务服务平台、材料模拟平台、金融科技应用平台、智慧能源服务平台等,为超算多个领域的创新应用赋能加速。未来,广州超算将进一步构建良好的、可持续发展的国产超算生态环境,全方位、多领域地支持各类科学研究,持续为我国科技跨越式创新发展提供超算加速度!

论文链接:

https://academic.oup.com/bioinformatics/advance-article-abstract/doi/10.1093/bioinformatics/btaa534/5848407?redirectedFrom=fulltext

热门文章推荐

┣天河二号怎么用?在线培训开放报名啦!

┣向海洋要淡水!广州超算研究团队推动反渗透膜组件优化设计

┣超算+大数据+VR,德国打造首个数字孪生城市

超算— — NSCC-GZ — —特别鸣谢:杨跃东、柯耀斌撰稿:万园园、岳苹微信编辑:岳苹初审:王栋审核:万园园审核发布:李奈青

点亮“在看”,为广州超算研究团队点赞


: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存