实现全基因组RNA二级结构图谱的准确预测——广州超算健康医药最新研究进展
RNA是生物细胞的遗传信息传递载体,更是大部分病毒和类病毒的直接遗传载体,在基因转录、蛋白质翻译等生命活动中发挥着重要的作用。同其它生物大分子一样,RNA分子的功能性质很大程度上取决于它的结构特征,因此了解RNA的结构信息,特别是全基因组水平RNA二级结构图谱,对于揭示RNA的生物学功能具有着极其重要的意义。
近日,国家超算广州中心杨跃东教授研究团队基于XGBoost模型提出了GRASP(Genome-wide RnA Secondary structure Profile)方法,能准确预测RNA全基因组水平的二级结构图谱,并在基因突变分析等一系列生物学功能分析中发挥着重要的作用,研究成果发表在生物信息学顶级期刊《Bioinformatics》上。
高通量实验数据+人工智能,预测RNA二级结构图谱
传统的RNA二级结构预测方法主要基于热力学自由能优化方法,通过计算最低自由能获得RNA二级结构。然而,由于自由能函数的准确率不高,同时最低构象搜索是一个NP-hard问题,所以准确率有限。近年来,通过高通量测序技术,开发了多种实验方法来测定基因组水平的RNA二级结构图谱,然而,实验存在的高昂成本且耗时较长等问题难于覆盖所有的物种,同时由于基因测序的覆盖率有限,存在测定精度较低、无法覆盖全基因组的问题。因此,最近有研究组尝试采用全连接神经网络方法开发预测模型,然而该模型受限于训练数据不足只能采用浅层神经网络,导致模型容易陷入局部极小值,并且收敛速度较慢。
针对这一问题,杨跃东教授研究团队采用人工智能技术,基于梯度提升的XGBoost模型,开发出一种全新基于序列的RNA二级结构图谱预测方法——GRASP(Genome-wide RnA Secondary structure Profile)方法。近日,该研究成果成功发表在《Bioinformatics》上。
GRASP在综合数据集中测试结果优异
在对比试验中,训练数据分别来源于采用PARS方法鉴定的酵母(PARS-yeast)、人类(PARS-human)和寨卡病毒(SS-ZIKV)的RNA二级图谱数据,以及收录于RNAstrand数据库中的已知二级结构的RNA数据(SS-PDB)。为了避免高通量数据带来的高噪音,训练数据集仅选取实验分值置信度高的碱基位点作为正负样本,选择固定窗口内的相邻碱基作为输入进行模型训练。在训练过程中,采用网格搜索的方法寻找最优参数组合,并采用五折交叉验证防止模型的过拟合。
GRASP方法示意图
GRASP在综合数据集中训练和测试结果
更重要的是,在对2018年底才发布的全新物种寨卡病毒的独立验证表明,GRASP方法能维持高度的准确性,AUC达到0.89,相比于其它方法提高5%以上。
不同算法在SS-ZIKV独立测试集中的结果比较
预测的RNA二级结构图谱在生物功能分析中的应用
GRASP预测结果可用于生物学功能分析,在与千人基因组中次要等位基因频率(MAF)的关联分析结果表明,GRASP预测的非配对概率与同义突变的MAF值相关性高达0.907,提示同义突变虽然不改变所翻译的氨基酸,但可能因导致RNA二级结构变化而引发疾病,使得MAF值较小。
此外,研究团队还探究了预测的RNA二级结构图谱在翻译过程中的潜在功能,对人类mRNA编码区及其上下游序列进行统计分析,发现GRASP预测在编码区呈现以3个核苷酸为单位的周期性分布,在每个密码子中,第一个核苷酸形成配对的可能性往往最低,而第二个核苷酸则比其他两个更容易形成配对,该振动频率可能与翻译过程中密码子边界识别相关,RNAplfold的预测结果也显示出这种周期性,但不是很明显。另外,在起始密码子和终止密码子附近,碱基形成配对的概率突然下降然后快速上升,呈现“V”型分布,GRASP相比于RNAplfold的结果更明显,表明翻译起始位点和终止位点都倾向于形成非配对的单链结构,这也与在原核生物和真核生物中超过80%的mRNA起始密码子没有二级结构的发现相一致,这种未配对核苷酸的富集可能与启动蛋白质翻译过程密切相关。
天河二号健康医药智能平台推动研究进展
本研究提出的RNA二级结构图谱预测方法,能够准确、高效地对RNA二级结构图谱进行组学水平的预测,为进一步的健康医药研究提供了可靠的参考,具有非常重要的理论及实用价值。高效的研究成果产出得益于国家超算广州中心基于天河二号精心打造的健康医药智能平台。该平台不但提供可定制化的计算及存储资源,还汇聚了健康医药领域主流公共数据集/库、且集成了该领域丰富的应用软件,为本项研究工作在数据预处理、特征提取、大规模模型训练、参数优化等方面提供了专业保障,极大地推动了科研进展与产出。目前,相关算法已部署至该健康医药智能平台,开放给该领域内的研究人员参考,共同推动RNA二级结构预测及相关方面的工作。
论文链接:
https://academic.oup.com/bioinformatics/advance-article-abstract/doi/10.1093/bioinformatics/btaa534/5848407?redirectedFrom=fulltext
点亮“在看”,为广州超算研究团队点赞