超算+知识图谱,加速生物医药知识新发现
导 读
知识图谱自2012年提出以来,就被迅速而广泛地应用于各个领域,成为了实现认知智能的重要基础。然而,不同于一般的通用知识图谱,生物医药领域存在着专业性强、数据噪音多、关联复杂等特点,目前仍缺乏高质量的专业知识图谱。国家超算广州中心联合多家单位依托超算成功构建一种数据更为全面、质量更高、应用更广泛的多组学生物医药知识图谱系统——PharmKG,并以此为基础开发了新的推理算法,近期,相关成果分别发表于生物信息学顶刊Brief in Bioinformatics及人工智能顶级会议AAAI 2021。超算+知识图谱,加速生物医药知识新发现。
构建及推理方法研究
基因是疾病引发的内因,药物则一般通过调节基因功能治疗疾病。在药物、基因和疾病内部及它们之间均具有复杂的关系,这多种关系间将形成巨大的生物作用网络。因此,建立生物医药知识图谱,准确描述这些实体间的复杂关系,进而推断出它们之间的潜在关系,是新药研发及精准医疗的关键。另一方面,由于建模方法不足、评价指标不一致等问题,生物医药知识图谱理论方法和应用的发展仍受到多重限制。
为了解决上述问题,广州超算副总工程师杨跃东教授团队联合多家合作单位成功构建了一种数据更为全面、质量更高、应用更广泛的多组学生物医药知识图谱系统——PharmKG。此外,为了推理发现未知的实体间关系,在点边信息交互传递图卷积网络(CMPNN)的基础上又开发了一种新型的归纳式关系推理算法(CoMPILE),其相关成果在国际权威期刊和顶级会议上发表。
图1-1 PharmKG示意图
多组学生物医学知识图谱系统
生物医药知识图谱PharmKG是广州超算联合德国阿拉丁公司及挪威奥斯陆大学团队共同开发,通过整合OMIM、DrugBank、PharmGKB等多个相关公共知识数据库,并进行了精细的数据清洗和实体性质补齐。最终,由基因、药物以及疾病等三大类8000余种实体之间的29类500,000多个相互关系共同组成PharmKG,其中每个实体都附带了从多组学数据(如化学结构,基因表达及疾病语义)中提取出来的异构特征信息,以最大限度地保留其生物医学特征。
图1-2 在PharmKG数据集测评10种链接预测算法
为了方便后续的开发和对比,研究人员将10种最新的链接预测算法在PharmKG上的预测结果(见图1-2)作为统一的基线。同时,基于一种鲁棒的深度图神经网络的链接算法,研究人员提供了老药新用和靶标预测两种关键下游预测任务的验证与分析。
图1-3 深度图网络预测模型在PharmKG上进行
A)老药新用 B)靶标预测的探索
通过文献检索与验证,研究人员发现PharmKG配合高精度的链接预测模型具有重要意义,它在老药新用和靶标预测等下游任务中能够取得良好效果。如图1-3所示,在帕金森疾病的老药新用预测中,预测打分最高的10种药物里有4个被证明为潜在治疗策略;在阿兹海默症的靶标预测中,打分最高的10个基因有8个被证明为潜在的可药靶标或者在其通路上发挥重要作用。
PharmKG图谱不仅能用于老药新用和靶标预测,还可以辅助药物相关作用预测、疾病通路分析以及蛋白-蛋白相互作用预测等任务。此外,该系统还提供数种链接预测算法基线,以方便进行进一步的建模和算法评测。
的归纳式关系推理
知识图谱研究中的一个重要任务是预测实体之间的缺失关系,然而目前常见的预算法大多关注于直推式场景,无法处理图谱中未出现过的节点。最近一些研究者提出的基于子图的关系推理方法可以从围绕候选三元组的子图结构中归纳地预测链接,但是,这种方法通常会忽略提取的子图的有向特性,并削弱了链接本身的特征在子图建模中的作用,使得它们不能很好地解决不对称/反对称关系的三元组。为了解决这一问题,广州超算研究团队通过改进有向闭环图提取、实体节点和链接关系之间的信息交互策略,实现更有效的子图表征,从而提高链接预测的性能。
图2-1 实体C到B的无向子图
及无向和有向闭合子图的比较
首先,在有向子图提取中,如图2-1所示,为了预测节点C->B之间的关系,此前的GraIL算法提取的无向闭合子图忽略了目标三元组的方向,所构建的子图与B->C反向构建的子图相同,因而导致预测的关系相接近;而新的方法由于考虑了三元组的方向性,所构建的有向闭合子图会产生较大的差异,在不增加模型复杂度的情况下,仍然能体现出三元组间的差异。
图2-2 和目前SOTA算法(GRAIL)和CoMILE(右图)的比较
其次,如图2-2所示,在有向子图特征提取中,GraIL中的消息传递模型只是简单的R-GCN,它忽略了边缘嵌入的单独建模和边缘与节点之间的双向通信,仅仅使用计算相邻节点的消息传递机制,削弱了链接本身的特征在子图建模中的作用。而新设计的消息传递体系结构,通过迭代通信和增强边缘与节点的嵌入来对归纳闭合子图进行建模,对节点嵌入和边缘嵌入都进行了更新,因此,节点可以在交互过程中更好地聚合子图中的关系信息,从而使模型可以在子图中呈现的关系信息学习推断目标首尾间的关系。
图2-3 与其他归纳式链接预测算法相比的优势
在三个公共数据集上的测试结果如图2-3所示,CoMPILE在AUC-PR和Hits@10这两个评估指标上大多都有提高。结果表明节点与边缘嵌入之间的双向通信非常有必要。
图2-4 更好地捕捉非对称和反对称关系
为了进一步验证有向闭合子图策略的重要性,研究人员对其中的五类非对称关系进行评估。如图2-4所示,当对调关系中的头尾实体后,CoMPILE基本不受影响,而GraIL的性能有大幅度下降。结果证明新的系统网络可以有效地处理不对称和反对称关系。
在该研究工作中,生物医药知识图谱的构建及相关推理算法的开发,有助于阐明不同生物功能背后的机制,借助广州超算应用平台的大力推广,将进一步推动药物重新定位、靶标发现、药物不良反应分析、蛋白质组学数据分析等方向的发展,从而加快药物研发和精准医疗。
Brief in Bioinformatics论文原文链接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbaa344/6042240
AAAI 2021论文原文链接:
https://arxiv.org/abs/2012.08911
┣超算点亮城市名片 | “广州故事”主角登台,解码城市国际传播