KDD 2022 | KPGT:基于图Transformer的知识引导的预训练模型用于分子性质预测
The following article is from 人工智能药物设计 Author 人工智能药物设计
本文介绍一篇清华大学交叉信息研究院发表在KDD 2022上的文章,题为KPGT: Knowledge-guided Pretraining of Graph Transformer。该文章提出了一个基于图Transformer的知识引导的预训练模型,KPGT利用了一个高通量的线性图Transformer(LiGhT),用于突出分子中化学键的重要性,在此基础上提出了一种知识引导的预训练策略,利用额外的分子知识来指导模型从大量未标记的分子图中捕获丰富的结构和语义信息。
1. 前言
图1 分子中微小改变对分子性质会产生较大影响
2. 方法
LiGhT就是在Transformer的基础上,引入了距离编码和路径编码,用于捕获分子的结构信息。其中关于Transformer架构部分不再赘述,此处介绍路径编码和距离编码。
(1)路径编码:对分子线性图中的每一对节点推导出最短路径,然后将这个最短路径特征编码为一个注意力标量
(2)距离编码:对分子线性图中的每一对节点推导出最短路径距离,也将其编码为一个注意力标量
之后,采用知识引导的预训练策略(如图4),在预训练框架中引入了分子的额外知识,作为掩码图中丢失的语义来指导掩码图的节点预测。之前的利用分子指纹或分子描述符的模型可以较好地对分子性质进行预测,因此说明分子指纹和分子描述符可以提供有价值的分子局部或全局信息。
为了将这些额外的知识纳入预训练框架,为每个分子线性图定义一个特殊节点,称为知识节点(K节点),并在K节点和分子线性图之间建立连接。利用分子描述符和指纹描述符初始化K节点的原始特征。因此,在预训练过程中,额外知识可以通过Transformer的自注意模块被其它节点所关注,从而指导掩码节点的预测。
3. 结果与讨论
从测试结果来看,在特征提取和迁移学习设置下,KPGT在所有分类和回归任务上都取得了优于其它baseline模型的结果。在特征提取设置中,所有任务的总体相对优化为5%,分类任务为3.5%,回归任务为8.9%;对于迁移学习设置,在所有任务上的总体相对改善为3.9%,在分类任务上为2.2%,在回归任务上为8.3%。这一显著的改进表明KPGT可以作一个用于准确预测分子性质的工具。
评估LiGhT的表达能力:将KPGT中的LiGhT替换为其他主干网络,包括GIN、vanilla Transformer(没有路径编码和距离编码)和Graphormer。为了进行公平的比较,将所有模型限制为具有几乎相同数量的参数,其结果见表3。证明了在分子图的自监督学习上,LiGhT是一个比较可靠的框架。
表3 在迁移学习设置下,不同架构在分类和回归数据集上的比较结果,分别用AUROC和RMSE进行衡量
评估自监督学习策略:比较了经过预训练的LiGhT(KPGT)和未经过预训练的LiGhT的预测性能,两者都有相同的超参数设置,其结果见表4。经过预训练的模型取得了更优的预测性能,证明自监督学习策略的有效性。
评估额外知识:为了验证简单地使用KPGT中相同的额外知识是否可以取得类似结果,引入了两种baseline模型,其中也加入了相同的额外知识。首先,直接连接分子描述符和分子指纹作为输入,然后通过一个2层的MLP进行预测(MD+FP)。GROVER框架中已经将分子描述符连接到图表征上,进一步将分子指纹连接到输出中,并通过一个2层的MLP进行最终的预测(grover+FP)(如表5)。实验结果表明本文提出的自监督学习策略可以潜在地学习分子语义信息之外的知识。
评估不同掩码率:本文的自监督学习策略中,在分子线性图中掩盖了一部分节点和额外知识。之后评估了不同的掩码率的影响,分别对KPGT进行15%、30%、50%和60%掩码率的预训练,并报告了下游任务的预测结果(见表6)。实验表明,在掩码率为50%时,模型预测性能最好。
4. 总结
责任编辑:李叙潼,郑明月
--------- End ---------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或
姓名-学校-职务/研究方向。
- 历史文章推荐 -
【AI药物设计】
●J Med Chem|静电互补在基于结构的药物设计中的应用
●Nat Mach Intel|一种用于分子相互作用和分子性质预测的自动图学习方法
●Wires Comput Mol Sci|分子发现的生成模型:最新进展和挑战
●Drug Discov Today|辉瑞:如何成功的设计小分子药物
●CAS博客|首批进入临床试验的AI设计的候选药物:结构新颖性评估
●Drug Discov Today|人工智能增强的药物设计和开发:迈向计算型精准医学
●Drug Discov Today|用于从头药物设计的图神经网络GNN
●Nat Commun|AI结合基因表达特征,从头生成类苗头化合物