武汉理工大学郑铮课题组JCIM | 一种可与分子对接、分子动力学模拟等多种构象采样算法联用的靶点-配体分子结合自由能运算平台
英文原题:
Free Energy Calculations Using the Movable Type Method with Molecular Dynamics Driven Protein–Ligand Sampling
通讯作者: 郑铮,武汉理工大学 / QuantumBio Inc.
作者:Wenlang Liu, Zhenhao Liu, Hao Liu, Lance M. Westerhoff
背景介绍
蛋白质靶点与类药化合物配体的结合模式预测与结合自由能预测是基于结构的药物开发(SBDD)领域的核心研究方向。基于孤立构象采样的分子对接技术运算效率突出,是虚拟筛选流程中的主要算法,但由于缺乏对靶点内部张力的模拟,导致难以准确描述结合过程中的分子柔性。而基于连续构象采样的分子动力学算法在运算精度方面往往较为可靠,尤其当采用长时分子动力学模拟或增强采样分子动力学模拟方法时,可以通过有效模拟罕见事件,对更广阔的构象空间进行充分采样。但高昂的运算成本让其难以支撑较大通量的类药化合物评估。对优势构象的采样精度与运算效率一直是评价该领域算法实用性的两大重要指标,找到运算精度与速度合适的平衡点是SBDD领域算法开发的重要问题。
文章亮点
武汉理工大学郑铮教授课题组与美国计算机药物设计软件公司 QuantumBio Inc.合作,将不同的靶点-配体复合物构象采样方法与能量方程引入 Movable Type 分子结合自由能运算软件,并对上述各种运算流程进行了预测精度与运算效率方面的评估。郑铮教授课题组与 QuantumBio Inc. 通过长期合作对 Movable Type 分子结合自由能算法进行持续开发,该算法对自由态与结合态的靶点、配体分子分别进行构象采样,直至所模拟的自由态与结合态配分函数 ZPL, ZP 与 ZL 分别收敛,随后利用三项配分函数进行结合自由能预测。本文工作采用Movable Type分子结合自由能运算软件(DivConDiscoverySuite-DEV.815)融合三种构象采样方法:
(1)基于MOE平台的induced-fit docking方法;
(2)采用步骤(1)中的最优分子对接构象,基于Amber18软件及GAFF+ff99SB力场进行250 ns 常规动力学采样;
(3)采用郑铮教授课题组开发的 CHMC 蒙特卡罗采样算法生成5个优势构象作为初始构象,再采用 GAFF+ff99SB 力场,基于 Amber18 软件对上述5个初始构象分别进行50 ns的常规动力学采样。
以及两种能量方程:(1)Amber GAFF+ff99SB 力场以及(2)郑铮教授课题组开发的基于贝叶斯网络的机器学习力场 GARF 进行蛋白质靶点与类药化合物结合自由能运算。下文以 MOE-MT-amber,MOE-MT-garf,cMD-MT-amber,cMD-MT-garf,CHMC-cMD-MT-amber,CHMC-cMD-MT-garf 表示各构象采样方法与能量方程搭配的结合自由能运算流程。
同时,文章采用(1)CASF-2016 测试集合(以下简称 CASF benchmark,其中包含57个蛋白质靶点及针对每个靶点5个类药化合物的化合物子集,共285个化合物分子),以及(2)德国默克集团(Merck KGaA)于2020年发布的靶点-配体结合自由能测试集合(以下简称 Merck benchmark,其中包含8个蛋白质靶点及针对每个靶点不同数量的类药化合物子集,共264个化合物分子),对上述自由能运算流程进行测试评估。
图1. 本文所采用的构象采样方法与计算结合自由能所运用的能量方程
对于 CASF benchmark,运用不同的构象采样方法与能量方程的分子结合自由能运算流程得到了分布于0.66~0.71的 Pearson’s R 相关系数,分布于0.49~0.52的 Kendall’s τ 相关系数以及分布于1.67~2.10 kcal/mol 的 MAE 平均误差。从运算结果来看,当采用相同的能量方程时,不同的构象采样方法往往可以得到相似的结合自由能预测收敛结果,说明各个采样流程覆盖的构象空间具有较大的相似性。另一方面,替换能量方程对结合自由能预测结果带来的差异远大于采用不同构象采样方法造成的预测结果差异,显示 GARF 力场对于该测试集合的结合自由能预测打分表现优于 Amber GAFF+ff99SB 力场。
图2. 本文所采用的结合自由能运算流程对 CASF-2016 测试集的运算表现(纵轴为预测值,横轴为实验值)。
对于 Merck benchmark,文章首先评估了不同采样方法对于一个蛋白质-配体构象采样的运算速度。对比在 E5-2640 20-Core v4 (2.4 GHz) CPU 配置下数分钟可完成的 induced-fit docking 流程,250 ns 常规动力学在4 × NVIDIA Tesla V100 16GB GPU 配置下往往需要12~28小时完成采样过程。而蒙特卡罗采样结合5 × 50 ns常规动力学模拟在同等GPU配置下则可在4~15小时内完成采样过程。
图3. 本文所采用的各构象采样方法对于 Merck benchmark 各靶点子集的平均运算时间对比
在运算精度方面,各个结合自由能预测流程对于不同的靶点测试子集的预测精度各有优劣。但从整体表现而言,运用两种基于分子动力学模拟的构象采样方法均取得了分布于0.620~0.658的Pearson’s R相关系数,分布于0.459~0.510的Kendall’s τ相关系数以及分布于1.207~1.683 kcal/mol的RMSE平均误差,显著优于基于分子对接采样的结合自由能预测结果。文章进而分析了分子动力学模拟如何通过修正induced-fit docking生成的靶点-配体结合模式,并基于各靶点残基与配体官能团不同的相互作用稳定性运算得到更为精确的结合自由能预测结果。
图4. 本文所采用的结合自由能运算流程对 Merck 测试集的运算表现(纵轴为预测值,横轴为实验值)。
作者以 Movable Type 分子结合自由能运算软件作为平台,引入并评估了从分子对接到分子动力学模拟等多种构象采样方法搭配不同能量方程的分子结合自由能流程。Induced-fit docking 流程可在数分钟内完成采样,而运算精度稍差;常规分子动力学模拟耗时较长,而对运算精度提升明显;采用蒙特卡罗结合平行化短时常规分子动力学模拟的方式相较于单轨迹长时模拟的运算速度提升了数倍,而运算精度相当。文章通过分析不同采样方式的特点,以及所生成的各靶点-配体结合模式的差异,阐述了各常见的构象采样方法在结合模式预测与结合自由能预测方面的优劣。
扫描二维码阅读英文原文
J. Chem. Inf. Model. 2022, 62, 22, 5645–5665
Publication Date: Oct. 21. 5, 2022
https://doi.org/10.1021/acs.jcim.2c00278
Copyright © 2022 American Chemical Society
IF 2021: 6.162
Citaions 2021: 30,162
CiteScore 2021:7.7
The Journal of Chemical Information and Modeling publishes papers reporting new methodology and/or important applications in the fields of chemical informatics and molecular modeling.Astute chemists, computer scientists, and information specialists look to this monthly’s insightful research studies, programming innovations, and software reviews to keep current with advances in this integral, multidisciplinary field.
主编:Kenneth M. Merz Jr.(Michigan State University)
副主编
欢迎参加ACS新年有奖问卷调查,丰富的奖品在等您!截止到本周五哦,快来!
点击“阅读原文”
你“在看”我吗?