JCIM|用机器学习预测分子活性,应充分考虑活性悬崖问题
1 摘要
molecular ACE可在GitHub上获得:
2 数据与模型
2.1 数据集
2.2 活性悬崖
对于每个大分子靶标,通过考虑分子对的结构相似性和效力差异来确定活性悬崖。作者用三种不同的方法量化了属于同一数据集的任何分子对之间的分子相似性:
A. Substructure similarity子结构相似性。在扩展连接性指纹(extended connectivity fingerprints, ECFP)上计算了Tanimoto系数,以捕捉一对分子之间共享的径向原子中心子结构的存在。该方法通过考虑分子包含的所有子结构集来捕捉分子之间的“全局”差异(图1a)。
B. Scaffold similarity 骨架相似性,通过计算原子骨架上的ECFP并计算相应的Tanimoto相似度系数来确定。骨架相似性允许识别分子核心有微小差异或基于其骨架装饰不同的成对化合物(图1b)。
C. Similarity of SMILES strings 通过Levenshtein距离捕捉SMILES字符串的相似性。该指标检测字符插入、删除和移位(图1c)。
2.3 分子描述符的计算
作为计算模型的输入,作者利用RDkit软件基于SMILES计算了4种分子描述符,包括:
A.扩展连接指纹(Extended connectivity fingerprints, ECFPs),1024 bits长度的0/1向量。
2.4 模型
作者总结了现有方法,建立了活性悬崖预测的基准模型,整理为了MoleculeACE工具包。工具包中的传统机器学习方法包括K近邻(K-nearest neighbor, KNN)、支持向量回归(Support vector regression, SVM)、梯度提升机(Gradient boosting machine, GBM)、随机森林(Random forest, RF),图神经网络方法包括图卷积网络(Graph convolutional network, GCN)、图注意力网络(Graph attention network, GAT)、消息传递网络(Message passing neural network, MPNN)、注意力分子指纹模型(Attentive fingerprint, AFP),前向深度学习模型包括卷积神经网络(Convolutional neural network, CNN)、长短时记忆神经网络(Long short-term memory (LSTM) networks)、Transformer模型。建立的所有模型如图2所示。
图2 机器学习方法汇总。(a) 分子描述符的简化表示,其捕获预定义的分子特征。本研究同时使用了二值分子指纹和传统的分子描述符。(b) 分子图,其中原子表示为节点(具有相应的节点特征),键表示为边(如果特征存在,则具有相应的边特征)。(c) SMILES字符串,具有二维信息(原子、键类型和分子拓扑结构)。(d) 选择了基于分子描述符训练的传统机器学习算法:随机森林(RF)、梯度增强机(GBM)、支持向量机回归(SVM)和K近邻(KNN)。(e) 深度学习方法。作者使用了四种可以从分子图中学习的图神经网络:消息传递神经网络(MPNN)、图卷积网络(GCN)、图注意力网络(GAT)和注意力分子指纹网络(attentive fingerprint, AFP)。节点颜色表示特征聚合期间其他节点对目标节点的影响(由虚线表示)。作者使用了三种可以从序列数据中学习的基于SMILES的方法:长短时记忆网络(LSTM)、一维卷积神经网络(CNN)和transformer模型。
2.5 模型结果
图3 传统机器学习方法的表现。(a) 使用不同机器学习算法和分子描述符(以颜色区分)在活性悬崖化合物上的RMSE结果。(b) 使用PCA (前两个主成分PC1和PC)对所有方法进行排序(已根据最好和最坏表现规格化)。每个点表示机器学习方法及其依赖的描述符的不同组合,并通过考虑所有数据集上的相应RMSEcliff来获得。“最差”和“最佳”分别表示在所有数据集中获得的最差和最佳性能。百分比表示每个主要成分所解释的差异。(c) 所有方法在活性悬崖化合物上的误差(RMSEcliff)和在所有化合物上的误差(RMSE)之间的比较。黑色虚线表示RMSE=RMSEcliff,而灰色虚线表示RMSEcliff和RMSE之间的差值为±0.5个对数单位。
3 结论
关于AI药物设计中的活性悬崖问题也可参见徐峻教授阐述:
参考资料
--------- End ---------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或
姓名-学校-职务/研究方向。
- 历史文章推荐 -
【AI药物设计】
●Drug Discov Today | 基于对接的生成模型用于新药发现
●JCIM|MILCDock:用于药物发现中虚拟筛选的机器学习一致性对接
●Brief Bioinform | CoaDTI:预测药物-靶点相互作用的多模态协同注意力框架
●Drug Discov Today | 机器学习预测小分子pKa的进展和挑战
●BMC Bioinform | 拓扑增强的分子图表示用于抗乳腺癌药物的筛选
●Drug Discov Today | 分子表示与性质预测中的深度学习方法
●Front Pharmacol|DDIT:药物-疾病之间多种临床表型关联预测工具
●Bioinformatics | 通过修正异质信息中不完整信息的影响来预测药物-蛋白相互作用
●Front Pharmacol|基于图片段分子表示和深度进化学习的多目标药物设计
●Drug Discov Today | 利用系统的蛋白质-配体相互作用指纹图谱进行药物发现
●Int J Mol Sci|CSatDTA:带自注意力机制的卷积模型预测药物-靶标亲和力
●J Med Chem|静电互补在基于结构的药物设计中的应用
●Nat Mach Intel|一种用于分子相互作用和分子性质预测的自动图学习方法
●Wires Comput Mol Sci|分子发现的生成模型:最新进展和挑战
●Drug Discov Today|辉瑞:如何成功的设计小分子药物
●CAS博客|首批进入临床试验的AI设计的候选药物:结构新颖性评估