CHEM SCI|SyntaLinker:利用带约束Transformer神经网络自动组装药物分子片段
发现链接片段的技术是FBDD的关键
近年来,基于片段的药物发现方法(Fragment-based drug discovery,FBDD)获得了许多的关注。
在核磁共振和结构生物学等实验方法的支持下,FBDD经历了几十年的发展已经成熟,有许多成功的案例。然而,如何把FBDD发现的分子片段组装成完整的成药性更好的分子,仍然是尚未完全解决的问题。
目前,分子片段组装的方法主要有片段生长、片段融合和片段联接方法。在这其中,片段联接方法在药物设计实践中应用较多,因为有很多可选择的链接片段 (linkers) ,可以用来产生多样化的分子,有更多的机会适配靶标的结合口袋。
用机器学习寻找链接片段
然而,理论上计算什么样的分子片段适合做链接片段是困难的。在该研究中,团队尝试通过机器学习的方法,从药物化学数据中找出适合做链接片段的片段的规律。
药物分子子结构与功能关系的句法模式识别
如图1所示,对于一个药物分子,分析哪些子结构片段可以作为关键药效片段,哪些可以作为链接其它药效片段的链接片段,这本质上是子结构与功能之间关系的模式识别问题。
在总结药物分子子结构与功能的关系之前,首先需要人为地定义何谓子结构。
关于定义子结构,在传统上,有基于专家经验或者基于人为制订的规则的方法。前者可能有个人偏见,后者难免存在“一刀切”的弊端。
SMILES
分子的结构可以用二维图形表示,也可以用一种叫做化学结构线性编码的符号语言来表示。在化学界,有一种公认的线性编码叫做SMILES (Simplified molecular line entry system),是化学家描述分子结构的严谨的自然语言。
它的语法简单,主要由名词 (如元素符号) 和连词 (如“-”,“=”,“#”分别代表单键、双键、三键) 还有其他关于分子拓扑结构的修饰词符号组成。例如,硝基苯的SMILES预计就是:c1c(N(=O)=O)cccc1。
一个分子可以用SMILES的一句话表示,一组分子 (一般称为化合物库, a compound library) 可以表示为一组SMILES的句子,即一篇文章。一组具有共同特性的分子,就相当于具有相同的主题思想的由句子组成的文章。
句法模式识别 (syntactic pattern recognition),就是来分析文章中哪些语素 (句子中符号的组合,相当于分子的子结构) 与文章的主题思想的关联,从而找到句子中的关键词与主题思想的关系。因此,可以用句法模式识别技术为结构与分子特性的关系建模。这种方法最重要的优点是避免了前述述传统方法的弊端。
SyntaLinker的分子组装原理
为了研究什么样的分子子结构可以充当链接片段,作者用分子对匹配切割算法 (MMPs, Matched Molecular Pairs) 将一个分子拆解成两个终端片段和一个连接段,从ChEMBL数据库中提取了70多万条分子子结构片段用于建立深度学习模型。
该深度学习模型要解决的问题是这样的:给定始点和终点的分子片段、片段之间的间隔空间,模型根据从ChEMBL提取的子结构片段数据,求出所有可能的链接片段,生成符合条件的将两个端点片段组装起来的分子。
该问题可以化成自然语言处理中的句子填空 (Sentence Completion) 问题,通过改造机器翻译的深度约束变换神经网络 (deep conditionaltransformer neural networks) 算法SyntaLinker加以解决 (图2)。
图2 SyntaLinker采用深度约束变换神经网络模型实现两个片段的分子组装
SyntaLinker的特点与价值
SyntaLinker属于基于配体的药物设计,它是在分子拓扑层面上的操作,不必搜索三维构象空间。通过分析给定起始片段对中间的结构片段拓扑数据,建立在连接点的最短键长距离约束条件下的片段组装模式规则。
图3 应用前景
作者证明,SyntaLinker可以用于组装在不同活性口袋中的已与靶标对接的分子片段、优化先导化合物的骨架、或实现先导化合物的骨架跃迁 (图3)。此项工作的推广可望加速药物原创发现的效率。
(本文原载于美篇 雅歌牧云 有改动)
参考资料
原文链接:doi.org/10.1039/D0SC03126G
RCDD团队2019年以来在深度学习应用于药物设计领域的其它7篇论文链接如下:
pubs.acs.org/doi/10.1021/acs.jcim.9b00929
www.nature.com/articles/s42256-020-0152-y
pubs.acs.org/doi/10.1021/acs.jcim.9b00949
pubmed.ncbi.nlm.nih.gov/30669836/
pubs.acs.org/doi/10.1021/acs.jcim.8b00672
pubs.rsc.org/en/content/articlelanding/2019/ra/c8ra08915a
link.springer.com/article/10.1186/s13321-019-0328-9
----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向。
Drug Discov Today综述|分子从头设计和生成模型
岳石怡|人工智能+分子生成
IBM的AI系统通过深度生成模型和分子动力学模拟加快抗生素发现
Nat Commun|AI结合基因表达特征,从头生成类苗头化合物
Transformer-CNN:用于 QSAR 建模和解释的先进工具
CHEM SCI|分子Transformer模型预测酶促反应
CHEM SCI|基于约束贝叶斯优化,采用变分自编码器进行自动化学设计
百图生科宋乐|高通量干湿实验闭环是生物计算的未来
Science|让机器学习值得信赖
Drug Discov Today|FDA童伟达:基于AI的语言模型为药物发现和开发提供动力