查看原文
其他

BIB | 药物反应预测中的分子表征

智药邦 2022-12-15

The following article is from AI in Graph Author AI in Graph

2021年9月25日,美国密歇根大学计算医学与生物信息系 Hongyang Li 和Yuanfang Guan 在Briefings in Bioinformatics发表了一篇文章。该文章是一篇关于机器学习在药物反应预测中的应用的综述。文章关注的是分子表征,这是药物反应预测和其他化学相关预测任务成功的关键因素。


本文介绍了三种常见的分子表征方法,并给出了它们的实现和应用实例。适用于缺乏机器学习背景的读者理解分子表征方法。


1.总体介绍

本文将众多分子表征分为三大类,如表1所示:线性表征法,数据结构为字符串,典型的是SMILES;分子指纹,使用hash-mapped bit string来表征分子的二维结构;图表征法,用图来表征分子的完整连通性和原子特征。

论文的表2详细列举了近年来所有使用分子表征方法的论文工作。
主要有两种类型的输入:细胞系或者患者样本的基因组图谱,如RNA-seq,CNV,DNA甲基化,DNA突变等;药物分子的理化性质。此外,辅助数据,如蛋白质-蛋白质相互作用网络和药物靶点,有时会被用于进一步提取特征。
除了基于细胞系的药物反应,本文还包括了使用PDX、类器官、人体临床试验等的其他类型的研究。这些研究中,最广泛使用的金标准标签是IC50,它的定义是达到最大抑制作用一半的药物治疗浓度。当然也有使用其它标签的方法,如表2中的study5使用的是乳腺癌患者的临床试验数据,使用病理完全缓解率来将患者分为有反应者和无反应者。


2.方法介绍

2.1 线性表征法

IUPAC国际化学标识符(InChI)和SMILES是两个主要的线性表达。这两种表征都是基于深度优先搜索算法遍历分子连通图而生成的1D字符串,图1显示了两个SMILES表征的例子 。(注意,由于一维遍历结果依赖于起始原子,对于一个分子有多个有效的SMILES表征,表征与分子之间的映射不是唯一的。实践中,不同化学信息学工具包的规范SMILES的生成原子是不同的,但在一个工具包中可以保证SMILES的唯一性)。虽然SMILES的表达存在不同,但是有研究表明使用一个分子的多个SMILES可以起到增强的效果,可以有效提高模型的效果。
与SMILES不同的是,InChI的每个分子的呈现都是独一无二的。
SMILES和InChI的优势很明显:他们都容易生成,并且有简单的数学结构,存储结构小。但是他们的缺点也很明显:他们本质的上都是1维的,因此不能捕获复杂的结构信息。此外,SMILES符号主要关注具有符合2电子价模型的键的分子,而不适用于不符合此标准的分子。
2.2 分子指纹
为了获得更多的结构信息,人们发展了分子指纹(molecular fingerprint,FP)的方法来表征分子。虽然分子FP通常以字符串的形式存在,但是它是由功能群(结构键)或环形邻居(环形FPs)映射算法生成,这些方法是2D算法,不同于线性表征的1D方法。最常用的分子指纹方法包括:FP2,MACCS和ECFP FPs,他们都被整合到开源的化学信息软件包中,如RDKit,OpenBabel和CDK。
分子指纹的优点是:简单的数学结构:无论输入分子的大小、形状和原子类型,它总是一个固定长度的字符串(通常是100到5000bit)。这一特性使得它对许多下游机器学习任务非常友好。分子指纹的另一个优势是它们体积很小,可以为下游的机器学习进行快速的模型训练和测试。尽管分子图形在数学结构上很简单,但除了需要三维结构信息的任务,如立体化学,它们在许多应用中都非常强大。
结构键(Structural keys):结构键的生成规则很简单:它使用0和1的二进制位串来编码功能组的缺失和存在。结构键可靠地编码分子的官能团。但是,它们的一个主要缺点是不能提供这些功能基团的相对位置,导致局部环境或分子的信息丢失。结构键可与其他药物描述符一起用于计算药物相似度得分。这些相似度评分被进一步用作后续机器学习任务的特征。
circular FPs:不同于结构键来描述官能团的存在,circular FPs的目的是代表每个原子的领域环境。最常见的circular FPs是Extended Connectivity FPs(ECFPs)。最流行的ECPF是基于Morgan算法生成的Morgan‘s FP。算法过程如图2(b)所示。如果不考虑可解释性,ECFPs通常是非常强大的。

2.3 图表征法

近年来,图形表征法已经成为最先进的分子表征法。与更简单的线性表征法和FPs相比,图表征法编码了更多的结构信息。我们将本节分为两部分:首先介绍图的表征方法,然后简要介绍现有的一些图的传播方法。
图表征:在分子的图表征中,每个原子都表征为一个节点,而键合的原子则由边连接。节点之间的连接关系可以由N×N的邻接矩阵A表征,原子的特征矩阵X可以包含原子的一般化学性质,如原子的电负性、形式电荷、半径等。如果我们将每个原子的三维坐标合并到节点特征中,那么图形表征法将能够捕获分子的完整三维结构信息,这是以前的任何分子表征法都无法实现的。我们也可以创建一个矩阵E来表征边的特征,例如,每个化学键的键序、键类型、键长。
基于图的神经网络:近年来出现了很多图学习方法。广泛使用的方法包括:消息传递神经网络(MPNN)框架和神经FP模型,以及最近的方法,包括注意FP、通用图卷积网络(GCN)和代数图辅助双向变压器(AGBT)。


3.总结和展望

在整个综述中,主要提供了药物反应预测领域的应用实例。事实上,许多分子表征及其高级变体在更广泛的药物发现领域中显示出了很有前景的表现,比如自参考嵌入字符串方法(SELFIES)和SMILES对编码方法,分别在QM9数据集和ChEMBL25数据集上获得了很好的效果。
在这篇综述的最后,人们可能会提出一个问题,即在药物反应预测任务中如何选择表征。正如我们前面提到的,需要进行严格的比较,比如数据挑战,以对不同方法的性能进行基准测试。最近基于图符号的方法在许多任务上显示出了较好的结果,但我们也需要考虑描述能力、复杂性、可行性和计算资源之间的权衡。线性表征法和分子FPs本质上更容易与机器学习模型中的基因组数据相结合,这可以通过简单的矢量连接实现。
我们鼓励初学者从简单的分子表征方法开始,然后逐渐尝试更高级的表征方法。我们在这篇综述中介绍的大多数分子表征已经被成熟地实现并纳入现有的软件包中。考虑到上述许多应用案例,即使是简单的表征,如smile和分子FPs,在药物反应预测任务中也能提供可接受的性能。因此,没有必要将分子表征视为火箭科学——它只是一个简单但强大的工具,可以帮助我们建立更好的药物反应预测模型。

参考文献

https://academic.oup.com/bib/advance-article-abstract/doi/10.1093/bib/bbab393/6375515?redirectedFrom=fulltext
作者 | 王紫嫣审核 | 熊展坤


----------- End -----------




感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或

姓名-学校-职务/研究方向





- 历史文章推荐 -


药物设计

JMC|用于从头药物设计的生成模型

●Drug Discov Today|人工智能增强的药物设计和开发:迈向计算型精准医学

●Drug Discov Today|用于从头药物设计的图神经网络GNN

●Nat Commun|AI结合基因表达特征,从头生成类苗头化合物

●BioRxiv|基于表型和化学结构预测化合物活性

●Drug Discov Today综述|分子从头设计和生成模型

●Nat Comput Sci综述|生物分子建模在技术时代蓬勃发展

靶点发现

●Nature Outlook|借助算法和模拟将蛋白质折叠的瞬时结构转变为药物靶点

●AI+临床数据助力新药靶点发现,天坛医院院长王拥军谈【神农计划】

临床试验

●NPJ Digit Med|多种数字健康技术在去中心化的世界中赋能临床研究

●Nature:如何使用AI分析真实世界数据,简化肿瘤临床试验入组标准

产业进展

●如何管理人工智能和数据科学:来自诺华的实践经验和教训

●20家顶尖制药公司如何将AI应用于药物研发:近年来主要合作活动

●Drug Discov Today|药物研发风险地图

算法开发】 

●NPJ Digit Med|数字医学和维度诅咒

机器学习质量

Nat Comput Sci|迈向可重复的机器学习

Science|让机器学习值得信赖 

隐私计算

●曾亥年|AI药物发现实践与隐私安全计算

●Science China|用增强的联邦学习应对药物发现数据小和偏的困境

●Nature:优于联邦学习的医疗数据共享技术Swarm Learning及应用案例

AI药物发现的数据共享模式探索:以十大顶尖药企参加的MELLODDY项目为例

AlphaFold

Science|AI揭示了蛋白质复合物的结构

●BioRxiv|利用AlphaFold-Multitimer进行蛋白质复合物预测

●谷歌母公司推出AI驱动的药物发现初创公司Isomorphic Labs

Nat Rev Drug Discov|AlphaFold对药物发现意味着什么?

●Nature社论|结构生物学中的人工智能将会继续

量子计算

●Drug Discov Today|量子计算在药物发现中的潜力:早期的行业动态

●利用量子理论加速药物发现的18家初创企业

机器人实验室

●远程机器人实验室在AI药物发现中的应用价值与前景

监管

Nat Mach Intell|美国和欧洲如何监管医学领域的人工智能

●Drug Discov Today|FDA童伟达:基于AI的语言模型为药物发现和开发提供动力


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存