Transformer-CNN:用于 QSAR 建模和解释的先进工具
今天给大家介绍的是Journal of Cheminformatics上的文章 " Transformer-CNN: Swiss knife for QSAR modeling and interpretation"
作者提出了一种从transformer模型的内部编码器中导出的SMILES嵌入方法,该模型将SMILES的标准化作为Seq2Seq问题进行训练。在嵌入的基础上使用CharNN架构以在不同的基准数据集(包括回归和分类任务)上产生更高质量的可解释QSAR/QSPR模型。
所提出的Transformer-CNN方法使用SMILES增强进行训练和推理,因此预测基于内部共识。增强学习和迁移学习都是基于SMILES的嵌入,这使得该方法能够为小数据集提供良好的结果。作者讨论了该方法有效性的原因,并为该方法的发展起草了未来的方向。
1.研究背景
定量结构-活性(性质)关系(QSAR/QSPR)方法找到一个非线性函数,通常被建模为根据化学结构估计活性/性质的人工神经网络(ANN)。在过去,QSAR的大部分工作严重依赖于描述符,这些描述符以数字方式表示化合物的复杂图形结构的一些特征。在众多描述符家族中,计算分子图中子图出现次数的片段描述符由于计算简单而具有独特的地位。同时也被证明可以成功地建立任何QSAR模型。
即使是一个小的化合物数据库也包含数千个片段描述符,传统上使用一些特征选择算法来寻找合适的描述符子集,以获得更好的质量,并加快整个建模过程。因此,特征选择和合适的机器学习方法是成功的关键。深度学习的兴起使作者能够绕过令人厌倦的专家和领域特征构造,将这项任务委托给一个神经网络,神经网络可以提取建模所需的原始输入数据中最有价值的特征。在这种情况下,整个分子以SMILES字符串或图形的形式作为神经网络的输入。
SMILES符号允许在字符串中写入有机化合物的任何复杂公式,便于在数据库中存储和检索有关的分子信息。它包含了有关化合物的所有信息,足以推导出整个构型(3D结构),并与碎片描述符的性质有直接联系,如图1所示,因此,SMILES成为QSAR研究的最佳代表之一。
图1 青霉素的标准SMILES在顶部,SMILES 的相应2D和3D结构在中间,三个非标准SMILES的例子在底部。苯环的子结构用粗体书写。
第一个直接利用SMILES作为输入描述符的工作之一是将字符串分成重叠的子字符串组,形成类似SMILES的集合或分子全息图。在这种方法中,不需要推导分子的2D/3D构型,其将模型的质量保持在与经典描述符相同的水平,甚至更好。
SMILES字符串是字符序列,因此,它们可以通过适合文本处理的机器学习方法进行分析,即使用卷积和递归神经网络。在演示了字符级输入的文本理解后,这种技术被用于化学信息学。最近,作者发现SMILES的增强(在模型训练和推理过程中使用正则和非正则SMILES)提高了卷积模型在回归和分类任务中的性能。
从技术上讲,现代机器学习模型由协同工作的两部分组成。第一部分通过应用具有不同感受野 (RF) 或循环层的卷积滤波器对输入数据进行编码并提取最稳健的特征,而第二部分使用标准全连接层作为构建块(所谓的经典“MLP”),基于这些特征直接构建规则模型(图2)。虽然强大的卷积层可以在其内部表示中有效地编码输入,但通常需要大量的训练数据集和计算资源来训练网络的编码器部分。
图2 基于人工神经网络的现代QSAR模型方案。编码器部分(左)通过RNN(上)或卷积层(下)提取输入数据的主要特征。然后,特征向量作为通常的描述符馈送到由残差和高速连接、归一化层和drop out组成的全连接层部分。
嵌入的概念通过使用为图像或文本处理任务设计的预训练权重来缓解这个问题。它允许从以前的数据中进行迁移学习,并加快构建模型的训练过程,其中数据集很小,无法从头开始训练。通常,QSAR 数据集仅包含数百个分子,SMILES 嵌入可以通过开发更好的特征来改进模型。
单独获得SMILES嵌入的一种方法是使用经典的自动编码器方法,其中输入与输出相同。然而,由于SMILES语法的冗余性,探索属于同一分子的多种SMILES将是更理想的,图1。最近,Seq2Seq被成功地应用于从InChi码到SMILES (Inchi2Sml)以及从SMILES任意到正则SMILES (Sml2canSml)的翻译,并在提取的潜在变量上建立QSAR模型。作者假设有可能训练一个神经网络,以序列到序列(Seq2Seq)的方式执行SMILES标准化任务,就像机器翻译问题一样,左边是非标准化的SMILSE,右边是它们的标准等价物。
用于机器翻译的最先进的神经体系结构由堆叠的长短期记忆(LSTM)单元组成。这种网络的训练过程固有地具有各种递归神经网络的困难,例如梯度消失和不可能并行化。最近,提出了一种 Transformer 模型,其中所有循环单元都替换为卷积和逐元素前馈层。整个体系结构在训练和推理过程中的速度显著提升,并提高了翻译基准的准确性。
现代机器学习架构虽然表现出令人难以置信的性能,但仍缺乏可解释性。解释模型的特定预测的原因可避免具有虚假或不相关相关性的预测器,并增强信任度和可验证性。打开“黑匣子”的一种很有前途的方法是使用逐层相关性传播 (LRP) 算法,该算法将整体预测值拆分为单个神经元的贡献之和。一个层的所有神经元(包括偏置神经元)的相关性之和保持不变。从最后一层到输入层的相关性传播允许评估特定输入特征的贡献,以便为整个训练集选择最相关的特征或解释单个神经网络预测。作者应用LRP方法来解释单个结果,检查模型获得结果的原因。
2.方法
SMILES标准化模型
数据
为了训练人工神经网络进行SMILES标准化,作者使用了长度小于或等于110个字符(>整个ChEMBL数据库的93%)的SMILES字符串。原始数据集被扩充了10倍,因此,每个分子在训练集中出现11次,达到了17657995个标准化对,这些标准化对以反应格式编写,用“> >”分隔。每一对的左侧包含一个非标准化的,在右侧包含一个相同分子的标准化的SMILES,如图3。
图3 小分子CHEMBL351484标准化模型训练文件中的数据示例。每一行包含一对由“> >”分隔的非标准(左)和标准(右)。一行两边是相同的SMILES的,用红色方框强调。
模型输入
Seq2Seq模型使用one-hot编码向量作为输入。除了当前令牌的位置设置为1之外,其他地方的值都为零。许多关于SMILES的工作使用了将一些字符组合在一起的标记化过程,例如将“B”和“r”组合成一个标记“Br”。根据作者的经验,使用更复杂的方案而不是简单的字符级标记并没有提高模型的准确性。因此,本研究使用了简单的字符级标记。作者模型的词汇表由来自ChEMBL数据集的所有可能的字符组成,有66个符号:
^#%()+–./0123456789 = @ ABCDEFghilmnoprstyz[\]abcdefgilmnoprsty$。
因此,该模型可以处理包括立体化学、不同电荷和无机离子在内的所有种类的类药物化合物。词汇中增加了两个特殊字符:'^'表示序列的开始,而“$”表示数据输入的结束。
Transformer model
这项工作中使用的标准化模型基于transformer架构,该架构分别由编码器和解码器的两个独立层组成。每一层都包含写入其内部存储器(V)的部分知识,并通过键(K)进行索引访问。当新数据到达(Q)时,该层计算注意力并相应地修改输入,从而形成自注意力层的输出并对那些携带基本信息的部分进行加权。除了自注意机制,该层还包含几个位置全连接层、一个归一化层和残差连接。作者的模型使用了一个三层结构的transformer,有10个自注意力模块。编码过程完成后,顶部编码器层的输出一个适合解码为标准SMILES的分子表示。在本研究中,作者使用这种表示作为QSAR建模的潜在表示。
QSAR model
作者将transformer编码器部分的输出称为动态SMILES嵌入,如图4所示。对于一个具有N个字符的分子,编码器产生具有维度(N,EMBEDDINGS)的矩阵。虽然从技术上讲这个矩阵不是嵌入,因为等效字符根据位置和环境具有不同的值,但由于其作用,可以认为是这样:将输入的 one-hot 原始向量转换为某个潜在空间中的实值向量。因为这些嵌入具有可变的长度,作者使用了一系列1D卷积滤波器。
每个卷积具有来 (1,2,3,4,5,6,7,8,9,10,15,20)的核大小,并分别产生以下数量的滤波器(100,200,200,200,200,100,100,100,100,160,160)。在GlobalMaxPool操作和随后的合并结果连接之后,数据经过Dropout (Rate=0.25)、Density和Highway层,最后转换到输出层,输出层只由一个神经元用于回归,两个神经元用于分类任务。Transformer部分的权重在所有实验中都是冻结的。所有模型都使用Adam优化器,其均方误差或二元交叉熵损失取决于具体的问题。使用固定学习速率λ=10-4。早停是为了防止过度拟合,选择最佳模型,减少训练时间。OCHEM的计算是在训练和预后期间使用标准SMILES和扩增十倍的SMILES进行的。在我们之前的研究中,这个SMILES扩增的倍数被发现是最佳的。对于同一分子的不同表示,使用单个预测的平均值作为最终模型预测,以计算统计参数。同样的五次交叉验证程序被用来将模型与我们先前研究的结果进行比较。决定系数
r2= 1 − SSres/SStot
其中SStot是数据的总方差,SSres是未解释的数据残差方差,用于比较回归模型,曲线下面积用于分类任务。
图 4 Transformer-CNN 网络的架构
验证数据集
作者使用了与之前研究中相同的数据集(9个用于回归,9个用于分类)。表1提供了关于这些数据集的简短信息。这些数据集可在OCHEM获取 https://ochem.eu.
表1 此工作所用的数据集描述
3.结果和讨论
SMILES标准化模型
Transformer模型被训练了10个时期,学习率根据以下公式变化:
λ = factor ∗ min(1.0,step/warmup)/max(step,warmup)
其中factor = 20,warmup = 16, 000步,如果λ< 10–4,则λ= 10–4。学习率的设置与作者回归综合研究中使用的相似。每个时期包含275907个步骤(批次)。没有应用早停或加权平均。学习曲线如图5所示。
图5学习曲线:1)学习速率表(底部和右侧轴),和2)前四个时期训练数据集中基于字符的准确度(底部和左侧轴)
为了验证该模型,作者从一个生成器中采样了500000个类化学SMILES(其中只有8617个(1.7%)是正则的),并检查了该模型解码这些分子的正则SMILES的准确性。该模型正确标准化的分子占所有样本的83.6%,见表2。
表2 标准化模型的验证
QSAR建模
对于QSAR模型,使用了保存的嵌入。使用固定的学习速率λ = 0.001对n = 100个时期进行训练。使用随机选择的SMILES进行早期停止,以确定最佳模型。表3,图6比较了回归数据集的结果,而表4、图7比较了分类任务。这些值的标准平均误差是使用如别处解释的自举程序计算的。
除了少数数据集之外,所提出的方法相较于基于描述符的方法以及作者先前研究中调查的其他基于SMILES的方法表现出相似或更好的结果。数据扩充对于Transformer-CNN方法的高性能实现至关重要。作者使用了n = 10的扩增,即随机生成10个SMILES并用于模型开发和应用,这在之前提到的研究中是最佳的。
表3 回归集计算的决定系数r2(值越高越好)
图6 为回归集计算的决定系数r2(值越高越好)。
表4 为分类集计算的AUC(值越高越好)
图7 为分类集计算的AUC(值越高越好)
类似于Transformer-CNN,Sml2canSml使用了一个内部表示,它是通过将任意的SMILES映射到正则SMILES来开发的。不同之处在于Sml2canSml生成了512个潜在变量(CDDD描述符)的固定集合,而Transformer-CNN表示的长度与最初的SMILES大约相同。Sml2canSml CDDD可用作任何传统机器学习方法的描述符,而Transformer-CNN需要卷积神经网络来处理可变长度输出,并将其与所分析的特性相关联。Sml2canSml作为CDDD描述符被添加到OCHEM中。
这些描述符的分析方法与先前工作中使用的方法相同,即LibSVM,随机森林,XGBoost,以及关联神经网络(ASNN)和深度神经网络。完全相同的方案,五重交叉验证,用于所有计算。使用CDDD描述符的最佳性能是通过ASNN和LibSVM方法获得的,这两种方法分别在7个和5个数据集上取得了最高精度(LibSVM方法在原始研究中提供了最佳性能)。除了Lipo和FreeSolv之外,与CDDD描述符相比,Transformer-CNN为所有数据集提供了更好或相似的结果。还应该提到的是,CDDD描述符只能处理满足以下条件的分子:
logP ∈ (−5,7),分子量 ∈ (12,600),重原子数 ∈ (3, 50)的有机分子。
这些限制由开发Sml2canSml编码器的训练集所造成。这些限制导致许多分子被排除在外,这些分子被上述一个或几个条件排除。与Sml2canSml编码器相反,作者用来自ChEMBL的非常不同的分子训练了Transformer-CNN,因此开发的模型可以应用于任何可以由RDKiT处理的分子。排除未能计算出CDDD描述符的分子并没有显著改变Transformer模型的结果:一些模型改进了,而另一些模型降低了各自约0.01性能值的精度。例如,对于Lipo和FreeSolv集,Transformer-CNN模型的精度分别提高到r2 = 0.92和0.75,而对于BBB,AUC降低到0.91。
模型的可解释性
分层相关性传播用于解释模型。对于门控连接,作者实现了全信号再分配规则,而所有其他全连接层和卷积层在LRP框架中得到很好的拟合,没有任何调整。在这项工作中,作者停止了Transformer编码器输出的位置相关性传播。其中,作者在QSAR模型训练期间冻结了网络的编码器部分。总结SMILES字符串中每个位置的所有单个特征,计算其对最终结果的贡献。如果LRP对碎片的贡献给出了合理的解释,那么人们可以相信,该模型是基于检测到的基本结构——属性关系做出预测的。为了进一步解释,作者选择了分类(AMES致突变性)和回归(水溶性)模型。
AMES致突变性
AMES试验是一种广泛使用的定性试验,用于确定分子的诱变潜力,从中可以获得大量的需警惕的结构集合。这些结构的例子有芳香族硝基化合物、氮氧化物、醛类、单卤烯烃、醌类等。AMES的QSAR模型必须特别注意这些类似的结构才能使结构有解释性和更可靠。建立在6542个终点(3516个突变和3026个非突变)上的Transformer-CNN模型使AUC=0.89,表4。
1-溴-4-硝基苯的结构经AMES试验呈阳性。表5显示了该化合物的一种可能的SMILES的LRP程序的输出,即1c([N +] ([O-]) = O)ccc(c1)Br。
根据LRP的说法,相关性在传播过程中是不变的:
这里(L)代表最后一层的一组神经元,(L-1)在最后一层之前的一层,以此类推。transformer-cnn网络中的每一层都包含偏置,因此一些相关性在他们身上消失了。因此,上述等式被修正为:
表5 c1c([N+]([O])= O)CCC(Br)C1的局部相关性守恒
作者计算了偏差对相关性的影响,并在ochem.py脚本的输出中报告了这些值。表5清楚地表明,24.6%的输出信号是由偏差获得的,75.4%成功地传播到位置层,作者用位置层来解释模型。如果不到50%的信号进入输入,则可能表明存在适用性域问题或相关性传播的技术问题。在这些情况下,解释性可能会受到质疑。通过迭代所有非氢原子,解释算法提取一个原子,并从中提取一个SMILES。因此,每个分子都有一组对应的等于原子数量的SMILES。LRP用于每个SMILES,然后对最终输出的单个预测进行平均。1-溴-4-硝基苯被预测为诱变,得分为0.88。原子对性能的影响如图8所示。该模型预测,由于硝基和卤代苯部分的存在,这种化合物具有致突变性。两者都是已知的致突变结构。带电的氧比硝基中的双键氧具有更大的影响,因为它的存在有助于硝基和氮氧化物的致突变性。
图8 在诱变化合物的情况下,原子贡献的可视化。红色代表诱变警告,绿色相反。
水溶性
溶解度是药物开发中的一个重要特性。学术界和工业界都非常希望有一种快速、可靠和可解释的工具来对其进行预测和解释。建立在1311种化合物上的Transformer-CNN模型具有以下统计数据:q2 = 0.92,RMSEp = 0.57。为了证明其可解释性,作者选择了氟哌啶醇——一种众所周知的抗精神病药,水溶性为14毫克/升。Transformer模型计算出该化合物的溶解度为14±2毫克/升。单个原子的贡献如图9所示。羟基、羰基、脂肪族氮和卤素对溶解度贡献最大。这些基团可以在分子中形成可电离区域,从而帮助水溶解物质。
图9 原子对氟哌啶醇水溶性贡献的可视化。绿色条代表更易溶解的特征,而红色条显示相反的效果
几个芳香碳有负贡献,这是预料之中的,因为芳香化合物在水中溶解性差。因此,总的解释是有意义的,模型有一个极好的统计数据,不是因为虚假的相关性,而是因为它找到了正确的碎片特征负责建模的属性。
4.结果与讨论
作者首次提出了一种基于Transformer架构的SMILES标准化方法,该方法在编码过程中提取信息丰富的实值嵌入,并将其展示给QSAR进一步研究。此外,作者第一次使用分层相关性传播(LPR)方法开发了一个基于Transformer架构的模型解释框架。
与在大多数不同的基准数据集上使用最好的模型相比,TextCNN方法有效地处理了由Transformer生成的嵌入,并且QSAR模型的最终质量更高。Transformer-CNN架构需要不到100次迭代来收敛QSAR任务,以模拟各种生物活动或物理化学属性。它可以很容易地嵌入到新的药物开发中。使用LPR以片段贡献方式解释的模型预测可用于设计具有所需生物活性和ADMETox性质的新分子。
Transformer-CNN根据属于同一分子的一批扩增的SMILES的个体预测平均值来预测终点。批次内的偏差可以作为预测置信区间的度量。偏差相关性的消除以及对恢复的SMILES的分析可用于推导模型的适用性范围。与基于最佳描述符的方法以及几个经过分析的深度神经网络体系结构相比,它系统地提供了更好或至少相似的结果。更值得注意的是,Transformer-CNN实际上没有可调整的元参数,因此不需要花费时间来调整神经架构的超参数。使用网格搜索来优化支持向量机,优化XGBoost的多个参数,应用各种描述符过滤和预处理,这很容易导致模型的过拟合。这以及解释模型的可能性使Transformer-CNN成为QSAR建模和解释的瑞士军刀,这将有助于使QSAR变得更好!
训练QSAR模型所需的源代码可在https ://github.com/bigchem/transformer-cnn 上找到。储存库还有一个独立的QSAR预测程序,该程序计算单个原子的贡献,从而解释模型的结果。
参考资料
Karpov, P., Godin, G. & Tetko, I.V. Transformer-CNN: Swiss knife for QSAR modeling and interpretation. J Cheminform 12, 17 (2020). https://doi.org/10.1186/s13321-020-00423-w
----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向。
浙江工业大学智能制药研究院段宏亮教授:AI制药的现状、技术与挑战
基于AI的连续流反馈系统加速化学反应开发
使用数据驱动的分子连续表示进行自动化学设计
图卷积神经网络用于解决小规模反应预测
数据增强和迁移学习策略解决小数据集化学反应预测问题
进入临床试验的AI设计的药物 汇总V1.0
AI药物研发公司Exscientia的理念、技术与特点
Nature:如何使用AI分析真实世界数据,简化肿瘤临床试验入组标准
AI药物研发公司Insilico Medicine的理念、技术与特点
2020年AI + 药物研发全景概述:(二) AI如何应对制药行业的效率挑战