数据增强和迁移学习策略解决小数据集化学反应预测问题
迁移学习,是一种把某个领域内或任务中学习到的知识或模式,应用到不同但相关的任务中,通过标注数据或知识结构来完成或改进目标任务的学习方式。数据增强是在非实质性增加扩展数据的情形下,让有限的数据产生更多的等同于有效数据的价值。无论是迁移学习或是数据增强,都可以有效的缓解因数据量过小对完成目标任务造成的消极作用,提高所用模型的泛化能力。
该方法功能强大,逐渐进入到化学合成领域并与之结合。作者以经典的人名反应--Baeyer-Villiger反应为代表,证明了迁移学习和数据增强策略在化学合成领域中的优异性能,同时展现出Transformer模型也可在化学方面脱颖而出,最重要的是迁移学习和数据扩增两种方法的引入,能够作为有效的解决化学反应中数据集数量有限的情形的通用方法。
1.研究背景
在当今的社会大环境之下,在计算能力、数据可用性和算法改进的推动下,具有简化和自动化反应预测潜力的人工智能技术正在成为一种理想的战略。这一技术渗透范围广泛,其中包括化学合成领域。相比较于传统的有机化学合成应用中新反应的发现更多的依靠于化学家的经验、专业知识、以及对化学反应机理的深刻理解所导致的化学合成的任务既费时又费力。计算机模型辅助的方法一定程度上减轻了人类科学家的经济、人力上的负担,简化了化学合成过程的步骤。
2017年谷歌公司在《Attention Is All You Need》提出的Transformer模型架构备受关注,该模型是一种语言翻译模型,摒弃了传统的神经循环网络(Recurrent Neural Network, RNN)和卷积神经网络(Convolutional Neural Networks, CNN),整个网络结构完全由注意力机制组成,并能够很好的处理捕捉到的文字序列信息。由于其在完成多种任务时表现出出色的性能,而且对下游任务微调就可以达到不错的效果,因此化学合成反应预测领域内Transformer模型也被引入,并且也取得了相对不错的结果。但是人工智能技术非常依赖于大数据,而在化学合成中,化学反应的数据量是有限的,甚至于不足以支撑人工智能模型的运作的。也就导致对于这些数据量十分有限的化学反应来说,Transformer的表现并不友好,通常会产生很低的预测精度。因此如何利用有限的小数据集来完成反应预测并得到想要的结果便成为了解决问题的关键一步。该文的研究者探索了使用迁移学习(transfer learning)和数据增强(data augmentation)两种方法是否能够有效的解决小数据集问题,并实现小数据集的高精度预测。在该文中所提到的迁移学习(transfer learning)是指将解决一个任务的知识应用到另一个任务中,通过收集预先训练好的神经网络作为特征标签,这些特征标签包含足够大的数据集,可以应用于预训练。预先训练的模型自动获得特征标签,并将这些标签存储在隐藏层中。在这些特征相互关联的情况下,通过处理相关任务而获得的标签被转移到目标任务模型。而数据增强(data augmentation)是在已存在的有限的数据量的条件下进行扩增,将原数据集扩增至1倍,2倍到4倍,不改变数据集的内容,只改变其数据的量。从而避免了过拟合的现象,并提升了模型的泛化能力,从某种意义上来讲,对于处理化学反应数据集的有限性起到了促进的作用。值得注意的是,迁移学习和数据增强的方法的结合使得Transformer在处理小数据集的任务时更加得心应手。
在该篇文章中,作者选择Baeyer-Villiger反应作为研究对象来验证Transformer模型与迁移学习、数据增强结合后是否可以成为解决小数据集的通用模型。尽管Baeyer-Villiger反应的表现形式简单,但是该反应过程会面临着将要发生迁移基团的区域选择性等问题,如图1(B)所示,这对计算机模型的预测来说会具有一定的挑战性。此外,Baeyer-Villiger反应作为一个经典的人名反应,在天然产物的合成中有着重要的意义,更是一个典型的小数据反应例子,因此该实验以Baeyer-Villiger反应预测为中心内容,借助transformer模型迁移学习、和数据增强的方法开展了应对有限数据集的研究工作。
图1:Baeyer-Villiger反应的详细介绍。(A)醛反应物(a)和酮反应物(b)被氧化成酯的Baeyer-Villiger反应实例。(B)Baeyer-Villiger反应的一般机理
2.方法
作者通过构建对比实验来评估Transformer模型结合不同策略的方法后所得到的Transformer-基线、Transformer-迁移学习、Transformer-迁移学习+数据增强3种模型在Baeyer-Villiger反应预测这一目标任务的表现。在该文章中,对照实验模型为不包含迁移学习和数据增强的Transformer-基线模型,加入迁移学习的模型命名为transformer-transferlearning模型,组合迁移学习与数据增强的模型命名为Transformer-transferlearning with data augmentation模型。
Transformer-transfer learning模型以及Transformer-transfer learning with data augmentation训练步骤分为2个过程:预训练和迁移学习训练。第一步,Transformer模型首先在含有380K的化学信息数据库中进行端到端的训练,获得基础的化学知识。第二步,Transformer-transfer learning 模型将第一步预训练所得的基础化学知识迁移到Baeyer-Villiger反应预测的目标任务中并且在Baeyer-Villiger反应数据集上进一步训练,将基础化学知识以及Baeyer-Villiger反应特有的化学信息特征结合。最后,该模型做出相应的Baeyer-Villiger反应产物的预测; Transformer-transfer learning with data augmentation模型将第一步预训练所得的基础化学知识同样迁移到Baeyer-Villiger反应预测的目标任务中,并且通过数据增强将反应式扩增至1,2,4倍在Baeyer-Villiger反应数据集上进一步训练,基础化学知识以及数据扩增后的特征标签得到的Baeyer-Villiger特有的化学信息特征结合,最后,该模型再次做出相应的Baeyer-Villiger反应产物的预测;此外,将 transformer-baseline模型作为对照组,仅仅在Baeyer-Villiger反应数据集上进行训练,然后做出相应的预测。Transformer-transferlearning的实验流程如下图所示:
图2:Transformer模型预测Baeyer-Villiger反应产物的方法示意图。由蓝色箭头指引的为Transformer-baseline 模型,仅在Baeyer-Villiger反应上完成训练和测试;由紫色箭头指引的为Transformer-transfer learning 模型,首先对380K的大数据集进行预训练,然后在Baeyer-Villiger小数据集上进行训练和测试操作。
2.2实验数据:
该实验中包含两个数据集:预训练数据集和Baeyer-Villiger反应数据集。预训练大数据集来源于美国专利数据库,包含约38万个实际应用化学反应,涵盖大部分的基础化学反应知识。Baeyer-Villiger反应数据集则是该文作者通过化学数据库 “Rexays”数据挖掘建立。研究者根据反应模板或反应的人名从Rexays化学数据库中下载实验数据,经过一系列的数据处理工作,最终获得2254个符合要求的Baeyer-Villiger反应来验证该实验的有效性。最关键的地方是为了避免实验过程中模型直接从预训练的数据中获得Baeyer-Villiger反应的信息并对迁移学习和数据增强的策略的有效性评估产生混淆,研究者在该实验过程中删除了预训练数据中关于Baeyer-Villiger反应的有效信息,从而保证了评估模型性能的真实性。表1为具体的Baeyer-Villiger反应分类的信息。
2.3实验方法:
该实验中作者采用了迁移学习和数据增强两种方法,迁移学习将从原有任务中所得到的的特征值应用于将要完成的任务,即便是在数据量数目有限的情况下也可以较好的完成目标任务;数据增强是通过从现有数据添加数据或新创建数据的副本来增加数据量,在该实验中主要应用的是生成训练集中每个反应的副本来加倍训练数据总量,其中的分子被等效的SMILES所取代。使得反应预测过程不在受限于数据量的多少。在该实验中,化学反应用SMILES码的形式来表达,将SMILES输入到transformer模型,最后也是以SMILES的形式从模型中输出。迁移学习是在训练、预训练的过程中所完成的,而数据增强方法的应用则是在迁移学习的基础上对Baeyer-Villiger训练集中的整个化学反应式利用程序进行扩增处理完成。如图三所示:SMILES扩增的示例图。
图3.反应式进行5倍数据扩增。所有的SMILES字符串表示同一反应
3.研究结果
模型性能的表现
实验结果证明迁移学习和数据增强两种方法对解决数据集的量不足的问题大有益处,引入迁移学习方法后,Transformer模型对Baeyer-Villiger反应的top-1预测精度达到了81.8%;不仅如此,继迁移学习方法后,SMILES数据增加也使得Transformer的性能进一步显著提高,达到了86.7%的top-1的预测准确率。同时加入了迁移学习和数据增强之后Transformer模型的性能在top-2、top-3、top-5的准确率也是逐渐提高的。相比之下,Transformer-baseline模型的性能就逊色很多,在top-1的预测中,Transformer-baseline模型的准确率只有58.4%,即便是对Baeyer-Villiger反应做出top-5的预测,预测精度也才只是71.1%。表2是Transformer基本模型在引入不同的方法后所得到的预测性能的表观数据。有一点不同的是数据扩增倍数的不同,Transformer模型的性能是有差异的,在该实验中,SMILES数据扩增其一倍时Transformer的性能处于最好的状态,但是当SMILES扩增倍数增加时,这一方法在实验中的正面效应在实验中逐渐削弱。这也就意味着,数据扩增倍数多并不能持续性的提升模型的性能,只有在适当水平的数据扩增才可以对变压器迁移学习模型产生积极效果,使模型达到更高的反应预测性能。
这一系列的实验结果都直接体现了迁移学习和数据增强的强大功能,以该实验为例,迁移学习的方法能够把从前一个任务中获得的化学知识应用到目标任务中,数据增强是在迁移学习的基础上获得额外的化学信息,进而提高模型的预测性能。
为了Transformer能够更好地应用于有机化学合成领域,研究者基于上述实验结果对模型反应预测中出现的错误做出了仔细分析。分析后发现,在Transformer-baseline、Transformer-transfer learning 、Transformer-transfer learning with data augmentation×1的模型中均出现了以下5种错误:Baeyer-Villiger反应中的基团迁移错误、碳原子数目错误、SMILES错误、手性错误、以及化合物的预测错误。作者还将Transformer基线模型和Transformer+迁移学习+1倍SMILES数据增强的模型的具体错误进行了对比(图4)。对比后结果表明,基于迁移学习的1倍的数据增强策略引入之后, transformer+迁移学习+数据增强中的所犯错误的数量有所下降,从而使得准确率提升,也就再次证明了数据增强策略能够有效解决数据量有限性这一问题。
此外,在该篇文章中,研究者还详细分析了错误出现的可能原因。其中,官能团迁移错误是该反应由于发生时基团会发生迁移造成的Baeyer-Villiger反应特有的反应,当预测任务发生改变时,这种错误也就不会出现了。例如碳原子数目错误、手性错误这类原因通常都是由于化合物的复杂性所造成的,而SMILES错误出现主要是产生了无效的SMILES,即为无法转化成化学结构。这一类错误之所以会发生常是因为SMILES表征时那些微小的变化都会对SMILES所代表的结构产生巨大的影响。简言之,这些错误主要是受模型、SMILES码表示的固有特性以及化合物的结构所产生的。
图4.Transformer基线模型与Transformer+迁移学习+1倍的数据增强模型中错误类型的比较。a.官能团迁移错误b.碳原子数错误c.SMILES错误d.手性错误e.其他错误
4.结论
在这项研究工作中,作者以Baeyer-Villiger反应为反应模板,在Transformer模型的基础上创新性地结合数据增强和迁移学习两种策略,完成对小数据集的化学反应预测任务。经实验证明,Baeyer-Villiger反应预测的top-1的准确率首先从58.4%提高至81.8%,这一显著提升完全得益于应用迁移学习的技术;此外,在达到81.8%的准确率后,Transformer+迁移学习模型再次做出了新的尝试,结合SMILES数据增强技术,使模型的性能得以继续提升,最高达到了86.7%的准确率。事实证明,迁移学习和数据增强两种技术能够在反应预测任务中获取足够的化学知识,有效地处理化学反应数据稀缺的问题,从更广泛的意义上说,迁移学习和数据增强更加妥善的解决了以数据为驱动的模型在小数据领域的应用困局。不仅如此,作者还对反应预测结果中不正确的数据进行了讨论和分析,尽管增加了数据扩充的Transformer+迁移学习模型中出现的错误与Transformer基线模型相同,但是观察到的性能改善仍能够强劲而有力的证明转移学习和数据扩增方法在解决小数据集的问题上具有很强的通用性,另一方面,进行错误分析的工作也可以为后续更深层次的探索做出良好的铺垫。
在以数据为驱动的人工智能辅助预测反应领域中,数据量的不足会严重的限制这一行业的发展,但是这项研究工作中所展示的集成迁移学习优化手段与数据扩增间接扩大数据量的方法的Transformer模型的力量,恰好成为解决小数据的化学反应预测的有力工具,我们坚信这种策略可以应用到更多的反应预测任务中,并有机会与其他算法相结合,来进一步加快人工智能在化学领域内的发展进程。
(张云)
----------- End -----------
浙江工业大学智能制药研究院段宏亮教授:AI制药的现状、技术与挑战
20家顶尖制药公司如何将AI应用于药物研发:近年来主要合作活动
FDA发布人工智能/机器学习行动计划
利用人工智能增强表型药物发现
Nature子刊回顾:2020年生物制药IPO打破了所有记录
AI赋能制药行业CRO,都有哪些新进展
美国FDA如何监管医疗AI:监管框架和当前获批产品
跨界者在行动:互联网巨头在AI药物发现方面,都做了哪些工作
AI药物发现的数据共享模式探索:以十大顶尖药企参加的MELLODDY项目为例
CDE关于发布《模型引导的药物研发技术指导原则》的通告(2020年第59号)