【First-in-class药设系列】基于AI技术药物设计所面临的机遇与挑战
虽然人工智能(AI)这个概念的提出由来已久,但直到近几年AI才在多个领域包括图像和语音识别,自然语言处理取得巨大成功。而在制药领域,AI技术还拥有巨大的应用潜力。目前,在全球有至少100家企业正在探索新药研发的人工智能方法,包括葛兰素史克、默克、强生与赛诺菲公司都已经布局人工智能新药研发。在如火如荼发展AI技术的同时,我们还需清醒认识到目前人类还无法完全依赖于AI开发药物,AI技术在药物设计领域当前所需面临诸多挑战。
1.获取合适的数据
高质量的输入数据对于预测模型的决策是很重要的。没有合适的数据以及对数据应用范围的认知,即使再优秀的模型方法都难以输出有用的结果。在考虑数据是否适合建模时,我们最需要关注的是这些数据是否来自于终端,如果不是的话,模型可能是错误的。比如,很多课题组会构建预测药物毒性的模型。一个好的预测模型可以缩短药物发现的时间以及降低对动物实验的需求。但是,体内实验的数据很少,因此很多模型用体外数据来代替。在多数情况下,体外结果和体内毒性反应之间的关系还未被阐明。实际上,这个问题并非只针对毒性预测模型。药物研发中使用的动物模型的实验数据通常和临床试验的数据也不具有明确的相关性。
数据内部和数据间都存在着不同层次的不确定性。有些数据因为源于相同的问题,所以它们本身就具有相关性,这需要人类做合理的标注,但这样一个冗长的过程往往被忽略。虽然在一定程度上我们可以用自动标注来代替,但AI目前只能通过推断语境,自动检测前后矛盾的标注错误等来提供有限的帮助。标注的另一个挑战是对生物问题认知的不断变化和前后不一致性,也就是缺乏一个连贯的知识体系。语言翻译领域的AI技术可能能解决不断进化的学术用语间的映射问题。另外,科学数据的维护和管理也必须受到重视,数据应该遵循FDA规定的ALCOA准则(如上海交通大学医学院张健等2009年以来建立的全球变构数据为变构AI药物发现提供了合适的数据)。
使用实验数据来建模的另一个困难和不确定性来自于错误报道。错误报道可能来自于报道数值,基因名或者其他参数的打字错误,但被研究人员收录在数据库中。即使一个两个错误的数据也可能会对模型的预测结果产生影响。因此数据校对是AI在药物发现领域的另一个应用场景。药物发现实际上是个最优化问题。为了能发现药物,团队必须要设定很多标准来定义化合物是否对靶标有活性,是否有满意的PK性质,是否会在体内有副作用,结果产生了一大堆实验检测数据。但是往往由于时间和财力限制会有缺失值。因为只有那些体外和细胞检测下来有潜力的分子才会进行更加昂贵的体内实验,这使得数据的缺失并非随机。即使数据是完整的,它们通常也是不平衡的,要么只有大量阴性化合物和少量阳性化合物,要么反过来。
目前,AI应用最为成功的是图像识别和自然语言处理。这些领域的数据和药物发现的数据是大不一样的,类似于“用户是否点击了超链接”或者“图像中是否有停止标识”这样的标注要简单很多。但是要判断一个化合物是否对靶标是有活性的或者是否是有毒的,这明显要困难许多。药物发现项目会有特定的数据产生的环境,这使得项目成员可以对数据分析的结果做出判断。但是如果这样的项目交给另外的实验室,不存在相关的环境下,可能导致研究者做出不一样的决策。而且,类似图像处理和NLP领域有数百万可供训练的数据,使得模型可以捕捉输入数据的多样性而具有普适性。这样量级的数据在药物发现领域是罕见的,并且我们也不知道究竟需要多少数据才能训练出优秀的模型。另外一个挑战来自于构建模型的数据难以获取。实际上,在很多情况下,实验产生的结果并不能转换成像IC50,Kd,Ki这样简单的数值。目前AI已经用于发展能够表征类似实验结果的数据类别。比如,人工神经网络正在用来分类细胞表型并预测药物重定位。
2. 产生新的假设
尽管高通量技术以及合成化学在不断发展,但我们搜索的化学空间只占很小的一部分。像DNA编码库这样最前沿的方法也只能测试大概10^7-10^10个分子。而我们预估的类药化学空间依据限制条件的不同大概有10^18–10^200个分子。我们没有办法穷举所有的分子,所以药物设计的核心问题是“下一步我们该怎么做”。药物化学家依据他们的经验和合成的可行性来设计,但基于人类疾病的复杂性以及药物化学方面所面临的的诸多困难,如果有一个能提出新假设的方法对于药物设计将会是大有裨益的。
化学设计可以认为是一种模式匹配,并在90年代就有了从头进行分子设计的相关工作。现今生成性AI提供了一个全新的方法,即通过统计框架来进行决策,这些生成性模型用数据的统计分布来表示化学知识。目前已经有一些研究利用生成从头设计的策略产生了可合成的,具有良好化学性质和活性的分子。这类方法具有诸多优势:执行速度,快速的重训练,可扩展性等等。此外,“机械的”模型能够捕捉不同层次的生物学行为(例如基因,分子,细胞)并且阐述它们是如何进化的以及它们之间的关系,这对基于AI的方法是一种补充,因为它们能对机器学习模型结果之间的关联性给出解释。这样的模型能给出新的假设,再利用机器学习模型产生更多的数据来测试新假设来不断改进模型,由此形成了一个完整的学习循环系统。
3. 多目标的优化
药物发现需要平衡设计过程中的多个指标包括靶标潜力,选择性,清除速率,渗透性。然而,优化其中一个性质可能会降低其他性质。这样一个互相冲突的问题可以用多任务优化(Multi-Objective Optimization, MOO)的计算框架来解决。要进行MOO,先要针对每一种化学性质训练得到一个预测模型,然后通过MOO算法试图解决最优化问题,即找到一个或者一系列具有较好综合性质的分子。由于这些性质通常是相互冲突的,我们的目标是生成一系列潜在的先导分子,每一个在不同性质间都进行了权衡,但它们在某个性质上都已优化到最佳结构。这样一组解可以认为是最优化的边界,沿着边界移动就会产生多个最优解。
MOO是为了能降低甚至取代实验室检测某一化学性质的工作。例如,定量构效关系模型是为了构建化合理化性质和生物活性pKd或EC50之间的映射。在MOO的环境下,这些模型会帮助决定一个分子是否在最优边界上。MOO目前面临的挑战是在某种程度上反向构建它们来寻找对应于最优活性的化学性质(反向QSAR)。类似于上面提到的从头设计分子,生成性AI模型可能适用于解决这类问题。
如果我们能构建用于MOO的预测模型(普通的机器学习模型或深度神经网路),剩下的问题是如何解决最优化问题。过去MOO的算法主要是“遗传算法”,该算法使用类似的变异和交叉的多样化操作以及适应性的概念来执行优化。这些方法现已被分布估计算法(EDA)比如协方差矩阵适应进化策略等方法所取代。该类方法和机器学习中的信息几何优化以及期望最大化算法有交集。在最优化和机器学习领域的交叉应用会相互促进并能有更好的发展。
MOO算法(如EDA)的基本要素是生成性模型,它取代了遗传算法中的突变和交叉操作。对于连续数据,人们可能想到的最简单的生成模型可能是具有均值和方差参数的正态分布。当人们改变这些参数时,来自正态分布的样本自然就会发生变化。实际上,EDA的工作方式是拥有足够“丰富”的生成性模型(即可以在设计类中生成大量对象的模型),然后使用特定的统计方法来调整参数,这样就能从中获取样所需的分子。因此,MOO的组成要素不仅是所使用的预测模型和MOO算法,而且还包括生成性模型。现代机器学习已经见证了两个技术领域的融合,即图模型和神经网络。随着这些技术的进步,基于药物设计的MOO会从中获益。
4. 减少周期时间
在药物发现阶段,发现和优化一个化学分子的需要大量的时间和投入,且风险极高,因此研发人员在提高检测化合物能力方面持续投入。这样就产生了大量的数据点但也带来了很多挑战。首当其冲的是人类大脑的信息处理能力越来越成为一个明显的短板。为了能跟上药物发现项目日益增长的数据量,复杂性和维度,科学家开始寻求简单的启发式方法和效率指标。虽然这些方法有自己的优势,但是它们并不能明显减少学习的周期和产生新药物的时间。在药物发现中,将先导分子的性质提高到候选药物所需性质的主要过程称为设计-制造-测试-分析(Design–Make–Test–Analyse,DMTA)周期。这种基于假设的经典方法首先使用可用数据来产生假设并设计分子,随后合成设计的化合物,并用合适的检测手段进行测试,以验证假设是否正确并提高对问题的认识。然后,对这些知识进行分析,并转化为下一个周期假设的设计。
许多组报告了改善DMTA循环有效性的方法,例如,更多地使用预测数据,改进数据分析工具和提高化合物合成的有效性,从而缩短了DMTA周期。即使有了这些改进,DMTA迭代的周期时间仍然很慢,通常可能需要4到8周以上才能完成。结果,获得能进入临床候选药物所需的周期将更长。在四个阶段中,虽然“设计”和“分析”阶段可以很快进行,并且可以优化“测试”阶段(尤其是体外数据检测,包括效力,选择性和ADMET(吸收,分布,代谢,排泄和毒理学)分析),并且改进过程快速且可预测,“制造”阶段通常很慢,需要数周的时间才能完成新型复杂分子的合成。因此,缩短该阶段可以大大减少DMTA循环的迭代时间。实验室自动化,使用批量稳定的反应进行快速化合物合成以及自动化分析,在这样的环境下将发挥决定性作用。
由于设计的假设各不相同,合成和检测化合物所需的时间也都不同,因此多个设计周期可能同时进行。有时,一个完整的周期还没有结束,下一轮化合物合成已经开始。AI为提高DMTA循环的有效性提供了很多机会,包括整合和分析所有可用的实验和预测数据,以帮助化学家和设计团队数据分析以及从头设计分子。通过提供改进的合成路线和优化的反应条件,AI模型可以使化学家遵循最有效的路线,从而最终缩短“制造”阶段。在正确的时机和环境下,如果能接收预先提炼和量身定制的信息或建议,研究人员将受益匪浅。这将减少他们查阅原始数据的过程,而使得他们可以专注于凭借自己的化学直觉和背景知识来对所提供信息进行评估。在这样的场景下,团队需要了解所有有关数据的来源,数据本身所反映的信息,并在必要时深挖原始数据背后中所包含的信息。
在最近有关DDR1激酶抑制剂的一个例子中,科研人员用深度学习产生了多个分子并快速合成并测试。在这项研究中,作者利用DDR1抑制剂和常见激酶抑制剂数据来训练了一个综合的机器学习模型,并利用增强学习,设计产生了30000个分子,通过一系列评判标准和化学多样性来筛选。然后,作者又采用一些传统的计算方法对结果进行进一步排序,最终合成了6个分子并实验检测,有2个分子的IC50达到20nM以下。这项工作的一大亮点是使得DMTA的周期缩短到46天,但我们必须认识到,最有潜力的分子在结构与已知DDR1抑制剂分子相比,仅仅做了一个简单的空间取代(异恶唑替换酰胺羰基)。而且,46天对于将分子推进候选药物阶段是不够的,优化步骤需要大量时间和耗费。因此虽然这是一个深度学习成功应用于药物化学的罕见例子,但距离减少新型药物候选物的设计周期和成本还有很长的路要走。
除此之外,另一个决定因素是选择具有高度背景知识的生物靶点,包括一系列活性分子的骨架和晶体结构信息,这是深度学习技术的成功应用的起点。在只有少量数据情况下,AI在从头开始药物设计中的适用性尚未被证明。在这种情况下,迁移学习可能是生成分子设计潜在的解决方案,并且已经有些例子已经证明了其适用性。只是要全面评估迁移学习在对命中分子和先导化合物的设计中的潜力,还需要在不同的少量数据项目中进一步验证。
5. 研究文化和思维方式
除开技术问题,AI在药物发现中的成功应用所面临的的最大挑战是要培养合理的思维模式和研发团队的“文化”,比如鼓励他们去使用这些计算模型。在药物设计的氛围中,不管是拥有不同背景的研发人员还是商人,相互理解和沟通是很有必要的。要做到这一点,首先要认识到团队各个成员不同的经历,然后发展通用的术语和规则,使得每个人在AI药物设计过程中都有明确的职责。促进这种发展的一种重要方法是在大学教育时,培养学生批判性思维,也就是退一步学会自我反省,并包容其他思维方式,以及能够向同事(包括其他研究领域的人)和更广泛的受众解释自己的工作。
鼓励AI方法的应用是找到可以提高和帮助化学家使得他们工作更高产的领域。例如,AI的一个局限是用高质量校对的数据来建立适当的训练集,但是许多化学家认为注释和整理数据是一个繁重的过程。如果电子实验室笔记本可以利用AI来促进捕捉,注释和管理数据,那么化学家将能够把更多的时间集中在开发有效创新药物上。反过来,将会有更好的训练集来改善AI模型的输出。此外,如果可以利用AI工具分析过去药物化学项目中积累的数据并将它们对接到当前项目中,研发人员可能会关注到项目中的一些新方向并进一步推进。
未来之路
制药公司已经开始通过合作的方式将AI相关技术应用于研发项目,但现在还不是时候将所有赌注都放在基于AI的药物设计上。由于开发药物的高度复杂和不确定性,我们还是应该抱着好奇而谨慎的心态来对待它,并努力将其聚焦于提供当前药物研发新靶标/新位点等从0到1的关键问题解决上,从而发挥其最大效应。在药物设计中使用AI的同时需要长远的眼光,这才能提高各个研发阶段的效率,并且降低不同科研文化间的壁垒,从而构建一个健康的创新药物研发生态系统。
参考文献:
Schneider, P., Walters, W.P., Plowright, A.T. etal. Rethinking drug design in the artificial intelligence era. Nat. Rev.Drug. Discov. (2019) doi:10.1038/s41573-019-0050-3