【First-in-class药设系列】浅谈数据在人工智能药物研发中作用及其发展趋势

Original 李云 & 张健分子设计 2022-06-15

近年来，“人工智能”（Artificial Intelligence, AI）在图像识别等领域产生了深远的影响，但在药物发现领域，这种应用仍然有局限性，原因之一是其所使用数据的认知存在问题。我们今天一起来讨论一下人工智能在不同领域（如图像，语音，化学和生物领域）的数据出发，借鉴其经验提升对药物发现数据的认知，以期在对生物系统的理解的基础上进一步获得足够数量的高质量数据，探索具有新方式的药物研发，促进人工智能在药物发现领域的发展。

谈到人工智能，可能最早引起大众注意的是图像和语音识别领域（例如自动护照控制和“虚拟助手”）。从技术层面来看，图像识别发展可能的一个起点是Schmidhuber及其同事在2010年发表于Neural Comput有关识别手写字符的论文。随着2012年NIPS发表的关于AlexNet论文的出现，人工智能在手写字符识别这一领域开始崭露头角，成功地将深度神经网络方法用于图像分类。这一突破不仅来自于算法层面的设计（如使用连续卷积（Successive Convolution），池化层（Pooling Layers），整流线性（Rectified Linear, ReLU）单元，数据扩充（Data Augmentation）和数据丢失层（Dropout Layers）），还受益于大量已标记的图像数据和高速GPU的使用。然而图像领域成功的算法和数据处理方式是否可以直接用于药物研发领域呢？答案显然是不适合的，我们来看看可能的原因。

一、化学数据的表示形式

在深度学习领域中，用于学习任务的数据，特别是数据量，分布特征及固有偏差十分重要。与图像数据、自动驾驶及天文学等动辄10^9以上的数据不同，化学和生物学的有效数据量相对较小（见“药物研发中人工智能的发展思考与未来展望”）。此外，不同领域数据在计算机中可接受的表示方式、数据标记方式及其数据挖掘的潜力也大相径庭。在图像领域中，研究目标通常用像素表示，这些像素彼此具有空间排列。因此，只要将不同像素值上的形状或颜色作为输入，就可通过算法在视觉上进行区分（与人类相同）。对于图像而言，模型选择（算法结构及其超参数的选择）虽然也需考虑，但在图像识别中的大多数情况下是直接使用像素作为输入。同样，在图像识别中的输出通常可以是基于图像的内容（不需要考虑外部环境）。相比之下，在化学和生物领域中，如何将信息展示给计算机就显得十分微妙。如在化学领域中，已报道有大约3000个用于描述化学分子的描述符，我们尚不清楚是哪个描述符可以捕获最关键的分子特性，或者我们尚未建立最系统的描述符。一些分子特性由局部特征（例如，氢键或电荷）定义，一些分子特性则通过分子表面的特性分布（例如，亲脂性）定义，而还有一部分分子特性则取决于外部环境（例如，与受体的结合，其取决于焓和熵因子的复杂平衡）。因此，人们往往在表征化学数据的时候可以选择将分子表示为图表、曲面、生物活性图或使用其他物理化学特性，形式多种多样，但究竟在给定情况下到底要考虑哪种分子特性进行预测，目前的研究依然有限。也就是说，对于既定的预测目标我们也无法确定哪种分子特性最重要。

最近，大量的工作用于研究如何更好地表示化学分子，研究认为用来展示连接信息的分子结构表示方法与用于模型生成的表示方法有着截然不同的目标。分子连接表（用图形表示或以SMILES格式表示）用来表示分子中原子与原子之间存在哪些键。然而考虑到分子其实是一个存在于3D状态下的动态实物（存在构象、互变异构等），因此这种表现方式并不能捕获所有情况下与模型生成相关的属性。例如，连接表/SMILES格式无法捕捉诸如环己烷船式椅式构象的倒置；同样无法表示更复杂的立体化学特性（如轴手性）；它只能代表两个电子键；也不能捕获氢键的方向性，从而无法辨别影响溶解度的分子内相互作用和分子间相互作用。因此需要将这种用于表示分子连接情况的信息与用于模型生成的表现形式进行区分。而对于后者，应当首先考虑诸如与受体相互作用相关的药理学要点这类特征。然而，用于这类模型生成的数据又少之又少。因此在未来很长一段时间内，找到恰当的分子表示形式将一直是人工智能在药物研发领域的研究重点。

近年来，已经有了一些表示结构信息的数据与模型生成数据的交叉。例如使用分子结构的SMILES表示方法在化学反应的结果预测方面获得了一定的突破，在一些文章中，这种类型的描述符在性能预测方面优于其他类型的描述符。在大多数情况下，我们并不了解哪些分子特征真正有重要作用。首先，向计算机输入一个用于学习的分子并不容易，因为分子的表示方式取决于所建模型的目标；其次，机器学习模型的选择存在主观性，假设分子特征与分子属性的基本功能形式存在关联，那么特征是累加性的还是以其他方式起作用，要从数据中凭借经验确定这种关系，就需要大量数据，但鉴于化学空间大小和目前的有限数据量，可用的数据依然很少；最后，化学分子的标记在很大程度上取决于所处生物环境（如氮是否已质子化，结合位点的介电常数，分子溶解度的测量方式等）。因此，原则上目前我们还不能在生物体系背景下明确地标记我们的化学数据。

二、生物数据的表示形式

类似的考虑也适用于生物学数据建模，甚至可能存在更多问题。我们很难判断生物学系统的哪个“描述符”与眼前的目标问题相关，甚至存在于描述符可能要使用的标签上：例如，如何根据病因、机制或症状水平（其中水平经常彼此不同，以及某些个体具有给定的遗传背景却显示出非常不同的症状，或者根本没有）来定义疾病？又比如什么是药物相互作用？我们如何定义它？关于它与所用药物剂量的关系，个体基因型的影响是什么（某些药物-药物相互作用仅在某些个体中观察到），以及我们如何在描述中处理频率与事件严重性之间的关系？就像化学数据一样，生物标记也是不明确的，很大程度上由具体情况决定。给定特定的测试形式和参数，我们也许可以指定细胞毒性，但是化合物是否在生物体中引起肝毒性取决于所测试的物种（以及菌株）、给药途径、剂量、所考虑的测定端点以及许多其他因素（年龄、性别、共同用药等）。即便如此，对照动物在组织病理学中也显示出一定程度的肝脏损害：是频繁观察到毒性更有意义还是不经常观察到毒性，但观察到的毒性一般毒性更高更有意义？另外，与图像中的标签相反，生物系统不是静态的，会随着时间而发展，但这在图像领域中并没有可以借鉴的先例。

在生物领域进行标记时，还要区分的一个问题是数据“受控”和“非受控”之间的差异。例如，前者是来自精确装置的准确测定，后者则由组织病理学家选择的图像注释主观决定。原则上，不受控制的可变性会带来嘈杂的数据，从而导致模型的性能降低。但是，实际上，这不是非黑即白的问题，即使受控的数据部分，在实际操作中也会因操作方式/人员不同产生不受控制的误差。由此可见，由于生物标签具有极大的条件性和多维性，分配标签并不是一件容易的事，而机器学习算法又需要从标记的数据中学习，这就导致人工智能应用到药物发现时就存在着如何标记的问题。

因此，我们可以得出结论，人工智能已经取得成功的领域，例如图像分类，在以下方面与药物发现领域中化学和生物学可用数据有所不同：(i) 可用的数据量;(ii)以合适的形式将其展示给计算机的能力；(iii)与可用数据本质上一致的机器学习算法；(iv)分配给数据有效标签的可能性。简而言之，识别图像上的物体与识别安全有效的药物之间是有区别的。以生物学领域为代表，其中的系统通常不遵循明确定义的规则。相反，生物系统的定义是由不同生物水平（例如转录组学，蛋白质组学和代谢组学水平，而且还考虑到了从细胞到生物体水平的细胞内和细胞间信号传导的时间和空间分辨方式的表观遗传和功能相互作用水平）决定的。此外，生物学领域的观察是高度受制约的（取决于大量参数），而这种制约又通常是未知的。

三、人工智能在药物发现中的可发展方向

前面的讨论简要说明了为什么目前在药物发现中应用人工智能并不简单，这在很大程度上是因为难以生成和标记与功效和安全性相关的化学、生物学和生理学数据。当前，我们经常做的是“数据在哪就在哪里建立模型”；但真正在领域上的突破仍然很少。仅拥有“数据”无济于事（在某种程度上，它可能在其他领域有用，但在药物发现方面则没有用处）：用于药物发现的人工智能数据必须是正确的、格式可用且用于正确目的的数据，这样才能为药物发现领域带来真正的改变。话虽如此，人们已经认识到，与传统方法相比，药物发现的数据需要更好地被组织管理。随着总体趋势的发展，我们可以更好地进行数据查找、分类（在可能的情况下）和近邻搜索，这些也都是有效果的。尽管如此，人工智能在药物研发中要迈入一个新的台阶，就需要超越当前数据带来的限制，并根据它们现存的已有信息，确定我们需要哪些数据来解决与体内安全性和有效性有关的问题。

科学问题及假设是任何模型的起点。我们有一个假设，例如，某个特定基因的过度表达与某种疾病有关。那么，这个假设使我们有针对性地获取数据，并以适当的方式表示，最后使用适当的方法分析数据。但是，当前经常用于药物发现的数据并非如此。相反，数据经常以无假设的方式生成（只要技术手段适合大规模测量），然后使用参数进行后续的“强行拼凑练习”，虽然挖掘数据更加容易，但是尚不清楚用这种方式获得的数据与体内环境下的真实情况是否具有相关性。为了能够真正将化学和生物学数据用于药物发现，我们需要超越单纯测定技术“推动”产生的数据，转向满足科学假设需求“拉动”数据的产生。

药物发现领域中可用的数据本质上与人工智能在其他取得巨大进步的领域（例如图像和速度识别领域）不同。在某种程度上，这与难以定义特定端点的相关性（为机器学习模型的成功获得有效标签）有关；部分原因还是缺乏对特定生物系统的了解。在许多情况下，很难标记生命科学数据（由于生物学差异，标记物对精确测定设置有依赖性，标记物与环境的相互依赖性以及命名方式不一致等原因），这对于人工智能用于药物发现领域而言，是一个严峻的问题。要真正推进该领域的发展，并从配体发现中的应用转到药物发现中的应用，我们需要了解为什么要生成数据，需要生成哪些数据，而这首先需要更好地了解生物学。只有当我们能够在体内测量和捕获相关的生物学端点时，我们才能够在该领域取得更大的进步，并在药物开发领域将目前可用的计算算法应用于临床上的复合功效和安全性的研究。

参考文献

1. Shen, J. and Nicolaou, C.A. Molecular property prediction: recent trends in the era of artificial intelligence. Drug Discov. Today Technol. 2019, doi: 10.1016/j.ddtec.2020.05.001

2. Bender A, Cortes-Ciriano I. Artificial intelligence in drug discovery: what is realistic, what are illusions? Part 2: a discussion of chemical and biological data used for AI in drug discovery. Drug Discov Today. 2021, doi: 10.1016/j.drudis.2020.11.037.

3. Bera, K. et al. Artificial intelligence in digital pathology — new tools for diagnosis and precision oncology. Nat. Rev. Clin. Oncol. 2019, 16, 703–715

1. 天然产物来源变构调节剂的药物研发展望

2. 药物研发中人工智能的发展思考与未来展望

3. 大数据推动创新药物研发的思考与展望

4. GPCR-脂膜界面的变构位点药物发现进展

5. 张健/李医明团队识别变构热区协同激动剂以降低药物副作用