虚实结合的AI药物发现:现场数据生成,模型迭代更新
点击上方蓝色字体,关注智药邦
AI应用于药物研发已经有一些时间了。那么,在发展模式上有什么新的变化呢?
在这里,我们要给大家介绍AI药物发现的虚实结合模式,并举例分析。在产业方面以Exscientia等AI药物发现公司的“现场数据生成+AI”模式为例,在学术方面以处于概念验证阶段的“微流控+AI” 模式为例。
图1 AI药物发现(图片来自参考文献1)
自工业革命以来,药物研发的模式都是以实验科学为基础。如今,随着计算科学、数据科学和虚拟科学逐渐成为科学研究的通用工具,药物的研发模式有了新的变化。比如:
AI的应用,为药物研发提供了新的手段。
AI药物研发都有哪些应用呢?AI可以应用于靶点发现、虚拟筛选、化合物合成,以及ADME-T性质(吸收、分布、代谢、排泄和毒性)预测和理化性质(如晶型等)预测,也可以用于药物临床试验设计和优化、患者招募等方面。AI的这些应用都为药物发现增加了新的可能性。其根本原因之一,就是可用数据的逐渐丰富。
仅仅利用现有数据进行预测或推理的模式,可以称之为虚拟模式。
然而,问题随之出现,这就是数据问题。
数据问题可以分为数据获取问题和数据质量问题。
数据获取问题:
巨大体量的公共药物数据库和化合物数据库能够帮助药物研发工作者完成文献搜索。然而,一些数据可能无法通过公共数据库获得,需要与数据所有方协商使用权。
比如,与掌握大量高质量药物研发数据的制药公司合作,必然涉及到数据使用权问题的处理。而且即使在同一家制药公司内部,不同的数据也可能是被锁定在单独的孤岛中。这都增加了数据获取的难度。
数据质量问题:
一些情况下,用于AI预测的药物数据是足够的,并且数据质量也比较高。然而有些时候关键数据的缺乏,以及所获取数据如文献数据质量的参差不齐,数据产生条件的特殊性等问题,给预测工作带来了极大的困难。这种情况下,预测结果与实际情况可能是脱节的。
那么,如何克服这些数据方面的挑战呢?
新一代AI辅助药物发现初创公司提出了一种解决办法:
现场数据生成(On-site data generation)+ AI
这也就是我们要介绍的,AI药物发现的虚实结合模式。
即:将药物发现的实验科学与计算科学、数据科学和虚拟科学交互结合。
这种虚实结合的模式能够部分的解决AI药物发现的数据获取和数据质量问题。并且,AI药物发现的虚拟模式得到的结果,确实也非常需要实际试验来验证。
接下来,我们从假设的提出、数据的生成、模型的迭代等角度来解读和界定这种模式。
假设的提出
药物研发是一个试验的过程,在试验之初需要进行推测,也就是建立假设,然后通过试验来验证假设是否正确。
传统的药物发现方法,是科学家通过调研和阅读文献资料,结合预实验,来提出科学假设;虚实结合的AI药物发现模式,则是使用机器学习模型生成的假设,来规划和执行后续实验,产生新的数据再次被迭代地用于更新模型和假设。公共数据或者从其他来源获取的数据主要用来形成初始假设。
现场数据生成
与以往只采用公共或其它来源数据的虚拟模式不同,虚实结合的AI药物发现模式结合实验科学,采用现场数据生成完成建模数据的收集,并在数据收集阶段就致力于提高数据质量。
模型迭代更新
机器学习通过学习数据构建模型,之后采用模型进行预测分析。
与先完成大部分或所有的预测工作、在试验验证前最大程度的虚拟化,而后再进行试验的方式不同,虚实结合的AI药物发现根据最新的数据迭代更新模型,整个过程可以看做是交互式的方式,即每次试验的结果都会向模型中添加新信息,是一个“自适应的设计”或“主动学习”的过程,更具灵活性和准确性。
这个模式可以怎么看呢?
如果机器学习是一个人,那么在他眼里,药物研发实验室、甚至整个药物研发流程就是一个数据工厂。反过来,药物研发实验室、药物研发流程可以用方案规划师和数据分析师的视角去看待机器学习,因为机器学习能够部分的接管假设的提出、方案的规划和数据分析,并根据最新数据形成新的假设,推动整个研发过程。
我们调研了一篇2020年发表在《Nat Biotechnol》杂志(IF=36.558)的文章《Active machine learning helpsdrug hunters tackle biology》,其中介绍了Exscientia等初创公司采用“现场数据生成+AI”模式加速药物发现的工作。
成立于2012年的Exscientia公司,建立了自己的实验室,进行蛋白质、结构基因组学、生物物理筛选和药理学等研究。Exscientia首先生成自己的数据,完成高质量的数据采集,然后采用AI来分析,并与科学家的创造力和专业知识相结合,进而大大缩短临床前药物研发阶段所用的时间。Exscientia与Celgene、赛诺菲和葛兰素史克等制药公司有积极合作。
图2 Exscientia的AI药物发现(图片来自Exscientia官网)
同样地,药物发现初创公司Cellarity也是虚实并重。Cellarity利用机器学习来分析单细胞测序数据,并在著名生物医疗风投机构Flagship Pioneering的5000万美元的支持下,建设广泛的”湿”实验室设施,这些设施将为他们算法的分析和解释产生生物数据,进而产生更好的模型和更智能的实验。
LabGenius、Insitro和Recursion Pharmaceuticals等公司也在使用这种方法来加速药物开发。
在学术领域,有一种同样是虚实结合的AI药物发现模式,那就是“微流控+AI” 模式。
在一篇发表于2018年《Nature Reviews Drug Discovery》杂志(IF=64.797)的文章《Automating drug discovery》中,作者将微流控技术和AI技术同时引入药物发现过程,并构建了一个关于“设计-合成-分析-学习”循环的药物发现自动化体系。
先介绍药物分子设计循环。
药物发现总体可以看成是假设(Hypothesis)和试验(Test)两部分。围绕假设和试验形成了四个环节,即化合物的设计(Design)-合成(Synthesis)-分析(Assay)-学习(Learning)。四个环节不断循环,直到筛选出较为满意的化合物。
图3 药物分子设计循环(图片来源于参考文献2)
再说这个体系的特色。
在这个体系中,化合物的合成模块和分析模块被集成到微流控芯片上,化合物活性分析产生的最新数据,经过机器学习,加入到药物分子设计-合成-分析-学习的循环中进行迭代,来寻找最优的化合物。
由于微型化技术,微流控芯片上可以同时并行数千个的化学合成反应。而分析的部分,微流控芯片上可以使用人类细胞系、活检材料和筛选器官模型(器官芯片技术)进行药物活性测试。另外微流控结合化学成像技术,还可以用来监测微流控芯片上药物浓度的变化。
图4 微流控单细胞筛选设备(图片来源于参考文献2)
这为机器学习提供了大量的数据。
在循环的分析中获得化合物活性的新数据以后,主动学习(机器学习的一种)就可以根据这些新数据来反复调整设计假设,修正后的设计假设随后用于选择新的化合物集进行合成和分析。
这样,在设计循环的每次迭代中都会向模型添加新信息,就可以最大程度地提高产生的化合物的质量。
值得一提的是,该体系目前还处于概念验证阶段,完全实现还需要解决:不同组件的无缝集成、大量化合物中选择最佳化合物的评分和特性预测、通过适应性学习循环的准确性等三个问题。
图5 微流控芯片示意图(图片来源于网络)
微流控技术简介
微流控技术是近些年非常火的一种在微型环境中操控液体(或气体)的技术。在比较理想的情况下,可以将传统的生化实验室集成到一块几平方厘米的微流控芯片上。
举一个例子,如果把药物发现各个环节的工作,当成是去不同的政府部门办事,那么,微流控就相当于是把所有不同的政府部门集成到一个行政中心,每一个政府部门在这个行政中心都有分部,办事在行政中心内部就可以完成。
同样地,药物发现的环节如果都集成到微流控芯片上,效率可能会大大提高。
算法问题
如果AI药物发现公司在一定程度上,通过虚实结合模式初步解决了模型构建的数据获取问题和数据质量问题,那么紧接着或者同时需要解决数据处理问题,也就是算法问题。
药物的开发可以看作是一个多维优化的过程。由于数据规模和过程的复杂性,这种AI药物发现模式可能不得不重写机器学习算法,因为目前很少有机器学习的任务涉及到这种级别的挑战。
团队建设
团队建设可能是一项更加艰巨的任务。虚实结合的AI药物发现模式,一方面需要经验丰富的研究人员,另一方面还需要寻找具备突破机器学习能力极限所需的数据科学家、编码员和工程师。
当然,如果这项工作和投资成功地提高了药物开发的效率,并且降低了成本,最终可能会获得巨大的回报。
实际验证与预测分析交互,并且快速迭代的虚实结合模式,是AI药物发现的新方向。
包括微流控在内一些新兴技术可能有助于提升这种交互效率。比如3D打印细胞建模、类器官技术、细胞和组织成像等在药物发现领域的应用,都是对药物研发硬件升级的探索。而AI,则是整个模式的动力系统。
诚然,药物发现还有很多问题需要解决,如优质靶点的缺乏,动物模型临床转化效率低和疾病的个体差异等,人类对自身和生物体的了解还是远远不够。
但是,如果在更好的发现药物的同时,药物研发工作者和科学家的部分重复性的工作可由AI完成,让他们用宝贵的时间进行创造性的思考;并且,AI机器学习能为他们提供新的灵感和建议,那么,虚实结合的AI药物研发模式值得期待。
参考资料
1.Eisenstein,M. (2020). Active machine learning helps drug hunters tackle biology. NatBiotechnol 38(5): 512-514.
2.Schneider,G. (2018). Automating drug discovery. Nat Rev Drug Discov 17(2): 97-113.
3.https://www.sohu.com/a/346907049_260616
(Chris编译)
----------- End -----------