人工智能在现代制药和化学领域的应用瓶颈、创新与发展 |《AI+科学汇编》

Original 科学改变未来未来科学论坛 2023-08-02

收录于合集

// 引

///

AI+化学与医药

未来论坛首次出品“AI+科学汇编"，集合七个主题章节及两篇人工智能主题附录，涵盖AI+脑科学、科学计算、化学与制药、创意设计、材料科学、基因科学、再生医学。期望此汇编刊物能为有意踏入人工智能领域或在不同学科应用人工智能进行科学研究的从业者和研究生提供一份入门指南，发挥启发性和引导性的作用。

本文收录“AI+化学与医药”学术编委、麻省理工学院生物系副教授、白头生物医学研究所成员翁经科对篇章内容的介绍以及跨界讨论和主题问答实录。

感兴趣的同学可以关注公众号，在后台回复关键词“AI+”，填写资料获取「AI+科学汇编」完整刊物。

// 编者按——翁经科

///

AI+化学与医药

伴随着计算机科学在二十世纪初的诞生，人类在信息存储及运用领域步入了一个崭新的时代。早期算法主要致力于解放重复繁琐的数学和逻辑运算。而随着计算机科学在生产生活中扮演的角色越来越重要，机器学习以及更广义范畴的人工智能的概念孕育而生。在之后几十年间中，相关机器学习的理论基础和各类算法已得到了长足的发展。特别是进入互联网时代后，大数据、算法和算力的有机结合让人工智能在诸多领域中的运用有了井喷式发展。

化学是自然科学的一门经典学科，旨在研究分子、原子层面物质的组成、性质、结构和变化规律。化学与人类的生产生活息息相关，在能源、材料、制药等领域都起到了至关重要的作用。传统化学研究和化学品生产很大程度上依赖理论指导下的实验，需要投入大量的人力物力，而且实践中的盲目性与未知性非常大，在很大程度上依赖于实践者的经验和水平。而在现代工业高速发展的大背景下，如何将人工智能领域的前沿成果运用在化学领域以提高生产力便成为一个必然的趋势。随之产生的AI+化学的交叉学科也给广大科研工作者和创业者提供了多维度广阔的探索空间。一系列新兴课题有待研究：化学分子结构和理化性质的数字化、化合物化学全合成或生物全合成途径的自动预测、化合物工业生产及纯化过程的优化、药物分子高通量计算筛选、药物分子与蛋白质靶点结合的预测与优化、药物分子在体内的毒理及代谢过程的预测。用人工智能辅助上述相关课题可以大大提高研发及生产效率。相比信息技术产业，人工智能在化学领域的应用也存在一系列挑战有待攻克：比如说，可用于训练的数据量少并难以集成使用；在基础研究层面上如何用数字语言表述化合物空间结构及理化性质；药物分子与人体的互作的机理及普适规律复杂程度远高于现有认知。

这次YOSIA Webinar活动，我们有幸邀请到了五位海内外AI化学领域的专家，一起畅谈这个新兴交叉学科的发展现状及未来展望，致力于用科学务实的态度来认识这个快速发展的新兴学科。嘉宾们通过分享自己的成长经历，来激励年轻一代根据自己的特点及兴趣来投身于新型交叉学科的创新与发展。

翁经科

麻省理工学院生物系副教授

白头生物医学研究所成员

未来论坛青创联盟成员

▍ 跨学科讨论

人工智能如何在制药和化学领域发挥作用

翁经科：讨论一下人工智能在制药化学的运用，以及能帮助解决哪些传统手段不能解决或者很难解决的问题。

杨庆怡：说到传统计算方法，我们一般会联想到量子力学计算方法或者分子动力学等方面的模拟计算方法。相对于经典的量子力学计算方法来说，AI模型能够覆盖更多的数据，从更多的数据里面获取信息，传统科学计算很难捕捉到这些信息，这是AI很大的优势。

比如上面提到的，深度学习模型能够通过对大数据的训练和学习提供更好的预测以及产生新的分子结构，这是以前经典的科学计算不能做到的。

杨东：现阶段AI的发展带来的最大帮助还是在新药研发，新药研发是一个系统工程，包括了很多环节。这些环节实际上都是非常耗时耗力的，以前都是以低效的方式进行，成本也非常高。一项新药的研发费用高、研发周期长、研发成功率低。随着AI技术的应用以及不断发展和成熟，可以为新药研发减负。值得一提的是，AI技术在药物靶点的设计上也有应用，可以利用自然语言处理技术让AI阅读海量文献，总结科学家的研究成果，来设计被人们忽略的药物靶点。

李成涛：我了解到科学计算由于计算复杂度的限制，所以计算过程中都会应用近似，这些近似可能会引入系统性的误差，这种误差很多都是没有办法除去的。相对于传统的计算方法，AI在数据量足够多的情况下，某种程度上可以减少或者去除系统性误差。这一现象有相关的理论支持，即当数据量足够的情况下深度学习网络可以拟合任意一个函数。从AI角度来讲，最核心的问题是研发规模。之前研发一款药可能几百个人一起讨论，可能最后设计出成百上千种分子。AI使我们能一次性模拟几百万种药物。只要模型是合适的，完全可以解决规模的问题。

AI在化学和制药领域的应用瓶颈

翁经科：人工智能在现代制药和化学领域的应用瓶颈在哪里？

裴剑锋：第一个瓶颈是数据问题。在药物研发应用场景下，数据很难自动产生。比如说，做天然产物的合成，数据不够，可能需要人来打标签，那可能十几轮跌代后就做不下去了，如果用模型来生成数据，精度和准度也是有限制的。另外，在药物研发里，很多数据没有阴性数据，但是作为机器学习的模型，负样本非常重要。没有这个负样本，数据就不平衡。这个问题始终存在，需要很大的数据系统来支持。

第二个瓶颈在于人工智能本身。药物研发就是人工智能的一个应用，也存在一些局限。因为药物系统本身很复杂，将一个前沿的东西应用到复杂系统，这里面就会出现瓶颈。比如药物专家的经验的学习和传承，人工智能很难处理。第三个瓶颈是人才，因为这是很强的交叉学科。

申威峰：在化工数据中，比如环境方面的物性数据是非常难收集的，这也是制药模型预测能力的非常重要因素。我们团队大部分工作都在做数据收集，数据收集的好坏直接影响模型预测能力。刚才裴剑锋教授提到药物的无效数据不好获取，但是化工厂内无效数据很多，因为我们化工厂一般都有一个DCS自动控制系统，它可以把所有数据都采集下来，但是有一个问题是很多数据是重复的、无效的，导致处理工作量非常大。

另一个比较大的问题是，人工智能技术大多是基于概率模型的，所以对一些现象和结果不能提供充分解释。所以无论制药行业还是化学领域，都有一定的特有知识、机理或者机制为标准，并不是所有问题都可以单纯用人工智能技术来解决。如何将基于人工智能技术的黑箱模型与化工领域的白箱模型（比如能量守恒、物料守恒等）结合，形成一套完善的研究方法，是目前化学和制药领域都面临的难题。

交叉学科的成才之路

翁经科：各位嘉宾走到今天进入了人工智能和化学制药领域，肯定都有自己独特的故事，所以想请大家分享一下，你们是怎么样进入到现在的职业轨道的？

杨庆怡：我的职业轨道比较简单，主要是幸运。我本科毕业以后就到美国读博士，博士毕业后就在GSK制药公司工作几年，然后来到辉瑞，一直从事计算化学工作。我们团队对AI非常感兴趣，也投入了很多研究，想发掘AI在制药上的潜力。

杨东：我本身是做生物信息学的，我的导师的课题组主要是做癌症研究。癌症非常复杂，每个人的肿瘤几乎完全不相同的，因为携带有不同的基因突变。科学家近几十年针对这些不同的突变开发出了上百种抗癌药物，但是癌症对症下药的问题到现在也不令人满意。

传统的办法是利用生物标记物判断病人是否适合某种药物。到现在为止，这个效果也不是特别令人满意。我最早接触到人工智能，是2016年AlphaGo战胜世界冠军的时候。

我发现AlphaGo能处理非常复杂的模式，当时就想可以通过人工智能的办法学习人类不同肿瘤基因组，实现对肿瘤患者的个性化用药。

于是我开始学习人工智能的知识，也开始写代码来实现人工智能的算法。研究过程中我发现光有病人肿瘤信息是不够的，还要把抗癌药物化合物的信息也融入进来。所以我又想办法学习了化学，把抗癌药物化合物的信息整合收入到人工智能体系里面，希望药效预测能做得更加准确。

所以我为了自己科研的目标，学习了不是自己主专业的知识。我一开始觉得人工智能离生物特别远，其实当真正投入到科研当中，感受到想要实现一个目标的时候，就不要考虑太多，就把自己的精力专注在知识里，哪怕不是这个领域的，认真学习还是能够慢慢的掌握。并且AI现在还是起步阶段，没有特别多知识需要积累。我建议大家不需要害怕，大胆去尝试，认真读文献，亲自做实现，最终还是能达到自己研究的目标。

李成涛：我从本科到博士一直在从事人工智能领域的研究，在博士期间萌生了创业的思想，后来才转向人工智能和化学这个交叉领域，然后创立了星药科技。我本科一直在学计算机，化学基础有限。为了多了解领域知识，上过课，看过书，现在对人工智能+新药研发领域有了对框架的整体了解。

2019年初，我提前毕业然后做了这家公司，到现在也就摸爬滚打了一年半，还在不断学习和进步中。作为原本是人工智能专业的人，要进入化学领域或者制药领域其实是有一定门槛的，当时花了很多时间，但我觉得这件事情确实很有意义也很有意思。就我个人经历而言，假如你是做AI的人，对其它领域感兴趣，不妨多花一些时间了解，坚持去做。

申威峰：我过去的科研方向是计算机辅助化工生产，对化工生产过程进行模拟、优化和控制，这和人工智能还是比较接近的。2016年回国后，我们团队开始进入人工智能方向。化工行业很多高端产品需要国外进口，因为国内的技术比国外差很多。但是现在我们可以通过更智能的工具来辅助精准决策，从而提高产品质量。

关于化工领域的人才培养，这个方向是交叉学科，需要同时学习两个学科的知识和技能。我呼吁国内高校开办相应的交叉专业，目前有人工智能专业兴起，但是交叉的专业还没有，所以开设交叉专业，配置相应的课程和教学计划。在学生学习化学知识的同时，可以加强数学理论、化学信息、软件开发相关课程的学习，这样才可以适应未来对交叉学科领域人才的需求。

裴剑锋：我是学生物出身，当时比较喜欢计算机，自学了很多计算机的知识，博士的时候转到计算机辅助设计，我一直在这个方向上走。关于交叉人才培养，有药学和化学基础的可以多学习一些人工智能的知识。关于交叉人才培养，无论是学药学、学化学，可以先在专业方向打好基础，再学习人工智能知识。

北大前沿学科研究院是国内第一家专业以交叉学科为主的研究院，注重培养各方面的交叉人才。如果想进入这个行业，希望同学们多开发一些底层的算法或者代码，少在别人基础上发展，这对于中国的学科发展非常重要。

制药、化学和AI的未来十年

翁经科：请各位预测，十年以后制药、化学、人工智能的未来发展前景。

杨庆怡：未来很重要的一个发展方向是数据变得越来越多，化学数据库平台可以给化学家和生物化学家提供很大的便利。在化学信息学的基础上，如果AI技术能够从信息里面探索出真正的知识，更一步将数据变成知识，相信能够带来更大的突破。比如，更准确地预测分子结构，更高效率地找到初始小分子候选清单，这对小分子和靶点识别的研发非常有用。

杨东：现在化学新药的研发已经开始运用计算机的算法来辅助药物设计进行虚拟的筛选模式。目前可供计算的范围或者预测能力还比较有限，还是要大量依靠人工做实验去验证。

十年以后，很可能人们还是以计算机结合实验验证的模式进行，唯一不同是人工智能技术的不断成熟以及数据的积累，二者的占比会发生很大变化。可能未来进行大量模拟计算预测将成为主要部分，包括靶点发现、药物筛选、优化都是由AI来完成。经过若干轮的严格模拟筛选，只剩下很少的分子，我们才会人工做实验来合成，然后验证安全性和有效性。

李成涛：十年之后，人工智能的发展主要在三个方面，分别是算法、数据和算力。算法就不用说了，也很难预测，但是相信会有长足发展。第二是数据，我们现在有很多方式积累数据，比如实验室做的实验数据可以作为积累，当然也有高通量的实验平台，这也为积累数据提供了便利。

数据量足够之后，机器学习模型可以拟合到和自然更贴切，这样输出结果相对就会更好。第三是算力，尤其是专有芯片。比如说，现在摩尔定律暂时失效了，但是专有芯片发展还是很快的。相信十年之后人工智能会对整个制药和化学领域产生非常深远影响，具体就体现它能算的更快、规模更大、算的更准。

裴剑锋：如果General Intelligence未来十年发展的很好的话，场景就非常乐观。比如在计算化学和化学机制的预测上，可以看到机器学习，量化和密度泛函理论结合的很好，数据量足够的时候，计算精度已经接近那个精度了，并且它的速度很快。

如果采用不断迭代的方法，也许我们可以推动量化计算或者模拟它的体系的增大，对理论化学，这是非常有用的。另外，可能更多的数据大家会去注意积累，中国要成立国家数据中心，这也是非常重要的。可能十年后真的会产生一些比较大的突破。

General的东西，我最希望它在自然语言处理上产生巨大突破，这样真的是能够帮我们读文献，把这么多散乱的非结构化的信息，组织成有用的知识。这无论对哪个行业，对制药行业都是非常重要。

申威峰：以后基于人工智能的化学产品的开发软件或者是化工辅助决策软件会大量出现，科技工作者可以利用这些工具快速筛选想要的分子结构、产品配方、合成路线等，大大提高合成效率，保证高纯度产品。

同时，做化学合成或者药物合成的一些重复劳动力的科研工作者可能会减少，并将人才转移到从事人工智能和化工药物结合的方向上。人工智能技术不仅可以加速研究的进程，同时可以向着更绿色、更健康、更便捷的方向发展。

AI如何和制药、化工产业对接

翁经科：人工智能如何和制药、化工产业对接，以及学术界如何与工业界对接？

申威峰：对于化工方向，首先可以开发人工智能辅助的软件，帮助企业合成和分离过程的决策。另一方面，化工是一个质控系统，可以借助人工智能和化工制造系统结合，形成自优化、自诊断的智慧化工系统。

我们要基于人工智能大数据、物联网，化工厂的设备监测技术融合，来构建一个智慧化工决策系统，开发能够分析化工厂企业的在线数据，开发适用于物联网的传感器，开发质控系统和人工智能的交互平台，形成决策软件包，这样可以帮助企业在化工过程中化工厂里面优化生产效益、减少能耗，控制生产风险，同时提高产品质量，我认为可以通过这种方式来对接。

李成涛：关于人工智能如何和现有的制药或者化工产业对接，分两个方面，第一个方面从人工智能角度来讲，很多做人工智能的毕竟不是出身于药物研发或者化工产业，所以他对化工产业、药物研发的了解相对有限，需要多交流。比如说产业的痛点，人工智能能解决的问题，能提供什么产品，这对于企业非常重要。另外，从制药和化工产业角度来讲，多交流也非常有益。现在对人工智能了解相对比较少的领域专家，他们可能对其期待不高或不切实际。

杨东：人工智能现在存在可解释性问题，这个问题涉及医药、健康领域时，人们往往会比较谨慎。当人工智能预测一个药物没有副作用、没有毒性，虽然数据测试正确率很高，但是如果不能说明为什么没有毒性，大部分人都会持有保守态度，可能还需要时间检验，因为只要有1%的差错率都会带来严重后果。另一方面，学术界关心如何把化合物更好地进行表征，即使图神经网络比之前的分子指纹方法要好很多，已经能表征一些结构信息，但是也损失了一些化合物的信息，因为它只表征了二维信息甚至局部信息。要把整个化合物的结构以及影响生物活性的属性更好的表征成为数字化的信息输入神经网络，需要学术界进一步的开发和研究，可能会进一步提高化学合成的的预测准确度。

相关阅读：

· 你有一份AI+科学研究入门指南，请查收！

· AI在哪些方面已经助力了脑科学的发展？| 《AI+科学汇编》

· 如何把科学计算和机器学习结合，更好的解决实际问题 | 《AI+科学汇编》

福利：

· 查看「AI+X科学」完整报告，请在公众号后台回复关键词“AI+”填写资料免费获取。

可点击文末阅读原文观看视频

欢迎在留言区回复你感兴趣的的AI+主题

延伸阅读

关注未来论坛

一个承载人类科技梦想

用科学改变未来的公益平台

一个连接前沿科技

解读未来趋势的思想平台

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

人工智能在现代制药和化学领域的应用瓶颈、创新与发展 |《AI+科学汇编》

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

生成图片，分享到微信朋友圈

人工智能在现代制药和化学领域的应用瓶颈、创新与发展 |《AI+科学汇编》

您可能也对以下帖子感兴趣