查看原文
其他

寻找新冠“解药”:在 10^60 化合物分子空间,他们用 AI 挖掘潜在药物

CSDN App CSDN 2020-10-29


作者 | Just
出品 | CSDN(ID:CSDNnews)

医药研发行业有一个“三个十”的说法,即一种药物的发现需要投入十年以上的时间,花费十多亿美元,最后获得10%的成功率。也就是说,医药研发需要花费很长时间,投入大量资金才能成功研发出一种药物。

不过,AI等新技术的不断涌现,让科学性极强的医药研发行业也有机会追求大幅“提速降费”。

“把原本可能需要三到五年的药物发现过程,显著地缩短至一到两年,同时还帮助人们跳脱出药物研发专家个人经验和能力的限制,全面加速药物研发。”致力于以计算驱动药物研发的晶泰科技联合创始人、AI负责人赖力鹏告诉CSDN。

抗疫,筛选出38种潜在药物分子

目前AI在医药研发的应用覆盖多个研发环节,包括靶点发现到苗头化合物、先导化合物的发现,然后到药物开发和临床实验。
 
以新冠病毒的靶点发现为例,首先需要找到病毒上与转录、复制、感染等关键机能相关的蛋白质,然后分析其与药物结合、抑制这些机能实现的位点。通过找到能有效、稳定地与这些靶点结合的分子,就可以阻止病毒的感染和传播,患者由此得到治疗。
 
寻找候选药物分子并非易事。传统的方法是通过药物化学家的参与,从百万到千万潜在化合物层层进行筛选,去做实验验证对抑制病毒活性有效的化合物。而通过AI生成模型、强化学习和迁移学习,可以根据对应靶点去设计出更加多样化的分子结构,这样扩大了找到相应分子的可能性,将搜索的最大范围从现有的10^23个化合物分子的搜索空间扩大到10^60。
 
这样就可以从百万、千万个潜在有效的类药分子中,利用AI算法,对其生物活性、溶解性、毒性、稳定性、合成难度,以及与人体内吸收、分布、代谢、排泄关联的关键性质进行快速、准确的层层筛选与综合打分评估。
 
综合表现最理想的一百多个分子,通过高精度的量子物理计算进一步精准预测其关键性质,随后结合药物化学家的专家挑选,就可以确定几十个最有希望能够成功研发的药物侯选分子,进入针对性实验验证。
晶泰科技AI定向生成的分子库。其中蓝色为训练集分子,红色是AI随机生成的分子,黄色为经过强化学习后生成的性质更加理想的类药分子。
 
1月20日,晶泰科技成立了一个新冠肺炎攻关小组,并基于随后发布的病毒基因序列进行同源建模,对获得的关键蛋白质模型进行了分享。他们还通过计算的方式验证了新冠病毒相比SARS病毒具有更强的人际传播能力,并且做了病毒可能出现的变异的扫描,以帮助后续的疫苗、抗体等药物的研发。
 
很快,基于几个关键的靶点,他们在美国药监局上市的3000种药物以及10000多种中药成分分子中筛选出183种潜在的活性药物分子,后来经过更高精度的量子物理、计算化学方法,进一步将范围缩小到38种活性比较理想的药物分子,推进到细胞实验阶段,以验证其对新冠病毒的抑制作用。
 
氯喹已在细胞实验和临床治疗中展现出新冠病毒有比较好的抑制效果,晶泰科技也与广东的众生药业公司合作,研究氯喹抑制新冠病毒的分子作用机理,并进行实验验证。
 
值得一提的是,他们还在人工智能药物研发平台上面搭载了生物药研发相关算法,目前正通过研究病毒表面的一些蛋白,帮助新冠抗体和亚单位疫苗做基础研究。
 
切入晶型预测,确定医药行业的“钉子”
 
晶泰科技不是一家以AI技术在医药研发行业起家的AI创业公司。
 
6年前开始创业,三位创始人考虑的是先找到医药行业的“钉子”,而不是拿着AI的锤子去找钉子。“先确定问题,再寻找解决问题的最佳路径。”赖力鹏称。
 
这与晶泰科技三位创始人的技术背景不无关系。生物化学领域等待更快速、精确的研究方法应用于工业界,而他们多年从事量子物理、量子化学领域的科学研究,专注于如何更精确地理解、计算原子、分子间的作用关系,这些科学算法正是新材料、生物化学等领域科研方法创新的源头。最终,他们确定以药物开发环节的晶型预测问题为切入点。
 
什么是晶型?从化学结构上看,虽然石墨和金刚天差地别,但本质上是碳原子由不同的空间排列而产生的“晶型”。同样的,一个药物分子的各个原子在空间结构上由于旋转角度、排列方式的细微差异,可能产生上千万种晶型,而真正稳定的晶型也会有几种甚至几十种之多,它们的药物性质也不尽相同。传统研究方法依赖实验试错,一旦有遗漏就会给药企带来潜在的专利诉讼、临床失败,甚至药品召回的风险,蒙受巨大的经济损失。
 
晶型预测技术则可以用准确的预测结果指导实验,从而加速研发、提高成功率。

其一大难点在于,需要预测分子在结晶形成固体结构的所有可能性。赖力鹏解释,要解决这个问题,要尽可能准确地计算原子间的相互作用,再从上千万种可能性中锁定最适合药物开发的晶型。
 
精确度、速度与成本如何实现最优化是另一大难题。计算中会产生百亿级甚至千亿级的高精度结构数据,而药企研发争分夺秒,对计算精度和计算速度都有很高的需求,并且需要在成本可控的范围内尽可能快地完成计算,否则就无法在药物研发中的实现广泛应用。
 
而以计算预测的方法改进,加速晶型研发,就可以提高药物安全性,帮助有效的新药分子成功开发为药物产品,更早到达患者身边。
 
确定了晶型这一痛点问题后,2014年晶泰科技正式成立。彼时,他们手中的“锤子”以量子物理和量子化学技术为主,深度学习还没有像在2016年那样被业内所熟知。
 
不久,如何思考在这一领域持续创新,将现有的技术积累与AI、机器学习、搜索技术和其他底层的计算方法结合,进一步突破精确度、效率与成本的边界,并拓展新的工业应用,成为他们的研究重点。
 
拥有业界领先的晶型研究算法的同时,晶泰科技将研发方向聚焦在药物发现和药物开发阶段,前者指从药物的靶点出发,找到可能与靶点产生作用的分子,后者主要在药物固相和后续制剂方面进行研究。
 
AI打辅助,量子物理计算是杀手锏

基于量子物理和量子化学的计算技术与AI相结合是晶泰科技最核心的杀手锏。
 
赖力鹏介绍,计算辅助药物研发的科学根源是分子和分子之间的相互作用,不管是药物结晶,还是药物制剂过程,药物和辅料的选配,它们在量子力学层面上其实都可以理解为处理不同原子间的相互作用。
 
所以在他看来,当计算物质之间的相互作用时,基于量子力学的计算方法是最准确的。但问题是,在真实的项目中用量子力学去计算的时候,一个体系中可能存在大量原子,现在的算力无法支撑这样庞大的计算量。
 
工业界的处理方法是,在量子力学的方程中引入一些基于经验的估计参数,去简化计算的过程,核心是基于专业领域的知识和经验,去选择正确的参数来对量子力学计算的方程进行简化。
 
幸运的是,以深度学习为核心的AI方法可以对参数做出更好的估计,以进行药物设计和筛选。
 
晶泰科技ID4平台的AI药物发现流程
 
在药物筛选阶段,由于分子是不同的原子通过化学键建立连接,从算法的角度来说,可以看成一个有节点和边的图结构,而在分子表示方法上,由于分子的结构无法直接输入一个神经网络进行训练和学习,所以需要投射到一个矢量化空间,如何做适量化很大程度上会影响到模型表现。
 
赖力鹏进一步介绍,当处理蛋白和小分子相互作用的时候,如何选择正确的表示方式(embedding)很重要,涉及的建模方法也是多样的,包括NLP里的sequential模型以及图卷积模型,他们会把不同的网络架构进行整合,以适应需要解决的问题。
 
在他看来,AI与量子计算相辅相成。目前,在生物和化学领域的应用,只使用AI技术本身的精度并不足够,而单纯用量子物理计算的方法效率也不够,这就需要把两个方法结合到一起,让AI可以在一个非常大的样本范围内去做快速筛选,同时提高量子力学计算技术的精度。
 
复杂计算离不开算力支撑。他们能够通过工程能力去调度大量的计算资源,可以同时调度不同的云计算平台,在很短时间内部署百万核级的CPU计算资源。
 
上述三大底层技术结合构成了晶泰科技最基础的计算,快和准是基本技术能力体现。尤其在晶型计算上,赖力鹏表示,他们在全球范围内可能没有竞争对手。
 
为计算能力提供基础保障的还有数据。晶泰科技会尽可能去整合来自不同数据库的公开数据,包括具体项目中合作方的实验数据,目前已积累千亿规模的数据。同时,他们也会调用大量的计算资源去做高精度的计算,积累上百万到上千万的高精度计算数据来训练AI模型,从而提高模型预测精度。不过,由于他们使用的量子物理化学等算法可以更好的描述问题,所以对数据的依赖性相对更低。
 
赖力鹏再一次强调应该从底层问题出发,考虑利用不同方法的优势进行组合,以解决问题。

 
解决问题是根本,现在已不是概念的风口
 
近几年算力、数据和各种机器学习框架和算法的出现,带动了AI在不同行业的场景落地和发展,药企开始重视新技术在医药行业中应用的可能性。
 
面向未来,晶泰科技会在技术层面加深方法上的研究,在量子计算、AI方法以及云计算资源三方面技术优点做更紧密的衔接。另外,他们也计划将分子设计技术拓展到高能材料等新领域进行探索。
 
赖力鹏说,AI的技术一定要和已有的基础计算技术相结合:通过AI的学习能力和创造能力,为药物发现提供更多可考虑的化合物分子,其次,在药物筛选的早期使用多种计算方法做综合评估,优先各方面性质更理想、研发风险低的分子,就可以降低那些后期的失败风险和时间成本,而仅凭实验无法做到这一点。
 
业务层面,不同于很多企业扎根在一、两个领域去做一些项目,他们希望做成一个赋能药物研发的综合平台,注重解决一些底层共性问题,对具体医药项目的类型没有限制。
 
晶泰的平台架构已初步成型,他们计划进一步扩大包括与大型跨国药企和创新型生物科技公司在内的合作。目前,晶泰科技已与包括辉瑞在内的40多家药企合作,尤其在晶型研究环节改变药企的新药研发流程。而他们的人工智能医药研发平台与创新药企合作所发现的药物分子,已经进入临床前研究阶段。
 
从行业角度,他认为在AI的浪潮之下,初创公司和药企会更重视数据的结构化和数据收集,所以未来在企业内部和公开领域,数据的数量和质量都会有很大提升,这将为AI的进一步落地和应用提供更好的机会。
 
但无论技术如何推陈出新,赖力鹏认为行业归根结底都应该从问题出发,“要看重技术是不是真实解决了药企在研发中的需求,评判标准就是付费合作,现在其实已经不是处在概念的风口,大家现在更应该积极的把技术转化成能够真实解决研发需求的解决方案。”

相关文章:
前百度主任架构师创业,两年融资千万美元,他说 AI 新药研发将迎来黄金十年

【End】

更多精彩推荐
国产数据库 OceanBase 二次刷榜 TPC-C,7 亿 tpmC
平安科技王健宗:所有 AI 前沿技术,都可以在联邦学习中大展身手
踢翻这碗狗粮:程序员花 7 个月敲出 eBay,只因女票喜欢糖果盒
我佛了!用KNN实现验证码识别,又 Get 到一招
如何使用 SQL Server FILESTREAM 存储非结构化数据?这篇文章告诉你
加密价格更新周期:看似杂乱无章,实际内藏玄机
你点的每个“在看”,我都认真当成了喜欢


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存