探寻创新药物发现中计算模型的自动化、智能化发展
自人工智能第三次浪潮兴起后,关于其应用落地的领域一直在被探索,近两年AI在科学界的优秀表现展现出AI for Science的巨大潜力。
谷歌旗下DeepMind推出的人工智能驱动的蛋白质折叠模型,解决了生物学领域50年来的重大难题。AlphaFold实现了蛋白质结构准确预测的革命性突破,入选《科学》杂志2021年度突破。
AlphaFold2在今年完成了几乎所有已知蛋白质结构的预测,这一“横空出世”的壮举实则是建立在已发展多年的AI、大数据等信息技术的基础上。那么,算法、算力、数据等要素是如何推动基础科学领域进行新一轮创新范式变革?
由Science与英特尔联袂推出的“架构师成长计划”第二季系列课程,为您带来第八期——《AI驱动的生命科学创新范式之变》。本期课程邀请了晶泰科技首席研发科学家杨明俊、英特尔人工智能架构师杨威、量子位总编辑李根,共同探讨生物医药领域中计算模型的发展与应用,为相关领域的架构师们答疑解惑。
迈向自动化、智能化,探寻创新药物发现中的计算模型发展
药物研发是一个高度挑战和创新的工作,对于大众健康和社会发展意义重大。来自晶泰科技的本期讲师杨明俊根据自身经验分享药物研发与信息技术面临的挑战、解决方案及未来融合趋势,课程共分为三部分:
1
药物研发面临的挑战以及人工智能的介入
目前来看,药物研发面临着几个明显的挑战:研发周期长、成功率低、研发成本高。虽然有许多药物成功上市,但是仍然有60%的疾病没有有效的药物可使用。如何采用更加高效的技术去辅助药物研发和创新,用更短的周期把更好的药物应用于疾病治疗,是药物研发机构迫切想要实现的突破。
随着高性能算力的普及以及人工智能模型的迅速发展,AI已成为助力药物研发模式升级的一个关键的因素,在小分子药物研发、抗体药物研发、蛋白药物、mRNA的设计上,应用了大量的AI算法和模型。
杨明俊以晶泰科技内部使用的一个典型流程为例:在药物分子发现阶段,通过设计、合成、测试、分析循环迭代的模式逐步去优化分子,使候选分子达到活性、选择性、安全性等多目标优化的要求。
在这一过程中,可以通过一个初始的AI模型,根据专家的策略来设计分子生成的要求,产生大量AI设计的分子,然后用AI模型对这些分子去做一个快速的过滤。在经过高通量的筛选和经过高精度的物理模型的评估之后,会推荐大概10个左右分子进入实验合成和测试。这就是第一轮的循环迭代。接下来晶泰科技会持续利用之前积累的数据,逐步去提升AI模型的表现,达到能够降低迭代的次数,减少合成和测试成本的目标。
2
计算模型与研发工具如何实现自动化、智能化升级?
在制药领域,实现计算模型与研发工具的自动化和智能化升级首先需要了解目前存在的技术瓶颈。
随着算力与算法趋向成熟,AI药物研发的核心瓶颈之一是数据;鉴于环境的复杂度,药物研发很大程度上还是一个试错的过程,那么如何提升试错的通量和速度、加快药物研发的效率,则是另一大瓶颈。
杨明俊介绍道,“我们正在发展智能化和自动化结合的药物研发新模式,即结合智能计算、专家经验以及自动化实验等三位一体,实现互补优势。”
随着计算业务的发展,晶泰科技对资源需求的标准也越来越高。出于精益生产和降本增效目的,采取对云上主要的计算机型进行适配,使得计算任务跑在不同的机型上时,都有一个和当前的机型最匹配的版本,能够发挥出最优异的性能。下图展示了在不同机型上使用同一测试集来测试耗时表现,第三代至强® 可扩展处理器展现出比较明显的性能优势。
3
药物研发与信息技术未来融合趋势
药物研发面对的核心瓶颈之一是数据,那么如何在保护不同企业的知识产权的情况下,做好数据的分享,是其中的一个解决思路。比如,可以结合沙箱计算、数据加密和联邦学习等技术,进而来构建隐私安全的计算平台。
第二个思路是如何更充分地利用现有获取的、不同来源的各种数据。这种数据涉及层次非常多样,包括在疾病层次、生物机理层次、细胞还有靶点层次、以及在不同的候选分子层次,通过情报系统和知识图谱自动采集、清洗相关的数据和文献,辅助药物研发科学家发现一些新的标志物以及不同的相互作用通路和网络。
英特尔分享:CPU也能速刷AlphaFold2,实现端到端优化
如何将AlphaFold2这类创新技术应用门槛降低也是我们需要探讨的问题。英特尔AI架构师杨威分享了至强® 可扩展平台进行了AlphaFold2端到端优化的课程。
事实上,AlphaFold2刚问世时,也存在缺陷:一方面由于算法和硬件架构本身的特点,强依赖于GPU的并行计算,但是GPU这类硬件它存在严重的显存限制,使得即便是单个显卡最大内存的情况下,它能够输入去预测的蛋白质序列长度也不足1000氨基酸。
那为何不诉诸于CPU呢?CPU自身能提供TB级的内存支持,但原始的AlphaFold2在CPU上的并行效率是非常低的,这使得每天的通量会非常小,反而不利于科研人员进行深入的长序列预测。
为什么需要TB级内存来支持蛋白质结构预测?英特尔针对不同氨基酸序列长度下蛋白质结构预测所需占用的内存开展了实验,短到206个氨基酸,长到2797个氨基酸,最终都能达到下图中蛋白质结构预测的效果,对应的内存占比从20 GB至510 GB不等。整体来看,在英特尔架构的硬件上,经过优化后的AlphaFold2能够在可接受的时间范围内,实现更大范围的蛋白结构探索。
接下来,讲师杨威深入讲解了英特尔基于CPU平台对AlphaFold2通量优化的实践。
在原始精度为FP32、AlphaFold2在序列长度为765氨基酸情况下,相比于原始AlphaFold2的实现,优化后的通量从4.6个序列/天达到了105.4个序列/天,即提升到原来的23.11倍,其中5.05倍是靠模型本身的优化所带来,4.56倍则是来自傲腾TM 持久内存提供的TB级内存支持。这样的量级已经显著地提高了AlphaFold2的整体计算通量。
其整体流程,就是先在预处理阶段对模型进行高通量优化,然后将模型迁移到PyTorch框架下,接着再在PyTorch版本上进行细节上的推理优化,最后给予TB级内存支持以解决AlphaFold2的内存瓶颈,由此达到不输专用加速芯片的效果。
嘉宾对话:蛋白质结构预测,开启AI for Science的序章
交流碰撞火花,沟通启迪灵感。本期嘉宾会话环节中,三位嘉宾围绕“AI for Science——人工智能如何推进生命科学和医药创新的范式革命”展开讨论。
李根:我们对于科学的客观规律的探索方式,超越了亚里士多德时代的演绎、牛顿时代的推理,进入到一个统称为数智化的变革范式。我觉得它对于整个基础科研的领域会有不断的新发现,可能不止于医药和生命科学,还会有更多、更广的领域里面。我们可能真的会进入到一个全新的人类对科学规律探索的大爆发时代。
杨明俊:AI药物研发进一步的发展和应用,我们理解归根结底还是离不开高质量的训练数据。除了刚才提到的,我们可以通过高精度的物理模型获取一部分的虚拟数据作为训练之外,我们更多的还是要依靠实验数据的获取。
杨威:未来的AI加速硬件趋势可能是CPU和GPU的混合模式,甚至于有些人就称其为是XPU架构,这也是我们追求的一个技术方向。AlphaFold2在长序列预测上的应用就是一种XPU的架构案例,不难想象未来这样的案例会越来越多。
除此之外,目前AI在药物研发的各个关键环节进行了怎样的应用?在药物研发领域还有哪些值得关注的信息科技技术?
欲了解更多精彩内容和技术细节,请观看“架构师成长计划”第二季第八期的完整课程。
大咖寄语——致年轻的架构师们
杨明俊:作为新兴的交叉学科,AI药物研发机遇与挑战并存,期待更多跨学科的人才参与其中,为提升药物研发的智能化和数字化一起努力。
杨威:跳出原有的算法的条条框框,更有前瞻性地去看待AI+制药领域的新机遇和新挑战。
李根:在这个了不起的时代,我们可以有更多的勇气,更多的创新精神去真正地改变世界。
“架构师成长计划”第二季
“架构师成长计划”是国际学术期刊《科学》(Science/AAAS) 与英特尔联合推出的公益学习计划,旨在为面向数据科学家、架构师和IT开发者们提供学习资源与公益培训,使架构师群体进行系统性地学习、拓展与创新,获得深入性与持续性的学习成长。
在“架构师成长计划”第一季的课程中,我们邀请到了产业资深技术企业专家代表讲授,吸引了超过1500位架构师踊跃参与,得到了相关企业、讲师以及听众的高度认可和积极反馈。
为持续助力架构师把握数智机遇,构建未来,第二季“架构师成长计划”全新升级,强势归来!业内顶尖架构师大咖齐聚,为架构师群体量身打造系统成长课程,带来涵盖云游戏、云原生、联邦学习、生信大数据、网络智能化、AI for Science、算力网络、云网融合等多个热门话题的前沿技术及案例实践。每一主题系列将邀请一位英特尔专家和两位行业资深专家,从各自的实践经验出发,持续为架构师们输出最前沿的技术。
除了干货满满,第二季还设置了“互动有礼”活动:
▪ 所有观看课程视频的用户,均可获得英特尔&Science联合颁发的结业证书
▪ 报名并登录观看十期课程视频,随机抽取10名用户,获得“架构师Buff王”大礼包(活动时间:2022年6月28日至2022年10月31日)
点击“阅读原文”观看完整课程
英特尔、英特尔标识、以及其他英特尔商标是英特尔公司或其子公司在美国和/或其他国家的商标。
* 文中涉及的其它名称及商标属于各自所有者资产
“架构师成长计划”系列文章
“筑算力、话东西”- 构建新型网络基础设施,打造数字经济新底座
超算优化重在存储,DAOS 助力瑞金打造先进的生信大数据平台
架构师公开课干货回顾:超视频时代的音视频架构建设|内含获奖名单
“芯”有灵犀,你也“在看”!