蛋白质是生物体内一切功能的执行者,人类身体内的任何功能,从催化化学反应到抵御外来侵略都是蛋白质作用的结果,在氨基酸根据基因表达的信息形成一条多肽链之后,必须折叠形成正确的三维空间结构才可能具有正常的生物学功能。如果在折叠过程中出现故障,形成错误的空间结构,不但将丧失其生物学功能,还会引起各种疾病。对蛋白质三维结构开展有效解析与预测,就能对有机体的构成,以及运行和变化的规律实施更深层次的诠释和探究,进而可为生物学、医学、药学乃至农业、畜牧业等行业和领域的未来研究与发展提供高质量的生物学假设。为了解蛋白质的结构,传统的实验方法是使用X光、冷冻电镜等方法对蛋白进行拍照,每一个样品可能需要几个月,甚至于几年的时间,才能够高精度地完成拍照。在国际深具影响力的SwissProt数据库上,累计的蛋白序列的信息已经达到了56万之多,传统的实验方法很难去满足几十万量级甚至于未来几百万量级的蛋白序列结构解析的需求。 在这个时候,AI开始发挥神奇的作用。2020年,在第14届国际蛋白质结构预测竞赛(CASP)上,DeepMind研发的AlphaFold2成功根据基因序列预测了生命基本分子——蛋白质的三维结构,取得了中位分数为92.4(满分100分)的好成绩,比第二名高25分,打败了所有竞争对手。一般来说,AI方法的预测精度超过90分,可认为预测结果与实验方法得到的蛋白质结构基本一致。这一突破,标志着AI辅助药物开发的基础理论研究和实践进入新的阶段。AlphaFold2,凭借自身在蛋白质结构预测上的高可信度,以及远优于传统实验方法的效率和成本表现,树起了一座“AI for Science”的全新里程碑。它不仅在生命科学领域掀起了颠覆式的革新,也成为了AI在生物学、医学和药学等领域落地的核心发力点。这从中国科学院院士施一公评价AlphaFold2“这是人工智能对科学领域最大的一次贡献,也是人类在21世纪取得的最重要的科学突破之一”中可见一斑。在英特尔和国际学术期刊《Science》联合推出的《架构师成长计划》课程中,来自中国智能化、自动化药物研发科技领域明星企业晶泰科技的首席研发科学家杨明俊博士这样谈到:“以AlphaFold2为代表的研究成果,被认为是开拓了科学研究的第四范式,就是基于大量的数据,然后采用以深度神经网络为代表的模型,给出对问题的一个解答。”他说,“蛋白质结构预测曾经被认为是不可能完成的一件事情,如今被AI算法实现,这标志着AI在生物医药领域的融合迈入了一个全新的阶段,成为大势所趋。”
03
AI找药,需要什么样的“加速器”
随着越来越多的科研机构、实验室和企业开始借助AlphaFold2进行蛋白质结构预测,各行业和领域内的使用者也开始遇到越来越多、也渐趋严峻的挑战。例如结构预测各环节面临着庞大的计算量,使用者需要更加充分地挖掘硬件的计算潜力来提升执行效率;为缩短结构预测时间,他们还需要利用更多计算节点来构建效率更高的并行计算方案等。英特尔人工智能架构师杨威博士说,AlphaFold2可以高效率地去进行一个蛋白结构的解析,但是其原始实现其实存在两方面的优化空间。一方面由于算法和硬件架构本身的特点,它强依赖于一些AI专用加速芯片的支持,但是这类硬件存在严重的内存或显存限制,使得它在单芯片或单卡情况下能够预测的蛋白质序列长度较短(比如2000氨基酸长度的蛋白,其内存峰值将超过200GB)。另一方面,使用原始实现在CPU上进行推理速度较慢,很难在可以接受的时间范围内完成高通量和长序列的预测需求。正因为有这些限制,英特尔正在与众多产、学、研领域的合作伙伴及客户一起研究用内存容量优势更为明显的CPU平台来加速AlphaFold2,但即便如此,在AlphaFold2的嵌入层中也容易遇到两个问题:一方面是巨大的内存峰值压力,其需求量会使内存资源在短时间耗尽,尤其是内存峰值在相互叠加之后,进而可能造成推理任务的失败;另一方面,大张量运算所需的海量内存也会带来不可忽略的内存分配过程,从而增加执行耗时。 通过对算法架构的解析可知,AlphaFold2中大量的矩阵运算过程都需要大容量内存予以支撑。其最大输入序列长度越长,计算中所需的内存也就越大。而在并行计算能力得到有效优化后,更多计算实例的加入也会进一步突显内存瓶颈问题。如果用“星际探索”来比喻的话,对3GEH蛋白的结构预测就相当于探索地球;对某新型传染病相关的刺突蛋白进行结构预测就相当于将探索扩大到了整个太阳系,对诺贝尔生理学或医学奖发现的PIEZO1/2蛋白的结构预测则是进一步将探索扩展到了银河系,对低密度脂蛋白受体相关蛋白2(LRP2)的结构预测,就相当于探索宇宙了。在实践中,进行3GEH蛋白(长度为765aa)的结构预测,内存大小满足96GB就足以。而对Spike蛋白和PIEZO2蛋白进行预测时,由于序列长度分别达到了1200aa和2700aa,就需要部署大于512GB的内存。而当人们对LRP2蛋白进行预测时,其4700aa的序列长度要求的内存就远大于1.3TB。如果64个实例并行执行,内存容量的需求更是会冲到一个令人惊叹的量级,如果内存系统无法满足这个需求,就会形成阻碍应用效能发挥的“内存墙”。一直活跃在“AI for Science”创新前沿的英特尔结合自身优势,以内置AI加速能力的产品技术,特别是至强® 可扩展平台和傲腾™ 持久内存的组合,在CPU平台上更便捷地提供了TB级的内存支持,打破了“内存墙“,对AlphaFold2实施了端到端的高通量优化,在实践中实现了比专用AI加速芯片更为出色的表现,累计通量提升可达优化前的23.11倍。在这个全新的加速方案中,第三代英特尔® 至强® 可扩展处理器也凭借出色的微架构设计,尤其是多核心、多线程和大容量高速缓存,为AlphaFold2提供了充足的总体算力,以满足整个结构预测过程所需;另一方面,这款处理器内置的英特尔® AVX-512技术,也能在英特尔® oneAPI 相关软件优化工具的激活下,输出额外的并行计算加速支持,为方案提供更进一步的性能调优空间。这个加速方案的实验结果显示,对于一个含有765氨基酸的蛋白质测试样例,在64个物理核同时并发的情况下,最高的内存消耗达到3.2TB,其测试通量可从未经任何优化的4.56序列/天,达到优化后的105.35序列/天。而且如果在单节点上配备最高8TB内存的话,就可以支持完成高于1万氨基酸序列长度下蛋白结构的预测。从这个结果展开思考,就会发现:通常情况下,虽然在需要围绕大规模的训练以及算法的迭代更新时,各类专用AI加速芯片会作为固定演员扮演既有角色,但是这也意味着,所有入场者都需要为这种异构平台的建设和充分利用投入更多的财力并加强相关人才储备。但如果是仅仅利用成熟的算法模型来做推理,用以支持科研项目的开展而非算法本身的演进呢?或者是已经拥有了异构平台,但一直难以突破蛋白质预测长序的限制呢?CPU+大内存的方案在这些场景下就有更为明显、甚至是独特的优势了。换言之,这就相当于所有相关行业和领域的从业者们自此有了更多也更为灵活的选择,他们既可以选择较为复杂的异构平台来探究AI算法的巅峰或极限,也可以借助更为普及、也更易于获取和使用的通用平台作为科研实践的加速器。当然,后者这些天然优势,也会降低AI在医药和生命科学领域落地的门槛,让更多从业者能够搭上AI for Science或AI找药的“快车”。
窥一斑而知全豹,尽管药物研发只是生命科学领域中的一环,但是这并不妨碍从中能够看到AI和传统科研结合带来的巨大潜能,从而深刻地理解“AI for Science”为何能成为当前的重要趋势。而更加重要,也更需要重视的是,除AI之外,大数据和HPC也曾经和正在推进着类似的范式革命,驱动着重大的科学探索及发现。而位处算力创新源头,产品涵盖计算、存储和通信等多个维度的英特尔,也正通过构建全面且均衡的计算平台,基于软硬件之间的无缝组合与高效协作,以及多样化的优化方法,在满足各方面需求的同时,通过联合产业链各个环节的合作伙伴,致力于给科学研究送上更多神助攻,促发更多前沿领域的科研新发现。