曾亥年|AI药物发现实践与隐私安全计算
基于机器学习算法的AI模型需要持续地通过数据来迭代、优化以提升其在药物研发中计算性能和预测结果的精度。近些年来,可用于算法训练的数据量在迅速增加,但总体来说,这些数据的质和量仍存在不少挑战,比如特定任务可用的数据过少、负样本数据缺失等,这些因素制约了AI药物发现领域的发展。另一方面,这些数据资源通常分布于不同的制药公司、生物技术公司、科研院校和医疗机构之中,对于他们来说,数据的产生与积累来之不易,代价高昂,如果按照传统的方法来分享数据,数据极有可能被数据使用方分享和留存,造成数据资产泄露和流失。这些涉及数据资产安全和隐私合规保护方面的问题,给AI药物发现公司与数据源方的数据协作带来了重重困难。
那么,近年来受到广泛关注的隐私安全计算技术是否可以安全、高效地促进数据的协作,赋能AI药物发现呢?
曾总好!请先介绍下燧坤智能是一家什么样的公司?
曾亥年:燧坤智能是一家致力于运用人工智能和机器学习方法系统性赋能创新生物医药研发的新一代平台型技术公司。我们一直与生物医药行业内的同行们保持密切合作,以终为始不断开发优化AI模型,完善一体化AI+生物医药研发平台流程,解决生物医药行业面临的候选药物发现阶段成本高、成功率低、周期长及临床开发风险高等问题,研发具有全球竞争力的高价值候选药物。公司拥有算法模型等多项自主知识产权,是国家高新技术企业。
是否可以简单介绍下燧坤智能的主要特点?
你们在将AI技术应用于药物发现的过程中,有哪些重要案例,是否可以分享?
曾亥年:好的,这里我们有3个重要的案例,可以给大家介绍下。
第一个案例是针对小分子难成药靶点,我们在3个小时完成百万级别的化合物库虚拟筛选,仅测试100个分子,就获得3个全新结构、全新机制的小分子别构激动剂,提升一万倍的效率。
第二个案例是针对新冠,我们在1周时间内完成老药新用的筛选工作,针对2000万篇文献完成自动化标注以及候选药物的富集,通过CMap完成新冠老药新用的筛选,经过2个月完成实验验证工作,找到活性类似于瑞德西韦(美国紧急授权且应收数十亿美元)的老药。
数据是AI药物发现的核心资源,那么,近年来受到广泛关注的隐私安全计算,是否是数据方对外合作的一个安全有效的方案?
曾亥年:数据是人工智能领域一个非常重要的组成部分,任何数据持有者对于数据的分享(无论是用于模型训练还是模型验证)都是比较谨慎的。我们在跟合作方去沟通交流的时候,合作方对于数据分享经常存在顾虑。
隐私安全计算,是我们对外合作的时候一个比较好的选择。我们有一些合作方是愿意分享数据的,但对于大多数不太愿意分享数据的合作方,我们就可以使用隐私安全计算来打消对方做数据协作的顾虑。
那这个方法它好在哪里呢?隐私安全计算可以同时保护模型和同时保护数据,也就是提供一个双向的保护。
使用隐私安全计算,我们在和数据持有方合作的时候,他们授权给我们使用的数据,我们并不能看到他们的明文数据,也就是数据可用不可见的形式,同时他们也看不到我们具体模型的代码,对双方的资产都提供了很好的保护。而在这个合作过程中,我们作为模型方,依然可以使用数据方的数据针对特定的靶点做虚拟筛选和化合物排序。
是否可以介绍下,你们跟翼方健数在隐私安全计算方面是如何协作的,取得了什么样的成果?
曾亥年:在“2021人工智能药物研发论坛”上,关于跟翼方健数的合作,我们做过一些展示。
合作是这样的。首先,我们测试了翼方健数的隐私安全计算平台,确保这个平台可以运行,可以安全地进行模型运算;然后,我们将数据合作方引入到翼方健数的平台,数据方在这个平台上面,做了一系列的加密计算,拿到了运算结果。在这个过程中,数据方的数据资产和我们的模型代码均得到了充分保护。
目前隐私安全计算在药物研发中的应用,有哪些最新进展?
曾亥年:隐私安全计算技术在药物研发的应用,除了刚才提到的安全沙箱计算以外,联邦学习是另一种常用的技术。联邦学习可以让多个数据协作方在不共享原始数据的前提下,共享数据的价值。在联邦学习中,参与数据协作的各方能够通过模型运算产生模型的参数梯度,每个数据节点会将此梯度回传到中心节点安全地聚合,通过一个最终迭代的过程,最终形成优于单个节点训练的模型结果。这个过程中,每个节点回传的是模型训练的中间结果,而不是原始数据本身。因此,联邦学习可以打通数据孤岛,使得多方数据安全协作、共同训练一个更好的模型成为可能。近期用到该技术的一个著名的案例是欧洲的MELLODDY项目。正是因为使用了联邦学习技术,使得高度竞争的10家知名大型制药公司之间的数据协作成为了可能。
在国内,除了联邦学习的应用外,有平台联盟的模式正在形成中。例如,由中国科学院上海营养与健康研究所等机构牵头成立的长三角生物医学产业大数据联盟,就采用了翼方健数的智数坊平台联盟技术。基于不同隐私计算平台达成数据联盟的方式,将极大地促进生物医学领域的数据协作,为AI药物发现的蓬勃发展提供了良好的数据底座。
AI药物发现领域,未来可能会有哪些突破性的事件,是否可以预计一下?
曾亥年:说到突破性的事件,AI在药物发现中的应用,可能已经有不同的突破了。
比如,阿斯利康目前的整个小分子药物的新药研发中,有一半都已经跟人工智能有关,这个在五年之前是不可能发生的事情。此外,核酸药物的发现过程中,也已经有大量人工智技术的应用。还有,谷歌的子公司DeepMind开发的AlphaFold,基本上已经解决了常见的蛋白质结构的预测问题。
接下来我们相信一定会有更多的类似的突破性事件,比如解决生物分子和生物分子之间的互相作用的动态的关系的算法。我相信这是未来率先需要突破的一个算法模型,有可能会在未来3-5年内实现。
隐私安全计算对于燧坤智能这样的企业来说有哪些重要意义?
曾亥年:我站在一个用户或者说是合作方的角度,来回答一下这个问题。
我们现在跟翼方健数其实是非常深的合作,包括了我们在不断地测试他们的系统平台,去看他们整个平台能够实现的功能或者未来可以实现的功能。我们希望能够跟翼方健数能在整个人工智能加药物研发领域当中,为我们的数据方和模型方提供更有价值的隐私安全计算的平台。
在合作过程中,我们向翼方健数详细介绍了整个业务流程,一起探索了哪些方面可以做优化。只有把这个业务流程跑通,才能实现应用场景下的巨大价值。我们可以跟外部更多的数据方(包括生物医药企业,甚至是医院、多组学数据公司)一起合作,为行业创造巨大的价值。因为模型可以变得更好,模型又能够反过来为大家提供更好的成果,带动更多有价值的数据的产生,整个生态圈的协作就能够蓬勃发展起来了。
对于燧坤智能这样的企业来说,隐私安全计算让我们能够给客户提供更多的选项,这是非常重要的。如果把视野扩大一些,隐私安全计算对于整个AI+创新,甚至是对于整个创新生物医药的大生态系统来说都具有革命性意义。
----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向。
隐私安全计算赋能AI药物发现|翼方健数受邀参加2021人工智能药物研发创新论坛
翼方健数与格物致和达成战略合作,用隐私安全技术实现数据开放
翼方健数|隐私安全计算助力数据共享 驱动AI药物研发
Drug Discov Today|药物研发风险地图
AI药物发现的数据共享模式探索:以十大顶尖药企参加的MELLODDY项目为例
Nature Outlook|借助算法和模拟将蛋白质折叠的瞬时结构转变为药物靶点
AI药物发现公司继续寻求最佳商业模式
人工智能在药物研发中的应用2020年AI + 药物研发全景概述:(二) AI如何应对制药行业的效率挑战
20家顶尖制药公司如何将AI应用于药物研发:近年来主要合作活动