未来需要怎样的大数据与AI? | 药明康德全球论坛实录
▎药明康德/报道
基因组学,大数据,人工智能。这些属于未来的关键词,究竟意味着什么?在前强生创新全球负责人Robert Urban博士的主持下,多位聚焦未来的资深专家们共同探讨了在工具的帮助下,如何结合真实世界证据,打造属于未来的医疗健康行业。
How would the future of R&D and healthcare look like in a world involving real-world evidence and decision making informed by genomics, big data, and artificial intelligence?
主持人:
Robert Urban博士,前强生创新全球负责人
嘉宾:
Blake Byers博士,Google Ventures普通合伙人
Daphne Koller博士,insitro创始人兼首席执行官
Rob Brainin博士,药明明码首席执行官
Ken Mulvany先生,BenevolentAI创始人兼总裁
Deborah Kilpatrick博士,Evidation Health首席执行官
Robert Urban博士:欢迎大家来到“塑造医疗行业的未来”专题讨论。我们将讨论数据和技术如何联动产生重大影响,并探讨药物研发、真实世界数据如何提升临床结果可靠性、经济可及性、便捷性。我们将从数据本身出发,随后讨论数据分析趋势及洞见。现在请在座的各位向大家逐一分享,数据对于您和您所在的公司或组织意味着什么?
▲前强生创新全球负责人Robert Urban博士
Deborah Kilpatrick博士:我所在的Evidation Health是一家新型健康评估公司,专注于量化临床环境外患者行为及其行为驱动的结果。我们使用的数据由个人控制,我们相信患者愿意为使用这些数据付费。对我来说数据可分为三个不同维度。首先是行为数据,包括睡眠数据、活动数据等,患者一周7天、每天24小时的所有动作都可以看作是行为数据。第二个方面是医疗数据,包括电子健康病例数据、医疗保险索赔数据、实验室数据、基因组数据等。最后一个方面是情景数据,用来定义行为发生时的周围场景。举个例子,在研究慢性呼吸系统疾病时,我们使用的情景数据基于地理位置的海拔高度,因为在不同的海拔高度,患者使用的吸入器种类也不同。对于我们来说,想要量化临床环境外的患者行为结果,这三种类型的数据缺一不可。
Daphne Koller博士:在insitro,我们正试图围绕一些核心问题建立预测模型,打造一个新型医药公司。我们知道,这些障碍会降低药物研发的成功可能性。在过去的五年中,当我们拥有足够多的正确数据来训练算法,机器学习在为关键问题建立预测模型方面表现得非常好。但我认为,当人们试图将这些技术应用于药物研发时,会出现一个问题,那就是正确的数据往往并不存在。
因此,人们经常采取的折中方案就是将大量的数据拼凑起来,并希望将机器学习应用到这些数据上。然而,机器学习的优势在于它们擅长获取细微的信息,这包括真实的信号,也包括虚假的信号。所以上述这种方案只是“垃圾进,垃圾出”的扩大化。在insitro,我们致力于将尖端机器学习算法,与高质量、大规模正确训练数据结合起来,从而真正推动以数据数量和质量为基础的机器学习算法。
因此,我们尝试将两种类型的数据结合:一种是人体内数据和临床数据,而另外一种则是来自细胞的数据集。通过对比体内和体外数据,我们可以真正建立一个模型,去预测疗法会对人类造成哪些影响。从某个角度看,这和新药研发如出一辙,因为我们在做的,就是分析小分子、大分子、细胞疗法在人体内,具有哪些我们所期望的性质。将细胞系统和人体系统中的数据结合起来,就可以预测药物何时可能起作用。
▲insitro创始人兼首席执行官Daphne Koller博士
Rob Brainin博士:我同意在药物发现过程中,可能并不一定存在正确的数据集。药明明码致力于运用精准医学大数据改善人类健康。我们在去年收购了爱尔兰基因组医学公司Genomics Medicine Ireland (GMI),并开启了爱尔兰国家级别精准医疗计划。通过这些行动,我们正致力于让爱尔兰40万名病患接受测序,并且和医疗系统中的专家医生合作,获取与特定疾病相关的医学信息。这不仅是DNA信息,还包括来自各个组学的信息。这样我们不仅可获得正确的数据集,还可从分子水平上纵向了解某种特定疾病。如今,越来越多的医药公司已认识到数据的重要性,并渴望从中寻找新的靶点,然而大部分企业在获取正确数据方面具有挑战。这正是我们可以大展身手的天地。
Ken Mulvany先生:在Benevolent AI,我们选择覆盖患者分层和目标识别等需求,原因在于如今正处于一个需要为特定人群研发药物的时代,所以我们需要这些信息来找到合适的研发对象。作为一名曾经接受过临床训练的医生,我可以根据教育知识和实验结果来进行诊断,但是我的知识范围十分有限。在外界,仅从科学文献的角度来说,每天都有大约一万份新论文发表,还有无数未知的医学健康档案,以及基因组、蛋白质、化学数据库,这些都是非常丰富的知识。我们一直都站在巨人的肩膀上。在使用这些外界数据的基础上,我们同时要使用自身的实验数据,或一些来自大型医药企业的高质量数据,来对研发过程进行补充。最重要的是,当你汇总各方面信息时,你必须具有一定的辨别能力,来分辨这些数据是否真实,这对于我们理解生物学和研发药物至关重要。
Blake Byers博士:在Google Ventures,我们投资范围非常广泛,包括医疗设备、诊断、健康技术等初级医疗服务项目,以及insitro等药物研发公司。我认为数据这个概念现在有一点被夸大了。我们从事的是科学相关的行业,而数据一直都是这个行业的核心发展部分。当我们成立公司时,我们更关心的不是他们拥有的数据类型,而是他们拥有的应对相关挑战的团队。我们真正要讨论的应该是目前前所未有的数据规模。而如今的挑战在于如何分析、管理数据,以及如何建立一个数据管理团队。三十年前,我们面临的核心挑战是让生物学家和化学家合作,而如今我们已经看到了许多生物学家和化学家合作创立的新锐公司。但是换到生物学家和数据科学家身上就大不相同了。他们各自从事的领域可以说是南辕北辙,没有任何共同语言。因此,同时拥有出色的生物科学家和数据科学家,且他们之间还能紧密合作,这对一个公司来说,是非常罕见的。当一个公司拥有这样一支团队时,即便还没有产生数据,我也相信他们会做出一些非常特殊的工作。
▲谷歌风投普通合伙人Blake Byers博士
Robert Urban博士:现在让我们探讨数据分析。如今我们已经实现了将数据聚合到云端或者其他计算平台,同时,我们也在基于图像的数据分析上取得了很多成果。你们认为分析方面有哪些最新趋势,能够让技术更上一个台阶?
Daphne Koller博士:我认为在过去五年,分析方面有了巨大的飞跃,其中的一部分原因是用于训练模型的数据,可用性正在逐渐提高。但是,如果我们把相同的数据应用于五年前的标准方法,我们也不会得到和现在一样的结果,因为简单线性回归,支持向量网络、随机森林算法等传统的分析方法,在数据量增加之后的表现实际上不尽如人意。现在,我们开始应用了一些新方法,比如深度学习。使用的数据越多,其表现反而越来越好。
如果你在5年前问我,计算机何时在图像分析等方面能超过人类水准,我的答案可能会是20年。然而,如今计算机在图像分析方面已远远超过了人类水平,它甚至可以用自然语言段落描绘一个女孩正在用沙子建一座城堡,或者是三只狗正在玩飞盘游戏。在医学成像领域也是如此,就在几个星期前,有一篇论文阐述了计算机能够复制和查看肿瘤样本图像,并且可以告诉我们该图像具体展示了哪种癌症,由何种突变导致,这已经远远超出了人类病理学家力所能及的范围,而这些成就都要归功于算法在最近几年呈现出的巨大飞跃。
Robert Urban博士:在当今世界中,有许多促进业绩运营能力飞跃的因素。你是否觉得机器算法和其他因素一样重要?
Ken Mulvany先生:当然。举个例子,一个经验丰富的化学家能在药物研发中同时对四到五个参数进行优化。每个参数都带有不同的特性,有的与吸收性相关,有的与选择性相关。但是,这个优化额度对于人类来讲是有限的,如果对其中一个进行调整,就有可能失去另一个参数原有的特性。然而对于机器算法就不同了,机器算法可以同时对5到10个参数进行优化,同时可以将筛选候选药物的周期从3-4年降至1年左右。
▲BenevolentAI创始人兼总裁Ken Mulvany先生
Robert Urban博士:在基因组学方面也有类似的进步吗?
Rob Brainin博士:是的。举例来说,我们过去进行多组学分析需要从不同层面进行观察比较,并且在每个层面的后端查看是否有重叠之处。然而,如今我们拥有一支由数据科学和微生物学专家组成的团队,而正是这两个专业领域的交融为我们带来了分析方式上的突破。我们可以深入开发算法,将所有因素与算法集成到一起,这样一来,就不用在后端完成所有的操作了。所以,算法在分析方面取得的飞跃是毋庸置疑的。
Robert Urban博士:分析方法的改变对实际成果的贡献有多大?
Deborah Kilpatrick博士:我认为这种贡献在于,先进算法可以让我们同时操作或处理数百万人口的数据,这在以前是根本不可能实现的。另外,应用机器学习可以生成一些新型数据库,在某些情况下可将某些人群里不是很直观的行为模式和行为表型,与治疗的预后效果进行关联,但我们不知道关联背后的原因。所以我认为这带来了数据规模、时间和数据保真度方面的机遇。这在当今应用数字疗法的世界中是相当具有革命性的,这些数据信号将展现治疗中的不同节点。在患者知情同意的前提下,我们可以远程观察患者对治疗作出的反应。
▲Evidation Health首席执行官Deborah Kilpatrick博士
Robert Urban博士:我们在这里谈论的都是相当有价值的命题,它们让事情变得更快、更便宜、更有效。现在我想回到药物研发问题上来,我们目前遇到的问题可以通过一些新产生的洞见来解决。Daphne,你认为药物研发中有哪些关键的可能性?
Daphne Koller博士:机器学习技术为药物研发创造了巨大的机会。药物发现的一个关键是构建一个在人体中具有效应的化学实体,能够让人们从病理状态恢复健康,或是预防疾病。而这实际上是一个预测方面的问题,即预测将某种药物或干预措施引入人体后的影响。这涉及到对干预措施进行预测的能力,同时也需要有设计的成分在里面。例如,你如何设计一种细胞疗法,使其以某种特定的方式表现,并能够应用到人体内。我认为我们需要拥有快速迭代和预测能力,然后设计一个能在多方面得到优化的化学实体。它能达成某种表型特征,却不产生毒性。通过快速迭代,并避免那些在后期出现的失败结果,将为加速药物研发过程带来重大利好。
Blake Byers博士:接下来数十年间,机器学习可能还较难以大范围应用于新药研发。目前机器学习的一大挑战,在于建立一个能预测人类疾病具体分子机制的模型。我们如果在一个不可靠的系统中训练模型,这个模型是没有任何用处的。解决这个问题的一个办法是研究人类自身的数据,从中发现许多新的通路和功能。目前很多公司都在进行这个工作,比如23andMe。全世界有70多亿个基因组信息,如果能找到其中有趣的gain-of-function和loss-of-function变异,并整合这些通路信息,就有望模拟人体内同样的化学反应,就有机会发现很多新的知识去助力新药研发。
但很遗憾,只有1%-2%的临床数据得到了有效利用。我们可以在现有的电子病历系统基础上,去提取这些信息,并且利用这些信息提升现有药物和产品的质量。这个过程可以在临床试验阶段完成,也可以在临床试验结束后继续进行。医药行业发展很快,10年后的CAR-T疗法和今天的CAR-T疗法肯定不一样。只有不断加速迭代,医药公司才能保持其竞争力。只有能够存在于未来的公司,才能从当下走向未来。
Robert Urban博士:您刚刚提到了机器学习有时会被滥用,这让我想到了区块链技术。那么您觉得区块链技术在医疗健康领域的发展前景如何呢?
Blake Byers博士:区块链在医疗领域中的应用还不是很多。区块链技术提供了一个可靠的储存和传输的工具,它的特点是可信任。但在医疗健康领域,我们已经有很多可信任的实体,比如我们前往就医的医疗机构。在这些实体里,区块链储存数据的效率并不高。所以区块链在医疗健康领域的用处可能不大。
Rob Brainin博士:我同意Byers博士的说法,把医疗健康数据储存在区块链的意义可能不会很大。我认为医疗行业未来很大程度在于多样数据来源的整合,比如可穿戴设备、各式传感器。这些数据可以来自个人,也可能直接来自于他们的基因组。但是这又带来了一个新的问题:数据来源的个体是否同意这些公司机构去使用他们的健康数据进行研究?数据来源多样化的背景下,人们可能更希望清楚自己的健康数据流向了哪里。但我确实同意,未来的健康数据来源会更加多样化,并且会有一个更好的整合,无论它们是储存在现有的系统中,还是区块链之类的新型技术平台上。
▲药明明码首席执行官Rob Brainin博士
Daphne Koller博士:我非常赞同Byers博士刚刚的说法,区块链未必是解决现在最紧迫问题的有效方案。我们现在的医疗数据储存比较混乱,比如说电子病历系统。所以现在有公司在统一病历记录上花费巨大精力:他们要求使用者在电子系统中输入患者的关键信息,而不是识读扫描版纸质病历后录入关键信息的陈旧方式。在医疗领域有很多基础的问题尚需解决,而区块链技术的方向和这些问题相去甚远。
Rob Brainin博士:没错,在短时间内,区块链不太可能解决医疗领域的关键问题。但是在未来健康数据高度整合之后,我们也许会需要一个安全储存和传输健康数据的解决方案。比如说,可穿戴设备用户在上传数据之前需要签署同意书,而这时候区块链或许能成为传递知情书的一种工具。
Robert Urban博士:让我们把时间交给Deborah Kilpatrick博士,您是我们之中对个人数据处理最有发言权的人,我想听听您的看法。
Deborah Kilpatrick博士:是的,Evidation的数据处理平台可以处理我们合作伙伴的多种数据,并且调整数据处理的强度。这里面包含两部分,一部分是原始数据,另一部分则是和行为表现紧密相关的推断数据。推断数据从原始数据中提炼而来,在绝大多数情况下要比原始数据更有价值。在Evidation,我们一直都在思考这些资讯会在基因组时代如何演变,以及如何更好地管理这些数据。
其中一个重要的节点就是GINA(Genetic Information Nondiscrimination Act,遗传信息非歧视法)。我们必须考虑GINA在多种场景下的深远影响,比如说涉及到患者行为表现时的影响。此外,在这个数字时代,日常生活中收集到的数据和基因组数据一样,对新产品的研发也十分重要。与此同时,这些数据都来自于个人,是非常隐私的信息。我们不仅仅要在使用数据时对患者进行告知、获得同意,还需要通过严肃的政策来保护患者,防止他们因基因和相关表现而遭到歧视。随着商业生态的人口变化和数据样本增大,我们必须在政策制定上达成共识,规范在美国、全世界范围下能做什么。
Robert Urban博士:现在让我们再次回到对未来的预测的话题上,有什么样的发展是在座各位想要实现或希望在未来能看到的呢?
Ken Mulvany先生:在新药研发中,我们长期面临着一个挑战:大约有30%-50%的处方药在患者身上效果并不显著。不是说药物不够安全,只是其作用机理并没有太大效果。这是医药行业面临的巨大挑战。我也相信今天在论坛的各位嘉宾都会为解决这个问题做出自己的贡献,让后来人站在巨人的肩膀上进行研究。同时,我也认为现在是一个信息爆炸的时代。目前,医药行业里有着太多信息,但我们无法完全吸收所有的信息。这个专题讨论环节的嘉宾鼓舞了我,大家都在努力地解决这个问题。
在研发岗位工作多年的人应该知道,这个领域的高产科学家每年会阅读至少400篇论文。即便如此,这个科学家也只是专攻某一领域,他们可能对于其他领域知之甚少。我们需要明白自己知道什么,并找到其中缺失的环节。这需要我们离开自己的舒适区,承认自己还有哪些不足,才能吸收更多的新知识。这对整个医药行业来说都很重要。
Robert Urban博士:想要新药研发更快、更容易,确实需要一个完整的行业生态圈来助力。美国FDA这周也刚刚宣布其引入了新数据科学团队,来应对当前科技发展潮流,这也印证了刚刚各位的说法。对于当代医药行业的发展,大家认为有哪些需要注意的问题?或者是任何你们认为特别令人满意的进展?
Blake Byers博士:我认为医疗健康领域应该思考如何采取更合理的方式和流程,与患者沟通隐私相关的问题。我相信大多数患者愿意医疗机构利用他们的数据,来帮助其他有同样健康问题的人,但是我们应该确保用合理的方式来服务他们。
Robert Urban博士:患者信任一旦缺失很难重构。说到知情权,我想问Deborah,关于知情权我们应该如何理解呢?在知情权问题上,你是如何处理和用户之间的关系呢?
Deborah Kilpatrick博士:我个人的一大担忧是:在使用患者数据的议题上,知情告知应该是默认选项,不应该有例外。但是我们有太多时候都忘记向患者获取知情同意,了解他们的真实想法。
Robert Urban博士:那么回到基因组学,Brainin博士,在越来越需要国际合作的当下,您认为目前有什么需要思考的问题呢?
Rob Brainin博士:为了治疗人类的疾病,我们需要收集人类的数据,建立基因组的数据库。在研究基因组学数据的时候,我们能发现很多信息。但是这些信息我们未必能在一开始就了解,因为现在人们没有处理这些数据的方法。但10-20年后,回过头来看,可能就会很有用。同时,我也一直在思考:如何负责任地获取、分析基因组学数据;如何正确地分享相关信息和研究成果。作为一家在基因组学领域的公司,这一直是我们在严肃思考的问题。
Robert Urban博士:今天最后的一个问题是,在这个人工智能时代,通过数据,我们能不做什么?我们能摆脱现有的临床前模型吗?
Ken Mulvany先生:很多新药研发项目,只有到了人体临床试验阶段才能真正地检测新药的效果。大多数情况下,动物模型检验新药效果并不完善。在新药安全性的问题上,我认为有很多发展都值得期待。利用工程学,检验药物相互作用、药代动力学都有可能变得更容易。用电子科技的方式,可以减少新药志愿者招募的需求。
Robert Urban博士:感谢今天参与本节讨论的嘉宾,让我们为他们的分享鼓掌。