如何管理人工智能和数据科学:来自诺华的实践经验和教训
本文是2021年9月cxotalk创始人Michael Krigsman对诺华人工智能创新实验室的因果与预测分析负责人Bülent Kızıltan博士的专访文章。
制药领域的人工智能和数据科学
Michael Krigsman:今天,我们谈论的是制药领域的人工智能和数据科学,我们正在与诺华的 Bülent Kiziltan 交谈。
Bülent Kiziltan:是的,我的职位是诺华的因果和预测分析主管。我们的组织叫做人工智能创新实验室。
我们所做的是推动诺华内部的 AI 创新,并将自己定位在学术界、技术和业务部门的交叉点,我们认为 AI 创新将真正发生在这些领域。这就是我们所做的。
我们正在努力通过引入不同的人才来建立卓越的运营,让来自药物开发和发现领域专家参与进来,这样我们就可以重新发明一些流程,并使它们的成本尽可能低。我们知道药物发现和开发在过去五到十年里一直在放缓,主要是成本和过程的放缓,因为整个过程的规模化非常困难。我们希望人工智能来拯救我们,而且很多制药公司都在这个领域进行了投资。
一般来说,人工智能和数据科学可以以两种方式之一运行。一种方法是案例驱动,在这种情况下,他们向业务部门提供服务;另一种情况是我们将自己定位为学术和业务部门。
一旦我们生产、掌握诀窍,将其应用到新的应用中,并得到我们的技术合作伙伴的支持,我们就会全力以赴。
Michael Krigsman:您在 AI 创新实验室的职责是什么?
Bülent Kiziltan:我是因果分析和预测分析的负责人。我们所做的几乎任何事情都与预测分析、数据科学或机器学习有关。但除此之外,我们还强调因果学习和因果发现,这是从数据中实现信息提取的下一个前沿。
Michael Krigsman:您能否让我们了解一下您在思考这些问题时所采用的策略类型?如何思考在制药中使用数据科学和人工智能这个问题?
Bülent Kiziltan:一般来说,操作人工智能有一些有趣的限制。多年来,我们一直在阐明决定数据科学运营成败的主要参数是什么。与直觉相反,我们已经看到文化和领导力排在前两位。
直到最近,尽管我们正在分享我们的经验,但我们并没有真正证明我们的数据经验是合理的。最近,我参与了一项全球基准研究,研究全球范围内的公司,成千上万的公司大小不一,来自不同的领域。我们已经看到文化和领导力对成功至关重要。
然后我们讨论大公司与小公司或初创公司的人工智能。所有这些运营渠道和优先事项都必须大不相同。
与大公司相比,创业领域的优先级、时间表、法规有很大不同。大公司有固定文化的约束和惯性,不同的业务部门有不同的优先级,因此在大公司中有很多“跨业务部门”的讨论。
Michael Krigsman:你提出了一个非常有趣的观点。您从文化和领导力开始,然后才进入数据主题。你甚至都没有谈论算法。
Bülent Kiziltan:我们反复看到的是,我们用于实地执行的技术介于标准统计和创新机器学习之间,介于两者之间。
正如我所说,在更大的公司环境中,我们必须定期与领域专家互动。我们必须与不同的业务部门(工程部门和 IT)合作,他们的技术能力在取得成功、使项目工作和实地执行方面并不是最重要的。我们需要利用端到端管道的所有这些不同方面。
然后,一旦我们查看数据,我们通常会从小数据开始,然后逐步使用我们拥有的其他数据来丰富信息。这是一项艰巨的努力,从不同的流中提取数据,甚至使用来自我们的合作者和合作伙伴的公开数据来增强信息。然后我们开始讨论逐步使我们的方法更复杂,因为我们使用更复杂的算法和模型来查看它是否提供任何价值。
Michael Krigsman:真的,正如你刚才描述的那样,我们可以说技术能力是促成因素之一吗?这是在您所做的工作中取得成功的必要条件,但肯定不是充分条件。
Bülent Kiziltan:是的,你总结得对,迈克。绝对有必要推动和执行人工智能。但如果没有合适的领导力和文化,人工智能的价值主张只是短期的。
Michael Krigsman:Bülent,请告诉我们您团队的组成。你怎么招聘?你雇佣谁?你引进的人才的特征是什么?
Bülent Kiziltan:人工智能创新,尤其是数据科学,是一个非常跨学科和多学科的领域。因此,我们希望确保我们吸引来自不同学科的人才,他们可以将价值和思维方式从他们自己的领域带入我们的运营中。
当然,数据科学和机器学习核心能力是必要的,但我们对所有背景都持开放态度。正如您和您的听众可能知道的那样,我接受过天体物理学家的培训,并且在我职业生涯的大部分时间里都在研究中子星和黑洞天体物理学。但在那个领域,我与应用数学家、机器学习先驱密切合作,将其中一些技术引入了当时的天体物理学领域。
从有限的数据中提取信息基本上就是我们所做的。这与天体物理学的领域知识相结合,这就是我们今天在医疗保健、生物技术和医学领域所做的工作。
Michael Krigsman:多元化团队的概念,将来自不同学科的不同背景的人聚集在一起,听起来像是实现目标的基础。
Michael Krigsman:我们有一个来自Twitter的问题。Arsalan Khan说:“每个人都在谈论文化,这不是障碍就是机遇。如果每个人都知道这一点,那么为什么文化如此困难,您如何看待文化,指标是否起作用?” 你如何解决这个问题?
Bülent Kiziltan:是的。我们再次看到,这来自全球许多基准研究。不幸的是,在公司中,文化无法自下而上地改变。这就是我们所看到的。
它必须从最高层获得授权。因此,除非您拥有一家有利于数据科学运营的公司,否则这主要是一项跨学科的努力。如果公司不是数据驱动的,它在决策过程中只考虑经验。很难克服这种惯性。
当然,可以在非常传统的公司中运行数据科学业务。您的决策者已经在该领域工作了 15、20、30 年,但他们并不欣赏数据驱动的决策,而在我们公司,我必须再说一遍,我们非常荣幸要有这种心态。
Michael Krigsman:和我们谈谈领域知识。我认为很明显你需要掌握数据科学、机器学习等方面的技术。但是科学领域知识、生物学、化学呢?
Bülent Kiziltan:没有他们,我们就无法运作。没有领域专家,我们是盲目的。
创建这种连接是我的职责之一,将团队聚集在一起进行互动和相互理解。语言差异是障碍之一,因此作为运营的一部分,我们所做的就是真正倾听领域专家提出的关键问题,并尝试将其翻译成数据科学语言,以便我们能够构建分析路线图,将数据科学操作结合在一起。
Michael Krigsman:您在招聘时寻找哪些特征?
Bülent Kiziltan:多元化的背景当然至关重要。众所周知,制药领域非常保守,需要生物学和医学领域的专业知识,这肯定会增加运营,但我们基本上从各种背景中招聘,我们可以相应地权衡。
如果他们拥有非常强大的机器学习工程背景,那么 IT 背景确实起着至关重要的作用。他们是否拥有生物医学知识,以及是否使用我们正在开发或使用的一些算法,也会纳入考虑。
软技能同样至关重要,正如我所说,当我在课程中对学生进行演讲时,当他们问我应该投资什么时,我有时会强调这一点。他们期待我谈论 Python(这样我就可以学习一些必要的技术)。我说,“你知道在技术领域该做什么,但你可能不知道的是投资你的软技能”,因为与领域专家交流,能够仔细理解和倾听才能真正理解问题,这至关重要。
Michael Krigsman:你让来自不同领域的所有这些人一起工作。你如何阻止他们互相“伤害”?
Bülent Kiziltan:我会说,作为领导者,有时你会牺牲自己。从这个意义上说,我一直很幸运,但有时你会进入一个团队,那里的人肯定来自不同的背景、不同的文化。某些沟通可能没有到位。
Michael Krigsman:您能否让我们深入了解您正在解决的问题类型?显然,我不是要您分享机密信息,而是要帮助我们了解您正在解决或试图解决的问题的性质。
Bülent Kiziltan:这些显然是更大的生物技术和医疗保健行业面临的问题,我们如何定制药物和治疗?我们相信,这种大规模的定制只能在人工智能的帮助下实现。
精准医疗是每个制药公司、生物技术和医疗保健公司的一个重点领域。利用在人工智能领域开发的技术至关重要。它肯定会重新定义整个领域。
其他领域是我们开发和发现化合物和药物、生成化学(更具技术性)的地方。这是一个人工智能和机器学习正在产生影响的领域。有很多公司利用数据科学、人工智能和机器学习来增强开发过程,同时也发现了新的化合物。
Michael Krigsman:Lisbeth Shaw在Twitter上提出了一个非常有趣的问题:“因果分析和预测分析将如何影响治疗方法的发展并最终影响患者护理?”
Bülent Kiziltan:作为一个领域,因果学习和因果发现尚未与机器学习融合。我们希望在前沿。
Michael Krigsman:从广义上讲,您非常关注的两个领域是精准医学(使用数据科学和人工智能)和药物发现,试图发现新分子或设计新分子?
Michael Krigsman:把你参与其中的原因联系起来,我不想过多地将重点转移到这里,但我倾向于将其视为IT任务,而不是AI创新实验室活动。
Bülent Kiziltan:是的。IT 绝对与我们的工作密切合作。没有他们,我们就无法生存。他们处于技术和基础设施方面,这对于扩大技术规模至关重要。
Michael Krigsman:您正在考虑端到端流程,不仅仅是您在做什么,而是您在更广泛的背景下的位置。
Michael Krigsman:您在药物发现和精准医学方面面临哪些挑战?
Bülent Kiziltan:发生了很多事情,对吧?尽管我们拥有非常多样化的人才库,但有时要跟上领域内正在发生的事情确实具有挑战性。
这就是为什么我接手并试图做出贡献的任务之一,是与那些研发驱动的机构和学术机构建立接口,以了解该技术的长期愿景和路线图以及它的发展方向。跟上技术的发展方向非常困难,但我认为我们在这方面也做得非常好。
Michael Krigsman:您和您的团队面临哪些挑战?
Bülent Kiziltan:与不同的业务部门合作,确实需要时间来了解问题。将这些问题转化为数据科学可理解的问题和可量化的问题需要一些时间,有时会很痛苦。
我认为我们已经在内部达到了一个最佳点,我们拥有一个有效的管道,我们可以在其中进行交互、转换、推动创新并实地执行。我会说我们内部非常幸运。
Michael Krigsman:Bülent,你提到了大数据和小数据。可否为我们详细说明,并为我们提供相应的背景。
Bülent Kiziltan:总的来说,人工智能正在从以模型为中心的操作转变为以数据为中心的操作,并且必须围绕可用数据来制定策略。通常情况下,特别是在医疗保健领域(包括生物技术和制药领域),我们介于小数据和大数据之间。
作为数据科学运营,如果您的所有核心能力都面向大数据,那么您可能会在某个时候变得过时,因为您有一把锤子,并且您试图基本上相应地制定每个问题。鉴于我们的运营和我的团队,我们拥有从标准统计学、应用数学、基础统计学到标准机器学习、创新生成学习、一直到对比学习,甚至更多的核心能力。我们试图以更广泛的视角从数据中提取信息,不仅使用深度学习或机器学习,而且我们希望查看可能可用信息的整个范围。
Michael Krigsman:LinkedIn 上的 Cindi Howson 指出,文化仍然是数据驱动的最大障碍。你已经详细说明了这一点。你如何在你的团队中克服这一点?
Bülent Kiziltan:我们很幸运(在我们的公司和我们的团队中)我们是数据驱动的。但我们所看到的,往往是我们需要作为一个团队和一个组织,始终踏上一段旅程。
Michael Krigsman:我们还有一个来自Twitter的问题。Diana McKenzie想问的是,您是否与更广泛的诺华社区就AI、它可以做什么以及它如何工作进行了交流?”
Bülent Kiziltan:这是我们需要踏上的旅程。
我们需要并且正在为整个公司创造机会,不仅让从事数据科学和生物信息学的员工参与进来,还让决策者参与进来。我们与决策者就我们做什么、如何做以及我们从小数据一直延伸到大数据的核心能力进行了大量一对一的对话。
我们也有内部会议和集体会谈。我们紧跟最新的技术。
Michael Krigsman:我有一个后续问题要问你。你为什么这样做?为什么整个公司的人都必须拥有人工智能方面的专业知识?
Bülent Kiziltan:人工智能和机器学习只是推动数据驱动决策并了解与之相关的风险的一种手段。也就是说,我们可以在整个决策过程中适当地量化风险,而不管我们与什么单位交谈。
我们正在努力重新构想医学,为患者提供治疗方法。我们想加快这个过程。我们希望定制我们的疗法和剂量,我们要帮助病人,为社会做贡献。
所有这些都与我们做出的决定以及与之相关的风险密切相关。机器学习在真正量化风险,在为我们提供所涉及风险的真实预测和预测方面做得非常出色。它帮助我们在决策过程中利用该风险预测。
Michael Krigsman:这听起来像是拥抱更广泛的社区,可以帮助您的团队不仅专注于研究问题、抽象研究问题,还专注于将最终成为产品推向市场。它可以帮助您保持联系。
Bülent Kiziltan:当然。创新可以通过两种方式发生。其中之一是开发这些算法。而且,根据定义,创新发生在有新应用的时候。我认为,断开连接会扼杀人工智能的价值主张。
Michael Krigsman:我们还有一个来自 Twitter 的问题。Arsalan Khan想了解数据中的偏差。您如何处理具有固有偏见并可能扭曲决策以及对团队产生偏见的数据?你如何解决偏见问题?
Bülent Kiziltan:是的,这是一个活跃的研究领域,对吧?我们聘请来自不同学科的领域专家来尝试解决这个特定问题,可能存在抽样偏差,可能存在算法偏差,可能存在数据驱动的偏见。
这些都是我们需要尽早解决的问题。一旦我们提出预测或预测,我们就会采取某些步骤来确保我们不会偏向于影响决策的水平。
Michael Krigsman:所有这些与传统的药物发现方法有什么不同?
Bülent Kiziltan:我们的同事一直在实验室不知疲倦地工作,试图手动生产(与化学家合作),试图找出新化合物,然后逐步将其应用于细胞并观察(在显微镜下)它的行为方式,根据他们想要的属性。这是一个非常手动的过程并且很难扩展。
这是机器学习和人工智能正在帮助的问题之一,即扩大规模并使该过程更快。通过这样做,我们已经消除了化合物生产和发现过程中的一些障碍。
Michael Krigsman:您如何与使用传统方法工作的实验室人员合作?
Michael Krigsman:您能否向希望将这些经验教训应用到自己的业务(无论是医疗保健还是制药业)的商业领袖们分享一些建议?
Bülent Kiziltan:这些 AI 策略和经验无法在任何地方都适用。战略必须根据运营、优先级、文化、运营的瓶颈和障碍进行定制。
Michael Krigsman:您如何决定,以及一般而言,企业领导者应该如何决定哪些问题可能有解决方案,或者您可以使用这些技术来取得真正的进展?同时,您应该远离哪些问题?
Bülent Kiziltan:数据是关键。了解数据、可获得哪些信息是制定战略决策的关键。
Michael Krigsman:我们还有一个来自 Twitter 的问题,Diana McKenzie说:“你知道是否有人成功地为人工智能算法申请了专利,用于推进发现研究或临床开发中的治疗方法?”
Michael Krigsman:回到选择问题的问题上,您能否进一步详细说明?你说数据是关键。用数据科学和人工智能研究一个好问题的其他特征是什么?
Bülent Kiziltan:我们必须根据公司的优先级、部门以及团队关注的影响领域来定制我们的方法。有各种各样的参数进入决策过程。
此外,您拥有什么类型的人才,您的核心能力是什么,您将如何踏上这段旅程。我们有强大的技术合作伙伴吗?我们是否拥有 IT 基础设施?
数据第一,基础设施第二。然后需要与领域专家交谈以确定一些影响较大的问题。
Michael Krigsman:数据、基础设施和领域专业知识。这意味着问题的选择,取决于已经构建的相当复杂的基础设施。
Michael Krigsman:Bülent,当我们结束时,关于这个领域的任何最终想法,你工作的领域,你想分享吗?
Bülent Kiziltan:我曾经有机会和特权与该领域的先驱们聚在一起。就在COVID 爆发之前,我们在哈佛大学接待了来自 Facebook AI 的 Yann LeCun,他就基于能量的算法以及他们一直在做的一些工作发表了演讲。
我们正在讨论人工智能如何使用我们在天体物理学和物理学领域开发的一些方法。随着岁月的流逝,我期待先驱者能够对哪种模型更适用于某些数据集和问题产生一种直觉。
我至少遇到和经历过的情况恰恰相反。大多数时候,我们在架构中找到创新方法的地方,是我们期望架构产生最弱预测能力的领域。
人工智能和机器学习领域的事物并不总是直观的。一些为大数据集开发的算法实际上也可以在小数据体系中工作,但需要大量人工干预,有时无法改进。
传统统计学家和创新的机器学习研究人员之间存在很多交叉影响。事情并不总是直观的,这是解决任何问题时要牢记的观点。
Michael Krigsman:所以你一开始就说解决方案不仅仅是技术,而是所有这些不同的专家、不同的团队之间的所有这些部分(领导力、文化、沟通)的整个端到端链,正如你所描述的。
Bülent Kiziltan:当然。这是一个生态系统。这就是为什么文化和领导力至关重要的原因。我们需要的领导者至少能够理解技术的复杂性和价值主张,同时也了解来自各个部门的敏感性,并让我们能够在此过程中实现数据驱动并与外部合作伙伴互动。
再次强调,这是一次团队之旅。我们需要一起踏上这段旅程。我们为彼此创造价值,一加一大于二(在整个过程中)。
孤立的人工智能并不能提供我们可以共同生产的长期价值主张。
参考资料
----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向。
Nat Rev Drug Discov|AlphaFold对药物发现意味着什么?
Science China|用增强的联邦学习应对药物发现数据小和偏的困境
Drug Discov Today|药物研发风险地图
Drug Discov Today|FDA童伟达:基于AI的语言模型为药物发现和开发提供动力
Nature Outlook|借助算法和模拟将蛋白质折叠的瞬时结构转变为药物靶点
AI药物发现公司继续寻求最佳商业模式
人工智能在药物研发中的应用
远程机器人实验室在AI药物发现中的应用价值与前景
2020年AI + 药物研发全景概述:(二) AI如何应对制药行业的效率挑战
20家顶尖制药公司如何将AI应用于药物研发:近年来主要合作活动