查看原文
其他

再创丨药物发现公司正在定制 ChatGPT

再创 再创丨Regenesis 2023-05-02

引言 /Introduction

近几个月以来,OpenAI 的 ChatGPT 等文本生成引擎吸引了全球众多关注,包括药物研发领域。生物技术公司纷纷寻求大型语言模型帮助药物研发科学家与人工智能进行对话,利用相关算法来推动药物发现。
此篇文章来自近期 Nature Biotechnology 的新闻报道Drug discovery companies are customizing ChatGPT: here’s how」,其中作者通过采访多家公司呈现了生成式人工智能在药物发现中的不同应用场景与潜在价值。
Neil Savage / 作者
锐锐 / 翻译
孟凡康 / 审阅
许多生物科技公司已经开始借助 AI 来寻找新药。他们将文本生成视为一种简洁直观的方式,与其他人工智能和机器学习工具互动。哈佛大学 T.H. Chan 公共卫生学院的流行病学家兼 Generate Biomedicines 公司的机器学习负责人 Andrew Beam 表示,ChatGPT 更易于与其他形式的 AI 协同工作。以人工智能驱动的平台搜索潜在药物靶点的 Insilico Medicine 公司,现已采用 ChatGPT 作为与其靶点发现平台交互的新方式。这种方法优化了以往整合数据的主要手段——知识图谱法。Insilico Medicine 公司的人工智能平台负责人兼总裁 Petrina Kamya 表示,得益于 ChatGPT,他们能与药物靶点发现系统进行对话:“只需提问,它便会生成易于理解的文本。”

▲ 图1:ChatGPT的聊天式界面。
除了利用聊天机器人协助撰写论文、专利或资助申请等书面材料外,我们还可以将其作为专门针对生物科学的高级搜索引擎,专注于药物靶点的研究。阿拉巴马大学伯明翰分校的计算化学家、药物发现公司 Ainnocence 的创始人兼首席执行官 Lurong Pan 表示:“我们可以构建一个更具针对性的AI系统,例如 Bio ChatGPT 或 Med ChatGPT,它可能会改变人们在药物发现领域的搜索方式。”例如,谷歌和 DeepMind 今年早些时候推出了 Med-PaLM,一个旨在解答医学问题的聊天机器人。
这些聊天机器人都是基于大型语言模型(LLMs),通过从互联网收集的数百万个文本实例进行训练。LLMs 属于生成式人工智能,能创造以前不存在的数据。对于文本,LLMs 可以学习词汇之间的统计关系。接着,给定一个提示,如一个问题,它们通过预测哪个词最可能跟在前一个词后面来生成文本。尽管聊天机器人可能会产生与现实不符的陈述,基本上是对事实的“幻觉”,但结果看起来非常自然。ChatGPT 基于一种叫做生成式预训练变体的 LLM,Med-PaLM 借鉴了谷歌的 Pathways 语言模型,而 Bard 是谷歌正在融入其搜索引擎的通用聊天机器人,依赖于“对话应用的语言模型(Language Model for Dialogue Applications, LaMDA)”。
Kamya 表示,这些 LLMs 已被证实对药物开发者有益。过去,Insilico 平台的用户可以查看知识图谱——一种可视化表示,展示特定疾病相关的基因及与这些基因相互作用的已知物质。尽管这些信息有用,但研究人员使用它的方式相对有限。现在,随着聊天功能的增加,Kamya 表示这些数据变得更容易获取:“能够与该工具进行对话非常令人兴奋。如果你能以你想要的方式查询我们的生物医学知识图谱,它就会变得更有趣、更好玩。
例如,如果一个科学家想研究银屑病,系统聊天功能首先可以帮助用户查看该疾病的知识图谱——它将提供文本描述,包括参与银屑病的主要信号通路和基因,以及已知与之相互作用的化合物。接下来,用户可以提出任何问题,例如“这个图中有多少个基因?”或者寻找基因与特定疾病(如肉瘤)之间的关联,之后用户便可以得到即时回应。
ChatGPT 生成对话输出后,Insilico 使用多年来积累的数据训练的预测性人工智能程序来验证聊天内容。“我们的输出非常准确。”公司创始人兼首席执行官 Alex Zhavoronkov 表示。Zhavoronkov 的母语非英语,在撰写论文时,他也用 ChatGPT 来改善语法。最近,他将 ChatGPT 列为一篇期刊文章的共同作者,引发了争议。
科学家们还发现 LLM 在数据关联和呈现方面有所帮助。Exscientia 是一家位于英国牛津的制药公司,其首席技术官 Garry Pairaudeau 表示其公司一直在尝试使用 LLMs 将普通的英语句子翻译成结构严谨的机械论断,以协助生成知识图谱
▲ 图2:公司正在采用大型语言模型来帮助药物发现。
LLMs 不断发展,开发者迅速增加新功能。2022 年 12 月发布的 ChatGPT 基于 OpenAI 的 GPT-3.5 版本,而 2023 年3月中旬发布的更新版本 GPT-4 性能大大超过前者。3 月下旬,ChatGPT 新增了检索插件功能,对药物发现可能具有很高的价值——该插件允许软件检索个人或公司文件。伦敦一家人工智能驱动的生物科技公司 BenevolentAI 的首席技术官 Dan Neil 对此感到兴奋,因为这是一种在公司自身数据基础上定制聊天功能的方式。例如,如果你有一个专门的实验检测方法,你在公司内部文件中进行了记录并加以描述,你可以说:“嘿,看一下我们内部得到的这些结果,你有什么新想法吗?你能找到或想象出基于这些信息的其他新方法吗?”
尽管语言模型名义上与语言相关,但它并不一定需要在英语或其他人类语言数据上进行训练。推导统计关联的相同技术可以应用于 DNA 或蛋白质序列的“语言”。然后,它们可以生成可能成为优良药物靶标的新蛋白质,而非一个新的人类语言文本。Beam 表示:“我们向它展示的是生物数据,而不是互联网上的文本。”
有些人担忧,训练有较高几率命中药物靶点的药物的人工智能系统需要大量的数据,而这些数据需要由人类手工标记。通常,生产这种数据的公司不愿公开这部分信息,因此数据集难以获得。但 Pan 认为,如果提供丰富的无标签数据,如 UniProt 数据库(包含近 2.5 亿个蛋白质序列),大语言模型应该可以自行推导出分子组件之间的正确关系。
Bioxcel Therapeutics 依赖人工智能来识别在临床2期或3期试验中或甚至批准后被搁置的药物再利用的可能性。该公司正考虑利用 LLMs 从不同数据库中筛选潜在的可再利用药物候选。然而,神经科学家和该公司的 CSO Frank Yocca 认为,只有在与 Bioxcel 的人工智能工具相适配时,LLMs 才会被证明有价值。“就目前获得的成果而言,大型语言模型的准确性尚不理想。”他警告说,“但我们正处于这个领域的初期阶段。”
确保结果准确并避免人工智能产生幻觉的一种方法是采用尼尔所说的“证据浮现”策略。当一个大型语言模型产生声称的事实时,Bioxcel 的一套系统可以基于语义搜索提供引用和参考以支持该论点,并将此信息最终展示给人类专家,以判断所谓的事实是否真实。
Yocca 认为,人们可能被最新技术所吸引,而忽视了它是否真正有助于实现最终目标。他说:“你可能会浪费大量时间让机器执行你想要的任务,但最终可能无法得出可行的答案。我们正试图避免这种情况。”
并非所有人都在紧跟 ChatGPT 的发展趋势。巴黎 Enterome公司 的免疫学研究负责人 Joao Magalhaes 表示:“基本上,我们已经拥有了丰富的工具来生成我们想要的内容,并已在大量信息中进行探索,因此我们暂时还不打算尝试扩展更多信息。”他担心使用患者信息来训练LLM可能损害隐私。然而,他并不排除采用新的人工智能技术。例如,该公司使用AlphaFold预测蛋白质的三维结构。“这对我们来说是一个巨大的进步,” Magalhaes 说。他将密切关注 ChatGPT 的发展,如果 ChatGPT 确实具有价值,他的公司会考虑采用它。
Beam 指出,其他类型的生成式人工智能已经涉足生物学领域,例如可以从随机噪声中生成图像的扩散模型。Beam 认为,由于这些模型可以生成新的蛋白质结构图像,它们可以成为一条更直接的药物发现和药物开发途径。他表示,ChatGPT 的崛起已经让人们广泛认识到生成式人工智能的潜力,并激发生物技术公司对该技术产生更深入的关注。Beam 说:“ChatGPT让大家都意识到了生成式模型的力量。”
END \

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存