生成式AI技术或为生物医药行业带来变革 | Nature子刊
The following article is from 医药魔方Pro Author 三巨木
2022年出现了许多突破性人工智能(AI)工具,如OpenAI公司的DALL-E2和ChatGPT,其中DALL-E2能够根据文本描述的输入生成图像,ChatGPT是一种自然语言模型,可以生成文本并回答问题。
对于普通用户来说这些工具似乎很有趣。但对于科学家和biotech公司来说,AI技术在过去几年中一直在稳步上升,这些新的生成AI工具具有更大的潜力,因为它更强大、更成熟。
OpenAI最近备受关注,但在过去几年中,还有其他几家生物技术初创公司促进了生成AI的发展,包括Jasper和Stability AI,后者也在2022年推出了自己的文本到图像生成工具Stable Diffusion,从图像和音乐生成到新的机器学习算法的开发,包括在生物技术领域,这项技术被添加到无数新的应用程序中。
例如,蛋白质工程的传统方法包括进行迭代突变和蛋白质序列选择,或者从头理性设计,从而产生具有所需结构和序列特异性特性的蛋白质。生成AI有可能改变这一模式,使从零开始生成人工蛋白质序列变得更容易。近日报道在Nature Biotechnology杂志上的ProGen是一种语言模型,在经过已知蛋白家族的2.8亿个序列训练后,可以生成具有可预测功能的蛋白序列。
Biotech公司也在取得类似的进展,因为小分子药物发现领域将受益于这些生成型AI模型。进入FDA审批程序的候选药物中,很少有最终被批准用于临床,但AI模型有潜力找到更具有生物学意义的化合物。Generate Biomedicines是一家成立于2020年的公司,该公司使用生成AI来创造蛋白质,这些蛋白质可以用作新型疗法,更好地适应特定条件,更容易生成。另外,2015年成立的Standigm已经使用类似的生成型AI工具,通过对大型生物医学数据库的查询,在短短2个月内创造了数百种新型分子。
对于研发人员和学生来说,一个名为OpenBioML的“开放研究实验室”看起来与AI和生物学相交叉。OpenBioML由Stability AI支持,旨在通过为协作研究项目提供大规模计算资源,使该技术大众化。该公司首批的两个项目包括BioLM(将自然语言处理应用于计算生物学和化学)和DNA扩散(开发可根据文本提示生成DNA序列的AI)。
虽然在医学领域有机器学习的案例,但更准确地诊断疾病时,这些算法也无法避免偏差,导致某些患者的治疗可能更糟糕。生成式AI需要大量、准确的数据集来生成高质量的预测,当这些数据不完整或包含错误时,可能会发生偏差。这样的系统也可能容易过度拟合。这些技术非常昂贵,而且需要专门的硬件和软件来实现。
总体而言,在2022年,生成AI公司在融资方面吸金超过13.7亿美元,随着生成AI在生物医学领域的吸引力越来越大,这一金额可能会增加。有预测称,到2040年,可生成AI将为医疗保健行业带来1万亿美元的价值。
推荐阅读