Nature Communications: 多语言翻译BioTranslator在零样本生物医学分类中的应用
现有的注释范式依赖于预先定义的有限词表,其中每个数据实例被分类为预定义的词汇集合中的一个术语。这种范式将研究范围限制在了有限的已有良好标注的术语上。为了解决这一问题,近期,来自华盛顿大学计算机学院的研究人员提出了 BioTranslator,来实现自由文本的标注。BioTranslator 接受用户编写的新概念文本描述,然后将此描述翻译为非文本生物数据实例。
论文链接:
背景介绍
随着高通量测序技术的发展,新的生物组学数据集不断涌现,以揭示尚未发现的生物系统新特征、新规律。数据注释是数据分析的首要步骤,具体来说,就是将每个数据实例(例如一个细胞)手动或自动地分类到预定义的有限词表中的一个术语(例如细胞类型)中。然而,这种基于有限词表的注释范式无法很好地扩展到该有限词表外的新发现。此外,新的词表创建较为繁琐,需要大量领域知识。
简而言之,BioTranslator 学习跨模态翻译,以连接文本数据和非文本生物数据。在训练阶段,BioTranslator 首先使用现有的已注释数据实例构建一个文本到非文本的配对训练数据集。这类似于机器翻译中两种语言之间的平行语料。例如,在细胞类型分类的背景下,每个文本数据是从 Cell Ontology 中获得的细胞类型名称或描述。
每个非文本生物数据是一个基因表达向量。利用这个配对的训练数据集,我们设计了基于对比学习的损失函数,将文本数据和非文本生物数据投影到相同的表征空间中。BioTranslator 利用 PubMedBERT 对文本描述进行建模,并使用来自不同领域的本体进行微调。在测试阶段,BioTranslator 首先根据用户编写的文本描述将新类别嵌入到这个空间中,然后将附近的生物数据实例注释到这个新类别中。
我们首先测试 BioTranslator 在基于 GO 的蛋白质功能预测方面的表现。在这里,我们保留了一个 GO 功能的所有蛋白质注释,并要求 BioTranslator 仅使用该功能的文本描述来恢复这些蛋白质。这种设置模拟了一个用户通过编写文本描述来搜索与其认为可能存在的新功能相关的蛋白质的过程。BioTranslator 将用户编写的文本描述翻译成混合了网络、序列和描述信息的蛋白质表示。
我们在五个数据集上,对三个 GO 领域 - 生物过程(BP)、分子功能(MF)和细胞组成(CC)的结果进行了汇总。我们首先将 BioTranslator 与三种常规文本建模方法 TF-IDF29、Word2Vec28 和 Doc2Vec40 进行了比较。这些方法已被广泛用于建模生物学文本,但它们无法像预训练语言模型那样建模上下文依赖关系。
与这些方法相比,BioTranslator 在五个数据集上取得了显著提升,表明使用大规模预训练语言模型的优势。我们发现 BioTranslator 优于 clusDCA,表明使用文本描述优于使用 GO 图对新功能进行注释。此外,clusDCA 要求查询的功能是 GO 图中的一个术语,而我们的方法仅使用其文本描述即可应用于任何新功能。
由于 BioTranslator 可以被看作是一种在文本数据和非文本生物数据之间的翻译器,因此它也可以应用于生成生物数据实例的文本描述。这个任务可以扩展现有本体中词汇集和文本定义的术语。在这里,我们向 BioTranslator 提供了一组与相同 GO 术语相关联的蛋白质,并要求它为它们生成一个文本描述。真实输出是该 GO 术语的已编目文本描述。
我们将生成的文本描述与 GOA(人类)中的编目 GO 术语描述进行了比较,并获得了 0.32 BLEU。通过将生成的描述与编目的 GO 术语描述进行比较,我们发现许多生成的描述在生物上是有意义和准确的,表明我们的方法可以通过为新的蛋白质集提供描述来协助 GO 扩展。
接下来,我们尝试研究如何通过将文本翻译为基因表达数据,利用 BioTranslator 推进细胞类型分类。在这里,我们从 Tabula Muris、Tabula Sapiens 和 Tabula Microcebus 获取了单细胞 RNA 测序数据,并从 Cell Ontology 获得了细胞类型的文本描述。
我们保留了训练数据中特定细胞类型的所有细胞,并要求 BioTranslator 仅使用该细胞类型的文本描述来识别这些细胞,模拟了用户仅提供短文本描述即可找到新的细胞类型的过程。几乎没有任何细胞类型分类方法能够在不知道任何其细胞或标记基因的情况下将细胞分类到新的细胞类型中。相反,我们的方法仅使用短文本描述,在50%的细胞类型未知时,获得了 0.90 的 AUROC。
最后,我们尝试使用文本解释 BioTranslator 的预测。我们通过将每个单词分别输入到文本编码器中,计算了文本描述中每个单词对最终预测的贡献。我们观察到在通路描述中高贡献单词与属于该通路的基因的文本描述中的单词存在重叠。基因的文本描述并没有用于训练我们的模型。例如,BioTranslator 正确地将基因 PIK3CB、CLEC4M、IL10 和 IL12B 注释到 KEGG 通路“C型凝集素受体信号通路”。
高贡献单词包括 PIK3CB 的“中性粒细胞”、IL10 的“细胞因子”和 CLEC4M 的“凝集素”。这些生物信息学上的有意义单词解释了 BioTranslator 的优异性能,并且让用户可以使用文本理解这个通路中每个基因的具体功能,深化了我们对生物系统的理解。
多语言翻译器相比双语翻译器的一个关键优势是能够通过第三种语言来实现两种语言之间的翻译,从而规避了所有语言对之间需要配对语料库的要求。为了验证我们的多语言翻译器的优势,我们调查了 BioTranslator 是否能够在没有配对数据的情况下实现两种模态之间的准确预测。
具体来说,我们使用 BioTranslator 将药物、表型、基因和通路与其相关的文本描述一起嵌入到低维空间中。然后,我们使用我们从未见过文本描述的独立药物和表型集来预测药物靶点相互作用、表型基因关联和表型通路关联。我们发现 BioTranslator 在这三个任务上获得了较好的预测性能,而不需要使用两种模态之间的任何配对数据。我们发现 BioTranslator 在两个任务(Pathway2Phenotype 和 Gene2Drug(GDSC))上比受监督的方法更好。
这两个任务的训练对的数量最少,表明 BioTranslator 在低资源环境中表现更优。我们的实验模拟了现实世界的情况,即发现一种新药物,我们仅知道它的 SMILES id,但无法访问其文本描述。双语框架如 ProTranslator 无法用于预测新药物的靶点。相反,BioTranslator 能够在不看任何配对药物靶点数据的情况下预测其靶点,展示了多语言翻译系统的优越性能。
总结与展望
我们提出了 BioTranslator,这是一个用于注释新的生物发现的机器学习框架。BioTranslator 可以仅使用短文本描述来查找相关数据实例。BioTranslator 的关键思想是使用来自不同领域的生物医学本体论对大规模预训练语言模型进行微调。
我们已经展示了它在蛋白质功能预测、细胞类型分类、药物靶标识别和表型途径预测方面的良好预测性能。BioTranslator 的预测能力可以促进未来数据整理和现有有限词表的扩展。根据 BioTranslator 当前的限制,我们希望探索几个未来的方向。
首先,BioTranslator 目前是通过专家编写的本体论描述来进行评估和训练的。由于我们的工具的用户可能没有提供高质量描述的专业知识,我们将采用文本归一化方法,使 BioTranslator 适用于嘈杂的文本、简单的语言文本和短文本。
其次,由于 BioTranslator 的性能关键取决于现有词汇表的注释,因此使用 BioTranslator 来完善和扩展现有词汇表是有益的。我们将从 BioTranslator 的高贡献词汇中识别关键短语,并通过与人类专家的合作使用这些短语生成新的术语词表。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧