《2022年机器翻译评测报告》解读(上)
点击译知科技 关注我们
1
Intento和e2f介绍
(一)Intento公司
自2017年5月以来,Intento一直致力于评估机器翻译模型。Intento使全球企业能够在同一个机器翻译平台上多翻译20倍内容。借助Intento,企业还可以监测翻译性能以不断改善他们整个机器翻译程序。
Intento可以为全球公司提供选择、部署和改进最适合的机器翻译和其他认知人工智能服务,包括情感分析、语音合成、图像标记和光学字符识别。
e2f主要提供以下服务:
机器翻译检测和机器翻译质量评估服务,使企业能够监测供应商是否达到人工和机器翻译的品牌标准 。 创建自定义Lingosets™,即扩充的多语言数据集,代表真实的人类对话。Lingosets可作为对话式人工智能部署的基准。 提供黄金数据集和训练数据集,帮助领先的机器翻译供应商能够评估和微调引擎性能。
2
《2022年机器翻译评测报告》解读
(一)机器翻译类型分类
报告将所选机器翻译的类型进行了划分,包括通用领域、垂直领域、术语定制化、领域自适应和人工适应的机器翻译。
其中,既可以定制翻译记忆库又可以定制术语的机器翻译有7个,分别是Amazon、Google Cloud、IBM Watson、Microsoft、Rozetta T-400、SYSTRAN和Ubiqus;有3个机器翻译可以定制翻译记忆库,但不提供术语定制服务,分别是Globalese、ModernMT和Yandex;2个机器翻译只可以定制术语,分别是百度和DeepL。从分析中可得,目前可提供定制化服务的机器翻译仍占少数。
(二)数据集的选择与清洗
报告详细介绍了数据集的选择标准和内容。本次评测的数据集选取的都是开源数据,在评测之前,先对数据集进行了过滤和清洗,清除了重复内容、标签、不完整符号、截断句段等,过短(少于4词)和过长的句子都被排除在外,但也考虑了口语体的特殊情况。
(三)行业领域划分
报告将所有句段根据行业领域进行了划分,共分为通用、金融、法律、医疗、娱乐、教育、信息技术、酒店服务和口语体共9个领域。与往年报告不同,2022年报告统一了各语言对、各行业领域的句段数量,在11个语言对的每个领域中,都各选取了500个句段,以便更加公平公正地评测机器翻译质量。
本篇文章首先对《2022年机器翻译评测报告》的数据集内容进行了概述,关于具体的评测方法、评测指标和评测结果将在下一篇文章中进行介绍和解读。
若您对机器翻译感兴趣,请继续关注我们的系列文章,一起探索如何针对不同行业、不同内容类型和不同语言对,选择最适合的机器翻译引擎!
欢迎点击“阅读原文”获取《2022年机器翻译评测报告》原文文档。
本文专家
韩林涛 审核专家
硕士生导师,任教于北京语言大学
外国语学院高级翻译学院,担任本
科翻译(本地化方向)专业负责人
转载请务必注明出处
版权所有,违者必究