查看原文
其他

将双语术语与ChatGPT相结合提升机器翻译质量

韩林涛 简言
2024-09-09

我们在评价机器翻译质量时有两个比较明显的非公认非学术的指标:术语是否准确和像不像人话。


2013年左右,神经机器翻译的出现让大家一下子觉得机器翻译的译文更像人话了,但再仔细一看,会发现明显的漏译、错译问题,尤其是是机器翻译在训练时没有涉及到的术语、新词等,机器翻译会选择词义相近译法,或者直接就不译了。


所以,即便机器翻译的译文更像人话了,但译文中关键术语翻译错误和遗漏还是会让人觉得机器翻译质量有问题。


ChatGPT出现后,很多朋友也去测试了它的机器翻译能力,认为它的机器翻译水平离DeepL、谷歌等还有一段距离。


但我测试后,却持不同的观点。


我认为ChatGPT并没有针对翻译进行专业的训练,它的特色还是在于语言的生成,所以不能直接拿来做翻译,而是灵活用好它的API,让它的应用变得更加灵活和充满想象力。


比如:在使用ChatGPT进行专业术语翻译时,可以先把待翻译的词用爬虫技术送到谷歌去搜索,把爬虫获取到的实时搜索结果整合成文本后再送给ChatGPT去生成译文和解释,会有一定程度上的质量提升。


受到这个工作流程的启发,我在自己的时政语料库Politrans中引入了术语库和ChatGPT,我把任务分成三步:


第一步:对时政类双语文本进行术语标注


二十大报告双语语料库“政译”(Politrans.org)上线测试


第二步:将待译文本送到ChatGPT进行翻译之前先对其进行术语抽取


第三步:将抽取后的术语变成一个中英双语的字符串,然后拼接到发送给ChatGPT的指令中,让ChatGPT基于上一步匹配到的双语术语来生成译文。


初步的实验结果发现:ChatGPT不仅可以基于双语术语生成译文,还能根据上下文调整术语的译文。


详见下方的视频:


这个实验给我极大的启发,我觉得很多人在测试ChatGPT时因为不知道什么是API,没有去尝试调用OpenAI的API来探索如何将个人数据与ChatGPT相结合,所以对它的能力认识只局限在网页端的对话交互。


一旦我们可以把自己的个人数据(比如双语术语、双语句对、上下文等)从自己的内容管理系统中抽取出来自动与ChatGPT的命令相结合,那么就会限制ChatGPT的答案范围,让其变得相对稳定。


在我的这次探索中,ChatGPT给出的时政文本的英译文不仅更加流畅,而且术语翻译准确,给人的直观感受就是:机器翻译质量极大提升。


这方面的想象空间很大,值得进一步深入探索。

继续滑动看下一个
简言
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存