技术应用 | ChatGPT 和 Gemini 达到专八水平了吗？

Original 苏雨翻译技术教育与研究

2024-09-09

大语言模型翻译质量评测

评测模型简介

1. ChatGPT 4.0

ChatGPT 4.0是OpenAI开发的一种先进的人工智能聊天机器人。它是基于GPT-4语言模型的升级版本，具有强大的语言理解和生成能力。

2. Gemini-Pro

Gemini-Pro是Google 发布的Gemini 1.0——大模型系列的其中一个版本，因为里面包含了 3 个不同量级的优化版本：Ultra、Pro 和 Nano，分别对应不同的使用场景和需求。Gemini Pro 是性能最佳的模型，广泛适用于各种任务。

02评测方式

本文旨在利用ChatGPT4.0和Gemini-Pro两款大语言模型，对指定的中文文本进行翻译，以评测两种模型的文字翻译能力。本人将依据英语专业八级翻译评分标准对模型的翻译结果进行综合评估。另外，为了提高评价的客观性，本文还将提供模型间的互评结果。

03大语言模型译文对比

1. ChatGPT 4.0译文

图1 ChatGPT4.0生成译文

2. Gemini-Pro译文

图2 Gemini-Pro生成译文

04评价

1. 笔者评价——参照英语专业八级翻译汉译英评分标准

评价ChatGPT4.0译文：

该译文已将原文信息全部传达，语气和文体风格与原文一致，句式结构优美，选词基本妥帖，英语表达地道。但在本文翻译中部分用词不当，需要注意：比如“中药”，英文可以表达为Traditional Chinese Medicine，而ChatGPT4.0使用的herbal remedies经Google查证（附图）只表示“草药”，不能全部覆盖“中药”的意思，在这一点上ChatGPT4.0的结果有待查证，而Gemini-Pro给出的答案更符合语境。以100分作为标准，笔者建议给到ChatGPT4.0的打分是95分，ChatGPT4.0在理解语境意方面可以继续提升，以保证其在选词方面更加妥帖。

评价Gemini-Pro译文：

该译文已将原文信息全部传达，语气和文体风格与原文基本一致，句式合理，选词基本妥帖，英语比较地道。Gemini-Pro的译文没有明显的问题，但整体表达较为平实朴素，需要继续打磨语言，提升英语句式结构的使用能力，在遣词造句方面深入训练，以100分作为标准，笔者建议给到Gemini-Pro的打分是90分。

综上，两种大语言模型的翻译结果都符合专八翻译评分的“优秀”标准，相较而言，ChatGPT4.0语言形式更多样，语言更地道。然而，在此篇翻译中，ChatGPT4.0出现语义理解不准确的现象，而Gemini-Pro的译文没有明显的问题。

图3 英语专业八级翻译评分标准

图4 查证TCM与Herbal Remedies的区别

2. ChatGPT4.0对Gemini-Pro译文的评价及建议

图5 ChatGPT4.0对Gemini-Pro译文的评价

图6 ChatGPT4.0对Gemini-Pro译文的建议

3. Gemini-Pro对ChatGPT4.0译文的评价及建议

图7 Gemini-Pro对ChatGPT4.0译文的评价

图8 Gemini-Pro对ChatGPT4.0译文的建议

05总结

根据以上ChatGPT4.0与Gemini-Pro的译文、互评及建议可以看出尽管前者在给定文本的翻译中出现有待查证之处，但其在遣词造句以及文本理解方面略胜一筹，并且ChatGPT4.0在提建议方面更加细致、可参考性相对更高；而Gemini-Pro尽管译文语言基本符合原文，但译文表达平实朴素，可提升空间较大；并且在给出“是一篇高质量译文”的评价后，对于“提供建议”的要求给出了在笔者看来为了提建议而提建议的回答，当然以上均为笔者基于给定文本的个人观点。

综上，笔者认为ChatGPT4.0与 Gemini-Pro两种大语言模型在任务完成度方面都是值得肯定的，包括译文的流利度、语法词汇的准确性等。通过以上的简单测评，我们应该思考，面对两版不同的译文，应该如何发挥译者的主观能动性。笔者认为应当不断查证、不断求索，力求去粗取精、去伪存真，不断完善、丰富模型的知识体系，从而提升译者的工作效率，实现“人机合作，共同进步”的目标。