查看原文
其他

翻译技术|机器翻译的发展

张子明 翻译圈
2024-09-09


机器翻译的发展

机器翻译(Machine Translation,MT)的发展经历了多个阶段和技术演进,以下是机器翻译发展的方向:


规则型机器翻译(Rule-Based Machine Translation,RBMT)


是机器翻译的早期方法之一,它基于人工编写的语法和规则来实现翻译。


翻译过程包括以下几个步骤:


 

1. 句子分析

源语言句子首先通过词法和句法分析进行结构分析。这包括将输入句子分割成单词或短语,并确定它们之间的语法关系。

2. 翻译规则

根据语法和词汇知识,制定一系列规则来指导翻译过程。这些规则描述了源语言单词、短语或句子结构与目标语言的对应关系。

3. 转换动作

根据规则,将源语言的结构和内容转换为目标语言的结构和内容。这可能涉及词义的转换、语序的调整、结构的重组等操作。

4. 生成目标语言句子

经过转换动作后,根据目标语言的语法规则和生成规则,生成最终的目标语言句子。 


机器翻译的发展

规则型机器翻译的主要优点是可解释性强,人工可以直接参与编写规则,从而对翻译质量进行调整和改进。


然而,规则型机器翻译也存在一些挑战:

1

 需要大量的人工工作和领域专业知识来编写翻译规则,尤其是针对不同语言对和领域。

2

 规则型系统通常只能处理预定义的规则,对于新的语言现象或复杂的结构,需要手动添加新规则。

3

 规则型机器翻译在处理不同领域的文本时可能效果不佳,需要根据具体领域进行定制开发。


统计机器翻译(Statistical Machine Translation,SMT)


是一种基于统计模型的机器翻译方法,它利用大规模的双语平行语料来学习源语言与目标语言之间的翻译概率和模式。


翻译过程包括以下几个步骤:


 

1. 训练阶段

首先,需要使用大规模的双语平行语料来训练模型。这些平行语料包含源语言句子和对应的目标语言句子。通过对这些句对进行统计分析,可以推断出不同的翻译概率和语言模型。

2. 对齐

在训练阶段,还需要对句对进行对齐操作,即确定源语言句子中的每个单词与目标语言句子的对应关系。通过对齐,可以建立起源语言和目标语言之间的词汇和短语对齐关系。

3. 翻译推断

在翻译阶段,当输入一个源语言句子时,系统会根据训练阶段学到的模型和对齐信息,计算并推断出最佳的目标语言句子,即具有最高概率的翻译结果。 


机器翻译的发展

统计机器翻译的主要优点是能够利用大量的训练数据,从而提供相对准确的翻译结果。此外,它还能处理不同领域和专业术语等多样化的文本。


然而,统计机器翻译也存在一些挑战:

1

 训练统计机器翻译模型需要大量的平行语料,因此在数据稀缺的语言对或领域中可能效果不佳。

2

 统计机器翻译通常是基于局部短语的翻译模型,对于长距离的依赖关系可能无法准确捕捉。

3

 统计机器翻译通常按照源语言句子的词序逐词进行翻译,这可能导致目标语言句子在语法上不完全正确。


神经机器翻译(Neural Machine Translation,NMT)


是一种基于神经网络的机器翻译方法,它采用端到端的学习方式,将源语言句子直接映射到目标语言句子。相比于传统方法,NMT在流畅性和翻译质量上取得了显著提升,并且能够更好地处理长距离依赖。


翻译过程主要包括以下几个步骤:


 

1. 数据准备

与统计机器翻译一样,需要准备大规模的双语平行语料作为训练数据。每个句子对都应该包括源语言句子和对应的目标语言句子。

2. 网络结构

神经机器翻译通常使用编码器-解码器结构。编码器部分将源语言句子转换为一个固定长度的向量表示(通常称为上下文向量或编码器状态),解码器部分则根据这个向量生成目标语言句子。

3. 训练阶段

使用双语平行语料对神经网络进行训练。在训练过程中,通过最小化目标语言句子与预测句子之间的差异(通常使用交叉熵损失函数),优化神经网络的参数。

4. 推断阶段

当输入一个源语言句子时,系统会通过编码器将其转换为上下文向量,然后使用解码器生成目标语言句子。这个过程通常是自回归的,即从左到右逐步生成目标语言句子的每个单词

机器翻译的发展

神经机器翻译的主要优点是能够捕捉更复杂、更长距离的依赖关系,并且在翻译质量上通常比传统的统计机器翻译方法更好。此外,神经机器翻译还具有可并行计算的优势,在硬件加速的支持下可以提高翻译速度。


然而,神经机器翻译也存在一些挑战:

1

 神经机器翻译对大规模平行语料的需求较高,如果数据量不足,可能会影响翻译质量。

2

 相对于规则型和统计机器翻译,神经机器翻译的训练时间更长,需要更多的计算资源和时间。

3

 神经机器翻译对于未知词(在训练数据中未出现的词)的处理不如传统方法灵活,需要采用一些特殊的技术来处理。


机器翻译的发展

总体而言,机器翻译的发展逐步实现了从规则型到统计型再到神经型的演进,同时也借助于大规模数据和深度学习技术取得了重大突破。


参考文献:


1. Hutchins, W. J., & Somers, H. L. (1992). An introduction to machine translation. Academic Press.

2. Koehn, P. (2010). Statistical machine translation. Cambridge University Press.

3. Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. In Advances in neural information processing systems (pp. 3104-3112).

4. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008).


特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。


- END -



翻译圈公众号旨在为读者提供名师和专家对口笔译的真知灼见,CATTI考试和MTI入学考试信息,翻译等语言服务就业资讯,以及口笔译学习资源和知识,希望在翻译之路上,为大家助上一臂之力。欢迎大家积极留言,为我们提供建设性意见,我们共同进步!


原文作者:张子明

推文编辑:张子明

指导老师:董妙子

核:吕欣潼、吴志雄

项目统筹:吕欣潼

资讯推荐


“微博”&“B站”资源获取&“学思践悟”学习法


▶精品课程

精品课程|CATTI打卡训练营

精品课程|AIGC时代翻译技术及语料库应用西安研修班(一号通知)

精品课程|ChatGPT与语料数据处理工作坊

精品课程|刘世界:6节语料库专题课,从入门到精通

精品课程|ChatGPT提示工程(Prompt Eng.)实践工作坊

精品课程|ChatGPT辅助翻译质量评估沙龙

▶资源宝库

资源宝库|译文质检工具之Grammarly

资源宝库|以Sketch Engine为船遨游语料海洋(一)

资源宝库|小鹤音形输入法——打字,你还能更快!

资源宝库|一篇文章教你建立自己的语料库

资源宝库|双拼输入法——两天时间让你成为打字高手

▶翻译百科

翻译百科|《中国大百科全书》中的“神经网络机器翻译”

翻译百科|《中国大百科全书》中的“直译”

翻译百科|《中国大百科全书》中的“范化”

翻译百科|《中国大百科全书》中的“可比语料库”

翻译百科|《中国大百科全书》中的“翻译政策”

翻译百科|《中国大百科全书》中的“语料库语言学”

翻译百科|《中国大百科全书》中的“法律翻译”

翻译百科|《中国大百科全书》中的“语料库模式分析”

翻译百科|《中国大百科全书》中的“自适应机器翻译”

翻译百科|《中国大百科全书》中的“翻译批评”

▶译界动态

译界动态|第三届“国家翻译能力:理论建构与实践探索”学术研讨会(1号通知)

译界动态|胡健、范梓锐:机器翻译视角下的翻译本质

译界动态|内地首次出版!世界汉学大师霍克思的《红楼梦》英译笔记

译界动态|首届全国翻译技术大赛决赛成绩公布

译界动态|2023中国高校翻译专业排名

译界动态|李长栓:用ChatGPT解决英译汉中的理解问题

译界动态|从书面到口头:AI口译的挑战与可能性

译界动态|2023年人工智能的一些顶级趋势

 关注我们 了解更多

CATTI和MTI资讯

语言服务就业信息

翻译名师真知灼见

翻译学习精品课程


继续滑动看下一个
翻译圈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存