行业技术 | 机器翻译的前世今生
The following article is from 火山翻译 Author 火山翻译
基于实例的机器翻译(EMBT)给机器翻译界带来了新的希望:我们将不再需要自己构建规则,我们只需要将已有的翻译交给机器。
然而,在革命的第一步迈出短短5年后,统计机器翻译(SMT)出现了。
90年代早期,IBM研究中心研发出一种机器翻译系统,它在大量双语平行语料基础上,完成该语对的翻译过程。(注:平行语料:由原文文本及其平行对应的译文文本构成的语料)
该过程不依靠规则,不依靠词典,机器仅依靠既有的平行语料数据,从双语平行语料中分析出词语的共现情况,发掘出对应的翻译关系,因此该机器翻译技术被称为统计机器翻译(SMT)。
这种新型翻译技术的翻译过程就好比查词典:由语料构建成的语料库可以被视为一本「词典」,「词典」里一个词会拥有多个译文选择,SMT建立一个模型来算出各个选择与原文词配对的概率,并优先考虑使用概率最大的词。再将刚刚选出的概率最大的词与原文对应词进行一一对齐,经过调试句子中语法、词与词之间的顺序等步骤,获得最终翻译结果。
图中源语言为英语,目标语言为德语
如上图所示:通过模型计算出 the 对应 das 的概率为0.58,对应 haus 的概率为0.02,所以我们可以初步确定 the 对应的译文为 das。其他单词以此类推。
对齐、调试的过程
与「查词典」的过程不太一样的是,SMT不仅可以把单词作为子组来处理文字,还可以基于短语,基于语法和基于分层短语。
神经网络技术的应用推动了深度学习技术的发展。2014年蒙特利尔大学的Kyunghyun Cho、Yoshua Bengio等人发布了一篇关于在机器翻译中使用神经网络的论文,该论文并未引发学界广泛关注,但Google注意到了。2016年11月,Google推出神经机器翻译(NMT)系统。
深度学习:深度学习是机器学习中一种基于对数据进行表征学习的算法;表征学习:可以被理解为将原始数据转换成为能够被机器学习来有效开发的一种形式——它避免了手动提取特征的麻烦,允许计算机学习使用特征的同时,也学习如何提取特征:学习如何学习。
NMT模型在SMT模型的基础上进行优化。在 NMT中,翻译过程可以用一个「编码→解码」的模型来实现。NMT通过使用编码器将文字转化为固定的向量,从而将源语言表示为连续空间的形式,再使用解码器把向量逐步解码。
这个过程好比为小女孩编辫子:「原始输入」是她乌黑顺滑的长发,在经过「编码器」这双巧手的「编织」后变成辫子——「向量」,另一双巧手「解码器」把「向量」辫子解开,就得到了波浪式的卷发——「翻译结果」。
向量的表示方法可以让语义相似的词在语义空间中有相似的表示,从而使语义相似的句子被映射在同一个空间里。
以下图为例:
Tom is loved by Lily 和 Lily loves Tom 这两个句子的语序和单词组成是不一样的,但是它们的语义相似,所以被映射在同一个空间。
而 Lily loves Tom 和 Tom loves Lily 的单词组成是一样的,但是它们的语序差异带来了较大的语义差别,因此它们被投射到不同的空间。
不同于线性的SMT模型,NMT使用连续空间表示语言,从而增强语义相似的文本之间的关联性,改善了SMT模型中数据稀疏性的问题,提升翻译质量。NMT在短短的两三年内便取代了SMT成为商业机翻系统的主流模型。
机器翻译技术半个多世纪的发展趋势如下:
从离散表示到稠密的向量化表示
为了认出你的好朋友,你只需要掌握TA的几个特征,比如:TA有一双大眼睛,TA是短头发。但是如果你需要辨别两个双胞胎,你需要更多的特征去判断,如:哥哥戴了牙套,弟弟手臂上有个大胎记等。
比较粗浅地说,「从离散表示到稠密的向量化表示」便是指我们使用更多的特征去标记一个向量。
从浅层结构到深层结构
需要的数据越来越大
人工参与的越来越少
机器翻译的发展是一个曲折中上升的过程:初创->发展->低迷->复苏->热潮->...,未来也有可能再低迷再热潮,但每一次的发展本质上都是在深化。
从古希腊的思想起源至今,机器翻译技术已取得极大进展,但现今机器翻译仍未彻底实现无障碍沟通及顺畅无碍地进行语义上的理解和交流。显然,距离我们最终希望机器翻译达到的效果,还有很长的路要走。
重建「巴别塔」的工程仍在继续,通天塔的重现,我们拭目以待。
往期回顾
2. 行业科普 | 翻译公司篇:全球Top 6 Appen
3. 行业科普 | 国际翻译动态热点新闻编译(Slator/GALA)4. 行业动态 | 云译科技亮相2023日本人工智能展
5.
行业洞见
行业观察 | 韩林涛:与ChatGPT共舞 行业观察 | “文化的摆渡人”:资深图书翻译践行者梁本彬老师专访(下) 行业观察 | ChatGPT给学者们带来了怎样的担忧? 行业观察 | 大型语言模型在雅信诚医学翻译中的实践,机遇与挑战
行业技术
技术应用 | GPT X 翻译记忆:基于双语翻译记忆进行智能问答 技术应用 | ChatGPT与Xmind梦幻联动生成导图 ChatGPT | 当OpenAI Translator 遇上文学翻译(法译中测试) ChatGPT ⏐ 投喂语料,提升译文质量 ChatGPT | 如何用ChatGPT翻译文史图书
精品课程
5月翻译技术先知 | ChatGPT时代语料库与术语库建设与应用工作坊 倒计时1天|ChatGPT时代翻译技术五一北京研修班(4.30-5.2) 如何借助翻译技术实现协同翻译与资产复用?图书翻译与项目申报工作坊为你分忧! 云端实习营,带你在实践中学习翻译技术~ 一天一块钱,承包全年全方位语言服务知识学习!
资源干货
资源宝库|高级译员的秘密武器——语料库大全集 资源宝库|职业译员杀手锏——术语库全家桶 资源宝库 | 14个英文写作辅助工具 资源宝库 | “库”中自有黄金屋——精选57款数据库带你遍览全球百科 资源宝库|译者用“典”,多多益善——精选31款在线词典
招聘就业1. 招聘快报 | 博硕星睿·翻译技术教育研究院招聘实习生
2. 招聘快报 | 中国外文局招募课程运营实习生3. 招聘快报|中国外文局教育培训中心招聘教研助理实习生4. 不知道去哪找优质实习?硬核语言专业线上实习机会来了!5. 实习资讯 | 疫情阻隔优质实习?硬核语言专业线上实习机会来了!