其他
机器翻译都 60 年了,谷歌为什么还译不对「卡顿」 (下)
上集回顾
机器翻译缓慢发展的六十年
基于规则的机器翻译(RBMT)
基于实例的机器翻译(EBMT)
统计机器翻译(SMT)
翻译时机器仿佛在说:「如果人们这样翻译,我也会这样做」,于是,统计机器翻译诞生。
它的优点在于更有效、更准确,而且不需要语言学家。我们使用的文本越多,我们得到的翻译就越好。
我们决定采取欧洲议会和联合国安全理事会的会议摘要——这些摘要均以所有成员国的语言呈现,能给素材搜集节省大量时间。
基于单词的 SMT
为了解决这个问题,模型3中又在前面基础上添加了两个步骤:
1. 如果机器考虑到需要加入一个新词,则 NULL 标记插入;2. 选择正确的语法或单词对每一个词对齐。
因此,模型 4 考虑到这个「相对秩序」——如果两个词总是互换位置,模型就会知道。
基于短语的SMT
因此,这些翻译系统翻译的结果要么完美无暇,要么毫无意义,没错,这就是短语翻译的特点。
基于句法的 SMT
通过使用它,机器学习转换语言之间的句法单元,并通过单词或短语来进行翻译。这就能彻底解决「翻译误差」这个问题。
想法很美好,但现实很骨感,语法分析工作得非常糟糕,即便它的语法库问题此前已经解决了(因为我们已经有了许多现成的语言库)。
神经机器翻译(NMT)
如果我们可以将样式转移到照片上,如果我们试图将另一种语言强加给源文本会怎样?文本将是精确的「艺术家的风格」,我们将试图在保留图像的本质的同时将其转移(换句话说,就是文本的本质)。
谷歌翻译(2016 年以来)
他们不仅把句子分开,而且还把单词分开,这也是他们如何处理一个罕见单词的做法。当单词不在字典里时,NMT 是没有参考的。比如翻译一个字母组 「Vas3k」,在这种情况下,GMNT 试图将单词拆分为单词块并恢复它们的翻译。
谷歌在网上使用众包机制,人们可以选择他们认为最正确的版本,如果有很多用户喜欢它,谷歌就会一直用这种方式来翻译这个短语,并且用一个特殊的徽章来标记它。这对于日常的短句,如「让我们去看电影吧」或者「我在等你」这样的短句非常有用。
Yandex 翻译(2017 年以来)
机器翻译的未来
补充阅读
《Statistical Machine Translation》
Philipp Koehn 著
关注公众号,回复「统计机器翻译」下载 PDF 版本
—— 完 ——
扫描二维码,加入 AI 讨论群
获得更多优质数据集
了解人工智能落地应用
关注顶会&论文
回复「读者」自动入群