1949年7月15日,利用计算机进行语言自动翻译的想法被提出,机器翻译的种子从那时起生根发芽,逐渐枝繁叶茂。如今,我们更是常常躲在它的树荫下,享受着技术带来的便利。今天就跟着小编一起了解一下,这项技术是如何起步的,在初期又是如何挣扎前进的。
机器翻译思想提出71周年 |破土而出的机器翻译
Warren Weaver
1949年7月15日,瓦伦·韦弗(Warren Weaver)于《翻译备忘录》中提出了四条机器翻译思想:
语言和逻辑:需要对语言做出基于逻辑的句法或者语义分析。
基于香农(Claude Shannon)的信息论(information theory),从密码学的角度提出了语言统计语义的性质。
普遍语言:语言之间需要有通用性的表达。
这四条思想为后来的机器翻译研究提供了思想框架,韦弗也因此被称为“机器翻译之父”。
IBM 701
那么,机器翻译这项技术又是如何从一个从牙牙学语的孩童成长为一个对社会有用的优秀青年的?您接着往下看
小“艾姆涕”成长记
——从基于规则,到基于统计模型,再到基于神经网络
机器翻译技术的迅速发展始于70 年代,我们可以把它的发展看成是一个孩子的成长故事,就暂时给他起名叫做“艾姆涕”吧(源于machine translation 缩写MT)。
最一开始的时候,艾姆涕有些笨拙,是个只会翻字典找对应的孩子。可以想象这个孩子翻译出的内容一定是粗糙的:用词不精准,句法不连贯,内容表达不清晰。
随着艾姆涕渐渐长大,他发现了词与词之间的规律,能够将词语组合成词组和短语进行翻译,翻译的句子有很大进步。但很快,这种方法遇到了瓶颈。规则多到难以记住,而且这些规律很难全面覆盖不断演化的语言。这种方法准确率虽然有进步,但是依然达不到可用的预期。
后来,他学会了数学和统计,于是他开始一点点构建统计模型,希望以此提高翻译的准确度。他最先尝试逐词翻译,可是翻译出的内容经常驴唇不对马嘴,让人啼笑皆非。于是,他开始以短语为单位重新建模,这一次的效果好多了。
然而,随着年龄的增长,世界对他的要求也越来越高,给他的句子也越来越长。为了确保句子的连贯性,艾姆涕开始逐渐尝试以句子做单位,并能翻译出句中各短语之间的逻辑关系。听人说,他这方法这就像人类的神经网络一样,非常的厉害。
尽管如此,还是有人会问:“艾姆涕啊,你不熟悉的、从来没学过的语言,你能不能翻呢?” 艾姆涕先是愣了一下,然后从容且迅速地给出了答案:“能”。艾姆涕说,他掌握的是学习的方法,能够快速阅读新知识,学习新的翻译技能,并且在习得的语言中,已经积累了很多翻译技巧,能够运用到新语言翻译中去。
随着,技术理论不断革新、国内外众多相关学术专家持续实践,艾姆涕已不再仅仅局限于科学研究,更是趋于大众化、平民化、市场化。如今的艾姆涕已成长为一位才华出众的青年,成为大家寻求翻译帮助的第一对象。
💗
💗
💗
往期精彩
漫谈小牛翻译|在线机器翻译能力免费开放,良心“福利”在哪里?
NLP领域预训练模型的发展及变种
源和目标语句不再独立,联合表示更能提升机器翻译性能