查看原文
其他

【邓侃】哈佛大学机器翻译开源项目 OpenNMT的工作原理

2016-12-26 邓侃 新智元

 新智元专栏  

作者:邓侃


【新智元导读】 2016年12月20日,哈佛大学自然语言处理研究组,宣布开源了他们研发的机器翻译系统 OpenNMT ,并声称该系统的质量已经达到商用水准。本文作者邓侃基于OpenNMT背后的论文,尝试对该机器翻译系统的原理进行分析。




一. 哈佛大学机器翻译开源项目 OpenNMT


2016年12月20日,哈佛大学自然语言处理研究组,宣布开源了他们研发的机器翻译系统 OpenNMT [1],并声称该系统的质量已经达到商用水准。




在 OpenNMT 官网上,有这么一段话,

The main model is based on the papers "Neural Machine Translation by Jointly Learning to Align and Translate" Bahdanau et al. ICLR 2015 and "Effective Approaches to Attention-based Neural Machine Translation" Luong et al. EMNLP 2015


我们阅读一下这篇论文,"Neural Machine Translation by Jointly Learning to Align and Translate" [2],了解 OpenNMT 的工作原理。

 

二. 机器翻译的任务和难度


翻译有三个境界,信、达、雅。信者,语义正确。达者,无过无不及。雅者,文学性。


机器翻译的任务很明确,譬如英翻中,输入一句英文(Source),输出一句中文(Target),两者语义相同,也就是符合 “信” 和 “达” 的要求,暂时不奢望达到 “雅” 的境界。


早先的机器翻译,通常用统计翻译的办法来实现,精度不高。近年来,神经机器翻译的新方法,逐渐取代了原先的统计翻译的办法。


神经机器翻译(Neural Machine Translation,NMT)的基本原理,是把用一种自然语言写成的句子 X,先编码(encode),转换成一组向量 H,向量组 H 不仅包含 X 语句中每一词的语义,而且也包含词与词之间的语法结构。然后再把向量组 H 解码(decode),转换成用另一种自然语言写成的句子 Y。


举个英翻中的例子,英文源句是,“Quite cold today in Beijing, keep warm when going outdoors。” 中文译句是,“今天北京天气很冷,出门时要保暖。”


先把英文源句中每个单词和标点,按顺序编码成数字向量组 H。在这个例子中,向量组 H 共包括 12 个向量,每个向量的维度人为确定,譬如 600 维。然后再把这个 600 * 12 向量组,解码成中文译句。


换而言之,向量组是超越一切自然语言的数字语言。所谓翻译,就是把一种自然语言,先编码成数字语言,然后再从数字语言解码成另一种自然语言。


不管是哪一种机器翻译方法,都面临以下挑战,


1. 输入的语句往往不规范,也就是不完全符合语法规则。譬如上面的例子,缺失了主语。

2. 有些语言有阴性阳性、单数复数、过去时完成时现在时未来时之分,其它语言不一定有。所以不能逐字逐句翻译,要结合上下文。

3. 有些语言的句法,按主谓宾顺序排列,有些则把动词放在句尾。譬如德语和日语,谓语放在句子末尾。

4. 句子长短不一。长句子可能包含多个从句,句法成分复杂。


三. 编码的工作原理


编码的任务,是把语句 X 转换成向量组 H,这个工作由一个双向循环神经网络(EncoderBiLSTM)来完成。编码包含以下几个步骤。


1. 假如语句 X 由 Tx 个词组成,把每个词都转换成词向量。这样,语句 X 就变成 f * Tx 的矩阵,f 是词向量的维度,Tx 是语句 X 中词的数量。x(t) 是指这个矩阵的第 t 列,也就是对应于第 t 个词的词向量。


2. 把第 1 个词向量 x(1),输入到 EncoderBiLSTM,得到输出 hf(1)。重复这个过程,逐个输入语句 X 中所有词向量 x(2) ... x(Tx),得到一系列向量 hf(1), hf(2) ... hf(Tx),每个向量 hf(i) 的维度都是 k。


3. 从语句 X 的最末端的词 x(Tx) 开始,反向到第 1 个词 x(1),逐个输入到 EncoderBiLSTM,得到一系列输出 hb(Tx), hb(Tx-1) ... hb(1),每个向量的维度也是 k。


4. 对应于语句 X 中每一个词向量 x(t),把 hf(t) 和 hb(t) 拼接起来,得到 h(t),它的维度是 2k。 


语句中第 t 个词的词向量是 x(t),x(t)  隐含着第 t 个词的语义信息。h(t) 比 x(t) 更超越。h(t) 不仅隐含着第 t 个词的语义信息,而且除此之外,h(t) 还隐含着上下文的语义信息,以及上下文的语法结构。


把 h(t) t=1...Tx,摆放在一起,组成一个 2k * Tx 的矩阵,h(t) 是其中一列。这个矩阵,就是向量组 H。H 表达着自然语句 X 的全部语义和语法结构。


四.  解码的工作原理


解码的任务,是先把向量组 H 转换成一连串词向量 y(t) t = 1... Ty,然后再把这些词向量 y(t) 逐个替换成译句中的某个单词。解码的工作由一个单向循环神经网络(DecoderUniLSTM)来完成。


沿用前面的英翻中的例子,英文源句是,“Quite cold today in Beijing, keep warm when going outdoors。” 中文译句是,“今天北京天气很冷,出门时要保暖。”


编码工作完成后,英文源句转换成 600 * 12 的向量组 H,h(1) ... h(5) h(6) 分别对应着 “Quite” ... “Beijing” “,” 。中文译句的词序,与英文源句的词序并不完全一致,譬如中文翻译的第一个词,并不是 “很” 而是 “今天”。


在选择中文译句的第一个词的时候,先对 h(1) ... h(12) 逐个打分,看谁最适合。打分的规则,先看谁是第一个从句的主语。因为英文源句中主语缺失,所以接着尝试第二个规则。第二个规则是当主语缺失时,中文会把时间或地点用来充当主语。根据这个规则,中文译句的第一个词,既有可能对应着 “today”,也有可能对应着 “Beijing”。再根据第三个规则,在所有候选词中,谁的排序靠前,谁充当译句的第一个词。所以,最后确定中文译句的第一个词,对应着 “today”。


推而广之,翻译的难点,在于选择源句中对应的词向量。对应(alignment)的强弱,由四个因子决定。


1. 源句中每一个词,在语句中担当的语法角色,譬如是主语,还是谓语,或者宾语,或者从句中的主语谓语或者宾语。

2. 源句中每一个词的语义类别,譬如是时间,还是地点。

3. 译句中已经翻译了源句中哪些词。

4. 译句中期待的下一个词的语法角色和语义类别。


不妨用公式来表达,score( h(i) ) = align( s(t-1), h(i) ) = Va' * tanh( Wa * s(t-1), Ua * h(i) ),其中 Va、Wa、Ua 是需要训练的参数,而 s(t-1) 是译句的状态,它隐含着若干内容:


1. 译句中已经翻译了的词,y(1)...y(t-1) 。

2. y(1)...y(t-1) 对应着源句中的哪些词向量 h(j) 。


沿用前面的例子,如果中文译句已经翻译了若干词,“今天北京天气很”,接下去要决定 “很” 后面紧跟的中文词,对应着源句中的哪一个英文词,正确答案是 “cold”。


为了正确地选择下一个词,我们给源句中每一个英文词的词向量 h(i),都打一个分,分值取决于中文译句到目前为止的状态 s(t-1),与英文词向量 h(i) 的距离。译句状态 s(t-1),记录着 “今天北京天气很” 的语义内容和语法结构,也记录着这几个词对应着英文源句中的 “Quite ... today in Beijing”。


对应着 “Quite” 的 h(1),与 s(t-1) 的距离,由 score( h(i) ) 公式计算得出。如果 Va、Wa、Ua 这几个参数取值得当,“Quite” 的 h(1),与 s(t-1) 距离会很远。同理,对应着 “keep” 的 h(7),与 s(t-1) 距离也很远。而对应着 “cold” 的 h(2),与 s(t-1) 的距离最近。这样,就能正确地选择 “cold”,作为要翻译的下一个词。


总结一下,假如已经翻译了若干词,y(1)...y(t-1),下一步的解码工作,包含以下几个步骤。


1. 根据 DecoderUniLSTM 当前的状态 s(t-1),给向量组 H 中每一个向量 h(i),都打一个分,表示下一步要翻译这个词的概率。


2. 根据向量组 H 的加权和,更新 s(t-1),得到 s(t)。


3. 根据三项输入,DecoderUniLSTM 下一步预期的 s(t),向量组 H 的加权和,以及目前已经翻译了的 y(1)...y(t-1),决定下一步要翻译的词 y(t)。


4. 完成了整个译句的所有词向量 y(t), t = 1...Ty 后,把 y(t) 转换成译句的单词。


五. 训练数据


无论是编码器 EncoderBiLSTM,还是解码器 DecoderUniLSTM,都有很多参数需要确定。确定这些参数的最优值,需要大量的语料。[2] 使用的语料是同时兼有英文版和法文版的大量新闻稿,这些双语新闻稿共包含 3.48 亿个单词。


六. 参考文献


[1] OpenNMT, An open-source neural machine translation system by Harvard NLP.

     http://opennmt.net/


[2] Neural Machine Translation by Jointly Learning to Align and Translate

     https://arxiv.org/abs/1409.0473




新智元招聘


职位  运营总监


职位年薪:36- 50万(工资+奖金)

工作地点:北京-海淀区

所属部门:运营部

汇报对象:COO

下属人数:2人

年龄要求:25 岁 至 35 岁

性别要求:不限

工作年限:3 年以上

语  言:英语6级(海外留学背景优先)


职位描述


  1. 负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作,人工智能及机器人产业方向

  2. 擅长开拓市场,并与潜在客户建立良好的人际关系

  3. 深度了解人工智能及机器人产业及相关市场状况,随时掌握市场动态 

  4. 主动协调部门之间项目合作,组织好跨部门间的合作,具备良好的影响力

  5. 带领团队完成营业额目标,并监控管理项目状况

  6. 负责公司平台运营方面的战略计划、合作计划的制定与实施


岗位要求


  1. 大学本科以上学历,硕士优先,要求有较高英语沟通能力

  2. 3年以上商务拓展经验,有团队管理经验,熟悉商务部门整体管理工作

  3. 对传统全案公关、传统整合传播整体方案、策略性整体方案有深邃见解

  4. 具有敏锐的市场洞察力和精确的客户分析能力、较强的团队统筹管理能力

  5. 具备优秀的时间管理、抗压能力和多任务规划统筹执行能力

  6. 有广泛的TMT领域人脉资源、有甲方市场部工作经验优先考虑

  7. 有媒体广告部、市场部,top20公关公司市场拓展部经验者优先


新智元欢迎有志之士前来面试,更多招聘岗位请访问新智元公众号。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存