查看原文
其他

书籍推荐 | 一部不止于技术的神经机器翻译“百科全书”

2022年7月,Meta(原Facebook)AI 发布了一个大规模机器翻译模型NLLB-200,该模型在神经网络架构上混合了稠密和稀疏神经网络,参数规模达545亿,在覆盖202种语言、2440个语向的180亿平行句对上进行训练,训练后的单一模型可支持所有覆盖语言之间的的自动翻译(即202X201=40602个语向的互译)。
该模型的名字是英文No Language Left Behind的缩写,体现了机器翻译实现世界上所有语言互译的美好愿景。
历经70载,机器翻译进入深度学习驱动时代
机器翻译诞生于二十世纪四五十年代,纵观机器翻译70多年的发展历程,从最初的朴素统计模式,发展到基于规则的机器翻译、统计机器翻译,再到目前的深度学习驱动的神经机器翻译,不同技术范式在不同历史时期各领风骚。
(图源:https://acutrans.com/top-10-most-commonly-spoken-languages-in-the-world/)
目前机器翻译的主流技术范式——神经机器翻译——是一种基于神经网络的端到端机器翻译模式。区别于前代的统计机器翻译采用的多步骤级联方式,神经机器翻译只需要输入源语言句子,就能直接输出目标语言序列。
如下图所示,其基本思想是利用神经网络对源语言进行编码得到源语言的语义表示,然后根据该语义表示解码生成目标语言。这种端到端模式使模型可以一次性整体训练,既避免了传统级联方式的错误传递,也大大降低了模型训练和部署的烦琐程度。
(来自书中图4.1:神经机器翻译结构示例)
时至今日,神经机器翻译已成为在线机器翻译的主要引擎,每天以数千亿单词量的翻译规模服务全世界各地用户。
但即便如此,机器翻译仍然存在诸多挑战和难题。
一方面,全世界在使用的语言有几千种,即使像NLLB这样的大规模模型,目前也只能覆盖200余种语言,占比不到已有语言的1/30,大量语言在机器翻译版图里仍然被“Left Behind”。
另一方面,神经机器翻译虽然显著提升了译文质量,但仍然面临鲁棒性、可解释性、广域语境依赖性、多模态、资源稀缺等多种挑战和开放问题。
《神经机器翻译:基础、原理、实践与进阶》正是在这样的背景中写就的。
“百科全书”式内容,展现神经机器翻译全景视图
该书为实践者总结已有技术,为研究者梳理前沿进展,并站在机器翻译历史发展的角度,对比不同机器翻译范式,希望读者能从对比中窥见技术发展的内在原因和规律,以此吸引更多机器翻译爱好者为实现所有语言互译的美好愿景添砖加瓦。
全书分为基础篇、原理篇、实践篇和进阶篇,覆盖神经机器翻译的基础知识、经典框架、原理技术、实践方法与技巧,以及无监督神经机器翻译、多语言神经机器翻译、语音与视觉多模态机器翻译等前沿研究方向。
全书理论与实践相结合,基础与前沿相交映。
技术与短评双主线叙事,不止于技术
除此之外,本书的一个特色是在每一章均附有一篇短评,针对相应章节的主题,介绍和评论神经机器翻译技术背后的历史、故事、思想、哲学、争议和规范等。短评与全书内容相交错,使读者对神经机器翻译技术不仅知其然,而且知其所以然。
适读人群
本书适合高等院校计算机专业高年级本科生,以及人工智能、自然语言处理方向的研究生阅读,也可供机器翻译研究者、实践者、使用者,以及机器翻译行业的管理者、人工翻译研究人员等对机器翻译技术感兴趣的读者参考。
作者介绍
熊德意
天津大学智能与计算学部教授、博士生导师、自然语言处理实验室负责人,天津大学“语言智能与技术”中外联合研究中心主任,中译语通-天津大学自然语言处理联合实验室主任、中译语通人工智能首席科学家。
主要研究方向为自然语言处理,特别专注于机器翻译、对话、问答、自然语言生成、常识推理、认知计算等方向的研究。在Computational Linguistics、IEEE TPAMI、AI、AAAI、ACL等国际著名期刊和会议上发表论文100余篇,在Springer出版英文专著一部。
获得国家自然科学基金优秀青年科学基金、国家重点研发计划“政府间国际科技合作创新合作”重点专项、英国皇家学会牛顿高级学者基金等资助。
获得新加坡资讯通信研究院2008年年度研究贡献奖、北京市科学技术奖二等奖、中文信息学会“钱伟长中文信息处理科学技术奖-汉王青年创新奖”一等奖等奖项。
曾是亚洲自然语言处理联合会AFNLP干事、新加坡中文与东方语文信息处理学会理事会成员,目前是中国中文信息学会理事。担任IALP 2012&2021程序委员会共同主席,CWMT 2017程序委员会共同主席,欧盟多国联合项目QTLeap咨询专家,ACL、EMNLP、NAACL、COLING等多个知名国际会议领域主席,以及TACL和ARR的Action Editor等。
李良友
华为诺亚方舟实验室研究员、机器翻译团队负责人。在欧盟玛丽居里项目资助下,于2017年获得都柏林城市大学计算机博士学位。
主要研究方向为自然语言处理,特别专注于机器翻译相关技术领域的研发。在ACL、EMNLP等多个国际著名会议和期刊上发表论文10余篇,并担任ACL、EMNLP等国际会议领域主席和会议审稿人。 
张檬
华为诺亚方舟实验室研究员。于2018年获得清华大学计算机科学与技术系博士学位。
主要研究方向为机器翻译和跨语言自然语言处理。在ACL、EMNLP、AAAI、TASLP等国际著名会议和期刊上发表论文10余篇。
曾获中国中文信息学会优秀博士学位论文提名奖。担任ACL、EMNLP、AAAI、IJCAI等多个知名国际会议审稿人。

本文友情转载于公众号@博文视点Broadview,点击阅读原文可获得电子工业出版社专属购买链接。

- END -


本文转载自:机器翻译观察公众号

原文来源:博文视点Broadview公众号

转载编辑:Young


关注我们,获取更多资讯!

【往期回顾】

行业动态

最新发布!2022翻译专业软科中国大学排名

2022-2023年中国大学本科翻译专业排名

完整版南大核心(2021-2022)期刊目录

2022年国内招收翻译学方向博士研究生博导名单汇总

行业动态|第六届《翻译界》高端论坛暨全国翻译难点研讨会

行业观察

如何成为一名优秀的译员?

考上翻译硕士后,你可以怎么学?

行业观察 | 舜禹环球通:什么是持续本地化?

行业观察 | 黄友义:如何突破中外文化差异,让世界更了解中国?

行业观察 | 李长栓:机器翻译取代人工可能永远无法实现

精品课程

翻译技术实习营首期圆满收官!第二期报名已开启!

实习就业

实习就业 | 上海迪士尼度假区招募口笔译专员

招募 | 国际合作研修项目英语班项目助理6名,可提供实习证明

招聘 | 中国翻译研究院公开招聘,研究岗、项目管理岗各2名

招聘快报 | 上外语料库研究院胡开宝教授团队招聘科研实习生

招聘快报 | 慧澜国际招募口译/笔译兼职译员

技术科普

WantWords反向词典,内含开发团队公开文档

如何快速查证中国特色词汇的官方表述?

同是谷歌翻译,为何结果不同?

收藏|翻译人常用的十大权威词典

云译客“人机共译”可以怎么用?一文为你解析

继续滑动看下一个
语言服务行业
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存