查看原文
其他

为你揭开微软AI机器翻译和语言学习助手的研发逻辑

2017-11-28 John Roach 微软丹棱街5号


丹棱君有话说1947 年,美国科学家 W. Weaver 和英国工程师 A. D. Booth 提出了利用计算机进行语言自动翻译的设想,经过 70 年的理论研究和技术突破,目前,计算机语言翻译,依托于人工智能,正从基于短语和句法的模型翻译向基于神经网络的自然语言理解的模式识别的发展。微软,在人工智能领域耕耘 26 年,是如何利用深度神经网络技术,实现 Microsoft Translator 翻译准确率的质变?并开发出了能评估用户发音、节奏和语调人工智能中英文语言学习助手(学习英语的聊天机器人微软小英和学习中文的手机应用 Microsoft Learn Chinese)?其中,中国团队又有哪些特殊的贡献?有请微软研究员 John Roach ~


新一轮的人工智能正助力微软语言翻译技术,实现更多语言的精确语音识别,并为 60 种语言提供更高质量的机器翻译。


“我们正在各个方面进行创新。”Microsoft Translator 产品战略总监 Olivier Fontana 说。随着这些技术运用的不断扩大,机器翻译工具将帮助更多人拓展业务,建立关系和感受不同的文化。


微软在世界各地的研究院正基于这些技术帮助人们学习新语言,其中包括一款帮助人们学习中文的全新手机应用。


https://v.qq.com/txp/iframe/player.html?vid=c0509f279rw&width=500&height=375&auto=0
神经网络


相比传统的统计机器翻译,去年引入深度神经网络的机器翻译更加流畅和人性化。


这两种方法都用到了专业翻译文档的训练算法,因此系统可以学习一种语言中的单词和短语在另一种语言中的表示方法。然而,统计方式仅限于翻译局部语境中的某个单词,常会导致笨拙而生硬的翻译。


神经网络的灵感来自于多语种人类大脑中更自然翻译的模式识别进程。


最近,微软将十多种语言加入了基于神经网络的机器翻译模型,应用规模达到 21 种。根据机器双语互译质量评估工具(BLEU)的评估,基于神经网络的机器翻译在不同语言间互译准确性已提升了 6% 至 43% 。 


“过去一年中,我们在模型中加入了更多的语言,更复杂的模型提升了翻译质量。”微软人工智能和机器翻译研究团队总经理 Arul Menezes 说。现在所有开发者在调用微软翻译服务时,都可以使用基于神经网络的印地语和中文翻译。


机器翻译的流程步骤


机器翻译将一种语言翻译成另一种语言需要若干步骤,每一步都会影响翻译质量。语音翻译的第一步是语音识别,也就是将口语转换成文本。


微软语音翻译使用了一种称为“长短期记忆”(Long Short-Term Memory)的人工智能技术提升语音识别,配合其他数据,能实现深度神经网络模型的语音翻译质量高达 29% 的提升。


Menezes 解释说:“语音翻译的第一步是语音识别,然后才是翻译。如果在语音识别阶段出现错误,下一步这个错误就会被放大,误认一个单词,整句话会变得难以理解。”


机器翻译的第二步是由支持 21 种语言的神经网络模型完成的文本翻译。因为两种语言都会被翻译成英语,即使现有神经网络模型仅支持其中的一种语言,也能明显提升翻译质量。


Meneze 指出,新的神经网络目前已支持荷兰语,目前,工程师们仍在开发支持加泰罗尼亚语的神经网络基础架构。尽管只完成了一半,但用户仍能体验到把荷兰语翻译成加泰罗尼亚文的进步。


语音翻译的最后一步是将翻译好的文本合成为语音。研究人员不断提高合成语音的准确度和自然度。这些改进正在给用户带来高质量的体验,同时开启了学习新语言的方式。


微软小英团队推出中文学习 AI 助手

Microsoft Learn Chinese



如果你真的要学一门外语,绝对少不了实践。难得的是得找到一位既有时间、耐心又有技巧的老师能帮助你练习发音、词汇和语法。


微软正努力为中文学习者们填补这一空白,近日在 iOS 平台上推出了一款名为 Microsoft Learn Chinese 的智能手机应用,这款免费应用将成为一位全天候人工智能语言学习助手。


从左至右:微软亚洲研究院资深开发经理夏炎、副院长田江森、语音组首席研究员宋謌平。

对于语言学习者来说,虽然花费了大量的时间去听老师讲课、观看学习视频、或者背诵词汇和语法,但最终却发现自己仍然无法与母语人士在真实场景中进行对话。项目负责人、微软亚洲研究院资深开发经理夏炎表示,Microsoft Learn Chinese 采用了微软最先进的语音和自然语言处理技术,来帮助学习者解决学习过程和实际交流脱节的问题。


Microsoft Learn Chinese 背后的机器学习模型由微软亚洲研究院语音组首席研究员宋謌平及其团队开发。宋謌平博士表示,Microsoft Learn Chinese 并非想要取代中文老师,它只是作为老师的一个助教,在学习者有时间或者精力练习的时候可以随时帮忙。尽管有“一对一”私人授课,真人老师能够辅导学生口语的时间总是有限的。而借助这款应用强大的语音技术,用户即便没有真人陪伴练习,仍然可以不断提高自己的口语能力。除了开发支持学习中文的机器学习模型,2016 年,宋謌平和团队还在微信平台上开发了学习英语的聊天机器人微软小英。


宋謌平团队利用大量母语人士语音数据训练出深度神经网络模型。利用该模型以及微软亚洲研究院最先进的 TTS 语音合成技术,Microsoft Learn Chinese 可以识别学习者发出的语音,并对发音做出评价,给出一个分数反馈,还会高亮提示需要改进的单词。用户只需要点击界面里的链接即可听到正确发音的音频示例。



针对不同语言水平的学习者,Microsoft Learn Chinese 提供初级和中级两套课程。初级课程主要帮助用户学习简短词句,然后提供跟读和对话练习,以巩固用户刚学过的中文知识。中级课程则是交互式的,旨在帮助用户学习如何驾驭真实世界中的场景,例如租赁公寓和餐馆点餐等。


扫描下方二维码即可下载 Microsoft Learn Chinese 。



为更多领域提供帮助


这个中文学习应用和微软核心的语言翻译服务均由在云端运行的机器智能驱动,便于大家灵活、方便地在公共汽车站,餐厅或会议中心等任何有互联网连接的地方使用。


对于那些翻译内容非常敏感或那些需要翻译服务但没有互联网接入的客户,微软提供了能部署在内部服务器上基于神经网络的翻译服务。Microsoft Translator 产品战略总监 Olivier Fontana 指出,“人工智能正在赋能越来越多的领域和语言。”


了解更多:




后台入驻微软小冰

如果你很萌,请跟她一决高下!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存