其他

CNN超越RNN:DeepL机器翻译碾压谷歌、Facebook和微软

2017-09-04 全球人工智能 信息史学

“全球人工智能”拥有十多万AI技术用户,核心用户来自:北大,清华,中科院,麻省理工,卡内基梅隆,斯坦福,哈佛,牛津,剑桥......以及谷歌,腾讯,百度,脸谱,微软,阿里,海康威视,英伟达......等全球名校和名企。


加入AI企业高管群>>

加入AI技术专家群>>

谷歌、微软、Facebook等科技巨头都将机器学习应用于翻译,但是一家名叫DeepL的小公司已经超越它们。DeepL开发的翻译工具与谷歌等的竞争产品一样快,但其准确度和对翻译内容的微妙把握比我们尝试过的任何翻译工具都更好。


我除了英文,只会讲一些法语,但幸运的是,我的同事Frederic会讲很多国家的语言。我们都认为DeepL的翻译总体上优于谷歌翻译和Bing翻译。


我们找了几段德语的新闻,分别用DeepL翻译和谷歌翻译翻译成英文,结果如下:



上:DeepL的翻译结果;下:谷歌翻译的翻译结果


Frederic对这两段的翻译评价道:“谷歌的翻译往往是按字面意思非常直接地翻译,这会错过一些微妙的表达和成语(或把成语翻译错),DeepL通常能提供更自然的翻译结果,更接近一位受过训练的人类译者的翻译。”


第二句话的分析更自然;该措施是“旨在”完成某事而不仅仅是正在做某事;警察“在路上开着装甲车”,而不仅仅是在车上;“martial appearance”这个词虽然不够好,但远远优于“fighters”......


我自己用一些我很熟悉的法语文学作品进行了一些测试,同样,我认为DeepL的翻译结果优于其他。它在时态、意图、一致上犯错误更少,能更好地理解和翻译成语,因此翻译结果更具有可读性。DeepL自己的盲测也是如此。你可以在DeepL主页自己测试一下:https://www.deepl.com/translator

被选为最好的翻译的概率


BLEU 分数


确实,就算译文出现上文提到的那些类型的错误,意思还是可以成功地传达到的,正如我们用最烂的机器翻译程序也能够传达意思。


DeepL的诞生来自同样优秀的Linguee,这是一个已经有许多年头的翻译工具,虽然挺受欢迎,但从未达到谷歌翻译的受欢迎程度——后者毕竟在品牌和地位方面都具有巨大的优势。Linguee的联合创始人Gereon Frahling原来在Google Research工作,但在2007年离职创办Linguee。


该团队多年来一直研究机器学习与他们核心的机器翻译相关的任务,但去年,他们才开始认真研究一个全新的翻译系统,并创办一个新的公司,两者都被命名为DeepL。


Frahling在一封电子邮件中告诉我,现在时机已经成熟:“我们已经创建一个神经翻译网络,其中包含了大量最新的研究成果,我们也添加了自己的想法。”



在盲测中,翻译员更倾向于选择DeepL Translator的翻译结果,比例大概在3:1。

 

为了训练我们的神经网络,我们在冰岛搭建了超级计算机,每秒能执行5.1peta 浮点运算。在当前的TOP 500 超级计算机排名上排在23名。


随着计算能力在一秒内翻译100万字; DeepL Translator可以每天帮助世界各地的数百万人。


神经网络的性能取决于其训练的材料的质量。 DeepL的神经网络训练了搜索引擎Linguee提供的数十亿高质量翻译句子。这给了DeepL一个无可比拟的优势。



他们有超过包含10亿翻译和查询的巨大数据库,通过搜索网络上类似的文字片段,为新模型的训练提供了坚实的基础。他们拥有声称是世界上第23强大的超级计算机,位于冰岛。


大学、研究机构以及Linguee的竞争对手们发表的最新研究表明,卷积神经网络(CNN)是更好的途径,而不是该公司一直使用的循环神经网络(RNN)。这篇文章不是要说CNN和RNN之间的差异,只需说对于较长的、有较复杂相关性的句子来说,CNN是更好的选择。


一个CNN可以粗略地说是一次处理句子的一个词。例如,经常出现的情况是,句子的最后一个词决定了句子最开头的字的形式,这就会出问题。只是为了发现网络选择的第一个词是错误的,需要通过整句话,然后再重新处理一遍,这就造成了浪费。因此,DeepL和机器学习领域的其他人应用“注意力机制”来监控这种潜在的问题,在CNN移动到下一个单词或短语之前就解决这些问题。


当然,他们还有其他的秘密技巧,他们的结果是做出了这个翻译工具,我个人是打算用作我的默认翻译工具了。期待其他工具更进一步。


原文:https://techcrunch.com/2017/08/29/deepl-schools-other-online-translators-with-clever-machine-learning/

《全球人工智能》开始招人啦!


一、1名中文编辑(深圳):熟悉国内AI技术媒体、企业,对AI有一定了解,有非常强烈的兴趣进入这个行业,学习能力强,负责中文类AI技术新闻采编。待遇:5-10k

二、1名英文编译(深圳):英语水平能看懂英文的新闻,对AI有一定了解,有非常强力的兴趣进入这个行业,学习能力强,负责英文类AI技术新闻采编和兼职翻译管理。待遇:6-10k

三、1名课程规划(深圳):计算机相关专业,对人工智能技术有浓厚兴趣,能对ai技术进行系统化梳理,对培训教育比较感兴趣,学习能力强。负责技术课程的梳理和规划。待遇:6-10k

四、1名导师管理(深圳):沟通能力强,能善于负责人工智能技术专家的拓展、关系维护、培训沟通、课程时间协调等工作。待遇:6-10k+提成

五、2名渠道商务(深圳):有一定渠道商务拓展或销售经验,对新生事物比较敏感,熟悉线上线下渠道拓展业务。待遇:6-10k+提成

简历发送mike.yu@aisdk.com

热门文章推荐

厉害|百度28位离职技术大牛和他们创建的AI公司!

一AI工程师下载200万GB色情内容,只为学习Python!

推荐|变形卷积核、可分离卷积?CNN中十大操作!

她:13岁造飞机,17岁进MIT,22岁到哈佛读博!

火爆了!全球最火爆的人脸识别技术应用: FaceDance Challenge!

厉害!科大讯飞市值奔1000亿,市盈率达400倍成“妖股”!

残酷!如果你35岁破产,你还有多大可能逆袭?

重磅!大数据告诉你:逃离北上广,他们都去了哪里?

推荐|斯坦福2017春季CS231n深度视觉识别课程视频

行情|年薪30万-50万,大数据人才缺口150万!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存