天下 | “一带一路”需过语言关 网络机器翻译蓄势待发
上周,“陕西省翻译协会丝绸之路研究中心”成立大会在西安隆重举行。学术界、翻译界、文化外交界、企业界及媒体代表50余人出席。成立大会由陕西省翻译协会常务副主席马珂主持,省翻译协会主席安危向丝绸之路研究中心主任陈孝英、执行主任张艳授牌,并举行了聘书颁发仪式。会上陕西翻译协会秘书长高敏娜宣读了《关于设立陕西省翻译协会丝绸之路研究中心的决定》。
陕西省翻译协会丝绸之路研究中心的成立,是对国家“一带一路”战略的积极响应,旨在开展有关“一带一路”的翻译、研究工作,加强同沿线各国的经贸、文化交流,实现资源共享、优势互补,共同解决区域发展中现实而又紧迫的重大问题,共同构建学术研究与经济发展的对话平台,开展各种形式的学术交流和政府、企业、学术界的对话,力争把研究中心打造成为特色鲜明的丝绸之路研究高地,同时借助这一平台,吸引国内外专家、学者为丝绸之路经济带建设建言献策。
陕西省翻译协会丝绸之路研究中心主任陈孝英表示,翻译协会拥有一大批优秀的外语翻译人才,这就使研究和交流工作具有更大的便捷性和高效率,具有更加充分的开放性和兼容性,拥有更多的现代意识和全球眼光。他希望,能把陕西省与丝绸之路沿线各国之间的文化交流和经贸交流二者紧密结合起来。
思考
机器翻译将大有用武之地
具有深远意义的“一带一路”战略构想涉及俄罗斯、印度、泰国等超过六十个国家,近四十亿人口,四十多种语言,将极大的促进沿线各国的深度合作和交流。提到合作与交流,首先摆在我们面前的便是语言问题。如何跨越语言障碍,实现各国互联互通呢?全球一体化时代,单靠人力显然是不能完成这样的艰巨任务。好在科技的进步给我们提供了解决方案,以机器取代人,让机器扮演翻译这一重要角色,不仅具有很强的战略意义,在实际经济和文化生活中也举足轻重。
爆发式增长的数据规模给机器翻译带来新的想象空间,先进的机器翻译背后蕴含着怎样的高科技呢?下面我们一探究竟。
【互联网学霸:高质量翻译知识获取技术】
蹒跚学步是新生儿必须经历的过程,当一个人接触到翻译这个工作的时候,熟悉和掌握大量的双语词句就是这个学步的过程。只有了解了大量语句的常用翻译方法,才可以举一反三,融会贯通。我们可以将这个过程理解为“背诵例句”的过程。作为个人,要背诵成百上千的例句就颇为不易,挑灯夜战,痛苦不堪,往往还需要反复背诵以加深记忆。
机器翻译同样有着这样“背诵例句”的过程,所不同的是,它的背诵能力超出了大多数人的想象。
以百度为例,其研发了基于互联网大数据的高质量翻译知识获取技术,突破了传统翻译知识获取规模小、成本高的瓶颈。互联网就是其机器翻译的语料库的来源,而基于网页自主拓扑结构和内容互译计算的语料获取方法,也解决了互联网翻译知识质量控制的难题。
这样的机器翻译“背诵例句”的规模有多大?通过一个数据可以窥豹一斑:“例句”的数量如果按照字数换算成《大英百科全书》,翻译系统在一周内学习的内容相当于千万部《大英百科全书》。
即便是最强悍的人类学霸,在这种规模的语料学习前也将一败涂地。
【翻译方法的突破:基于互联网大数据的翻译方法】
如果将互联网大数据比喻为浩瀚的大海,传统方法犹如一叶扁舟,难以应对互联网大数据带来的冲击。要想显著的提高翻译质量,必须打破传统方法的束缚,打造能够乘风破浪的翻译航空母舰。
百度翻译提出了基于互联网大数据的机器翻译模型,融合了多种翻译策略,并实现了机器翻译云平台与算法的充分优化与融合。一天之内即可完成全网超过2000亿网页双语资源的模型训练,稳定响应每天近亿次的翻译请求。
【举一反三融会贯通:枢轴语言机器翻译技术】
尽管互联网带来了数据量的激增,但是数据量是不均衡的。对于很多小语种而言,互联网上的数据仍然非常匮乏,比如哈萨克语、斯洛文尼亚语、泰语等。俗话说“巧妇难为无米之炊“,如何开发高质量的小语种翻译系统,是一个世界级难题。
不过,通过攻克机器翻译语种覆盖度受限的难题,也能使资源稀缺的小语种翻译成为可能。以枢轴语言为桥梁,充分挖掘“源语言-枢轴语言”以及“枢轴语言-目标语言”之间潜在的对应关系,构建大规模高质量翻译模型。例如,开发高质量的“中-泰”翻译系统,可以以英语作为枢轴语言,通过“中-英”“英-泰“的丰富资源建立”中-泰“翻译模型。
通过以上技术,在小语种资源匮乏的情况下,降低了新语种资源获取和新翻译方向开发的成本,平均11天部署1个新语种。而如果是让人类从零开始掌握一门语言,11天无疑是天方夜谭,即便是对于传统的机器翻译技术来说,新语言部署周期动辄需要数月或数年的时间。
互联网大数据给机器翻译研究带来新的机遇和挑战,使得海量翻译知识的自动获取和实时更新成为可能。
习近平主席对一带一路有一个形象的比喻:如果将“一带一路”比喻为亚洲腾飞的两只翅膀,那么互联互通就是两只翅膀的血脉经络。
编者:dernesch
来源:译世界