查看原文
其他

行业观察 | 李佐文:语言智能和语言服务出口



李佐文:语言智能和语言服务出口


今天我向大家汇报一下“语言智能和语言服务出口”,试图从一些理论上或从道理上来讲一讲智能和服务的问题。

首先我们先讲语言智能,语言智能通常叫做language intelligence。语言智能是随着人工智能的发展而提出的。人工智能从计算智能(computational intelligence)到达感知智能,就是我们现在所说的人脸识别和语音识别等等,到现在的认知智能(cognitive intelligence),那么发展到认知智能的时候提出来了“语言智能”这样一个概念。

早在1950年,当时最早的时候是图灵测试,图灵测试是个什么测试?它就是说当通过人机对话来判断机器是否有智能,它能够和人一样进行人机对话的时候,那就说明这个机器有了智能,这是机器的智能。那么语言是人们交流思想的一种媒介,也是反映人类的认知过程和思维的方式。语言和认知思维之间的这种密切的联系,使得关于“智能”的研究,也就是intelligence这样一个术语,成为了历久弥新的话题,永远是非常令人着迷的一个领域,也使人机交互,自然语言处理的研究者,在专注于实用化语言技术处理的同时,重新审视语言智能的内涵和目标。

在我国,“语言智能”这一术语近几年才提出来,我们刚才也提到了,是在发展到认知智能的时候才提出来的。2013年,在北京的语言智能会议上提出了“语言智能”这个概念。语言智能作为一种机器的认知智能活动,一直被认为是AI(artificial Intelligence)的核心话题。

我国学者周教授提出过几次关于语言智能的概念问题,他认为语言智能就是语言信息的智能化处理,是运用计算机信息技术来模仿人类的智能,分析和处理人类的语言的一门学问。周教授属于语言学领域的学者,实际上在人工智能领域,语言智能主要体现为 NLP(Natural Language Processing),是指用计算机等工具分析和生成的自然语言(包括文本和语音文件),从而让计算机理解和运用自然语言,可以让人类通过自然语言的形式和计算机系统进行智能交互。这是人工智能领域的专家黄河燕教授提出来的一个概念。

国外对语言智能的研究实际上已经很早起步了,我们国内对语言智能的重视还有一定的提升空间。那么国外的语言智能应用研究主要体现为语言技术与自然语言信息处理,特别是在language technology这方面,比如说美国的卡内基梅隆大学,它的计算机学院设立了语言技术研究所——Institute of Language Technology;斯坦福大学的人工智能实验室,设有专门的NLP研究小组,那么还有麻省理工学院(MIT)在计算机科学与人工智能实验室里边设有人机互动机器人学等这样的研究领域;爱丁堡大学的语言智能研究也做的不错,爱丁堡大学设有语言认知和计算研究所,叫做Institute of Language,Cognition and Computation;Joins Hopskin大学设有语言和语音处理研究中心;马里兰大学(University of Maryland at College Park)设有计算语言学(computational linguistics),还有信息处理的实验室;宾夕法尼亚大学设有自然源处理研究所等等。事实上,美国对语言智能的研究最早是应用在军事领域,很早就启动了语言智能处理的项目,结合了一些计算机科学认知科学语言学领域的一些成果。因为它在军事上应用的非常的广泛和先进,所以目前它的语言智能的研究还属于比较领先的地位。

可以看出来,国内外对语言智能的理解,也就是我刚才提到的language intelligence,还主要集中在智能语言处理技术层面。那么我今天提出来的,不仅仅包括语言智能的研究,不应该仅仅局限于语言技术的层面。无论是人的智能(human intelligence)还是人工智能(artificial intelligence)都涉及语言处理的问题,智能的问题应该是知识的获取、处理和应用的过程。人在获取知识的阶段,主要媒介是语言。人们依赖语言来形成概念,对世界进行分类概括,从而形成认知。

我常说“山本没有腰人有腰”,这种概念的投射形成了“山腰、山脚”这样的说法,这是认识形成的概念。我们说飞碟是UFO,它本不是碟,是我们这么认识它的,是unidentified flying object。它是不明的,所以我们是这么来认识它的,所以在知识应用阶段我们依然是用语言来表达思想和概念。

语言的学习和使用也是人类的智能活动,到目前为止,乔姆斯基研究这么多年的语言到底是怎么学会的,怎么习得的,语言知识是怎么储存的,应用的,目前还是一个迷人的领域。语言的生成和理解需要借助脑科学、神经认知科学等领域的研究成果,机器要与人进行交互,也要理解和生成自然语言。因此自然语言处理被称为是人工智能皇冠上的明珠。我想要表达的意思是,语言智能应该是智能科学的一个重要组成部分,最近我的一篇文章讲的就是语言智能的学科建设问题。大家都知道刚刚公布的学科专业目录,郭教授刚才也提到了,目录里边设置了智能科学与技术这样的一个交叉学科。我认为语言智能应该在智能科学与技术下边至少设立一个二级学科,它可以成为一个知识的整体。

语言智能是智能科学的重要组成部分,而不仅仅是人工智能的技术问题。所以我想说的是,语言智能,不管人们以前翻译成language intelligence也好,还是翻译成linguistic intelligence也好,它不应该是一个单纯的技术问题,而应该是与语言相关的智能(language-related intelligence或者language-centered intelligence)这样的问题。语言处理技术是语言智能研究的一个重要方面,但是我们应该全面的把握语言智能的内涵。语言智能研究作为智能科学与技术和语言学学科的交叉领域,对于我国的人工智能发展至关重要,同时也是我们学语言、研究语言的学者和人才去参与人工智能发展的一个重要的契机。

文理交叉是我们新文科建设的一个重要方面,所以加强对语言智能的研究应该是新时代新文科建设的一个重要方面,同时也是我们高等学校培养新兴高端人才的重要契机。我画了一个思维导图,大概表明了语言智能应该包括这三个方面,一个是基础理论研究,包括多语言的脑科学的研究,语言的认知机制的研究。第二个层面叫做关键技术的研究,包括一些大数据技术、自然语言处理技术、机器翻译和人机交互等技术,第三个是一些应用创新的研究。为什么要提这个呢?这就与下面要提到的语言服务相关联了。

关于语言服务,刚才我也认真学习了一下立非教授刚刚发布的那些文件。刚才有教授也都提到了,语言服务是以语言能力为核心,以推动跨语言跨文化交际为目标,向个人和组织提供国际信息转化服务和产品以及其他相关的研究咨询、技术开发等等这样的一个行业。

语言服务行业作为推动国家语言能力建设的主力军,已经成为全球化时代经济、政治、文化各个领域交流与发展的支持性产业。国家语言能力在一定程度上也体现了国家的软实力。在数字化和智能化的浪潮下,将人工智能技术与语言服务相结合,是时代发展的产物,也是当前语言需求环境的要求。那么我们再谈语言智能和语言服务的应用,主要就是自然语言处理、机器翻译、语音识别,还有包括一些知识图谱等等技术,在一定程度上改变了传统模式。

机器翻译作为语言智能的一个重要领域、重要方面,使得传统的翻译面临很多变革和挑战,不同形态的语言产品也将不同程度的融入到新的技术平台当中去,我以为未来语言服务业的发展无疑会进入“语言智能+”的时代。

就机器翻译来讲,人工智能怎么体现出这个作用和功能,比如说,作为一个机器翻译,通过OCR和自然语言处理、语音识别相结合,它可以将各类格式的文档,进行加工处理,变成像word文档一样可翻译的文档,或者变成辅助翻译系统里边的这种数据文档等等,然后再通过对译员资源信息的整理和收集,可以对语言服务、翻译服务等等具有集群性质的任务,形成个人翻译能力的画像。比如我们有篇文章,我现在要选择让哪家公司去翻译,那么,我就可以通过人工智能来了解。通过对信息的收集,形成一些翻译单位和个人的能力的画像。比如说某些公司是集中在影视剧的翻译,有些集中在商业文本的翻译,那么它就可以进行一个自动的画像任务分配,能够通过智能匹配来适当的调节和分发任务。

在翻译的整个过程当中,我们可以借助于翻译系统和平台,提升我们的翻译效率,同时也可以提升翻译质量。机器翻译在大语种下,一会我们会谈到低资源的机器翻译,近些年来,特别是神经网络介入的机器翻译准确率基本上能够达到90%。我们这里不说文学翻译,但如果是学术性的文本,目前机器翻译应该是没有什么大问题的。所以在整个翻译过程当中所积累的这些术语,比如我们都知道有memory,有term bank,这些和语料库形成语料库,成为人工智能重要的数据来源。

刚才我画的图里边有基础理论研究,关键技术研究和创新创新应用研究。刚才我们说的机器翻译是以技术为例的,那么我们再看基础研究。我个人从学术的角度上认为,从脑科学的角度来研究人类语言学习加工的神经认知基础,比如说探索不同年龄层次学习者的脑质规律,提出有针对性的一些外语学习方略,建构这种泛在终身的一些学习体系,这是不是语言服务呢?我个人以为也应该纳入语言服务的范畴,还有探索多语言加工脑机制的差异,或者是多语言认知与语言的发展,多语言病理的机制等等,据我所知北语也有语言康复学院,语言病理学对吧,所以我觉得这些也可以纳入语言服务的范畴。

我们可不可以从理论上探讨,比如说从儿童到成年到老年全过程的这种语言智能的干预训练,或者是语言障碍相关的早期诊断或康复干预研究,算不算语言服务呢?如果算的话,那么我们提出来的整个语言智能的框架,完全可以赋能我们的语言服务领域,构成新时代语言智能的研究,构成新时代赋能语言服务的重要引擎和领域。这是从理论上的探讨,下面我们汇报一下具体的实践,不能夸夸其谈,我们还得要多做点具体的事,助力于语言服务。

我们给大家介绍一下Low Resource Language Machine Translation——低资源语言的机器翻译,如何赋能语言服务的问题。近年来基于深度学习的机器翻译已经取得了显著的进展,特别是Attention模型,Long Short-Term Memory这样的模型的出现。在英法、中英、汉英这样的大语种翻译任务上,机器的表现几乎可以媲美人类的水平,这个是大家都可以尝试实践的,这使人们对人工智能技术充满信心和期待,或者说人们对语言智能技术充满期待和信心。

但是,当我们尝试对世界上所有的语言进行机器翻译的时候,说实在话,目前效果比较好的还是英汉、汉英、英汉、汉法这样的大语种。但一些非常稀缺的语言,比如大洋洲里边的毛利语、斐济语、汤家语,非洲的桑哥语、隆迪语等等这样的小语种,我们管它叫做低资源语言——Low Resource Language。由于这种机器翻译,大家都知道需要大规模的平行语料库的支撑,只有借助语料它才可以做到高质量的翻译。

所以我们这些小语种太匮乏了,有些小语言的文本资料很难找到,比如说我们找汤加语,不像大语言一样在网页上可以扒文本,找很长时间之后,最后只能找到类似《圣经》那样的文本的翻译,就那一点文本,所以非常不好找。大部分这种稀缺的数据成为我们小语种或者低资源语言机器翻译的一个瓶颈,这个是大家都知道的,特别是大家都知道低资源语言机器翻译目前是公认的世界难以解决的难题。

那么接下来,我介绍一下我们正在做的事情吧。北京外国语大学的人工智能与人类语言重点实验室,配合学校的101工程,什么叫101工程呢,北外现在开设了101种语言,学校要把所有这些语言的课程建设起来,同时机器翻译也要做到101种语言的翻译。目前我们对于世界上所有的这种翻译系统的调查研究发现,可以找到的能够做机器翻译系统的语言是71种。所有的翻译平台、网站、系统都找全了,应该是71种左右,剩下的30种怎么办?我们得做,我们要做的就是剩下的那30种低资源语言。这三种都是什么样的语言呢?包括我刚才说的毛利语,斐济语,纽埃语,汤加语,迪维希语,萨摩亚语,恩德贝莱语,比斯拉马语,德顿语,绍纳语,达里语等等,那么我们是怎么做的呢?目前我们已经研发了一个机器翻译平台叫做Lingtrans101,大家看,Lingtrans101就是101种语言翻译,那么我们做的这30种语言里边,已经基本上开发差不多。目前我们方法就是在全球范围内,先招募语料收集的志愿者。我们在座的有能够给我们提供语料的,我们愿意 payment。先来点down payment也可以是吧?

太珍贵了,非常珍贵,我们非常珍惜。在全球范围内,让志愿者按照英语和小语种这种句子对齐的格式,sentence level,来构建平行语料库,然后采用的方法是枢轴翻译,用这种方法来实现这101种语言的两两互译,任何两种语言的这种互译,目前应该说基本上实现了这一个目标,同时,我们探索出一个比较好的办法,一边收集语料,一边做多语言的电子词典,电子词典回头再促进翻译质量的提升。回过头来再促进这个,我们试出来的还有这个办法,还觉得挺惊喜的,挺大的幅度上提高了翻译质量。当然这里边也有局限性,一是错误信号会放大,二是解码时间有点长,所以更多的技术问题也还在研究当中。

尽管如此,我们在低资源语言机器翻译当中,确实也向前迈进了一步。仅就这种非常稀缺的语言来讲,我们在尝试的过程当中,希望能使这样的语言智能技术,能够覆盖世界范围内更多的区域、更多的民族、更多的国家,让他们能够用亲切熟悉的语言来了解当代中国,从而提升我国语言服务的能力。再次感谢立非教授的邀请,祝我们北京语言文化大学的与国际语言服务研究院越来越好,谢谢大家。

(北京语言大学国际语言服务研究院、国家语言服务出口基地根据北京语言大学国际语言服务研究院院长王立非教授在语言服务出口论坛的发言整理、供稿)



-END-


本文转载自:语言服务40人论坛公众号

转载编辑:Amelia


关注我们,获取更多资讯!

往期回顾

行业动态1. 重磅!中国外文局翻译院智能翻译实验室发布《翻译技术发展共同行动计划》2. 重磅!教育部:翻译可授予硕士、博士专业学位!
3. 行业动态 | 翻译学SSCI期刊ITT推出“翻译技术教学”研究专刊4. 资讯 | 全国翻译硕士专业学位(MTI)培养单位名单(316所/最新版)5. 会议通知 | 第七届语言服务高级论坛通知(第1号)

行业观察1. 翻译研究 | 王华树 刘世界:元宇宙视域下翻译教育的发展前景与实践路径
2. 大数据时代译者如何提升数字素养—《翻译搜索指南》主编王华树博士专访3. 行业观察 | 黄友义:强化国家对外翻译机制,助力国际传播能力提升
4. 行业观察 | 韩林涛:为何我们会误解“本地化”?5. 行业观察 | 黄友义 王少爽:新文科背景下我国翻译学科与国际传播能力建设
精品课程1. 精品课程 | 语料库与术语库技术工作坊重磅来袭!2. 开学季大放送 | 翻译技术精品课程中秋限时团购!低至五折!
3. 限时惊喜福利 | “搜”嗖嗖,我带着“搜索指南”走来了!4. 精彩回顾 | 翻译与搜索技术工作坊圆满收官!
实习就业1. 招聘快报 | 创思立信招募翻译、游戏本地化测试项目经理等
2. 招聘快报 | 本地化项目管理实习生
3. 招聘快报 | 外研社招聘2023届英语、韩语等专业毕业生
4. 招聘快报 | 坐标北京-全球化智库CCG英文国际传播实习生招募5. 招聘快报 | 悬疑IP《法医秦明之偷窥者》改编作品招募中英文翻译

技术干货1. 新书推荐 | 人人都用的上的《翻译搜索指南》2. 收藏|翻译专业学生翻译技术学习推荐书目(2022年9月更新)3. 干货 | 故宫的殿、楼、斋、阁,用英语怎么说?
4. 技术与工具 | Ludwig: 地道英文写作辅助神器,告别中式英语5. 精彩回顾 | 王华树博士《翻译搜索指南》首期读书分享会圆满落幕


继续滑动看下一个
语言服务行业
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存