查看原文
其他

行业观察 | 国外机器翻译研究的知识图谱和发展趋势

刘昱呈 语言服务行业
2024-09-09



国外机器翻译研究的知识图谱和发展趋势

攀枝花学院 李翔 高朝阳


摘要近年来,得益于计算机科学、信息技术、自然语言处理和人工智能突飞猛进的发展,学术界和产业界关于机器翻译的研究不断增加。学界迫切需要对该领域进行全面而深入的挖掘,揭示其随着时间推移所取得的进展和未来趋势。本研究运用CiteSpace工具,对1958年1月至2022年10月Web of Science核心数据库中收录的2295篇文章进行文献计量学分析,展现了机器翻译研究在时间上的分布情况,揭示了四个主要的研究主题:基于实例的机器翻译、统计机器翻译、神经机器翻译以及机器翻译应用。自2019年以来,神经机器翻译已取代统计机器翻译,成为占据主导地位的研究话题。研究结果还呈现了研究热点的三个演变阶段:1992-2011年基于实例的机器翻译,2013-2019年跨语言信息检索、统计机器翻译、信息、领域适应和翻译技术,以及2020年至今的任务分析、神经网络、神经机器翻译、情感分析和人工智能。这些发现有助于研究人员掌握机器翻译研究的知识结构和发展趋势,并为学术界和语言服务行业提供新的见解。


关键词:文献计量; 机器翻译;自然语言处理;神经机器翻译;统计机器翻译


研究综述


研究背景:目前与机器翻译相关的计量分析研究均只注重于机器翻译的某个具体领域(如翻译技术教学,译后编辑等),很少涵盖机器翻译领域完整的时间跨度和最新趋势。基于这一背景,本文采用知识图谱和文献计量的方法对机器翻译研究进行全面分析,以展示其发展趋势及路径,为相关研究者提供参考。


研究聚焦点:本文聚焦于总结和归纳机器翻译研究的发展趋势,主要讨论了机器翻译的研究趋势、研究热点、研究前沿、研究展望四个方面的情况。

研究设计


研究工具及框架:本文采用CiteSpace工具进行文献计量分析。该软件包括共引分析、共现分析、自动聚类、参数修改等功能,可进行准确可靠的文献计量研究和网络可视化,揭示特定领域科学知识的结构、模式和分布。研究框架和主要分析内容如图1所示。



图1 研究框架


数据收集:本文采用WoS核心合集的SCI-ExpandedSSCIA&HCI子数据库,选择“所有年份”为时间跨度,采用基于主题的信息检索方法,以machine translation”为检索词,仅选择“article”,“early access”和“review article”三种文献类型和英文撰写的文献进行检索。经过导出、数据筛选及清理等步骤后,最终确定2295文献作为研究数据。

研究结果


01研究趋势


在WoS核心馆藏数据库中,机器翻译研究的最早记录是发表于1958年的“Interlingual Machine Translation”。本文以这篇文献作为起点,发现在机器翻译研究的64年中,相关研究在前39年停滞不前,然后开始稳步发展,其研究趋势大致可分为三个阶段:


  • 第一阶段(1958-1977年):初探阶段。出现机器翻译的相关研究,但数量较少,年发文量不足10篇。该阶段的研究重点包括语言学分析、跨语言机器翻译、知识表示、符号插值、基于实例的机器翻译以及计算机辅助翻译等。

  • 第二阶段(1998-2017年):稳步发展阶段。机器翻译开始受到各领域学者的积极关注,年平均发文量为48.85篇该阶段的研究重点包括统计机器翻译、跨语言信息检索、算法、语音识别、机器学习、词对齐、词义消歧、众包、手语翻译、平行语料库等。

  • 第三阶段(2018年至今):快速增长阶段。机器翻译研究呈指数级增长,年平均发文量达到237篇。该阶段的研究重点包括神经机器翻译、自然语言处理、深度学习、transformer模型、注意力机制、人工智能、译后编辑、情感分析、词嵌入、BERT和卷积神经网络等。


02研究热点


本研究使用CiteSpace的关键词聚类功能探究机器翻译研究热点和知识结构,通过关键词聚类图将机器翻译研究分为24个聚类。通过分析聚类信息和细读文献后,本文发现机器翻译研究主要集中于以下四个热门主题:


  • 基于实例的机器翻译:核心关键词包括基于实例的机器翻译、文本挖掘、社区问答和问题检索。该方法以包含平行文本的双语语料库为基础,采用机器学习的案例推理方法,以“翻译片段短语→拆解源文本(核心)→匹配和选择翻译示例→重组和改编目标文本”为主要翻译步骤。

  • 统计机器翻译:核心关键词包括统计机器翻译、极限学习机、系统组合和翻译预测。该方法以复杂和结构化的预测为中心,处理源语言和目标语言之间的结构依赖关系。统计机器翻译可分为基于词、短语和句法等三种不同的模型。其中,基于词和基于短语的机器翻译模型在处理话语的整体信息方面存在缺陷,而基于句法的统计机器翻译通过使用“句法分析树”来匹配相邻语言单元中更远距离的单词或短语,具有更高的翻译性能。

  • 神经机器翻译:核心关键词包括深度学习、神经网络、强化学习、自然语言处理等。该方法基于神经网络的广泛研究和应用,在其不断演化过程中出现了循环神经网络(Recurrent Neural Network)、卷积神经网络(Convolutional Neural Networks)Transformer等主要翻译模型。其中,Transformer模型在翻译质量方面取得了很大的进步,目前已成为主导的神经机器翻译框架。2023 年引起全球关注的ChatGPT便是基于 Transformer的生成式预训练模型。

  • 机器翻译应用:核心关键词包括跨语言信息检索、查询翻译、平行语料库、翻译记忆、计算机辅助翻译、眼动追踪和认知负荷等。主要内容包括:(1)跨语言信息检索:即应用信息获取、词语处理和机器翻译等技术;(2)专业翻译:专业翻译人员与机器翻译的关系;(3)翻译技术:人工智能、神经网络等翻译相关技术的发展对翻译项目及翻译业务的影响;(4)写作策略:教师如何在写作教学中改善和加强学生对机器翻译的适度使用,减轻学生的二语写作焦虑。



03研究前沿


本文利用CiteSpace的Burstness功能生成机器翻译研究中具有最高引用突现的11个关键词及其突现的强度和时间(图2),将2009-2022年机器翻译研究前沿的演变分为三个阶段:

第一阶段(1992-2011年)为基于实例的机器翻译;

第二阶段(2013-2019年)为跨语言信息检索,统计机器翻译,信息、领域适应和翻译技术;

第三阶段(2020年至今)为任务分析、神经网络、神经机器翻译、情感分析和人工智能。

图2 机器翻译研究中具有最高引用突现的前11个关键词


04研究展望


根据计量分析结果,本文总结了以下四种机器翻译的未来研究课题:


  • 多模态神经机器翻译:文字、图像、声音等多种语言模态整合进机器翻译算法中,以此来消除仅靠文本数据可能带来的歧义,提高翻译准确度。与此同时,语音、图像等数据也可用于补足低资源环境下机器翻译数据集的不足,从而提高总体性能。

  • 领域适应:特定领域或资源有限的环境中(如翻译医学、法律、金融、工程等专业文本的情景),通过优化神经机器翻译模型以提升翻译效果。

  • 神经机器翻译译后编辑:与利用翻译记忆库的模糊匹配相比,神经网络机器翻译生成的译文需要的编辑量有所下降,但仍然存在由语言歧义、文化差异等因素造成的影响。译者通过对神经机器翻译的结果进行修改和优化,能显著提高其翻译品质。

  • 提示学习:提示学习是大语言模型中的一种高效技术,它通过将下游任务转化为模板提示的方式,使其能够利用与语言模型相同的预训练技术进行训练,实现比传统训练模式更高效的训练效果。提示学习能加速模型对特定任务和领域的知识学习,提升模型的表现和效率。


结语


本文通过文献计量学研究和可视化分析,采用总结归纳的方式,深入研究并总结了机器翻译研究领域先前成就、当前主题和新兴趋势,为未来潜在研究提供了参考,从而促进机器翻译和翻译产业的进一步发展。不过,本文以“国外机器翻译研究的知识图谱和发展趋势”为标题,但仅统计及分析了以英语撰写的机器翻译研究文献,未涵盖到该领域在其他语种中的研究情况,在全面性上仍稍显不足。


小编反思


除开本文的研究内容,本文的知识图谱研究法也尤其值得关注。这种研究方法能以“实体-关系-实体”的结构将复杂的科学知识相互连接,以网状结构的形式展示知识间的结构、规律和分布情况。对于时间跨度较广、涉及范围较大的研究而言,使用CiteSpace为例的知识图谱工具能将研究对象的趋势、热点等方面的变化状况可视化,形成直观的关键词聚类图以供观察和总结。相较而言,小编认为知识图谱法更适用于以归纳法为主的、研究某一类事物集群的研究。只有在可用研究对象足够多时,知识图谱法才能使其形成稳定可靠的聚类,从而让研究者总结出可信的知识分布规律。在缺乏足够研究对象时,以理论推导为基础的演绎法应是比知识图谱法更可靠的研究方案。
声明:本公众号转载此文章是出于传播行业资讯、洞见之目的,如有侵犯到您的合法权益,请致信:532541801@qq.com,我们将及时调整处理。谢谢支持!【语言服务行业】分享群

群内会定期推送语言服务行业最新动态、活动预告、竞赛通知📝等内容~


欢迎你的加入🥰!


-END-
本文转载自:翻译技术教育与研究转载编辑:李岩


关注我们,获取更多资讯!

往期回顾

行业动态1. 年度回顾 | 中国翻译协会2023年大事记
2. 行业资讯 | 新增山东省高校!已有19所高校申请翻译博士专业学位
3. 行业动态 | 中国翻译协会医学翻译委员会2024年第一次主任会议在京召开4. 行业资讯 | “新汉学计划”欢迎加入!2024年外语翻译硕士培养项目开始招生5. 行业动态 | “人工智能+”首次写入《政府工作报告》,大模型如何助力产业创新?

行业洞见
  1. 行业洞见 | 《翻译技术研究》作者王华树教授
  2. 行业洞见 | 为腾飞助力:AI 如何为翻译引擎增加动力
  3. 行业观察 | 人工智能教父谈人工智能的影响和潜力
  4. 行业观察 | 奥特曼专访:关于 GPT-5、Sora、Ilya、Q*、AGI、外星人等等一切


行业技术
  1. 行业技术 | 带你了解大语言模型的前世今生
  2. 技术应用|Mac和Win如何协作制作双语平行语料库?
  3. 技术应用 | 翻译实践中术语库的应用
  4. 技术应用 | 术语库创建与应用
  5. 技术应用 | 7个技巧让你成为谷歌Gemini专家

精品课程1. 超值秒杀 | 大语言模型辅助外语教学研修班
2. 活动预告 | 崔启亮老师:GenAI时代的语言服务行业实践与研究专题课
3. 今晚7点 | 高效办公利器:大语言模型助力Office插件应用技巧分享
4. ChatGPT系列课程 | 亲身体验火爆AI学习热潮,拓展你的技能边界!

资源干货
  1. 技术科普 | 揭开手写文本识别“最先进”的秘密
  2. 资源干货 | 英语外刊获取途径、网站推荐
  3. ChatGPT | AI外语写作助手,助力高效写作
  4. 双语干货 | 谢锋大使向中美媒体发表讲话
  5. 资源宝库|译者用“典”,多多益善——精选31款在线词典

招聘就业

1. 北京/西安 | 博硕星睿销售岗位,不限经验,等你来投!【可线上】

2招聘快报 | CNBC财经电视台上海分公司招聘发行部助理实习生


继续滑动看下一个
语言服务行业
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存