查看原文
其他

技术应用 | GPT X 翻译记忆:基于双语翻译记忆进行智能问答

The following article is from 简言 Author 韩林涛

前言

传统的计算机辅助翻译工具有三大核心技术用于辅助译者提升翻译效率和翻译质量,分别是:术语、翻译记忆和机器翻译

崔启亮老师曾经梳理过企业内部的语言资产形态,如下:

最近行业内有关GPT的各种讨论都对GPT对机器翻译的影响、技术写作的影响、翻译教育的影响等多有讨论,但“翻译记忆”这个计算机辅助翻译技术的核心鲜有讨论。

我认为,以GPT为代表的大语言模型技术是对计算机辅助翻译工具内置翻译记忆技术的彻底颠覆。

在简言微信公众号之前的文章中大家可以查看我写的一系列与翻译记忆原理相关的文章,翻译记忆之所以能够提高效率是因为译者在翻译过程中可以基于过去翻译的双语数据来翻译形式上相似的新句子。

注意,这里我特别指出了“形式”相似,因为无论是衡量字符串相似度的模糊匹配还是衡量机器翻译质量的BLEU都是形式上相似,我在之前的文章中介绍原理时都详细分析过。

但GPT的出现,则通过词嵌入(Embedding)技术将相似度的计算从形式层面带到了语义层面。为了证实这一点,我在ParaTrans上添加了“记忆”模块。

视频展示

正文

一、翻译记忆的对齐与上传

目前国内外翻译记忆在线对齐工具中,TMXmall做得应该是最好的:

离线对齐工具可以选择Abbyy Aligner。

在B站上有这两款工具详细的教程,本文就不再介绍了。《译者编程入门指南》一书中也有相关章节具体分析。

双语文本对齐后生成的tmx格式文件就是翻译记忆。

通过ParaTrans可以将tmx格式的翻译记忆上传到后台:

二、语义计算

翻译记忆上传后需要使用GPT的Embedding API进行语义计算:

GPT的Embedding API是一个非常简单的API:

在实际工程处理中,只需要几行代码就可以获得一个中文或英文句子的词嵌入数据,并可以方便存储到数据库中:

三、记忆问答

当用户向记忆库发出问题时,GPT是如何给出智能答案的呢?

首先,当用户发出一个问题后,GPT会计算用户的问题的Embedding,即一串数字,然后使用这串数字和数据表中也有的每个翻译记忆的中文和英文文本的Embedding进行相似度计算,这个计算的过程只需要几行代码,效率非常高:

在得到了几个相似度非常高的双语文本后,把这些双语文本作为Prompt的一部分连同之前的问题拼接在一起,送给GPT:

然后GPT就可以给出智能的答案了。

结语

我在最近的几次讲座中多次提到:不要仅仅使用ChatGPT中的问答数据来判断GPT对翻译教育、翻译实践和翻译研究的价值,而是要真正的去理解GPT API的价值,基于GPT 的API来设计和研发服务于译者的新一代计算机辅助翻译工具。

2018年我在简言里写过这样一段话:

只要你会一些基本的编程知识,你就能开始运用这些免费的自然语言处理技术做出对自己的学习、工作和研究有帮助的小工具。

不知道大家有没有听说过“AI 民主化”(Democratizing  AI)这个概念,在未来的几年里越来越多的文科专业学生也将掌握编程知识,如果能够充分利用市面上的开源或免费的(哪怕是付费的)人工智能技术,那么大家将会看到一大堆有创意有价值的办公工具和研究工具,为我们的生活赋能。


不光百度在做这样的有价值的事,腾讯、阿里、谷歌等一大批互联网公司都在不断开放自己的人工智能服务,让更多人可以通过极为简单的方法应用人工智能技术。


我相信这是未来技术发展的趋势。


在前几天中国翻译协会年会的分论坛上我也这样说过:


如果未来的译者能够学会如何调用人工智能技术的API,那么一定可以有更多丰富的翻译技术创意产品。


声明:本公众号转载此文章是出于传播行业资讯、洞见之目的,如有侵犯到您的合法权益,请致信:chongchong@lingotek.cn,我们将及时调整处理。谢谢支持!


-END-

本文转载自:简言
转载编辑:Pickey


关注我们,获取更多资讯!

往期回顾

行业动向1. 行业动态 | 全国翻译专业教指委2023年第一次主任委员会议在京召开
2. 行业资讯丨2023年度国家社会科学基金项目申报公告正式发布!
3. 行业动态 | 未来已来:翻译技术主题论坛圆满举办4. 行业资讯 | 高校学科专业改革方案来了!
5. 行业资讯 | 3月翻译技术和本地化类公众号影响力排行榜新鲜出炉!
行业洞见
  1. 行业观察 | 王华树:国家翻译技术能力研究:概念内涵、要素分析和主要特征
  2. 行业观察|王贇:借数字之眼,启人文之思
  3. 行业观察|AI时代,口译员如何突出重围?
  4. 行业观察 | 探索大语言模型,“对症下药”很关键


行业技术
  1. 技术应用 | 游戏本地化时,如何基于Key ID或注释筛选句段并锁定句段?
  2. 技术应用|iTranslate:一款小众的翻译工具
  3. 技术应用 | WIPO Translate:一键Get即时专利翻译小能手
  4. ChatGPT | ChatGPT的万能提问咒语
  5. ChatGPT | 韩林涛:写给MTI同学们的ChatGPT类工具使用要求

精品课程
  1. 4月工作坊|图书翻译与项目申报工作坊即将开课
  2. 五一研修 | ChatGPT时代翻译技术北京线下班
  3. 精品课程 | 外语人如何使用ChatGPT优化机器翻译质量
  4. 云端实习营,带你在实践中学习翻译技术~
  5. 一天一块钱,承包全年全方位语言服务知识学习!

资源干货
  1. 双语干货 |《全球发展新时代的金砖合作调查报告2022》
  2. 资源宝库 | 最全对外汉语教学资源网站
  3. 资源宝库 | 学位论文如何写出新意—PQDT搜索教程
  4. 资源宝库 | ChatGPT参加MTI复试问答:个人生活篇
  5. 双语干货 | 习近平主席五次“博鳌演讲”金句汇总

招聘就业1. 招聘快报 | 神州数码招聘英语翻译
2. 招聘快报 | 韩语、葡语口译招募3. 就业干货 | 理工科也能做翻译吗?4. 不知道去哪找优质实习?硬核语言专业线上实习机会来了!5. 实习资讯 | 疫情阻隔优质实习?硬核语言专业线上实习机会来了!
继续滑动看下一个
语言服务行业
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存