查看原文
其他

翻译领学|自然语言处理相关概念辨析

陈晓同 翻译圈
2024-09-10

自然语言处理相关概念




自然语言处理(Natural Language Processing, NLP)是机器学习的重要概念,也是当前翻译技术的热门话题。作为英专生,笔者初次接触自然语言处理相关概念时,常常因为术语阻碍理解,也难以厘清许多“被作者默认知道”的基础概念之间有何关系,例如NLP、NLU、NLG、NLTK、AIGC等等。因此希望通过以下内容,帮助初学者们对这些基础概念有初步认识。




01

NLP、NLU与NLG







自然语言处理(NLP)顾名思义,是对自然语言即语境中真实出现的语言内容的加工处理。从学科角度理解,NLP是计算机科学、人工智能和语言学领域的一个交叉学科,研究内容是让计算机能够理解、处理、模拟和生成人类语言的能力。具体而言,NLP主要包括两个核心任务:对自然语言的理解和对自然语言的生成,理解语言是途径,生成语言是目的。而整个过程主要通过计算机的编程实现,因此也就是“让计算机懂”,然后“让计算机说”。


人类语言一般可分为两种形式:语音与文本。对NLP而言,两者本质并无不同,对语音语料的处理无非是在文本语料的基础上多了一步,即先将语音转换成文本,然后进行文本语料的处理,这一过程被称为自动语音识别(Automatic Speech Recognition,ASR);反之,对语音语料的生成便是将文本转换成语音,主要通过文语转换技术(Text To Speech,TTS)实现。

语音对话流程图(图片来源:知乎)


前者“让计算机理解语言”的过程即自然语言理解(Natural Language Understanding,NLU),是让计算机能够理解自然语言文本的意义。NLU可以大致划分为五个层次:语音分析→词法分析→句法分析→语义分析→语用分析,逐级递进地理解自然语言。NLU的主要流程是模仿人类理解语言的方式,首先通过断句、分词将文本裂解、切割成一系列具有语义、语法的单元;其次利用词向量模型、分布式等方法将文本转化为数值化表示(即计算机能理解的形式);最终基于文本数据,利用分类、标注的方法让计算机得到文本中的关键信息,从而理解用户语言、判断用户需求。


后者“让计算机生成语言”的过程即自然语言生成(Natural Language Generation,NLG),是让计算机能够生成人类可以理解的自然语言的技术,从而表达给定的目的、意图、思想等,降低了人类与计算机间沟通的难度。可以分为两种方式:text-to-text文本到语言、data-to-text数据到语言。常见的应用除了ChatGPT聊天工具外,也包括新闻编写、生成摘要、扩写内容等,这些NLG应用都是以良好的NLU技术作为支撑。



02

NLTK是什么








在实际NLP应用中,我们可以使用很多程序处理自然语言,这些程序往往内含众多辅助工具,因此被称作“自然语言处理工具包/软件包”,这些工具由不同的编程语言编写而成,例如Python、Java等,视任务的不同需求与条件有不同应用场景。其中较为知名的程序例如spaCy、Stanford CoreNLP、OpenNLP等,也包括我们所熟知的NLTK。


NLTK全称为“自然语言处理库(Natural Language Toolkit)”,是一款用于构建自然语言处理的python程序,提供了许多开源的内置函数工具,辅助进行自然语言处理任务,例如可以帮助我们进行文本数据清洗、情感分析、机器翻译、去停用词(文本中常用但信息量低的词,从而更好专注文本数据中重要的词)等应用。


在使用NLTK进行自然语言处理任务时,首先在程序中import(引入)nltk数据库,就像唤醒小爱同学一样;然后可以使用NLTK内置函数对文本数据进行处理,具体的函数与操作步骤可以移步翻译圈公众号“代码分享”相关推文进一步学习。当然,在学习完nltk相关使用后,也可以结合自己语言处理的具体需求,选择spaCy等流行的其他自然语言处理库继续学习,不断提升差异化的语言处理效率。



03

AIGC是什么








在了解NLG概念后,我们对AIGC的概念理解会更加容易。AIGC,全称为Artificial Intelligence Generated Content,即人工智能生成内容。与PCG(专业生成内容)和UCG (用户生成内容)相比,AIGC主要区别的是内容生成主体即AI。而AIGC与传统意义上的NLG相比,生成内容的范围更广,不仅包括自动写作、自动翻译等文本内容处理,同时也涵盖了图像、音乐、视频、3D交互内容等各种形式的数据。除了我们熟知的ChatGPT外,AIGC技术的应用也包括能够生成音频的MusicGen、MusicLM,能够生成视频的Runway ML等。


那么AIGC时代来临对译者意味着什么呢?北京语言大学王立非教授在《从传统语言服务走向智能语言服务》一文中指出,人工智能语言大模型的发展推动翻译进入了智能语言服务时代,与传统语言服务相比,智能语言服务依靠自动化技术扩大了语言服务范围,从以往的“重精度重质量”转变为如今的“重效率重速度”。对译者而言,AIGC相关技术的学习不仅能提升自身翻译效率、转变翻译学习与教学方法,同时也能转变翻译思维、更好适应社会对译者提出的新要求,提升自身竞争力,“与技术共舞”。




特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。


- END -



翻译圈公众号旨在为读者提供名师和专家对口笔译的真知灼见,CATTI考试和MTI入学考试信息,翻译等语言服务就业资讯,以及口笔译学习资源和知识,希望在翻译之路上,为大家助上一臂之力。欢迎大家积极留言,为我们提供建设性意见,我们共同进步!


原文作者:陈晓同

推文编辑:陈晓同

指导老师:朱华

核:吴志雄、刘一葶

项目统筹:吴志雄

资讯推荐


模型剖析:AI时代口译员信息素养构成



▶精品课程

精品课程|特别推出!GenAI时代口译技术工作坊

精品课程|从入门到进阶:语料库建设与统计分析实务

精品课程|GenAI时代的西部翻译技术实战研修班(一号通知)

1号通知 | 大语言模型与翻译教育实践创新特训营三亚开班

限时预售 | 2024“大语言模型”系列翻译技术全年班

活动预告 | GenAI时代的西部翻译技术实战研修班

▶资源宝库

翻译技术|在Trados中利用TM做预翻译

翻译技术|将左英文右中文的excel转换为上中文下英文的excel

翻译技术|The Free Dictionary-多语在线词典搜索引擎

翻译技术|字幕翻译配音恐失业,Ai翻译配音超逼真

资源宝库|经济学人等160多家外刊免费看!

资源宝库|哈利波特1~8季大放送

▶翻译百科

翻译百科|《中国大百科全书》中的“语言服务”

翻译百科|《中国大百科全书》中的“神经网络机器翻译”

翻译百科|《中国大百科全书》中的“翻译层次”

翻译百科|《中国大百科全书》中的“范化”

翻译百科|《中国大百科全书》中的“可比语料库”

▶代码分享

翻译技术|代码分享——wordnet自带词典功能

翻译技术|代码分享——多语料库词频分析表格

翻译技术|代码分享——使用 SpaCy 进行句法依存分析

翻译技术|代码分享——标准类符形符比

翻译技术|代码分享——清除符号

▶文献精读

文献精读|刘康龙等:翻译与非翻译董事长致辞的句法差异

文献精读|Vanmassenhove:机器翻译中语言丰富性缺失

▶译界动态

译界动态|2023年度国家社科基金重大项目立项名单公示

论坛预告 | 2023翻译技术与语言服务人才培养高端论坛

译界动态|华为翻译中心在WMT 2023通用、领域(生物医学)、文学翻译任务中斩获多个第一

译界动态|第十一届亚太翻译论坛将于2025年在香港举办

译届动态|公益沙龙之ChatGPT时代译者的搜商体系构建之道

  关注我们 了解更多

CATTI和MTI资讯

语言服务就业信息

翻译名师真知灼见

翻译学习精品课程


继续滑动看下一个
翻译圈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存