查看原文
其他

技术应用 | 语料处理之语料采集与清洗

冯程 陆大津 语言服务行业
2024-09-09
语料处理的基础知识

语料处理引入语料处理案例—Sister Carrie 中译本对比分析Sister Carrie 及1962年版译文《嘉莉妹妹》(裘柱常,石灵)和1999年版译文《嘉莉妹妹》(王克非,张韶宁)                                                                        

原文与两本译文的实词//词汇密度对比

原文与两版译文 type/token ratio (TTR)类符/形符比(形次比)

原文与两版译文的平均句长

两版译文“被”字出现频率

两版译文叠词的使用

To sum up:

语料分析实现了语言学和翻译的结合,从语言学的科学框架分析翻译时源语和目标语的异同,帮助译者掌握更地道的表达和结构。微观-宏观客观-主观(文化)分析语料处理定义
  • 语料采集(collecting)、清洗(cleaning)、降噪(denoising)
  • 语料对齐(alignment)、转换(conversion)
  • 语料分词(tokenisation)、还原(lemmatisation)、赋码(POS tagging)
  • 语料分析(analysis)
语料与语料库的关系

    • 语料库分类:
    • Monolingual
    •   1.How do native speakers use the word "should"?
        2.What is the appropriate allocation?
        婚姻权利- matrimonial right?The right to marriage ?
    • Bilingual
    • Multilingual

思维导图-以流程和工具为主线








语料采集与清洗
案例描述


本次需要采集和清洗第十四届夏季达沃斯经济论坛的语料,用于课后口译训练,并将重要的语料录入语料库。其中,语料分为文本型(PDF、图片等)和音频型(口译员同声传译的音频)。需解决的难点:
  • 如何根据语料的类型,选择采集工具;
  • 如何清洗语料的错误格式、单词拼写错误等;
解决步骤1. ABBYY FineReader采集文本语料

a. 打开ABBYY FineReader的首页后,根据语料的类型选择不同的转换形式。采集图片语料,需要选择“在OCR编辑器中打开”(如图1-1)。

图1-1 ABBYY FineReader


在OCR编辑器中打开“若采集PDF语料,则需要在选择“转换为Microsoft® word”(如图1-2)。

图1-2 ABBYY FineReader“转换为Microsoft® word”


b.图片语料采集的流程:①语料导入:打开ABBYY FineReader后,在对应的文件夹中导入图片语料(如图1-3)。

图1-3 导入图片语料


②语料提取:导入OCR编辑器后,可以提取图片语料中的单词,并在编辑区域修改(如图1-4)。

图1-4 OCR编辑器页面


③语料导出:编辑完成后,可以根据语料清洗的需要,把图片语料保存为对应的大致格式(如图1-5)。如果需要按照特定格式保存,也可以将编辑后的图片语料另存为(如图1-6)。

图1-5 图片语料的保存格式


图1-6 图片语料另存为的具体格式


c.PDF语料采集的流程:①PDF语料导入:打开ABBYY FineReader后,在对应的文件夹中导入PDF语料(如图1-7)

图1-7 导入PDF语料


②PDF语料转换与导出:导入ABBYY FineReader后,可以转换为Microsoft Word 格式,保留格式分为精确副本、可编辑副本、格式化文本、纯文本(如图1-8)。确定保留格式后,可以根据实际要求,决定是否勾选保留PDF文档的图片、页眉、页脚以及页码(如图1-9)。

图1-8 选择PDF语料的转换格式


图1-9 导出PDF语料


2. 网易见外采集音频语料


a.打开网址:https://sight.youdao.com/,登录网易见外平台的主页(如图2-1)。

图2-1 网易见外主页


b.点击主页的“音频转写翻译”后,进入“音频转写翻译”板块,并在该板块下方的“立即试用”登录(如图2-2)。需要注意的是,如果没有账号,需要先注册,才能登录。

图2-2 登录“音频转写翻译”板块


c. 登录成功后,进入个人的工作台。点击工作台右上角的“新建项目”,选择“语音转写”即可(如图2-3)。


图2-3 新建项目中的“语音转写”


d.提交音频时,需要命名项目,上传文件,选择文件语言(英/中)和输出类型(文本/字幕)(如图2-4)。

图2-4 语音转写


e.提交后,等待一段时间,即可获得相应文稿。等待的时间视文件大小和类型而定,一般视频的转写速度会比音频慢。文稿转写完毕后,可以直接打开,并根据音频修改。最终,音频语料以Word格式导出(如图2-5)。图2-5 音频语料的文稿导出



3. 库酷清洗语料

a.打开库酷的首页,导入需要清洗的语料(如图3-1)。在使用之前,需要注册个人账号。

图3-1 在库酷软件中导入语料


b.在库酷软件中,语料的清洗主要分析基本操作和高级操作(图3-2)。基本操作主要是关于文本格式的调整,高级操作主要与文本导出有关。

图3-2 基本操作和高级操作


c.语料清洗的基本操作演示:①内容清理:清理空白行——可以将多余的空行去掉,便于编辑(如图3-3)。

图3-3 清理空白行后的文本


②转换:半角转全角——需要选择中文文本,才能将英文标点符号转换成中文的(如图3-4)。

图3-4 半角转全角后的文本


③分行/合并:合并中文回车分行——需要选择中文文本,把断行的文本合并(如图3-5)。

图3-5 合并中文回车分行后本


④转换上下对照的语料:中/外→外/中——切换中英双语对照的顺序(如图3-6)。

图3-6 中英对照变为英中对照


e.高级操作可以设置导出的文本格式,设置分隔的字符、段落标记等(如图3-7)。图3-7 高级操作的页面布局



4. ChatGPT清洗语料a. 鉴于库酷软件的语料清洗功能无法自动修改英语单词的拼写错误,因此尝试使用Poe平台(如图4-1)上的ChatGPT清洗语料。Poe平台网址:https://poe.com/。

图4-1 Poe平台首页


b. 把需要清洗的语料复制到对话框,并在语料结尾输入第1个指令“请清洗以上语料,调整格式”(如图4-2)。

图4-2 将语料和指令输入对话框


c.清理的结果是,中文的空格、标点等格式错误已经改正。但是原语料的英文缺失(如图4-3)。

图4-3 第1个指令的清洗结果


d.补充第2条指令“请保留中英文双语对照格式”后,得到的语料中文格式正确,英语语料中的特殊字符和拼写错误都已经修正(如图4-4)。

图4-4 第2条指令的清洗结果


e. 补充第3条指令“请将以上内容转换成txt文本”,根据语料库的格式要求,导出清洗后的语料(如图4-5)。图4-5 导出清洗后的语料


5. 注意事项


  • 语料采集:需要根据语料的类型,选择合适的采集工具。PDF、图片以及扫描过的文本型语料可以用ABBYY FineReader采集。如果图片的清晰度不高,可以先用扫描工具处理后,再用OCR编辑器提取文字。音频或视频等类型的语音材料需要借助语音或者视频转写工具,例如网易见外、讯飞输入法等。

  • 语料清洗:使用库酷清洗语料时,可以清洗语料中的部分错误格式,但是无法自动修改错误的词汇拼写,或删除特殊的字符,比如^,~,*,#等。ChatGPT可以根据指令,修改拼写错误和删除特殊字符,但是无法同时修改大规模语料。




声明:本公众号转载此文章是出于传播行业资讯、洞见之目的,如有侵犯到您的合法权益,请致信:532541801@qq.com,我们将及时调整处理。谢谢支持!
【语言服务行业】分享群

群内会定期推送语言服务行业最新动态、活动预告、竞赛通知📝等内容~


欢迎你的加入🥰!



-END-

文章来源:北外CAT课程展示-冯程  陆大津
本文转载自:翻译技术教育与研究公众号
转载编辑:盼盼


关注我们,获取更多资讯!

往期回顾

行业动态1. 行业动态|首届外语学科横向课题拓展与管理研修班(支持线上同步)
2. 行业动态 | 从译者走向语言技术和服务架构师
3. 行业动态 | 全球视野下国家战略传播与翻译专业人才培养创新论坛成功举办4. 行业动态|首届外语学科横向课题拓展与管理研修班5. 活动预告 | GenAI时代的西部翻译技术实战研修班(一号通知)

行业洞见
  1. 行业观察|王立非:提升国家语言服务能力,促进“一带一路”高质量发展
  2. 行业动态 | 全球视野下国家战略传播与翻译专业人才培养创新论坛成功举办
  3. 行业洞见 | 李晗佶老师:技术哲学视阈下的翻译技术
  4. 行业观察 | 贾艳芳老师:始于兴趣,长于实践,技术之路常学常新


行业技术
  1. 技术应用 | 术语管理主要工具
  2. 翻译技术|代码分享——spacy词形还原
  3. 技术应用 | 术语库基础知识
  4. ChatGPT | 中科院学术优化本地部署
  5. ChatGPT | 基于OpenAI Whisper模型的WhisperDesktop转写工具

精品课程
  1. 行业动态|首届外语学科横向课题拓展与管理研修班
  2. 新课来袭 | 开启倒计时!AI时代掀起影视字幕翻译的智能革命
  3. 基础篇 | 从入门到进阶:语料库建设与统计分析实务
  4. 进阶篇 | 从进阶到精通:基于Python的语言数据分析实战



资源干货
  1. 技术科普 | 揭开手写文本识别“最先进”的秘密
  2. 资源干货 | 英语外刊获取途径、网站推荐
  3. ChatGPT | AI外语写作助手,助力高效写作
  4. 双语干货 | 谢锋大使向中美媒体发表讲话
  5. 资源宝库|译者用“典”,多多益善——精选31款在线词典

招聘就业1. 博硕星睿 | 办公室实习助理招聘(北京)
2. 博硕星睿 | 好的平台,“职”等你来3. 译者招募丨英译中,经济学(有署名)4. 招聘快报 | CNBC财经电视台上海分公司招聘发行部助理实习生5. CATTI备考在即,备考实习两不误,硬核语言专业线上实习机会来了!


继续滑动看下一个
语言服务行业
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存