技术应用 | 语料处理之语料采集与清洗
语料处理引入
原文与两本译文的实词//词汇密度对比
原文与两版译文 type/token ratio (TTR)类符/形符比(形次比)
原文与两版译文的平均句长
两版译文“被”字出现频率
两版译文叠词的使用
To sum up:
语料分析实现了语言学和翻译的结合,从语言学的科学框架分析翻译时源语和目标语的异同,帮助译者掌握更地道的表达和结构。微观-宏观客观-主观(文化)分析语料处理定义语料采集(collecting)、清洗(cleaning)、降噪(denoising) 语料对齐(alignment)、转换(conversion)
语料分词(tokenisation)、还原(lemmatisation)、赋码(POS tagging) 语料分析(analysis)
语料库分类: Monolingual Bilingual Multilingual
如何根据语料的类型,选择采集工具; 如何清洗语料的错误格式、单词拼写错误等;
a. 打开ABBYY FineReader的首页后,根据语料的类型选择不同的转换形式。采集图片语料,需要选择“在OCR编辑器中打开”(如图1-1)。
图1-1 ABBYY FineReader
在OCR编辑器中打开“若采集PDF语料,则需要在选择“转换为Microsoft® word”(如图1-2)。
图1-2 ABBYY FineReader“转换为Microsoft® word”
图1-3 导入图片语料
图1-4 OCR编辑器页面
图1-5 图片语料的保存格式
图1-6 图片语料另存为的具体格式
图1-7 导入PDF语料
图1-8 选择PDF语料的转换格式
图2-1 网易见外主页
图2-2 登录“音频转写翻译”板块
c. 登录成功后,进入个人的工作台。点击工作台右上角的“新建项目”,选择“语音转写”即可(如图2-3)。
图2-3 新建项目中的“语音转写”
图2-4 语音转写
a.打开库酷的首页,导入需要清洗的语料(如图3-1)。在使用之前,需要注册个人账号。
图3-1 在库酷软件中导入语料
图3-2 基本操作和高级操作
图3-3 清理空白行后的文本
图3-4 半角转全角后的文本
图3-5 合并中文回车分行后本
图3-6 中英对照变为英中对照
图4-1 Poe平台首页
图4-2 将语料和指令输入对话框
图4-3 第1个指令的清洗结果
图4-4 第2条指令的清洗结果
语料采集:需要根据语料的类型,选择合适的采集工具。PDF、图片以及扫描过的文本型语料可以用ABBYY FineReader采集。如果图片的清晰度不高,可以先用扫描工具处理后,再用OCR编辑器提取文字。音频或视频等类型的语音材料需要借助语音或者视频转写工具,例如网易见外、讯飞输入法等。
语料清洗:使用库酷清洗语料时,可以清洗语料中的部分错误格式,但是无法自动修改错误的词汇拼写,或删除特殊的字符,比如^,~,*,#等。ChatGPT可以根据指令,修改拼写错误和删除特殊字符,但是无法同时修改大规模语料。
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
- END -
原创来源:北外CAT课程展示-冯程 陆大津
编辑:李丹
审核:王贇 宁静 梁士虎 李丹
资讯推荐
▶ 技术与工具
▶ 国际语言服务动态
| 翻译公司篇 | “收购狂魔”Keywords Studios
| 行业机构篇 | 加拿大联邦翻译局 Canada's Translation Bureau
▶ 专访
▶ 行业洞察
▶ 教育创新