查看原文
其他

技术应用 | 语料库探索之语料对齐及分词赋码

张雨农 邓新元 翻译技术教育与研究
2024-09-09

语料对齐与转换

语料对齐-Abbyy Aligner以常见的中英文双语演讲为例,如何将一篇中文语料和一篇英文语料合并为一份中英文对照的语料?我们先处理中文部分,随后英文部分的操作方式一模一样,只需将流程重复一遍即可。


先将内容复制粘贴进入一个txt文件,


之后再从txt内复制粘贴进入word文档,这样可以清除网页文字本身的格式。


但当前仍有大量空行,严重阻碍我们使用语料。此时有一个小窍门可以去除空行:通过替换^p^p为^p,即可去除空行。若文本较长,可能空行过多,建议点击“全部替换”按钮3次,基本可以确保去除所有空行。


中文语料准备完毕。要想获得英文语料,只需将上述过程重复一遍即可。


至此,准备工作已经完成。打开Abbyy Aligner。


注意软件页面分为左右两栏,左侧为源语言,右侧为目标语言,需要根据实际选择具体语种。此次源语言为中文,故选择Chinese Simplified,目标语言为英语,故选择English.


将先前准备好的中文语料粘贴至左侧栏,英文语料粘贴至右侧栏。


之后点击上方Align按钮即可实现自动对齐。


自动对齐可能出现错误,因此需要人工检查。如图出现空行,观察发现左侧中文多处人名应该并入同一格。选中之后点击上方按钮“Merge”即可。


之后出现多行空白,选中后点击"Delete"删除


校对无误后,点击上方“Export to TMX”即可导出为TMX格式文件。


语料转换-Heartsome Tmx Editor

以上面我们得到的TMX文件为例,使用Heartsome Tmx Editor打开该文件,之后便可以将其转换为其他格式。


点击上方“Convert TMX to”按钮,在弹窗中可以选择目标格式。以下便以docx格式为例。


之后便可以在word文档中打开中英文对照的语料了。


如果感觉表格形式不便使用,也可以转换成每句中英文对照。点击右上角“转换为文本


选择“段落标记”


即可得到逐句中英对照的word文档版


当然,也可以通过AI直接实现word文档之间中英对照的转换


语料库常用标注和检索工具中英分词与赋码

1.CorpusWordParser(中文分词标注、英文分词)

该软件可以在北外语料库语言学的网站上下载。


下载后,打开可以看到该软件对各个词性标注的代码是什么。


将需要分词的文本输入,这是分词之前的文本。


这是分词后的文本,可以看出,该应用将句子拆成了多个字和单词,中间加上了空格。

这是赋码后的文本,之后我们可以根据之前所保存的代码,查看字或词的词性。


2.Treetagger(英文标注)

点击左上角的File即可导入文件,之后点击右侧的Run tagger。即可得到分词与标注后的英文文本。语料检索

可以使用到AntConc软件,该软件可以在AntConc官网进行下载。



需要注意的是,AntConc只能识别txt格式的文件。


1.词频

将2019年政府工作报告导入AntConc,点击Word后,点击下方Start,可以得到该文件的词频,不难看出,stable、economic、reform等词为2019年政府工作报告的重点。


2.搭配

点击Collocate,在左下角输出我们想要查询的单词,即可查看这个词在该文件中出现了那些搭配,右下角的word span也可以用来限定范围,例如5L5R就代表着查询单词前后五个单词的范围内。输入policy,我们可以看到prudent、proactive等搭配。


3.词丛

点击Clusters,在下方输入in,可以检索含有in的短语的出现频率。

特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。

- END -



原创来源:北外CAT课程展示-张雨农  邓新元

编辑:李丹

审核:王贇  宁静  梁士虎  李丹

资讯推荐


AIGC时代的翻译技术沙龙-王华树


▶ 技术与工具

高级译员的秘密武器——语料库大全集

国内外常见语料工具一览

国内外常见术语管理工具

翻译必备术语库和语料库合集(附网址)

翻译必备的计算机翻译辅助软件(附网址)

AntConc:实用的本地语料库检索工具

TREX:有海量例句、丰富语料的在线词典

Netspeak:一款免费的单词搭配检索工具

WantWords反向词典,内含开发团队公开文档

Cymo Booth:同声传译员的专属虚拟同传间

MateCat:一款免费的在线CAT工具

Visuwords:可视化在线词典,帮你一键构造记忆宫殿

Linggle:语料+搭配检索工具(实操演示)

Ludwig: 地道英文写作辅助神器,告别中式英语

Reverso:辅助写作与翻译神器


▶ 国际语言服务动态

| 翻译公司篇 | TransPerfect简介

| 翻译公司篇 | 全球第2名 RWS如文思

| 翻译公司篇 | “收购狂魔”Keywords Studios

| 咨询机构篇 | Nimdzi Insights简介

| 咨询机构篇 | Slator 简介

| 咨询机构篇 | CSA Research 简介

| 行业机构篇 | 国际翻译家联盟FIT

| 行业机构篇 | 美国翻译协会ATA

| 行业机构篇 | 加拿大联邦翻译局 Canada's Translation Bureau

| 翻译院校篇 | 明德大学蒙特雷国际研究学院(MIIS)

| 翻译院校篇 | 格拉斯哥大学

| 翻译院校篇 | 埃塞克斯大学

| 翻译院校篇 | 利兹大学

| 热点追踪 | ChatGPT的伦理问题(上)

热点追踪 | ChatGPT的伦理问题(下)

| 热点追踪 | GPT-4面世——AI引领语言行业革新


专访

李长栓:ChatGPT在翻译中的崭新角色

袁煜:挑战自我,迈出舒适区

王均松:人工智能时代的翻译:技术驱动的变革与未来展望

王树槐:GPT与小说翻译批评:GPT与文学翻译之二

王树槐:GPT与诗歌翻译批评:GPT与文学翻译之一

苏秋军:AIGC背景下的MTI学科建设

王华树:译者数字素养研究亟需加强,打造翻译人才新优势

沈澍:AIGC是敌是友?翻译领域的机遇与挑战

宁静:长缨在手,敢缚苍龙

崔启亮:机器翻译对语言服务企业有多大作用?

韩林涛:文科生如何学习机器翻译?

魏勇鹏:机器翻译质量评估为什么重要?

徐彬:熟练掌握翻译技术,就能做出漂亮的活儿

曹首光:如何打造一款受欢迎的机器翻译产品? 

李梅:机器翻译对未来翻译教育有何影响?

周兴华:高校翻译教师如何学习翻译技术?

丁丽:译后编辑人员与译者身份是否对等?

卢家辉、陈晨:口译员在远程口译中面临的主要问题


▶ 行业洞察

2021年语言服务行业回顾与展望

2022年全球百强语言服务商榜单

2022年翻译行业将迎来哪些新变化

后疫情时代,语言服务行业如何发展转型?

何钦:中国电影对外译介的现状与思考

冯志伟:关于机器翻译行业发展的三点建议

张霄军:伦理视角下,机器翻译的能与不能

黄友义:如何突破中外文化差异,让世界更了解中国?

韩林涛:与ChatGPT共舞


▶ 教育创新

李长栓:MTI论文千篇一律,如何破局?

王华树 刘世界:数字人文视域下译者数字素养研究:内涵、问题与建议

王华树 刘世界:人工智能时代翻译技术转向研究

王华树 刘世界:智慧翻译教育研究: 理念、路径与趋势

曹达钦 戴钰涵:人工智能时代高校翻译技术实践环境建设研究

李梅:如何给“技术小白” 开设计算机辅助翻译课程?

实践导向的MTI人才培养模式——以对外经济贸易大学为例

数字化口译教学资源建设:欧洲经验与启示

如何将翻译项目管理模式应用到CAT教学课堂中?


修改于
继续滑动看下一个
翻译技术教育与研究
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存