技术应用 | 语料库探索之语料对齐及分词赋码
语料对齐-Abbyy Aligner
先将内容复制粘贴进入一个txt文件,
之后再从txt内复制粘贴进入word文档,这样可以清除网页文字本身的格式。
但当前仍有大量空行,严重阻碍我们使用语料。此时有一个小窍门可以去除空行:通过替换^p^p为^p,即可去除空行。若文本较长,可能空行过多,建议点击“全部替换”按钮3次,基本可以确保去除所有空行。
中文语料准备完毕。要想获得英文语料,只需将上述过程重复一遍即可。
至此,准备工作已经完成。打开Abbyy Aligner。
注意软件页面分为左右两栏,左侧为源语言,右侧为目标语言,需要根据实际选择具体语种。此次源语言为中文,故选择Chinese Simplified,目标语言为英语,故选择English.
将先前准备好的中文语料粘贴至左侧栏,英文语料粘贴至右侧栏。
之后点击上方Align按钮即可实现自动对齐。
自动对齐可能出现错误,因此需要人工检查。如图出现空行,观察发现左侧中文多处人名应该并入同一格。选中之后点击上方按钮“Merge”即可。
之后出现多行空白,选中后点击"Delete"删除
校对无误后,点击上方“Export to TMX”即可导出为TMX格式文件。
语料转换-Heartsome Tmx Editor
以上面我们得到的TMX文件为例,使用Heartsome Tmx Editor打开该文件,之后便可以将其转换为其他格式。
点击上方“Convert TMX to”按钮,在弹窗中可以选择目标格式。以下便以docx格式为例。
之后便可以在word文档中打开中英文对照的语料了。
如果感觉表格形式不便使用,也可以转换成每句中英文对照。点击右上角“转换为文本
选择“段落标记”
即可得到逐句中英对照的word文档版
当然,也可以通过AI直接实现word文档之间中英对照的转换
1.CorpusWordParser(中文分词标注、英文分词)
该软件可以在北外语料库语言学的网站上下载。
下载后,打开可以看到该软件对各个词性标注的代码是什么。
将需要分词的文本输入,这是分词之前的文本。
这是分词后的文本,可以看出,该应用将句子拆成了多个字和单词,中间加上了空格。
2.Treetagger(英文标注)
可以使用到AntConc软件,该软件可以在AntConc官网进行下载。
需要注意的是,AntConc只能识别txt格式的文件。
1.词频
将2019年政府工作报告导入AntConc,点击Word后,点击下方Start,可以得到该文件的词频,不难看出,stable、economic、reform等词为2019年政府工作报告的重点。2.搭配
点击Collocate,在左下角输出我们想要查询的单词,即可查看这个词在该文件中出现了那些搭配,右下角的word span也可以用来限定范围,例如5L5R就代表着查询单词前后五个单词的范围内。输入policy,我们可以看到prudent、proactive等搭配。3.词丛
点击Clusters,在下方输入in,可以检索含有in的短语的出现频率。特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
- END -
原创来源:北外CAT课程展示-张雨农 邓新元
编辑:李丹
审核:王贇 宁静 梁士虎 李丹
资讯推荐
▶ 技术与工具
▶ 国际语言服务动态
| 翻译公司篇 | “收购狂魔”Keywords Studios
| 行业机构篇 | 加拿大联邦翻译局 Canada's Translation Bureau
▶ 专访
▶ 行业洞察
▶ 教育创新