技术应用 | 语料库探索之语料对齐及分词赋码
先将内容复制粘贴进入一个txt文件,
之后再从txt内复制粘贴进入word文档,这样可以清除网页文字本身的格式。
但当前仍有大量空行,严重阻碍我们使用语料。此时有一个小窍门可以去除空行:通过替换^p^p为^p,即可去除空行。若文本较长,可能空行过多,建议点击“全部替换”按钮3次,基本可以确保去除所有空行。
中文语料准备完毕。要想获得英文语料,只需将上述过程重复一遍即可。
至此,准备工作已经完成。打开Abbyy Aligner。
注意软件页面分为左右两栏,左侧为源语言,右侧为目标语言,需要根据实际选择具体语种。此次源语言为中文,故选择Chinese Simplified,目标语言为英语,故选择English.
将先前准备好的中文语料粘贴至左侧栏,英文语料粘贴至右侧栏。
之后点击上方Align按钮即可实现自动对齐。
自动对齐可能出现错误,因此需要人工检查。如图出现空行,观察发现左侧中文多处人名应该并入同一格。选中之后点击上方按钮“Merge”即可。
之后出现多行空白,选中后点击"Delete"删除
校对无误后,点击上方“Export to TMX”即可导出为TMX格式文件。
语料转换-Heartsome Tmx Editor
以上面我们得到的TMX文件为例,使用Heartsome Tmx Editor打开该文件,之后便可以将其转换为其他格式。
点击上方“Convert TMX to”按钮,在弹窗中可以选择目标格式。以下便以docx格式为例。
之后便可以在word文档中打开中英文对照的语料了。
如果感觉表格形式不便使用,也可以转换成每句中英文对照。点击右上角“转换为文本
选择“段落标记”
即可得到逐句中英对照的word文档版
当然,也可以通过AI直接实现word文档之间中英对照的转换
1.CorpusWordParser(中文分词标注、英文分词)
该软件可以在北外语料库语言学的网站上下载。
下载后,打开可以看到该软件对各个词性标注的代码是什么。
将需要分词的文本输入,这是分词之前的文本。
这是分词后的文本,可以看出,该应用将句子拆成了多个字和单词,中间加上了空格。
2.Treetagger(英文标注)
可以使用到AntConc软件,该软件可以在AntConc官网进行下载。
需要注意的是,AntConc只能识别txt格式的文件。
1.词频
将2019年政府工作报告导入AntConc,点击Word后,点击下方Start,可以得到该文件的词频,不难看出,stable、economic、reform等词为2019年政府工作报告的重点。2.搭配
点击Collocate,在左下角输出我们想要查询的单词,即可查看这个词在该文件中出现了那些搭配,右下角的word span也可以用来限定范围,例如5L5R就代表着查询单词前后五个单词的范围内。输入policy,我们可以看到prudent、proactive等搭配。3.词丛
点击Clusters,在下方输入in,可以检索含有in的短语的出现频率。群内会定期推送语言服务行业最新动态、活动预告、竞赛通知📝等内容~
欢迎你的加入🥰!
往期回顾
2. 行业动态 | 三星高斯问世 与ChatGPT同台竞争
3. 行业动态|第二十届全国科技翻译研讨会成功召开4. 行业动态 | 研究发现大型语言模型极其擅长数据清理!5. 行业动态|微软称ComSL模型在语音翻译方面优于其他模型
行业洞见
行业洞见 | 赵倩、刘云虹. 克洛德·西蒙在中国的译介与形象生成 行业动态 | 全球视野下国家战略传播与翻译专业人才培养创新论坛成功举办 行业洞见 | 李晗佶老师:技术哲学视阈下的翻译技术 行业观察 | 贾艳芳老师:始于兴趣,长于实践,技术之路常学常新
行业技术
技术应用 | 语料处理之语料采集与清洗 技术应用|吊打Sci-hub?ChatGPT推出“文献检索”神级插件!无关键词检索2亿文章! 技术应用 | 翻译实践中术语库的应用 技术应用 | 术语库创建与应用 翻译技术|代码分享——类符形符比
精品课程资源干货
技术科普 | 揭开手写文本识别“最先进”的秘密 资源干货 | 英语外刊获取途径、网站推荐 ChatGPT | AI外语写作助手,助力高效写作 双语干货 | 谢锋大使向中美媒体发表讲话 资源宝库|译者用“典”,多多益善——精选31款在线词典
招聘就业1. 博硕星睿 | 办公室实习助理招聘(北京)
2. 博硕星睿 | 好的平台,“职”等你来3. 译者招募丨英译中,经济学(有署名)4. 招聘快报 | CNBC财经电视台上海分公司招聘发行部助理实习生5. CATTI备考在即,备考实习两不误,硬核语言专业线上实习机会来了!