查看原文
其他

行业洞察 | 刘世界:语料数据处理与实践应用

Pickey 语言服务行业
2024-09-09

翻译技术寒假集训营
第五讲

人工智能时代翻译技术寒假集训营第五讲开讲啦!为大家邀请到翻译技术界的青年才俊刘世界博士讲授【语料数据处理与实践应用】,世界博士为大家分步骤介绍了语料数据加工处理流程,主流语料工具检索技巧,定制属于自己的垂直领域语料库等。跟随小编一起回顾下本节课程的精彩内容吧~


本节课程主要内容包括:

1、语料数据加工处理流程

2、术语库的创建及应用

3、使用语料库/术语库资源推荐

 

严重声明:在运用自动化采集算法或工具进行数据采集时,请大家严格遵守《中华人民共和国计算机信息系统安全保护条例》(1994)、《中华人民共和国网络安全法》(2016)、《中华人民共和国数据安全法》(2021)等有关网络数据采集行为、路径的法律法规,同时严格遵守科学研究伦理。




一、语料数据加工处理流程

首先世界博士按照语料采集、加工、检索应用的顺序为大家介绍了语料数据加工处理流程。首先语料采集部分分为自动化采集和人工采集,世界博士为大家分享了许多亲测好用自动化语料采集器,例如:八爪鱼采集器、火车头采集器、后裔采集器,TextForever等。人工采集语料也可以通过一些工具来协助我们做到批量文本处理与转换,例如文本处理可以使用ABBY FineReader、天若文字识别等OCR软件;格式转换可以使用Convertio、iLovePDF等做到不同格式间无痛切换。

 

接下来,世界博士从语料清洗,语料对齐,格式转换,分词赋码四个方面介绍了语料加工流程。这部分分享的软件实在太多啦,请看下图!当然,马了不等于会了,大家一定还要抽空自己探索哟~


 

 



二、术语库的创建与应用

世界博士用完整的实操流程演示详细地讲解了如何创建术语库,如何转换术语数据、如何提取术语和进行术语检索。


创建术语我们可以用SDL MultiTermDesktop、或者SDL Trados Studio中的MultiTerm组件。


转换术语数据,意思是把数据转换成术语库能“吃进去”的文件格式,可以使用SDL MultiTerm Convert、Glossary Converter。


术语提取可以使用SDL MultiTerm Extract,能将tmx格式转换成xtb也就是术语库格式。语帆术语宝、金声语料对齐助手、Tmxmall在线对齐也是常用的术语提取和对齐软件。


三、使用语料库/术语库资源推荐

介绍完术语库创建的完整流程之后,世界博士向大家介绍了一些常用术语库和词典。部分操作视频在世界博士的B站账号有详细介绍哦~

 

 

 

 

(世界博士的个人Bilibili账号  强烈安利!)




以上就是“人工智能时代翻译技术寒假集训营”第五讲的干货啦,希望大家收获满满!

本讲课程回放指路:

https://war.xet.tech/s/4cGcwe


想要在假期精进翻译技术的小伙伴,点击下方海报即可报名参与本期集训,技术大咖亲临授课,共6天集训;也可以分模块单独购买课程,自由组合,点击链接报名直达~



课程列表


王立非、崔启亮:语言服务行业前沿解读

何征宇、王华树:人工智能时代翻译技术前沿解读

韩林涛、刘世界:语料库与术语库技术综合应用及案例库建设

周兴华、朱华:计算机辅助翻译工具综合应用及案例库建设

王鹏、张春良:机器翻译与译后编辑综合应用

陶友兰、王华树:翻译技术发展与翻译教育创新

加入翻译技术交流圈或群组,和同好们在线交流学习~

(1)翻译与搜索技术交流圈


(2)翻译技术教育研究院师友交流圈

(3)翻译技术教育研究院师友交流群




想要日常精进翻译技术却苦于没有学习渠道?这里有一个翻译技术学习圈,每天只需一块钱,即可收获翻译技术应用及行业前沿内容、翻译技术教学指导、行业前沿热点资讯、最新语言服务行业报告、精选学术论文导读、经典翻译书籍导读、翻译资格考试&研究生考试考前指导、毕业论文写作全流程经验分享、线上&线下优质实习就业机会、名师专家推荐信,超值资源不容错过!




报名通道:

https://war.xet.tech/s/qBiy5


-END-
编辑:Pickey


关注我们,获取更多资讯!

往期回顾

行业动向1. 行业动态 | 翻译工作者对ChatGPT感受是什么呢?
2. 行业动态 | 随着ChatGPT的火爆,prompt这个词火了3. 行业动态 | 新国标《学术论文编写规则》发布(附下载方式)4. 行业资讯 | 2023年专四专八时间确定
5. 行业动态 | ChatGPT全景图:全球竞争格局篇(上)
行业洞见1. 行业观察 | 专访毛浩然教授2. 行业观察 | 王明轩:从 AIGC 看机器翻译发展新机遇
3. 行业观察 | 罗慧芳 · 我国语言服务产业发展与对外贸易相互关系的实证研究
4. 行业观察 | 程海东:技术赋能语言 实践方出真知
5. 行业观察 | 一起探索语言服务的实践应用

行业技术1. 技术应用 | Onelook Dictionary:高效便捷的英英词典2. 技术应用丨Quicker:从鼠标中键展开的新世界
3. 技术应用 | Everything中常用的4种搜索方法和应用场景4. 行业技术 | 音视频翻译优质提供商——TransWAI翻外字幕系统5. 技术应用 | memoQ中如何统计翻译字数?

精品课程1. 2023年2月工作坊|翻译搜索与论文写作工作坊即将开课(附问卷中奖名单)2. 翻译技术2023全年班限时预售!技术小白速速加入~3. 有哪些翻译技术0基础小白相见恨晚的翻译技术课程?
4. 预告|ChatGPT时代翻译技术新进展与新问题专题沙龙(二号通知)5. 翻译技术不好学?如何做到体系化学习?本文为你揭晓!6. 一天一块钱,承包全年全方位语言服务知识学习!
资源干货1. 书籍推荐 | 人人都用的上的《翻译搜索指南》2. 书籍推荐|戴光荣、王华树等合力编写翻译技术入门级指南3. “螺蛳粉”用英语怎么说?CNN这个表达也是绝了!4. 双语干货 | 时政话语中数字化简称的翻译策略及汇总5. 语言趣谈 | 和ChatGPT谈机器翻译与翻译AI应用
招聘就业1. 招聘快报丨中译英:外宣文件2. 就业干货 | 蒙特雷毕业生:在Facebook担任本地化项目经理是怎样的体验?3. 招聘快报 | 北京博硕星睿招聘课程销售顾问(可线上)4. 招聘快报 | 英雄互娱招聘海外游戏本地化运营5. 实习资讯 | 疫情阻隔优质实习?硬核语言专业线上实习机会来了!
继续滑动看下一个
语言服务行业
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存