精彩回顾 | AIGC时代语料库专题沙龙干货来啦
AIGC时代,翻译技术发展日新月异,已经成为翻译工作者提高翻译效率,保证翻译质量必须了解的有力辅助。语料库是语言服务行业的宝贵资产,是提高语言处理工作效率的重要途径。也许在未来,我们都会打造属于自己的语料资产,那么,该如何乘时代巨浪,建立更高效智能的语料库呢?
8月30日,翻译技术研究院举办第十三次公益沙龙,特邀厦门云译科技有限公司语料技术部主管王伟榕老师为我们分享语料库构建和语料对齐的相关知识。
接下来就跟随小编一起回顾当日沙龙的精彩片段吧~
语料库建设
在语料库构建阶段,王老师从语料来源搜寻、语料采集和语料处理三个方面介绍了语料库的构建流程。首先是语料来源搜寻方面,我们可以进行定向搜寻、批量搜寻,并对来源进行分类。在语料采集方面,我们可以根据语料来源的分类定制语料采集的方案,比如,对于标记出来的多元网站,我们可以使用通用爬虫将整个网站爬取下来,然后根据通用流程从中采集双语语料。对于辞典类或者格式比较工整的网站,我们可以定制化开发一些爬虫,去解析网站上指定的双语文本,对所需语料进行采集。采集到语料之后,就进入到了语料处理的环节。语料处理的工作主要涉及提取语料和消除噪音,噪音包括格式方面的不工整或语言类的错误等。所以我们需要在这个阶段进行语料对齐和语料过滤。
语料对齐
在语料对齐阶段,王老师首先介绍了语料对齐的目的(缩短人工筛选和编辑时间,提高机器翻译模型的训练效果)和类别(篇章对齐和句对齐),随后讲解了语料对齐的技术,对齐技术主要涉及相似度的计算。在经过一些预处理后,我们可以把原文和译文篇章转换成两张句子一一对应的列表,然后计算句子之间的相似度,根据该相似度和我们要实现的对齐目的来设定对齐关系提取的方法。
工具与平台应用
在工具与平台应用方面,王老师主要介绍了云译语料管理平台对齐工具的实践与应用。在这一阶段,王老师简要演示了云译对齐工具的应用,我们可以根据自己的对齐需要在该平台进行操作,并对对齐文本进行设置处理,例如句子的合并和拆分、上下移动等。云译语料管理平台是专业的语料管理平台和对齐工具,能够帮助我们实现语料库和语料对齐流程的自动化,降低成本并提高效率。
以上就是本次沙龙的精彩看点,希望您能收获满满~
往期回顾
2. 行业观察 | 王华树:译者数字素养研究亟需加强,打造翻译人才新优势
3. 论坛预告 | 2023年京津冀翻译协会协同发展学术论坛4. 行业动态 | 第二届新时代“人才杯”多语种翻译大赛暨首届“讲好地理标志故事”外语短视频大赛获奖名单公布
行业洞见
精彩回顾 | ChatGPT提示工程实践工作坊结课啦! 精彩回顾 | 王琳:ChatGPT私有化工具部署及应用 精彩回顾 | 2023智慧教育时代人工智能语言技术教育工作坊圆满落幕! 精彩回顾 | “AIGC时代的语料库建设与应用专题课程:基础与进阶” 结课啦!
行业技术
技术应用|译文质检工具之Grammarly 技术应用 | B站视频下载工具,简洁方便才是必杀技 技术应用 | 人人词典,美剧伴侣 行业技术 | ChatGPT大模型微调上线:“机翻”还是一种侮辱吗? 行业科普 | 国际语言服务咨询公司Unbabel简介(上)
精品课程
CATTI备考需提上日程,不知道怎么学?看这里就对啦~ 今晚7点|ChatGPT如何处理各类语料数据?大语言模型上大分! 精品课程 | GPT+:翻译、技术与语言学习工作坊 精品小班 | 探索变成辅助语料数据处理及分析无门?刘世界博士为你解秘! 精品课程|CATTI打卡训练营,全勤打卡可返还全额学费,你敢来挑战吗?
资源干货
资源干货 | 语言资源服务最常用的50个核心术语 资源干货 | 最新版Z-library官方客户端和最新地址 双语干货 中华人民共和国对外关系法 双语干货 | 谢锋大使向中美媒体发表讲话 资源宝库|译者用“典”,多多益善——精选31款在线词典
招聘就业1. 招聘快报 | 春秋航空招聘英文翻译
2. 招聘快报 | 中国国际进口博览会招募实习岗(需英语)3. 招聘快报 | 小米科技:翻译专员4. 招聘快报 | CNBC财经电视台上海分公司招聘发行部助理实习生5. CATTI备考在即,备考实习两不误,硬核语言专业线上实习机会来了!