精彩回顾 | “AIGC时代的语料库建设与应用专题课程:基础与进阶” 结课啦!
AIGC时代,人工智能究竟蕴藏着怎样的强大力量?从语料清洗、编程辅助,到数据分析......AI辅助的语料库建设与应用正成为当前学界关注的热点话题。随着AIGC时代来临,我们如何使用人工智能技术,走上学术研究前沿?
8月26日,由上海海事大学刘世界博士主讲的”AIGC时代的语料库建设与应用:基础与进阶“专题课完美画上句号。本次专题课紧紧围绕讲师的阐述、生动案例的引导,以及实际操作的亲身体验,全方位地传授着AI辅助下的语料库构建方法、技巧与理念。
接下来,就跟随小编回顾本次专题课的精彩内容吧~
本次专题课的主要内容包括:
1、语料库核心概念与基础知识
2、语料库建设流程与实操演示
3、案例驱动的语料库分析工具应用(一)
4、案例驱动的语料库分析工具应用(二)
5、基于编程的语料数据应用探索与实践(一)
6、基于编程的语料数据应用探索与实践(二)
语料库核心概念与基础知识第一讲中,世界博士详细阐述了语料库的核心概念、分类以及语料库相关术语辨析。同时,他以208篇涵盖北大核心与CSSCI论文为例,为我们梳理了语料库研究的不同方向及历时研究趋势。此外,他还基于全国哲学社会科学办公室的立项统计数据梳理理念来语料库研究相关的热点及方法论,同时梳理了国内语料库研究领域中的部分代表性学者。这些内容的分享及解读不仅帮助我们建立了对语料库基本概念的清晰认识,也为未来的学习和研究提供了有益的指引。
(语料库立项统计)
(数据来源:哲学社会科学办公室官网)
语料库建设流程与实操演示
第二讲中,世界博士通过实际操作,为学员演示了语料采集、加工、检索应用等语料数据处理与应用全流程。首先语料采集部分分为自动化采集和人工采集,世界博士为大家分享了许多亲测好用自动化语料采集器,例如:八爪鱼采集器、火车头采集器、后裔采集器,TextForever等。人工采集语料也可以通过一些工具来协助我们做到批量文本处理与转换,例如文本处理可以使用ABBY FineReader、天若文字识别等OCR软件;格式转换可以使用Convertio、iLovePDF等做到不同格式间无痛切换。接下来,世界博士从语料清洗、语料对齐、格式转换、分词赋码四个方面介绍了语料加工流程,并基于基本的检索工具演示语料辅助翻译实践及词典编纂的应用。
(使用正则表达式清洗语料)
案例驱动的语料库分析工具应用
在第三、四讲中,世界博士采用讲师讲解、案例驱动、实践操作相结合的方式,全面介绍语料库的核心概念、基础知识与研究方法,探讨语料库完整的建设流程,以案例驱动的方式引导学员学习语料库分析工具的应用。以事先预备的语料为演示内容,带大家上手操作WordSmith Tools 7.0、Sketch Engine、Wmatrix、Cho-Metrix、BNCweb、COCA等语料分析工具及平台。他强调了在语料库建设中需要关注的关键数据,例如频率、词汇共现、语义域、主题词、 搭配、N-Grams、Keyness、Effect等,同时详细解读了语料库语言学中统计分析相关的数据、衡量指标及概念(如Chi-Squared、Log-Likelihood、TextDispersionKeyness、Dice、MI、MI2、MI3、MS、Mu、RRF、T-Score、Z-Score、p值、T检验、错误拒绝零假设等)意义,针对每个工具和平台的具体统计数据进行详细解释,并总结如何在研究中进行正确汇报。最后,世界博士横向对比了这些语料分析工具/平台的优势与所擅长分析的领域。
(以实际案例演示WordSmith Tools 7.0的详细操作)
新生入学必备在第五、六讲中,世界博士从ChatGPT辅助Python编程入门开始,为大家详细讲解了Python应用中的数据类型、数据结构、常用函数及语句,实操演示了如何运用Python实现语料存储与读取、语料数据预处理、词频统计与关键词提取、语料数据视图化方法、词向量训练、文本分类与情感分析、命名实体识别、LDA(Latent Dirichlet Allocation)主题建模等典型应用场景,在关键部分世界博士详细解释了每一行代码的构造、内容及执行的目的。世界博士将课程从开发环境配置开始,一直引导大家动手实操进行语料分析与应用整个流程,旨在帮助学员在实践中掌握如何利用编程技术进行语料数据的复杂处理和多元分析。
(基于Python的语料数据处理与应用)
师生互动除了课程内容外,世界博士还在群内耐心解答了各种问题。课程内容丰富实用,受到学员们的高度评价。
(部分学员好评截图)
“”暂告一段落啦~
接下去我们还有翻译技术及语料库应用研修班等待大家哦~
往期回顾
2. 行业观察 | 王华树:译者数字素养研究亟需加强,打造翻译人才新优势
3. 论坛预告 | 2023年京津冀翻译协会协同发展学术论坛4. 行业动态 | 第二届新时代“人才杯”多语种翻译大赛暨首届“讲好地理标志故事”外语短视频大赛获奖名单公布
行业洞见
精彩回顾 | ChatGPT提示工程实践工作坊结课啦! 精彩回顾 | 王琳:ChatGPT私有化工具部署及应用 精彩回顾 | 王华树:ChatGPT助力翻译实践与教研 精彩回顾 | ChatGPT如何辅助语料库建设?语料库怎么加工?干货来啦
行业技术
技术应用|译文质检工具之Grammarly 技术应用 | B站视频下载工具,简洁方便才是必杀技 技术应用|保姆级教程,教你如何建立自己的语料库 行业科普 | “无声的”识别:AI能否转录它从未听过的语言? 行业技术 | LLMs能否替代人工评价作为对话生成质量的评估器?
精品课程
新课来袭 |ChatGPT与语料数据处理工作坊 精品小班 | 刘世界:6节语料库专题课,从入门到精通 精品课程 | GPT+:翻译、技术与语言学习工作坊 精品小班 | 探索变成辅助语料数据处理及分析无门?刘世界博士为你解秘! 精品课程|CATTI打卡训练营,全勤打卡可返还全额学费,你敢来挑战吗?
资源干货
资源干货 | 语言资源服务最常用的50个核心术语 资源干货 | 最新版Z-library官方客户端和最新地址 双语干货 中华人民共和国对外关系法 双语干货 | 谢锋大使向中美媒体发表讲话 资源宝库|译者用“典”,多多益善——精选31款在线词典
招聘就业1. 招聘快报 | 春秋航空招聘英文翻译
2. 招聘快报 | 华为招募多名英语翻译3. 招聘快报 | 博硕星睿招募课程主持兼回顾文案编辑4. 招聘快报 | 哔哩哔哩招聘英语翻译5. 招聘快报 | 昆拓信诚招聘医学翻译