查看原文
其他

技术应用|LancsBox:语料库研究者的必备工具

01工具介绍
LancsBox是一款多功能语料分析工具。语料库同行对当下流行的Wordsmith Tools和AntConc两款软件的功能比较熟悉。LancsBox推出的新功能有语料加工如POS,语料分析GraphColl等。共有六大功能模块,分别是:关键词检索(KWIC)、检索词分布(Whelk)、搭配图解(GraphColl)、N元结构(N-grams)、词汇模块(Words)和文本工具(Text)。http://corpora.lancs.ac.uk/lancsbox/
02 功能介绍该软件具有多项特色:(1)支持智能检索词类、语法、语义标注和基于词类的精细化检索。(2)提供丰富的统计算法,且支持自定义。(3)支持多层次拓展搭配网络。
03 图文教程(以软件自带语料库为例)1) Download→Corpus→▲▲▲include POS groups→import!选择语料库并下载,在这里以Brown和LOB语料库为例,点击右边▲▲▲,可选择词性赋码include POS groups。(若语料库容量较大,可能需等待时间较长)
2) 主题词索引(KWIC)①可进行通配符、正则表达式检索正则表达式教程:https://www.runoob.com/regexp/regexp-tutorial.html②快速提取名词,动词,复杂语法(如被动语态、不定式)需大写英文进行检索,如"PARTICLE""NOUN""PASSIVE""TIME ADVERBIAL""*ed*"输入"PARTICLE",分屏状态下(点击向下的▲▲▲)的两个语料库检索结果输入"PASSIVE"的两个语料库检索结果③比较两个语料库,则在分屏状态下(点击向下的▲▲▲)计算两组数据分析结果

3)检索词分布(Whelk)帮助考察检索项在语料库中的分散情况(dispersion)。①检索项在每一个子文件的分布②索引行信息③词在整个语料库和子文件中的绝对频率和相对频率④对于特定用途语类或特殊话题语料的研究具有一定的应用潜力以观察LOB语料库中“session”一词为例步骤:下载语料库并导入语料库→打开whelk界面在检索框中输入“session”→将上下文(context)词数设置为7(节点词左右文本词数为7)→Text选择Plain text→search
结果如下:
由图可知,LOB中“session”的总频率为36,共有15个文本中有10个文本中出现了“session”。其中“H-Misc_non_fict”子库中“session”出现频率较高,为12次,相对频率为1.979。
4)词汇模块(Words)①计算词类type,lemma,词性赋码POS tags的频率和分散程度②显示语料库中使用的单词及其频率单词的不同屈折形式(inflection)都将列出③使用关键词技术比较语料库④将关键词可视化步骤:(以LOB语料库为例)打开词汇模块Words→设置文本类型为Lemma,对语料库进行基于词类的检索)→获得“词目_词类”形式→鼠标右击Lemma跳出筛选框→输入“*_n”→Apply→得到带词类赋码的名词频率表
LOB周边圆圈大小代表子库库容,颜色深浅代表检索项的频率高低以“party_n”为例由图可知“party_n”在“M_Sicence_Fic”科幻小说子库中未出现。在期刊编辑“B_Press_edit"中频率最高。
5)N元结构(N-Grams)①识别N元结构,词群,p帧(p-frames)②根据词性筛选特定N元结构和生成N元结构的赋码序列③生成主题赋码序列表以检索Brown语料库中”形容词+形容词+名词“结构为例步骤:下载并导入Brown语料库→进入Ngram页面→Type文本类型”Lemma“→”Grams“为三词,即生成基于词类的三词结构频率表→单机表头Lemma让列表按首字母升序排列→在检索框中输入”*_adj *_n *_v"(adj *之间需空一格)
检索结构如下:(黑色高亮为检索结果)
6) 搭配图解(GraphColl)①语料库语言学的研究焦点②查找一个单词或短语的搭配③搭配网络展现多词间关联④可视化搭配关系

04使用反思LancsBox为新一代语料库检索工具,可进行软件自带语料库的下载,也可导入自己制作好的语料库;另外此软件可将数据可视化,方便学者进行便捷且深入的研究分析;无需注册即可使用。
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。

- END -

编辑:郑奕涵

审核:李长庭  陈杲  阮健仪  黄瑶耀


资讯推荐


#LancsBox:语料库研究者的必备工具



▶ 技术与工具国内外常见语料工具一览国内外常见术语管理工具翻译必备术语库和语料库合集(附网址)翻译必备的计算机翻译辅助软件(附网址)AntConc:实用的本地语料库检索工具
TREX:有海量例句、丰富语料的在线词典Netspeak:一款免费的单词搭配检索工具WantWords反向词典,内含开发团队公开文档Cymo Booth:同声传译员的专属虚拟同传间
MateCat:一款免费的在线CAT工具Visuwords:可视化在线词典,帮你一键构造记忆宫殿
Linggle:语料+搭配检索工具(实操演示)
Ludwig: 地道英文写作辅助神器,告别中式英语
Reverso:辅助写作与翻译神器
▶ 专访王华树:机器翻译将要取代人工翻译吗?崔启亮:机器翻译对语言服务企业有多大作用?韩林涛:文科生如何学习机器翻译?魏勇鹏:机器翻译质量评估为什么重要?徐彬:熟练掌握翻译技术,就能做出漂亮的活儿曹首光:如何打造一款受欢迎的机器翻译产品? 李梅:机器翻译对未来翻译教育有何影响?
周兴华:高校翻译教师如何学习翻译技术?丁丽:译后编辑人员与译者身份是否对等?王巍巍:疫情背景下远程口译的挑战和应对
卢家辉、陈晨:口译员在远程口译中面临的主要问题
▶ 实践答疑一文读懂本地化如何批量重命名文件?
同是谷歌翻译,为何结果不同?
只需1分钟,快速制作双语对照文本
翻译语料库建设项目前期需要准备什么?
如何处理中文出版物中夹用的英文?如何高效地将机器翻译结果进行译后编辑?如何进入全球顶尖翻译大厂:谈谈简历投递雷区过来人谈如何找翻译实习和工作

▶ 行业洞察2021年语言服务行业回顾与展望
2022年全球百强语言服务商榜单2022年翻译行业将迎来哪些新变化后疫情时代,语言服务行业如何发展转型?何钦:中国电影对外译介的现状与思考冯志伟:关于机器翻译行业发展的三点建议张霄军:伦理视角下,机器翻译的能与不能黄友义:如何突破中外文化差异,让世界更了解中国?
▶ 教育创新李长栓:MTI论文千篇一律,如何破局?王华树 刘世界:新文科背景下翻译技术核心课程教学模式探索
王华树 刘世界:人工智能时代翻译技术转向研究曹达钦 戴钰涵:人工智能时代高校翻译技术实践环境建设研究
李梅:如何给“技术小白” 开设计算机辅助翻译课程?实践导向的MTI人才培养模式——以对外经济贸易大学为例数字化口译教学资源建设:欧洲经验与启示
如何将翻译项目管理模式应用到CAT教学课堂中?

继续滑动看下一个
翻译技术教育与研究
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存