胡鑫宇案:适用 “ 他杀推定 ” 原则 !

胡鑫宇事件新闻发布会:那只高举的手

母子乱伦:和儿子做了,我该怎么办?

陈志武:中国政府规模多大?

去泰国看了一场“成人秀”,画面尴尬到让人窒息.....

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

国内外常见语料工具一览

感谢关注我们!加油,研习人!

欢迎关注我们,一站式分享海量语言学术资源

来源编辑:语言服务行业公众号

转载编辑:研习君



敬请星标应用语言学研习,喜欢请点赞,分享请转发




敬请关注并星标,欢迎点赞、在看、转发!

 

语料库是语料构成的集合,要进行语料库的处理和应用离不开语料工具。接下来,小编为大家介绍一下语料处理步骤中所需的几类常用工具。


1、语料采集工具


     我们建语料库所需的语料可能有多种来源,如:网页、电子文档、纸质材料等。因此在采集不同来源的语料时我们需要使用不同的工具。
     其中,ABBYY FineReader、天若OCR文字识别等OCR识别软件可用于处理纸质材料或其他不可编辑的材料;Teleport Ultra, TextForever等软件常用于处理网页材料。

1)ABBYY FineReader

     ABBYY FineReader是一款专业OCR软件,可以进行文件识别、自动保留排版格式,后台批处理识别等功能。用户可以利用ABBYY FineReader进行对不可编辑文本的扫描,如图像、PDF等格式的语料(如下图所示),以获取Microsoft Word等格式的可编辑的文档。
 
官方下载地址:https://abbyy.store/

 
ABBYY FineReader软件标志

ABBYY FineReader软件界面
 

2)天若OCR文字识别

     天若OCR文字识别是一款界面简洁、功能强大的OCR识别软件,可将图片中的文本转换成可编辑文本,将表格识别后转换成可编辑表格,进行识别翻译、截图及截图标注等,处理图像或PDF等格式语料极为方便,基本操作如下图所示。
 
官网软件下载:https://ocr.tianruo.net/

 
天若OCR文字识别软件标志
天若OCR文字识别软件界面(可参见官网教程)

 
3)Teleport Ultra

     Teleport Ultra拥有直观的界面,可以在一个项目中处理多个服务器,使用正则表达式指定要爬行的包含区域和排除区域,批量获取网页数据信息。在语料搜集过程中,我们可以利用Teleport Ultra软件搜集网站中语料资源,根据软件向导的提示,经过简单的操作,便可以迅速获取大量资料。
 
官网软件下载:
https://www.tenmax.com/company/downloads.htm

 
Teleport Ultra软件图标

 Teleport Ultra软件批量采集特定网址中的语料
 

4)TextForever

     TextForever可以用来进行文本HTML到TXT 的转换、文件切分、文档合并、文本提取、TXT 文件分行、HTML 代码整理等功能。在使用Teleport Ultra软件提取网页中的语料后,我们可以使用TextForever软件对所获取的语料进行格式处理,搜集所需格式的语料,两个软件的搭配使用使得语料搜集过程更加方便快捷。
 
下载途径参考:
https://pc.qq.com/detail/8/detail_3448.html

 
TextForever软件图标

 TextForever软件界面
 


2、语料清洗工具

    
 语料清洗指去除语料中的噪音,包括不符合规范的格式、符号、内容等。北京外国语大学中国外语教育研究中心专职研究员许家金博士,将格式清洗错误分为文字符号类、空格段落类、标点符号类。
     语料清洗过程中可涉及的软件有Microsoft Word、EmEditor、Notepad++、文本整理器、库酷、斑斓科技小助手等。

 
1) Microsoft Word

     微软Word是微软公司开发的一款文字处理软件。相信大家日常办公都会或多或少用到它,其实它还有许多隐藏技能,今天为大家介绍其中之一——语料清洗。
     具体来说,利用Ctrl+H快捷键调出查找与替换对话框(如下图所示),点击“更多”,单击勾选“通配符”,借助通配符快速清洗语料。
 
Word通配符学习参考:
https://www.zhihu.com/question/334555512/answer/748239801
 
“Ctrl+H”快捷键调出查找与替换对话框

 
2) EmEditor

     EmEditor是一个轻量级、可扩展、易于使用的Windows文本编辑器,适用于Windows系统。EmEditor在64位和32位版本中都可用。我们可以在EmEditor软件中利用正则表达式快速清洗语料,具体操作是导入文本后,点击“搜索”,单击“替换”,再勾选“正则表达式”(如下图所示),利用正则表达式清洗语料。
 
正则表达式学习参考:
https://www.runoob.com/regexp/regexp-tutorial.html
在线正则表达式测试平台:
https://tool.oschina.net/regex

 
EmEditor软件图标

 
EmEditor软件中利用正则表达式

 
3) Notepad++

     Notepad++是一款与EmEditor类似的软件,Notepad++是Windows操作系统下的一套免费的文本编辑器,有完整的中文化接口及支持多国语言编写的功能(UTF8技术)。同样,我们也可以借助它,并利用正则表达式清洗语料,操作与EmEditor类似。
 
官网软件下载:https://notepad-plus-plus.org/downloads/


 
Notepad++软件标志

 Notepad++软件利用正则表达式
 

4)文档整理器

     文档整理器是一款使用方便的语料清洗软件,内含多种快捷键(如下图所示),不需要手动输入正则表达式或通配符进行语料清洗,功能丰富,操作简单,是一款较好语料清洗工具。

 
文档整理器标志 

文档整理器软件界面

 
5)库酷

     库酷是一款功能丰富的语料清洗软件,含多种快捷键(如下图所示),用户只需要根据自身需求点击对应快捷键即可,清洗语料速度快,也是一款不错的语料清洗软件,值得推荐。
 
库酷软件标志
使用库酷软件清洗语料界面

 
6)斑斓科技小助手

     斑斓科技小助手是一款基于VBA的Word小工具,与库酷和文档整理器不同的是,它可以直接在word中使用,功能丰富,提供各种快捷键(如下图所示),操作简单方便,为语料处理提供极大的帮助。
 
官方软件下载:http://edu.bon-lion.com/bon-lion-helper/
 
斑斓科技小助手在word中的显示

3、语料对齐工具

  
     语料对齐一般指的是双语或多语文本的平行对齐,一般以“一对一”对齐为主,也存在“一对二”或“一对多”平行文本的对齐,目前应用最为广泛的语料对齐是句级语料对齐。

常见的语料对齐工具包含两类:一类是CAT软件自带的工具,包括Trados的对齐文档、memoQ的Livedocs等,另一类是独立的工具,包括ABBYY Aligner、Tmxmall等。一般来说,CAT自带的语料工具有些局限,这里主要介绍独立的语料对齐工具。
 
1)ABBYY Aligner

     ABBYY Aligner 2.0是一个专业的工具对齐并行文本和创建翻译记忆数据库,提供了编辑对齐结果的功能,并可以保存为TMX格式,以便在CAT工具中进一步使用,可以提高工作效率。

 
ABBYY Aligner软件标志
 
ABBYY Aligner界面
 

2)Tmxmall

Tmxmall是一款在线语料对齐工具,语料对齐方便用户调整对齐结果,其自主研发的智能对齐算法可以自动对齐原文,支持46种语言,2070种语言对,极大提高语料对齐效率。
 
官方下载地址:https://www.tmxmall.com/

 
Tmxmall工具标志 

Tmxmall 工具界面

4、语料检索工具


 语料检索指的是对语料中的词、句或结构进行检索,可以获得词频、词密度、词表、搭配、关键词单等,以便对语料进行分析研究。在此过程中有AntConc, ParaConc等可供使用。
 
1)AntConc

     AntConc是一款免费的单语语料检索工具,支持Windows, MacOS等系统,具有索引、索引定位、词丛、搭配、词表和关键词单等多种功能,界面简单,方便用户操作,可以极大提高语料检索的效率。
 
官方下载地址:
https://www.laurenceanthony.net/software/antconc/

 
AntConc软件标志

 AntConc软件检索界面

 
2)ParaConc

     ParaConc是一款双语或多语平行语料库建设与检索工具,具有语料对齐、平行文本预览功能、平行文本检索、检索行排序、词频统计、搭配提取等功能,可以用于语料检索、对比分析、语言学习和翻译研究培训等。
 
官网下载地址:https://paraconc.com/

 
ParaConc软件标志

 ParaConc软件界面
 

5、总结


     语料工具有很多,在语料采集、清洗、对齐、检索等各个过程有不同的软件可供我们使用。面对形形色色的工具,我们不需要贪多,要选择适合自己的工具并熟练运用,形成自己的一套语料处理体系,无论是对日常学习,还是对学术研究,都有重要的意义。


原文编辑:陈   雨

排版:李斯然

审校:李斯然

-END-


本文转载自:翻译技术教育与研究公众号

本期编辑:杨莹YOUNG

来源编辑:语言服务行业

转载编辑:区域国别学与跨文化研究

*声明:本文仅代表作者个人观点,不代表本公众号立场
欢迎点击下方关注公众号,获取最新交流群二维码

综合编辑:应用语言学研习

微信公众平台审核:梁国杰

科研助力

讲座回看 | 文献综述如何催生论文、专著和项目

回放通道开启 | 第六届全国高等学校外语教育改革与发展高端论坛(主旨报告(二)

教育部人文社科项目申报书填写+立项案例

课题研究方案、立项申报书、开题报告的联系和区别

推荐 | 文献综述高分模版

翻译必备术语库和语料库合集(附网址)!
收藏 | 国内外好用的语料库资源汇总
书单 | 41种语言学好书推荐,值得收藏!
线上课程 | 人文社科研究方法——质化、量化、混合研究方法
如何写文献综述(内含示范性举例和练习)
文献综述的目的及写作方法指南


文献延伸阅读(研习人指引)

友情推荐相关语言学文献





推荐阅读:
如何查找习近平讲话官方外文版?收藏这几个网站
习近平45本著作电子版下载(增补)
讲座 | David Crystal: The future of Englishes (回放链接+笔记)
讲座回看 | 文献综述如何催生论文、专著和项目
最新74个!外国语言文学专业调剂接收调剂院校清单及链接
Journey into Journals——国际期刊论文写作与发表(李恒教授主讲)
关于外国语言文学专业调剂的40个问题(附可调剂院校清单、链接)
【双语字幕】乔姆斯基:语言最大的用途并不是交流
让语言学大咖告诉你,什么是语言学和语言研究?(内含重磅教学资源)
王文斌 | 让我国儿童“习得”外语还是“学得”外语?
学术推荐| 中国形象研究的话语与翻译转向(文/郇昌鹏 管新潮)
2022年“第五届中国大学生5分钟科研演讲(英语)大赛” 二号通知
Rod Ellis讲座 | 二语习得:自何处来?向何处去?(Linguists Online系列讲座 22)
van Dijk《社会与话语:社会语境如何影响文本与言谈》中译本出版
未来5年,语言学领域可能出现哪些新变化和新趋势?
为什么现在语言学前沿研究好像都和语言本体研究无关了?
干货 | 10部必看的豆瓣高分英文电影(在线观看)
如何在微信上给领导和同事点赞?
特稿|两会2022:官方终版——新华社受权播发《政府工作报告》(双语全文)
张璐口译:2022总理两会记者会现场交传+完整双语+要点提炼
李宇明:语言资源与语言资源学 | “语言资源学理论与学科建设”大家谈
语言学泰斗David Crystal即将开讲!(免费)
阎学通:学者应多研究原理,少搞政策建议
如何在研究中提出一个......还不错的问题?
俄向乌提出停火六条件之一:俄语成为第二官方语言,并应写入宪法!
2022中国英语教学研讨会征文通知(1号)
征稿通知No.2 | 2022(第18届)语言智能教学国际会议
戴曼纯:乌克兰语言规划及制约因素
会讯 | 中国语言学话语体系建设与国际传播学术研讨会 邀请函(第1号)
多语种汉外对照版 | 北京冬奥会竞赛项目名称(中国外文局翻译院)
观两会:英语在中小学的主课地位与公民素质和能力的培养(文/蔡基刚)
热门院校翻译硕士(MTI)历年复试真题汇总!
前沿概览 | 用外语讲中国故事专栏
2022政府工作报告要点汇总(中英双语)
英语中如何妥帖地称呼“残疾人”?
干货 | “两会”“人大代表”“政协委员”用英语怎么说?
人大代表的“代表”竟不是 representative,“两会”必知的英文表达,全在这里了!
《外语教学与研究》2022年第2期目录
“语料库与跨学科研究”系列10讲(华南师范大学外国语言文化学院学术讲座)
语言学那些事丨元宇宙?元话语?此“元”非彼“元”
科普 | 为什么“西藏”的英文名不是“Xizang”,而是“Tibet”?
赵雪华 | 乌克兰的语言政治
特稿:得中文者得天下——对外语专业学生的一个忠告
课题研究方案、立项申报书、开题报告的联系和区别
“专门用途英语教学与研究前沿丛书”新书出版
100个中国成语俗语的英文翻译,果断收藏!
北京冬奥会竞赛项目名称英译(中国外文局翻译院整理)
中国外文局 | 北京冬奥术语汉英对照汇编
冬奥会上,为啥中国用“CHN”而不是“PRC”来表示?
国际语言服务二级学科究竟是个怎样的存在?(文/韩林涛)
乔姆斯基最新访谈视频:Does Language Shape Our Perception?
应用语言学研究的国际动态与前沿分析(文/徐锦芬)
如何评价翻译的好坏?
第二轮“双一流”建设名单公布!15所大学多个学科被警示(或撤销)
翻译必备术语库和语料库合集(附网址)!
“冰墩墩”用英文怎么说?100个冬奥会热词英译!
Noam Chomsky | Mind Your Language
神经机器翻译,还是神化机器翻译?
陆俭明 |“学好语文是学好一切的根本”——个人语文素养关系国家语言能力建设
李宇明:语言规划学说略
文秋芳丨“云连接论”的构想和应用
文旭:翻译作为语言学的研究对象
束定芳:语言、外语学习与外语教育生态系统
访谈视频 | Dan Jurafsky:AI 如何改变我们对语言的理解
乔姆斯基最新访谈视频:Does Language Shape Our Perception?
前沿 | 2022年外语学科学术会议一览(国内+国外)
翻译常用的22个语料库
书单 | 北京大学中文系及英语专业推荐阅读书目
新文科背景下文科技术型人才培养探究
高校青年教师顺利晋升职称的18条指南
重磅资源,最新抗击新冠肺炎疫情中英双语对照词汇表(600条)
326个中国成语俗语的英文翻译汇总,建议收藏!
最新国家社科基金项目申请书填写指南,赶紧收藏!
韩宝成 梁海英:我国基础教育外语考试存在的问题
资源 | 分享几个免费开放的数据库
Noam Chomsky | Issues in Modern Linguistics(乔姆斯基访谈视频)
新文科、新外语、新导向——论外语专业人才培养的发展与创新(文/何宁、王守仁)
《中国外语》2021年总目录
文献综述的正确打开方式:如何从一篇文献综述发现学术生长点
常见机器翻译网址大全
书单 | 推荐41种语言学好书!(商务印书馆译丛系列)
《你好,中国》英文版(全100集)
年度热词“社死”和“内卷”用英语怎么说?
说英语的人和说汉语的人有两种思维方式?语言学家如是说
《外国语》2021年总目录
重磅 | 首批教育部哲学社会科学实验室名单公布!
“生成语法创始人”乔姆斯基教授生日特辑
“当代国外语言学与应用语言学文库”(升级版)来了!
许家金:语料库研究学术源流考
KT文库|语言学方向与应用语言学方向年度书单
KT文库 | 翻译学方向与跨文化研究方向年度书单
刊讯 |《现代外语》2022年第2期目录及摘要
新书速递 | 《新中国国家语言能力研究》(国家语言能力研究丛书)
任务型语言教学在中国:理论、实践与研究
期刊概览︱《外语教学与研究》2021年第6期
北京大学英语专业推荐阅读书目
2021年北京大学翻译硕士真题及答案(外一篇)
重磅|教育部首批新文科项目名单(语言学、人工智能大数据方向)
干货 | 超实用的学术论文英语句式大全(附PDF格式下载方式)
《现代外语》2021年总目录
干货 | 写文献综述的28个要点
语言学、外国文学CSSCI来源期刊(含扩展版)(2021-2022)投稿方式汇总
Rod Ellis独家专访:任务型语言教学及其在中国的挑战(全文)
224本CSSCI期刊最新便捷投稿方式汇总(综合社科、高校学报类)
文献综述 | 选文献、读文献、写综述的原则与方法
"我因多年的冷漠而无法入睡,都是因为我读了一点诺姆·乔姆斯基"
资源|网络上那些轻松愉快的语言学课程(值得收藏)
最新 | 北京大学出版社语言学书单(附:即出新书预告)
讲座视频 | 认知语言学导论(9):认知语法
聚焦 | 国家社科基金:盲评、会评大揭秘
孔子语录英文版(理雅各 译),值得珍藏!
刘英凯:信息时代翻译中“陌生化”的必要性和不可避免性
我国区域与国别研究的现状和愿景(钱乘旦 汪诗明 张倩红)
于洋 姜飞:国际跨文化传播研究新特征和新趋势
最全3000个常见公共场所英语标示!(国家英文译写规范/收藏版)
CSSCI南大核心来源期刊目录(2021-2022) 学科分类版
收藏 | 公文写作常见错误更正对照表!
特别推荐 | 语料库方法技术
2021第九版北大核心期刊目录(语言学、文学、综合性学报)
收藏 | 国内外好用的语料库资源汇总
郭英剑 | 新文科与外语专业建设
视频 | Tony McEnery:语料库与批评话语分析 前沿讲座
视频 | Paul Baker: 语料库与话语研究 前沿学术讲座
原版引进 | 德古意特认知语言学研究丛书+应用丛书(13种
CSSCI来源期刊最新总目录(含扩展版,2021-2022),建议收藏!
陈平:语言学的一个核心概念“指称”问题研究
黄国文 | 新文科与外语教育——从“术”与“道”的 关系谈起
陈平 | 话语的结构与意义及话语分析的应用
书讯 | Routledge Handbook of Cognitive Linguistics 文旭&Taylor主编
图解 | 语言研究的哲学基础与理论渊源
徐赳赳 | 篇章语用研究70年
戴炜栋 胡壮麟 王初明等:新文科背景下的语言学跨学科发展
国外语言学学科眼动研究: 现状与前瞻( 1934-2020)
神经语言学国际热点与趋势的科学知识图谱分析

扫码关注↑↑↑ 即可获取最新入群二维码!

目前已有 6.3 万语言文学、区域国别与

跨文化传播学研习者关注本公号

欢迎加入交流群,分享学习,共同进步!

亲爱的研习人,

一起来点赞、在看、分享三连吧!

一个,点亮在看

文章有问题?点此查看未经处理的缓存