查看原文
其他

好书推荐|《多语种语料库的应用价值研究》(留言赠书)

六万学者关注了→ 语言学心得 2024-02-19


“青年学人”讲座|胡韧奋、彭一平:汉语语篇衔接特征的自动分析和应用研究

2023-06-24

重  磅|2023年度教育部哲社科研究后期资助项目申报开始!

2023-06-25

重  磅|中国博士后科学基金第73批面上资助名单(语言学)

2023-06-24

///

社会科学文献出版社

2021年12月



李嘉珊 田嵩 著



语料库(Corpus)是语言学研究的重要工具,随着大数据、人工智能、可视化等技术的融入,现代意义上的语料库已经成为智能语言服务的重要资源。多语种语料库应用价值的深度挖掘和有效利用,在推进多领域智能化与国际化发展中起着至关重要的作用,也是语言服务行业高质量发展的题中之义。本书梳理了语料库技术的衍生发展进程,提炼了多语种语料库应用的典型案例,阐释了多语种语料库建设的关键技术,深入挖掘语料库在商业服务、翻译服务、信息服务、技术服务等方面具有的应用价值,系统分析了多语种语料库在数字时代所扮演的重要角色。


  ///  好书推荐


《多语种语料库的应用价值研究》

李嘉珊 田嵩 著


作者简介

李嘉珊,教授,北京第二外国语学院中国服务贸易研究院常务副院长、国家文化发展国际战略研究院常务副院长,首都国际交往中心研究院执行院长,首都国际服务贸易与文化贸易研究基地首席专家,国家文化贸易学术研究平台专家兼秘书长。主要研究方向为国际文化贸易、国际商务沟通。

田  嵩,北京第二外国语学院副教授,首都国际服务贸易与文化贸易研究基地研究员,主要研究方向为大数据分析、网络新媒体技术。



目录

第一章 绪言

第一节 语言的起源和主要语言分布情况

第二节 语言服务的商业挖掘现状

第三节 语言服务在我国的发展情况

第二章 语料库概念界定和学术梳理

第一节 关于语料库

第二节 语料库的特点

第三节 语料库在全球范围的发展

第四节 前沿技术在语料库发展中的应用

第三章 典型语料库应用案例

第一节 语料库在语言翻译领域的应用

第二节 语料库在教育教学领域的应用

第三节 语料库在对外传播领域的应用

第四节 语料库在商业服务领域的应用

第四章 多语种语料库的建设及关键技术

第一节 多语种语料库介绍

第二节 多语种语料库的特征

第三节 多语种语料库的构建框架

第四节 多语种语料信息智能分析技术

第五节 语料资源的大数据采集和存储技术

第六节 多语种语料库信息检索及可视化呈现

第五章 语料库应用价值挖掘

第一节 多语种语料库与版权服务贸易

第二节 基于数据驱动的商业价值挖掘

第三节 多语种语料库促进翻译服务发展

第四节 基于语言服务的信息挖掘应用

第五节 大数据时代多语种语料库的应用价值挖掘

第六章 趋势与展望

第一节 多语种语料库的发展趋势

第二节 对未来的展望

参考文献

后记



书  摘


语料库在全球范围的发展


一 语料库在中国的发展

    中国对语料库的研究已有40余年,语料库的研究领域、研究团队和研究方法不断丰富。第一,语料库的研究领域起初主要集中在语言学、文字学、语法学、哲学等人文科学,涉及的语种基本只有英语。后来语料库涉及的领域不断扩大,渐渐扩展到写作学、词典学、方言学、修辞学、经济学和管理学等,语种延伸到俄语、日语、法语、德语、西班牙语等。第二,从事语料库研究工作的人员越来越多,内部分工明确,且在原先团队的基础上渐渐吸引同时掌握语言和其他学科的人才。第三,最开始的研究主要立足于理论研究,后来慢慢开始向实证研究转变,并结合基于数据和数据驱动的综合的研究方法对实际问题进行研究。

1.我国语料库先河

    一开始,学者为了制定基础汉字的字表,建立语料库并以统计的方法来研究汉字的频率,这样的语料库是现代语料库的雏形。尽管这一类语料库由于时代的技术限制而不能应用到机器上来,但其打开了我国语料库研究的大门。典型代表是1925年教育学家陈鹤琴编写的《语体文应用字汇》(陈鹤琴,2014)。

2.早期的机器可读语料库

    直到1979年,中国才开始建设机器可读语料库,这一类语料库主要包括:武汉大学建立的汉语现代文学作品语料库(1979年)、北京航空航天大学建立的现代汉语语料库(1983年)、北京师范大学建立的中学语文教材语料库(1983年)和北京语言学院(今北京语言大学)建立的现代汉语词频统计语料库(1983年)。

3.国家语委现代汉语语料库

    国家语委从1993年开始建设现代汉语语料库,建设主体包括国家语言文字工作委员会和语言学界、计算机界的专家学者,其建立语料库的目标是对语言文字进行信息处理、制定语言文字的规范和标准、研究语言文字、语文教育和语言文字的社会应用(翁莉佳,2012)。该语料库由人文与社会科学、自然科学及综合学科三个大类,约40个小类组成。国家语委现代汉语语料库较中国之前建立的语料库来说规模更大、内容更广泛,且从技术层面来看,更能够保证语料的真实性与标准的准确性。国家语委现代汉语语料库具有国际视野,不仅考虑到国内的需要,还面向国外,在抽样的分布和比例上较为恰当,更加科学。

4.大规模真实文本语料库

    1992年以来,研究中文信息处理的高校和机构陆续建立了语料库,并将语料库应用于对中文信息处理的研究。建立大规模真实文本语料库的单位有:《人民日报》光盘数据库、北京大学计算语言学研究所、北京语言文化大学(今北京语言大学)、清华大学、山西大学、上海师范大学、北京邮电大学、香港城市理工学院(今香港城市大学)、东北大学、哈尔滨工业大学、中国科学院软件研究所、中国科学院自动化所、北京外国语大学日本学研究中心和台湾“中央研究院”语言学研究所(筹备处)。

二 语料库在其他国家的发展

1.其他国家语料库的发展概述

    《英语词典设计》(Plan of an English Dictionary)对英语的编写方法有着深刻的影响,该书在1747年出版,确立了编写英语词典的典型方法。之后,全球范围内通用的《牛津英语词典》(Oxford English Dictionary)最后分册在1928年问世,这本词典引证了400万条词条,还专门出版了中古英语手稿。

    语料库最早用于教学,它对英语作为第二外语或外语教学中的阅读做出了显著的贡献。在英语教学中,各国都提出了语料库的使用方法,例如,帕尔默(Palmer)提出日本人在进行外语学习时,利用语料库是一个很好的方法,从语料库选择语料,再将语料拓展到词语搭配;同期的欧洲和北美,也以语料库为基础,对词汇进行平行研究。语料库在教学中的运用,还拓展到母语为德语、法语等的使用者对英语的学习上。之后,语料库形成了方言库,美国方言调查主任H.库拉斯(H. Kurath)指导调查和编制美国和加拿大的方言分布地图,H.奥顿(H. Orton)和E.迪思(E. Dieth)领导编制全英国不同地区的英语口语地图,录制的不同地区的英语语言被保存在BBC的档案中。

    上述语料库语料的获得大多由语言学家手动收集,而计算机技术的进步促进了计算机语料库的发展。从未加分析与标注的早期计算机语料库到标注的二代计算机语料库,再到人们运用总结出的经验对开发语料库的软件工具进行研制,计算机技术为语料库的发展提供了无限可能。

2.其他国家的语料库

    母语非英语的语言学习者利用多种语料库来进行英语的学习和研究,比如ICLE(The International Corpus of Learner English,学习者英语国际语料库)是母语非英语的学习者学习英语最重要的语料库之一,该语料库于1990年启动,语料是通过输入各国大三、大四的高级学习者的作文获得的,文本由14类不同母语背景的学习者撰写,从而形成了14个子文本库。

对波兰的学习者来说,PELCRA(Polish and English Language Corpora for Research and Applications)是较常使用的语料库,该语料库于1996~2005年创建并完成,由波兰罗兹大学(University of Lodz)英语系和英国兰卡斯特大学(Lancaster University)英语系合作,采集了波兰初级到高级英语学习者的各种语料,形成书面材料。PELCRA语料库中语料的来源是学生,这些学生在考试中撰写的文章会被上传到语料库中。此外,PELCRA中的部分语料依靠人工进行词性赋码,并且该语料库还会对词性赋码进行规则的制定。


_
_
_
_
_



留言赠书活动(第 40 期)



1. 关注“语言学心得”微信公众号;



2. 给本文留言,聊聊您对这本书的想法💡;


3. 截止日期:2023年6月30日(星期五)12:00,留言点赞数排名✨ 前三名✨为本次活动的幸运读者,将为其包邮(限国内)赠出一本《多语种语料库的应用价值研究》(纸质版)


欢迎各位转发到微信朋友圈,为自己的优质评论集赞👍👍👍


(感谢社会科学文献出版社对本次活动的支持,为读者朋友们送上福利!)






课程推荐




“青年学人”讲座|胡韧奋、彭一平:汉语语篇衔接特征的自动分析和应用研究

2023-06-24

重  磅|2023年度教育部哲社科研究后期资助项目申报开始!

2023-06-25

重  磅|中国博士后科学基金第73批面上资助名单(语言学)

2023-06-24

好文荐读|王添淼等:国际中文新手、熟手教师课堂指令语类型对比研究

2023-06-23

稿约|《语言战略研究》“国际语言冲突”专题征稿

2023-06-23

研  修|2023年“汉语言文字学高级研讨班”

2023-06-22

学术会议|第七届全国语言学博士论坛

2023-06-21

学术会议|基于语料库/实验的二语习得研究国际会议

2023-06-20

重  磅|2023软科中国大学专业排名(语言学)

2023-06-19

研究必备|“6·18”科研狂欢节,语言学人专属科研福利!

2023-06-18

研  修|首届“国际中文教师数字素养提升工作坊”开始报名啦!

2023-06-18

好书推荐|《学术英语写作教程》(留言赠书)

2023-06-16


欢迎加入

“语言学心得交流分享群”“语言学考博/考研/保研交流群”
请添加“心得君”入群务必备注“学校+研究方向/专业”

今日小编:心得君

审    核:心得君

转载&合作请联系

"心得君"

微信:xindejun_yyxxd

继续滑动看下一个

好书推荐|《多语种语料库的应用价值研究》(留言赠书)

六万学者关注了→ 语言学心得
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存