查看原文
其他

李宇明 王春辉:从数据到语言数据 |《语言战略研究》专题​ 主持人语

The following article is from 语言战略研究 Author 李宇明,王春辉

共享学习,信息时代的生活方式。加油,研习人!

欢迎关注我们,一站式分享海量语言学术资源

来源编辑:语言战略研究公众号

转载编辑:研习君



敬请星标应用语言学研习,喜欢请点赞,分享请转发




敬请关注并星标,欢迎点赞、在看、转发!

【2022年第4期】


专题研究

语言数据与数字经济


 丨主持人语丨 



主持人简介

李宇明

北京语言大学教授


王春辉

首都师范大学教授





从数据到语言数据


科学是第一生产力。科学的发展必然会促进生产力的发展,进而也将对生产关系进行相应调整。数字科学并未将自己局限于科学领域,而是以其巨大的科学成就推动人类进入“数字经济”时代。数据不仅是数字科学的核心要素,也嬗变为数字经济的重要生产要素。2017年12月8日,中央政治局第二次集体学习,习近平总书记首次提出“要构建以数据为关键要素的数字经济”。2019年10月28~31日,中国共产党十九届四中全会召开,会议提出,“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制”这是对数据具有生产要素性质的首次明确表述,把数据与“劳动”“资本”“土地”“知识”“技术”“管理”并列为七大生产要素之一,指出可以通过市场“按贡献取酬”。2020年3月30日,《中共中央  国务院关于构建更加完善的要素市场化配置体制机制的意见》发布,对土地、劳动力、资本、技术、数据等生产要素做出了市场化的具体安排。2022年4月10日,《中共中央  国务院关于加快建设全国统一大市场的意见》发布,对“加快培育统一的技术和数据市场”有专门论述,明确指出要加快培育数据要素市场,推动数据资源开发利用。


在数据作为数字科技的关键要素、数字经济的关键生产要素的时代,“语言数据”必然成为学术研究的热点,成为发展经济争相拥有的对象。“语言数据”在中文语境里还是一个较新且较少使用的概念。在网上检索“语言数据”,可见2016年有“语言大数据联盟”的消息,2020年7月有《光明日报》发表李宇明《语言数据是信息时代的生产要素》的文章,之后有上海外国语大学设立“语言数据科学与应用”专业的硕博士学位、成立“语言数据与智慧教育研究中心”的消息,2021年9月有浙江财经大学的“语言数据创新班”招生简章等。


“语言数据”较少见用的原因是:其一,人们已习惯使用“语言材料”“语料(库)”“语言资源”这类说法。如2003年,在“973计划”的特别专项“中文语料库建设”支持下,中国科学院自动化所等单位成立了“中文语言资源联盟”(Chinese Linguistic Data Consortium)。这一联盟的建立是借鉴美国“语言资源联盟”(Linguistic Data Consortium)的经验,目的是共建共享中文资源,促进语言信息处理的技术进步。上文两个联盟中文名中的“语言资源”就与英文名中的Linguistic Data(语言数据)相对应。其二,“数据”(data)研究者,习惯用“数据”“大数据”这样的上位概念,不需要或不能自觉区分语言数据和其他数据,确须指明时才加“语言”作为限定,如“语言大数据联盟”。其三,本质上是对“语言数据”的重要性认识不足,研究还比较薄弱


语言数据是以语言符号体系为基础构成的各种数据,内部可以细分为5类。

一、语言学科数据

指语言符号系统本身的各种数据,如语音、语汇、语法、语篇等,也包括文字、标点符号、音标等。有必要时,还可以将其分别称为语音数据、语法数据、文字数据等。语言学科数据是对语言这一客体进行研究而得到的各种认识,属于语言学知识范畴,辞书、教科书、语言学论文著作等是其通常的贮存方式。

二、话语数据

也可以称为“言语数据”,指在语言交际中产生的口语和书面语等各种数据。这类数据是语言(文字)作为载体(或主要载体)所负载的各种知识与信息,存在于人类生活、工作、学习、休闲娱乐等各个领域,是语言数据中最为丰富、最为重要的一类。话语数据可以是不同领域的,可以是单语、双语和多语的,可以是平面媒体、有声媒体、网络媒体和融媒体的。

三、语言衍生数据

涉及语言的社会属性、生存状态、媒介装备等相关数据。比如各语言(文字)的地域分布、母语和第二语言使用人口,各国的国语(或官方语言)及语言能力,各语言的重要文献数量及翻译状况,语言技术水平和语言产业状况,甚至也涉及各语言所拥有的非物质文化遗产、语言社团的综合实力及对人类的贡献等。它是语言在长期社会应用中所形成的一系列附属数据,对于衡量一种语言的生存状况、判断国际语言格局具有重要意义。

四、人工语言数据

利用语言(文字)而设计的特殊符号系统,以及运用这些特殊符号而产生的各种数据。比如盲文、手语、电报代码、旗语、灯语等,主要是将文字(或拼音符号)转写为特殊符号,用于特殊人群、特殊场合的特殊交际。在符号转换的过程中,也可加入一些特殊成分,比如手语中就加入了一些自然动作或聋人群体的传统动作。

五、语言代码数据

指生活中、科技活动中使用的各种代码和科技语言,它们通常具有高度形式化、可机读(或容易转化为机读)的特点。如专业符号、公式、图表、音乐曲谱、机读语言、编程语言,还有各类号码、条码、标记、印章、红绿灯、网络文本中的表情包甚至插图、水印等。这是最广泛意义上的语言数据。在语言生活中,这些人工语言或单独使用,或与自然语言结合使用;有些可以“翻译”为自然语言,有些不易“翻译”,但都需要以自然语言作为“元语言”进行定义、描述或解释。在一个所谓的“读图时代”“超语时代”,这些人工语言的使用越来越频繁,产生的数据越来越重要。


在英文语境中,“语言数据”(linguistic data、language data)是近几十年来使用较为频繁的术语。linguistic data大致对应于上文的语言学科数据。language data大致对应于上文的话语数据,比如“无界译者”公司提出的“语言数据倡议”(Language Data Initiative);但有时也可指称语言衍生数据,如威尔士政府的“威尔士语语言数据”(Welsh Language Data)、美国等国家或地区人口普查中的语言数据等。


语言数据的研究与应用,过去主要集中在语言学、计算语言学、信息科学等领域。随着数据科学的发展,特别是数据成为人工智能发展的主要驱动因素,语言数据的研究与应用,迅速扩展到诸多学科和社会领域,弥散到人类的各个生活空间。因为语言数据占人类数据量的大多数,语言数据的技术更新,特别是利用互联网收集话语数据的便利性和处理话语数据的能力的快速提高,促进了“数字科学”“数据科学”的迅速发展。在“数字科学”“数据科学”的发展中,语言数据发挥了举足轻重的作用,因为所处理的“数字”“数据”主要是语言数据。


未来的语言数据研究,需要清醒认识语言数据所具有的数据共性和语言特性,界定清楚语言数据的内涵与外延,研讨语言数据的功能及其实现方式,建立语言数据(资源)学科及人才培养体系,推进语言数据科学的发展。语言数据在以下四大领域发挥功能最为显著。

第一,语言保护

在语言资源保护领域,语言数据发挥了重要作用,如国家语委2008年启动的“中国语言资源有声数据库建设”,2015年启动的“中国语言资源保护工程”。但是全世界有7000多种语言,多数语言处于濒危状态,为了全球语言保护,急需为哪些语言建立语言数据库,依据什么标准建立什么样的语言数据库,怎样集世界之力联合建设和开发利用语言数据库,是需要首先解决的大问题。

第二,语言教学

在语言教学领域,语言数据发挥着决定性的作用,特别是线上教学成为主导方式的今天。要满足母语教学、外语教学、海外华语教育、国际中文教育等各种语言教学的需求,教育界和教育产业界必须把相关的各种语言数据,特别是语言学科数据和话语数据进行积聚整合,精准发送到使用者手中。

第三,语言学研究和语言产品研发

语言学研究和语言产品研发,必须依赖语言数据,比如汉语语法规律的研究离不开语料库;建立语言能力的指数评价体系需要全球的语言衍生数据;辞典本来就是一种特殊的语言数据库,特别是线上辞典,辞典编纂也早过了“抄卡片”的年代。语言数据库已成为语言学研究的基本工具,成为语言产品研发的基本建设。

第四,语言信息处理

语言信息处理是语言数据最重要的功能领域。其一,计算机要获得语言智能,能够从事“语言行为”,必须依靠大量的语言数据“饲喂”,依靠“数据驱动”;其二,计算机的“社会计算”,主要处理的就是各领域的语言数据。这一领域有许多发展中的问题,比如如何利用语言学科数据,使语言智能的发展变“数据单轮驱动”为“‘数据+规则’双轮驱动”;如何建立可以测试评价计算机语言智能和语言行为的语言数据库;如何扩充英语之外的“双语平行语料”,提升非通语种的自动翻译能力;如何解决“语言小数据”问题,提升专门社会领域、专业学术领域的语言处理问题;如何利用语言数据为特殊行业、特殊人群配备人工智能助手等。


至于说关于语言数据作为关键生产要素,应当做哪些工作,学界业界还较少讨论。也许下面这些内容是必要的全力支持语言数据的科学研究,大力发展语言数据产业与职业,建立和完善市场机制,逐步建立语言数据收集、加工、交换、贮存及产权、收益等相关的技术标准、法律法规和政策体系,充分发挥其生产要素的经济功能和社会功能。其中语言数据库的共建共享是首要问题,可以说,从研究生做硕士、博士学位论文到每一个社科基金语言项目,从每一个辞书编纂项目到每一项自然语言处理工程,几乎人人都要建语言数据库,但却不能实现学界业界共享,其学力和财力的浪费已难以计算。


总之,语言数据是一个较新但又十分重要的话题,对它的研究超出了现有语言学的范畴也超出了其他学科的单一学科范畴,需要多学科联袂进行交叉研究;语言数据问题也超出了学术研究范畴,成为社会发展的重要问题,需要全社会的共同参与。本专题的几篇文章,涉及语言数据安全、语言数据的经济属性、语言数据的数字化技术、语言智能技术对于数据治理的意义等论题,是关于语言数据几个问题的初始性研究。初始性研究的意义不在于解决了什么问题,而是提出问题,引发关注。希望这一期语言数据研究能得到学界的呼应和社会的支持。 

(该文首发于《语言战略研究》2022年第4期,发表时有删节,公众号推送版本为完整版)


编排:韩   畅

审稿:王   飙   余桂林


相关推荐


《语言战略研究》2022年第4期目录与提要《语言战略研究》2022年第3期目录与提要《语言战略研究》2022年第2期目录与提要《语言战略研究》2022年第1期目录与提要



欢迎点击下方关注公众号,获取最新交流群二维码

综合编辑:应用语言学研习

微信公众平台审核:研习君

课程讲座

2023年度教育部人文社科项目申报线上培训——语言学专场

南大核心CSSCI全学科期刊目录(含扩展版)
翻译技术名师讲堂 | “翻译技术与翻译管理暑期集训营”
讲座视频 | Stephen Krashen: 语言习得的三个阶段
国家社科中华学术外译项目申报:要点、重点和关键点
讲座回看 | 黄忠廉教授:国家社科后期资助项目申报书的设计与书稿的打磨
研究方法指南

‍国内外常见语料工具一览
选题宝 | 2023年度教育部项目申报线上培训(多学科、多专家、多福利)
讲座回看 | 文献综述如何催生论文、专著和项目
翻译必备术语库和语料库合集(附网址)!
收藏 | 国内外好用的语料库资源汇总
书单 | 41种语言学好书推荐,值得收藏!

技能提升


黄忠廉教授主讲


专题推荐



基础文献荐读

推荐阅读:
如何查找习近平讲话官方外文版?收藏这几个网站
翻译技术名师讲堂 | “翻译技术与翻译管理暑期集训营”
2023年度教育部人文社科项目申报线上培训——语言学专场
直播预告 | 中国知网论文写作系列讲座
请查收全网最全的论文搜索下载渠道
北京外国语大学英语学院本科生推荐阅读书单
乔姆斯基晚年学术思想的集中展示丨《语言的科学》(汉译世界学术名著丛书)面世
选题宝 | 2023年度教育部项目申报线上培训(多学科、多专家、多福利)
“语言类公众号热度榜”6月月榜
书讯 |《认知语言学》中译本出版!
《外语教学》2022年第3期目录
讲座回看 | 黄忠廉教授:国家社科后期资助项目申报书的设计与书稿的打磨
重点栏目介绍 | 中国外语教育变革大讨论
新一轮硕博学科专业目录即将实施,迎来重大调整!
史上最全面最标准的数学符号、公式的英语表达方法
《世界语言生活状况报告(2023)》选题征集通知
国家社科后期资助项目申报书的设计与书稿的打磨
Chomsky最新讲座回放:“语言学创新”系列讲座(二)
访谈Noam Chomsky:语言学研究的回顾与展望
英语学习 | 可汗学院 英语语法 全121讲
重磅|2022软科中国大学专业排名(语言学)
访谈视频 | 乔姆斯基:语言最大的用途并不是交流
收藏|15个国外主流免费学术论文数据库(国内直接打开)
2022 年度国家语委科研项目开始申报啦!
语言学家David Crystal 访谈:母语者神话
中国英语教学的十大神话(Myths)
软科中国大学专业排名——商务英语
重磅!《义务教育英语课程标准(2022年版)》全面解读(PPT分享)
软科中国大学专业排名——‍英语
重磅 | 2022软科中国大学专业排名出炉(中国语言文学 & 外国语言文学)
软科中国大学专业排名——翻译
超实用的汉语教学助力神器——《初级汉语语法点微课62讲》
重磅新书 | 乔姆斯基《句法结构》(第2版)汉译本
讲座回放 | 许家金教授团队:语言、科技与艺术
陆谷孙:中国学生应该如何学英语?
陆谷孙先生谈如何进行论文写作|学位论文:一次智力探索之旅
“当代国外语言学与应用语言学文库(升级版)”又上新啦!(互动赠书)
科研工具 | 46款免费机器翻译平台大集合
国外网络语言生活研究的发展与思考
2022年“第五届中国大学生5分钟科研演讲(英语)大赛” 三号通知(信息已更新)
南大核心CSSCI全学科期刊目录(含扩展版)
教育部发布:第1~13批外语词中文译名,建议收藏!
【名家论坛】姜望琪 / 好翻译的标准
纠正对“以学生为中心教育”的误解
大家观点 | 邢福义:“复制”与“抄袭”
重磅资源丨新冠疫情英语语料库
人工智能时代下语言学研究的理念与取径
文献综述高分模板:引言、主题+结论
近五年国际中文教育领域高层次立项清单
首部对标《等级标准》的《国际中文学习词典》
非法期刊特征、名录及鉴定方法!
微沙龙|乔姆斯基的语言观复盘
李宇明 | 中国语言规划学的四大理念(主旨报告PPT分享)
全国翻译硕士专业学位点详情表(截至2022年4月12日)
福利 | 273款答辩PPT模板送给辛勤写论文的你(附答辩攻略)
《外语教学与研究》2022年第3期目录
《外语教学》2022年第3期目录
讲座回放 | 程晓堂:义务教育英语课程发展的新方向
乔姆斯基:关心语言,更是关心人类的命运(Chomsky新书《我们是谁》节选)
【学术前沿与动态】国外课堂二语习得研究动态(2010—2019)
王守仁 | 从语言能力到核心素养:新课标的课程目标及其变化(论坛发言最新修改稿)
生成语法学的研究内容及研究方法(徐烈炯著《生成语法理论》选读)
资源分享 | 语言学、文学公开课精选
重磅丨2022软科中国语言类大学排名出炉(附中国大学完整排名)
负面清单!研究生千万别在这些刊物上发文章!
郭英剑:今天还有多少教师在快乐地、充满激情地工作?
广东外语外贸大学开放33门精品在线课程!
西安外国语大学开放25门精品课程,附课程链接
上海外国语大学开放50门精品课程!(内含链接)
北京语言大学开放45门在线课程
学位授予单位外国语言文学一级学科下自设交叉学科名单(不含军队单位)
推荐10本最适合学英语的外刊
争鸣 | 语料库语言研究的“器”与“道”
热点聚焦 | 英语教师情绪劳动研究专栏
讲座 | David Crystal: The future of Englishes (回放链接+笔记)
吴岩司长近5年(2018-2022年)报告汇总(35篇)可下载
快收藏!第94届奥斯卡10部获奖大片高清完整版【在线观看】
学术前沿 | 外语学习无聊情绪研究: 综述与展望
Noam Chomsky | Mind Your Language
陆俭明 |“学好语文是学好一切的根本”——个人语文素养关系国家语言能力建设
李宇明:语言规划学说略
文秋芳丨“云连接论”的构想和应用
文旭:翻译作为语言学的研究对象
访谈视频 | Dan Jurafsky:AI 如何改变我们对语言的理解
翻译常用的22个语料库
书单 | 北京大学中文系及英语专业推荐阅读书目
100部必看的高分英文电影,千万别错过!(资源合集)
陈平:语言学的一个核心概念“指称”问题研究
CSSCI来源期刊最新总目录(含扩展版,2021-2022),建议收藏!

扫码关注↑↑↑ 即可获取最新入群二维码!

目前已有 7.3 万语言文学、区域国别与

跨文化传播学研习者关注本公号

欢迎加入交流群,分享学习,共同进步!

欢迎点赞、在看、分享三连!

一个,点亮在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存