语言技术 | 范俊军、彭志峰:《多媒体语料转写标注教程》绪论
《多媒体语料转写标注教程》绪论
范俊军、彭志峰
语言是人类的基本特性,是最重要的思维工具和交际工具。语言是国家的一种文化软实力,也是个人素质和能力的体现,语言能力强,掌握多种语言,能增强个人的社会行动力。通用语言和广泛使用的语言是重要的社会资源,非通用语言和使用范围小的语言或方言乃至濒危语言,也有其独特的社会用途和文化价值。早在17世纪,人们就已经注意到,范围小、使用少的方言土语能发挥特殊作用。例如,小方言土语作为传递情报的语言就发挥过重要作用。探险家和博物学家通过方言土语词汇和表达,获得了传统土著生态知识,发现了新物种。联合国教科文组织文件《语言活力和语言濒危》指出:“每一种语言都蕴藏一个民族独特的文化智慧……都独特地表达了人类对世界的体验。因此,任何一种语言的知识都可能成为解答人类未来重大问题的钥匙。每消亡一种语言,我们对人类语言结构和功能的理解方式、人类史前史以及保护世界多样化生态系统等方面的证据都会有所减少。”《世界文化多样性宣言》也指出:“文化多样性是交流、革新、创作的源泉,对人类来讲就像生物多样性对维护生物平衡那样必不可少。”
语言资源有口语资源和衍生资源,前者是原生资源,后者是衍生资源。有丰富原生语言资源,才能产生源源不断的衍生资源。语言资源有地域和生态关联性、专有性和共享性、分布不均衡性和无穷利用性,有着政治、经济、文化、生态和信息价值。语言的政治价值表现为语言的政治和法定地位,对语言权利的肯定和承认,它能树立和强化国家和民族认同。历史上西方殖民者推行自己的语言,压制土著语言,就是为了强化殖民者政治统治。不同国家和不同民族不断密切的交流与沟通,使得语言学习和语言翻译的需求越来越广,语言服务已成为产业,带来了巨大的社会效益和经济效益。尤其是当今信息化时代,语言文字既是信息载体,也是信息本体,语言在信息交流和传播中发挥了无比巨大的作用。
现代社会的语言生活更趋多元化。如何促进各种语言适应现代生活,是当代语言技术的重要任务。语言技术是当代信息通讯和人工智能技术的一个重要领域,也是语言学和应用语言学的专业知识和基本技能。语言技术的含义可以从广义和狭义去理解。广义的语言技术包括一切与语言文字相关的现代科技知识、技术处理、技术研究和应用开发,狭义的语言技术主要是指运用技术方法和手段对语言样本进行采集、加工和分析处理。语言技术对于当代传媒服务、多语通讯、信息服务、语言教学、人工智能、文化保存和传承,都有着十分重要的意义。语言样本即语料语言技术的对象,因此语言样本和语料资源是语言技术得以运用和发挥的基本条件。
当代数字多媒体技术给语言样本采集和语料资源的集成提供了十分便捷的条件。多媒体口语语料库建设成为当前语言资源建设的一项基础工作。多媒体口语语料库是由音视频语料构成的多媒体语料库,它包括口语语料库、言语语料库、语音语料库、多模态语料库和手语语料库。狭义的口语语料库指自然口语语料库或即兴言语语料库。语料是日常生活即兴话语,如各种言语交际情景和事件话语。口语语料库可用于分析和研究人类口语的特征和特定口语的个性特征,有助于语言研究、语言学习和语言理解,也能为机器模拟话语和人工语言智能提供参数和模式。言语语料库的语料是预先设定内容主题和话语体裁的朗读和说话语料,或基于引导下的即兴话语。例如,说话人在室内根据电脑或屏幕上的语言或文字提示进行朗读或说话,或用电话或手机采录数百人的电话话语。言语语料库可用较少的代表性语料表现更广泛的语言(语音)特征或说话人特征,常用于语言识别、人际对话、文语转换技术的机器训练和测试。语音语料库的语料是基于文本提示或谈话引导的发音、朗读和说话,包括音节、单词、短语、句子等等。它只对语音特征(有时包含韵律特征)进行标注,主要用于语音识别和合成。多模态语料库的语料重在多方面表现言语行为。例如,录制多模态语料,不能只关注声音,还要获取与言语同时发生的体态、表情、情感和环境等方面的信息。手势语语料库的语料则是可见的手势、表情和动作。
国际上十分重视口语语料库。美国宾夕法尼亚大学语言数据联盟发布了许多语料库。AT&T、微软、Google公司也都有普通话、粤方言和藏、蒙、维、哈等口语语料库或音库,并有面向市场的语言产品。国内近10多年来,口语语料库建设取得了长足发展。如,北京语言大学的北京口语语料库,内蒙古自治区的蒙古语语料库,江苏省的汉语方言有声数据库,台湾政治大学的国语(普通话)、客家话、闽南话的汉语口语语料库,语言研究所的“新世纪语料库——多媒体的呈现与典藏”。中科大讯飞公司开发了普通话和部分汉语方言音库和市场产品。国家语委2015年启动了国家语言保护工程,用多媒体手段记录我国全部语言和方言。这些对语言教学研究、语言保护和利用、语言信息化起到了积极作用。
自从数字音像记录设备普及以来,语言研究者和工作者开展了大量的田野调查,采录了数量可观的多媒体语料。但这些数字多媒体语料分散在个人手中,没有集成加工和组建语料库,无法共享利用,过了三五年很可能被损坏或废弃。这不仅是巨大的资源浪费,也造成了大量重复劳动。这种状况的原因,主观上是语料采录和持有者的资源共享观念淡薄,客观上则是缺乏语料技术处理的基础知识和基本技能。因此,无论是语言研究人员还是语言学教师或学生,或者社会的语文工作者或志愿者,在语言通讯高度发达,多媒体应用非常广泛的今天,掌握多媒体语料的基本技术加工处理技能,是十分必要的。
《多媒体语料转写标注教程》,广东高等教育出版社,2017)
图文编辑:区婉莹
图文审读:章 策
责任总编:老 甘
投稿邮箱:jnufyzx@163.com
往期回顾:
方言与歌谣(音频)|黄尔雅:海丰童谣儿歌——隆隆隆,骑马去海丰(海丰话)
扫一扫,关注语言资源快讯
苹果手机用户专用赞赏码