查看原文
其他

翻译百科|《中国大百科全书》中的“多模态语料库”

杨尔弘 翻译圈
2024-09-09

0









多模态语料库

01




多模态语料库
Multi-modal Corpus


《中国大百科全书》(第三版·网络版)发布了杨尔弘教授撰写的“多模态语料库”词条。现转录如下,以资交流。


囊括整个言语活动的语言、声音、图像和动作的多媒体语料库。利用现代影像技术采录的话语活动,建立在“言语理论”基础之上,以言语活动为研究对象,以从原始数据中抽取信息和知识为手段,以语境模型为驱动。


相较于文本语料库的静态单一、文字线形的语言模型以及口语语料库的动态音频,时间线形的语言模型,多模态语料库语料模型是动态多样、时间线形的,具有可实现语境化、音频和视频内容存储丰富、语料可信度高、语料来源容易确认等优点。但上述特点也使得多模态语料库在语料采集,转写,标注,采样,呈现等方面存在诸多困难。


为实现不同的研究目的,多模态语料库需要进行不同程度的语料深加工。例如:用于语言研究需要进行语音、文字、图像和动作以及环境的转写与标注:用于语言信息处理,还需要制订统一的、标准的转写代码与标注规则,加工精细程度更要满足语境模型的自动提取。基于多模态语料库的标注和检索需求,意大利系统功能语言学和多模态话语分析专家A.鲍德里(Anthony Baldry)和其他学者共同研发了多媒体信息检索工具一“多模态语料库标注系统”(Multimodal Corpus Authoring System;MCA)。除MCA外,研究者们常用的多模态语料库标注与检索软件还包括ANVIL、Elan、MacVisSTA、DRS Exmeralda等。


多模态语料库的建设始于20世纪末,已建设了不少规模各异的多模态语料库,例如欧洲多国于2008年共同建成SACODEYI多模态教学语料库,是世界上首个将数据驱动学习付诸实践的多语种多模态语料库;AMI会议语料库,语料采集自3个不同的会议室的100个小时的会议内容;由德国和日本联合构建,用干研究多模态的文化差异的CUBE-G语料库;用干研究多模态话语分析的CID语料库等等,中国的多模态语料库建设还处干起步阶段,大型多模态语料库以顾日国教授建立的现场即席话语多模态语料库为代表,此外还有李文中教授的多媒体语料库开发系统,以及刘芹和潘鸣威建立的多模态口语语料库。


多模态语料库可用于语用学、话语分析、社会语言学、语言发展研究等诸多领域的语言研究,亦可应用于人文社会科学等领域的研究,如戏剧表演、社会心理学、文化差异等。此外,多模态语料库更多地应用于教学研究中,多模态语料库可以在多元环境中反映语言在语音、语义和语用等方面的全貌,为教师的教学工作和学生的语言学习提供了丰富的例证、视角和方法,具有很大的研究和应用价值。


02




作者简介


杨尔弘,1965年生,女,工学硕士、文学博士学位,北京语言大学教授、博士生导师,语言资源高精尖创新中心常务副主任,国家语言资源监测与研究中心平面媒体语言分中心主任,兼任《中文信息学报》副主编。



03




文献来源


原文发表于《中国大百科全书》第三版网络版,欢迎各位学者阅读、分享。


特别说明:本文仅用于学术交流,如有侵权请后台联系小编删除。


- END -



翻译圈公众号旨在为读者提供名师和专家对口笔译的真知灼见,CATTI考试和MTI入学考试信息,翻译等语言服务就业资讯,以及口笔译学习资源和知识,希望在翻译之路上,为大家助上一臂之力。欢迎大家积极留言,为我们提供建设性意见,我们共同进步!


转载来源:《中国大百科全书》(第三版网络版)

转载编辑:唐苗

审核:Ethan、吕欣潼


资讯推荐


SEARCH AND REPLACE-语料库检索和替换软件操作演示

 关注我们 了解更多

CATTI和MTI资讯

语言服务就业信息

翻译名师真知灼见

翻译学习精品课程


继续滑动看下一个
翻译圈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存