查看原文
其他

行业科普 | “无声的”识别:AI能否转录它从未听过的语言?

The following article is from 国际翻译动态 Author 李春郁

简而言之,可以转录。但由于单词错误率(WER )上升了约70%,我们可能会想知道何必如此大费周章。
事实证明,原因有多方面,包括商业、学术、人道主义等原因,且极具说服力。联合国预测,语言多样性在今后将面临考验,因此宣布了“国际土著语言十年”议程,我们现在已经进入该议程的第二年。在当今全世界使用的7000多种语言中,近一半被认为是濒危语言,对其所不可或缺的文化和知识系统构成威胁。
几个世纪以来,全球化和殖民化一直在加速语言的消亡。令人担忧的是,日益数字化的世界也只迎合了世界上极少数语言,更加速了这一进程。
然而,将人机协作集中于少数主要语言的技术也可以用于语言保护及振兴工作。自动语音识别(ASR)是用于记载语言的得力工具,特别是在缺乏人工转录资源的情况下,可以促进语言的学习和保护。
传统上,ASR系统采用目标语言的配对音频和转录数据进行训练。尽管Meta的XLS-R系统Google的通用语音模型(Universal Speech Model)等在多语言语音识别上取得了最新突破,通过对大量未标记数据进行预训练来促进对低资源语言的保护,但它们仍然对标记语音的ASR进行了微调。OpenAI的Whisper系统其英语转录的准确性可与人类相媲美,采用多语言配对数据进行预训练。
那么没有标记语音数据的语言呢?又或是根本没有语音数据的语言?

一项艰巨的任务


美国卡内基梅隆大学(CMU)的研究人员正在研究如何将ASR支持的语言从几百种增加到数千种。这项研究的关键动机之一是语言保护,因此把重点放在音频数据稀缺或没有音频数据的濒危语言。他们在Interspeech 2022大会上展示的ASR2K系统(此语音识别系统大约可识别2000种无音频的语言)有望取得成功,但到目前为止,其平均单词错误率为70%,这令其难以成为人工转录的强有力替代品。
坦白说,转录一种未知的语言对人类而言也是一项艰巨的任务,即便是受过语音转录专门训练的语言学家也概莫能外。用对应于语音或音素(phone)的一组符号来表示发音的方法对濒危语言有几个好处,这也是ASR2K对闻所未闻的语言进行解码的关键能力。
音素相对独立于语言,因此可以基于足够多样化的多语言音频数据来识别音素。这也正是ASR2K的尝试。由于语言学家在该领域数十年来的努力,音素也可以转化为对应的音位(phoneme),这是一种不同类型的语音单元,往往在书写系统中具有更紧密的对应关系。
ASR系统通常借助发音词典,使用从文本语料库训练得到的语言模型(LM)来将音位转换为可能的单词序列。对于最先进的ASR系统,语言模型的多样性和大小对转录准确性起着决定性作用。卡内基梅隆大学的研究人员还发现,他们能提供的目标语言文本数据越多,ASR2K的转录准确性就越高。
然而,对于濒危语言来说,文本数据同样很少,这些语言通常缺乏标准化的拼写体系。有些语言的书写系统缺乏键盘输入、字体和/或万国码(Unicode)的支持,许多语言纯粹是口语。虽然语音转录可在语言文献方面有一些用处,但如果没有语言模型的帮助,其准确性可能存疑,而缺乏单词边界(word boundary)也会使其难以阅读和分析。
幸运的是,研究揭示了对非书面语言的一些替代方案,结果令人鼓舞。可以训练语音到意图(speech-to-meaning)模型,让它去学习语音的语义表示,并与翻译后的文本或图像对应起来。通过巧妙避开标准化写作系统的需求,这种方法为口头语言开辟了一个充满可能性的语音技术世界。


无利基市场

如果这些听起来像是ASR在学术和人道主义方面的利基应用,请再思考一下。
大规模的多语言扩张已成为各大科技公司的首要任务,比如,亚马逊目标将虚拟助手技术扩展到1000种语言,谷歌也提出了“千种语言倡议”(1,000 Languages Initiative)。
Meta发起的“不落下任何语言”项目(No Language Left Behind)已经使用翻译文本载体,为以口语为主的闽南语(Hokkien)开发了一个语音到语音翻译系统。
尽管资源并不短缺,但这些公司渴望扩大语言覆盖范围,同时尽可能少地为耗时的人工转录付费。随之而来的是人工智能殖民主义的风险,使少数民族的文化和语言被进一步边缘化。
为了防范这种情况,让社群团体参与开发适合其语言的技术非常重要。Te Hiku Media是一家毛利语(Māori)广播电台,该电台与其社群合作,为毛利语(也称为te reo)开发了行之有效的ASR,尤其强调数据主权对土著语言的重要性,这一点在他们的《Kaitiakitanga License》文件中已正式确立。
如果大型科技公司真正致力于打造更具包容性和负责任的人工智能,以保护全世界语言的丰富性,那么这未尝不是一个很好的起点。


原文网址 https://slator.com/speechless-recognition-can-ai-transcribe-language-its-never-heard/


声明:本公众号转载此文章是出于传播行业资讯、洞见之目的,如有侵犯到您的合法权益,请致信:chongchong@lingotek.cn,我们将及时调整处理。谢谢支持!


-END-
本文转载自:国际翻译动态转载编辑:Pickey


关注我们,获取更多资讯!

往期回顾

行业动态1. 行业动态 | 国家批准语言服务产业进入目录——政策解读
2. 行业观察 | 沈澍:AIGC是敌是友?翻译领域的机遇与挑战
3. 论坛预告 | 2023年京津冀翻译协会协同发展学术论坛4. 研究动态 | 李长栓:以实践报告展示翻译能力——论翻译硕士专业学位研究生翻译实践报告的写作
行业洞见
  1. 精彩回顾 | ChatGPT如何辅助语料库建设?语料库怎么加工?干货来啦
  2. 精彩回顾 | 王琳:ChatGPT私有化工具部署及应用
  3. 精彩回顾 | 王华树:ChatGPT助力翻译实践与教研
  4. 行业观察 | 王树槐:GPT与诗歌翻译批评:GPT与文学翻译之一


行业技术
  1. 技术应用 | Microsoft Translator Provider 错误及解决方法
  2. 行业科普 | 热点新闻编译(ATA/ITI)
  3. 重要提醒 | 多语应急科普,汛期防灾避险指南
  4. 技术应用 | 服务器内存不足,分享服务器清理技巧
  5. 行业技术 | LLMs能否替代人工评价作为对话生成质量的评估器?

精品课程
  1. 新课来袭 |ChatGPT与语料数据处理工作坊
  2. 精品小班 |  刘世界:6节语料库专题课,从入门到精通
  3. 精品课程 | GPT+:翻译、技术与语言学习工作坊
  4. 精品小班 |  探索变成辅助语料数据处理及分析无门?刘世界博士为你解秘!
  5. 精品课程|ChatGPT如何处理各类语料数据?大语言模型上大分!

资源干货
  1. 资源干货 | 语言资源服务最常用的50个核心术语
  2. 资源干货 | 最新版Z-library官方客户端和最新地址
  3. 双语干货 中华人民共和国对外关系法
  4. 双语干货 | 谢锋大使向中美媒体发表讲话
  5. 资源宝库|译者用“典”,多多益善——精选31款在线词典

招聘就业1. 
2. 招聘快报 | 中国外文局翻译院招聘外语人才3. 招聘快报 | 博硕星睿招募课程主持兼回顾文案编辑4. 招聘快报 | 哔哩哔哩招聘英语翻译5. 招聘快报 | 昆拓信诚招聘医学翻译



继续滑动看下一个
语言服务行业
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存