查看原文
其他

Yanny or Laurel?诡异音频刷爆朋友圈,AI 给出的答案竟然是......

小猴子、JJ帅 微软小英 2021-04-22

惊!天!大!新!闻!


昨天一整天,猴子君的编辑部因为下面这条神奇的视频吵翻了!


https://v.qq.com/txp/iframe/player.html?vid=y1339f726v3&width=500&height=375&auto=0


神马? 没听清? 放一波音频!



现在告诉我,你听到了Yanny还是Laurel?



在Twitter上发布了短短不到24小时内,这个视频就已经有了数千万的点击量。Yanny派和Laurel派吵翻了天,就连猴子君的编辑部也是势均力敌,各占千秋。

微软小英

编辑部的同学们都听到了啥?

Yanny还是Laurel?回答我baby!

26分钟前

小猴子,2222带俩王,帅掉渣,高冷酷,HHH,  小仙女,白院长,教导主任

小猴子:白天是Yanny, 晚上听见的是Laurel.

2222带俩王:Yanny!!!

高冷帅:Laurel~~~

我就是美咋地:因为我是小鲜肉,所以我听到的是Yanny!


因为发音和“夜里”、“老肉”相像,甚至有人怀疑能听到“夜里”的都是小鲜肉,听到“老肉”的都是没救的怪大叔和老阿姨!


然而作为一只专业从事语音工作的猴子君,怎么能因为一个小小的“夜里”和“老肉”就甘拜下风呢!


猴子君做了个小实验,用咱们自己的语音识别系统做了一次打分。



结果Yanny得了57分,Laurel得了75分!看起来似乎是Laurel占据了上风,这下“老肉”们可以放心了,毕竟猴子君还是一只刚满2岁的宝宝呢!

重点来了~~来两斤瓜子坐好!!


问题

可是造成这一结果的原因是什么呢?



来自微软小英的语音识别技术团队进行了一些研究,结果如下:


1. 声音的音频


某微软低调大佬表示这可能与声音的高低频率有关。每个人对于声音的频率有不同的接受程度。这与年龄、性别、周围、心情、时间,甚至耳机品牌和耳机折旧率等内外部因素密切相关。同时,有些人对于低频率的音频比较敏感,有些人对高频率的音频更敏感。


UCLA 语言学教授 Patricia Keating表示有些声音只有25岁以下的人才能听见,换句话说,听到不同的声音可能真的与年龄有关~听到音调低沉的Laurel可能是中老年人或者是听力受损的人。


2. 易混音辨别失败


微软亚洲研究院微软小英项目负责人夏炎表示:“这条音轨本身就是介于Yanny和Laurel之间的,而这个音频的作者在[æ]和[ɔ]之间存在一定的混淆。”


为了方便大家的理解,我们首先分析原始音频,得到的波形图如下:

(声明:本部分只做简单对比,不作为科研内容深入讨论)



接下来,我们根据两个单词的文本,生成了对应单词的读音:


Laurel

Yanny


可以明显看到,这个“不明单词”的第一个音节和Yanny的yan更为相像,而后一个音节和Laurel的rel更为相像。


而在更为专业的语音识别中,我们常常选择语谱图作为一个简单直接的识别方法。在语谱图中,从下到上的一条条黑色阴影分别是说话人的第一共振峰、第二共振峰等等。通常情况下内容相同的音频都会出现类似的共振峰轨迹,我们可以看到在原始音频语谱图的前半部分的第二到第四共振峰,和Yanny的密集的程度相似,说明原始音频的前半部分与Yanny更为相似。而原始音频语谱图的后半部分则和Laurel一样呈现出了第二共振峰的上扬轨迹,说明原始音频的后半部分与Laurel更为相似。


原始语谱图如下:



Yanny语谱图如下:



Laurel语谱图如下:



同时,在猴子君的语音模型打分的结果中,这条音频Yanny的[æ]得了96分,而Laurel的[ɔ]只有区区12分


这极有可能是原音频的作者没有区分好这两个音标的正确读音!!!


注:不同的说话人,因为发声器官长短、宽窄、语速等差别,即使说同样的内容,语谱图也不容易比较。因为说话人不同,语速也有差异,共振峰(formant)最多只有部分相似性。加上 y, r 和 l 都是滑音(liquid sound) , 共振峰会呈现不稳定的连续滑动现象,语谱图与说话人的相关性更大。



福利时间


为了证明我的判断,在这里猴子君要教大家一下这两个音标的发音啦~


[æ]

  • 跟[e]的音非常相似,舌尖抵下齿背

  • 舌前部稍稍向硬颚抬起

  • 嘴唇尽量向两侧分开,嘴巴张开较大,上下齿之间可容纳食指和中指两个手指的宽度


[ɔ]

  • 将嘴张大

  • 舌身降低后缩

  • 双唇稍稍收圆

  • 是一个圆唇短元音,其特点是短促有力


虽然[æ]和[ɔ]不是最易混淆的易混音,但是我们如果平时不注意发音的话,很容易引起单词读音不准确的问题!如果你坚持在微软小英上学习的话,系统会自动检测出你的发音问题,并推荐相应的课程进行训练~


首先,微软小英会自动检测出用户发音不准确的地方。



其次,发音特训的发音挑战和易混音练习会帮助你练习每个音标,并自动推荐相应的课程!



同时,“易混音练习”中,还可以针对性地进行区分训练易混音标:



怎!么!样!学习完上面的发音之后你的答案有变化吗?再去听听吧!!! 


亲爱的你们认为听到不同发音的原因是什么呢?

如果真的易混音有问题的话,可以来找猴子君撒~


这么涨知识的公众号还不关注吗?



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存