车轮到底在向哪个方向转?听首歌,就能回答这个问题
儿时,每次盯着高速转动的汽车车轮时,我总会有一种“错觉”:前行的车轮,肯定是(向前)逆时针转动,可为什么我觉得它在(向后)顺时针转动?难道车轮像迈克尔·杰克逊一样,也玩“太空步”?
迈克尔·杰克逊著名的“太空步”,其中的后滑步给人一种明明在行走却向后退的魔幻般视觉。(图片来源:搜狗百科)
什么?你没有盯(童)过(年)?不要紧,现在,请非常专注地盯着下图中的任意一点:
(图片来源:猫扑网)
看,你是不是也有同样的“错觉”!
至于这个错觉的成因,我们要从憨豆先生唱歌说起~~
什么“流畅”音乐,其实都是离散数据
眼睛的错觉,其实是人眼的“采样频率“太低,导致读取高速变化的信息(数据)时,发生了失真,Distortion。
采样频率是什么?这就得从“数字化”的概念讲起。没错,就是“数字化电视”、“数字闭路电视”里的那个词,相识这么多年了,可你懂它么?
宏观世界是连续的(模拟信号,Analog Signal),即每一时刻都有对应的状态(数值),例如憨豆先生唱歌,只要他不唱鬼畜,那每个时刻就都有他的声音。然而,计算机无法处理模拟信号,只能处理一定单位的离散数据,例如,1Byte。
(图片来源:作者提供)
所以,我们需要每隔一定时间间隔,读取模拟信号的值,即为时间离散化;由于精度,Accuracy的存在,取值也无法连续:例如圆周率3.14159265……,若计算机只能处理2位小数,那圆周率=3.14(通常不进行四舍五入,而是直接舍去后面的数据),即为数值离散化。
(图片来源:作者绘制)
至此,经过了时间和数值的离散化,连续的模拟信号,就变成了计算机可读取、处理的数字信号,Digital Signal,这个过程叫做采样,Sampling,也被称为数字化,Digitization。
其中用来取值的时间间隔,叫做采样周期,Sampling Period,对应的频率(1/采样周期)就叫采样频率,Sampling Frequency。
不难理解,即使是憨豆先生唱歌,20M的HQ版本,也要比5M的流畅版本更“动听”。即采样频率越高(采样点越密),数字化的数据越能还原真实的模拟信号,但与此同时,数据量也就越大,计算机处理的“负担“也越重(播放过于高清的视频,可能会卡顿)。
那么问题来了:在不失真的前提下,我们希望处理的数据最少(采样周期最长),采样频率的下限怎么定?想象一下,肯定不能只用一个【大】字,就判断出憨豆先生是在唱“【大】王叫我来巡山”,还是“如果【大】海能够,带走我的哀愁”。
数据越多,越能知道唱的是啥歌
在1982年,美国电信工程师H.奈奎斯特提出:在模拟/数字信号的转换过程(ADC)中,采样频率必须大于信号中最高频率的2倍(采样定理,也叫奈奎斯特采样定理)。
例如,我们对最简单的单频正弦信号进行采样,当我们用信号周期的1/20(最高频率的20倍)进行采样,很容易还原出这个正弦信号。
(图片来源:作者绘制)
而当我们用信号周期的1/2(最高频率的2倍)进行采样时,若我们恰好采到波峰(最高点)和波谷(最低点),就可以得到此正弦信号的幅值((波峰-波谷)/2)以及周期((波谷时刻-波峰时刻)*2),也可以还原出原始信号。
(图片来源:作者绘制)
做一个不恰当的类比(憨豆先生都不介意,你介意什么):设憨豆先生唱歌的频率是“1字/1次,根据采样定理,若两个字采样一次(最高频率的2倍),结果为“如、大、能、带、我、哀,就,它,风,远”,就不难猜出:憨豆先生在唱张雨生的《大海》。
(图片来源:作者提供)
然而,信号最高频率的2倍往往不够,因为即使恰好采样到波峰和波谷,我们也是无法分辨原始信号究竟是正弦波信号/交流信号,Alternation Current,AC,还是三角波信号;另外,还有可能采样到零点处,让我们误以为原始信号是段常数信号/直流信号,Direct Current,DC……
(图片来源:作者绘制)
因此,在实际工程应用中,采样频率一般取信号最高频率的2.56-4倍,特殊情况下,甚至需要更高倍数。毕竟,数据多了不怕,可以降采样,Downsampling(每隔若干点,只取一点)。注意,降采样的约束条件,依旧是奈奎斯特采样定理。
(图片来源:作者绘制)
可如果数据少了,又该怎么让信息损失(失真)最小呢?最常见的处理方法是插值,Interpolation:根据某种算法,在已有数据中“创造”若干新数据,最简单的算法是用相邻两个数据的均值作为新数据。
(图片来源:作者绘制)
假如,憨豆先生又爱上了《小鲤鱼历险记》的主题曲,我们采样到的数据是“大,大,小/1,3,5,7/do,mi,so,xi”,在相邻两个数据间,用均值作为插值,则可以还原“大,大,中,小,小/1,2,3,4,5,6,7/do,rui,mi,fa,so,la,xi”。
(图片来源:作者提供)
可见,插值虽可以减小失真,但无法彻底消除信息的缺失。另外,现实中的插值算法种类繁多,不同的情况下应采用不同的算法。
前段时间,在日本,一位女星公开了一张自拍,有位死宅通过放大她眼睛里的映像,推断出了她的住址,后因骚扰该女星被捕。不难想象,在放大图片时,好的插值算法,可以更好地还原像素间的空缺,使细节更清晰。
(图片来源:作者提供)
唱do的同时又唱la,数据:我好难,还原不出来
若不满足奈奎斯特采样定理(采样频率过低),会发生一种在信号处理领域中,不容忽视的失真--混叠,Aliasing。简单来讲,就是数字信号怎么都无法还原出原始信号。混叠分为两类,一类为时域混叠,一类是频域混叠。
依旧对正弦信号进行采样,用过低的采样频率进行采样(这里为信号频率的4/3),会出现如下“误会“:
(图片来源:作者绘制)
可见,当不满足奈奎斯特采样定理时(采样频率<信号最高频率*2),采样信号不仅不能还原原始信号,还可能出现混叠频率,Aliasing Frequency。这种情况即为时域混叠。
一个信号不仅可以在时间域,Time Domain表示,例如最近憨豆先生的手机铃声--“燃烧我的卡路里”,它还可以在频率域,Frequency Domain表示,《卡路里》这首歌是由“do,rui,mi,fa,so,la,xi”这几个基本元素组成,即高低不同的频率。
(图片来源:作者绘制)
再做个不恰当的类比,当这几个频率域上的基本元素各自独立,互不影响的情况下,自然可以正常还原;但如果憨豆先生在唱do的同时,又想唱la,唱rui的同时,又想唱so(频谱重叠,Overlap),这种情况下就形成了频域混叠,那他只能通过B-Box来实现音乐梦了。
(图片来源:作者绘制)
而混叠是可以消除的,消除混叠有两种基本途径:首先,可以提高采样频率,还是那句话,信号采样,怕少不怕多;其次,采用抗混叠滤波器,Anti-alias Filter,采样前滤除不感兴趣的高频信号,例如录“海豚音”,我们不需要超声波,那就提前滤掉,防止其影响我们真正感兴趣的信号。
“太空步”的成因:混叠
回到最初的问题,为何人眼观察高速转动的车轮(逆时针),会出现车轮反向(顺时针)的错觉呢?就是因为人眼对其进行采样时,时域上发生了混叠。
将轮胎逆时针、等间隔的四个点标为“1”、“2”、“3”、“4”,若我们只盯最高点,实际经过最高点的顺序为“1-2-3-4-1-……”,即逆时针。
若人眼的采样周期,为车轮转动周期T的3/4,即采样频率为转动频率的4/3(不满足奈奎斯特采样定理),则我们第一次采样到1,经过3T/4后,第二次采样到4,再经过3T/4后,第三次采样到3,……,最终,我们看到的是顺序为“1-4-3-2-1-……”,即顺时针。
(图片来源:作者绘制)
若用本文中的正弦信号对其建模,即为:
(图片来源:作者绘制)
实际上,人眼刷新(采样)频率大约为24帧/秒,因此,只要车轮的转动频率大于12圈/秒时,人眼就会出现“反向”错觉。
当然,此原理也可以被我们正向利用:当眼前闪过图像的速度大于12张(帧)/秒,就会出现视觉暂留现象,Persistence of Vision,即认为画面是连贯的,这就是“视频”的底层原理。
日漫最高为24帧,美漫一般为30帧,因此美漫给人“快“的感觉。若仔细观察某些低成本的日漫,你会发现人物在走路时,没有脚部、甚至膝盖以下的细节:因为只用12帧,做不出这类细节。
现在知道为什么我不露脚了吧?因为穷!
(图片来源:搜狐网)
作者单位:西北工业大学 航海学院
版权说明:未经授权严禁任何形式的媒体转载和摘编,并且严禁转载至微信以外的平台!
注意啦!微信又更新啦!用户可以设置常读订阅号,这些订阅号将以大卡片的形式展示,为了不错过大院每天的精彩文章,请按下列操作“星标”我们吧:
进入“科学大院”公众号——点击右上角的…菜单——选择“设为星标”
文章首发于科学大院,转载请联系cas@cnic.cn
大院热门文章top榜
点击文章标题,可直接阅读哦~
1. 病毒学标志性成果!中国科学家揭开非洲猪瘟病毒的神秘面纱
3. 尿液蒸干后得到的物质会发光?古人进行了一项匪夷所思的实验
科学大院是中科院官方科普微平台,由中科院科学传播局主办、中国科普博览团队运营,致力于最新科研成果的深度解读、社会热点事件的科学发声。
转载授权、合作、投稿事宜请联系cas@cnic.cn
我知道你在看我