发烧论坛

注册

 

发新话题 回复该主题

高取样率与听觉上的奥秘 转自音响论坛 [复制链接]

1#
高取样率与听觉上的奥秘
Mike Story

本文为dCS工程师Mike Story,于1997年发表有关高取样率与一般取样方式对听觉所造成的不同效果,以理论与实证交叉进行后所提出的解释,并在内文中阐述了高取样率应用在今日多声道系统中的必然性。本文已获得dCS公司授权翻译刊登。

背景

过去有许多关于人类听觉与频率响应的研究报告出炉。人耳所能接受的频率响应早已广泛且深入地加以探讨,而频率响应与录音或是音乐回放上的连锁关系,很显然的是决定回放讯号真实度与可判别性最具决定性的要素。尽管目前对于精确的频率值还是存在着一些争议,但一般而言,「20KHz」是普遍为大众所认可的人类听觉对高音的极限。或许我们无法明确地分辨出二种高于12KHz频率之间的差异-它们都会在人脑辨识系统的「临界频率」储存区(Max. Frequency Bin)中消失,但是我们依旧能够清楚地指出它们是确实存在的。

以往数字音源习惯以这个「20KHz」值对取样频率加以设限。当CD规格首度问世之初,特别重视唱片中的储存空间,如何能够将长达一个小时左右的音乐讯息完全囊括,就成了相当重要的一个课题。因此,在合理的条件下,尽可能将取样率设定得愈低愈好,同时也能够保有20KHz的频宽。于是这个44.1 kS/s的取样率就因此而确定,同时能够获得一个明确的频率响应值-22.05 KHz(倪奎士定律,Nyquist Principle,即取样频率之一半)

原则上,如果说这个频率响应值可以解决一切的疑问,那么我们也无须采用更高的取样率了;但是一切的证据都在在指出,这样的妄然结论并不科学。如果我们采用相同的音源,分别以44.1 kS/s、96 kS/s以及192 kS/s三种不同的取样频率对录音与回放出的声音直接加以切换比较,我们就可以很轻易地察觉出:采用愈高取样率的结果,能够让音乐唱得更好!它所能提供的,除了噪声的降低之外,同时也加入了更多的空气感、更丰富的高频细节,最特别的是在空间感的营造上堪称一绝。剩下的疑问在于,是什么样的因素造成如此的结果?当然,绝非人类的听觉系统对超高频率声波感应突然增强的结果。

事实上,频率响应并非是影响人类听觉器官接受外来刺激的唯一因子。图1显示了二种绝然不同的声波波型,在听感上所造成的刺激也大异其趣。此二种波型分别代表了有限频宽的脉冲(喀嚓声,a click)和某种形式的白色噪声(White Noise)。我们甚至可以制造出更多具有相同振幅的波型,在经过交叉比较之后,大体上还是能听出其间的差异性。因此,我们势必得进行下一个探索的过程。
为了生成不同形式的波型,我们在与相位有关联的频率组成结构上花了不少的功夫。就数学理论而言,相位是当我们要由频谱转换至波形时的唯一变量,但从数学的角度观之,相位却也只是一些数字上的游戏罢了,是并不足以让我们用来解释真正物理现象的。

<图1>二种具有相同振幅频谱的波型图。

取样效应(Sampling Effects)

而某些与讯号取样相关的连带影响反而值得我们加以重视,「抗重叠滤波」(Anti-Alias Filtering)(注1)就是其中必然产生的影响之一,就录音方面而言,也就是要避免高于20KHz的讯号被「重叠」回录音中。而对于回放系统来说,「抗重叠滤波」则是对大量的高频能量可能出现在后端系统(如扩大机与扬声器),锁进行的防杜工作。一般来说,进行抗重叠滤波的过程必须相当有力-尤其针对20KHz/1dB至半取样频率(对于CD而言为22.05KHz)/-100dB。

偏高的滤波方式总是无法避免瞬间铃振的产生,而滤波器设计者与数学家们也都清楚这个问题-这样的影响被称之为「吉布士现象」(Gibbs Phenomenon)。图2显示四种具有高Cutoff的滤波器之响应与瞬时反应图。在图中,有一点值得我们注意,就是在斜率陡降时会有铃振的产生(B滤波器)-虽然产生的铃振情形并不严重,但曲线还是不免偏离了工作较为温和的A滤波器。

由抗重叠滤波所造成的瞬间铃振,所造成的影响是众所皆知但也是无可避免的,这样的现象却被众人当作是数理上的滥觞-因为频率响应依旧平直,并不会对听感上造成任何的影响,因此逐渐被大众视为理所当然(因为若我们尝试着让频率响应的滚降早点发生,录音工程师势必会加以抱怨)。好了,看来只要我们让频率响应在20KHz/1dB左右能够维持平顺,就可以皆大欢喜了。

能量扩散(Energy Dispersion)

我们可以将铃振所具有的能量,相对于时间加以绘图表示。在使用抗重叠滤波时,我们得到图形清楚地显示于图3之中。就图中所示,虽然输入的瞬变电流一度相当集中,但是由抗重叠滤波器而来的能量,却扩散了相当长的一段时间,代表声音的曲线也出现散焦(Defocused)的现象。我们或许可以尝试着去质疑这种能量应是属于某种超音波,但却绝对不是我们原先在44.1或48KS/s上所要得到的东西-因为我们对频宽加以约束的目的,就是要获得品质良好的抗重叠效应;而要达到此一目的,我们就必须尽可能地快速进行滤波的工作,而且所产生的频宽,还得恰好越过既定的限制;如此一来,所有输出的声音讯号就会落在听觉可感应的范围之内。如果取样率高于一般的标准,铃振的能量还是能够具备完整的频宽-可由数学运算得知。我们可以在此下一批注,那就是:使用高取样滤波器时,铃振所具有的高能量约占了主波峰的百分之十二(-9dB)。

<图2>不同工作特性的滤波器所具有的瞬时反应与滚降现象图。
<图3>瞬时铃振的能量变化图。

图4显示了一些我们考虑使用的滤波器之频率响应图,每种滤波器都具有不同的取样率。而数字滤波器所具有的特性如下:
● -0.1 dB at 20 kHz
● -120 dB at half sampling frequency
● no in-band ripple
● 24 bit coefficients

同时,我们将另一个设定在-1dB/20KHz的「高斯滤波器」(Gaussian Filter)模拟频率响应图附上,以兹参考。由实验中我们可以发现,高斯滤波器是不会产生瞬时铃振现象的,倘若某个滤波器的滚降先于Gaussian滤波器的话,则该铃振现象随即产生于该滤波器之上。或许您可以说,某些铃振是可以接受的,但事实上,规格如此(-1dB/20KHz)的滤波器却无法在专业领域上得到采纳,一个频率响应在20KHz时依然平直(甚至可延伸至50KHz)、滚降速度快的滤波器,虽然它也会有铃振现象,但被采用的可能性却大得多。我们将它拿出来讨论的原因只是要告诉人们,到底需要多少额外的频宽才能够涵盖铃振(散焦能量,Energy Defocusing),以及当这些数字资料经过处理之后,有多少的讯息能够被人类听觉系统所侦测到。
图5说明了各种滤波器在不同取样频率运作下的瞬时反应图。

<图4>不同取样频率下,抗重叠滤波的频率响应图。
<图5>不同取样频率,瞬时反应与时间关系图。

不同取样率下的能量分散

图6显示了瞬时反应所具有的能量。44.1与48kS/s二种不同滤波器传播可听闻的能量分散时间长度约在1 msec或者更长,而96KS/s的滤波器则能够在100 msec内维持相当完整的能量,192KS/s滤波器保持能量的能力也可达到50 msecs之久。由于前后环节中喇叭与麦克风的能量分散特性,模拟式的高斯滤波器(Gaussian Filter)的表现还是稍稍领先数字式滤波器。

如果将声音的传播速度列入考量,人耳能够粗略地判断能量散焦(Energy Defocusing)的扩散现象在经过时间延迟后所产生的距离感。一般而言,在时间±500 msecs内能量约可扩散至±15公分之远,而96KS/s能够在±50 msecs(或是±1.5 cms)的条件下,完整地保持住原有的能量。在众多测试案例中(注2),我们发现,讯号在经过96KS/s滤波器处理之后的回放音效,无论在空间感或定位上,都比在44.1KS/s工作下来得优秀,而192KS/s的效果更是超越以上二者。

或许有些人对铃振的能量现象会产生些许的疑问,是不是在系统之中的可听闻频率范围上加入额外的超高频率,真的不会抵消掉原本存在于20KHz以下的频率?这个问题的答案是肯定的。虽然我们无法「听」到高于20KHz以上的频率,但是该能量的存在,却能让20KHz以下的能量表现出更优异的稳定感;如果将这些高频段部分加以移除,我们也能够轻易地判别出其中的差异性。也由于高取样率系统能够传递出这些超高频段,音乐表现上也更能显出其自然的特性,定位与空间感也能有更上层楼的表现。

<图6>不同取样频率下,能量与时间关系图。

由抗重叠效应所延伸而出的能量模糊化与散焦现象,使得我们能够在一般取样频率(44.1KS/s)与较高取样频率(88.2、176.4、192KS/s)之间,感受出其中的不同所在。让我们回到本文最初所提到的,二种相同频谱在听感上却大异其趣的例子(图1)。输入的脉冲能量能够一度集中,而白色噪讯的能量却会出现不均匀的分布情形;这也是我们先前对于人耳能够同时感受声波与能量的一个臆测(眼睛的感应也有相同的情形)。当我们注视着某个物体时,我们也可以藉由散发出的能量(萤光、黑或白色物体)不同,进行某个程度上的细节辨认。事实上许多感官的刺激,都与能量感应有关,倘若耳朵也能够对能量有所感应,那么这样的讯息,理当是用来决定空间定位的一项重要因素。

多声道系统

统合来说,如果上述的建议是正确的,那我们就有充分的理由相信,较高的取样率对于多声道系统回放效果上,将会产生许多微妙的影响;特别是讲求空间感与音场定位表现的多声道系统,更是需要这种高取样规格加以支撑的。■

注1:
Alias Effect(重叠效应):测量用语。在仪器量测信号处理时,若抽样频率太低,将导致高频频谱与低频频谱之重叠,称为重叠效应。

注2:
即使是上了年纪、听觉上对高频感受有所衰退的聆听者,依旧可以分辨出其间的差异。
分享 转发
TOP
2#

看晕了
TOP
3#

leslie 在 2005-12-29 16:27:02 发表的内容
音响知识:提升取样频率、增加bit数能创造更多音乐细节吗?任何数字录音,无论其录制时规格多高,都会受限于最后的软件规格。例如CD的规格就是16bit/44.1kHz,因此即使录音是采用24bit/192kHz规格来录制,或以1bit/2.8224MHz的DSD方式录制,在最后一关要制成CD母版时,通通要降低规格回到16bit/44.1kHz,否则就无法制成CD。以现今软件规格而言,只有DVD-Audio软件才具有24bit/192kHz的规格,所以CD无论怎么变戏法,最后还是脱不开16bit/44.1Hz的束缚。唯有听到真正的高规格DVD-Audio或真正的SACD,音乐讯号量才会多过CD。既然CD片子上的音乐讯号量已经受限于16bit/44.1kHz规格,音乐细节不可能再增多,那么目前市面上这些数字讯源(包括dCS在内)高唱24bit/192kHz处理或将PCM讯号转为DSD讯号,玩的是什么把戏呢?他们所持的论点又是什么呢?其实,无论是提高bit数或提高取样频率,都不可能无中生有,创造出更多原本没有录进去的音乐讯号。我们之所以会听到声音有改善,应该是降低了时基误差,提升了相位精确性,降低噪声、以及数字滤波更圆顺所致。当然,各家不同的模拟输出级设计也会影响声音表现。可以肯定的是,我们的确听出声音有所改善,但绝对不是数字讯源将CD片里的音乐讯号增加所致,而是改善了其它地方所得到的听感。


这个问题,我记得以前在某个讨论串里面和kuang版讨论过.就是虽然CD是16/44.1格式的,但在混音制作过程中使用24/96更高格式是否有利于最终音质的提高.我个人认为是肯定有提高的.因为CD制作,在数码工作台上,各种调节,混音等等操作,归根结底就是数字计算,而在数字计算中间过程,提高数值的精度值肯定会有利于最终结果精确度的提高.
TOP
4#

音响知识:提升取样频率、增加bit数能创造更多音乐细节吗?任何数字录音,无论其录制时规格多高,都会受限于最后的软件规格。例如CD的规格就是16bit/44.1kHz,因此即使录音是采用24bit/192kHz规格来录制,或以1bit/2.8224MHz的DSD方式录制,在最后一关要制成CD母版时,通通要降低规格回到16bit/44.1kHz,否则就无法制成CD。以现今软件规格而言,只有DVD-Audio软件才具有24bit/192kHz的规格,所以CD无论怎么变戏法,最后还是脱不开16bit/44.1Hz的束缚。唯有听到真正的高规格DVD-Audio或真正的SACD,音乐讯号量才会多过CD。既然CD片子上的音乐讯号量已经受限于16bit/44.1kHz规格,音乐细节不可能再增多,那么目前市面上这些数字讯源(包括dCS在内)高唱24bit/192kHz处理或将PCM讯号转为DSD讯号,玩的是什么把戏呢?他们所持的论点又是什么呢?其实,无论是提高bit数或提高取样频率,都不可能无中生有,创造出更多原本没有录进去的音乐讯号。我们之所以会听到声音有改善,应该是降低了时基误差,提升了相位精确性,降低噪声、以及数字滤波更圆顺所致。当然,各家不同的模拟输出级设计也会影响声音表现。可以肯定的是,我们的确听出声音有所改善,但绝对不是数字讯源将CD片里的音乐讯号增加所致,而是改善了其它地方所得到的听感。
TOP
5#

上面图没有贴,可能影响理解,有兴趣可以阅读原文

http://www.dcsltd.co.uk/technical_papers/aes97ny.pdf
TOP
发新话题 回复该主题