发烧论坛

注册

 

返回列表 12345678» / 9
发新话题 回复该主题

现时数字音源最大的局限性(相较LP之类而言) [复制链接]

查看: 15127|回复: 86
1#
局限性:没有完整的方法来证明,人的听觉是线性叠加的。

比如,单独听正弦波,人耳可以听到1k,2k,3k...直到20k就不能再往上了。但也许有这类可能:对12k和24k混合的波形(而非单独一个正弦波),人耳却能听到其中的24k?(只要能分辨出和单独的12k声音不同即可)

(由于这类“非线性叠加”的可能性有无穷种,看似没有完整的方法来证明人耳“不是非线性”。而你要说人耳是理想线性的,你说我都不信呐!

--比如,人眼就不是个理想线性的器官。附图中“明处的”方格A和“阴影中的”方格B亮度是一样的,但我们看起来确实阴影中的明显“白”一点。大量的这类非线性的例子可以在图像处理的书中找到。)

现时的采样定理假定人耳是理想线性的,从而把高频在22k(对CD)齐刷刷的截掉,是留有疑问的做法。(SACD截在96k也一样)

所以LP和CD的区别就在于:LP的失真比较均衡、不会突变,也不会有被齐刷刷砍掉的高频。如果真存在“数码声”,那我看以上原理就是“数码声”的来源。

ps...本文写出来,我自己都觉得实际中用不着[upload=jpg]Upload/20064214201189903.jpg[/upload]
分享 转发
TOP
2#

Timme 在 2006-4-2 14:20:32 发表的内容
局限性:没有完整的方法来证明,人的听觉是线性叠加的。

比如,单独听正弦波,人耳可以听到1k,2k,3k...直到20k就不能再往上了。但也许有这类可能:对12k和24k混合的波形(而非单独一个正弦波),人耳却能听到其中的24k?(只要能分辨出和单独的12k声音不同即可)

(由于这类“非线性叠加”的可能性有无穷种,看似没有完整的方法来证明人耳“不是非线性”。而你要说人耳是理想线性的,你说我都不信呐!



我觉得关于听觉,应该区分两个阶段:首先,器官是否能接收到;其次:人脑如何处理接收到的信息。

楼主举的是觉得例子造成的区别,是在于第二阶段“人脑如何处理接收到的信息”——也就是说眼睛的感光细胞可以正确接收图片每一处的明暗信息,但人脑却未必会把眼睛传来的两处明暗相同的点的信息,真的处理成明暗相同的感觉。

但是楼主举的12k和24k混合的例子,我想混合之后,人耳还是不能感觉到24k的那一部分的。因为这是“第一阶段”的问题:人耳本身不会对24k的信号有任何反应,它根本感受不到24k的信号。人脑不会自身平白无故地产生一个24k的听感。

我们也可以用实验亲自验证:我的电脑声卡可支持最高96k的取样率,所以我可以用Cool Edit产生高达48k的信号;同时我用Sennheiser HD580耳机来试听,该耳机频响高到30k。

我用Cool Edit产生一个12k的纯粹的正弦波,另外也产生一个12k + 24k的混合正弦波。结果用我自己的耳朵去听,不管音量多大多小,两者听上去完全一模一样,没任何区别。

以上是我个人的一点意见,仅供参考。
TOP
3#

又来了,强贴留名!
TOP
4#

假如要从视觉上来类比听觉的话,我们可以这样想:

科学事实证明光波其实是电磁波的一种而已,具体来讲电磁波里,频率处于某一段之内的那些,可以引起人眼的感觉产生视觉。但频率太高的电磁波,人眼没反应,所以“看不见”。

另外我们也知道:我们常用的手机就是通过高频的电磁波来进行通讯的。

所以按照楼主的思路:我们在电影院里看电影,假如旁边放一台手机,那画面是否就会立刻变得流畅、自然、形体感增强呢?——或者说,你的身旁突然放了一部手机,那你就会立刻发现感觉到的电影画面有变化?
TOP
5#

felixcat 在 2006-4-3 1:51:05 发表的内容
还有,使用与不使用UV镜,在某些时候有成像差异,不是因为人眼是否能看到紫外线的原因。而是:众所周知,滤镜其实是一个天然的滤波器,但是世界上不存在完美的滤波器——也就是说不存在UV镜能够严格地滤掉紫外线的同时,一点都不影响、改变可见光频段的信息,这个网页提供了UV镜的原理和各种不同牌子UV镜的性能测试:

http://www.photo.net/equipment/filters/

这就好比我们知道音频中的滤波器都有“频响曲线”这个概念一样。

还有,假如不使用UV镜,在某些拍摄场景的时候,由于胶片的物理特性,会造成胶片蓝色感光物质过度曝光的不正常的现象,使得照片整体背景带有一层异常的蓝紫色。

所以有时候拍照片,使用与不使用UV镜的结果会有人眼可辨的差别,但这绝对不能说明人眼能够感受紫外线。

最后,我觉得讨论似乎有点跑题了。我觉得应该回到这个话题上来:

我的反应是:根据我自己亲身经历的盲听试验,我没听出有什么不同。

不好意思,你好像理解错了我的意思

请举起一块UV镜,用肉眼透过镜观看暗处。对比下不用镜时的效果

12k混合24k只是我的一个举例,事实上会有无穷个这样的例子,你得找方法全部否定(或者肯定一部分)才行。如果这个准备工作都不做,那现今数字音源的音质就无法在理论上保证。
最后编辑Timme
TOP
6#

有道理
TOP
7#

Timme 在 2006-4-2 15:06:47 发表的内容
你是广受数字处理理论灌输出来的思路,在数学上并不严谨。“人耳能接收”是否是除频率外是无条件的呢?还有,顺着你DSP的思路来理论:完全接收不到的信号是不存在的,看衰减多少而已。假入人耳在30k衰减了90db,那人脑在30k再提升90db不就行了?如此,你的“第一阶段”和“第二阶段”不就统一了?

人耳底噪很不错的,耳膜移动一个氢原子大小的距离都能被感受到(这个不是我自己编的),所以90db也不是问题。


在声波引起人的听觉神经产生反应的这一个环节之前,首先是不同频率的声波在人耳基底膜上的不同位置引起振动,高频率的声波在靠近基底膜底部的地方产生最高峰,低频率的声波在靠近基底膜顶部的地方产生最高峰——而这些振动则由基底膜上的毛细胞来感受,有的毛细胞专门感受低频的振动,有的专门感受高频振动(Timme兄你瞧,人耳的生理构造其实和各种频率的振动的叠加是相当之类似的),毛细胞感受高频振动是有个上限的,频率太高的话真是什么都引不起反应的,所以在这个意义上来讲,人耳可感受的声波真是除频率外无条件的。

假如您说其实毛细胞可以感受很高频率的声波,只是由于有了衰减所以才显得“听不到”——那您要知道,人耳的毛细胞能承受的声波的最大强度是有一个上限的,超过了这个强度,就不是毛细胞能不能感受到的问题了,而是毛细胞是否会被摧毁的问题(震聋了)!同时,人脑生来就是这个模样的,你不可能改造人脑说让它强行增强某个频率信号。所以假如想让一个人感受到30k的信号,唯一的做法便是增大声波的能量——不过我估计声波的音量还没增大到能引起人耳毛细胞的感觉,所有的毛细胞就被这么大能量的声波所摧毁了,聋了。

所以这样看来,人耳可感受的声波的频率上限,仍然是除频率外无条件的。

并且我们也能够理解:为何我们的听力的范围是20 - 20kHz:因为我自己也试验过:我自己产生21k、22k的信号,正常音量我什么都听不见,只有把音量旋钮弄到最大(冒着耳机被烧的危险),才能感受到音感,但是这种耳朵的感受是极端痛苦的,我听了一两秒就要把耳机脱下,并且耳朵要过好一阵子才舒服过来——这个试验我不肯再做第二次了,实在是太痛苦了。所以可见,让我的耳朵明确听见22k的信号,是可以的,但是代价是音量几乎要摧毁我的耳朵。所以在不损毁人耳的前提下,可闻频率的上限是绝对的。

还有请问Timme兄:您所说的“人耳在30k衰减了90db”,那具体是在人的哪一个器官(请不要笼统地说“人耳”哦),哪一个环节发生了您所说的这种“衰减”呢?

还有,什么是“人耳的底噪”呢?这个“底噪”由什么产生呢?它的频率分布是怎样的呢?它(它们)是在人的整个听觉系统中的哪一个环节被加入的呢?这种“底噪”影响到产生听觉的哪些环节呢?

再有“耳膜移动一个氢原子大小的距离都能被感受到”吗?——有时侯是,有时候却不是:比如说假如现在让你耳膜移动一个H原子大小(其实应该说是原子直径吧?)的距离,不过整个过程的时间长度是10年,那请问耳朵能否感觉得到?——因此产生感受的两个因素是:耳膜震动的“距离”;产生这个震动的时间长度——太长不行(对应极低频);太短了也不行(对应极高频)。

同时我觉得Timme兄没必要以批判的眼光来对待数字处理——实际上不存在没严谨数学分析之下的DSP的。我知道Timme兄可能有些敌视DSP,或许也以为是专家们在某些方面骗我们——但是我从没发现是这样——倒是很多情况下由于我们对某个领域不够深入的掌握,对于某些问题产生一些“想当然”、“类似可得”的思路。假如我们真的用心去钻研一下就会看到真正的原因远比我们想象的复杂

我推荐一篇很新的(2004年),并且很有里程碑式的paper,它是处于这个领域里公认的“导航”式的地位的:

http://www-stat.stanford.edu/~donoho/Reports/2004/CompressedSensing091604.pdf

尽管Compressive Sensing并不是100%等同于以人体感觉为基础的,但是我觉得Donoho的这个工作对于数字领域里面的传感压缩、最优还原的讨论和结论,相当漂亮,很让人吃惊——请Timme兄不要说这是实现不了的讨论——实际上Bell Lab的Cormode和新泽西州立大学的Muthukrishnan两人在紧接着的2005年,就写出了可实现上述结论的实用算法,可以用芯片实现的!(这是DIMACS的一个项目,报告请看DIMACS TR 2005-40)

请Timme兄不妨看看上面推荐的两篇paper,里面的内容绝对可以改变您的头贴里面的想法。不是说这里故意要把问题弄得很复杂——而是这个问题本来就不简单的,想要说到点子上不是几段话就能说明白的,因此我们不妨看看这个领域里面专家们的精彩结论。

不管怎样,大家用自己的电脑,按我前一个帖子说的方法,产生信号,自己听一听不就心里有数了
最后编辑felixcat
TOP
8#

felixcat 在 2006-4-2 14:50:04 发表的内容

我觉得关于听觉,应该区分两个阶段:首先,器官是否能接收到;其次:人脑如何处理接收到的信息。

楼主举的是觉得例子造成的区别,是在于第二阶段“人脑如何处理接收到的信息”——也就是说眼睛的感光细胞可以正确接收图片每一处的明暗信息,但人脑却未必会把眼睛传来的两处明暗相同的点的信息,真的处理成明暗相同的感觉。

但是楼主举的12k和24k混合的例子,我想混合之后,人耳还是不能感觉到24k的那一部分的。因为这是“第一阶段”的问题:人耳本身不会对24k的信号有任何反应,它根本感受不到24k的信号。人脑不会自身平白无故地产生一个24k的听感。

我们也可以用实验亲自验证:我的电脑声卡可支持最高96k的取样率,所以我可以用Cool Edit产生高达48k的信号;同时我用Sennheiser HD580耳机来试听,该耳机频响高到30k。

我用Cool Edit产生一个12k的纯粹的正弦波,另外也产生一个12k + 24k的混合正弦波。结果用我自己的耳朵去听,不管音量多大多小,两者听上去完全一模一样,没任何区别。

以上是我个人的一点意见,仅供参考。


你是广受数字处理理论灌输出来的思路,在数学上并不严谨。“人耳能接收”是否是除频率外是无条件的呢?还有,顺着你DSP的思路来理论:完全接收不到的信号是不存在的,看衰减多少而已。假入人耳在30k衰减了90db,那人脑在30k再提升90db不就行了?如此,你的“第一阶段”和“第二阶段”不就统一了?

人耳底噪很不错的,耳膜移动一个氢原子大小的距离都能被感受到(这个不是我自己编的),所以90db也不是问题。
TOP
9#

那个standford的文章不是讨论怎样节省硬件资源的么,那么具像的东西和我楼顶的抽象假设有何联系?

这么“导航”的文章,你总得告诉我它发表在哪吧?

“这些振动则由基底膜上的毛细胞来感受,有的毛细胞专门感受低频的振动,有的专门感受高频振动”

想提一下的是,有非线性关系那也不是占主导地位的,有99%的纯线性就差不多了--不然现在的数字音源早被砖头拍死了。

提醒一下,“声学”与“听觉”是不同的,正如“光学”和“视觉”。红绿蓝三色能组合出紫色的视觉,而紫色比它们三色频率都要高,我们是否凭空“造”出了更高频的视觉?--粗略的讨论参见《费恩曼物理学讲义》第一卷“色视觉”章,这年头学高中物理竞赛的都看过这本书了。ps:最先证明光是电磁波的是用哲学,不是科学。

甚至有这个可能:你按住人中来听音乐,比不按人中听音乐来得好听。主观上这是很荒谬的,但数学上你必须严格的证明它不对,否则就没有充足的理由去否定它。(回应你的“手机”假设)

最后我还有个自创的理论:紫外线人是可以感觉到的,具体表现为夜里暗处的噪点(人眼感觉到的噪点,不是DC)。你可用相机用的UV镜来检验一下。
TOP
10#

Timme 在 2006-4-2 14:20:32 发表的内容
局限性:没有完整的方法来证明,人的听觉是线性叠加的。

比如,单独听正弦波,人耳可以听到1k,2k,3k...直到20k就不能再往上了。但也许有这类可能:对12k和24k混合的波形(而非单独一个正弦波),人耳却能听到其中的24k?(只要能分辨出和单独的12k声音不同即可)

(由于这类“非线性叠加”的可能性有无穷种,看似没有完整的方法来证明人耳“不是非线性”。而你要说人耳是理想线性的,你说我都不信呐!

--比如,人眼就不是个理想线性的器官。附图中“明处的”方格A和“阴影中的”方格B亮度是一样的,但我们看起来确实阴影中的明显“白”一点。大量的这类非线性的例子可以在图像处理的书中找到。)

现时的采样定理假定人耳是理想线性的,从而把高频在22k(对CD)齐刷刷的截掉,是留有疑问的做法。(SACD截在96k也一样)

所以LP和CD的区别就在于:LP的失真比较均衡、不会突变,也不会有被齐刷刷砍掉的高频。如果真存在“数码声”,那我看以上原理就是“数码声”的来源。

ps...本文写出来,我自己都觉得实际中用不着[upload=jpg]Upload/20064214201189903.jpg[/upload]


这个题目复杂了些,主要内容与标题有些差异。
数码声出的问题有几个方面,采样频率不足、量化级数不够只是其中之一,还有量化噪音,此外还有一个模拟系统里没有的信息丢失(压缩算法造成的)等诸多问题。

线性叠加(FFT)只是一种算法,人耳听音分析采用这种算法只是一种工具,而非听音机理。
TOP
发新话题 回复该主题