|
花三万块组了一套音响,放同一张专辑,声音还不如朋友家那套八千块的。这件事在发烧圈里反复发生,没人愿意挑明。 视听系统本质是一条链:源头 → 编解码 → 传输 → 转换 → 换能器。链条任何一环流失了信息,后面再贵也补不回来。 但大多数人买的时候看的是参数标签,不是这条链。 下面这十个被反复误导的概念,是这条链上最常断的地方。
分辨率是面子,码率才是里子 用最新款旗舰机拍了一张照片,1亿像素,发给朋友,对方说糊的。原因很可能是被微信压缩过。像素格子还在,里面填的信息没了。 视频是同一个道理。 分辨率说的是图像被分成多少个像素格子。4K的意思是横向约4000个格子、纵向约2000个,乘起来将近800万个。格子很多,没错。但格子里填什么,靠的是码率。 格子是纸,码率是墨水。一张800万格的纸,你用多少墨水往上画,决定画的质量,跟格子多少没有直接关系。 同样是4K,电影院放映版的码率是250Mbps,主流流媒体平台的4K码率是15Mbps,差了将近17倍。 17倍意味着什么?意味着流媒体那版,画面里大量细节——树叶纹理、头发层次、皮肤毛孔——在压缩时被算法认为"不重要",直接抹掉,换成一块模糊的色块填进去。你看到的4K画面,其实是一幅被大量"猜"出来的画。 低码率的4K,是高频细节被噪声猜想替代之后剩下的壳。
44.1kHz为何有数码味? 不少发烧友觉得44.1kHz是上个世纪的将就,CD时代的遗留,恨不得全换成192kHz。 这个判断,把工程限制和数学原理搞混了。 人耳能听到的频率上限大约是20kHz。奈奎斯特采样定律给出的结论:要准确还原一个频率,采样率至少是这个频率的两倍。还原20kHz,采样率至少需要40kHz。44.1kHz留了一点余量,这是数学算出来的平衡点。 那早期CD为什么听起来有点"硬"? 问题出在滤波器。采样完成之后,需要一个数字滤波器把20kHz以上的频率切干净。早期只能做出陡峭的"砖墙式"滤波器,切的时候会产生轻微的预振铃,声音起始的一刻有细微颤动。老发烧友说CD有"数码味",部分原因在这里。 现代滤波器设计已经把这个问题控制住了。 升到96kHz甚至192kHz的意义,不是让你能听到更高的频率——你的耳朵根本到不了那里。意义在于给滤波器留出更大的工作余量,不需要那么激进地切,对信号的破坏更少。 多一倍采样率,换的是更温柔的处理方式,不是更多的信息量。
位深:后期处理的底气,不是回放的天花板 16位的动态范围约98dB,24位约146dB,看起来24位压倒性胜利。 但模拟链路的底噪通常在-80dB到-100dB之间,早就封顶了,24位的额外动态根本触不到底。回放端,16位完全够用。 24位的真正价值在制作端。 录完的原始素材要经过剪辑、混音、均衡、压缩、母带处理,每一步都在数字上做运算,每做一次就有极微小的量化误差进来,就像复印一张纸,再复印,再复印,误差在叠加。24位给了足够大的动态余量,来回处理几十遍,误差还在可接受的范围内。16位余量更窄,多次处理后误差就会开始可以被察觉。 不是24位回放有多神奇,而是那张唱片在制作时用了更好的工艺、保留了更多的工作余量,导致误差更小,或者说,更不容易犯错。
换能器最被忽视 整条信号链里,数模转换器(DAC)、功率放大器、线材,这几个环节在过去二十年的工程进步里,差距已经被大幅压缩。一台售价五百块的好DAC和一台五千块的DAC,在严格盲测条件下,绝大多数人分辨不出来。这不是耸人听闻,是多次盲测实验反复验证过的结论。 但音箱和耳机不一样。 同样是两千块,不同品牌、不同设计的耳机,声音差异可以是天壤之别。这是因为换能器做的事情最难——它要把电信号转换成空气振动,物理上的误差无法用算法弥补,材料、工艺、腔体设计的每一个细节都直接影响结果。 换能器是整条信号链里差异最大、上限最高、也最有升级空间的环节。 发烧友花大钱换线材、升级DAC,声音没有明显变化,然后结论是"玄学",继续换更贵的线材。其实问题不在那里,问题在耳机还是五年前的入门款。 钱花在换能器上,性价比远高于链条其他任何环节。
吸音板 声音从音箱发出之后,不是直接到你耳朵里的。它先撞到墙、天花板、地板,反弹回来,再撞,再反弹,这些反射声和直达声叠加在一起,才是你实际听到的东西。一个处理很差的房间,低频在特定位置会因为驻波叠加变得极度浑浊,高频因为早期反射而失去定位感。 方形的房间,没有任何吸音处理,混响时间过长——这是大多数人家里的现实。 在这种房间里,换一对贵三倍的音箱,听感的提升可能不如在关键位置挂几块吸音板明显。几百块的吸音材料,处理好第一反射点,低频陷阱放在墙角控制驻波——代价不大,效果在某些场景下远超器材升级。 发烧圈几乎不讨论这个话题,原因很简单:声学处理没有品牌、没有型号、没有参数可以追,没有内容可以生产,没有利润可以驱动。所以它消失了。 但物理不会消失。再好的器材,在糟糕的声场里都是浪费。
HDR 没有黑位就是帖纸 HDR 几乎贴在所有新屏幕上,很多人以为 HDR 等于"更亮"。这个理解只对了一半,错了更重要的那一半。 HDR 的核心是动态范围——最亮的地方和最暗的地方之间的差距。真正好的HDR画面,火焰可以很亮,深夜的阴影可以很黑,两端同时存在,人眼感受到强烈的真实感。 这需要屏幕能显示真正的黑色。 很多打着HDR标签卖出去的电视和显示器,面板背光是均匀打满整块屏幕的,无论哪个区域显示什么内容,背光都在发光。这意味着"黑色"区域实际是深灰色,永远有一层灰蒙蒙的底色。 在这种屏幕上播HDR内容:高光确实亮了,暗部全是灰。对比度不是拉开了,是塌掉了。夜景戏看起来像白天加了灰色滤镜。 没有局部调光(屏幕能分区域控制背光)或自发光技术(OLED),HDR只是一张贴纸。
10bit 终结了天空里的等高线 打开一张渐变色图片,有时候蓝色里能看到明显的色带,像地形图上的等高线,一圈一圈的。 这叫色带断层,是量化步长太大造成的。 8bit每个颜色通道有256个亮度级别。蓝天从地平线的淡蓝到高空的深蓝,这个变化是连续的。用256个台阶去模拟一段连续的坡,台阶之间必然有肉眼可见的跳跃——就是那些等高线。 10bit每个通道有1024个级别,是8bit的四倍。台阶从256级变成1024级,台阶之间的跳跃小到人眼察觉不出来,等高线消失了。 它提供的不是更多"看不见的颜色",是让你看得见的颜色之间的过渡,从楼梯变成了坡道。
无线音频是概率游戏,不是确定性链路 打开手机扫一眼,附近可能有十几个Wi-Fi。这十几个信号在同一频段里互相穿插,互相干扰。传输能力不是固定的,随着干扰强度实时波动。 信号好的时候,传输没问题。信号一抖,带宽瞬间下降,播放软件来不及接收数据,怎么办?两个策略:降低传输质量,把高码率自动降低;或者加大缓存,提前把未来几秒的音频存起来,发生抖动时从缓存取,不卡顿,但延迟增加了。 两个策略都是妥协。 邻居开微波炉,手机在旁边传蓝牙——这些在某个瞬间都可能把音频的稳定性捅一刀。追极致码率时,物理层的不确定性是第一个绕不过去的天花板。
响度战争 上世纪90年代开始,唱片行业有一场持续至今的竞赛:让自己的歌听起来比别人的更响。原因很简单,在嘈杂的商场、通勤地铁、蓝牙小音箱上,响的那首歌更容易被注意到,更容易引发点击,更容易被记住。 做法是在母带处理阶段,用压缩器把动态范围大幅收窄。 正常的一首歌,前奏轻,高潮响,这是动态。把动态压掉之后,全程维持在同一个高响度,没有轻重之分。高潮不高潮,平静不平静,整首歌像一块砖头一样。 拿仪器测,峰值和谷值的差距,1990年代的唱片可能有15dB的动态余量,2010年代很多流行专辑压缩到5dB以下。同样的音量旋钮,后者听起来确实"响",但所有的层次、纵深、起伏都磨平了。 你买的那张无损,格式是完整的,文件里的信息一个比特不差。但里面装的是一个在录音棚里就已经被压扁了的信号。 无损保留的是结果,不是质量。 想知道自己的唱片有没有被压缩,可以用软件看一下波形。一张动态正常的专辑,波形起伏明显,有高有低。被响度战争洗礼过的专辑,波形是一块实心的砖头,几乎没有起伏。
无损只是不再进一步损失,不代表源头是好的 FLAC、Apple Lossless、WAV——无损格式的意思是:文件在压缩和解压的过程中,没有信息损失,原来是什么,解压后还是什么,可以完全还原。 但它还原的,是录音完成之后的那个结果,不是"好声音"本身。 一张唱片在到达耳朵之前,要经过录音、剪辑、混音、母带处理。每个环节都有好坏之分。无损把最终结果原原本本保留下来。如果那个结果是经过响度战争压扁的,是混音粗糙的,是高频被削平的——这些问题无损格式一个都解决不了。 把一张过度压缩的唱片存成无损格式,和存成普通压缩格式相比,区别不大。主要的破坏发生在比特流之外,发生在录音棚里做决定的那一刻。 源头的质量,始终是链条里权重最高的那一环。
最后一件事,可能颠覆前面说的一切。 追求更干净的链路、更准确的还原,是正确的方向。但有一件事得说清楚:人耳不是仪器。 顶级母带处理师在最后混音时,经常主动把信号通过一台模拟磁带机或电子管压缩器过一遍。这两类设备都会产生微量的失真。仪器测出来,这是"损失",是"不准确"。但人耳听起来,那个失真恰好落在让人感觉"温暖""饱满""有质感"的频率区域。 胆机几十年来始终有市场,不是因为它失真比晶体管机更少,而是因为它失真得好听。 视听体验的优化目标是感知质量,不是比特精度。 参数是起点,耳朵才是终点。
|