音频基础
声音是一种由物体振动引发的物理现象,如小提琴的弦声等。物体的振动使其四周空气的压强产生变化,这种忽强忽弱变化以波的形式向四周传播,当被人耳所接收时,我们就听见了声音。
以扬声器为例子,扬声器发声时是振膜在振动。下图是放了块小纸片到振膜上,振膜的振动导致小纸片“跳起了街舞”。
振膜的振动会导致振膜旁边的空气振动,然后导致更大范围的空气跟着一起振动,最后耳朵旁边的空气也开始振动。
如果只关注单个空气分子,可以发现:它来回振动的轨迹,就是一个正弦或余弦函数的曲线图。
声音有振幅,振幅的主观感觉是声音的大小。声音的振幅大小取决于空气压力波距平均值(也称平衡态)的最芦宽大偏移量。
从平衡位置到最大位移位置之间的距离,叫做 振幅 (Amplitude)。
空气分子完全来回振动一次所花费的时间,叫做 周期 (Period),单位是秒(s)。
物体每秒来回振动的次数,叫做 频率 (Frequency),也就是周期分之一。
理论上, 人类的发声频率是85Hz ~ 1100Hz ,人类只 能听见20Hz ~ 20000Hz 之间的声音。
PCM(Pulse Code Modulation),脉冲编码调制。人耳听到的是模拟信号,PCM是把声音从模拟信号转化为数字信号的技术。
如何把声音(声源的振动)记录下来呢?声音属于模拟信号,但更便于计算机处理和存储的是数字信号(二进制编码),所以需要将 模拟败枝信号 (Analog Signal)转成 数字信号 (Digital Signal)后进行存储。这一过程,我们可以称之为:音频数字化。
将音频数字化的常见技术方案是 脉冲编码调制 ( PCM ,Pulse Code Modulation),主要过程是:采样 → 量化 → 编码。
模拟信号的波形是无限光滑的,可以看成由无数个点组成,由于存储空间是相对有限的,数字编码过程中,必须要对波形的点进行采样。 采样 (Sampling):每隔一段时间采集一次模拟信号的样本,是一个在时间上将模拟信号离散化(把连续信号转换成离散信号)的过程。
每秒采集的样本数量,称为 采样率 (采样频率,采样速率,Sampling Rate)。比如,采样率44.1kHz表示1秒钟采集44100个样本。
根据 采样定理 (奈奎斯特–香农采样定理,Nyquist-Shannon sampling theorem)得知:只有当采样率高于声音信号最高频率的 2 倍时,才能把采集的声音信号唯一地还原成原来的声音。人耳能察哗敏够感觉到的最高声音频率为20000Hz,因此为了满足人耳的听觉要求,需要至少每秒进行40000次采样(40kHz采样率)。这就是为什么常见的CD的采样率为44.1kHz。电话、无线对讲机、无线麦克风等的采样率是8kHZ。
量化 (Quantization):将每一个采样点的样本值数字化。
位深度 (采样精度,采样大小,Bit Depth):使用多少个二进制位来存储一个采样点的样本值。位深度越高,表示的振幅越精确。常见的CD采用16bit的位深度,能表示65536(2 16 )个不同的值。DVD使用24bit的位深度,大多数电话设备使用8bit的位深度。
编码 :将采样和量化后的数字数据转成二进制码流。
单声道产生一组声波数据,双声道(立体声)产生两组声波数据。
采样率44.1kHZ、位深度16bit的1分钟立体声PCM数据有多大?
1分钟10.34MB,这对于大部分用户来说是不能接受的。要想在不改变音频时长的前提下,降低音频数据的大小,只有2种方法:降低采样指标、压缩。降低采样指标是不可取的,会导致音频质量下降,用户体验变差,因此专家们研发了各种压缩方案。
比特率 (Bit Rate),指单位时间内传输或处理的比特数量,单位是:比特每秒(bit/s或bps),还有:千比特每秒(Kbit/s或Kbps)、兆比特每秒(Mbit/s或Mbps)、吉比特每秒(Gbit/s或Gbps)、太比特每秒(Tbit/s或Tbps)。
采样率44.1kHZ、位深度16bit的立体声PCM数据的比特率是多少?
通常,采样率、位深度越高,数字化音频的质量就越好。从比特率的计算公式可以看得出来:比特率越高,数字化音频的质量就越好。
需要注意的是: 音频文件格式并不等于音频编码 。比如:
下面对常见的音频编码和文件格式做一个简介,以后有需要时再进行详细介绍。
WAV(Waveform Audio File Format),是由IBM和Microsoft开发的音频文件格式,扩展名是 .wav ,通常采用PCM编码,常用于Windows系统中。
WAV的文件格式 如下图所示,前面有44个字节的文件头,紧跟在后面的就是音频数据(比如PCM数据)。
根据采样率和位深度可以得知:相对于自然界的信号,音频编码最多只能做到无限接近,任何数字音频编码方案都是有损的,因为无法完全还原。目前能够达到最高保真水平的就是PCM编码,因此,PCM约定俗成叫做 无损 音频编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及常见的 WAV 文件中均有应用。
但并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。我们习惯性的把MP3列入 有损 音频编码范畴,是相对于PCM编码的。要做到真正的无损是困难的,就像用数字去表达圆周率,不管精度多高,也只是无限接近,而不是真正等于圆周率的值。