音频基础概念
人类耳朵的听力有一个频率范围,大约是20Hz~20kHz
通过采样和量化技术获得的离散性(数字化)音频数据。计算机内部处理的是二进制数据,处理的都是数字音频,所以需要将模拟音频通过采样、量化转换成有限个数字表示的离散序列 (即实现音频数字化) 。
对于高质量的音频信号,其频率范围(人耳能够听到的频率范围)是20Hz~20kHz,所以采样频率一般为 44.1kHz ,这样就可以保证采样声音达到20kHz也能被数字化,从而使得经过数字化处理之后,人耳听到的声音质量不会被降低。而所谓的44.1kHz就是代表1秒会采样44100次。
量化是指在幅度轴上对信号进行数字化,比如用16比特的二进制信号来表示声音的一个采样。
表示一个样本的二进制的位数,即样本的比特数。量化是将经过 采样得到的离散数据转换成二进制数的过程 ,量化深度表示每个采样点用多少比特表示,在计算机中音频的量化深度一般为4、8、16、32位(bit)等。例如:量化深度为8bit时,每个采样点可以表示256个不同的量化值,而量化深度为16bit时,每个采样点可以表示65536个不同的量化值。量化深度的大小影响到声音的质量,显然, 位数越多,量化后的波形越接近原始波形 ,声音的质量越高,而需要的存储空间也越多
就是按照一定的格式记录采样和量化后的数字数据,比如 顺序存储或压缩存储。
==比特率==(它用于衡量音频数据单位时间内的容量大小)
是实现声波/数字信号相互转换的一种硬件。声卡的基本功能是把来自话筒、磁带、光盘的原始声音信号加以转换,输出到耳机、扬声器、扩音机、录音机等声响设备,或通过音乐设备数字接口(MIDI)使乐器发出美妙的声音。
==无损压缩== 是指解压后的数据可以完全复原。在常用的压缩格式中,用得较多的是有损压缩,
==有损压缩== 是指解压后的数据不能完全复原,会丢失一部分信息,压缩比越小,丢失的信息就越多,信号还原后的失真就会越大。
根据不同的应用场景(包括存储设备、传输网络环境、播放设备等),可以选用不同的压缩编码算法,如PCM、WAV、AAC、MP3、Ogg等。
<u> 压缩编码的原理实际上是压缩掉冗余信号,冗余信号是指不能被人耳感知到的信号 </u>
而WAV编码的一种实现(有多种实现方式,但是都不会进行压缩操作)就是 在PCM数据格式的前面加上44字节,分别用来描述PCM的采样率、声道数、数据格式等信息。
MP3具有不错的压缩比,使用LAME编码(MP3编码格式的一种实现)的中高码率的MP3文件,听感上非常接近源WAV文件,当然在不同的应用场景下,应该调整合适的参数以达到最好的效果。
特点 :音质在128Kbit/s以上表现还不错,压缩比比较高,大量软件和硬件都支持,兼容性好。
适用场合 :高比特率下对兼容性有要求的音乐欣赏。
AAC是新一代的音频有损压缩技术,它通过一些附加的编码技术(比如PS、SBR等),衍生出了LC-AAC、HE-AAC、HE-AAC v2三种主要的编码格式
特点 :在小于128Kbit/s的码率下表现优异,并且多用于视频中的音频编码。
适用场合 :128Kbit/s以下的音频编码,多用于视频中音频轨的编码。
Ogg是一种非常有潜力的编码,在各种码率下都有比较优秀的表现,尤其是在中低码率场景下。Ogg除了音质好之外,还是完全免费的,这为Ogg获得更多的支持打好了基础。Ogg有着非常出色的算法,可以用更小的码率达到更好的音质,
特点 :<u>可以用比MP3更小的码率实现比MP3更好的音质</u>,高中低码率下均有良好的表现,兼容性不够好,流媒体特性不支持。
适用场合 :语音聊天的音频消息场景。
(Moving Picture Experts Group,动态图像专家组)是ISO(International Standardization Organization,国际标准化组织)与IEC(International Electrotechnical Commission,国际电工委员会)于1988年成立的专门针对运动图像和语音压缩制定国际标准的组织。
Acc一个音频帧包含1024个采样点,MP3一个音频帧包含1152个采样点。
音频帧的播放时间
在音序器软件中看到的一条一条的平行“轨道” 。每条音轨分别定义了该条音轨的属性,如音轨的音色,音色库,通道数,输入/输出端口,音量等。
当使用音序器时,一条音轨对应于音乐的一个声部,它把 MIDI 或者音频数据记录在特定的时间位置。每一音轨可以定义为一种乐器的演奏。 所有的音序器都可以允许多音轨操作,这就意味着一首歌所有的音轨,无论是 MIDI 还是音频都能同时播放。
指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号 ,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。
从双声道开始,声音在录制过程中被分配到两个独立的声道,从而达到了很好的声音定位效果。这种技术在音乐欣赏中显得尤为有用,听众可以清晰地分辨出各种乐器来自的方向,从而使音乐更富想象力,更加接近于临场感受。
记录声音时,如果每次生成一个声波数据,称为单声道;每次生成两个声波数据,称为双声道。使用双声道记录声音,能够在一定程度上再现声音的方位,反映人耳的听觉特性。
音频采样率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上,采样频率一般共分为11025Hz、22050Hz、24000Hz、44100Hz、48000Hz五个等级
频率对应于时间轴线,振幅对应于电平轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富, 为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。