音视频基础
录制是播放的一个逆过程。
红光(R)
绿光(G)
蓝光(B)
每个像素用8bit表示
可表示的色彩:256*256*256=16,777,216
Y:表示明亮度(Luminance或Luma),也称灰阶值
U和v:表示色度(Chroninance或Chroma)
用途:主要用于视频信号的压缩、传输和存储,以及向后兼容老式黑白电视机。
YUV存储格式有两大类:planar和packed
planer:先存储所有像素点的Y,紧接着存储所有像素点的U,最后存储所有像素点V
packed:每个像素点的Y,U,V是连续交叉存储的
常见YUV存储格式:
YUV 4:4:4采样,每一个Y对应一组UV分量
YUV:4:2:2采样,每两个Y共用一组UV分量
YUV:4:2:0采样,每四个Y共用一组UV分量
RGB与YVU比较:
平均1.5个字节组成一个像素的YVU与3个字节组成的一个像素RGB,压缩比为2
视频码率:kb/s,是指视频文件在单位时间内使用的数据流量,也叫码流率。码率越大,说明单位时间内取样率越大,数据流精度就越高。
视频帧率:fps,通常说一个视频的25帧,指的就是这个视频帧率,即1秒中会显示25帧。帧率越高,给人的视觉就越流畅。
视频分辨率:分辨率就是我们常说的640x480分辨率、1920x1080分辨率,分辨率影响视频图像的大小。
I帧(Intra coded frames):I帧不需要参考其他画面而生成,解码时仅靠自己就重构完成的图像;
特性:
P帧(Predicted frames):根据本帧与相邻的前一帧(I帧或P帧)的不同点来压缩本帧数据,同时利用了空间和时间上的相关性。
B帧(Bi-directional predicted frames):B帧图像采用双向时间预测,可以大大提高压缩倍数。
常见视频编解码器:
声音是一种由物体振动引发的物理现象。
声音按频率可作如下划分:
PCM脉冲编码调制:
PCM(Pulse code Modulation)脉冲编码调制。人耳听到的是模拟信号,PCM是把声音从模拟信号转化为数字信号的技术。
采样频率:
根据奈奎斯特(Nyguist)采样定律,要从采样中完全恢复原始信号波形,采样频率必须至少是信号中最高频率的两倍。
人耳能听到的声音频率范围是[20Hz-20KHz],所以采样频率一般为44.1KHZ,这样就能保证声音到达20KHz也能被数字化,从而使得经过数字化处理后,人耳听到的声音质量不会被降低。
常见的采样频率:
采样量化:采样值的精度取决于它用多少位来表示,这就是量化。如16bit,可以表示65536个量化精度。
常见的采样精度(采样深度):每个“采样点”的大小,常用的大小为8bit,16bit,24bit。
通道数:单声道,双声道,四声道,5.1声道。
比特率:每秒传输的bit数,单位为:bps(Bit per second),是间接衡量声音质量的一个标准。没有压缩的音频数据的比特率 = 采样频率 X 采样精度 X 通道数。
码率:压缩后的音频数据的比特率。
常见的码率:
注意不能从低往高转
相对的码率越大,压缩效率越低,音质越好,压缩后数据越大。
码率 = 音频文件大小/时长
帧:每次编码的采样单元数,比如MP3通常是1152个采样点作为一个编码单元,AAC通常是1024个采样点作为一个编码单元。
帧长有两个含义:
交错模式:数据音频信号存储的方式。数据以连续帧的方式存放,假设为双声道,即交叉记录左声道样本和右声道样本。 LRLRLR...的方式
非交错模式:首先记录一帧的左声道样本再记录其右声道的样本。LLL...RRR的方式。
编码压缩原理:数字音频压缩编码采取去除声音信号中冗余成分的方法来实现。所谓冗余成分指的是音频信号中不能被人耳感知道的信号,它们对确定声音的音色,音调等信息没有任何帮助。
冗余信号成分:去除人耳不能感知的频率(20Hz~20KHz之外的信号),频谱隐蔽效应和时域隐蔽效应。
音频编码器:
音视频封装格式:
封装格式(容器)就是将已经编码压缩好的视频流、音频流以及字幕按照一定的方案放到一个文件中,便于播放软件播放。封装格式不一样,后缀名也就不一样
常见音视频封装格式:
常用AAC+H264封装
音视频同步概念:
DTS(Decoding Time Stamp):即解码时间戳,这个时间戳的意义在于告诉播放器该在什么时候解码这一帧的数据。
PTS(Presentation Time Stamp):即显示时间戳,这个时间戳用来告诉播放器该在什么时候显示这一帧数据。
音视频同步方式:
Audio Master:同步视频到音频
Video Master:同步音频到视频
External ClocK Master:同步音频和视频到外部时钟
2024-10-28 广告