H261,H262,H263,H264,mpeg1,mpeg2,mpeg4分别需要多大的带宽支持
展开全部
你好,带宽不止要考虑编码格式,还要分辨率、帧率、位深等信息,建议你在开一个问题
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
我咋知道你的步骤呢?你又没详细说出来
我是在debian下用264编码编出来的,如果你是在windows系列的系统做的话,有很多很多的软件可以做视频,我QQ281772696,截图我看看
我是在debian下用264编码编出来的,如果你是在windows系列的系统做的话,有很多很多的软件可以做视频,我QQ281772696,截图我看看
本回答被提问者采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
MPEG是国际标准化组织和国际电工委员会第一联合技术组(ISO/IEC JTC1)1988年成立的运动图像专家组(Moving Picture Expert Group)的简称,全称为ISO/IEC JTC1第29分委会第11工作组(ISO/IEC JTC1/SC29/WG11),负责数字视频、音频和其他媒体的压缩、解压缩、处理和表示等国际技术标准的制定工作。从1988年开始,MPEG专家组每年召开四次左右的国际会议,主要内容是制定、修订、发展MPEG系列多媒体标准。视音频编码标准MPEG-1(1992)和MPEG-2(1994)、基于视听媒体对象的多媒体编码标准MPEG-4(1999年)、多媒体内容描述标准MPEG-7(2001)、多媒体框架标准MPEG-21。目前,MPEG系列国际标准已经成为影响最大的多媒体技术标准,对数字电视、视听消费电子产品、多媒体通信等信息产业的重要产品产生了深远影响。
一、运动图像的压缩
数字影像的出现,得益于两项技术的发展:光碟存储技术和影像数字压缩技术。比如,NTSC制式的电视图像以大约640×480的分辨率、24bits/像素、每秒30帧的质量传输时,其数据传输率达28Mbit/s,20秒的未压缩视频图像将占用560Mbit的存储空间,相当于一张CD-ROM光盘只能储存20秒钟的未压缩电视节目。显然这样的要求对普通个人用户来讲是难以接受的,在实现上成本也是非常高昂。所以,视频图像的压缩编码方法 MPEG 就应运而生了。
MPEG(即Moving Picture Experts Group运动图像专家小组)是个国际标准,即所谓ISO11172。MPEG的缔造者们原先打算开发四个版本:MPEG-1到MPEG-4,以适用于不同带宽和数字影像质量的要求,后来由于MPEG-3被放弃。总的来说,MPEG优于其他影像压缩缩方案的地方是:具有很好的兼容性、压缩比最高可达200:1、数据的损失小。
二、MPEG-1
技术特点:MPEG-1制定于1992年,可适用于不同带宽的设备,如CD-ROM、Video-CD、CD-i。它的目的是把221Mbit/s的NTSC图像压缩到1.2Mbit/s,压缩率为200∶1。这是图像压缩的工业认可标准。它可针对SIF标准分辨率(对于NTSC制为352×240;对于PAL制为(352×288)的图像进行压缩,传输速率为1.5Mbits/s,每秒播放30帧,具有CD音质,质量级别基本与VHS(广播级录像带)相当。MPEG的编码速率最高可达4-5Mbits/s,但随着速率的提高,其解码后的图像质量有所降低。
应用范围:应用 MPEG-1 技术最成功的产品非 VCD 莫属了,VCD作为价格低廉的影像播放设备,得到广泛的应用和普及。MPEG-1也被用于数字电话网络上的视频传输,如非对称数字用户线路(ADSL),视频点播(VOD),以及教育网络等。
三、MPEG-2
技术特点:MPEG-2制定于1994年,设计目标是高级工业标准的图像质量以及更高的传输率。MPEG-2所能提供的传输率在3MB-10MB/s间,在NTSC制式下的分辨率可达720×486,MPEG-2能够提供广播级的视像和CD级的音质。MPEG-2的音频编码可提供左右中及两个环绕声道,以及一个加重低音声道和多达七个伴音声道。MPEG-2的另一特点是,可提供一个较广范围的可变压缩比,以适应不同的画面质量、存储容量以及带宽的要求。
应用范围:MPEG-2技术就是实现DVD的标准技术,现在DVD播放器也开始在家庭中普及起来了。除了作为DVD的指定标准外,MPEG-2还可用于为广播、有线电视网、电缆网络以及卫星直播提供广播级的数字视频。
四、MPEG-3
由于MPEG-2的出色性能表现,已能适用于HDTV(高清晰度电视),使得原打算为HDTV设计的MPEG-3,还没出世就被抛弃了。
五、MPEG-4
曾制定出MPEG-1和MPEG-2视音频压缩标准的运动图像专家组(MPEG)目前正在发展最新的MPEG-4标准,其目标是提供未来的交互式多媒体应用。MPEG-4将制定出与以往不同的、具有高度灵活性和可扩展性的未来新一代国际标准。在音频标准的制定方面,比较以前的音频编码标准,MPEG-4增加了许多新的关于合成内容及场景描述等领域的工作,增加了诸如可分级性、音调变化、可编辑性及延迟等新功能。MPEG-4将以前发展良好但相互分离的高质量音频编码、计算机音乐及合成语音等第一次合成并在一起,在诸多领域内给予高度的灵活性。
MPEG-4中关于音频信号将包括:传统的音频编码标准,即所谓“自然音频”(natural audio)和新颖的“结构音频”(structured audio)以及自然和合成混合在一起的“合成/自然混合编码”(Synthetic/natural hybrid coding)简称SNHC。其中SNHC是MPEG-4中关于音视频的一个很重要的概念。
1、传统的自然音频编码
一个基本的概念就是MPEG-4的编码工具不再仅限于支持码率的减少,其各种不同的工具支持从智能语音到高质量多声道音频信号,以及此范围内的音频信号的质量。MPEG-4编码工具支持的其他功能还有:
.速度的变化,允许不改变音调实现时间尺度变化;
.音调的变化,允许不改变时间尺度实现音调改变;
.码率的可分级性,对比特流的分解可在传输或解码器中进行;
.带宽的可分级性,代表部分频谱的比特流的一段可在传输或解码过程中被抛弃;
.编码器复杂度的可分级性;
.强纠错性等。
MPEG-4标准的自然音频编码将码率范围规定为每声道2kbit/s~64 kbit/s。在如此宽的范围内定义了三种类型的编码器或叫编码工具。在最低的码率范围2~6 kbit/s之间使用的是参数编码(parametric coding),最适合于采样率为8kHz的语言信号;在6~24 kbit/s的码率范围内使用的是编码激励的线型预测编码(code excited linear predictive coding)简称CELP,支持采样率为8kHz和16 kHz的语言和音频信号;在最高的16~64 kbit/s的码率范围内使用的是时间/频率编码(time/frequencycoding)技术,比如MPEG-2AAC标准,支持采样率为8~96 kHz的任意音频信号。
1.1参数编码
参数编码提供了两种编码工具:HVXC和HILN。
谐音矢量激励编码HVXC(Harmonic Vector eXcitation Coding)编码工具允许对语言信号在2kbit/s和4kbit/s之间进行可分级性编码。HVXC的解码过程分四步进行:参数的反量化;对声音帧用正弦合成产生激励信号和加上噪声分量;对非声音帧通过查找码书产生激励信号;LPC(线型预测编码)合成。对合成语言质量的增强可以使用频谱后置滤波。
HVXC提供了在延迟模式上的可分级性。其编码器和解码器可以独立地选择低或正常的延迟模式。
谐音和独立线性加性噪声HILN(Harmonic and Individual Line plus Noise)编码工具允许对非语言信号,例如音乐以4kbit/s和更高的码率进行编码。HILN支持在速度、音调、码率和复杂度上的可分级性。其独立线性基础解码器从比特流中重建线性参数频率、幅度和包络。增强解码器使用更好的量化对上述参数进行重建,并且对线性参数相位也进行了重建。信号解码的速度可以仅通过改变帧长来实现,音调的改变通过在合成之前利用一个比例因子复合每一个频率参数来实现,而且无须改变帧长,也不会引起相位失真。增强解码器由于对相位进行重建而带来了诸多优点,使解码器输出的信号近似于编码器输入的波形。
可以将HVXC和HILN联合起来使用以获得更宽范围内的信号和码率。可以在两者编码器的输出之间动态地切换或混合。
1.2CELP编码
CELP的解码器包括一个激励源、一个合成滤波器和一个需要时添加的后置滤波器。
激励源拥有两种分量,一是由自适应码书产生的周期分量,另一个是由一个或多个固定码书产生的随机分量。在解码器中,使用码书索引和增益索引来重建激励信号。激励信号接着通过线性预测合成滤波器,最后,为了获得增强的语言质量,可以使用后置滤波器。CELP支持两种采样率:8kHz和16kHz。
当采样率为8kHz时,码率的可分级性是通过不断加上所谓“增强层”(enhancement layer)来实现的。在基础码率上以2kbit/s的步长增加,可加的增强层的最大数目是三,意味着可在基础码率上加上2,4,6 kbit/s。当采样率为16kHz时,可以通过只使用比特流的一部分来解码语言信号,这就提供了在复杂度上的可分级性。还有一些其他支持复杂度可分级的方法,例如简化LPC、后置滤波器的使用与否等等。复杂度的可分级性依赖于实际的应用而与比特流的语法无关。而当解码器用软件实现时,复杂度甚至可以实时地予以改变,以利于在有限容量计算机接口或多任务环境下运行。
带宽的可分级性在采样率为8kHz和16kHz时均可实现,是通过在CELP编码上加一个带宽扩展工具来实现的。
1.3时间/频率编码
当码率为每声道64kbit/s时就是MPEG-2AAC编码标准,此时可以获得极好的音频质量。MPEG-2AAC是MPEG-4时间/频率编码的核心。其滤波器的输出含有1024条或1280条频率线,通过块切换来获得不同的时间和频率分辨率。用时域噪声整形(TNS)来控制时域量化噪声的形状。通过在每一个频谱系数上使用后向自适应预测器来有效提高滤波器组的分辨率。频谱系数被划分为近似临界频带结构的所谓比例因子频带,每个比例因子频带共享一个比例因子使用一个非均匀量化器。编码器的心理声学模型控制量化的步阶将量化噪声置于信号阀值之下予以掩蔽。
数字视频技术广泛应用于通信、计算机、广播电视等领域,带来了会议电视、可视电话及数字电视、媒体存储等一系列应用,促使了许多视频编码标准的产生。ITU-T与ISO/IEC是制定视频编码标准的两大组织,ITU-T的标准包括H.261、H.263、H.264,主要应用于实时视频通信领域,如会议电视;MPEG系列标准是由ISO/IEC制定的,主要应用于视频存储(DVD)、广播电视、因特网或无线网上的流媒体等。两个组织也共同制定了一些标准,H.262标准等同于MPEG-2的视频编码标准,而最新的H.264标准则被纳入MPEG-4的第10部分。
本文按照ITU-T视频编码标准的发展过程,介绍H.261、H.263及H.264。
H.261视频编码标准
H.261是ITU-T为在综合业务数字网(ISDN)上开展双向声像业务(可视电话、视频会议)而制定的,速率为64kb/s的整数倍。H.261只对CIF和QCIF两种图像格式进行处理,每帧图像分成图像层、宏块组(GOB)层、宏块(MB)层、块(Block)层来处理。
H.261是最早的运动图像压缩标准,它详细制定了视频编码的各个部分,包括运动补偿的帧间预测、DCT变换、量化、熵编码,以及与固定速率的信道相适配的速率控制等部分。
H.263视频编码标准
H.263是最早用于低码率视频编码的ITU-T标准,随后出现的第二版(H.263+)及H.263++增加了许多选项,使其具有更广泛的适用性。
H.263视频压缩标准
H.263是ITU-T为低于64kb/s的窄带通信信道制定的视频编码标准。它是在H.261基础上发展起来的,其标准输入图像格式可以是S-QCIF、QCIF、CIF、4CIF或者16CIF的彩色4∶2∶0亚取样图像。H.263与H.261相比采用了半象素的运动补偿,并增加了4种有效的压缩编码模式。
无限制的运动矢量模式允许运动矢量指向图像以外的区域。当某一运动矢量所指的参考宏块位于编码图像之外时,就用其边缘的图像象素值来代替。当存在跨边界的运动时,这种模式能取得很大的编码增益,特别是对小图像而言。另外,这种模式包括了运动矢量范围的扩展,允许使用更大的运动矢量,这对摄像机运动特别有利。
基于句法的算术编码模式使用算术编码代替霍夫曼编码,可在信噪比和重建图像质量相同的情况下降低码率。
先进的预测模式允许一个宏块中4个8×8亮度块各对应一个运动矢量,从而提高了预测精度;两个色度块的运动矢量则取这4个亮度块运动矢量的平均值。补偿时,使用重叠的块运动补偿,8×8亮度块的每个象素的补偿值由3个预测值加权平均得到。使用该模式可以产生显著的编码增益,特别是采用重叠的块运动补偿,会减少块效应,提高主观质量。
PB-帧模式规定一个PB-帧包含作为一个单元进行编码的两帧图像。PB-帧模式可在码率增加不多的情况下,使帧率加倍。
H.263视频压缩标准版本2
ITU-T在H.263发布后又修订发布了H.263标准的版本2,非正式地命名为H.263+标准。它在保证原H.263标准核心句法和语义不变的基础上,增加了若干选项以提高压缩效率或改善某方面的功能。原H.263标准限制了其应用的图像输入格式,仅允许5种视频源格式。H.263+标准允许更大范围的图像输入格式,自定义图像的尺寸,从而拓宽了标准使用的范围,使之可以处理基于视窗的计算机图像、更高帧频的图像序列及宽屏图像。
为提高压缩效率,H.263+采用先进的帧内编码模式;增强的PB-帧模式改进了H.263的不足,增强了帧间预测的效果;去块效应滤波器不仅提高了压缩效率,而且提供重建图像的主观质量。
为适应网络传输,H.263+增加了时间分级、信噪比和空间分级,对在噪声信道和存在大量包丢失的网络中传送视频信号很有意义;另外,片结构模式、参考帧选择模式增强了视频传输的抗误码能力。
H.263++视频压缩标准
H263++在H263+基础上增加了3个选项,主要是为了增强码流在恶劣信道上的抗误码性能,同时为了提高增强编码效率。这3个选项为:
选项U——称为增强型参考帧选择,它能够提供增强的编码效率和信道错误再生能力(特别是在包丢失的情形下),需要设计多缓冲区用于存贮多参考帧图像。
选项V——称为数据分片,它能够提供增强型的抗误码能力(特别是在传输过程中本地数据被破坏的情况下),通过分离视频码流中DCT的系数头和运动矢量数据,采用可逆编码方式保护运动矢量。
选项W——在H263+的码流中增加补充信息,保证增强型的反向兼容性,附加信息包括:指示采用的定点IDCT、图像信息和信息类型、任意的二进制数据、文本、重复的图像头、交替的场指示、稀疏的参考帧识别。 H.264视频编码标准
H.264是由ISO/IEC与ITU-T组成的联合视频组(JVT)制定的新一代视频压缩编码标准。事实上,H.264标准的开展可以追溯到8年前。1996年制定H.263标准后,ITU-T的视频编码专家组(VCEG)开始了两个方面的研究:一个是短期研究计划,在H.263基础上增加选项(之后产生了H.263+与H.263++);另一个是长期研究计划,制定一种新标准以支持低码率的视频通信。长期研究计划产生了H.26L标准草案,在压缩效率方面与先期的ITU-T视频压缩标准相比,具有明显的优越性。2001年,ISO的MPEG组织认识到H.26L潜在的优势,随后ISO与ITU开始组建包括来自ISO/IEC MPEG与ITU-T VCEG的联合视频组(JVT),JVT的主要任务就是将H.26L草案发展为一个国际性标准。于是,在ISO/IEC中该标准命名为AVC(Advanced Video Coding),作为MPEG-4标准的第10个选项;在ITU-T中正式命名为H.264标准。H.264的主要优点如下:
在相同的重建图像质量下,H.264比H.263+和MPEG-4(SP)减小50%码率。
对信道时延的适应性较强,既可工作于低时延模式以满足实时业务,如会议电视等;又可工作于无时延限制的场合,如视频存储等。
提高网络适应性,采用“网络友好”的结构和语法,加强对误码和丢包的处理,提高解码器的差错恢复能力。
在编/解码器中采用复杂度可分级设计,在图像质量和编码处理之间可分级,以适应不同复杂度的应用。
相对于先期的视频压缩标准,H.264引入了很多先进的技术,包括4×4整数变换、空域内的帧内预测、1/4象素精度的运动估计、多参考帧与多种大小块的帧间预测技术等。新技术带来了较高的压缩比,同时大大提高了算法的复杂度。
4×4整数变换
以前的标准,如H.263或MPEG-4,都是采用8x8的DCT变换。H.26L中建议的整数变换实际上接近于4×4的DCT变换,整数的引入降低了算法的复杂度,也避免了反变换的失配问题,4×4的块可以减小块效应。而H.264的4×4整数变换进一步降低了算法的复杂度,相比H.26L中建议的整数变换,对于9b输入残差数据,由以前的32b降为现在的16b运算,而且整个变换无乘法,只需加法和一些移位运算。新的变换对编码的性能几乎没有影响,而且实际编码略好一些。
基于空域的帧内预测技术
视频编码是通过去除图像的空间与时间相关性来达到压缩的目的。空间相关性通过有效的变换来去除,如DCT变换、H.264的整数变换;时间相关性则通过帧间预测来去除。这里所说的变换去除空间相关性,仅仅局限在所变换的块内,如8×8或者4×4,并没有块与块之间的处理。H.263+与MPEG-4引入了帧内预测技术,在变换域中根据相临块对当前块的某些系数做预测。H.264则是在空域中,利用当前块的相临象素直接对每个系数做预测,更有效地去除相临块之间的相关性,极大地提高了帧内编码的效率。
H.264基本部分的帧内预测包括9种4×4亮度块的预测、4种16×16亮度块的预测和4种色度块的预测。
运动估计
H.264的运动估计具有3个新的特点:1/4象素精度的运动估计;7种大小不同的块进行匹配;前向与后向多参考帧。
H.264在帧间编码中,一个宏块(16×16)可以被分为16×8、8×16、8×8的块,而8×8的块被称为子宏块,又可以分为8×4、4×8、4×4的块。总体而言,共有7种大小不同的块做运动估计,以找出最匹配的类型。与以往标准的P帧、B帧不同,H.264采用了前向与后向多个参考帧的预测。半象素精度的运动估计比整象素运动估计有效地提高了压缩比,而1/4象素精度的运动估计可带来更好的压缩效果。
编码器中运用多种大小不同的块进行运动估计,可节省15%以上的比特率(相对于16×16的块)。运用1/4象素精度的运动估计,可以节省20%的码率(相对于整象素预测)。多参考帧预测方面,假设为5个参考帧预测,相对于一个参考帧,可降低5%~10%的码率。以上百分比都是统计数据,不同视频因其细节特征与运动情况而有所差异。
熵编码
H.264标准采用的熵编码有两种:一种是基于内容的自适应变长编码(CAVLC)与统一的变长编码(UVLC)结合;另一种是基于内容的自适应二进制算术编码(CABAC)。CAVLC与CABAC根据相临块的情况进行当前块的编码,以达到更好的编码效率。CABAC比CAVLC压缩效率高,但要复杂一些。
去块效应滤波器
H.264标准引入了去块效应滤波器,对块的边界进行滤波,滤波强度与块的编码模式、运动矢量及块的系数有关。去块效应滤波器在提高压缩效率的同时,改善了图像的主观效果。
一、运动图像的压缩
数字影像的出现,得益于两项技术的发展:光碟存储技术和影像数字压缩技术。比如,NTSC制式的电视图像以大约640×480的分辨率、24bits/像素、每秒30帧的质量传输时,其数据传输率达28Mbit/s,20秒的未压缩视频图像将占用560Mbit的存储空间,相当于一张CD-ROM光盘只能储存20秒钟的未压缩电视节目。显然这样的要求对普通个人用户来讲是难以接受的,在实现上成本也是非常高昂。所以,视频图像的压缩编码方法 MPEG 就应运而生了。
MPEG(即Moving Picture Experts Group运动图像专家小组)是个国际标准,即所谓ISO11172。MPEG的缔造者们原先打算开发四个版本:MPEG-1到MPEG-4,以适用于不同带宽和数字影像质量的要求,后来由于MPEG-3被放弃。总的来说,MPEG优于其他影像压缩缩方案的地方是:具有很好的兼容性、压缩比最高可达200:1、数据的损失小。
二、MPEG-1
技术特点:MPEG-1制定于1992年,可适用于不同带宽的设备,如CD-ROM、Video-CD、CD-i。它的目的是把221Mbit/s的NTSC图像压缩到1.2Mbit/s,压缩率为200∶1。这是图像压缩的工业认可标准。它可针对SIF标准分辨率(对于NTSC制为352×240;对于PAL制为(352×288)的图像进行压缩,传输速率为1.5Mbits/s,每秒播放30帧,具有CD音质,质量级别基本与VHS(广播级录像带)相当。MPEG的编码速率最高可达4-5Mbits/s,但随着速率的提高,其解码后的图像质量有所降低。
应用范围:应用 MPEG-1 技术最成功的产品非 VCD 莫属了,VCD作为价格低廉的影像播放设备,得到广泛的应用和普及。MPEG-1也被用于数字电话网络上的视频传输,如非对称数字用户线路(ADSL),视频点播(VOD),以及教育网络等。
三、MPEG-2
技术特点:MPEG-2制定于1994年,设计目标是高级工业标准的图像质量以及更高的传输率。MPEG-2所能提供的传输率在3MB-10MB/s间,在NTSC制式下的分辨率可达720×486,MPEG-2能够提供广播级的视像和CD级的音质。MPEG-2的音频编码可提供左右中及两个环绕声道,以及一个加重低音声道和多达七个伴音声道。MPEG-2的另一特点是,可提供一个较广范围的可变压缩比,以适应不同的画面质量、存储容量以及带宽的要求。
应用范围:MPEG-2技术就是实现DVD的标准技术,现在DVD播放器也开始在家庭中普及起来了。除了作为DVD的指定标准外,MPEG-2还可用于为广播、有线电视网、电缆网络以及卫星直播提供广播级的数字视频。
四、MPEG-3
由于MPEG-2的出色性能表现,已能适用于HDTV(高清晰度电视),使得原打算为HDTV设计的MPEG-3,还没出世就被抛弃了。
五、MPEG-4
曾制定出MPEG-1和MPEG-2视音频压缩标准的运动图像专家组(MPEG)目前正在发展最新的MPEG-4标准,其目标是提供未来的交互式多媒体应用。MPEG-4将制定出与以往不同的、具有高度灵活性和可扩展性的未来新一代国际标准。在音频标准的制定方面,比较以前的音频编码标准,MPEG-4增加了许多新的关于合成内容及场景描述等领域的工作,增加了诸如可分级性、音调变化、可编辑性及延迟等新功能。MPEG-4将以前发展良好但相互分离的高质量音频编码、计算机音乐及合成语音等第一次合成并在一起,在诸多领域内给予高度的灵活性。
MPEG-4中关于音频信号将包括:传统的音频编码标准,即所谓“自然音频”(natural audio)和新颖的“结构音频”(structured audio)以及自然和合成混合在一起的“合成/自然混合编码”(Synthetic/natural hybrid coding)简称SNHC。其中SNHC是MPEG-4中关于音视频的一个很重要的概念。
1、传统的自然音频编码
一个基本的概念就是MPEG-4的编码工具不再仅限于支持码率的减少,其各种不同的工具支持从智能语音到高质量多声道音频信号,以及此范围内的音频信号的质量。MPEG-4编码工具支持的其他功能还有:
.速度的变化,允许不改变音调实现时间尺度变化;
.音调的变化,允许不改变时间尺度实现音调改变;
.码率的可分级性,对比特流的分解可在传输或解码器中进行;
.带宽的可分级性,代表部分频谱的比特流的一段可在传输或解码过程中被抛弃;
.编码器复杂度的可分级性;
.强纠错性等。
MPEG-4标准的自然音频编码将码率范围规定为每声道2kbit/s~64 kbit/s。在如此宽的范围内定义了三种类型的编码器或叫编码工具。在最低的码率范围2~6 kbit/s之间使用的是参数编码(parametric coding),最适合于采样率为8kHz的语言信号;在6~24 kbit/s的码率范围内使用的是编码激励的线型预测编码(code excited linear predictive coding)简称CELP,支持采样率为8kHz和16 kHz的语言和音频信号;在最高的16~64 kbit/s的码率范围内使用的是时间/频率编码(time/frequencycoding)技术,比如MPEG-2AAC标准,支持采样率为8~96 kHz的任意音频信号。
1.1参数编码
参数编码提供了两种编码工具:HVXC和HILN。
谐音矢量激励编码HVXC(Harmonic Vector eXcitation Coding)编码工具允许对语言信号在2kbit/s和4kbit/s之间进行可分级性编码。HVXC的解码过程分四步进行:参数的反量化;对声音帧用正弦合成产生激励信号和加上噪声分量;对非声音帧通过查找码书产生激励信号;LPC(线型预测编码)合成。对合成语言质量的增强可以使用频谱后置滤波。
HVXC提供了在延迟模式上的可分级性。其编码器和解码器可以独立地选择低或正常的延迟模式。
谐音和独立线性加性噪声HILN(Harmonic and Individual Line plus Noise)编码工具允许对非语言信号,例如音乐以4kbit/s和更高的码率进行编码。HILN支持在速度、音调、码率和复杂度上的可分级性。其独立线性基础解码器从比特流中重建线性参数频率、幅度和包络。增强解码器使用更好的量化对上述参数进行重建,并且对线性参数相位也进行了重建。信号解码的速度可以仅通过改变帧长来实现,音调的改变通过在合成之前利用一个比例因子复合每一个频率参数来实现,而且无须改变帧长,也不会引起相位失真。增强解码器由于对相位进行重建而带来了诸多优点,使解码器输出的信号近似于编码器输入的波形。
可以将HVXC和HILN联合起来使用以获得更宽范围内的信号和码率。可以在两者编码器的输出之间动态地切换或混合。
1.2CELP编码
CELP的解码器包括一个激励源、一个合成滤波器和一个需要时添加的后置滤波器。
激励源拥有两种分量,一是由自适应码书产生的周期分量,另一个是由一个或多个固定码书产生的随机分量。在解码器中,使用码书索引和增益索引来重建激励信号。激励信号接着通过线性预测合成滤波器,最后,为了获得增强的语言质量,可以使用后置滤波器。CELP支持两种采样率:8kHz和16kHz。
当采样率为8kHz时,码率的可分级性是通过不断加上所谓“增强层”(enhancement layer)来实现的。在基础码率上以2kbit/s的步长增加,可加的增强层的最大数目是三,意味着可在基础码率上加上2,4,6 kbit/s。当采样率为16kHz时,可以通过只使用比特流的一部分来解码语言信号,这就提供了在复杂度上的可分级性。还有一些其他支持复杂度可分级的方法,例如简化LPC、后置滤波器的使用与否等等。复杂度的可分级性依赖于实际的应用而与比特流的语法无关。而当解码器用软件实现时,复杂度甚至可以实时地予以改变,以利于在有限容量计算机接口或多任务环境下运行。
带宽的可分级性在采样率为8kHz和16kHz时均可实现,是通过在CELP编码上加一个带宽扩展工具来实现的。
1.3时间/频率编码
当码率为每声道64kbit/s时就是MPEG-2AAC编码标准,此时可以获得极好的音频质量。MPEG-2AAC是MPEG-4时间/频率编码的核心。其滤波器的输出含有1024条或1280条频率线,通过块切换来获得不同的时间和频率分辨率。用时域噪声整形(TNS)来控制时域量化噪声的形状。通过在每一个频谱系数上使用后向自适应预测器来有效提高滤波器组的分辨率。频谱系数被划分为近似临界频带结构的所谓比例因子频带,每个比例因子频带共享一个比例因子使用一个非均匀量化器。编码器的心理声学模型控制量化的步阶将量化噪声置于信号阀值之下予以掩蔽。
数字视频技术广泛应用于通信、计算机、广播电视等领域,带来了会议电视、可视电话及数字电视、媒体存储等一系列应用,促使了许多视频编码标准的产生。ITU-T与ISO/IEC是制定视频编码标准的两大组织,ITU-T的标准包括H.261、H.263、H.264,主要应用于实时视频通信领域,如会议电视;MPEG系列标准是由ISO/IEC制定的,主要应用于视频存储(DVD)、广播电视、因特网或无线网上的流媒体等。两个组织也共同制定了一些标准,H.262标准等同于MPEG-2的视频编码标准,而最新的H.264标准则被纳入MPEG-4的第10部分。
本文按照ITU-T视频编码标准的发展过程,介绍H.261、H.263及H.264。
H.261视频编码标准
H.261是ITU-T为在综合业务数字网(ISDN)上开展双向声像业务(可视电话、视频会议)而制定的,速率为64kb/s的整数倍。H.261只对CIF和QCIF两种图像格式进行处理,每帧图像分成图像层、宏块组(GOB)层、宏块(MB)层、块(Block)层来处理。
H.261是最早的运动图像压缩标准,它详细制定了视频编码的各个部分,包括运动补偿的帧间预测、DCT变换、量化、熵编码,以及与固定速率的信道相适配的速率控制等部分。
H.263视频编码标准
H.263是最早用于低码率视频编码的ITU-T标准,随后出现的第二版(H.263+)及H.263++增加了许多选项,使其具有更广泛的适用性。
H.263视频压缩标准
H.263是ITU-T为低于64kb/s的窄带通信信道制定的视频编码标准。它是在H.261基础上发展起来的,其标准输入图像格式可以是S-QCIF、QCIF、CIF、4CIF或者16CIF的彩色4∶2∶0亚取样图像。H.263与H.261相比采用了半象素的运动补偿,并增加了4种有效的压缩编码模式。
无限制的运动矢量模式允许运动矢量指向图像以外的区域。当某一运动矢量所指的参考宏块位于编码图像之外时,就用其边缘的图像象素值来代替。当存在跨边界的运动时,这种模式能取得很大的编码增益,特别是对小图像而言。另外,这种模式包括了运动矢量范围的扩展,允许使用更大的运动矢量,这对摄像机运动特别有利。
基于句法的算术编码模式使用算术编码代替霍夫曼编码,可在信噪比和重建图像质量相同的情况下降低码率。
先进的预测模式允许一个宏块中4个8×8亮度块各对应一个运动矢量,从而提高了预测精度;两个色度块的运动矢量则取这4个亮度块运动矢量的平均值。补偿时,使用重叠的块运动补偿,8×8亮度块的每个象素的补偿值由3个预测值加权平均得到。使用该模式可以产生显著的编码增益,特别是采用重叠的块运动补偿,会减少块效应,提高主观质量。
PB-帧模式规定一个PB-帧包含作为一个单元进行编码的两帧图像。PB-帧模式可在码率增加不多的情况下,使帧率加倍。
H.263视频压缩标准版本2
ITU-T在H.263发布后又修订发布了H.263标准的版本2,非正式地命名为H.263+标准。它在保证原H.263标准核心句法和语义不变的基础上,增加了若干选项以提高压缩效率或改善某方面的功能。原H.263标准限制了其应用的图像输入格式,仅允许5种视频源格式。H.263+标准允许更大范围的图像输入格式,自定义图像的尺寸,从而拓宽了标准使用的范围,使之可以处理基于视窗的计算机图像、更高帧频的图像序列及宽屏图像。
为提高压缩效率,H.263+采用先进的帧内编码模式;增强的PB-帧模式改进了H.263的不足,增强了帧间预测的效果;去块效应滤波器不仅提高了压缩效率,而且提供重建图像的主观质量。
为适应网络传输,H.263+增加了时间分级、信噪比和空间分级,对在噪声信道和存在大量包丢失的网络中传送视频信号很有意义;另外,片结构模式、参考帧选择模式增强了视频传输的抗误码能力。
H.263++视频压缩标准
H263++在H263+基础上增加了3个选项,主要是为了增强码流在恶劣信道上的抗误码性能,同时为了提高增强编码效率。这3个选项为:
选项U——称为增强型参考帧选择,它能够提供增强的编码效率和信道错误再生能力(特别是在包丢失的情形下),需要设计多缓冲区用于存贮多参考帧图像。
选项V——称为数据分片,它能够提供增强型的抗误码能力(特别是在传输过程中本地数据被破坏的情况下),通过分离视频码流中DCT的系数头和运动矢量数据,采用可逆编码方式保护运动矢量。
选项W——在H263+的码流中增加补充信息,保证增强型的反向兼容性,附加信息包括:指示采用的定点IDCT、图像信息和信息类型、任意的二进制数据、文本、重复的图像头、交替的场指示、稀疏的参考帧识别。 H.264视频编码标准
H.264是由ISO/IEC与ITU-T组成的联合视频组(JVT)制定的新一代视频压缩编码标准。事实上,H.264标准的开展可以追溯到8年前。1996年制定H.263标准后,ITU-T的视频编码专家组(VCEG)开始了两个方面的研究:一个是短期研究计划,在H.263基础上增加选项(之后产生了H.263+与H.263++);另一个是长期研究计划,制定一种新标准以支持低码率的视频通信。长期研究计划产生了H.26L标准草案,在压缩效率方面与先期的ITU-T视频压缩标准相比,具有明显的优越性。2001年,ISO的MPEG组织认识到H.26L潜在的优势,随后ISO与ITU开始组建包括来自ISO/IEC MPEG与ITU-T VCEG的联合视频组(JVT),JVT的主要任务就是将H.26L草案发展为一个国际性标准。于是,在ISO/IEC中该标准命名为AVC(Advanced Video Coding),作为MPEG-4标准的第10个选项;在ITU-T中正式命名为H.264标准。H.264的主要优点如下:
在相同的重建图像质量下,H.264比H.263+和MPEG-4(SP)减小50%码率。
对信道时延的适应性较强,既可工作于低时延模式以满足实时业务,如会议电视等;又可工作于无时延限制的场合,如视频存储等。
提高网络适应性,采用“网络友好”的结构和语法,加强对误码和丢包的处理,提高解码器的差错恢复能力。
在编/解码器中采用复杂度可分级设计,在图像质量和编码处理之间可分级,以适应不同复杂度的应用。
相对于先期的视频压缩标准,H.264引入了很多先进的技术,包括4×4整数变换、空域内的帧内预测、1/4象素精度的运动估计、多参考帧与多种大小块的帧间预测技术等。新技术带来了较高的压缩比,同时大大提高了算法的复杂度。
4×4整数变换
以前的标准,如H.263或MPEG-4,都是采用8x8的DCT变换。H.26L中建议的整数变换实际上接近于4×4的DCT变换,整数的引入降低了算法的复杂度,也避免了反变换的失配问题,4×4的块可以减小块效应。而H.264的4×4整数变换进一步降低了算法的复杂度,相比H.26L中建议的整数变换,对于9b输入残差数据,由以前的32b降为现在的16b运算,而且整个变换无乘法,只需加法和一些移位运算。新的变换对编码的性能几乎没有影响,而且实际编码略好一些。
基于空域的帧内预测技术
视频编码是通过去除图像的空间与时间相关性来达到压缩的目的。空间相关性通过有效的变换来去除,如DCT变换、H.264的整数变换;时间相关性则通过帧间预测来去除。这里所说的变换去除空间相关性,仅仅局限在所变换的块内,如8×8或者4×4,并没有块与块之间的处理。H.263+与MPEG-4引入了帧内预测技术,在变换域中根据相临块对当前块的某些系数做预测。H.264则是在空域中,利用当前块的相临象素直接对每个系数做预测,更有效地去除相临块之间的相关性,极大地提高了帧内编码的效率。
H.264基本部分的帧内预测包括9种4×4亮度块的预测、4种16×16亮度块的预测和4种色度块的预测。
运动估计
H.264的运动估计具有3个新的特点:1/4象素精度的运动估计;7种大小不同的块进行匹配;前向与后向多参考帧。
H.264在帧间编码中,一个宏块(16×16)可以被分为16×8、8×16、8×8的块,而8×8的块被称为子宏块,又可以分为8×4、4×8、4×4的块。总体而言,共有7种大小不同的块做运动估计,以找出最匹配的类型。与以往标准的P帧、B帧不同,H.264采用了前向与后向多个参考帧的预测。半象素精度的运动估计比整象素运动估计有效地提高了压缩比,而1/4象素精度的运动估计可带来更好的压缩效果。
编码器中运用多种大小不同的块进行运动估计,可节省15%以上的比特率(相对于16×16的块)。运用1/4象素精度的运动估计,可以节省20%的码率(相对于整象素预测)。多参考帧预测方面,假设为5个参考帧预测,相对于一个参考帧,可降低5%~10%的码率。以上百分比都是统计数据,不同视频因其细节特征与运动情况而有所差异。
熵编码
H.264标准采用的熵编码有两种:一种是基于内容的自适应变长编码(CAVLC)与统一的变长编码(UVLC)结合;另一种是基于内容的自适应二进制算术编码(CABAC)。CAVLC与CABAC根据相临块的情况进行当前块的编码,以达到更好的编码效率。CABAC比CAVLC压缩效率高,但要复杂一些。
去块效应滤波器
H.264标准引入了去块效应滤波器,对块的边界进行滤波,滤波强度与块的编码模式、运动矢量及块的系数有关。去块效应滤波器在提高压缩效率的同时,改善了图像的主观效果。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询