第9章 高质量视频编码

    9.1 H.264+与H.265

    9.1.1 视频编码的需求

    (1)新技术是由市场新需求推动的,视频编码技术也是在视频应用的进一步需求下得到发展的。

    (2)“H.264的墨水似乎已十分干了?”、“TV屏幕上,世界仍是无浓淡和色彩的,只是屏幕更大?”,事实并非如此,H.264其实潜力仍很大。

    (3)“高质量视频”的应用是今天和未来最重要的趋势。

    1.个人视频应用

    个人视频广泛应用于PC、移动电话、数字摄像机、携带式播放器中。采用4∶4∶4视频信号,彩色逼真度与目前的4∶2∶0相比将有明显改善。日本富士通公司与ITU-T SG16建议,把4∶4∶4视频信源作为下一代视频编码中基本的信源格式,这就需进一步视频压缩。

    2.广播/通信

    广播领域视频应用趋势是由SD向HD转移。日本已确定在2011年停止模拟业务,正在讨论超高清形式视频(SHV)的广播。清晰度高达8k(7680×4320@60),日本一些主要工厂已宣布4k(3840×2160@60)的开发计划。这对IPTV业务是重要的。采用4∶4∶4广播业务,需进一步压缩。

    3.数字存储

    DVD、带有软件播放的PC、高质量HD重放、IPTV中节目存储、数字影院等都要支持更高质量的数字视频存储。采用4∶4∶4/12bpp彩色表示。

    4.其他应用

    4∶4∶4的医学应用,要求真实的彩色和高密度图像,在某些视频应用中的3D重放需要4∶4∶4信源和彩色校正。

    9.1.2 视频编码标准及其应用简史

    视频编码标准的发展简史如图9.1所示。可见,未来几年内,由于视频内容要求更高的彩色逼真度和更高的清晰度,因而对视频编码提出了更高的要求。

    alt

    图9.1 视频编码标准及其应用的历史

    9.1.3 H.264+和H.265最近研究方向

    (1)由于高质量视频需求日益迫切,为满足下一代视频业务发展的需求,进一步提高视频编码压缩比,提高视频压缩对网络适应能力和网络安全性的要求也日益迫切,于是出现H.264+和H.265的呼声日益提高。

    (2)至今H.265尚未获ITU-T正式批准,但已做了不少准备,明确了其主要特征,提出了KTA(Key Technical Area)编码工具,但仍是基于方块的混合编码,有了不少改进,但并无突破性进展,暂可称之为H.264+。

    9.1.4 H.265主要特征与KTA

    1.H.265制定者:

    ITU-T SG16 VCEG(Video Coding Experts Group)。

    2.H.265主要特征

    (1)压缩比高。至少是目前H.264的2倍。

    (2)简单性好(复杂度低)。目前的H.264复杂度高,不易芯片实现。

    (3)健壮性好。高压缩后的视频信息在IP网中容易误码,必须提高抗误码能力的健壮性。

    (4)对IP网络的友好性好。未来业务的多样性(客户机/服务器的点到点业务,多点到单点、多点对多点分布式业务,对等—对等即peer to peer业务)要求IP网络要有很好的适应。还要考虑对不同业务(视频、音频、数据),IP网都具有良好的友好性,不能在全部流量中只考虑视频。

    3.KTA

    KTA软件平台是基于H.264的JM11,用来评估新的编码工具。目前已经过KTA检测的新编码工具如下:

    (1)2D非可分离自适应内插滤波器;

    (2)可分离自适应滤波器;

    (3)方向性自适应滤波器;

    (4)1/8像素精度的运动补偿;

    (5)空间域和频域中自适应预测误差编码;

    (6)自适应量化矩阵的选择;

    (7)基于竞争的运动矢量选择和编码。

    4.新编码工具的说明

    (1)自适应插值滤波器

    通过环路中插值滤波器,可使每个非整像素位置的插值都有一组2维滤波器系数,这些系数被放在片头传输给解码器。这些插值滤波器通过R-D代价的最优化,使其预测误差能量最小,从而使运动矢量的精度得到进一步提高。

    alt

    图9.2 基于方块的最佳预测方案

    应用了这种插值滤波器,对基线档次,可使编码增益提高1dB;对主要档次和高级档次也可分别获0.8dB的编码增益。

    (2)空间域和频域自适应预测误差编码

    对每个宏块的预测误差编码通常采用频域(变换域)编码,但也可采用空域编码。后者使用标量量化及CABAC熵编码。经R-D代价优化,取空域和频域编码中R-D代价的最低者。

    实验表明,和传统的H.264相比,对CIF、QCIF和标清图像,PSNR可提高0.4dB,对高清图像可提高0.02dB。结合1/8像素精度,则对QCIF、CIF和标清,可将PSNR提高1dB,对高清则提高0.05dB。

    (3)自适应量化矩阵选择

    利用R-D优化方法,对不同宏块可选择不同的量化矩阵,从而提高了编码效率。利用KTA软件试验表明,码率比H.264降低7.3%。

    (4)基于竞争的运动矢量选择

    在H.264中,运动矢量由相邻块空域中的值预测。本方案把它扩展到时间域和时空混合域,然后选出其R-D优化代价最小者。与H.264相比,对基线档次可获6.1%的编码增益。

    综上所述,这些新编码工具都是基于宏块的,都通过多次编码过程实现提高编码增益的,他们都基于H.264,而且编码增益都有所提高。但并无突破性进展,他们只可能是H.264+的一部分。

    9.1.5 H.265的几个方向性课题

    1.小波算法

    小波算法包括小波压缩编码、小波子带熵速率控制、小波子带熵量化与反量化、位面降维等。

    2.基于模型的混合编码

    对人的头肩像素采用3D模型表示,只对其参数编码,仅需1kB/S;对其他场景用常规的预测和变换结合的编码。对参考帧按一定准则进行这两种方式选择,在相同PSNR下,可提高编码效率4.5%。

    3.分布式视频编码

    编码器是分布式的(如无线传感器网络),要求简单,处理能力有限,电源容量有限。解码器则是集中的,可以复杂些,有些功能可由解码器完成。这时各编码器可发出一些边信息,到了解码器用这些边信息进行解码,把运动预测和补偿功能由编码器移到解码器。

    4.多描述视频编码

    同一视频内容可由编码器发出多种不同描述方法的子码流(相互独立的),经多条不同路由、不同带宽的路径到达解码器。每个用户根据其不同的解码能力选择其中某个子码流,或同时收到后选其中最优质量的一种。可见其灵活性比分层编码(一个基本层和若干个增强层相互依赖的编码方式)好。

    5.HVS(人的视频系统)的利用

    可利用HVS,进行视频的进一步压缩。如人对纹理细节的辨别力不很敏感,可降低其数码率;对DCT变换各分量可采用不同量化器进行量化,高频分量采用粗量化(量化节距大),低频分量采用细量化;人的视觉对图像的边缘很敏感,可采用高质量、高码率的编码,对图像的其余部分(即原图像减去边缘信息后剩下的部分)则可采用高压缩比的编码。这种利用视觉的分割法不会导致严重降质,但压缩比可有重大提高。目前利用HVS的压缩编码尚有不少潜力。

    6.利用视频信号新的数学表示

    实际视频信号是一种非线性的无穷级数,可取有限的M项近似;小波变换的非可分离表示(以前是2D信号的行变换与列变换的线性变换)的快速变换算法;分形压缩编码(图像各个自然区域往往是不规则的,但具有自相似性,即体现一种分形特性);利用泛函分析理论对视频信号进行逼近的表示等。

    9.2 H.264的高保真范围扩展FRExt

    9.2.1 引言

    2003年5月,JVT完成了H.264基本部分的标准制定工作,它包括了基本档次(Baseline Profile)、扩展档次(Extended Profile)和主要档次(Main Profile)3个档次,它们分别含有不同的编码工具,见表9.1。

    表9.1    H.264基本部分的档次

    alt

    由于基本部分使用较小尺寸的转换,也无法调整量化矩阵,漏掉不少视频的高频细节,为了满足高清晰视频编码的需求,JVT对它进行了扩展。2004年7月完成了高清扩展部分的标准(FRExt、Fidelity Range Extension),包括了High Profile(HP)、High10(Hi10P)、High 4∶2∶2 Profile(Hi422P)及High 4∶4∶4 Profile(Hi444P)。这样一来,H.264共包含了7个不同档次,后面扩展的4个档次都以主要档次为基础,其所包含的不同编码工具如表9.2所示。

    表9.2    H.264的高保真范围扩展档次

    alt

    9.2.2 自适应分块

    在H.264/AVC的基本部分中,每帧图像都被分成许多片,每片又由宏块组成,每个宏块就是由16×16的亮度样本点和其相应的色度样本点组成。但在FRExt中,每个宏块又分成运动补偿预测用的亚宏块,这种块的预测可划分为7种:16×16、16×8、8×16、8×8、8×4、4×8、4×4。

    一个视频预测序列的层次分成:序列→图像→片→宏块→亚宏块→块→样本点。

    在H.264基本部分中,只有4∶2∶0色度格式,FRExt扩展部分则将它扩展到4∶2∶2和4∶4∶4色度格式和高于8bit的取样深度。

    在编码和解码过程中,基本单元是宏块,在4∶2∶0的色度格式中,每个宏块包含一个16×16亮度样本区和两个相应的8×8色度样本阵列。在4∶2∶2的色度格式的宏块中,色度样本阵列为8×16;在4∶4∶4色度格式中,宏块尺寸为16×16。

    总之,自适应块尺寸的划分,是根据图像区的细节多少而确定的。细节少而平稳的区,可取大些的宏块尺寸;反之,则取小些的宏块尺寸。从而可使用不同尺寸的空间域变换,达到降低码率的目的。

    9.2.3 空间域的残差变换

    对于高清视频,其图像细节多,含有大量高频分量,原来的H.264采用4×4整数变换比较简单,但会过滤掉这些高频信息;而且由于块尺寸小,易有方块效应。因此在FRExt中增加8×8整数变换,每个16×16宏块可划分为4×4或8×8尺寸的块,分别使用T4×4和T8×8进行变换:

    alt

    alt

    8×8整数变换,显然比4×4整数变换复杂些,但并不太多(加法都是64次,乘法由16次增为20次),但比DC要简单得多。我们已知:当使用16×16帧内模式预测整个宏块并使用4×4整数变换时,亮度块的16个4×4块的DC系数,使用哈达玛变换H4×4矩阵进一步变换;宏块中的有色度4×4块的DC系数也使用哈达玛变换进一步变换。对4∶2∶0格式,使用一个2×2的哈达玛变换;对4∶4∶4格式,使用H4×4进一步变换;对4∶2∶2格式,使用H2×2和H4×4实现色度DC系数的2×4变换。

    alt

    9.2.4 帧内预测方法

    在H.264基本部分中,有16×16和4×4两种预测模式,前者有4个预测方向,后者有9个预测方向。在FRExt中则增加了一种8×8预测模式,并有与4×4类似的9个预测方向。8×8预测时增加了对参考样本点先进行低通预滤波的处理,以改善预测效果。

    9.2.5 基于视觉的量化缩放矩阵

    在FRExt中增加了一种类似于在MPEG-2中的量化方法。编码器可分别为每个变换模块尺寸在解码器的反量化时制定一个特定的缩放因子,由编码器发出相应指定的值。这样可以根据人类视觉系统调整量化,以提高主观的视觉质量。

    9.2.6 色度空间的残差色度变换

    彩色电视中,视频图像一般使用RGB的三基色捕捉和显示的,但这些分量的相关性很高,为此,人们把RGB变换成YUV的色度空间,于是对亮度分量Y和色度分量进行编码。

    alt

    在FRExt中,编码和解码过程中采用一种新的色度空间YCgCo(Cg代表绿色,Co代表橙色),它可比YCgCr更简单,从而提高了编码效率。

    此外,考虑到在整数变换时存在的舍入误差,于是:

    残差色度变换时alt

    其中,t=B+(Co>>1),t是一个中间变量,“>>”表示算术右移。

    残差色度反变换时alt

    这样一来,采用了这种色度空间,就可消除变换过程中的转换误差,达到高保真的显示效果。实验表明,利用DSP 6402芯片,能对移位算法进行快速计算,简化了计算复杂度。同时图形的色彩更加鲜艳清晰,相比于YUV,则压缩编码增益可提高0.7dB。

    9.2.7 无失真宏块模式

    在H.264基本部分中,可对某些要求不失真的宏块(例如人脸部分),进行无损压缩编码。这时直接对图像的样本值进行编码,而不需进行预测变换和量化。在FRExt中,则采用更有效的无损编码,它不进行变换,但对样本值采用预测和熵编码方法。在FRExt中,只用在H444p中,量化系数可选取最小值。

    9.2.8 FRExt的测试结果

    蓝光光盘联盟对FRExt的性能进行了测试[2][3]。对一个1920×1080的视频序列(帧频为24Hz)实验后,得到以下实验结果,如图9.3所示。

    alt

    图9.3 H.264 FRExt扩展的性能对比测试

    (1)FRExt在8Mbit/s时的图像质量比MPEG-2在24Mbit/s时的要高一些。

    (2)FRExt在16Mbit/s时的图像质量与原始图像(无压缩时)基本相同。

    其中,保真效果按主观评价五组评分方法进行。即5分为非常好,4分为好,3分为一般,2分为差,1分则为非常差。

    由于H.264 FRExt(HP)具有更好的编码性能,因此在JVT完成了FRExt标准制定后,原来采用H.264(MP)的应用,如高清电视、HD-DVD等都倾向于采用FRExt(HP)。卫星、光纤和地面广播电视都规定了HP为解码器的强制标准之一。可以预见,H.264(HP)标准将会在高清视频中获得更广泛的应用。

    9.3 本章结论

    (1)由于高清电视的发展迅速,不论是个人视频通信应用,还是高清(HD)电视,特别是4∶4∶4/12bpp彩色电视的应用,都迫切需要研究高质量视频编码技术。

    (2)JVT已经把H.264基本扩展为FERxt,在MP基础上做了不少改进。

    (3)H.264+已提供了更高的视频压缩率,H.265尚不熟,但正在酝酿中。

    参考文献

    [1]T. Wiegand, G. J. Sullivan, G. Bjøntegaard, A. Luthra.Overview of the H.264/AVC Video Coding Standard IEEE Trans. Circuits Syst. Video Technol., vol. 13, pp. 560–576, July 2003.

    [2]Fidelity Range Extensions.SPIE Conference on Applications of Digital Image Processing XXVII.Special Session on Advances in the New Emerging Standard: H.264/AVC, August 2004.

    [3]Joint Video Team of ITU-U and ISO/ISE. Draft Text of H.264/AVC Fidelity Range Extensions Amendment, JVT-L047 [S],ISO/IEC JTC1/SC29/WG11 and ITU-T SG16 Q.6, 2004.09.

    [4]D Manpe, T Wiegand,S Gordon. H.264/MPEG-4 AVC Fidelity range extensions: tools, profiles, performance and application area[J] Proc IEEE Int. conf on Image Proc,2005.09:593-596.

    [5]王德宝,梁立伟,齐美彬.H.264/AVC 高保真扩展的概述.电视技术,2005.5:30-32.

    [6]Wedi T, Kashiwagi Y. Subjective quality evaluation of H.264/AVC FRExt for HD content. Joint Video Team document JVT-L003,July 2004.