第1章 绪论

    1.1 信息化与视频通信

    本书在讨论视频编码之前,先简要介绍一些与信息化有关的问题,研讨当前信息社会背景,然后讨论信息化与视频通信的关系。

    1.1.1 什么是信息

    众所周知,人类社会的三大支柱是物质、能量和信息。具体而言,农业现代化的支柱是物质,工业现代化的支柱是能量,而信息化的支柱是信息。

    广义地讲,信息就是客观世界的描述和分析,它无所不在、无时不在,具有广泛性和通用性,这是信息的一个特性。信息没有重量,没有长度,具有抽象性,但它确实存在,这是信息的另一个特性。

    信息的第三个特性是无限性。例如,关于物质的信息,物质具有无限的不可分性,物质由分子组成,分子由原子组成,下面还有中子、质子、电子、中微子等;关于通信网络的信息,为了增加通信容量,最初一对电话线只能通一路电话,后来利用N-ISDN技术,可在一对电话线上同时通两路电话,以后又发展B-ISDN、ATM、IP、MPLS,直到今天,通信网络技术仍在不断地发展,应该说,它具有无限性。

    总之,信息具有通用性、抽象性、无限性三个特征,其中,无限性最重要。

    从以上描述可知,信息是很有用的,它是客观世界中最本质的客观规律描述和分析,是人类社会可用的重要资源。信息资源如果能被充分开发和利用,人类社会的物质和精神文明水准将大大提高。

    地球上的物质资源是有限的。石油、煤等在一定期限内总会开采完,但信息资源是无限的,对客观规律性的探讨是无尽的。而信息是要通过不断研究、不断分析,通过科学研究、反复实践才能掌握的。

    1.1.2 什么是信息化

    信息化是这样一个过程:“在现代信息技术广为普及的基础上,通过开发和利用信息资源,各种社会和经济活动的功能和效益得以显著提高。人类社会的物质和精神文明达到了一个新的水平。”

    可见,信息化的目的是提高人类的社会效益和经济效益,而实现信息化的关键在于开发和利用各种信息资源。

    信息化的实现依赖于图1.1所示的信息系统来构建。

    alt

    图1.1 信息系统

    信息化的实现首先要开发和利用各种信息资源,其次要有一个信息网络(如宽带通信网),通过该网络将大量信息传送到信息用户。

    1.1.3 我国的信息化和视频通信

    就规模而言,我国已成为世界第一的通信大国。截止到2007年年底,固定电话的普及率已达到27.8%,移动电话的普及率已达到41.6%。宽带网络正在不断建设中,八纵八横的光纤构成了我国骨干网。以MSTP(多业务传输平台)技术为主的城域网正在大力建设,以ADSL为主的宽带接入网也在迅速发展。应该指出,我国信息化的瓶颈是信息资源的开发和利用。

    经常有这样的疑问:有了宽带网络,传送什么内容呢?实际上,世界上的信息资源是十分丰富的,问题在于人们没有努力开发或者充分利用它。

    信息资源中,视频信息的开发、利用更具有重要的理论意义和应用价值。

    20世纪90年代初以来,我国的会议电视技术取得了巨大发展,短短几年,从一个最初的中央到各省的会议电视骨干网,逐步发展为铁道、电力、石油、公安多系统、各省乃至各地县数千个的会议电视网。

    20世纪90年代Internet的迅猛发展,推动了IP技术应用普及到各个方面,网上教育、远程医疗、电子商务、电子政务、电子游戏、网上证券等如雨后春笋。一句话,IP视频通信已十分引人注目。

    通信业务已从电话、传真、电报发展为可视电话、会议电视、视频点播等,即由音频为主发展到以视频为主的多媒体通信。

    为了更深入地理解视频通信,有必要对它的特点进一步探讨。

    1.2 视频信息和信号的特点

    1.2.1 直观性

    利用人的视觉获取的信息称为视频信息,它具有直观性的特点。话音信息则是利用人的听觉获取的信息。两者相比,视频信息给人印象深刻、具体,话音信息则相对较浅显。从信息交流的客观效果讲,视频信息的效果更好。

    1.2.2 确定性

    视频信息直观具体,不易和其他内容相混淆,能保证信息的准确性。而话音信息则会由于地方口音的不同产生歧义,导致不必要的损失。

    1.2.3 高效性

    利用视觉,人们可以并行地观察一幅图像的各个像素,因而获取视频信息的效率比音频信息高得多。例如,通过一幅电机构建的图,人们可以很快搞清楚定子、转子及其相关位置,从而很快弄清电机的结构及其原理;如果人们没有这样的图,只是一味地听讲,通过音频信息去反复理解电机结构,仍可能搞不清楚,其接受的效率要低得多。

    1.2.4 广泛性

    据统计,人们每天通过视觉获取的信息占外界信息总量的70%左右。也就是说,人们每天获得的信息大部分是视觉信息。

    1.2.5 视频信号的高带宽性

    视频信息的表示形式是视频信号,通常为视频的电信号。视频信号通过网络传送至终端用户,并在屏幕上显示。

    视频信号所包含的信息量大,其内容可以是活动的,也可以是静止的;可以是彩色的,也可以是黑白的;有时变化多、细节多,有时十分平坦。一般而言,视频信号信息量大,传输网络所需要的带宽相对较宽。例如,一路可视电话或会议电视信号,由于其活动内容较少,所需带宽较窄,但要达到良好的质量,不压缩需若干兆比特每秒,压缩后需要384kbit/s。又如,一路高清晰度电视信号(HDTV),由于其信息量相当大,不压缩需1Gbit/s,利用MPEG-2压缩后,尚需20Mbit/s。可见,视频信息虽然具有直观性、确定性、高效性等优越性能,但要传送包含视频信息的信号却需要较高的网络带宽,这就是为获得视频信息所需付出的代价。

    1.3 视频压缩编码的要求和可能性

    1.3.1 视频压缩编码的目标

    如上所述,视频信号由于信息量大,传输网络带宽要求高,就像一辆体型巨大的货车只有在宽阔的马路上才能行驶一样。于是出现一个问题:能否将视频信号在传送前先进行压缩编码,即进行视频源压缩编码,然后在网络上进行传送,以便节省传送带宽和存储空间。视频信号压缩编码有两个要求:

    (1)必须压缩在一定的带宽内,即视频编码器应具有足够的压缩比;

    (2)视频信号压缩之后,经解压重建应保持一定的视频质量。

    这个视频质量有两个标准:一个为主观质量,由人从视觉上进行评定;一个为客观质量,通常用信噪比(S/N)表示。

    如果不考虑质量,一味地压缩,虽然压缩比很高,但压缩后信息严重失真,显然达不到要求;反之,如果只考虑质量,压缩比太小也不符合传送要求。

    当然,在以上两个要求下,视频编码器的设计应力求简单、易实现、成本低、可靠性高,这也是其基本的要求。

    1.3.2 视频压缩的可能性

    1.预测编码

    前面讨论了视频信息的优越性、视频信号压缩的必要性,也提出了视频压缩的目标和要求,但实现这些目标的可能性如何?

    众所周知,一幅图像由许多个称为像素的点组成,如图1.2中的“○”表示一个像素。大量的统计表明,同一幅图像的像素之间具有较强的相关性,两个像素之间的距离越短,其相关性越强,通俗地讲,即两个像素的值越接近。换言之,两个相邻像素的值发生突变的概率极小,相等、相似或缓变的概率则极大。

    alt

    图1.2 像素间相关性解释

    于是,人们可利用这种像素间的相关性进行压缩编码。例如,当前像素X(设为立即传送的像素)可用前一个像素a、b或c,或三者的线性加权来预测。a、b、c被称为参考像素。实际传送时,把实际像素X(当前值)和参考像素(预测值)相减,只传送X-a,到了接收端再把(X-a)+a恢复成X。由于a是已传送的(在接收端被存储),于是得到当前值。由于X与a相似,(X-a)值很小,视频信号被压缩,这种压缩方式称为帧内预测编码。

    不仅如此,还可利用图1.3所示的帧间相关性进行压缩编码。由于邻近帧之间的相关性一般比帧内像素间的相关性更强,因此压缩比也更大。

    alt

    图1.3 帧间相关性解释

    由此可见,利用像素之间(帧内)的相关性和帧间的相关性,找到相应的参考像素或参考帧作为预测值,可以实现视频压缩编码。

    2.变换编码

    大量统计表明,视频信号中包含着能量上占大部分的直流和低频成分(图中的平坦部分),还有少量的高频成分(图像的细节部分)。因此,可以用另一种方法进行视频编码,将图像经过某种数学变换后,得到变换域中的图像(如图1.4所示),其中u、v分别是空间频率坐标轴。在图1.4中,用“o”表示的低频和直流占图像能量中的大部分;而用“×”表示的高频成分则是少量的;其余均是零值,用“O”表示。于是可用较少的码表示直流、低频以及高频,而“O”则不必用码表示,由此可完成压缩编码。

    alt

    图1.4 变换域图像

    1.4 视频压缩编码技术综述

    1.4.1 基本结构

    视频编码系统的基本结构如图1.5所示。

    alt

    图1.5 视频编码系统

    由图1.5可见,视频编码方法与可采用的信源模型有关。如果采用“一幅图像由许多像素构成”的信源模型,这种信源模型的参数就是每个像素的亮度和色度的幅度值,对这些参数进行压缩编码的技术称为基于波形的编码。如果采用“一个分量由几个物体构成”的信源模型,这种信源模型的参数就是各个物体的形状、纹理和运动,对这些参数进行压缩编码的技术称为基于内容的编码。

    由此可见,根据采用信源模型,视频编码可以分为两大类:基于波形的编码和基于内容的编码。它们利用不同的压缩编码方法,得到相应的量化前的参数;再对这些参数进行量化,用二进制码表示其量化值;最后,进行无损熵编码进一步压缩码率。解码则为编码的逆过程。

    1.4.2 基于波形的编码

    如上所述,利用像素间的空间相关性和帧间的时间相关性,采用预测编码和变换编码技术可大大减少视频信号的相关性,从而显著降低视频序列的码率,实现压缩编码的目标。

    基于波形的编码采用了把预测编码和变换编码组合起来的基于块的混合编码方法。

    为了减少编码的复杂性,使视频编码操作易于执行,采用混合编码方法时,首先把一幅图像分成固定大小的块,例如块8×8(即每块8行,每行8个像素)、块16×16(每块16行,每行16个像素)等,然后对块进行压缩编码处理。

    自1989年ITU-T发布第一个数字视频编码标准——H.261以来,已陆续发布了H.263等视频编码标准及H.320、H.323等多媒体终端标准。ISO下属的运动图像专家组(MPEG)定义了MPEG-1、MPEG-2、MPEG-4等娱乐和数字电视压缩编码国际标准。

    2003年3月,ITU-T颁布了H.264视频编码标准的基本部分。为适应专业级视频应用的需求,ITU-T开始对H.264进行一系列的扩展。2004年完成了保真度范围扩展FRExt,2006年完成了可伸缩编码扩展SVC。视频压缩与以往标准相比有了明显提高,还具有良好的网络亲和性,特别是对IP互联网、无线移动网等易误码、易阻塞、QoS不易保证的网络视频传输性能有明显的改善。本书的第1~8章介绍H.264的基本部分,第9章叙述FRExt,第10章介绍SVC。

    所有这些视频编码都采用了基于块的混合编码法,都属于基于波形的编码。

    1.4.3 基于内容的编码

    如上所述,基于块的编码易于操作,但由于人为地把一幅图像划分成许多固定大小的块,当包含边界的块属于不同物体时,它们分别具有不同的运动方向,不能用同一个运动矢量表示该边界块的运动状态。如果强制划分成固定大小的块,这种边界块必然会产生高的预测误差和失真,严重影响了压缩编码信号的质量。

    于是产生了基于内容的编码技术。先把视频帧分成对应于不同物体的区域,然后分别对其进行编码。具体说来,就是对不同物体的形状、运动和纹理进行编码。在最简单的情况下,利用二维轮廓描述物体的形状,利用运动矢量描述其运动状态,而纹理则用颜色的波形进行描述。

    当视频序列中的物体种类已知时,可采用基于知识或基于模型的编码。例如,对人的脸部,已开发了一些预定义的线框对脸的特征进行编码,这种编码效率很高,只需少数比特就能描述其特征。

    对于人脸的表情(如生气、高兴等),可能的行为可用语义编码,由于物体可能的行为数目非常小,可获得非常高的编码效率。

    MPEG-4采用的编码方法既是基于块的混合编码,又有基于内容的编码方法。

    1.4.4 立体(三维)视频编码

    立体视频编码是视频编码的发展方向之一,它在平面信息外增加了深度信息,数据量非常庞大。

    立体视频编码也有两种:第一种是基于波形的,它组合运动补偿预测和位差补偿预测,所谓位差估计,是在两幅不同的图像中寻找对应的点,然后对预测残差图像、位差和运动矢量进行编码;第二种是基于物体的,它直接对成像物体的三维结构和运动进行编码,当物体结构简单时,可获得非常高的压缩比,其编码结构如图1.6所示。

    alt

    图1.6 三维物体序列编码系统

    参考文献

    [1]Yao Wang, Jorn Ostermann, Ya-Qin Zhang. Video Processing and Communication. Pearson Education, 2002.

    [2]毕厚杰.多媒体信息的传输与处理.北京:人民邮电出版社,1999.

    [3]毕厚杰.信息和信息化.中国工程科学,2003(5):92-94.