第2章 数字视频
视频压缩编码技术就是对数字视频信号进行压缩和解压缩的技术,因此讨论视频压缩编码前,必须先了解数字视频信号的概念和构成。这是本章的主要内容。
什么是数字视频信号?它是自然的电视景象的数字表示。具体说来,本章中将依次讨论:①数字电视的概念;②彩色空间;③数字电视景象标准格式;④A/D和D/A变换;⑤取样和亚取样;⑥量化;⑦数字视频的质量。
2.1 数字电视的基本概念
2.1.1 数字电视的优越性
现在,模拟彩色电视已经相当普及,在一定程度上满足了人们的生活需求。但是,模拟电视的缺陷日益显露。为此,数字电视应运而生,与模拟电视相比,具有许多突出的优点。
(1)失真小、噪声低、视频质量高
模拟电视信号在放大、处理、传输、存储过程中,难免会引入失真和噪声,而且多种噪声与失真叠加到电视信号上后,不易去除,并会随着处理次数和传输距离的增加不断累积,导致图像质量及信噪比下降。
相反,数字电视信号没有上述的噪声累积效应。如图2.1所示,只要噪声电平不超过信号脉冲幅度的一半,就可用脉冲再生技术对其整形,并恢复成“0”或“1”两种电平,不会引入噪声。这样说来,数字电视信号是否没有任何失真和噪声呢?从下面的叙述可知,它会引入“量化噪声”,这是因为信号的数字化必须要经过取样、量化、编码三个基本步骤,“量化”是不可缺少的,量化噪声不可避免,但可控制在相当低的电平以下。
图2.1 数字电视信号抗噪声能力
可见,数字电视的第一个突出优点是噪声低、失真小、视频质量好。
(2)易处理、易校正
模拟电视信号要进行压缩编码处理、加密处理、校正处理都不是一件容易的事情。
数字电视信号利用VLSI芯片进行压缩编码处理、加密处理、白平衡调整、γ校正、彩色校正和轮廓校正,相对来说容易得多。随着大规模集成电路设计和工艺的不断发展,现在利用专用芯片和通用DSP来实现以上处理的成本不断下降,这是视频数字压缩编码能取得不断发展的一个重要原因。
(3)容量大、节目多
同样的带宽能容纳的数字电视节目比模拟电视节目多得多。例如,CATV频道中,550~750MHz的200MHz带宽中,如果传送模拟电视,每个节目需8MHz带宽,充其量只能传送25套节目。如果传送数字电视节目,采用64QAM调制,其频谱利用率为5.3,如果每路节目用MPEG-2压缩为4Mbit/s,实际只需4÷5.3≈0.75(MHz)带宽,于是在同样的200MHz带宽中可传送数字电视节目数为200÷0.75≈260,约为模拟电视的11倍。
2.1.2 数字电视的PCM原理
将输入的模拟电视信号变成输出的数字电视信号需经过取样、量化、编码三个步骤,如图2.2所示,由A/D变换器完成这三个步骤。
图2.2 PCM原理
1.取样
所谓取样,就是在时间轴上把连续变化的模拟信号变为离散量的过程。图2.3(a)中的ua(t)在时间上是连续变化的,经取样后变换成图2.3(c)所示的时间上离散的ud(t)信号。
图2.3 取样过程
根据取样定理,当输入的模拟信号上限频率为fc,只要取样脉冲us(t)的重复频率fs不低于fc的两倍,总可以无失真地由取样后的离散信号恢复出原来的模拟信号,即不失真输出条件为:
ud通过下式实现:
图2.3(e)、(f)分别是ua(t)和us(t)的频谱Fa(f)、Fs(f)。于是,图2.3(c)中ud(t)的频谱,即图2.3(g)中的Fd(f)可由Fa(f)和Fs(f)卷积得到:
由图2.3(g)可知,当2fc≤fs或满足取样定理时,则可恢复出原始的模拟信号,否则会发生频谱重叠,产生混叠效应,无法恢复出原始信号。
由于实际的低通滤波器(限制模拟信号的上限频率fc)滤波特性不可能做成理想的陡峭的截止特性,当低通滤波器的截止频率为fc时,实际的取样频率fs应取成:
对于电视信号,经分析可知,其信号能量主要集中在行频fh及其多次谐波n fh附近。而在f=(2n+1)fh/2附近,信号能量很弱。当取样频率fs取下式:
当fs<2fc时,即所谓的亚取样时,发生频谱混叠,但频谱以fh/2的间隔交错开,因此仍可通过设计得当的梳状滤波器将所需信号的频谱分离出来。
这种亚取样可显著压缩数字电视的数字码率。
图2.4 视频信号亚取样的频谱混叠
2.量化
取样后的脉冲信号在时间上是离散的,但在幅值上(空间上)仍是连续的,即其可能取的值有无限多个,这就需要对它采用四舍五入的方法,将其可能的幅值数由无限多个变为有限个值。这种将信号幅值由连续量变成离散量的过程称为量化。
图2.5所示为信号的量化过程。量化器的输入输出特性(如图2.5(a)所示)呈阶梯形状,图2.5(b)为输入模拟信号,图2.5(c)为其相应的量化后的输出信号。由于采用四舍五入的方法,输出信号不同于原模拟信号,产生了失真,即加入了所谓的“量化噪声”。
图2.5 信号量化过程示意图
如果模拟信号的动态范围(最大值)为A,量化级数为M,量化节距(或量化步长)为Q,则
这种量化称为均匀量化,量化节距为恒定值Q。
3.PCM编码
对于量化后的信号,通常用“0”和“1”表示,即用二进制码表示。这时的编码称为脉冲编码调制——PCM编码。模拟电视信号经取样、量化、编码(PCM编码)后得到的二进制序列,即数字电视信号。
每个取样信号用8位二进制码表示,可能取的量化值为M=28=256。一般说来,当用n位二进制码表示时,有
n越大,则M越大,Q越小,即量化噪声越小,数字信号越接近原模拟信号。
4.A/D与D/A变换
上述取样、量化、编码过程均由A/D变换器完成。反之,数字信号的解码、反量化、恢复成模拟信号的逆过程则由D/A变换器完成,如图2.6所示。
图2.6 D/A变换
2.2 数字电视信号
2.2.1 电视信号的时间和空间取样
1.时间取样
电视信号的取样有两种:空间取样和时间取样。运动图像可由每秒若干帧的静止图像构成,我国采用的PAL制规定彩色电视每秒25帧,美国、日本等采用的NTSC制彩色电视则为每秒30帧。这种取样方式就是时间取样。如果是会议电视、可视电话等运动量不大的视频信号,帧频也可取15~20帧/秒,但低于15帧/秒的视频质量不高。
隔行扫描帧图像由两场组成,每场由若干行组成,奇数行和偶数行各构成一场,它们分别为顶场和底场,如图2.7所示。帧、场的邻近行相关性并不相同。帧的邻近行空间相关性强,时间相关性弱,因为某行的邻近行(下一行)要一场扫描完才能被扫描,因此在压缩静止图像或运动量不大的图像时采用帧编码方式。场的邻近行时间相关性强,空间相关性差,因为场的一行扫描完毕,接着对场中下一行扫描,因此对运动量大的图像常采用场编码方式。实际的视频图像有快有慢,有粗有细,应根据这个标准自适应选择帧/场编码方式。
图2.7 帧、场结构
2.空间取样
在同一电视信号帧中,同一行由若干取样点构成,这些取样点称为像素,这种取样就属于空间取样。其前提是假定一帧图像是静止的,每个像素点处于同一时刻的不同的空间位置上。
例如,国际上标准电视格式为720×576像素,即每帧由576行,每行由720个像素构成;美国的GA制规定了两种扫描格式,即720×1280像素和1080×1920像素。
现存在3种彩色电视制式,不同的国家采用不同的制式,为了实现国际上的不同彩色电视制式国家之间的视频通信,往往采用一种中间公共格式(CIF),如表2.1所示。
表2.1 视频帧格式
2.2.2 彩色空间
黑白图像的每个像素只需一个幅值表示其亮度即可,而彩色图像的每个像素至少需要3个值表示表示其亮度和色度。所谓色度空间就是表示彩色图像的亮度与色度的方法。
1.RGB
众所周知,任何彩色图像可由不同比例的红色、绿色和蓝色组合而成,即三基色原理。这种表示彩色图像的方法即RGB彩色空间。
彩色显象管(CRT)和液晶显示器件(LCD)可显示彩色图像,彩色摄像机中的电荷耦合器件(CCD)等传感器可产生彩色电视图像,这些都是根据RGB原理获得的。
2.YCbCr(YUV)
人类视觉系统(HVS)对亮度比彩色更敏感,因此可以把亮度信息从彩色信息中分离出来,并使之具有更高的清晰度。彩色信息的清晰度降低,可显著压缩带宽,实现视频压缩的一部分。但是,人眼对画面的感觉却没有不同。
如果亮度分量用Y表示,色度用Cb、Cr表示,则由大量实验得出:
反之,可由下式得到相应的R、G、B:
2.2.3 彩色电视取样格式
有3种不同的彩色电视取样格式,如图2.8所示。
图2.8 彩色电视取样格式(逐行)
(1)4∶4∶4,Y、Cb和Cr具有同样的水平和垂直清晰度,在每一像素位置,都有Y、Cb和Cr分量,即不论水平方向还是垂直方向,每4个亮度像素相应的有4个Cb和4个Cr色度像素。
(2)4∶2∶2,这时彩色分量和亮度分量具有同样的垂直清晰度,但水平清晰度彩色分量是亮度分量的一半。水平方向上,每4个亮度像素具有2个Cb和2个Cr。在CCIR601标准中,这是彩色电视的标准取得格式。
(3)4∶2∶0,在水平和垂直清晰度方面,Cb和Cr都是Y的一半。
4∶2∶0的彩电取样格式广泛应用于数字电视、会议电视、DVD等。因为3种格式中,4∶2∶0的彩色分量最少,对人眼的彩色感觉而言,这种格式与其他两种类似,最适合用于进行数字压缩。
2.2.4 数字电视信号的编码参数
现在介绍电视信号的量化值和取样频率值,即未压缩前数字信号的编码参数。
1.量化值(Qp)
量化值(量化节距)取得太大,视频图像显得粗糙;取得太小,视频图像质量好,但带宽浪费过大。一般认为,每个取样值采用8个比特表示,即256个灰度级,是比较合理的。在会议电视的视频通信中,随着网络带宽的变化,Qp可进行自动调整。
2.取样频率(fs)
CCIR601建议的电视国际标准为:对每幅画面625/50(625行,每秒50场)的电视系统和525/60(525行,每秒60场)的电视系统取样频率都为:
fs=13.5MHz | (亮度信号,即Y信号) |
fs=6.75MHz | (色差信号,即Cb、Cr信号) |
彩色电视采用4∶2∶2格式时(垂直方向Cb、Cr和Y具有同等清晰度,水平方向Cb、Cr只是Y一半),Y和Cb、Cr取样频率如上,则电视信号总码率为:
13.5×8+2×6.75×8=216(Mbit/s)
当彩色会议电视采用CIF格式时,取4∶2∶0格式,帧频为25帧/秒,总码率为:
352×288×25×8×1.5=30.41(Mbit/s)
对于高级窄屏幕的HDTV(1250×1440),采用4∶2∶0格式,亮度fs=54MHz,色度fs=27MHz,总码率为:
54×8+27×8=648(Mbit/s)
对于高级宽屏幕的HDTV(1250×1920),采用4∶2∶0格式,亮度fs=72MHz,色度fs=36MHz,总码率为:
72×8+36×8=864(Mbit/s)
不论何种数字电视信号,这些值30.41Mbit/s、216Mbit/s、648Mbit/s、864Mbit/s都是没有经过压缩的码率。如果直接在现有的信道中传输,都需要相当大的带宽,因此需对这些数字视频信号进行压缩编码。
2.3 视频信号的预处理
视频处理和通信系统所要处理的信息是十分庞大的视频图像数据,对于处理的速度和精度都有相当高的要求,系统的应用也非常广泛。例如,在个人移动通信、远程医疗诊断设备、智能楼宇、联网交通监控、自然灾害预测以及国防建设等领域获得了惊人的成果。目前的视频处理和通信系统有各种各样的结构,但不论结构复杂还是简单,一个基本的视频处理和通信系统大致可如图2.9所示,主要包括采集、预处理、视频编码、通信、图像处理以及显示等几个方面。
图2.9 视频处理和通信系统
图像采集的功能由图像传感器实现,目前图像传感器主要有电荷耦合器件(CCD,Charge Coupled Devices)和CMOS传感器。前者技术发展成熟,具有高解析度、低噪声、动态范围大等优点,在高端产品中得到广泛应用;后者随着半导体技术的发展,以其低成本、高集成度、低功耗等特性占领了低端市场,且随着技术的不断发展,CMOS图像传感器的一些参数性能指标已达到或超过CCD。但不论是CCD还是CMOS传感器,在将实际景物转换为图像信号时总会引入各种噪声和畸变失真,因此一般需要对图像传感器的图像进行预处理,包括伽马校正、图像插值、图像校正、白平衡、图像增强以及增益控制等技术,一方面改善图像的质量,另一方面,可使得图像有利于视频编码的处理。至于视频图像编码和通信在后续章节将进行重点论述。
2.3.1 色彩插值(Color Interpolation)
不论是CCD还是CMOS图像传感器,为了简化工艺和降低成本,一个像素点往往只能给出记录从纯白到纯黑的系列色调,因而只能给出单色的色调值,不能同时给出RGB三组数据。因此,对于彩色的图像值的获取,就需要借助色彩滤镜阵列(CFA,Color Filter Array),即在图像传感器的像素表面覆盖一个多色的滤镜阵列。通过应用不同的色彩滤镜阵列,可以获得不同的图像输出阵列,其中,最常见的一种滤镜阵列的图像传感器获得的是一幅如图2.10所示的马赛克的图像阵列,即Bayer模型。
图2.10 Bayer图像阵列
显然,在这种图像阵列中,每个像素值只有一个颜色的色调值,另外两个颜色的色调必须利用相邻像素之间的相关性,通过数据计算获得,这些方法通常被称为色彩插值。这里就以Bayer图像阵列为基础,描述色彩的插值算法。参考文献[2]给出了多种色彩插值算法的实现方法和性能比较,例如,相邻像素复制法、双线性插值算法以及双三次多项式插值等。这里仅以双线性插值算法为例做个简单的介绍。显然,色彩的插值涉及RGB三色的处理。具体如下:
(1)红色/蓝色点处的像素绿色分量
插值等于其相邻的4个像素点的绿色分量平均值。例如,G8=(G3+G7+G9+G13)/4。
(2)在绿色点处的红色/蓝色分量的插值
这里分两种情况。一种情况是如果存在相邻的两个像素的红色/蓝色分量,就取红色/绿色分量的均值,例如B7=(B6+B8)/2,R7=(R2+R12)/2;另一个情况是周围没有相邻的红色/蓝色分量,就取对角线方形的4个像素点处红色/蓝色分量的均值,R8=(R2+R4+R12+R14)/4,B12=(B6+B8+B16+B18)/4。
2.3.2 色彩校正(Color Correction)
上一节通过插值已经得到了RGB三基色齐全的图像(R、G、B)了,但传感器响应的这个图像与真实场景之间仍存在差异。这其中存在多方面的原因,涉及图像传感器中光学器件(棱镜)的光谱特性、场景的光源光照条件(诸如白光、荧光或者钨光)以及色彩滤镜的光谱特性等。图2.11给出了配置RGB色彩滤镜阵列的CMOS图像传感器的光谱响应曲线。
图2.11 CMOS图像传感器的光谱响应曲线
为了补偿这种差异,必须对图像的像素值(R、G、B)按照公式(2.10)进行变换处理。
其中,系数bij是由传感器的光谱特性、光源光照条件和滤镜的光谱特性所决定的,不能简单地给出,往往需要传感器厂商在满足人眼的视觉效果的前提下,依据性能指标和测试结果综合给出。因此,这里的色彩校正不可能做到理想的效果,只能做到尽可能地减小上述的差异性。
2.3.3 伽马校正(Gamma Correction)
在计算机图形领域,“伽马校正”这个术语大家并不陌生,但能正确理解它的含义的人并不多。这其中又涉及另一个术语——强度(Intensity),其表示的是每单位面积传播的(光)辐射能量。在图像显示器中,这个强度作为参量和输入的电压信号密切相关。
以目前应用最为广泛的阴极射线管显示器(CRT)为例,CRT的感光材料的响应随着加载电子束电压信号的不同而不同。在理想状态时,输出的色彩强度和电子束的电压信号之间的关系应该是线性的,如图2.12(a)所示;但实际上,它们之间的关系如图2.12(b)所示,输出的强度与电压信号之间的关系是非线性的。
图2.12 输出的色彩强度与输入电压的关系
研究表明,显示器的输出强度和输入电压的响应大致呈幂指数关系,如公式(2.11)所示输出的强度随着输入电压的增长成指数增长。通常我们就把这个幂指数称为伽马(gamma)。事实上,几乎各种显示器都存在这种非线性关系,其伽马值大小在1.7~2.7之间,CRT的伽马值一般取2.2。
其中,I指显示器输出的光强度;P指显示器上加载的光束电压,一般光束电压P是由图像相应位置的像素值决定的;γ为伽马值。
为了在显示器上显示的图像效果和实际相符,有必要在摄像机获取图像后进行伽马校正,将上述这种非线性的关系校正为线性关系,公式如下:
其中,Pnew是进行了校正处理的图像的像素值;Pold是校正前的像素值;伽马值γ影响着校正的程度,γ=1时,不进行校正,γ越大,像素值的校正量越大。
伽马校正的具体实现方法是多种多样的,在模拟电视中,伽马校正可采用分段折线与渐变式两种方法。对于分段式是通过选择二极管的配置电路,确定不同的分段导通特性来实现校正处理。随着数字电路技术的发展,高度灵活的数字化伽马校正得到了广泛应用,可以采用数字电路的硬件实现折线式的伽马校正电路,也可采用软件实现渐变式伽马校正电路。如图2.13所示,软件实现的伽马校正的步骤分为两步:①建立伽马校正数据表;②根据输入的像素值进行查表获取伽马校正后的数据。其中,伽马校正数据表可以通过各种公式的修正公式计算获得,也可预先设定。
图2.13 伽马校正示意图
2.3.4 图像增强(Image Enhancement)
很显然,实际应用中图像传感器的输出图像经过上述的处理并不是完美的,图像质量获得的改进也是有限的,加之噪声、光照等原因,需要进一步处理,丢弃无用的信息,保留我们感兴趣的重要信息。图像增强作为一种重要的图像处理技术,目的无非就是两个:第一,更适合人眼的感觉;第二,有利于后续的分析处理。
图像增强主要包括直方图均衡、平滑滤波、中值滤波、锐化等内容。一般情况下,图像增强既可以在空间域实现,也可以在频域内实现。这里我们主要介绍在空间域内对图像进行点运算,它是一种既简单又重要的图像处理技术,能让用户通过改变图像上像素点的灰度值,进行运算处理产生一幅新图像。总之,图像增强有利于视觉效果和后续的处理,消除了相关性和高频噪声,有利于图像的压缩和处理,节省带宽。
1.平滑滤波
图像平滑作为一种主要的图像增强技术,其主要目的是为了消除图像采样系统的量化过程所产生的噪声。噪声并不限于人眼所能看见的失真和变形,有些噪声只有在进行图像处理时才可以发现。图像的常见噪声主要有加性噪声、乘性噪声和量化噪声等。图像中的噪声往往和信号交织在一起,尤其是乘性噪声,如果平滑不当,就会使图像本身的细节如边界轮廓、线条等变得模糊不清。如何能既平滑掉噪声又尽量保持图像细节,是图像平滑研究的主要任务。
一般来说,图像的能量主要集中在其低频部分,噪声所在的频段主要在高频段,同时图像中的细节信息也主要集中在其高频部分,因此,如何去掉高频干扰同时又保持细节信息是关键。为了去除噪声,有必要对图像进行平滑,可以采用低通滤波的方法去除高频干扰。图像平滑包括空域法和频域法两大类。在空域法中,图像平滑的常用方法是采用均值滤波或中值滤波。对于均值滤波,它是用一个有奇数点的滑动窗口在图像上滑动,将窗口中心点对应的图像像素点的灰度值用窗口内的各个点的灰度值的平均值代替,如果滑动窗口规定了取均值过程中窗口各个像素点所占的权重,也就是各个像素点的系数,这时候就称为加权均值滤波;对于中值滤波,对应的像素点的灰度值用窗口内的中间值代替。在频域法中,一般采用低通滤波法。这里主要采用介绍空域处理的方法。
加权均值滤波是取一个n×n的窗口,取该窗口内的n2个像素的加权平均值取代中心像素原来的值。加权均值算法的一般表达形式为:
其中,g(x, y)是窗口的中心元素,f(x+i, y+j)是有噪声图像的像素,w(i, j)为加权值,其窗口大小为(2k+1)×(2k+1)。把n×n的权值排成矩阵,称为加权模板。下面介绍几个3×3的加权模板。
相等加权的模板为:
锥形加权的模板为:
灰度差倒数加权的模板为:
其中,每个加权值为:
图2.14给出了采用锥形加权的模板运算得出的平滑效果图。
图2.14 锥形加权模板的平滑效果图
2.中值滤波
中值滤波也是一种典型的低通滤波器,它的目的是在保护图像的细节的同时,消除噪声。中值滤波的原理是指把以某点(x, y)为中心的小窗口内的所有像素的灰度按从大到小的顺序排列,将中间值作为(x, y)处的灰度值(若窗口中有偶数个像素,则取两个中间值的平均)。
对二维的数字图像,设定一个大小为(2k+1)×(2k+1)的窗口,计算其中值为:
可以采用冒泡法对数组进行排序,然后返回数组元素的中值。
实际处理中可采用多种快速算法求解,例如,Narendra提出了对图像先进行行方向的一维中值滤波,再做列方向的一维中值滤波的方法,可得到与二维中值滤波相近的结果,使计算量大大降低,也易于硬件实现。T.S.Huang提出了对图像用n×n的滑动窗口进行中值滤波时,每次求中值只要考虑去掉最左列,补上最右列的像素,其余的像素不变,因此计算量大大缩小。
3.图像锐化
图像的边缘信息在图像风险和人的视觉中都是非常重要的,物体的边缘是以图像局部特性不连续的形式出现的。前面介绍的图像滤波对于消除噪声是有益的,但往往使图像中的边界、轮廓变的模糊,为了减少这类不利效果的影响,就需要利用图像锐化技术,使图像的边缘变得更加鲜明。
图像锐化处理的目的就是为了使图像的边缘、轮廓线以及图像的细节变得清晰,经过平滑处理后的图像变得模糊的根本原因是因为图像的像素受到了平均或积分,因此对其进行逆运算(如微分运算)就可以使图像变得清晰。从频率域来考虑,图像模糊的实质是因为其高频分量被衰减,因此可以用高通滤波器使图像清晰。
图像锐化的技术有两种:微分法和高通滤波法。这里主要介绍微分法,常用的微分锐化主要有两种:梯度锐化和拉普拉斯锐化。以拉普拉斯锐化为例,对于给定的图像f(x,y),其二阶差分为:
从而拉普拉斯算子为:
锐化处理:
当k=1时,等于:
显然,公式(2.20)可以变成前面的模板运算,从而拉普拉斯锐化运算也变成了模板运算,其模板形式为:
图2.15给出了采用锐化处理的效果图。
图2.15 锐化处理效果图
4.直方图均衡
图像直方图是图像处理中一种十分重要的图像分析工具,它描述了一幅图像的灰度级内容。从数学上来说,图像直方图是图像各灰度值统计特性与图像灰度值的函数,它统计一幅图像中各个灰度级出现的次数或概率;从图形上来说,它是一个二维图,横坐标表示图像中各个像素点的灰度级,纵坐标为各个灰度级上图像像素点出现的次数或概率。
在介绍灰度直方图均衡之前,先讲讲直方图修正。所谓直方图修正,就是通过一个灰度映射函数S=F(r),将原灰度直方图改造成我们所希望的直方图。所以,直方图修正的关键就是灰度映射函数。直方图均衡化是一种最常用的直方图修正。它是把给定图像的直方图分布改造成均匀直方图分布。由信息学的理论来解释,具有最大熵(信息量)的图像为均衡化图像。
假定图像的总像素数目为n,而某个灰度级k的像素数目为mk,该灰度级的概率密度为:
则图像直方图均衡的变化函数为:
图2.16给出了直方图均衡处理前后的效果图。
图2.16 直方图均衡的效果图
2.3.5 白平衡(White Balance)
白平衡作为图像处理的一个重要术语,也随着数码相机的普及进入了人们的认识中。白平衡指的就是对白色物体颜色的还原。当我们用肉眼观看这大千世界时,在不同的光线下,对相同的颜色的感觉基本是相同的,比如在早晨旭日初升时,我们看一个白色的物体,感到它是白的;而我们在夜晚昏暗的灯光下,看到的白色物体,感到它仍然是白的。这是由于人类在出生以后的成长过程中,大脑已经对不同光线下的物体的彩色还原有了适应性。但是,图像传感器没有这种人眼的适应性,在不同的光线下,由于图像传感器输出的不平衡性,造成其输出的彩色失真:或者图像偏蓝,或者偏红,如图2.17所示。
图2.17 白平衡示意图
要理解白平衡,就涉及另一个重要的概念:色温。所谓色温,简而言之,就是定量地以开尔文温度表示色彩。色温越高,蓝色成分就越多;色温越低,红色成分就越多。这跟我们传统的认知不一样。在摄影、摄像时,不同色温光源下拍摄物体,获得的图像不可避免会出现色彩上的偏差。为了获得现实际世界中各种色彩的图像,必须消除环境中光源色温的影响,即进行白平衡处理。
传统的白平衡方法,首先在色温环境中拍摄一纯白色物体,分析所拍摄的图像数据,对白色物体的数据进行平均,得出三原色的平均值(Rmean、Gmean、Bmean),根据白色的定义:
R=G=B
改变R、B感应通道的增益可以实现图像的白平衡,这种白平衡方法需要有白色参照物,使用不便。因此,实际应用中,产生了一些自动白平衡的算法,主要有以下几种算法。
(1)全局平衡法
认为所拍摄的图像的R、G、B三色分量的统计平均应该相等,对于拍摄的图像进行统计平均,以R、B分量的均值作为白平衡校准的依据。
(2)局部白平衡法
搜索所拍摄的图像中,最亮的区域作为白色区域,该区域的R、G、B三色分量的统计平均值应该相同,以该区域的R、B分量的均值作为白平衡校准的依据。
2.4 视频质量
对压缩后的视频质量进行估计是一件困难的工作。大体上,可分为主观视频质量评定和客观视频质量评定两种估计方法。
2.4.1 主观质量的评定
由于个人的视觉系统(HVS)不尽相同,对视频内容的熟悉程度也不一样。为了减少主观随意性,在对视频图像主观评定前,选若干名专家和“非专家”作为评分委员,共同利用5项或7项评分法对同一种视频图像进行压缩编码的图像评定。最后按加权平均法则对该压缩后的图像质量进行主观评定,见表2.2。
表2.2 主观评价分数标准
测试方法可用随机的次序请评委观察比较原始图像和压缩编解码后的图像。国际上称为DSCQS的测试系统如图2.18所示。其中A为原始图像,B为编码解码后的图像,以任意的A、B次序让评委打分评定。
图2.18 DSCQS测试系统
2.4.2 客观质量的测量
主观的视频质量评分更接近人的真实视觉感受,但需耗费人力和时间,成本较高。客观质量的测定方法速度快、易实行,但往往不会太符合人眼的视觉感受,只能反映大体上的质量情况。客观质量测定方法应致力于改进其测试标准和测试方法,使其符合人的视觉感受。
最常用的测试标准是峰值信噪比(PSNR):
其中,MSE为原始和编解码后图像之间的均方误差,(2n-1)2为图像中最大可能的信号值平方,n为表示每个像素的比特数。
一般来讲,PSNR越高,视频质量越高,反之亦然。但实际上有时并非如此,如图2.19和图2.20所示。图2.20的PSNR=27.7dB,其主观评定的分数可能比图2.19(b)、(c)的高,但客观质量PSNR却低于图2.19(b)、(c)的30.6dB和28.3dB。这是因为图2.20中的脸部更清晰,只是背景模糊,而人眼对脸部往往更敏感更重视。
图2.19 PSNR举例
图2.20 背景模糊图像27.7dB
参考文献
[1]Iain E.G.Richardon. H.264 and MPEG-4 Video Compression Video Coding for Next Generation Multimedia. Wiley Press. 2003.
[2]孙景鳌,蔡安妮.彩色电视基础.北京:人民邮电出版社,1996.
[3]许志祥.数字电视与图像通信.上海:上海大学出版社,2000.
[4]张兆扬,陈加卿,徐在方.数字电视原理.北京:科学出版社,1987.
[5]http://www-ise.stanford.edu/~tingchen/main.htm.
[6]Color Correction for Image Sensors. Kodak Image Sensor Solution, 2003.10.
[7]http://graphics.stanford.edu/gamma.html.
[8]http://www.teamten.com/lawrence/graphics/gamma/.
[9]钟志光,卢君,刘伟荣.Visual C++.NET 数字图像处理实例与解析.北京:清华大学出版社,2003.
[10]胡波,林青,陈光梦.基于先验知识的自动白平衡.电路与系统学报,2001(6):25-28.