相关概念
本节讨论了本书中讨论的一些关键概念,这些概念适用于压缩数字视频中的视觉质量,尤其是在当代移动平台上呈现的视觉质量。

数字视频

术语video通常指摄像机镜头捕捉到的视觉信息,这些视觉信息表现为时间区间内的图像序列。
视频摄像机源于20世纪30年代早期的电视行业,那个时候机电摄像机已经使用了数十年。之后,阴极射线管(CRT)技术的发明使得摄像机进入全电子版本的时代。20世纪80年代,固态传感器——特别是CMOS主动像素传感器(CMOS active pixel sensors)取代了模拟管技术,这使得数字视频得以应用。
早期的摄像机根据定义好的扫描规则将模拟视频信号转换为一维时变信号。这些信号使用模拟调幅(analog amplitude modulation)传输,并使用录像机或光学技术的模拟激光盘存储在模拟录像带。模拟信号不适合压缩,它们经常转换为数字格式,以便在数字领域进行压缩和处理。
目前,全数字工作流程(从数字视频信号的捕获到消费)的使用已经变得很普遍,主要是由于数字视频的如下特点:
  1. 1.
    数字视频的记录,存储,恢复,传输,接收,处理更简单方便,它几乎没有错误,因此数字视频可以看作是当今计算系统的另一种数据类型。
  2. 2.
    与模拟视频信号不同,数字视频信号具备压缩、解压缩的能力。较之于未压缩的格压,压缩格式的视频更容易存储和传输。
  3. 3.
    随着廉价的集成电路,高速通信网络,快速访问密集存储介质,计算设备的高级架构和高效视频压缩技术的出现,按照不同平台(从移动设备到网络服务器和工作站)所需要的数据速率处理数字视频已经成为现实。
对数字视频的高度关注,特别是在移动计算平台上的应用,对人类活动产生了重大影响。对于未来而言,这种情况肯定会继续存在,并会扩展到整个信息技术领域。

视频数据压缩

视频数字信号需要大量数据来表示。对于视频数据的存储以及传输而言,某种类型的数据压缩是必要的,以便可以用于很多应用。数据压缩可以是无损的,因此在解压缩后可以检索相同的数据。它也可能是有损的,因此在解压缩之后仅恢复原始信号的近似值。幸运的是,视频数据的特征可以容忍一定量的损失,并且人类的视觉系统对这样的损失毫无感知。然而,考虑到系统的限制,所有视频信号处理方法和技术都尽可能的实现最佳的视觉质量。
视频数据压缩通常涉及编码视频数据,一般而言,在传输、存储的时候会采用编码的形式,当需要向观看者呈现某种解压缩的版本时,则对其进行解码。
因此,如果无特殊说明,压缩/解压缩(compression/decompression)和编码/解码(encoding/decoding)通常表示的是一个意思。一些专业视频应用程序可能使用编码形式的未压缩视频,但这种情况相对较少。
编解码器由编码器和解码器组成。视频编码器比视频解码器复杂得多。编码器通常需要做更多的信号处理操作,因此,设计高效的视频编码器至关重要。虽然视频编码标准规定了解码器比特流(bitstream)的语法和语义,但编码器设计大多是开放的。
第2章详细讨论了视频数据压缩,而重要的数据压缩算法和标准则安排在第3章。

降噪

尽管对数字视频进行压缩和处理是必需的,但是这种处理可能引入非预期的效果,这通常被称为失真或噪声。这些失真或噪声经常称为伪影(visual artifacts)。由于噪声会影响用户接收信号的保真度,相当于会影响终端用户可感知的视觉质量,因此视频信号处理需要将噪声最小化。模拟信号和数字信号的视频压缩均需要考虑信号降噪。
在数字视频中,我们会遇到许多不同类型的噪声。这些噪声包括:
  • 来自传感器和视频捕获设备的噪声
  • 来自压缩过程的噪声
  • 来自有损信道上的传输的噪声
第4章将详细讨论各种类型的噪声。

视觉质量

相对于原始信号而言,经过处理后的视频信号可能会存在感知上的差异(数据压缩阶段会产生信息丢失),而视觉质量则用来度量这种感知差异。视觉质量基本上是用户体验质量(QoE)的度量。 理想情况下,在编码系统中最小的信号损失才能实现最高的视觉质量。
确定视觉质量对于分析和制定决策非常重要。视频质量的结果可以用于系统需求的说明文档,对视频服务和应用进行比较和排序,与其它的视频测量之间进行权衡等。
值得注意的是,数字视频因为压缩技术的存在,其伪影与模拟系统中的伪影完全不同。视频中失真的数量和可见性取决于该视频的内容。因此,伪影的测量和评估以及由此产生的视觉质量与传统的模拟质量评估和控制机制有很大不同。
鉴于数字视频伪影的性质,视觉质量评估和可靠排名的最佳方法是主观观察实验。但是,主观方法非常复杂、麻烦、耗时并且昂贵。另外,主观评估并不适合自动化环境。
另一种评估方法是使用简单的误差测量,例如均方误差(MSE)或峰值信噪比(PSNR)。因为PSNR对输出信号与输入信号进行比较,因此不一定代表感知的视觉质量,因此,严格地说,PSNR仅是信号保真度的度量,而不是视觉质量的度量。但是,PSNR是业界和学术界使用的最流行的视觉质量评估指标。更详细的信息,请参阅第4章。

性能

视频编码性能一般指视频编码的速度:速度越高,性能越好。在此上下文中,性能优化指的是实现快速视频编码。
通常,计算任务的性能取决于处理器的能力,也就是CPU和GPU的频率达到极限值的处理能力。此外,系统的性能优化还需要考虑:内存、辅助高速缓存、磁盘输入和输出(I/O)的容量和速度,高速缓存命中率,任务调度等因素。
视频数据和视频编码任务尤其适用于并行计算,并行计算是提高处理速度的好方法。在完成任务的时间内,保持CPU/GPU处于尽可能的忙碌状态,从而保证资源利用率的最大化,也是一种最佳实践。另外,视频编码的性能优化还有很多其它技术,例如编码参数的调整。更详细的性能优化技术将在第5章中详细讨论。

功耗

如今,移动设备已经成为计算,通信,生产力,导航,娱乐和教育的平台。此外,可植入人体,捕获体内图像或视频并渲染到大脑、或使用生物识别密钥安全地传输到外部监视器的设备可能在将来成为现实。如何为这些设备提供电力将成为一个有趣的问题。简而言之,这一领域需要创新的飞跃。但是,就在我们等待电源技术突破的同时,很多外部可穿戴设备已经开始应用。
电源管理和优化是所有这些现有以及新设备和平台的主要关注点,其目标是延长电池的使用时长。 然而,无论是本质上还是因为特殊需要,许多应用程序特别耗电,例如即时二进制翻译。
因此,主要问题是功率或等效的功耗。功率优化旨在降低功耗,从而延长电池寿命。高速视频编码和处理对功率优化提出了进一步的挑战。因此,我们需要了解电源管理和优化的注意事项、方法和工具,第6章和第7章将对此进行具体介绍。