前言
基于信息保真度的方法
图像和视频通常会涉及自然场景,对于自然场景而言,需要使用统计模型来对其进行表征。真实世界的失真过程会干扰这些统计数据并使图像或视频信号不自然。这使研究人员将自然场景统计(NSS, natural scene statistics)模型与失真模型结合,以量化失真图像和参考图像之间共享的信息量。这种共享信息是信号保真度的一个方面,并且与视觉质量密切相关。与HVS误差敏感度和结构方法相比,统计方法(信息论中也有应用)不依赖于任何HVS参数,也可以产生具有竞争力的FRQA方法(最先进的QA方法相比)。视觉信息保真度(VIF, visual information fidelity)方法就是基于信息保真度的视频质量评估指标。

视觉信息保真度

VIF是基于NSS的图像保真度测量的信息理论标准。VIF测量可以量化大脑从参考图像中提取的信息。然后,利用NSS,HVS和图像失真模型来量化该信息的损失。最终发现,图像的视觉质量与失真图像中存在的相对图像信息密切相关,并且VIF方法优于现有的质量评估算法。此外,VIF的特征仅有一个HVS参数,便于训练和优化以提高性能。
VIF利用NSS模型进行FR质量评估,并使用众所周知的高斯尺度混合(GSM, Gaussian Scale Mixtures)对小波域中的自然图像进行建模。 图像的小波分析对于自然图像建模是有用的。 GSM模型可以捕获自然图像的关键统计特征,例如自然图像中的线性依赖性。
完美的自然图像可以被建模为随机源的输出。在没有任何失真的情况下,该信号通过HVS进入大脑,然后大脑从中提取认知信息。对于失真图像,可以假设参考信号在通过了另一个失真的信道后才进入HVS。
失真模型捕获重要且互补的失真类型:模糊,加性噪声以及全局/局部的对比度变化。现实世界的失真可以看作是模糊噪声和加性噪声的组合。良好的失真模型对于失真图像和合成图像而言,具备同样的感知结果(perceptual annoyance)。失真模型的目标不是模拟图像伪像(artifacts)而是模拟伪像的感知。即使失真模型可能无法准确地捕获诸如振铃或块效应之类的失真,失真模型仍然能够捕获它们的感知结果。但是,对于模糊和白噪声之外的失真类型(例如,对于低比特率的压缩噪声),失真模型并不能充分地再现感知结果。
也可以在小波域中描述HVS模型。HVS模型是NSS模型的双重模型(HVS models are duals of NSS models),因此HVS的许多方面已经在NSS中捕获,包括:小波信道分解,响应指数和掩蔽效应。HVS会限制流经它的信息量,因此在VIF中,HVS被认为是一种失真信道。HVS不确定性的所有来源都集中在一个称为视觉噪声的加性高斯白噪声(additive white Gaussian stationary noise)中。
VIF将大脑分别从参考中和失真图像的特定子带中提取的信息定义为
I(CN;ENsN), I(CN;FNsN)I(\vec C^N; \vec E^N | s^N), \ I(\vec C^N; \vec F^N | s^N)
。直观而言,视觉质量应该与大脑可以从失真图像中提取的信息量相对于从参考图像中提取的信息量之间的差值有关。例如,如果大脑可以从失真图像中提取2.0 bits/每像素的信息,当大脑可以从参考图像中提取2.1 bits/每像素的信息时,大部分信息都已被大脑获取,因此相应的视觉质量应该非常好。相比之下,如果大脑可以从参考图像中提取5.0 bits/每像素的信息,那么对于每个像素而言,有3.0 bits的信息已经丢失,此时的视觉质量就应该非常差。
VIF的定义如
414{4-14}
(414) VIF=j  subbandsI(CN,j;FN,jsN,j)j  subbandsI(CN,j;EN,jsN,j)(4-14) \ VIF=\frac{\sum_{j \ \in \ subbands} I(\vec C^{N,j}; \vec F^{N,j} | s^{N,j})}{\sum_{j \ \in \ subbands} I(\vec C^{N,j}; \vec E^{N,j} | s^{N,j})}
CN,j\vec C^{N,j}
为随机字段
CjC_j
的N个元素构成的向量,并用来表示子带
jj
中的系数。
VIF<0VIF<0
,表示所有信息在失真信道中丢失。如果测试图像只是它本身的一个副本,并没有扭曲,所以VIF为1。因此,VIF始终在
[0,1][0,1]
的范围内。值得注意的是,因为参考图像的线性对比度的增强不会增加噪声,这将导致VIF值大于1,从而表示增强图像的视觉质量优于参考图像。这是VIF独有的,其它VQA指标所不具备的属性。
Copy link