前言
网络感知方法
类似PSNR的客观视频质量指标,既不能与视觉的感知质量完美匹配,也不考虑有损网络环境中(例如,多跳无线网状网络)的数据分组丢失。虽然PSNR和类似指标可用于评估桌面编码应用程序中的视频质量和有线网络上的流式传输,但当它们用于评估无线网络上的视频质量时,会出现明显的不准确性。
例如,在无线环境中,与原始未失真视频相比,具有38dB左右的PSNR的视频流(在桌面视频编码应用中通常被认为是中高质量)实际上被认为具有同等的质量。这是因为无线视频应用通常使用UDP协议,UDP协议不保证可靠的传输并且允许数据丢失以满足延迟要求。通常,与有线网络相比,在不稳定的无线信道组成的无线局域网(WLAN)中的丢包的概率要高很多。在这样的网络环境中,丢失连续的分组数据可能导致整个帧的丢失。因此,与桌面视频编码应用相比,此时会进一步降低视频的感知质量。

修正的PSNR

为了解决视频帧的丢失问题,提出了修正的PSNR方法(MPSNR, Modified PSNR)。基于PSNR和主观MOS的线性回归,提出了两个客观指标。 1. 第一个指标称为基于PSNR的客观MOS(POMOS, PSNR-based Objective MOS)指标。POMOS利用平均PSNR来预测MOS,并且与MOS之间的相关性达到了0.87。 2. 第二个指标称为基于速率的客观MOS(ROMOS, Rate-based Objective MOS)指标。ROMOS增加了诸如帧丢失率之类的网络参数,并且与MOS之间的相关性高达0.94。
帧丢失现象在无线网络中非常普遍,但传统的PSNR计算中却没有考虑这个因素。流式传输期间的分组数据丢失可能会导致帧丢失。然而,用户通常无法识别这种视频帧的丢失。但是,丢失的帧会导致在PSNR计算期间将错误的帧与原始帧进行比较。这种偏离位置的比较会导致PSNR的降低。解决此问题的方法是在源视频中引入时序信息。但是对源视频的这种修改并不受欢迎。
要确定是否存在帧丢失的情况,另一种方法是将帧与原始帧进行匹配。该算法假设当所有帧匹配时所有帧的PSNR之和最大化,并且使用该PSNR的和来确定不匹配帧。MPSNR将流式视频中的每个帧与参考视频中的帧进行匹配,从而使得所有匹配帧之间的PSNR之和最大化。并且,需要一个移动窗口来确定匹配帧的位置。如果流式视频中的帧
jj
与参考视频中帧
kk
匹配,则认为帧
(kj)(k-j)
丢失。但是需要注意的是,这种匹配的方法仅仅适用于无损传输的信道(此处的无损特指画面质量无损,而不是上文提到的数据丢失)中。对于存在画质损失的传输信道而言,因为画质已经收到折损,所以无法进行这种匹配查找。
MPSNR还测量了如下的视频流参数: 1. Distorted frame rate(
dd
):视频流种不匹配的帧的比例。 2. Distorted frame PSNR(
dPSNRdPSNR
):所有不匹配的帧的平均PSNR。 3. Frame loss rate (
ll
):视频流中丢失的帧的占比。该参数通过比较接收的流式视频的帧数与参考视频中的帧数来计算。
一旦流式视频和参考视频中的相应帧完成匹配,并且已经计算出流式视频中的每个帧的PSNR,则很容易获取上述提到的所有参。
在MPSNR模型中,这种匹配方法可以应用于训练视频集,并且计算窗口
WW
的平均PSNR。实验结果表明,平均PSNR与主观MOS呈线性关系。因此,可以用平均PSNR的线性模型来预测MOS得分。PSNR的线性模型如下所示:
(420) POMOS=0.8311+0.0392(average PSNR)(4-20) \ POMOS=0.8311+0.0392(average \ PSNR)
需要注意的是,上述模型中使用了平均PSNR。对于完全匹配的帧而言,其平均PSNR为无穷大(或非常高的值),因此这会影响MOS的预测。为了缓解这个问题,提出了另一种不使用PSNR的线性模型:
(421) ROMOS=4.3670.5040ddPSNR0.0517l(4-21) \ ROMOS=4.367-0.5040 \frac{d}{dPSNR}-0.0517l
Copy link