大样本图像质量主观评价方法

刘阳; 姜润强; 于洪君; 陈健

doi:doi:10.3788/LOP56.131103

激光与光电子学进展, 2019, 56 (13): 131103, 网络出版: 2019-07-11

大样本图像质量主观评价方法下载： 1107次

Subjective Image Quality Assessment for Large Samples

论文大纲

刘阳姜润强 ^*于洪君陈健

作者单位

中国科学院长春光学精密机械与物理研究所, 吉林长春 130033

AI 词云图 AI语音精读 AI语音超短摘要

注：本部分内容由 AI 自动生成，请您知悉。

摘要

针对图像质量数据库的主观评价方法存在失真等级少,缺少实验结果分析等问题,提出一种大样本图像质量主观评价方法。该方法基于双激励连续质量量表进行设计,使用简化的2级主观评价尺度评价,通过循环积分、最优选择和顺序调整获得样本图像的质量排序,并基于模糊聚类分析的思想将获得的图像次序的概率视为匹配程度,建立样本的模糊相似矩阵。通过指标规格化,建立模糊相似关系、等价关系以及分类、评分等步骤,最终确定图像质量得分。64级失真图像质量主观评价实验结果表明,图像质量得分能够准确反映可察觉差异的变化,主观评价结果的正确率达到94%,图像质量得分的标准差介于0~7,均值为3.08(百分制),远低于其他图像质量数据库的水平。所提方法具有较好的准确性和稳定性,适用于图像质量数据库的主观评价和人眼视觉特性研究。

Abstract

This study presents a novel subjective image quality assessment for large samples to solve existing problems in subjective assessments of image quality databases, such as less distortion levels and insufficient analysis of experimental results. The proposed method is based on a double-stimulus continuous quality scale and employs a simplified, two-level subjective assessment scale. We obtain a quality sequence of sample images by integrating circularly, selecting the best quality, and adjusting the sequence. Then, fuzzy clustering is used to analyze the quality sequence. The probability of image quality sequence in fuzzy clustering analysis is taken as its matching degree, which establishes a fuzzy similarity matrix of samples. We obtain the image quality score by normalizing the probability, establishing the fuzzy similarity relationship, and building a fuzzy equivalence relation, classification, and scoring. We test the subjective assessment for a 64-distortion-level image. The results demonstrate that the image quality scores accurately reflect the variation of just-noticeable difference, assessment accuracy is up to 94%, standard deviation of the image quality scores is from 0 to 7, and the mean value of standard deviation is 3.08 (percentile system), which is much less than the current level of other image quality databases. The proposed method demonstrates high accuracy and stability, and is suitable for subjective assessments of image quality databases and the study of human visual characteristics.

1 引言

图像是人工智能获取外界信息的主要来源,图像质量直接影响计算机信息的获取量。在图像采集、传输、存储和显示过程中,因受到离焦、噪声、压缩、丢包或色彩失真等因素的影响,图像质量会存在不同程度的降低。图像质量评价算法(IQA)能精确反映系统的实时状态,实现智能调整,在目标动态追踪、图像压缩、增强以及降噪等技术中应用广泛^[1]。

图像质量数据库是研究IQA的重要工具,主要由参考图像、失真图像和对应的主观评价得分组成,数据库可以用于标定算法阈值、训练神经网络^[2-3]或通过比较算法与主观评价得分的相关系数评估算法的性能^[4],如Spearman等级(SROCC)、Kendall等级(KROCC)、均方根误差(RMSE)等^[5-6]。LIVE(image)^[7]、IVC^[8]、CSIQ^[9]、TID2008^[10-11]和TID2013^[12-13]是目前使用频率较高的几个图像质量数据库^[14-16]。随着神经网络在IQA中的应用和人眼视觉特性的深入研究,上述图像质量数据库暴露出诸多问题。例如,数据库的主观评价结果与可察觉差异(JND)的联系不够紧密^[17];样本容量不足,尤其是多失真因素影响的图像^[18];Ma等^[19]采用客观评价模拟主观评价结果,并创建图像质量数据库Waterloo exploration database,但客观评价得分并不适合作为标准去衡量客观评价算法的性能;Kang等^[20]将图像拆成多块以增加训练集的样本容量,但相机采集的图像多为非均匀性失真,各子模块的得分均值并不能完全作为整体图像的质量得分;基于单激励(SS)^[21]、双激励损伤量表(DSIS)、双激励连续质量量表(DSCQS)^[22]设计的主观评价实验,失真等级少(大多数数据库的失真等级均为5),统计方法简单,缺少对主观评价结果的挖掘和分析^[23]。

扩大数据库图像的失真等级,对多因素影响的图像质量进行主观评价需要增加样本容量,进而导致主观评价结果误差成倍增加,当图像的质量差异接近JND时,这种现象尤为明显,且主观评价实验带有强烈的个人色彩和不确定性,某些图像的评价结果十分模糊,难以摸清规律和确定分数。

针对上述问题,本文提出一种适用于大样本容量的图像质量主观评价方法及评价结果的分析方法。主观评价方法基于DSCQS实现,采用简化的2级主观评价质量尺度以提高方法的准确性,该方法包括循环积分、最优选择和顺序调整3个步骤,将全体样本的质量进行初步分类、排序后,通过最优选择不断优化序列,经顺序调整后获得准确的图像质量排序。主观评价结果的分析方法基于模糊聚类实现,核心思想是将图像获得的排列顺序的概率视为两者的匹配程度,进而建立样本的模糊相似矩阵,实现样本聚类,分析人眼视觉特性的变化规律,最终确定图像质量得分。模糊聚类过程中,质量差异与可察觉差异接近的图像因排列顺序的相似程度较高会迅速聚类,随着阈值λ降低,差异接近JND的图像逐渐聚类,而其他原因造成的误差对图像的相似度影响较小,因此聚类结果所受影响较小。介于模糊统计量的计算过程十分复杂,本文还提出一种确定最佳阈值λ的简易方法。

2 图像质量数据库

图像质量数据库对IQA的研究至关重要。标定算法阈值、训练卷积神经网络以及度量评价算法性能等工作都需要数据库的支持,目前使用频率较高的几个开源图像质量数据库如下。

1) LIVE,LIVE由美国德克萨斯大学奥斯汀分校电气与计算机工程系与心理学系联合建立,共包含29幅参考图像,有白噪声失真、高斯模糊失真、快速瑞丽衰减失真、JPEG和JPEG2000失真5种类型,每种失真类型有5个失真等级,由161位测试人员参与评分,每幅图像测试20~29次,采用SS法设计主观评价实验,得分形式为平均主观得分差异(DMOS)^[7]。

2) IVC,IRCCyN/IVC由法国南特中央理工大学建立,共包含10幅参考图像,失真类型包括模糊、色彩失真、LAR编码、JPEG压缩和JPEG2000压缩5种类型,每种失真类型有4个失真等级,由15位测试人员参与评分,每幅图像测试15次,采用DSIS法设计主观评价实验,得分形式为DMOS^[8]。

3) CSIQ,CSIQ由美国俄克拉荷马州立大学的电气与计算机工程学院建立,共包含30幅参考图像,有高斯模糊、加性高斯白噪声、加性高斯粉红噪声、整体对比度缩减、JPEG压缩和JPEG2000压缩6种类型,每种失真类型包含4~5个失真等级,由25位测试人员参与评分,每幅图像测试5~7次,采用SS法设计主观评价实验,得分形式为DMOS^[9]。

4) TID2008,TID2008由乌克兰国家航空航天大学的信号接收、传输与处理系(N504)建立,共包含25幅无损参考图像,有高斯模糊、图像去噪、加性高斯白噪声、空间位置相关噪声、掩模噪声、高频噪声、脉冲噪声、量化噪声、JPEG压缩、JPEG2000压缩、JPEG传输错误、JPEG2000传输错误、不同强度的局部块失真、强度均值偏移和对比度变化等17种类型,每种失真类型包含4个失真等级,由838位来自不同国家的测试人员参与评分,每幅图像测试33次,采用DSCQS法设计主观评价实验,得分形式为平均主观得分(MOS)^[10-11]。

5) TID2013,TID2013为TID2008的升级版,共包含25幅无损参考图像,失真类型在原有基础上加入色饱和度变化、乘性高斯白噪声、舒适噪声、噪声图像压缩损伤、数字图像颜色量化偏差、色散和稀疏采样与重构7种失真类型,失真类型增加至24种,每种失真类型失真等级增加至5级,由985位来自不同国家的测试人员参与评分,每幅图像测试47次,采用DSCQS法设计主观评价实验,得分形式为MOS^[12-13]。

上述5种常用图像质量数据库的参数如表1所示。主观评价实验参数如表2所示。表2中Screen为主观评价实验使用的显示器类型及尺寸,H_s为屏幕的高度,BMP表示位图文件,PNG表示便携式网络图形文件,CRT表示阴极射线显像管显示器,LCD表示液晶显示器。

表 1. 常用图像质量数据库

Table 1. Widely used image quality databases

Database	Year	Reference	Distortion	Level	Total	Format	Resolution
LIVE(image)	2006	29	5	5	1011	BMP	≤768×512
IVC	2005	10	10	4	195	BMP	512×512
CSIQ	2010	30	6	4-5	930	PNG	512×512
TID2008	2008	25	17	4	1725	BMP	512×384
TID2013	2013	25	24	5	3025	BMP	512×384

查看所有表

表 2. 主观评价实验

Table 2. Experiments of subjective assessment

Database	Method	Score	Subject	Rating	Screen	Distance
LIVE(image)	SS	DMOS	161	20-29	CRT/21″	2H_s-2.5H_s
IVC	DSIS	DMOS	15	15	CRT/21″	6H_s
CSIQ	SS	DMOS	25	5-7	LCD/21″	80 cm
TID2008	DSCQS	MOS	838	33	LCD/19″	2H_s-4H_s
TID2013	DSCQS	MOS	985	47	LCD&CRT/19″	2H_s-4H_s

查看所有表

以TID2013数据库为例,首先简要介绍数据库主观评价实验流程。TID2013的参考图像中失真因素有24种,失真等级为5级,失真图像有120幅。所采用主观评价方法类似国际象棋循环积分赛的规则,包括以下步骤:

1) 将120幅图像两两一组随机分为60组,测试者在观察几秒后选择出两幅图像中质量较好的一幅,被选中的图像+1分,测试软件界面如图1所示;

2) 重复9次步骤1),测试者完成540道选择题后,测试结束;

3) 汇总测试结果,去除2%明显错误的主观评分,取分数平均值为该图像的最终得分。

图 1. TID2013主观评价实验软件界面

Fig. 1. Screenshot of software used in subjective assessment experiments of TID2013

下载图片查看所有图片

分析LIVE、TID等数据库的主观评价实验可知,对于人眼的识别能力,5级失真等级跨度较大,样本容量小时,如TID2013的高斯模糊,每级降质1.73δ(δ为标准偏差),结果远超过JND;主观评价方法缺少对实验数据的挖掘和分析,MOS值与JND没有直接关联。

3 主观评价及分析方法

3.1 主观评价方法

为确保主观评价实验在样本容量增加及图像质量差异接近JND时仍具有较高的准确性,简化ITU-R BT.500-13提出的主观评价质量尺度^[22],仅给予测试者两种选择,ITU-R BT.500-13的主观评价质量尺度如表3所示,简化后的质量尺度如表4所示。

表 3. ITU-R BT.500-13的主观评价质量尺度

Table 3. Quality scale of subjective assessment for ITU-R BT.500-13

Score	Distortion level	Score	Distortion level
-3	Much worse	+1	Slightly better
-2	Worse	+2	Better
-1	Slightly worse	+3	Much better
0	The same

查看所有表

表 4. 简化后的主观评价质量尺度

Table 4. Simplified quality scale of subjective assessment

Score	Distortion level
+2	Better
+1	The same

查看所有表

大样本图像质量主观评价方法由以下3个步骤组成:

1) 循环积分,将待评价的m幅图像随机划分为m/2组,测试人员对每组图像进行评价,质量较好的图像记2分,如果质量相似各记1分,进行r₁次步骤1)后,按图像积分由高至低排序,获得序列O₁;

2) 最优选择,测试者从序列O₁当前分数最高的4幅图像中选出质量最好的图像,将被选中的图像从序列O₁移至序列O₂,重复操作直至序列O₂中包含全部图像,然后将序列O₂作为下一轮测试的序列O₁,重复该操作r₂次;

3) 顺序调整,按序列O₂的顺序显示全部测试图像,测试者将排列明显错误的图像调整到合适的位置,确认无误后结束测试,获得序列O₃。

增加r₁和r₂可以有效提高主观评价实验的准确性,但主观评价实验的流程又不能过于繁琐,本研究方法中r₁和r₂每增加1次,测试题目将分别增加m/2和m-1,因此,设计主观评价实验前可通过仿真实验确定样本容量m与r₁、r₂的最佳关系。假设测试者所有的选择都是正确的,利用Matlab软件仿真r₁和r₂对主观评价结果准确性的影响,图像样本容量m为64,步骤r₁和r₂的次数分别为9~18和3~6,每组仿真进行10000次,所得结果如图2所示。

图 2. r1和r2对主观评价结果的影响

Fig. 2. Effects of r1 and r2 on results of subjective assessment

下载图片查看所有图片

由图2可知,r₁>14且r₂>4时,正确率的提高效果减缓,故当m=64时,选择r₁为14~16,r₂为4~5相对合理,既能保证较高的正确率,又可以避免实验流程过于冗长。根据前期软件测试的反馈结果可知,步骤2)容易引起视觉疲劳,进行到第3轮时,图像的降质程度已经十分接近人视觉系统阈值,重复测试效果甚微,故当m=64时,最终选取r₁=16、r₂=4。循环积分、最优选择和顺序调整3个实验步骤对应的软件界面分别如图3~5所示。

图 3. 循环积分测试界面

Fig. 3. Screenshot of software used in cyclical integrating

下载图片查看所有图片

图 4. 最优选择测试界面

Fig. 4. Screenshot of software used in selecting best quality

下载图片查看所有图片

图 5. 顺序调整测试界面

Fig. 5. Screenshot of software used in adjusting sequence

下载图片查看所有图片

3.2 分析方法

取得多组图像质量的主观评价排序后,基于模糊聚类对主观评价结果进行分析和打分,包括指标规格化、建立模糊相似关系、建立模糊等价关系、分类和打分5个步骤。

1) 指标规格化,研究对象为主观评价结果,共m幅图像n次测试,记为U=[u₁,u₂,…,u_m],其中u_i为第i次测试获得的图像序列O₃,u_i= $\begin{matrix} [s_{i 1}, s_{i 2}, \dots, s_{in'}]^{T} \end{matrix}$ ,s_ij为第j次测试第i幅图像的序号,求解第i幅图像排序为k的概率,有

\begin{matrix} p_{ik} = \frac{N (ik)}{m}, (1) \end{matrix}

式中:N(ik)为主观评价实验中第i幅图像排序为k的次数,概率矩阵P为

\begin{matrix} P = [\begin{matrix} p_{11} & p_{12} & \dots & p_{1 m} \\ p_{21} & p_{22} & \dots & p_{2 m} \\ ︙ & ︙ & ︙ \\ p_{m 1} & p_{m 2} & \dots & p_{mm} \end{matrix}] 。 (2) \end{matrix}

对矩阵P进行规格化处理,可得

\begin{matrix} x_{ik} = \frac{p_{ik} - p_{kmin}}{p_{kmax} - p_{kmin}}, (3) \end{matrix}

式中:p_k_max和p_k_min为第k列元素中的极大值和极小值。规格化后的矩阵X可以描述第i幅图像与排序k的匹配程度,即

\begin{matrix} X = [\begin{matrix} x_{11} & x_{12} & \dots & x_{1 m} \\ x_{21} & x_{22} & \dots & x_{2 m} \\ ︙ & ︙ & ︙ \\ x_{m 1} & x_{m 2} & \dots & x_{mm} \end{matrix}] 。 (4) \end{matrix}

2)建立模糊相似关系,通过数量积法建立u_i与u_j的相似关系,相似系数r_ij为

\begin{matrix} r_{ij} = \{\begin{matrix} 1, i = j \\ \frac{1}{M} \overset{m}{\sum_{k = 1}} x_{ik} x_{jk}, i \neq j \end{matrix}, (5) \end{matrix}

式中:M为大于max( $\begin{matrix} \overset{m}{\sum_{k = 1}} \end{matrix}$ x_i_kx_jk)的最小正整数,利用R表示模糊相似矩阵,元素r_ij表示样本u_i与样本u_j的相似程度,则有

\begin{matrix} R = [\begin{matrix} r_{11} & r_{12} & \dots & r_{1 m} \\ r_{21} & r_{22} & \dots & r_{2 m} \\ ︙ & ︙ & ︙ \\ r_{m 1} & r_{m 2} & \dots & r_{mm} \end{matrix}] 。 (6) \end{matrix}

3) 建立模糊等价关系,R一般只具有自反性和对称性,需要将其改造为模糊等价矩阵,采用平方法求出R的传递闭包 $\begin{matrix} \hat{R} \end{matrix}$ ,则有

\begin{matrix} r_{s} (i, j) = \underset{k \in [1, m]}{\lor} [r (i, k) \land r (k, j)], (7) \end{matrix}

式中:r_s(i,j)、r(i,k),r(k,j)为矩阵R中的元素; $\begin{matrix} \underset{k \in [1, m]}{\lor} \end{matrix}$ 和∧分别表示取极大值和极小值,由模糊数学相关定理可知R^m一定是R的传递闭包 $\begin{matrix} \hat{R} \end{matrix}$ ;

4) 分类,给定适当的λ值,求 $\begin{matrix} \hat{R} \end{matrix}$ 的截关系矩阵,获得图像的动态聚类图,因模糊统计量的计算过程十分繁琐,本文提出一种确定最佳阈值的简易评判方法,具体过程为如下:

a) 大致确定样本图像质量变化趋势,例如,如果失真图像由参考图像降质获得,则随着降质等级的增加,图像质量降低;如果失真图像由相机采集获得,可以先确定一段范围内质量最好和最差的图像,然后确定其他图像的质量变化趋势;

b) 观察图像排序结果的平均值 $\begin{matrix} \bar{u} \end{matrix}$ ,如果几幅图像排序平均值十分接近,则这几幅图像可以以大概率聚类,反之图像不应该聚类;

c) 观察图像的动态聚类图,依靠步骤a)~b)的信息,选择符合标准的几种聚类结果,经过讨论后,从中选择最佳的阈值和对应的聚类结果;

5) 打分,根据图像质量的变化趋势及经验,对少数应该被聚类而没有聚类的图像进行归类,确定最终的排列顺序,并赋予图像质量主观评价得分,分数越低表示图像质量越好,每增加1分代表图像降低一个可辨识等级。

4 主观评价实验及结果分析

通过观察图像质量得分与可察觉差异的关系,以及主观评价结果一致性和图像质量得分标准差,验证所提方法的性能。实验共有10名测试人员参与,每人进行5次测试,实验环境条件基本一致,显示器为分辨率1920 pixel×1080 pixel的21寸LCD显示器,观察距离为显示器高度的2.2倍。图像的失真类型为点扩展模糊和因相机离焦造成的图像失真^[24],共包含64级失真,是其他数据库失真样本容量的12.8倍,点扩展模糊的半径r为图像失真等级的5/16,参考图像为国内某厂家无人机,大小为640 pixel×360 pixel,具体如图6所示。

图 6. 参考图像

Fig. 6. Reference image

下载图片查看所有图片

使用不同形状、颜色的点区别主观评价实验不同结果出现的概率,其中“•”“◇”“□”“*”“×”分别表示事件出现概率介于(0.8,1.0]、(0.6,0.8]、(0.4,0.6]、(0.2,0.4]、(0.0,0.2],统计所有实验结果,如图7所示,计算图像质量排序的均值,P表示概率。

图 7. 主观评价实验结果

Fig. 7. Results of subjective assessment experiments

下载图片查看所有图片

统计图像质量主观评价排序,计算传递闭包并绘制研究样本的动态聚类图,部分动态聚类图结果如图8所示。

由于主观评价的相似度极高,所以当λ=0.94时,图像59、60率先聚类,随着阈值λ逐渐降低,类似17~18,27~29的图像逐渐聚类,而序列中相似度非常低的图像,类似1~16,17和19始终没有聚类。按最佳聚类的筛选标准,经比较可知,λ=0.4964时获得图像的最佳分类方式,64幅图像被划分成40类,图像的质量得分如图9所示。

通过图像质量主观评价得分,可以估算出JND与点扩展模糊半径的对应关系,进而得出:1) 当点扩展模糊半径为0.31~5.00时,对应图像1~16始终没有聚类,对应的JND为0~+0.31(仅考虑点模糊半径增加的情况);2) 随着点扩展模糊半径的增加,图像17~57对应的JND逐渐达到+0.62、+0.93;(3) 点扩展模糊半径为17.5时,图像58对应的JND超过+2.5。

图 8. 图像动态聚类图

Fig. 8. Dynamic clustering diagram of images

下载图片查看所有图片

图 9. 图像质量主观评价得分

Fig. 9. Subjective assessment scores of image quality

下载图片查看所有图片

4.1 图像质量得分与JND

为验证以上结论,基于DSCQS法设计JND实验,使用表4中的绝对评价尺度,参考Rony Ferzli的研究中使用的可察觉模糊(JNB)测试方法^[25],测试软件界面如图10所示。

图 10. 可察觉差异测试软件界面

Fig. 10. Screenshot of software used in test of just-noticeable difference

下载图片查看所有图片

令待测图像与降质图像在同一位置显示,每隔0.5 s切换一次,由测试人员判断图像清晰程度是否发生变化,如果感觉到图像质量发生变化,则记录数据,指出存在差异的位置并简单描述差异;反之,改变点扩展模糊半径的大小,重新进行测试。两幅图像轮流切换以达到增加测试者印象的目的,实验过程中发现逐渐降低图像的质量,测试者的反映会出现“延迟”,结果准确性较差,故选择一幅待测图像和一幅失真图像来回切换;此外,本文提出的图像主观评价测试方法及软件和JND测试方法及软件,都尽可能地隐藏每道题目的意图,以避免测试者揣测出测试方法而影响主观评价结果。

为提高实验结果的准确性,JND测试实验中明确给出图像可察觉差异的定义,即测试者仅能从某些图像的微小细节中隐约感觉到图像的清晰程度发生变化,例如,图11中的黑色进气孔栅栏(①、②),相机侧面的接口和位置(③),黑色镜头(④)等位置,这些差异需要测试者非常仔细地观察才能发现。定义测试者能够感觉到的整幅图像都出现质量降低的差异为明显变化。

图 11. 容易被感知到质量变化的区域

Fig. 11. Areas that are easily perceived to change in quality

下载图片查看所有图片

选择9幅图像进行可察觉差异测试,共有5名科研人员参与测试,每人进行10次测评,最终测试结果的平均值如表5所示。

表 5. 平均JND

Table 5. Mean JND

Distortion level	1	3	5	17	24	32	40	48	56
Point spread blur radius	0.31	0.94	1.56	5.31	7.50	10.00	12.50	15.00	17.50
Just noticeable difference	+0.33	+0.28	+0.34	+0.51	+0.66	+0.97	+1.52	+1.93	+3.35
Obvious difference	+0.69	+0.75	+0.84	+1.86	+2.05	+2.66	+2.84	+3.67	+3.96

查看所有表

降质等级1、3、5的图像,JND分别在待测图像基础上+0.33、+0.28、+0.34,与降质系数比较接近,图像1~16的质量得分与质量等级一一对应,结果与结论1)一致;降质等级17、24的图像,JND系数分别为+0.51、+0.66,数值接近2倍降质系数(0.3125),降质等级17~25存在2~3幅图像质量得分相同的情况,32、40、48的JND系数与图像的聚类情况也基本吻合,结果与结论2)一致;降质等级56的图像,JND系数为+3.35,降质等级56~64的图像均不可识别,图像被聚为一类,结果与结论3)一致。

降质等级1、3、5的图像,人眼可识别的明显变化分别在待测图像基础上模糊+0.69、+0.75、+0.84,接近2~3倍降质系数,在最初的图像排序结果中,降质等级1的图像排序为1和2的概率分别为0.92、0.08,降质等级3、5的图像排序为3、5的概率为1;降质等级17的图像,明显变化对应+1.86,图像排序为14~18的概率分别为0.02、0.06、0.22、0.58和0.12;其他降质等级的图像的得分均处于图像明显变化范围内。

JND测试实验结果表明,初始的评价结果均处于图像的明显变化范围内,图像质量得分曲线与JND的变化规律基本吻合,所提方法能够识别图像的微弱差异,很少出现明显的错误评价,图像质量得分曲线准确反映了可察觉差异的变化。

4.2 主观评价结果一致性

因待测试的样本图像17~64中存在人眼不可识别的图像质量差异,所以观察主观评价结果的一致性和比较图像得分标准差时,以图像1~16的数据为准。由图9的图像质量得分可知,图像1~16未被聚类和调整顺序,可以将图像的降质等级作为该图像的质量得分真值。将每位测试人员的5次主观评价结果作为一组,计算主观评价均值与图像质量得分真值的欧式距离,比较差异、观察实验结果的一致性,欧式距离的求解方法为

\begin{matrix} L_{n} = \sqrt[]{({\bar{s}}_{n 1} {- 1)}^{2} + ({\bar{s}}_{n 2} {- 2)}^{2} + \dots + ({\bar{s}}_{n 16} {- 16)}^{2}}, (8) \end{matrix}

式中:L_n为第n位测试人员主观评价结果与真值的欧氏距离; $\begin{matrix} {\bar{s}}_{nj} \end{matrix}$ 为测试人员的主观评价结果,所得欧式距离结果如图12所示。

图 12. 测试结果与真值的欧式距离

Fig. 12. Euclidean distances between test results and true values

下载图片查看所有图片

按(8)式的计算方法,主观评价过程中,每出现一次错误的主观评价欧氏距离至少增加 $\begin{matrix} \sqrt[]{2} \end{matrix}$ ,而该组数据介于[0.8,2.1],均值仅为1.17,表明测试者对图像1~16的评价差别介于[0.57,1.48],即主观评价的正确率为94.8%。实验结果表明,测试者的个人因素对图像质量主观评价得分的影响较小,参与者5次主观评价结果均值与真值十分接近,实验具有非常好的一致性和可重复性。

4.3 图像质量得分标准差

计算图像1~16主观评价得分的标准差(STD),与其他图像质量数据库的主观评价得分的标准差进行对比。为保证得分标准统一,将得分线性拉伸至满分100分,结果如图13所示。与其他数据库得分的标准差比较结果如图14所示^[23](LIVE、TID2008和TID2013数据库未提供主观评价结果的标准差,此处未列入统计)。

图 13. 所提方法所得结果的标准差

Fig. 13. STDs of results obtained by proposed method

下载图片查看所有图片

图 14. 与其他数据库的标准差比较

Fig. 14. Comparison of STDs between proposed method and other image quality databases

下载图片查看所有图片

由图13可知,本研究图像质量主观评价得分的标准差介于0~7,均值为3.08,而其他图像质量数据库的标准差则介于0~30,标准差均值最低为7.68(CSIQ数据库),是本研究标准差均值的2.49倍。所提方法获得的图像质量得分标准差远低于其他数据库,主观评价结果具有较好的稳定性。

5 结论

针对目前图像质量数据库的主观评价方法存在的问题,提出了一种适用于大样本容量的图像质量主观评价方法及评价结果的分析方法。实验结果表明,该方法可应用于大样本容量图像质量评价实验,能够识别图像质量的微弱变化,图像质量得分能够准确反映人眼视觉特性;主观评价结果的准确率达到94%,百分制下主观评价得分的标准差介于0~7,均值为3.08,远低于其他数据库的标准差,该方法具有很好的一致性、稳定性和可重复性,适用于图像质量数据库的主观评价实验及人眼视觉特性的研究。

本研究通过设计主观评价实验流程并使用模糊聚类分析评价结果,获得了样本较理想的主观评价得分,随着主观评价实验数量的积累,还会发掘出更合理更高效的实验方法和分析手段。虽然所提方法能够在一定程度上提高主观评价实验的效率,但实验过程仍然十分繁琐,需要耗费大量的人力、物力,仅凭借主观评价获得的图像质量得分难以满足深度学习等研究的需求,因此,采用图像质量数据库,并结合主客观评价的方式(即以对抗网络生成的图像质量得分作为训练集真值,以主观评价实验获得的图像质量得分作为测试集真值),既能够满足研究客观评价算法对样本数量的需求,也可使测试结果更具有强的说服力。

参考文献

[1] 王志明. 无参考图像质量评价综述[J]. 自动化学报, 2015, 41(6): 1062-1079.

Wang Z M. Review of no-reference image quality assessment[J]. Acta Automatica Sinica, 2015, 41(6): 1062-1079.

[2] Kim J, Zeng H, Ghadiyaram D, et al. Deep convolutional neural models for picture-quality prediction: challenges and solutions to data-driven image quality assessment[J]. IEEE Signal Processing Magazine, 2017, 34(6): 130-141.

[3] 张清博, 张晓晖, 韩宏伟. 一种基于深度卷积神经网络的水下光电图像质量优化方法[J]. 光学学报, 2018, 38(11): 1110004.

Zhang Q B, Zhang X H, Han H W. Optimization of underwater photoelectric image quality based on deep convolutional neural networks[J]. Acta Optica Sinica, 2018, 38(11): 1110004.

[4] 张帆, 张偌雅, 李珍珍. 基于对称相位一致性的图像质量评价方法[J]. 激光与光电子学进展, 2017, 54(10): 101003.

Zhang F, Zhang R Y, Li Z Z. Image quality assessment based on symmetry phase congruency[J]. Laser & Optoelectronics Progress, 2017, 54(10): 101003.

[5] Sheikh H R, Sabir M F, Bovik A C. A statistical evaluation of recent full reference image quality assessment algorithms[J]. IEEE Transactions on Image Processing, 2006, 15(11): 3440-3451.

[6] 马月梅, 陈海英, 刘国军. 彩色图像质量评价的广义平均池化策略[J]. 激光与光电子学进展, 2018, 55(2): 021007.

Ma Y M, Chen H Y, Liu G J. General mean pooling strategy for color image quality assessment[J]. Laser & Optoelectronics Progress, 2018, 55(2): 021007.

[7] Sheikh HZ, WangZ, CormackL, et al. LIVE image quality assessment database release 2[OL]. ( 2006)[ 2018-10-24]. http:∥live.ece.utexas.edu/research/quality/subjective.htm.

[8] Callet PLe, Autrusseau F. Subjective quality assessment IRCCyN/IVC database[OL]. ( 2005)[ 2018-10-24]. http:∥www.irccyn.ec-nantes.fr/ivcdb/.

[9] Larson EC, Chandler D M. Consumer subjective image quality database[OL].( 2009)[ 2018-10-24]. http:∥vision.okstate.edu/index.php?loc=csiq.

[10] Tampere imagedatabase2008TID2008[OL]. ( 2008)[2018-10-24]. http:∥www.ponomarenko.info/tid2008.htm.

[11] Ponomarenko N, Lukin V, Zelensky A, et al. TID2008: a database for evaluation of full-reference visual quality assessment metrics[J]. Advances of Modern Radioelectron, 2009, 10: 30-45.

[12] Tampere imagedatabase2013TID2013[OL]. ( 2013)[2018-10-24]. http:∥www.ponomarenko.info/tid2013.htm.

[13] Ponomarenko N, Jin L N, Ieremeiev O, et al. Image database TID2013: peculiarities, results and perspectives[J]. Signal Processing: Image Communication, 2015, 30: 57-77.

[14] Ninassi A, Callet P L, Autrusseau F. Pseudo no reference image quality metric using perceptual data hiding[J]. Proceedings of SPIE, 2006, 6057: 60570G.

[15] Larson E C, Chandler D M. Most apparent distortion: full-reference image quality assessment and the role of strategy[J]. Journal of Electronic Imaging, 2010, 19(1): 011006.

[16] Kundu D, Choi L K, Bovik A C, et al. Perceptual quality evaluation of synthetic pictures distorted by compression and transmission[J]. Signal Processing: Image Communication, 2018, 61: 54-72.

[17] Chandler D M. Seven challenges in image quality assessment: past, present, and future research[J]. ISRN Signal Processing, 2013, 2013: 1-53.

[18] 侯春萍, 马彤彤, 岳广辉, 等. 基于高阶相位一致性的混合失真图像质量评价[J]. 激光与光电子学进展, 2017, 54(7): 071001.

Hou C P, Ma T T, Yue G H, et al. Multiply-distorted image quality assessment based on high-order phase congruency[J]. Laser & Optoelectronics Progress, 2017, 54(7): 071001.

[19] Ma K D, Duanmu Z F, Wu Q B, et al. Waterloo exploration database: new challenges for image quality assessment models[J]. IEEE Transactions on Image Processing, 2017, 26(2): 1004-1016.

[20] KangL, YeP, LiY, et al. Convolutional neural networks for no-reference image quality assessment[C]∥2014 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2014, Columbus, OH, USA. New York: IEEE, 2014: 1733- 1740.

[21] ITU-T Recommendation P.910. Subjective video quality assessment methods for multimedia applications [EB/OL]. ( 2008)[ 2018-10-25]. http:∥handle.itu.int/11.1002/1000/9317-en?locatt=id:2&auth.

[22] ITU-R Recommendation BT.500-13. Methodology for the subjective assessment of the quality of television pictures[EB/OL]. ( 2012)[ 2018-10-25]. https:∥www.itu.int/dms_pubrec/itu-r/rec/bt/R-REC-BT.500-13-201201-I!!PDF-E.pdf.

[23] Winkler S. Analysis of public image and video databases for quality assessment[J]. IEEE Journal of Selected Topics in Signal Processing, 2012, 6(6): 616-625.

[24] 洪裕珍, 任国强, 孙健, 等. 离焦模糊图像清晰度评价函数的分析与改进[J]. 光学精密工程, 2014, 22(12): 3401-3408.

Hong Y Z, Ren G Q, Sun J, et al. Analysis and improvement on sharpness evaluation function of defocused image[J]. Optics and Precision Engineering, 2014, 22(12): 3401-3408.

[25] Ferzli R, Karam L J. A no-reference objective image sharpness metric based on the notion of just noticeable blur (JNB)[J]. IEEE Transactions on Image Processing, 2009, 18(4): 717-728.

刘阳, 姜润强, 于洪君, 陈健. 大样本图像质量主观评价方法[J]. 激光与光电子学进展, 2019, 56(13): 131103. Yang Liu, Runqiang Jiang, Hongjun Yu, Jian Chen. Subjective Image Quality Assessment for Large Samples[J]. Laser & Optoelectronics Progress, 2019, 56(13): 131103.

大样本图像质量主观评价方法 下载： 1107次

1 引言

2 图像质量数据库

表 1. 常用图像质量数据库

Table 1. Widely used image quality databases

表 2. 主观评价实验

Table 2. Experiments of subjective assessment

图 1. TID2013主观评价实验软件界面

Fig. 1. Screenshot of software used in subjective assessment experiments of TID2013

3 主观评价及分析方法

3.1 主观评价方法

表 3. ITU-R BT.500-13的主观评价质量尺度

Table 3. Quality scale of subjective assessment for ITU-R BT.500-13

表 4. 简化后的主观评价质量尺度

Table 4. Simplified quality scale of subjective assessment

图 2. r1和r2对主观评价结果的影响

Fig. 2. Effects of r1 and r2 on results of subjective assessment

图 3. 循环积分测试界面

Fig. 3. Screenshot of software used in cyclical integrating

图 4. 最优选择测试界面

Fig. 4. Screenshot of software used in selecting best quality

图 5. 顺序调整测试界面

Fig. 5. Screenshot of software used in adjusting sequence

3.2 分析方法

4 主观评价实验及结果分析

图 6. 参考图像

Fig. 6. Reference image

图 7. 主观评价实验结果

Fig. 7. Results of subjective assessment experiments

图 8. 图像动态聚类图

Fig. 8. Dynamic clustering diagram of images

图 9. 图像质量主观评价得分

Fig. 9. Subjective assessment scores of image quality

4.1 图像质量得分与JND

图 10. 可察觉差异测试软件界面

Fig. 10. Screenshot of software used in test of just-noticeable difference

图 11. 容易被感知到质量变化的区域

Fig. 11. Areas that are easily perceived to change in quality

表 5. 平均JND

Table 5. Mean JND

4.2 主观评价结果一致性

图 12. 测试结果与真值的欧式距离

Fig. 12. Euclidean distances between test results and true values

4.3 图像质量得分标准差

图 13. 所提方法所得结果的标准差

Fig. 13. STDs of results obtained by proposed method

图 14. 与其他数据库的标准差比较

Fig. 14. Comparison of STDs between proposed method and other image quality databases

5 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

大样本图像质量主观评价方法下载： 1107次