大样本图像质量主观评价方法 下载: 1107次
1 引言
图像是人工智能获取外界信息的主要来源,图像质量直接影响计算机信息的获取量。在图像采集、传输、存储和显示过程中,因受到离焦、噪声、压缩、丢包或色彩失真等因素的影响,图像质量会存在不同程度的降低。图像质量评价算法(IQA)能精确反映系统的实时状态,实现智能调整,在目标动态追踪、图像压缩、增强以及降噪等技术中应用广泛[1]。
图像质量数据库是研究IQA的重要工具,主要由参考图像、失真图像和对应的主观评价得分组成,数据库可以用于标定算法阈值、训练神经网络[2-3]或通过比较算法与主观评价得分的相关系数评估算法的性能[4],如Spearman等级(SROCC)、Kendall等级(KROCC)、均方根误差(RMSE)等[5-6]。LIVE(image)[7]、IVC[8]、CSIQ[9]、TID2008[10-11]和TID2013[12-13]是目前使用频率较高的几个图像质量数据库[14-16]。随着神经网络在IQA中的应用和人眼视觉特性的深入研究,上述图像质量数据库暴露出诸多问题。例如,数据库的主观评价结果与可察觉差异(JND)的联系不够紧密[17];样本容量不足,尤其是多失真因素影响的图像[18];Ma等[19]采用客观评价模拟主观评价结果,并创建图像质量数据库Waterloo exploration database,但客观评价得分并不适合作为标准去衡量客观评价算法的性能;Kang等[20]将图像拆成多块以增加训练集的样本容量,但相机采集的图像多为非均匀性失真,各子模块的得分均值并不能完全作为整体图像的质量得分;基于单激励(SS)[21]、双激励损伤量表(DSIS)、双激励连续质量量表(DSCQS)[22]设计的主观评价实验,失真等级少(大多数数据库的失真等级均为5),统计方法简单,缺少对主观评价结果的挖掘和分析[23]。
扩大数据库图像的失真等级,对多因素影响的图像质量进行主观评价需要增加样本容量,进而导致主观评价结果误差成倍增加,当图像的质量差异接近JND时,这种现象尤为明显,且主观评价实验带有强烈的个人色彩和不确定性,某些图像的评价结果十分模糊,难以摸清规律和确定分数。
针对上述问题,本文提出一种适用于大样本容量的图像质量主观评价方法及评价结果的分析方法。主观评价方法基于DSCQS实现,采用简化的2级主观评价质量尺度以提高方法的准确性,该方法包括循环积分、最优选择和顺序调整3个步骤,将全体样本的质量进行初步分类、排序后,通过最优选择不断优化序列,经顺序调整后获得准确的图像质量排序。主观评价结果的分析方法基于模糊聚类实现,核心思想是将图像获得的排列顺序的概率视为两者的匹配程度,进而建立样本的模糊相似矩阵,实现样本聚类,分析人眼视觉特性的变化规律,最终确定图像质量得分。模糊聚类过程中,质量差异与可察觉差异接近的图像因排列顺序的相似程度较高会迅速聚类,随着阈值
2 图像质量数据库
图像质量数据库对IQA的研究至关重要。标定算法阈值、训练卷积神经网络以及度量评价算法性能等工作都需要数据库的支持,目前使用频率较高的几个开源图像质量数据库如下。
1) LIVE,LIVE由美国德克萨斯大学奥斯汀分校电气与计算机工程系与心理学系联合建立,共包含29幅参考图像,有白噪声失真、高斯模糊失真、快速瑞丽衰减失真、JPEG和JPEG2000失真5种类型,每种失真类型有5个失真等级,由161位测试人员参与评分,每幅图像测试20~29次,采用SS法设计主观评价实验,得分形式为平均主观得分差异(DMOS)[7]。
2) IVC,IRCCyN/IVC由法国南特中央理工大学建立,共包含10幅参考图像,失真类型包括模糊、色彩失真、LAR编码、JPEG压缩和JPEG2000压缩5种类型,每种失真类型有4个失真等级,由15位测试人员参与评分,每幅图像测试15次,采用DSIS法设计主观评价实验,得分形式为DMOS[8]。
3) CSIQ,CSIQ由美国俄克拉荷马州立大学的电气与计算机工程学院建立,共包含30幅参考图像,有高斯模糊、加性高斯白噪声、加性高斯粉红噪声、整体对比度缩减、JPEG压缩和JPEG2000压缩6种类型,每种失真类型包含4~5个失真等级,由25位测试人员参与评分,每幅图像测试5~7次,采用SS法设计主观评价实验,得分形式为DMOS[9]。
4) TID2008,TID2008由乌克兰国家航空航天大学的信号接收、传输与处理系(N504)建立,共包含25幅无损参考图像,有高斯模糊、图像去噪、加性高斯白噪声、空间位置相关噪声、掩模噪声、高频噪声、脉冲噪声、量化噪声、JPEG压缩、JPEG2000压缩、JPEG传输错误、JPEG2000传输错误、不同强度的局部块失真、强度均值偏移和对比度变化等17种类型,每种失真类型包含4个失真等级,由838位来自不同国家的测试人员参与评分,每幅图像测试33次,采用DSCQS法设计主观评价实验,得分形式为平均主观得分(MOS)[10-11]。
5) TID2013,TID2013为TID2008的升级版,共包含25幅无损参考图像,失真类型在原有基础上加入色饱和度变化、乘性高斯白噪声、舒适噪声、噪声图像压缩损伤、数字图像颜色量化偏差、色散和稀疏采样与重构7种失真类型,失真类型增加至24种,每种失真类型失真等级增加至5级,由985位来自不同国家的测试人员参与评分,每幅图像测试47次,采用DSCQS法设计主观评价实验,得分形式为MOS [12-13]。
上述5种常用图像质量数据库的参数如
表 1. 常用图像质量数据库
Table 1. Widely used image quality databases
|
表 2. 主观评价实验
Table 2. Experiments of subjective assessment
|
以TID2013数据库为例,首先简要介绍数据库主观评价实验流程。TID2013的参考图像中失真因素有24种,失真等级为5级,失真图像有120幅。所采用主观评价方法类似国际象棋循环积分赛的规则,包括以下步骤:
1) 将120幅图像两两一组随机分为60组,测试者在观察几秒后选择出两幅图像中质量较好的一幅,被选中的图像+1分,测试软件界面如
2) 重复9次步骤1),测试者完成540道选择题后,测试结束;
3) 汇总测试结果,去除2%明显错误的主观评分,取分数平均值为该图像的最终得分。
图 1. TID2013主观评价实验软件界面
Fig. 1. Screenshot of software used in subjective assessment experiments of TID2013
分析LIVE、TID等数据库的主观评价实验可知,对于人眼的识别能力,5级失真等级跨度较大,样本容量小时,如TID2013的高斯模糊,每级降质1.73
3 主观评价及分析方法
3.1 主观评价方法
为确保主观评价实验在样本容量增加及图像质量差异接近JND时仍具有较高的准确性,简化ITU-R BT.500-13提出的主观评价质量尺度[22],仅给予测试者两种选择,ITU-R BT.500-13的主观评价质量尺度如
表 3. ITU-R BT.500-13的主观评价质量尺度
Table 3. Quality scale of subjective assessment for ITU-R BT.500-13
|
表 4. 简化后的主观评价质量尺度
Table 4. Simplified quality scale of subjective assessment
|
大样本图像质量主观评价方法由以下3个步骤组成:
1) 循环积分,将待评价的
2) 最优选择,测试者从序列
3) 顺序调整,按序列
增加
由
3.2 分析方法
取得多组图像质量的主观评价排序后,基于模糊聚类对主观评价结果进行分析和打分,包括指标规格化、建立模糊相似关系、建立模糊等价关系、分类和打分5个步骤。
1) 指标规格化,研究对象为主观评价结果,共
式中:
对矩阵
式中:
2)建立模糊相似关系,通过数量积法建立
式中:
3) 建立模糊等价关系,
式中:
4) 分类,给定适当的
a) 大致确定样本图像质量变化趋势,例如,如果失真图像由参考图像降质获得,则随着降质等级的增加,图像质量降低;如果失真图像由相机采集获得,可以先确定一段范围内质量最好和最差的图像,然后确定其他图像的质量变化趋势;
b) 观察图像排序结果的平均值
c) 观察图像的动态聚类图,依靠步骤a)~b)的信息,选择符合标准的几种聚类结果,经过讨论后,从中选择最佳的阈值和对应的聚类结果;
5) 打分,根据图像质量的变化趋势及经验,对少数应该被聚类而没有聚类的图像进行归类,确定最终的排列顺序,并赋予图像质量主观评价得分,分数越低表示图像质量越好,每增加1分代表图像降低一个可辨识等级。
4 主观评价实验及结果分析
通过观察图像质量得分与可察觉差异的关系,以及主观评价结果一致性和图像质量得分标准差,验证所提方法的性能。实验共有10名测试人员参与,每人进行5次测试,实验环境条件基本一致,显示器为分辨率1920 pixel×1080 pixel的21寸LCD显示器,观察距离为显示器高度的2.2倍。图像的失真类型为点扩展模糊和因相机离焦造成的图像失真[24],共包含64级失真,是其他数据库失真样本容量的12.8倍,点扩展模糊的半径
使用不同形状、颜色的点区别主观评价实验不同结果出现的概率,其中“•”“◇”“□”“*”“×”分别表示事件出现概率介于(0.8,1.0]、(0.6,0.8]、(0.4,0.6]、(0.2,0.4]、(0.0,0.2],统计所有实验结果,如
统计图像质量主观评价排序,计算传递闭包并绘制研究样本的动态聚类图,部分动态聚类图结果如
由于主观评价的相似度极高,所以当
通过图像质量主观评价得分,可以估算出JND与点扩展模糊半径的对应关系,进而得出:1) 当点扩展模糊半径为0.31~5.00时,对应图像1~16始终没有聚类,对应的JND为0~+0.31(仅考虑点模糊半径增加的情况);2) 随着点扩展模糊半径的增加,图像17~57对应的JND逐渐达到+0.62、+0.93;(3) 点扩展模糊半径为17.5时,图像58对应的JND超过+2.5。
4.1 图像质量得分与JND
为验证以上结论,基于DSCQS法设计JND实验,使用
图 10. 可察觉差异测试软件界面
Fig. 10. Screenshot of software used in test of just-noticeable difference
令待测图像与降质图像在同一位置显示,每隔0.5 s切换一次,由测试人员判断图像清晰程度是否发生变化,如果感觉到图像质量发生变化,则记录数据,指出存在差异的位置并简单描述差异;反之,改变点扩展模糊半径的大小,重新进行测试。两幅图像轮流切换以达到增加测试者印象的目的,实验过程中发现逐渐降低图像的质量,测试者的反映会出现“延迟”,结果准确性较差,故选择一幅待测图像和一幅失真图像来回切换;此外,本文提出的图像主观评价测试方法及软件和JND测试方法及软件,都尽可能地隐藏每道题目的意图,以避免测试者揣测出测试方法而影响主观评价结果。
为提高实验结果的准确性,JND测试实验中明确给出图像可察觉差异的定义,即测试者仅能从某些图像的微小细节中隐约感觉到图像的清晰程度发生变化,例如,
选择9幅图像进行可察觉差异测试,共有5名科研人员参与测试,每人进行10次测评,最终测试结果的平均值如
表 5. 平均JND
Table 5. Mean JND
|
降质等级1、3、5的图像,JND分别在待测图像基础上+0.33、+0.28、+0.34,与降质系数比较接近,图像1~16的质量得分与质量等级一一对应,结果与结论1)一致;降质等级17、24的图像,JND系数分别为+0.51、+0.66,数值接近2倍降质系数(0.3125),降质等级17~25存在2~3幅图像质量得分相同的情况,32、40、48的JND系数与图像的聚类情况也基本吻合,结果与结论2)一致;降质等级56的图像,JND系数为+3.35,降质等级56~64的图像均不可识别,图像被聚为一类,结果与结论3)一致。
降质等级1、3、5的图像,人眼可识别的明显变化分别在待测图像基础上模糊+0.69、+0.75、+0.84,接近2~3倍降质系数,在最初的图像排序结果中,降质等级1的图像排序为1和2的概率分别为0.92、0.08,降质等级3、5的图像排序为3、5的概率为1;降质等级17的图像,明显变化对应+1.86,图像排序为14~18的概率分别为0.02、0.06、0.22、0.58和0.12;其他降质等级的图像的得分均处于图像明显变化范围内。
JND测试实验结果表明,初始的评价结果均处于图像的明显变化范围内,图像质量得分曲线与JND的变化规律基本吻合,所提方法能够识别图像的微弱差异,很少出现明显的错误评价,图像质量得分曲线准确反映了可察觉差异的变化。
4.2 主观评价结果一致性
因待测试的样本图像17~64中存在人眼不可识别的图像质量差异,所以观察主观评价结果的一致性和比较图像得分标准差时,以图像1~16的数据为准。由
式中:
按(8)式的计算方法,主观评价过程中,每出现一次错误的主观评价欧氏距离至少增加
4.3 图像质量得分标准差
计算图像1~16主观评价得分的标准差(STD),与其他图像质量数据库的主观评价得分的标准差进行对比。为保证得分标准统一,将得分线性拉伸至满分100分,结果如
图 14. 与其他数据库的标准差比较
Fig. 14. Comparison of STDs between proposed method and other image quality databases
由
5 结论
针对目前图像质量数据库的主观评价方法存在的问题,提出了一种适用于大样本容量的图像质量主观评价方法及评价结果的分析方法。实验结果表明,该方法可应用于大样本容量图像质量评价实验,能够识别图像质量的微弱变化,图像质量得分能够准确反映人眼视觉特性;主观评价结果的准确率达到94%,百分制下主观评价得分的标准差介于0~7,均值为3.08,远低于其他数据库的标准差,该方法具有很好的一致性、稳定性和可重复性,适用于图像质量数据库的主观评价实验及人眼视觉特性的研究。
本研究通过设计主观评价实验流程并使用模糊聚类分析评价结果,获得了样本较理想的主观评价得分,随着主观评价实验数量的积累,还会发掘出更合理更高效的实验方法和分析手段。虽然所提方法能够在一定程度上提高主观评价实验的效率,但实验过程仍然十分繁琐,需要耗费大量的人力、物力,仅凭借主观评价获得的图像质量得分难以满足深度学习等研究的需求,因此,采用图像质量数据库,并结合主客观评价的方式(即以对抗网络生成的图像质量得分作为训练集真值,以主观评价实验获得的图像质量得分作为测试集真值),既能够满足研究客观评价算法对样本数量的需求,也可使测试结果更具有强的说服力。
[1] 王志明. 无参考图像质量评价综述[J]. 自动化学报, 2015, 41(6): 1062-1079.
[3] 张清博, 张晓晖, 韩宏伟. 一种基于深度卷积神经网络的水下光电图像质量优化方法[J]. 光学学报, 2018, 38(11): 1110004.
[4] 张帆, 张偌雅, 李珍珍. 基于对称相位一致性的图像质量评价方法[J]. 激光与光电子学进展, 2017, 54(10): 101003.
[6] 马月梅, 陈海英, 刘国军. 彩色图像质量评价的广义平均池化策略[J]. 激光与光电子学进展, 2018, 55(2): 021007.
[7] Sheikh HZ, WangZ, CormackL, et al. LIVE image quality assessment database release 2[OL]. ( 2006)[ 2018-10-24]. http:∥live.ece.utexas.edu/research/quality/subjective.htm.
[8] Callet PLe, Autrusseau F. Subjective quality assessment IRCCyN/IVC database[OL]. ( 2005)[ 2018-10-24]. http:∥www.irccyn.ec-nantes.fr/ivcdb/.
[9] Larson EC, Chandler D M. Consumer subjective image quality database[OL].( 2009)[ 2018-10-24]. http:∥vision.okstate.edu/index.php?loc=csiq.
[10] Tampere imagedatabase2008TID2008[OL]. ( 2008)[2018-10-24]. http:∥www.ponomarenko.info/tid2008.htm.
[11] Ponomarenko N, Lukin V, Zelensky A, et al. TID2008: a database for evaluation of full-reference visual quality assessment metrics[J]. Advances of Modern Radioelectron, 2009, 10: 30-45.
[12] Tampere imagedatabase2013TID2013[OL]. ( 2013)[2018-10-24]. http:∥www.ponomarenko.info/tid2013.htm.
[16] Kundu D, Choi L K, Bovik A C, et al. Perceptual quality evaluation of synthetic pictures distorted by compression and transmission[J]. Signal Processing: Image Communication, 2018, 61: 54-72.
[18] 侯春萍, 马彤彤, 岳广辉, 等. 基于高阶相位一致性的混合失真图像质量评价[J]. 激光与光电子学进展, 2017, 54(7): 071001.
[20] KangL, YeP, LiY, et al. Convolutional neural networks for no-reference image quality assessment[C]∥2014 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2014, Columbus, OH, USA. New York: IEEE, 2014: 1733- 1740.
[21] ITU-T Recommendation P.910. Subjective video quality assessment methods for multimedia applications [EB/OL]. ( 2008)[ 2018-10-25]. http:∥handle.itu.int/11.1002/1000/9317-en?locatt=id:2&auth.
[22] ITU-R Recommendation BT.500-13. Methodology for the subjective assessment of the quality of television pictures[EB/OL]. ( 2012)[ 2018-10-25]. https:∥www.itu.int/dms_pubrec/itu-r/rec/bt/R-REC-BT.500-13-201201-I!!PDF-E.pdf.
[24] 洪裕珍, 任国强, 孙健, 等. 离焦模糊图像清晰度评价函数的分析与改进[J]. 光学精密工程, 2014, 22(12): 3401-3408.
Article Outline
刘阳, 姜润强, 于洪君, 陈健. 大样本图像质量主观评价方法[J]. 激光与光电子学进展, 2019, 56(13): 131103. Yang Liu, Runqiang Jiang, Hongjun Yu, Jian Chen. Subjective Image Quality Assessment for Large Samples[J]. Laser & Optoelectronics Progress, 2019, 56(13): 131103.