基于人脸聚类的视频中人脸图像优选方法的研究 下载: 1262次
1 引言
随着监控硬件和计算机视觉技术的发展,视频监控系统在生活中得到了大量应用,随之而来的就是海量的监控数据,但在海量的监控数据中往往只有少量有效信息[1]。例如,在人脸识别时,只需要在获取到的同一人的人脸图像中选取一张较优的人脸图像即可,这样不仅可以减少系统工作量,还可以提高人脸识别率[2]。目前,人脸图像优选在获取同一人的人脸图像时,常用的方法为人脸跟踪。多人脸跟踪出现遮挡时,会出现跟踪目标丢失、跟踪错误等情况,此外还需要设定进出边界以及时为新出现的目标添加跟踪器、为消失的目标取消跟踪器[3],这一工作难度较高并且在实际环境中也难以设定边界。而对于人脸聚类,无论是黄熠斌[4]提出的传统的基于图论的人脸聚类、周成举[5]提出的基于约束稀疏表达的人脸聚类,还是申小敏等[6]提出的基于卷积神经网络的人脸聚类,实验结果均表明人脸聚类具有良好效果。因此,本文提出采用人脸聚类代替人脸跟踪以获取同一人的人脸图像。
人脸图像优选方法目前主要分为三类。1) 将多因素加权融合进行人脸图像优选。例如:Nasrollahi等[7]将人脸姿态、图像对比度、亮度、分辨率的分数进行加权融合;蒋刚毅等[8]将人脸位置、图像对比度、清晰度和明亮度进行融合对人脸图像进行质量评估。2) 提取人脸特征进行人脸图像优选。例如:Wong等[9]主要通过提取分块后的人脸图像的离散余弦变换(DCT)特征建立概率模型,并进行分数计算;范赐恩等[10]提取局部二值模式(LBP)特征、陈正浩等[11]提取方向梯度直方图(HOG)特征与空间包络(GIST)特征,并将HOG和GIST两特征融合,在特征提取后,二者都将进行分数回归。3) 采用神经网络进行人脸图像优选。例如:王亚等[12]将AlexNet的中间卷积层与全连接层连接,自动融合多尺度特征进行图像质量评估;Liu等[13]首先利用神经网络(VGG)提取大量图像特征,再通过稀疏字典学习选择有效的特征,最后用支持向量回归(SVR)预测人脸图像质量分数。
第1)类优选方法未考虑到视频中由于人的运动而产生的人与物体、人与人之间的遮挡;第2)类优选方法中,采用单一特征进行优选,具有局限性,而多特征融合的方法会降低系统效率;第3)类优选方法能够对图像清晰度、人脸姿态及表情作出有效的评分,但神经网络训练的实现较为复杂。因此,本文根据视频中人脸图像的实际特点,提出人脸旋转程度评价指标、人眼状态评价指标、人脸遮挡程度评价指标以及人脸图像清晰度评价指标的构造方法,然后根据同一人的人脸图像集中所有人脸图像这4个评价指标的分数来确定权重系数,对4个评价指标进行线性加权组合,从而得到评价人脸图像的综合评价指标。
2 人脸聚类
2.1 人脸特征提取
采用残差网络(ResNet)模型进行人脸特征提取。2016年,He等[14]凭借其提出的152层ResNet赢得了ILSVRC图像识别竞赛的冠军,在 ImageNet 数据集上ResNet模型把错误率降低到3.57%。与普通卷积神经网络相比,ResNet的优势在于使用跳过连接,让神经网络从拟合
2.2 Chinese Whispers聚类
采用Chinese Whispers[15]聚类算法进行人脸聚类,该算法是一种无监督的聚类算法,可自动查找类别个数,原理简单并且能够快速聚类。Chinese Whispers聚类算法的步骤如下:
步骤1:无向图初始化。每个人脸图像都作为无向图的一个节点,每个人脸图像节点为一个类别,不同节点之间根据ResNet提取的特征计算相似度。若两个节点之间的相似度超过设定的阈值,则将两个节点相连形成关联边,边的权重为两个节点间的相似度。
步骤2:随机选取一个未遍历过的人脸图像节点
步骤3:重复步骤2,直至遍历所有节点。
步骤4:重复步骤2和步骤3,直至满足迭代次数。
3 人脸图像优选方法
在视频中,通常会由于人脸的快速转动以及行人的步速加快,所获取到的人脸图像比较模糊。此外,人眼还可能处于睁眼、闭眼以及半睁眼的状态,并且行人间的遮挡以及物体对行人的遮挡导致获取到的人脸图像不完整。因此,在构造评价指标时,根据视频相较于静态人脸图像所具有的特性,选取人脸旋转程度、人眼状态、人脸遮挡程度、人脸图像清晰度作为人脸图像质量的评价指标。对同一人的一组人脸图像分别计算4个指标所得分数的均值,将归一化的均值分别作为4个指标的权重系数,最终得到人脸图像质量的综合评价指标。
3.1 人脸图像优选指标的定义
采用人脸关键点的人脸姿态估计相比其他的姿态估计方法,无论理论还是实现都较为简单、方便。此外,根据人脸关键点不仅能较好地估计人脸旋转角度,而且还能估计人眼状态。因此,本文根据检测出的人脸关键点给出人脸旋转程度及人眼状态的评价指标。
3.1.1 人脸旋转程度评价指标
文献[
16]表明,通过将二维人脸图像中双眼的眼角、鼻尖、左右嘴角以及下巴特征点映射到三维模型上,可求得人脸的俯仰角
姿态标准的人脸图像,其俯仰角
步骤1:通过特征点求得人脸的俯仰角、偏转角以及翻滚角,对求得的各种旋转角度进行线性组合。线性组合系数的计算公式可表示为
将(1)式求得的值
步骤2:因人脸的各种旋转角度均不可能大于90°,因此将(2)式计算所得的角度值
3.1.2 人眼状态评价指标
采用上眼睑与下眼睑上的关键点进行眼睑间距的计算,以粗略地估计人眼状态,具体计算步骤如下:
步骤1:根据人脸特征点分别计算左眼和右眼的上眼睑与下眼睑间的距离,然后返回双眼上、下眼睑间距离的平均值作为该人脸图像眼睑间的距离。
步骤2:对获取到的同一组人脸图像中的每个人脸图像计算眼睑间距离。
步骤3:选取这一组眼睑间距离的中间值作为阈值
式中,
步骤4:分数计算。若一幅人脸图像的眼睑距离小于
3.1.3 人脸遮挡程度评价指标
根据一张人脸图像中肤色像素个数与总像素个数的比例对人脸遮挡程度进行评估,具体计算步骤如下:
步骤1:将人脸图像从RGB颜色空间转换到YCbCr颜色空间。
步骤2:计算肤色像素个数
步骤3:计算在一幅人脸图像中肤色像素所占的比例
式中,
式中,
步骤4:遮挡分数计算。若肤色像素所占比例
3.1.4 人脸图像清晰度评价指标
通过拉普拉斯方差算法[17]计算图像的模糊度。通过对大量不同模糊程度的人脸图像进行观察,可发现当图像的模糊度大于800时,人脸图像模糊较为严重,因此将模糊阈值设置为800。人脸图像清晰度具体计算步骤如下:
步骤1:由拉普拉斯方差算法计算出图像的模糊度
步骤2:将模糊阈值设置为800,模糊度超过阈值的人脸图像模糊程度较严重,因此直接将清晰度分数
3.2 基于归一化均值的人脸图像优选方法
3.2.1 归一化均值权重系数的确定
一组人脸图像中,某个评价指标分值的均值体现的是就这个评价指标而言这组图像的质量。均值越高,说明这组图像就这个评价指标而言其整体质量越好。本文将归一化的均值作为这一指标的权重系数。某一评价指标分值的均值越大,为这一指标分配的权重系数就越大,则图像在这一指标质量上的差别对总体评价的影响相对来说就越大。这种评价方法着重比较指标值较好的方面,与主观评价方法相符。各指标权重系数的计算步骤如下:
步骤1:分别计算同一组人脸图像的角度分数的平均值
步骤2:将计算得到的各分数平均值分别作归一化处理,作为相对应的角度分数值、人眼状态分数值、遮挡分数值及清晰度分数值的权重
3.2.2 人脸图像质量综合评价指标
根据计算所得的各评价指标权重系数,对各评价指标进行线性组合,得到人脸图像质量综合评价指标:
在每一组人脸图像中得分
4 实验结果及分析
所用视频拍摄于室内,采用高清Sony摄像机,分辨率为1440 pixel×1080 pixel,视频包含6个行人不同姿态下的人脸,存在人脸遮挡以及模糊的情况,每个人的人脸图像不少于100张。
4.1 人脸检测实验结果
本文采用libfacedetection开源库对视频进行人脸检测,部分检测结果如
4.2 人脸聚类实验结果及分析
采用Dlib库提供的ResNet模型提取特征后对所有人脸图像进行聚类,聚类结果如
从
观察文件夹6和7的人脸图像发现,可能导致图像聚类错误的因素主要包括:1) 图像发生了拖影;2) 人脸呈现90°侧脸。观察
4.3 人脸图像优选实验结果及分析
因一组人脸图像在某个评价指标上的方差体现了这一组人脸图像中各人脸图像评价分值上差别的多少,方差小,则这组人脸图像在该评价指标上彼此间相差不大。将(11)式中的均值替换为方差,则分值方差小的指标被赋予一个较小的权重,分值方差大的指标被赋予一个较大的权重,可得到基于归一化方差的人脸图像综合评价指标。
对文献[
18]中提出的基于边缘统计特征的人脸图像优选方法与本文提出的基于归一化方差的人脸图像优选方法、基于归一化均值的人脸图像优选方法进行对比实验,实验结果如
文献[ 18]中提出的人脸图像优选方法首先计算检测到的人脸图像的清晰度,然后计算检测到的人脸大小是否满足限定条件,最后借鉴边缘统计特征[19]的思想,根据人脸的中心线和对称线间的距离计算人脸旋转角度,从而完成人脸图像优选。其中人脸中心线的确定是根据双眼的坐标,人脸对称线的确定是通过对图像作垂直投影找到人脸的左、右边缘。
选取两张人脸图像对
图 11. 有偏转无遮挡的人脸。(a)原图像;(b)中心线;(c)垂直投影;(d)偏转距离
Fig. 11. Unobstructed face with deflection. (a) Original image; (b) center line; (c) vertical projection; (d) deflection distance
图 12. 无偏转有遮挡的人脸。(a)原图像;(b)中心线;(c)垂直投影;(d)偏转距离
Fig. 12. Undeflected face with occlusion. (a) Original image; (b) center line; (c) vertical projection; (d) deflection distance
文献[
18]方法在满足人脸大小和清晰度的情况下,仅通过中心线和对称线间距离进行优选,因此该方法不能去除有遮挡以及闭眼的人脸图像。对
观察
表 1. 评判因素对比
Table 1. Comparison of evaluation factors
|
由
5 结论
提出用人脸聚类技术替代多目标人脸跟踪技术来获取视频中的同一人脸图像,实验发现,对于人的完全侧脸不能正确聚类,但这样的人脸属于极少数,因此在总体上较好地实现了对同一人脸图像的获取。根据监控视频中的人脸实际可能呈现的状态,提出人脸旋转程度、人眼状态、人脸遮挡程度及人脸图像清晰度四个评价指标,并分别用指标的归一化均值和归一化方差作为该指标的权重系数,构造出两个不同的视频中人脸图像综合评价指标进行人脸图像优选。实验结果表明,基于归一化均值权重系数的综合评价指标优于基于归一化方差权重系数的综合评价指标,并且根据归一化均值权重系数的综合评价指标优选出来的图像是这一组中质量较优的人脸图像,与人眼主观判断的结果相符。
[1] 夏盼盼.[\s]{1}行人检测中有效脸判定与检索模型研究[D].[\s]{1}南昌:[\s]{1}江西财经大学,[\s]{1}2017:[\s]{1}7-[\s]{1}8.[\s]{1}
Xia[\s]{1}PP.[\s]{1}Research[\s]{1}on[\s]{1}effective[\s]{1}face[\s]{1}determine[\s]{1}and[\s]{1}retrieval[\s]{1}model[\s]{1}in[\s]{1}pedestrian[\s]{1}detection[D].[\s]{1}Nanchang:[\s]{1}Jiangxi[\s]{1}University[\s]{1}of[\s]{1}Finance[\s]{1}and[\s]{1}Economics,[\s]{1}2017:[\s]{1}7-[\s]{1}8.[\s]{1}
[2] 方冠男, 胡骞鹤, 方书雅, 等. 视频人脸图像质量评估及其在课堂点名系统中的应用[J]. 计算机应用与软件, 2018, 35(10): 140-146, 251.
[3] 刘翠.[\s]{1}基于多摄像头的人脸识别系统设计与实现[D].[\s]{1}长春:[\s]{1}东北师范大学,[\s]{1}2017:[\s]{1}30-[\s]{1}35.[\s]{1}
LiuC.[\s]{1}Design[\s]{1}and[\s]{1}implementation[\s]{1}of[\s]{1}face[\s]{1}recognition[\s]{1}system[\s]{1}based[\s]{1}on[\s]{1}multiple[\s]{1}cameras[D].[\s]{1}Changchun:[\s]{1}Northeast[\s]{1}Normal[\s]{1}University,[\s]{1}2017:[\s]{1}30-[\s]{1}35.[\s]{1}
[4] 黄煜斌.[\s]{1}基于人脸聚类的视频结构化分析[D].[\s]{1}北京:[\s]{1}北京邮电大学,[\s]{1}2011:[\s]{1}43-[\s]{1}49.[\s]{1}
Huang[\s]{1}YB.[\s]{1}Video[\s]{1}structure[\s]{1}analysis[\s]{1}based[\s]{1}on[\s]{1}face[\s]{1}clustering[D].[\s]{1}Beijing:[\s]{1}Beijing[\s]{1}University[\s]{1}of[\s]{1}Posts[\s]{1}and[\s]{1}Telecommunications,[\s]{1}2011:[\s]{1}43-[\s]{1}49.[\s]{1}
[5] 周成举.[\s]{1}基于约束稀疏表达的视频人脸聚类[D].[\s]{1}天津:[\s]{1}天津大学,[\s]{1}2014:[\s]{1}35-[\s]{1}38.[\s]{1}
Zhou[\s]{1}CJ.[\s]{1}Video[\s]{1}face[\s]{1}clustering[\s]{1}based[\s]{1}on[\s]{1}constrained[\s]{1}sparse[\s]{1}expression[D].[\s]{1}Tianjin:[\s]{1}Tianjin[\s]{1}University,[\s]{1}2014:[\s]{1}35-[\s]{1}38.[\s]{1}
[6] 申小敏, 李保俊, 孙旭, 等. 基于卷积神经网络的大规模人脸聚类[J]. 广东工业大学学报, 2016, 33(6): 77-84.
[7] NasrollahiK,[\s]{1}Moeslund[\s]{1}TB.[\s]{1}Face[\s]{1}quality[\s]{1}assessment[\s]{1}system[\s]{1}in[\s]{1}video[\s]{1}sequences[M][\s]{1}∥Schouten[\s]{1}B,[\s]{1}Juul[\s]{1}N[\s]{1}C,[\s]{1}Drygajlo[\s]{1}A,[\s]{1}et[\s]{1}al.[\s]{1}Biometrics[\s]{1}and[\s]{1}identity[\s]{1}management.[\s]{1}BioID[\s]{1}2008.[\s]{1}Lecture[\s]{1}notes[\s]{1}in[\s]{1}computer[\s]{1}science.[\s]{1}Berlin,[\s]{1}Heidelberg:[\s]{1}Springer,[\s]{1}2008,[\s]{1}5372:[\s]{1}10-[\s]{1}18.[\s]{1}
[8] 蒋刚毅, 黄大江, 王旭, 等. 图像质量评价方法研究进展[J]. 电子与信息学报, 2010, 32(1): 219-226.
[9] WongY,[\s]{1}Chen[\s]{1}SK,[\s]{1}MauS,[\s]{1}et[\s]{1}al.[\s]{1}Patch-based[\s]{1}probabilistic[\s]{1}image[\s]{1}quality[\s]{1}assessment[\s]{1}for[\s]{1}face[\s]{1}selection[\s]{1}and[\s]{1}improved[\s]{1}video-based[\s]{1}face[\s]{1}recognition[C]∥CVPR[\s]{1}2011[\s]{1}WORKSHOPS,[\s]{1}June[\s]{1}20-25,[\s]{1}2011,[\s]{1}Colorado[\s]{1}Springs,[\s]{1}CO,[\s]{1}USA.[\s]{1}New[\s]{1}York:[\s]{1}IEEE,[\s]{1}2011:[\s]{1}74-[\s]{1}81.[\s]{1}
[10] 范赐恩, 冉杰文, 颜佳, 等. 颜色空间统计联合纹理特征的无参考图像质量评价[J]. 光学精密工程, 2018, 26(4): 916-926.
[11] 陈正浩, 吴云东, 蔡国榕, 等. 基于纹理特征融合的人脸图像质量评估算法[J]. 集美大学学报(自然科学版), 2018, 23(4): 312-320.
[12] 王亚, 朱明, 刘成林. 基于CNN的监控视频中人脸图像质量评估[J]. 计算机系统应用, 2018, 27(11): 71-77.
[14] He[\s]{1}KM,[\s]{1}Zhang[\s]{1}XY,[\s]{1}Ren[\s]{1}SQ,[\s]{1}et[\s]{1}al.[\s]{1}Deep[\s]{1}residual[\s]{1}learning[\s]{1}for[\s]{1}image[\s]{1}recognition[C]∥2016[\s]{1}IEEE[\s]{1}Conference[\s]{1}on[\s]{1}Computer[\s]{1}Vision[\s]{1}and[\s]{1}Pattern[\s]{1}Recognition[\s]{1}(CVPR),[\s]{1}June[\s]{1}27-30,[\s]{1}2016,[\s]{1}Las[\s]{1}Vegas,[\s]{1}NV,[\s]{1}USA.[\s]{1}New[\s]{1}York:[\s]{1}IEEE,[\s]{1}2016:[\s]{1}770-[\s]{1}778.[\s]{1}
[15] BiemannC.[\s]{1}Chinese[\s]{1}whispers:[\s]{1}an[\s]{1}efficient[\s]{1}graph[\s]{1}clustering[\s]{1}algorithm[\s]{1}and[\s]{1}its[\s]{1}application[\s]{1}to[\s]{1}natural[\s]{1}language[\s]{1}processing[\s]{1}problems[C]∥The[\s]{1}First[\s]{1}Workshop[\s]{1}on[\s]{1}Graph[\s]{1}Based[\s]{1}Methods[\s]{1}for[\s]{1}Natural[\s]{1}Language[\s]{1}Processing.[\s]{1}Stroudsburg:[\s]{1}Association[\s]{1}for[\s]{1}Computational[\s]{1}Linguistics,[\s]{1}2006:[\s]{1}73-[\s]{1}80.[\s]{1}
[16] 段培聪.[\s]{1}基于特征点的人脸姿态估计与识别系统研究[D].[\s]{1}西安:[\s]{1}西安电子科技大学,[\s]{1}2017:[\s]{1}42-[\s]{1}76.[\s]{1}
Duan[\s]{1}PC.[\s]{1}Research[\s]{1}on[\s]{1}face[\s]{1}pose[\s]{1}estimation[\s]{1}and[\s]{1}recognition[\s]{1}system[\s]{1}based[\s]{1}on[\s]{1}feature[\s]{1}point[D].[\s]{1}Xi'an:Xidian[\s]{1}University,[\s]{1}2017:[\s]{1}42-[\s]{1}76.[\s]{1}
[17] Pech-Pacheco[\s]{1}JL,[\s]{1}CristobalG,[\s]{1}Chamorro-MartinezJ,[\s]{1}et[\s]{1}al.[\s]{1}Diatom[\s]{1}autofocusing[\s]{1}in[\s]{1}brightfield[\s]{1}microscopy:[\s]{1}a[\s]{1}comparative[\s]{1}study[C]∥15th[\s]{1}International[\s]{1}Conference[\s]{1}on[\s]{1}Pattern[\s]{1}Recognition,[\s]{1}September[\s]{1}3-7,[\s]{1}2000,[\s]{1}Barcelona,[\s]{1}Spain.[\s]{1}New[\s]{1}York:[\s]{1}IEEE,[\s]{1}2002:[\s]{1}6894564.[\s]{1}
[18] 孟繁静.[\s]{1}基于视频的实时多人脸检测跟踪与优选方法研究[D].[\s]{1}长春:[\s]{1}东北师范大学,[\s]{1}2016:[\s]{1}51-[\s]{1}60.[\s]{1}
Meng[\s]{1}FJ.[\s]{1}Research[\s]{1}on[\s]{1}real-time[\s]{1}video-based[\s]{1}multiple[\s]{1}faces[\s]{1}detection,[\s]{1}tracking[\s]{1}and[\s]{1}optimization[\s]{1}methods[D].[\s]{1}Changchun:[\s]{1}Northeast[\s]{1}Normal[\s]{1}University,[\s]{1}2016:[\s]{1}51-[\s]{1}60.[\s]{1}
[19] 王燕群, 童卫青, 张昌明. 基于边缘统计和特征定位的人睑姿态估计方法[J]. 计算机系统应用, 2011, 20(4): 86-90.
Article Outline
王畅, 崔荣一, 金璟璇, 金小峰. 基于人脸聚类的视频中人脸图像优选方法的研究[J]. 激光与光电子学进展, 2019, 56(20): 201002. Chang Wang, Rongyi Cui, Jingxuan Jin, Xiaofeng Jin. Research on Face Image Optimization Method Based on Face Clustering in Video[J]. Laser & Optoelectronics Progress, 2019, 56(20): 201002.