一种上下文敏感的多尺度人脸检测方法 下载: 909次
1 引言
人脸检测在身份验证、表情分析[1]、视频监控等现代应用技术中扮演着重要的角色,准确有效地检测到图像中的人脸,对相关领域的发展有着重要的促进作用。但受现实场景中不同的人脸尺寸、光照条件、面部遮挡等因素的影响,人脸检测在非约束条件下依旧存在诸多挑战。在早期工作中,Viola等[2]利用AdaBoost算法和类Harr特征来训练一个级联的人脸的分类器。在此工作之后,大多数的改进方案都是将原始图像通道转换为特征通道(梯度直方图通道或LUV颜色通道等),然后提取局部特征利用Adaboost等分类器进行检测[3-6],但这些早期工作都依赖于手工标注特征并且需要单独优化系统中的每个组件。
近年来,随着卷积神经网络(CNN, Convolutional Neural Network)的突破性发展,从图像分类到目标检测都取得了很大的成功,其中双阶段检测方法[R-CNN(Regions with CNN features)[7]、Fast R-CNN[8]、Faster R-CNN[9])]分别利用两个子网络完成候选框的提取与分类,准确率较高但速度较慢;单阶段检测方法[YOLO(You Only Look Once)[10]、SSD(Single Shot multiBox Detector)[11]、Focal Loss[12]]利用一个网络同时进行候选框的提取与分类,速度快但准确率不如前者,因此,探索一种有效的特征提取机制来提升单阶段网络的检测性能显得尤为重要。得益于强大的深度卷积网络以及端到端的优化方式,基于CNN的人脸检测器实现了更好的检测效果。Yang等[13]以Faceness为面部属性训练了一系列CNN,用以检测部分遮挡的人脸。Zhang等[14]提出使用多任务CNN同时解决人脸检测与人脸校准。Sun等[15]、Zhu等[16]以及Wan等[17]分别利用Faster R-CNN及其与难例挖掘相结合的方式,在人脸检测性能上实现了进一步的提升。
相比于其他的方法,基于候选框的检测方法在复杂的场景中更加稳健且其检测所需的时间与目标数量无关。但根据Huang等[18]的阐述,随着物体尺度的减小,基于候选框的检测器的性能会随之下降。细节纹理信息能够反映目标视觉性质及空间拓扑关系[19-21],Hu等[22]对人脸检测中的上下文信息进行了探索,使用类似于区域建议网络(RPN, Region Proposal Network)[9]来直接检测人脸,并引入图像金字塔来表达网络结构的多尺度特征,最后针对不同的人脸尺度训练不同的分类器。SSH(Single Stage Headless)[23]和 Face-MagNet[24]方法均使用单阶段架构来实现人脸检测,针对人脸的多尺度问题设计候选框提取与分类策略,但未针对尺寸较小的难例样本检测提出行之有效的结构与方法。
针对上述问题以及在人脸检测任务中存在的挑战,本文提出一种上下文敏感的多尺度人脸检测(CSMS)模型。该方法运用多感受野、多语义层级融合的上下文提取模型,利用跳连接结构与空洞卷积来增强层级之间的信息传递与全局性的特征表达。同时采用单阶段的检测方法,通过权重共享结合不同语义层级的多尺度特征,实现对不同尺度人脸的针对性检测,能够在保证检测效果的同时减少了权重的参数量。在训练阶段,同时利用Focal Loss[11]和不同尺度间特定比例的正负样例来解决小目标的类别不平衡问题,提高了检测网络对小尺度人脸的判别能力。实验结果证明,该方法能够对不同场景下的人脸进行有效的检测。
2 CSMS网络
CSMS方法采用基于候选框的单阶段网络模型结构,能够对整个网络从特征提取、候选框选择,到候选框的分类与回归实现端到端的训练。相比于两阶段的目标检测器,本研究方法降低了网络训练的复杂度,减少了深度卷积网络的推理时间,降低了网络的内存消耗。CSMS方法将不同语义层级的特征进行有效地融合,对不同尺度的人脸分别进行针对性检测,实现网络模型的尺度不变性;设计了上下文敏感模块来多元化语义特征的感受野,有效地丰富目标的背景特征,适用于对较小人脸的检测。
2.1 尺度不变性网络设计
在非约束的环境下,图像中的人脸尺度有着很大的变化范围。Hu等[22]提出在检测网络的推理之前,人为地将不同尺度的图像作为输入,并分别对其进行前向推理运算,最后将不同尺度图像中人脸的检测结果进行合并,这种方法能够实现网络的多尺度性能,但其带来的计算量与网络参数量较大,推理时间较长。本研究根据人脸目标高度在图像中所占的像素数目将人脸划分为小、中、大3个尺寸等级[25]。受SSD[11]启发,本研究提出:从网络结构设计的角度实现尺度不变性,利用高语义层级、分辨率低的特征用于检测较大尺度的人脸,利用低语义层级、分辨率大的特征用于检测较小尺度的人脸,并采用不同的检测模块
本研究的整体网络结构图如
图 2. 上下文提取模块。(a)堆叠模型;(b)上下文敏感模块
Fig. 2. Context extraction module. (a)Stacked model; (b) context-sensitive module
针对于小尺度人脸的检测,本研究将Conv4_3层的输出与Conv5_shared层的输出进行融合,一方面保持了特征图的分辨率,另一方面融合了多语义级别和多感受野的特征。本研究中采用权重共享[27]的方法(Shared weights convolution),直接对Conv4_3的特征向量进行Conv5_shared层的卷积操作,如
在网络模型的推理阶段,不同检测模型的所有预测结果都经过非极大值抑制(NMS, Non-Maximum Suppression)的操作去除掉重叠较多的目标候选框,并生成最后的检测结果。
2.2 上下文敏感模块
在小目标的检测任务中,由于在目标上能探索的信息较少,该任务从根本上具有挑战性。直观地来看,人类视觉中目标周围的背景信息有助于正确地分类尺寸较小的人脸。因此,小目标的检测任务也需要利用超出目标范围的图像信息来辅助检测,这也经常被称为上下文信息。在原始的基于候选框的检测器中,增加上下文信息通常的方法是通过在候选框周围扩大滑动窗口来增大感受野,以获取上下文信息。为减小引入较大卷积核带来的参数增长,SSH通过堆叠相同的小卷积核来等效较大的卷积核,再利用不同步长的卷积预测模型实现感受野的增加。而本研究利用跳连接的结构,设计了一种参数量更少、感受野尺度更多的上下文敏感模块,相比于直接扩大卷积层中的滑动窗口与简单地堆叠小的卷积核[见
上下文敏感模块:受DenseNet[29]启发,本研究设计了一个上下文敏感模块,其具体结构如
表 1. 上下文提取模块对比
Table 1. Comparison of context extraction module
|
全局性的特征表达:现代图像分类网络通过连续的池化层和下采样层来整合多尺度的上下文信息和全局性特征,减小特征图的分辨率,进而得到对全局预测的输出[26],但随之带来细节信息的损失。若不使用池化层来降低分辨率,在卷积核较小的情况下,感受野也会很小,使得能够提取的有效信息也较少。因此,在文献[
30] 和[31] 中提出利用空洞卷积(膨胀卷积、带孔卷积、Dilated Convolution)来实现在不增加参数量与计算量的同时增大感受野,获取更多的上下文信息。空洞卷积算子在过去被称为“带有膨胀滤波器的卷积”,它在一种小波分解算法中扮演着重要的角色[32]。Yu等[30]将*
式中:
相比于常规的大卷积核滤波器,空洞卷积能够在不增加额外参数量或计算量的情况下有效地扩大滤波器的感受野,更好地获得全局信息,有助于提高对全局预测的输出。
针对增强候选目标的全局性信息,本研究在主干网络中利用空洞卷积来提升不同检测分支的全局性特征表达。为不增加网络参数,直接将Conv5层中的线性卷积替换为空洞卷积,以此在不降低特征图分辨率的前提下增大网络的感受野。对于提升小尺度目标的检测性能,在现有方法中的一般做法为:1) 直接提高输入图像的分辨率,人为地丰富小目标所包含的特征,提高了检测性能,但也增加了预测网络的计算量;2) 先提升特征向量的语义级别,其间利用池化操作来增大特征点的感受野,然后对高语义的特征图进行上采样来提高其分辨率,或再将其与浅层的特征进行融合。这种方法虽然通过上采样恢复了特征图的大小,但终究会丢失掉很多无法恢复的细节信息。在本研究中,针对于较小尺寸人脸的检测分支,利用权重共享机制,在保持Conv4_3层的输出特征分辨率的情况下,利用Conv5层的权重进行特征的提取,将Conv5层与Conv4层输出的特征图进行融合,其结构设计如
2.3 针对小尺度样本的类间不平衡问题
高准确率的物体检测器大多是基于类似Faster R-CNN的两阶段检测器,先利用RPN生成一系列稀疏的候选框位置来提取潜在的目标位置,再利用卷积神经网络对每个候选位置进行前景与背景的分类。该类方法通过精炼候选框的方式来提高检测准确率,但其检测速度并不能得到实质的提升。相比之下,单阶段的检测器不需要RPN提取候选框,直接对网格候选框进行特征提取、分类与回归。这类方法速度较快,但准确率却不如前者,而导致这个问题的原因是在稠密目标检测器的训练阶段存在极端的前景-背景类别不平衡。据此,Focal Loss重塑标准交叉熵损失,通过降低易分类样本的权重,使模型更加专注于难例样本以及避免大量易分类样例主导模型的优化方向[12]。Focal Loss(FL)定义为
式中:
针对小目标的检测特性,想要达到好的检测效果需要在较大分辨率的特征图中进行,又由于目标本身尺寸较小,网络所提取的候选框尺寸也小,导致此部分的检测过程中会出现大量建议候选框,而在其中绝大多部分都是负例样本,故导致正例样本所占比例与之相比较为悬殊,而这也严重影响了正负样本所主导的网络优化方向。在本研究中应用Focal Loss来训练检测网络,利用样本自身的难易分程度来控制优化过程中正负样例的损失权重,专注于难分样本对于网络模型的优化,且通过实验对比得到:
同时对于每个预测模型,本研究针对于不同尺寸的人脸检测分支选出不同比例的正负例样本作为每个迭代中的mini-batch,对于尺寸最小的人脸目标选择的正负样本比例为0.5,对于尺寸中等以及较大的人脸目标则选择的正负样本比例为0.25。
2.4 检测网络的损失函数
本研究中采用多任务损失联合来实现对人脸目标的分类与定位,进而对网络进行优化。网络模型的总损失函数
式中:
3 实验与分析
3.1 实验配置
网络参数初始化:本研究中利用caffe[33]框架在ImageNet分类网络上进行预训练的VGG16网络架构对模型参数进行初始化,但未使用Conv_fc6与Conv_fc7层的权重参数,对于其他增加的网络层均采用“xavier”的方法[34]进行随机初始化。
训练参数设置:实验在GPU NVIDIA TITAN X的图形处理器(GPU)上对检测网络进行训练。本研究对动量和权重衰减采用随机梯度下降算法来对检测网络进行优化,在检测模块中,建议候选框与ground-truth的IoU小于0.5的被标记为正例,IoU小于0.3的则被作为背景标记为负例。在训练阶段中,学习率设置为0.01,momentum设置为0.9,迭代次数设置为30000,batchsize设置为64;在推理阶段中,NMS的阈值设置为0.3。
测试模型:在测试阶段中,CSMS模型为检测网络在输入不加入图像金字塔时的测试模型,将图像的输入尺寸在不改变原始长宽比的情况下缩放至短边为1200 pixel,同时长边不超过1600 pixel。CSMS+Pyramid模型为检测网络在输入加入图像金字塔时的测试模型,参考HR(Hybrid-Resolution model)[20]的图像金字塔构成,其中共有4个尺度等级:500,800,1200,1600 pixel。
3.2 实验数据
本研究的检测网络在Wider Face 数据集[25]进行训练与测试,该数据集总计32203张图像,共包含393703张标注的人脸目标,其中训练集中包含158989张(40%),验证集中包含39496张(10%),其余的则是测试集(50%)。此外,在验证集与测试集中总计包含60个场景类别,根据其包含的人脸姿态、尺寸、遮挡等将图像划分为3个等级:Easy、Medium和Hard,其中Easy子集的人脸尺寸最大最容易检测,Hard的尺寸最小也最难以检测。本研究仅在Wider Face的训练集上对检测网络进行训练,在验证集上对训练出的网络模型进行测试与切片实验分析,验证其对不同尺寸、姿态及遮挡程度的人脸检测性能。
3.3 网络模型的切片分析
尺度不变性设计:在3.1节中介绍了本研究提出的人脸检测网络,从不同步长的网络层级中利用特有检测模型
表 2. 尺度不变性设计的mAP对比
Table 2. Comparison of mAP for scale invariance design%
|
上下文特征提取:在3.2节中详细描述了用于提取上下文信息的不同方法,CSMS利用稠密的跳连接结构,一方面利用较少的参数实现了大感受野的特征提取,增强特征的全局信息;另一方面缩短深层与浅层间的连接路径,同时增强了不同层之间的特征传递与网络的特征表达能力。
表 3. 上下文敏感模块mAP对比
Table 3. Comparison of mAP for context-sensitive module%
|
专注于难例样本的训练:如3.3节中所描述的,CSMS在训练阶段采用Focal Loss作为分类阶段的损失计算函数,通过候选框的得分来实现对损失权重的动态调整,使得网络对难分的样本更加敏感,同时弱化易分样本对网络优化方向的影响。
表 4. 专注于难例样本训练方的mAP比较
Table 4. Comparison of mAP for training methods focused on hard sample samples%
|
有效的特征融合:为实现对较小尺寸人脸更好的检测效果,在CSMS中将线性卷积层Conv4_3与共享权重层Conv5_shared的细粒度信息与全局性信息相融合,其中并未通过pooling来增大感受野,而是在CSMS中增加权重共享分支,直接对Conv_4的特征进行卷积操作,尽可能保留原始的细节信息。设计两组对比实验:1) 采用一般方法先利用pooling增大感受野,再将其上采样来恢复分辨率,模型记为CSMS-pl;2) 在1)中的Conv5层加入空洞卷积,模型记为CSMS-plDlt,见
表 5. 特征融合的mAP比较
Table 5. Comparison of mAP for feature fusion%
|
相比于增强小目标检测的一般方法,CSMS在Hard上的检测性能提高了0.5% ,实验结果表明,利用空洞卷积来增大感受野与利用权重共享层来实现深层特征与浅层特征的融合,可以有效提高人脸检测性能。
表 6. CSMS在Wider Face测试集中的切片分析
Table 6. Ablation study of CSMS on Wider Face test set
|
图 4. Wider Face验证集上准确率-召回率曲线。(a) Easy;(b) Medium;(c) Hard
Fig. 4. Precision-recall curves on Wider Face validation set. (a) Easy; (b) Medium; (c) Hard
3.4 实验结果对比
本研究在Wider Face 数据集的验证集上对检测网络模型的检测性能进行测试,并与HR(ResNet-101)+Pyramid[20]、CMS-RCNN(Contextual multi-scale region-based CNN) [16]、Multitask Cascade CNN[14]、ScaleFace[36]、LDCF(Locally Decorrelated Channel Features) [37]、Faceness[14]和Multiscale Cascade CNN[25]相比较。
表 7. 检测性能的对比
Table 7. Comparison of detection performance
|
4 结论
本研究提出了一种上下文敏感的多尺度人脸检测方法,简称为CSMS,着重解决非约束环境中人脸检测中存在的难点,利用一种多尺度的网络结构实现了单阶段的人脸尺度不变性检测;结合上下文提取模块与空洞卷积,增强了网络对人脸上下文信息的学习能力。此外,CSMS运用权重共享机制,将高语义高分辨率特征与低语义特征进行融合,同时利用Focal Loss与尺度专门化的正负样例比使CSMS专注于对难分负例样本的优化,有效地提高了对小尺度样本的判别能力。实验结果表明CSMS在公共的人脸检测基准上实现了先进的检测性能。
[1] 王琳琳, 刘敬浩, 付晓梅. 融合局部特征与深度置信网络的人脸表情识别[J]. 激光与光电子学进展, 2018, 55(1): 011002.
[5] Zhang SS, BenensonR, SchieleB. Filtered channel features for pedestrian detection[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition,June 7-12, 2015, Boston, MA, USA. New York: IEEE, 2015: 1751- 1760.
[6] 孔月萍, 刘霞, 谢心谦, 等. 基于梯度方向直方图的人脸活体检测方法[J]. 激光与光电子学进展, 2018, 55(3): 031009.
[7] GirshickR, DonahueJ, DarrellT, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥2014 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2014, Columbus, OH, USA. New York: IEEE, 2014: 580- 587.
[8] GirshickR. Fast R-CNN[C]∥2015 IEEE Conference on Computer Vision, December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 1440- 1448.
[10] RedmonJ, DivvalaS, GirshickR, et al. You only look once: Unified, real-time object detection[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition, June 27-30, 2016, Las Vegas NV, USA. New York: IEEE, 2016: 779- 788.
[11] LiuW, AnguelovD, ErhanD, et al. SSD: Single shot multiBox detector[M] ∥Leibe B, Matas J, Sebe N, et al. eds. Computer Vision-ECCV 2016. Cham: Springer, 2016: 21- 37.
[12] Lin TY, GoyalP, GirshickR, et al. Focal loss for dense object detection[C]∥2017 IEEE International Conference on Computer Vision, October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 2999- 3007.
[13] YangS, LuoP, Loy CC, et al. From facial parts responses to face detection: A deep learning approach[C]∥2015 IEEE International Conference on Computer Vision, December 7-13,2015, Santiago, Chile. New York: IEEE, 2015: 3676- 3684.
[16] ZhuC, ZhengY, LuuK, et al. CMS-RCNN: Contextual multi-scale region-based CNN for unconstrained face detection[M] ∥Bhanu B, Kumar A. eds. Deep Learning for Biometrics. Advances in Computer Vision and Pattern Recognition. Cham: Springe, 2017: 57- 79.
[17] WanS, ChenZ, ZhangT, et al. Bootstrapping face detection with hard negative examples[EB/OL]. ( 2016-08-07) [2018-08-07] http:∥arxiv. org/abs/1608. 02236.
[18] HuangJ, RathodV, SunC, et al. Speed/accuracy trade-offs for modern convolutional object detectors[C]∥2017 IEEE International Conference on Computer Vision and Pattern Recognition, July, 21-26,2017, Honolulu, HI, USA. New York: IEEE, 2017: 3296- 3297.
[19] 邓小琴, 朱启兵, 黄敏. 融合光谱、纹理及形态特征的水稻种子品种高光谱图像单粒鉴别[J]. 激光与光电子学进展, 2015, 52(2): 021001.
[20] 侯志强, 王利平, 郭建新, 等. 基于颜色、空间和纹理信息的目标跟踪[J]. 光电工程, 2018, 45(5): 39-46.
[21] 孙玉娟, 董军宇, 王增锋. 灰度一致纹理图像的光参数估算方法[J]. 激光与光电子学进展, 2017, 54(6): 061002.
[22] Hu PY, RamananD. Finding tiny faces[C]∥2017 IEEE International Conference on Computer Vision and Pattern Recognition, July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 1522- 1530.
[23] NajibiM, SamangoueiP, ChellappaR, et al. SSH: Single stage headless face detector[C]∥IEEE International Conference on Computer Vision, October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 4885- 4894.
[24] SamangoueiP, NajibiM, DavisL, et al. Face-MagNet: Magnifying feature maps to detect small faces[C]∥2018 IEEE Winter Conference on Applications of Computer Vision, March 12-15,2018, Lake Tahoe, NV, USA. New York: IEEE, 2018: 122- 130.
[25] YangS, LuoP, Loy CC, et al. Wider face: A face detection benchmark[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition, June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 5525- 5533.
[26] SimonyanK, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. ( 2014-09-04)[2018-08-07]. https:∥arxiv.org/abs/1409. 1556.
[28] Lin TY, DollárP, Girshick RB, et al. Feature pyramid networks for object detection[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition, July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 936- 944.
[29] HuangG, Liu Z, van der Maaten L, et al. Densely connected convolutional networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition, July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 2261- 2269.
[30] YuF, Koltun V. Multi-scale context aggregation by dilated convolutions[EB/OL]. ( 2015-11-23) [2018-08-07]. http:∥arxiv.org/abs/1511. 07122.
[33] JiaY, ShelhamerE, DonahueJ, et al. Caffe: Convolutional architecture for fast feature embedding[C]∥Proceedings of the 22nd ACM international conference on Multimedia, November 4-7 2014, Dallas, Texas, USA. New York: ACM, 2014: 675- 678.
[34] Glorot X, Bengio Y. Understanding the difficulty of training deep feed forward neural networks[J]. Journal of Machine Learning Research, 2010, 9: 249-256.
[35] ShrivastavaA, GuptaA, GirshickR. Training region-based object detectors with online hard example mining[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition, June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 761- 769.
[36] YangS, XiongY, Loy CC, et al. Face detection through scale-friendly deep convolutional networks[EB/OL]. ( 2017-06-09)[2018-08-07]. http:∥arxiv.org/abs/1706. 02863.
[37] Ohn-BarE, Trivedi MM. To boost or not to boost? On the limits of boosted trees for object detection[C]∥IEEE International Conference on Pattern Recognition, December 4-8,2016, Cancun, Mexico. New York: IEEE, 2016: 3350- 3355.
Article Outline
陈龙, 庞彦伟. 一种上下文敏感的多尺度人脸检测方法[J]. 激光与光电子学进展, 2019, 56(4): 041003. Long Chen, Yanwei Pang. Context-Sensitive Multi-Scale Face Detection[J]. Laser & Optoelectronics Progress, 2019, 56(4): 041003.