基于改进DFM的密集特征匹配算法
1 引言
图像匹配在计算机视觉领域,包括图像配准[1]、三维重建[2]、SLAM[3]技术中都发挥着重要作用。图像匹配根据具体应用任务可以衍生出很多种匹配方式,如稀疏特征匹配、密集匹配、区域匹配、二维或三维点匹配等[4]。图像匹配的目标是将待匹配的图像变换到原始图像的坐标系中,并得到两幅图像公共区域的像素对应关系。一般有两种策略来实现这一目标,其中一种基于灰度的匹配方法利用原始图像的像素灰度或频域信息进行局部窗口间的对准[5]。这种方法对图像畸变、光照变化、传感器噪声的影响较为敏感,因此在图像的角度、尺度、局部变化较小时才能发挥最好的效果。基于特征的图像匹配方法寻找图像中的特征点并通过特征描述将特征一一配对,完成图像匹配。与基于灰度的图像匹配方法相比,这种方法准确性更高,鲁棒性更强,适用范围也更加灵活。
目前基于特征的图像匹配方法可分为基于特征点的匹配方法和基于特征图的匹配方法。其中基于特征点的匹配方法先寻找图像中的特征点,然后对特征点对进行配对。比如传统的尺度不变特征变换(SIFT)[6]、加速稳健特征(SURF)[7]、Oriented fast and rotated brief(ORB)算法[8]等。结合了深度学习的SuperPoint[9]、SuperGlue[10]算法等。这些方法无论是人工设计还是神经网络学习,都需要一个特征检测器[11]。而基于特征图的匹配方法如NCNet[12]、Patch2Pix[13]、LoFTR[14]、深度特征匹配(DFM)[15]算法等则不需要这种检测器,以卷积神经网络提取出的一系列特征图中的特征向量代替特征点,从而达到密集匹配的效果。
本文基于DFM算法从深层特征到浅层特征级联优化和变换视角以优化匹配效果的思想,提出了一种改进DFM的密集特征匹配算法。以VGG卷积神经网络[16]作为特征提取器提取匹配图像的一系列特征图,以最深层特征图的匹配结果进行视角变换,在变换后的视角上将图像的深层特征图之间信息融合后进行级联匹配,并在Hpatches数据集[17]上进行实验,实验结果证明:所提算法成功提升了特征匹配的精度和匹配的特征数量。
2 改进DFM算法
DFM算法是一种基于特征图的特征匹配算法,以卷积神经网络提取一系列特征图,对最深层的特征图进行匹配,以深层的匹配结果作为基准,进行匹配图像间的视角变换来减小匹配图像对的差异并逐特征层优化得到最终的特征匹配结果。所提的改进DFM算法整体流程如
图 1. 基于改进DFM的密集特征匹配算法流程图
Fig. 1. Overview of proposed dense feature matching algorithm based on improved DFM
2.1 视角变换
视角变换的过程分为两步,首先利用卷积神经网络获得输入图像A、B的多层特征图像,之后在深层特征图上进行特征匹配并计算图像间的单应性矩阵以便进行视角对准。
在特征提取的过程中,选用预训练过的VGG-19神经网络。VGG-19神经网络是经典的卷积神经网络,在Imagenet[19]图像分类数据集中达到了71.3%的准确率,能够充分提取图像中的特征。
VGG-19神经网络提取的每层特征图的大小是上一层的1/2,越深层的特征图感受野越大,聚合的特征信息也越多,选取第5层特征图作为计算视角变换的深层特征图并在其上进行最邻近匹配。对图像A、B的第5层512通道特征图
式中:
同理,对特征图
得到匹配点集
从匹配点集中随机挑选不共线的n(n>4)组匹配点对,计算单应性矩阵H:
式中:s为尺度因子,
式中:p为RANSAC算法结果有效的概率;ω为匹配对在内点集中的概率。本文取k=5000,ω=0.9999,d=3.0。
利用计算出的单应性矩阵将图像B变换到与A相近的视角,得到图像C。
2.2 特征图产生
输入图像A、C到VGG-19神经网络中,得到一系列用于后续匹配的特征图。选取和原图分辨率相同的第1层特征图作为浅层特征图,用于后续匹配点对的位置优化;选取第2、3、4层的特征图作为深层特征图,用于后续确定匹配点对的位置。
2.3 深层特征图信息融合
为了提升匹配特征点对的数量,采用深层特征融合的方法对多层特征图进行维度拼接,在保留深层语义信息的同时增加特征向量的区分度,从而达到增加特征匹配点对的效果。对不同层数的特征图而言,特征向量的区分度也体现在不同频率成分的贡献上。选取3幅图像进行各特征层频域组成分析,分析结果图如
1)特征图上采样。经过VGG-19传播后得到的每层特征图大小不一,为了将其融合为一幅特征图需要对输入的各层特征图进行上采样,获得大小一致的特征图,上采样的方法采用双线性插值法[22]。若已知两点坐标为
设未知点周围的四邻域点为
2)特征融合。将上采样后的特征图
得到的融合特征图
2.4 级联特征匹配
以VGG-19神经网络提取图像A、C的特征图并进行深层特征图信息融合后可以获得融合特征图
1)融合特征图粗匹配。首先,对输入图像融合特征图
式中:
2)浅层特征图细匹配。对
3 实验结果及分析
为了检验所提算法的有效性,选择了Hpatches数据集进行测试,数据集共包含116个序列。每个序列有6个相同场景的图像,每张图像都是从不同视角或不同光照捕获的。对每个序列而言,数据集提供第1张图像和其余5张图像之间的真实单应性矩阵。这116个序列分为2个子集;其中,57个序列在几乎相同的视角下有显著的光照变化,而另外59个序列在相似的光照下有显著的视角变化。在特征匹配准确性和单应性准确性两方面,所提算法与SIFT[6]、SuperGlue[10]、NCNet[12]、LoFTR[14]、Patch2Pix[13]、DFM[15]共6种算法进行对比。
图 4. 小场景下匹配效果对比图。(a)DFM算法;(b)改进DFM算法
Fig. 4. Comparison of matching results in small scenes. (a) DFM algorithm; (b) improved DFM algorithm
图 5. 大场景下匹配效果对比图。(a)DFM算法;(b)改进DFM算法
Fig. 5. Comparison of matching results in large scenes. (a) DFM algorithm; (b) improved DFM algorithm
表 1. 大场景下匹配精度分析
Table 1. Analysis of matching accuracy in outdoor large scenes
|
3.1 特征匹配有效性
以正确匹配的数量和平均匹配精度两项指标来衡量特征匹配的有效性。特征匹配对的均方根误差
式中:
式中:N为总特征匹配数;d为设定的阈值;
表 2. 特征匹配准确性评估
Table 2. Feature matching accuracy evaluation
|
其中,r值为浅层特征图细匹配阶段进行置信度筛选时选取的阈值。由
3.2 单应性评估
仅用匹配数量和匹配准确度衡量特征匹配效果不够全面,另一种衡量特征匹配的评估指标单应性评估能够同时考虑匹配精度和匹配数量来衡量一张图像整体的匹配效果。若匹配数很多但匹配精度很低或匹配精度很高但匹配数很少,单应性评估的结果都会较差。单应性评估方式如下:
1)通过RANSAC方法,利用匹配到的特征点对来估计两幅图像间的单应性矩阵;
2)取图像的4个角点,利用估计的单应性矩阵和真实单应性矩阵将角点进行分别投影并计算平均误差,挑选出平均误差在给定容许范围内的图像对为正确图像对;
3)正确图像对数量和所有图像对数量之间的比值即为单应性估计准确率(HEA)。
使用这种评估方法同样在Hpatches数据集上进行评估,评估结果如
表 3. 单应性评估结果
Table 3. Results of homography estimation evaluation
|
4 结论
基于DFM算法从深层特征到浅层特征级联优化和变换视角以优化匹配效果的思想,提出了一种改进DFM的密集特征匹配算法。针对传统特征匹配得到的匹配数量稀疏问题,抛弃了传统特征匹配算法先寻找特征点再进行特征描述的过程,对卷积神经网络提取出的特征向量进行差异化匹配;对深度特征图进行信息融合增加了特征向量的区分度,成功增加了匹配数量;在Hpatches数据集中与SIFT、SuperGlue、NCNet、LoFTR、Patch2Pix、DFM等6种算法进行实验对比,所提算法取得了较好的匹配性能,提升了特征匹配数量,也取得了较好的匹配精度,并且可以根据所需场景灵活调整匹配阈值,达到所需的匹配效果。
[1] Liang L, Zhao W J, Hao X Y, et al. Image registration using two-layer cascade reciprocal pipeline and context-aware dissimilarity measure[J]. Neurocomputing, 2020, 371: 1-14.
[2] Pan H L, Guan T, Luo Y W, et al. Dense 3D reconstruction combining depth and RGB information[J]. Neurocomputing, 2016, 175: 644-651.
[3] Campos C, Elvira R, Rodríguez J J G, et al. ORB-SLAM3: an accurate open-source library for visual, visual-inertial, and multimap SLAM[J]. IEEE Transactions on Robotics, 2021, 37(6): 1874-1890.
[4] Ma J Y, Jiang X Y, Fan A X, et al. Image matching from handcrafted to deep features: a survey[J]. International Journal of Computer Vision, 2021, 129(1): 23-79.
[5] Jiang X Y, Ma J Y, Xiao G B, et al. A review of multimodal image matching: methods and applications[J]. Information Fusion, 2021, 73: 22-71.
[6] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.
[7] BayH, TuytelaarsT, Van GoolL. SURF: speeded up robust features[M]∥LeonardisA, BischofH, PinzA. Computer vision-ECCV 2006. Lecture notes in computer science. Berlin: Springer Berlin Heidelberg, 2006, 3951: 404-417.
[8] RubleeE, RabaudV, KonoligeK, et al. ORB: an efficient alternative to SIFT or SURF[C]∥2011 International Conference on Computer Vision, November 6-13, 2011, Barcelona, Spain. New York: IEEE Press, 2012: 2564-2571.
[9] DeToneD, MalisiewiczT, RabinovichA. SuperPoint: self-supervised interest point detection and description[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), June 18-22, 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 337-33712.
[10] SarlinP E, DeToneD, MalisiewiczT, et al. SuperGlue: learning feature matching with graph neural networks[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 13-19, 2020, Seattle, WA, USA. New York: IEEE Press, 2020: 4937-4946.
[11] 贾迪, 朱宁丹, 杨宁华, 等. 图像匹配方法研究综述[J]. 中国图象图形学报, 2019, 24(5): 677-699.
Jia D, Zhu N D, Yang N H, et al. Image matching methods[J]. Journal of Image and Graphics, 2019, 24(5): 677-699.
[12] Rocco I, Cimpoi M, Arandjelovic R, et al. NCNet: neighbourhood consensus networks for estimating image correspondences[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(2): 1020-1034.
[13] ZhouQ J, SattlerT, Leal-TaixéL. Patch2Pix: epipolar-guided pixel-level correspondences[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 20-25, 2021, Nashville, TN, USA. New York: IEEE Press, 2021: 4667-4676.
[14] SunJ M, ShenZ H, WangY A, et al. LoFTR: detector-free local feature matching with transformers[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 20-25, 2021, Nashville, TN, USA. New York: IEEE Press, 2021: 8918-8927.
[15] EfeU, InceK G, Aydin AlatanA. DFM: a performance baseline for deep feature matching[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), June 19-25, 2021, Nashville, TN, USA. New York: IEEE Press, 2021: 4279-4288.
[17] BalntasV, LencK, VedaldiA, et al. HPatches: a benchmark and evaluation of handcrafted and learned local descriptors[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 3852-3861.
[18] 化春键, 潘瑞, 陈莹. 基于改进ORB-RANSAC的双目测距方法[J]. 激光与光电子学进展, 2021, 58(22): 2215002.
[19] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[20] 孙海迅, 罗健欣, 潘志松, 等. 基于约束总体最小二乘的单应性矩阵求解方法[J]. 计算机技术与发展, 2022, 32(12): 50-56.
Sun H X, Luo J X, Pan Z S, et al. Solution of homography matrix based on constrained total least squares[J]. Computer Technology and Development, 2022, 32(12): 50-56.
[21] 李梦帅, 燕必希, 董明利, 等. 基于预筛选和局部单应性的风电叶片图像匹配方法[J]. 电子测量技术, 2022, 45(6): 155-161.
Li M S, Yan B X, Dong M L, et al. Wind turbine blade image matching method based on pre-screening and local homography[J]. Electronic Measurement Technology, 2022, 45(6): 155-161.
[22] 张蕊, 张业荣. 基于双线性插值与K-means聚类算法结合的位置指纹定位改进算法[J]. 光通信技术, 2022, 46(5): 45-49.
Article Outline
张晏涵, 张尹馨, 黄战华, 王康年. 基于改进DFM的密集特征匹配算法[J]. 激光与光电子学进展, 2024, 61(8): 0815001. Yanhan Zhang, Yinxin Zhang, Zhanhua Huang, Kangnian Wang. Dense Feature Matching Based on Improved DFM Algorithm[J]. Laser & Optoelectronics Progress, 2024, 61(8): 0815001.