激光与光电子学进展, 2024, 61 (8): 0815001, 网络出版: 2024-03-22  

基于改进DFM的密集特征匹配算法

Dense Feature Matching Based on Improved DFM Algorithm
作者单位
天津大学精密仪器与光电子工程学院光电信息技术教育部重点实验室,天津 300072
摘要
图像匹配能将待匹配图像变换到原有图像的坐标系中,在各种视觉任务中起着重要的作用。基于特征的图像匹配算法能够在图像中匹配到一些更具区分度的特征,与其他图像匹配方法相比,其具有高精度、高灵活性、高鲁棒性等特点。针对传统特征匹配算法匹配稀疏的问题,提出一种基于改进深度特征匹配算法的密集特征匹配方法。首先,通过VGG网络提取图像的一系列特征图,在初始特征图进行最邻近匹配计算单应性矩阵并进行视角变换;然后,基于特征图的频域匹配特点进行深层特征图融合,用于特征粗匹配;最后,基于粗匹配的结果在浅层特征图上进行特征细匹配用于校正特征匹配的结果。实验结果表明:所提算法提升了特征匹配的精度和匹配的特征数量。
Abstract
Image matching, which refers to transforming the image to be matched into the coordinate system of the original image, plays important roles in numerous visual tasks. The feature-based image matching method, which can find distinctive features in the image, is widely accepted because of its applicability, robustness, and high accuracy. For improving the performance of feature matching, it is important to obtain more feature matches with high matching accuracy. Aiming at the sparse matching problem of the traditional feature matching algorithm, we propose a dense feature matching method based on the improved deep feature matching algorithm. First, a series of feature maps of the image are extracted through the VGG neural network, and nearest-neighbor matching is performed on the initial feature map to calculate the homography matrix and perform perspective transformation. Then, deep features are fused according to the frequency-domain matching characteristics of feature maps for coarse feature matching. Finally, fine feature matching is performed on the shallow feature map to correct the results of coarse feature matching. Experimental results indicate that the proposed algorithm is superior to other methods, as it obtains a larger number of matches with a higher matching accuracy.

1 引言

图像匹配在计算机视觉领域,包括图像配准1、三维重建2、SLAM3技术中都发挥着重要作用。图像匹配根据具体应用任务可以衍生出很多种匹配方式,如稀疏特征匹配、密集匹配、区域匹配、二维或三维点匹配等4。图像匹配的目标是将待匹配的图像变换到原始图像的坐标系中,并得到两幅图像公共区域的像素对应关系。一般有两种策略来实现这一目标,其中一种基于灰度的匹配方法利用原始图像的像素灰度或频域信息进行局部窗口间的对准5。这种方法对图像畸变、光照变化、传感器噪声的影响较为敏感,因此在图像的角度、尺度、局部变化较小时才能发挥最好的效果。基于特征的图像匹配方法寻找图像中的特征点并通过特征描述将特征一一配对,完成图像匹配。与基于灰度的图像匹配方法相比,这种方法准确性更高,鲁棒性更强,适用范围也更加灵活。

目前基于特征的图像匹配方法可分为基于特征点的匹配方法和基于特征图的匹配方法。其中基于特征点的匹配方法先寻找图像中的特征点,然后对特征点对进行配对。比如传统的尺度不变特征变换(SIFT)6、加速稳健特征(SURF)7、Oriented fast and rotated brief(ORB)算法8等。结合了深度学习的SuperPoint9、SuperGlue10算法等。这些方法无论是人工设计还是神经网络学习,都需要一个特征检测器11。而基于特征图的匹配方法如NCNet12、Patch2Pix13、LoFTR14、深度特征匹配(DFM)15算法等则不需要这种检测器,以卷积神经网络提取出的一系列特征图中的特征向量代替特征点,从而达到密集匹配的效果。

本文基于DFM算法从深层特征到浅层特征级联优化和变换视角以优化匹配效果的思想,提出了一种改进DFM的密集特征匹配算法。以VGG卷积神经网络16作为特征提取器提取匹配图像的一系列特征图,以最深层特征图的匹配结果进行视角变换,在变换后的视角上将图像的深层特征图之间信息融合后进行级联匹配,并在Hpatches数据集17上进行实验,实验结果证明:所提算法成功提升了特征匹配的精度和匹配的特征数量。

2 改进DFM算法

DFM算法是一种基于特征图的特征匹配算法,以卷积神经网络提取一系列特征图,对最深层的特征图进行匹配,以深层的匹配结果作为基准,进行匹配图像间的视角变换来减小匹配图像对的差异并逐特征层优化得到最终的特征匹配结果。所提的改进DFM算法整体流程如图1所示,整体流程分为4步:1)视角变换。待匹配图像A、B经过卷积神经网络得到图像A、B的一系列特征图,在最深层特征图上进行特征匹配并结合随机抽样一致性(RANSAC)18方法计算单应性矩阵进行视角变化,得到变换后的图像;2)特征图产生。变换后的图像再度输入到VGG神经网络中前向传播产生特征图,将初始特征图划分为浅层特征图,其余的特征图划分为深层特征图;3)深层特征图信息融合。将深层特征图进行信息融合,得到用于特征粗匹配的融合特征图;4)级联特征匹配。在融合特征图上进行特征匹配,并以此结果在浅层特征图上进行匹配优化,得到最后的特征匹配结果。

图 1. 基于改进DFM的密集特征匹配算法流程图

Fig. 1. Overview of proposed dense feature matching algorithm based on improved DFM

下载图片 查看所有图片

2.1 视角变换

视角变换的过程分为两步,首先利用卷积神经网络获得输入图像A、B的多层特征图像,之后在深层特征图上进行特征匹配并计算图像间的单应性矩阵以便进行视角对准。

在特征提取的过程中,选用预训练过的VGG-19神经网络。VGG-19神经网络是经典的卷积神经网络,在Imagenet19图像分类数据集中达到了71.3%的准确率,能够充分提取图像中的特征。

VGG-19神经网络提取的每层特征图的大小是上一层的1/2,越深层的特征图感受野越大,聚合的特征信息也越多,选取第5层特征图作为计算视角变换的深层特征图并在其上进行最邻近匹配。对图像A、B的第5层512通道特征图FA5FB5,特征图上的每个像素都可以作为一个512维的特征向量,将特征向量记作fA5fB5,从而根据特征向量的相似性来计算特征点的匹配关系,首先选取特征图FA5中的任意特征向量fA5和特征图FB5中的每个特征向量fB5

SAB=fA5fB5

式中:SAB为特征向量的匹配相似度得分,得分越少,匹配相似度越高。然后,进行匹配置信度筛选,取匹配相似度最高的SAB和次高的SAB,并计算比值RAB,根据比值去除不合适的匹配,在视角变换时去除比值大于0.98的匹配对。

RAB=SAB/SAB

同理,对特征图FB5中的某一特征向量fB5,以同样方式计算SBARBA可以确认特征图FA5中的对应特征向量fA5。当fA5fB5是唯一对应时,可以确定匹配点集P5

得到匹配点集P5后,利用RANSAC方法计算图像 A、B间的单应性矩阵20。RANSAC方法可以去除模型中的异常数据,从而根据给定的匹配点集获得最合适的单应性矩阵。RANSCA算法流程如下21

从匹配点集中随机挑选不共线的nn>4)组匹配点对,计算单应性矩阵H

sx'y'1=Hxy1

式中:s为尺度因子,x',y'x,y为匹配点位置,H为3×3的矩阵。以计算出的单应性矩阵为基础,选取剩余的匹配点对并分别计算其投影误差,如果误差小于阈值d则算作内点,大于则舍弃,若内点集中匹配数增多,则更新内点集,直到迭代次数达到最大迭代数k

k=ln(1-p)ln(1-ωn)

式中:p为RANSAC算法结果有效的概率;ω为匹配对在内点集中的概率。本文取k=5000,ω=0.9999,d=3.0。

利用计算出的单应性矩阵将图像B变换到与A相近的视角,得到图像C。

2.2 特征图产生

输入图像A、C到VGG-19神经网络中,得到一系列用于后续匹配的特征图。选取和原图分辨率相同的第1层特征图作为浅层特征图,用于后续匹配点对的位置优化;选取第2、3、4层的特征图作为深层特征图,用于后续确定匹配点对的位置。

2.3 深层特征图信息融合

为了提升匹配特征点对的数量,采用深层特征融合的方法对多层特征图进行维度拼接,在保留深层语义信息的同时增加特征向量的区分度,从而达到增加特征匹配点对的效果。对不同层数的特征图而言,特征向量的区分度也体现在不同频率成分的贡献上。选取3幅图像进行各特征层频域组成分析,分析结果图如图2所示。

图 2. 各层特征图匹配结果频域分析

Fig. 2. Frequency analysis of matching result for each feature map

下载图片 查看所有图片

图2中,纵坐标为被滤除频率分量的特征图中取得的匹配数与没有滤除频率分量的特征图中取得的匹配数间的比值,横坐标为频域滤波所取的截止频率,每条线都代表一层特征图。由图2可知,随着特征图中低频成分逐渐被滤除,不同层数特征图计算出的匹配点对数下降趋势也不同,越是深层的特征图受低频成分的影响越大,而浅层的特征图受低频成分的影响就相对小。因此不同层数的特征图进行融合可以有效的均衡特征图中各频率组成部分,从而提升特征向量的区分度,在计算特征点对匹配时提升匹配数量。特征融合流程如下:

1)特征图上采样。经过VGG-19传播后得到的每层特征图大小不一,为了将其融合为一幅特征图需要对输入的各层特征图进行上采样,获得大小一致的特征图,上采样的方法采用双线性插值法22。若已知两点坐标为x1,y1x2,y2,则对两点所连直线间的插值点px,y有:

x=x2-x12y=y1x2-xx2-x1+y2x-x1x2-x1

设未知点周围的四邻域点为x1,y1x2,y2x3,y3x4,y4。在x轴方向插值2次得到插值点R1R2;再通过R1R2y轴上进行一次插值得到最后的插值点p

2)特征融合。将上采样后的特征图F4F3F2按权重进行维度上的拼接,得到融合特征图Fcoarse

Fcoarse=i=24concatFi2i-2

得到的融合特征图Fcoarse中每个像素点都是一个通道数为896的特征向量。

2.4 级联特征匹配

以VGG-19神经网络提取图像A、C的特征图并进行深层特征图信息融合后可以获得融合特征图FcoarseAFcoarseC和图像A、C的第一层特征图F1AF1C,级联特征匹配的流程如下:

1)融合特征图粗匹配。首先,对输入图像融合特征图FcoarseAFcoarseC,采用与2.1节相同的匹配策略可以计算出在融合特征图上的匹配点集Pcoarse。融合特征图的大小为浅层特征图F1的1/2,还需要对匹配点集进行上采样,将其坐标变为原来的2倍得到PfinePfine可表示为

Pfine=Pcoarse×2

式中:PfinePcoarse经过上采样后在浅层特征图上对应的匹配点集。

2)浅层特征图细匹配。对Pcoarse中任一特征向量fcoarse在浅层特征图F1上对应关系如图3所示。

图 3. 粗分辨率特征点对应区域

Fig. 3. Corresponding area on the coarse feature point

下载图片 查看所有图片

图3中,fcoarse经过式(7)上采样后得到的f0f1f2f3f0的邻域点。对FcoarseA中任一特征向量fcoarseA,在F1A对应的区域为M1A;同理FcoarseB中任一特征向量fcoarseBF1B对应的区域为M1B。对M1AM1B进行特征细匹配,匹配方式同2.1节,可以得到校正过的匹配特征向量frefineAfrefineB,得到总的特征匹配点集Prefine

3 实验结果及分析

为了检验所提算法的有效性,选择了Hpatches数据集进行测试,数据集共包含116个序列。每个序列有6个相同场景的图像,每张图像都是从不同视角或不同光照捕获的。对每个序列而言,数据集提供第1张图像和其余5张图像之间的真实单应性矩阵。这116个序列分为2个子集;其中,57个序列在几乎相同的视角下有显著的光照变化,而另外59个序列在相似的光照下有显著的视角变化。在特征匹配准确性和单应性准确性两方面,所提算法与SIFT6、SuperGlue10、NCNet12、LoFTR14、Patch2Pix13、DFM15共6种算法进行对比。图4图5为所提的改进DFM算法和原DFM算法的匹配效果对比图。其中,图4为不同视角下小场景的匹配效果,图5为不同视角、不同光照下大场景的匹配效果。

图 4. 小场景下匹配效果对比图。(a)DFM算法;(b)改进DFM算法

Fig. 4. Comparison of matching results in small scenes. (a) DFM algorithm; (b) improved DFM algorithm

下载图片 查看所有图片

图 5. 大场景下匹配效果对比图。(a)DFM算法;(b)改进DFM算法

Fig. 5. Comparison of matching results in large scenes. (a) DFM algorithm; (b) improved DFM algorithm

下载图片 查看所有图片

表 1. 大场景下匹配精度分析

Table 1. Analysis of matching accuracy in outdoor large scenes

AlgorithmRotation error /(°)Translation error /mInlier matches
DFM20.5713.2499
DFM18.589.2771
DFM1.782.809
Improved DFM0.652.702566
Improved DFM1.630.991709
Improved DFM0.522.23487

查看所有表

图4中,正确匹配用绿色线条表示,错误匹配由红色线条表示。图5为在室外大场景下进行匹配所得的效果。在室外大场景下难以获得像素级的真实匹配关系,因此可以基于匹配点对计算相机的相对位姿来衡量匹配精度,如表1所示。由表1可知,与原DFM算法相比,改进DFM算法在各类场景下的匹配数量和精度都得到一定提升。

3.1 特征匹配有效性

以正确匹配的数量和平均匹配精度两项指标来衡量特征匹配的有效性。特征匹配对的均方根误差fRMSE小于给定阈值的匹配为正确匹配,fRMSE可表示为

fRMSE=(x-x')2+(y-y')2

式中:x,y为图中特征点在待匹配图像中匹配到的特征点坐标;x',y'x,y在待匹配图像中的真实对应点坐标。正确匹配的数量除以所有匹配的数量为平均匹配精度fMMAfMMA可表示为

fMMA=i=1NT(x,y,x',y')NT(x,y,x',y')=1,fRMSEd0,fRMSE>d

式中:N为总特征匹配数;d为设定的阈值;T为判断匹配是否正确的函数,当fRMSE小于d则认为匹配正确,T为1,反之匹配错误,T为0。6种算法在阈值为1~10 pixel间的fMMA结果,如图6所示。

图 6. 平均匹配精度结果图

Fig. 6. Average matching accuracy result chart

下载图片 查看所有图片

表2为分别选取阈值为3、5、10 pixel的情况下得到的fMMA和正确匹配数。

表 2. 特征匹配准确性评估

Table 2. Feature matching accuracy evaluation

MethodfMMANumber of feature matches /103
3 pixel5 pixel10 pixel3 pixel5 pixel10 pixel
SIFT67.869.470.30.400.410.41
SuperGlue71.379.988.60.420.460.49
NCNet60.469.386.50.540.600.86
LoFTR89.190.692.42.302.302.40
Patch2Pix82.487.691.00.620.640.66
DFM89.492.593.93.103.203.30
Improved DFM(r=0.9)89.791.191.618.2018.6018.60
Improved DFM(r=0.5)97.497.697.63.103.103.10

查看所有表

其中,r值为浅层特征图细匹配阶段进行置信度筛选时选取的阈值。由表2可知,所提方法在特征匹配数量上相比其他方法有着明显的提升,在特征匹配精度上也优于其他算法。

3.2 单应性评估

仅用匹配数量和匹配准确度衡量特征匹配效果不够全面,另一种衡量特征匹配的评估指标单应性评估能够同时考虑匹配精度和匹配数量来衡量一张图像整体的匹配效果。若匹配数很多但匹配精度很低或匹配精度很高但匹配数很少,单应性评估的结果都会较差。单应性评估方式如下:

1)通过RANSAC方法,利用匹配到的特征点对来估计两幅图像间的单应性矩阵;

2)取图像的4个角点,利用估计的单应性矩阵和真实单应性矩阵将角点进行分别投影并计算平均误差,挑选出平均误差在给定容许范围内的图像对为正确图像对;

3)正确图像对数量和所有图像对数量之间的比值即为单应性估计准确率(HEA)。

使用这种评估方法同样在Hpatches数据集上进行评估,评估结果如表3所示。由表3可知,所提算法在单应性评估中也取得最佳效果。

表 3. 单应性评估结果

Table 3. Results of homography estimation evaluation

MethodHEA
3 pixel5 pixel10 pixel
SIFT77.283.885.3
SuperGlue76.782.387.0
NCNet51.063.376.4
LoFTR76.782.685.9
Patch2Pix76.781.084.5
DFM74.580.285.2
Improved DFM(r=0.9)79.685.588.3
Improved DFM(r=0.5)66.974.381.6

查看所有表

4 结论

基于DFM算法从深层特征到浅层特征级联优化和变换视角以优化匹配效果的思想,提出了一种改进DFM的密集特征匹配算法。针对传统特征匹配得到的匹配数量稀疏问题,抛弃了传统特征匹配算法先寻找特征点再进行特征描述的过程,对卷积神经网络提取出的特征向量进行差异化匹配;对深度特征图进行信息融合增加了特征向量的区分度,成功增加了匹配数量;在Hpatches数据集中与SIFT、SuperGlue、NCNet、LoFTR、Patch2Pix、DFM等6种算法进行实验对比,所提算法取得了较好的匹配性能,提升了特征匹配数量,也取得了较好的匹配精度,并且可以根据所需场景灵活调整匹配阈值,达到所需的匹配效果。

参考文献

[1] Liang L, Zhao W J, Hao X Y, et al. Image registration using two-layer cascade reciprocal pipeline and context-aware dissimilarity measure[J]. Neurocomputing, 2020, 371: 1-14.

[2] Pan H L, Guan T, Luo Y W, et al. Dense 3D reconstruction combining depth and RGB information[J]. Neurocomputing, 2016, 175: 644-651.

[3] Campos C, Elvira R, Rodríguez J J G, et al. ORB-SLAM3: an accurate open-source library for visual, visual-inertial, and multimap SLAM[J]. IEEE Transactions on Robotics, 2021, 37(6): 1874-1890.

[4] Ma J Y, Jiang X Y, Fan A X, et al. Image matching from handcrafted to deep features: a survey[J]. International Journal of Computer Vision, 2021, 129(1): 23-79.

[5] Jiang X Y, Ma J Y, Xiao G B, et al. A review of multimodal image matching: methods and applications[J]. Information Fusion, 2021, 73: 22-71.

[6] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

[7] BayH, TuytelaarsT, Van GoolL. SURF: speeded up robust features[M]∥LeonardisA, BischofH, PinzA. Computer vision-ECCV 2006. Lecture notes in computer science. Berlin: Springer Berlin Heidelberg, 2006, 3951: 404-417.

[8] RubleeE, RabaudV, KonoligeK, et al. ORB: an efficient alternative to SIFT or SURF[C]∥2011 International Conference on Computer Vision, November 6-13, 2011, Barcelona, Spain. New York: IEEE Press, 2012: 2564-2571.

[9] DeToneD, MalisiewiczT, RabinovichA. SuperPoint: self-supervised interest point detection and description[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), June 18-22, 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 337-33712.

[10] SarlinP E, DeToneD, MalisiewiczT, et al. SuperGlue: learning feature matching with graph neural networks[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 13-19, 2020, Seattle, WA, USA. New York: IEEE Press, 2020: 4937-4946.

[11] 贾迪, 朱宁丹, 杨宁华, 等. 图像匹配方法研究综述[J]. 中国图象图形学报, 2019, 24(5): 677-699.

    Jia D, Zhu N D, Yang N H, et al. Image matching methods[J]. Journal of Image and Graphics, 2019, 24(5): 677-699.

[12] Rocco I, Cimpoi M, Arandjelovic R, et al. NCNet: neighbourhood consensus networks for estimating image correspondences[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(2): 1020-1034.

[13] ZhouQ J, SattlerT, Leal-TaixéL. Patch2Pix: epipolar-guided pixel-level correspondences[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 20-25, 2021, Nashville, TN, USA. New York: IEEE Press, 2021: 4667-4676.

[14] SunJ M, ShenZ H, WangY A, et al. LoFTR: detector-free local feature matching with transformers[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 20-25, 2021, Nashville, TN, USA. New York: IEEE Press, 2021: 8918-8927.

[15] EfeU, InceK G, Aydin AlatanA. DFM: a performance baseline for deep feature matching[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), June 19-25, 2021, Nashville, TN, USA. New York: IEEE Press, 2021: 4279-4288.

[16] SimonyanK, ZissermanA. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2014-09-04)[2023-02-05]. https://arxiv.org/abs/1409.1556.

[17] BalntasV, LencK, VedaldiA, et al. HPatches: a benchmark and evaluation of handcrafted and learned local descriptors[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 3852-3861.

[18] 化春键, 潘瑞, 陈莹. 基于改进ORB-RANSAC的双目测距方法[J]. 激光与光电子学进展, 2021, 58(22): 2215002.

    Hua C J, Pan R, Chen Y. Binocular ranging method based on improved ORB-RANSAC[J]. Laser & Optoelectronics Progress, 2021, 58(22): 2215002.

[19] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[20] 孙海迅, 罗健欣, 潘志松, 等. 基于约束总体最小二乘的单应性矩阵求解方法[J]. 计算机技术与发展, 2022, 32(12): 50-56.

    Sun H X, Luo J X, Pan Z S, et al. Solution of homography matrix based on constrained total least squares[J]. Computer Technology and Development, 2022, 32(12): 50-56.

[21] 李梦帅, 燕必希, 董明利, 等. 基于预筛选和局部单应性的风电叶片图像匹配方法[J]. 电子测量技术, 2022, 45(6): 155-161.

    Li M S, Yan B X, Dong M L, et al. Wind turbine blade image matching method based on pre-screening and local homography[J]. Electronic Measurement Technology, 2022, 45(6): 155-161.

[22] 张蕊, 张业荣. 基于双线性插值与K-means聚类算法结合的位置指纹定位改进算法[J]. 光通信技术, 2022, 46(5): 45-49.

    Zhang R, Zhang Y R. An improved location fingerprint algorithm based on bilinear interpolation and K-means clustering algorithm[J]. Optical Communication Technology, 2022, 46(5): 45-49.

张晏涵, 张尹馨, 黄战华, 王康年. 基于改进DFM的密集特征匹配算法[J]. 激光与光电子学进展, 2024, 61(8): 0815001. Yanhan Zhang, Yinxin Zhang, Zhanhua Huang, Kangnian Wang. Dense Feature Matching Based on Improved DFM Algorithm[J]. Laser & Optoelectronics Progress, 2024, 61(8): 0815001.

引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!