扩展的多模态遥感图像累积结构特征匹配方法

针对人工描述子在多模态匹配任务中辨识能力不足导致匹配效果不佳的问题，基于构造的累积结构特征图对多模态图像特征匹配方法的特征点提取、主方向分配和描述子构造等3方面进行扩展。在特征提取阶段，在不同尺度的累积结构特征图上提取混合特征点，兼顾特征点重复性和定位精度；在主方向分配阶段，采用累积结构特征和方向构造局部结构特征场提取特征点主方向，缓解特征点主方向估计容易出错的问题；在描述子构造阶段，对累积结构特征描述子进行L1距离归一化及开方操作替代L2距离归一化，提高描述子在特征匹配阶段的辨识能力。多模态匹配对比实验结果表明：相较于LHOPC、RIFT和HAPCG，所提方法在平均匹配正确点数目和平均匹配正确率等综合指标上明显占优；相较于CSF，所提方法平均正确率提升6.6%，平均匹配精度提升5.8%，表明其有效性。

Abstract

Aiming at the problem of poor matching effect caused by insufficient discriminative ability of artificial descriptors in multimodal matching tasks, the multimodal image feature matching method is extended from three aspects of feature point extraction (FPE), dominant orientation assignment (DOA) and feature descriptor construction (FDC), based on the constructed cumulative structure feature (CSF) map. In FPE stage, the hybrid points are extracted from CSF maps with different scales, taking into account the repeatability of feature points and positioning accuracy. In DOA stage, the CSF map and its orientation map are utilized to build the local structural feature field to extract the orientations of feature points, so as to alleviate the error-prone problem of dominant orientation estimation of feature points. In FDC stage, L1 distance and root operation are used instead of L2 distance to normalize the CSF descriptor, to improve the discriminative ability of descriptor in the feature matching process. The comparative experimental results of multimodal matching show that the proposed method is significantly superior to LHOPC, RIFT and HAPCG in terms of comprehensive indicators such as the average number of correct matching and average ratio of correct matching; and compared with CSF, the average ratio of correct matching of the proposed method was increased by 6.6%, and the average matching accuracy is increased by 5.8%, illustrating the effectiveness of the proposed method.

1　引言

图像匹配的目标是建立多幅图像重叠区域之间的对应关系，是图像配准^［1］、图像融合^［2］、变化检测^［3］、光束法平差^［4］等各种摄影测量和遥感应用的前提。而不同传感器类型、不同成像时间或视点的遥感图像之间存在尺度、旋转、仿射和辐射等差异^［5-6］，给图像匹配的适应性带来了很大挑战。目前，遥感图像匹配中几何辐射差异和线性辐射差问题已基本得到有效解决。而非线性辐射差异仍然是一个棘手的问题，并引起了诸多学者的关注。

目前被广泛认可的图像匹配方法主要包括基于区域的匹配方法和基于特征的匹配方法。基于区域的匹配方法一般利用参考图像的局部强度作为模板窗口，在待匹配图像上滑动模板窗口，并计算窗口内像素的相似度，将相似度最大的位置作为最佳匹配位置^［7］。对于多模态图像而言，大部分基于区域的匹配方法在强度差异显著的情况下难以获得满意的结果，因此它们通常不是多模态图像匹配的首选方法。基于特征的匹配方法性能主要依赖于两个部分：特征检测器和特征描述子^［8］，前者提取特征，后者在其局部邻域内用某种局部模式对该特征进行描述。最为典型的基于特征的匹配方法有scale-invariant feature transform（SIFT）^［9］和speeded-up robust features（SURF）^［10］等。SIFT建立高斯尺度空间，提取相邻3幅尺度图像之间的极值点，并用梯度方向直方图对极值点进行描述。SURF的最大特点是引用了Haar小波和积分图技术，以提高运行效率。学者们也提出了许多基于SIFT的改进算法：如均匀鲁棒SIFT使用一种基于熵的特征点选择方法产生均匀分布的特征^［11］；synthetic aperture radar（SAR）-SIFT^［12］引入一种新的梯度计算方法并计算特征的方向和幅度，增强对SAR图像中斑点噪声的抵抗性，并将其用于描述子构造。上述方法的共性是在特征提取或描述中使用了梯度信息，而多模态图像之间的非线性强度变化会产生非线性梯度差异，必然导致基于梯度信息构造的描述子间存在显著差异，减弱描述子的辨识能力。

解决上述问题的方案之一是寻求一种对非线性辐射差异不敏感的特征。研究者们发现，图像的相位一致性信息可以提取多模态图像高度相似的结构特征，且几乎不受光照和对比度的影响，并将其引入遥感图像匹配领域^［13-14］。由于相位一致性信息是一种与图像强度或梯度量纲无关的特征，因而近年来基于相位一致性模型的描述子也越来越受欢迎，如local histogram of phase congruency（LHOPC）^［15］、radiation invariant feature transform（RIFT）^［16］、histogram of absolute phase consistency gradients（HAPCG）^［17］等。LHOPC通过MMPC-Lap特征检测器和自动尺度定位技术提取特征点，并基于相位一致性的幅值和DAISY-style空间排列构造特征描述符。RIFT利用相位一致性幅值的最大索引图构造循环描述子，以获得旋转不变性，其缺点是描述子可能会丢失部分空间信息且会增加特征匹配阶段的复杂度。HAPCG通过各向异性加权力矩图和绝对相位一致性方向梯度构造对数极坐标描述子。相位一致性特征图也存在一定的缺陷，如大部分特征值为零且易受孤立噪声点干扰，导致不利于特征描述或描述不够精确。为克服这个问题，谢勋伟^［18］提出一种累积结构特征描述的匹配方法（CSF），通过增强图像的结构特征来提高描述子的辨识能力。

此外，多尺度神经网络^［19］、VGG网络^［20］、图神经网络^［21］、孪生网络^［22］等深度学习方法也被用于异源图像匹配领域。它们对图像匹配的特征提取、主方向计算或描述子构造等各个环节进行改进，不断提升匹配算法性能。但由于缺少应用于多模态遥感图像匹配的大规模数据集，基于深度学习的匹配方法存在泛化能力欠佳的问题。

由此，本文尝试挖掘CSF人工描述子在多模态图像匹配的潜力。由于多尺度累积的CSF图细节较为模糊，不利于特征点定位，同时未考虑特征点主方向分配误差以及特征描述匹配过程中较大差异特征分量的影响。因此，有必要在这3个方面对其进行深度挖掘，进一步提高算法的鲁棒性。实验结果表明，所提扩展策略对于提高多模态遥感图像匹配方法的综合性能具有显著效果。

2　累积结构特征匹配方法原理

2.1　奇对称Log-Gabor小波预处理

Log-Gabor滤波器属于图像纹理自动分析的滤波簇，能够产生适合于多模态图像特征统一表示的结构纹理信息^［23］。2D Log-Gabor滤波器在频域对数极坐标下的定义为

\begin{matrix} {ℒ_{𝒢}}_{s, o} (ω, θ) = e x p [- l o g_{10} (ω / ω_{s}) / 2 {(l o g_{10} β)}^{2}] \times \\ e x p [- {(θ - θ_{o})}^{2} / 2 σ_{θ}^{2}] \end{matrix}

，（1）

式中： $(ω, θ)$ 为对数极坐标； $β$ 确定滤波器的带宽； $σ_{θ}$ 为偶频谱覆盖的角带宽； $s$ 和 $o$ 分别是尺度和方向索引； $ω_{s}$ 是尺度 $s$ 的中心频率； $θ_{o}$ 为 $o$ 方向的值。

通过傅里叶逆变换，可以将二维Log-Gabor变换到空间域。空间域2D Log-Gabor滤波器可表示为

{ℒ_{𝒢}}_{_{s, o}} (x, y) = {ℒ_{𝒢}}_{_{s, o}^{R}} (x, y) + i \cdot {ℒ_{𝒢}}_{_{s, o}^{I}} (x, y)

，（2）

式中： $(x, y)$ 为二维空间域坐标； $ℒ_{{𝒢_{}}_{s, o}}^{R}$ 和 $ℒ_{{𝒢_{}}_{s, o}}^{I}$ 分别为偶对称Log-Gabor小波和奇对称Log-Gabor小波的滤波结果。

奇对称Log-Gabor小波易于提取边缘结构信息，可对多模态图像进行预处理。设 $M$ 为原始图像，使用奇对称Log-Gabor小波对其进行滤波，可得：

F_{s, o} = M \otimes ℒ_{{𝒢_{}}_{s, o}}^{I}

，（3）

式中： $\otimes$ 是滤波操作； $F$ 为滤波结果。 $s$ 取值为［0，3］， $o$ 为取值为［0，5］，表示一共采用4个尺度6个方向的奇对称Log-Gabor小波滤波簇。

2.2　累积结构特征图和方向图

应用Log-Gabor对图像进行滤波，可得到一幅复图像，利用该复图像的实部和虚部可计算幅值和相位分量，考虑噪声补偿及所有尺度和方向的滤波结果后即可计算二维相位一致性图^［13］。但相位一致性图主要包含边缘和对噪声敏感的强响应角点，且相位一致性图大部分像素值接近零^［16］，使得相位一致性量测对特征描述不够精确，鲁棒性有待提高。针对这个问题，作者前期提出了一种累积结构特征（ $F_{C S}$ ）来代替相位一致性量测^［18］：

F_{C S} = (\sqrt[]{\sum_{o} \sum_{s} F_{s, o}^{2}} - m i n \sqrt[]{\sum_{o} \sum_{s} F_{s, o}^{2}}) / (m a x \sqrt[]{\sum_{o} \sum_{s} F_{s, o}^{2}} - m i n \sqrt[]{\sum_{o} \sum_{s} F_{s, o}^{2}})

，（4）

式中， $F_{C S}$ 是原始图像在多个尺度和方向上结构特征的累积映射结果，称之为累积结构特征图。它与梯度幅值图非常相似，但对非线性辐射差异的敏感性要明显低于后者。

同理，将多个尺度和方向上的滤波结果投影到水平和垂直方向上，累积计算可得 $F_{C S}$ 特征的方向信息：

\{\begin{array}{l} y = \sum_{o} [(\sum_{s} F_{s, o}) s i n θ_{o}] \\ x = \sum_{o} [(\sum_{s} F_{s, o}) c o s θ_{o}] \\ ψ = a t a n 2 (y, x) \end{array},

（5）

式中： $y$ 表示垂直方向的累积滤波结果； $x$ 表示水平方向的累积滤波结果； $ψ$ 是一幅方向图，表示 $F_{C S}$ 对应的方向信息，取值范围为0~2π。

2.3　特征提取与描述

累积结构特征图和方向图是累积结构特征匹配方法的核心。基于此，文献［18］中的 $F_{C S}$ 方法主要包括3个要点：1）特征提取阶段，将累积结构特征图视为强度图提取特征点；2）主方向计算阶段，结合累积结构特征图和方向信息，采用类似梯度直方图的技术分配特征点主方向；3）特征描述阶段，采用格网排列方式构造特征描述子（类似SIFT描述子）并进行L2归一化。最后基于特征描述子进行特征向量匹配，算法细节可参考文献［18］。

3　累积结构特征匹配扩展策略

在累积结构特征匹配方法的基础上，从特征点提取、主方向分配和描述子构造等3个方面进行扩展，以进一步提高算法的鲁棒性。扩展后的多模态遥感图像累积结构特征匹配方法的流程图如图1所示，其中，虚线框为文献［18］中累积结构特征图和方向图计算部分，实线框为扩展部分。

图 1. 所提方法流程图

Fig. 1. Flowchart of the proposed method

下载图片查看所有图片

3.1　混合特征点提取

在多尺度多方向累积结构特征图的基础上，分析单个尺度的累积结构特征图的细节结构特征信息。单个尺度上的 $F_{C S}$ 构造采用对应尺度下多个方向的滤波结果进行累积，并进行归一化，计算方式如下：

F_{C S} (s) = (\sqrt[]{\sum_{o} F_{s, o}^{2}} - m i n \sqrt[]{\sum_{o} F_{s, o}^{2}}) / (m a x \sqrt[]{\sum_{o} F_{s, o}^{2}} - m i n \sqrt[]{\sum_{o} F_{s, o}^{2}})

，（6）

式中， $F_{C S} (s)$ 表示在尺度 $s$ 上的累积结构特征图。

不同尺度 $F_{C S}$ 细节结构对比如图2所示：小尺度的 $F_{C S}$ 细节结构更清晰，有较明显的角点特征且角点的定位精度较高；而中等尺度的 $F_{C S}$ 细节模糊且在图像上有块状效应，角点定位精度更低。然而经过了多尺度结构特征累积后， $F_{C S}$ 特征图的边缘细节模糊且依然存在块状效应，因此，若在多尺度累积的 $F_{C S}$ 图上直接提取FAST特征点^［24］可能会一定程度上忽略小尺度 $F_{C S}$ 图上定位精度更好的角点，最终影响后续特征匹配阶段的正确匹配点数目和质量。

图 2. 不同尺度 $F_{C S}$ 细节结构对比。（a）原始图像；（b）小尺度1 $F_{C S}$ ；（c）小尺度2 $F_{C S}$ ；（d）中等尺度 $F_{C S}$ ；（e）大尺度 $F_{C S}$ ；（f）多尺度累积 $F_{C S}$

Fig. 2. Comparison of the detailed structure of $F_{C S}$ with different scales. (a) Original image; (b) $F_{C S}$ with small scale 1; (c) $F_{C S}$ with small scale 2; (d) $F_{C S}$ with middle scale; (e) $F_{C S}$ with large scale; (f) $F_{C S}$ with multiple scales

下载图片查看所有图片

因此，可在小尺度1和小尺度2上提取定位精度更高的Shi-Tomasi角点^［25］。原始的Shi-Tomasi角点提取算法利用原始图像梯度图构建自相关矩阵，通过自相关矩阵的最小特征图作为角点特征。以此为基本理论框架，所提改进的特征点提取包含以下步骤：

首先，利用不同尺度的F_CS特征图和 $ψ$ 方向图恢复图像在水平和垂直方向上的类方向梯度图：

\{\begin{matrix} G_{x} (s) = F_{C S} (s) \cdot c o s (ψ) \\ G_{y} (s) = F_{C S} (s) \cdot s i n (ψ) \end{matrix},

（7）

式中： $G_{x} (s)$ 和 $G_{y} (s)$ 表示 $F_{C S} (s)$ 在水平和垂直方向上的类方向梯度（类似水平梯度和垂直梯度），此时 $s$ 为浅层尺度索引，即0和1。

然后，计算类方向梯度图的自相关矩阵 $C$ ：

C = G (σ_{s}) \otimes [\begin{matrix} G_{x} {(s)}^{2} & G_{x} (s) G_{y} (s) \\ G_{x} (s) G_{y} (s) & G_{y} {(s)}^{2} \end{matrix}]

，（8）

式中： $G (σ_{s})$ 为高斯模板， $σ_{s}$ 为模板尺度，取特征窗口的一半。

最后，计算新的角点特征响应值 $I$ ：

I = m i n (λ_{1}, λ_{2}) > τ

，（9）

式中： $λ_{1}$ 和 $λ_{2}$ 为局部窗口内类方向梯度图自相关矩阵的两个特征值； $τ$ 为阈值，取值为较小特征值的1%。

此外，在中高尺度的 $F_{C S} (s), s = 2,3$ 上则直接提取FAST角点。与FAST角点采用原始图像灰度值定义特征点相比，本研究采用的FAST特征点定义如下：像素点的 $F_{C S}$ 特征值与其周围像素点的 $F_{C S}$ 特征值不同，则这个像素点为特征点。而文献［18］已经证实， $F_{C S}$ 特征相比原始图像的灰度特征更易于获取两幅非线性辐射差异图像之间的共有特征。

由于混合特征提取方法在不同尺度上分别提取了改进后的Shi-Tomasi角点和FAST角点，可能导致特征点重叠。若出现这种情况，则优先保留低尺度 $F_{C S}$ 上提取到的特征点以进行点位筛选。由此，即考虑了多模态图像特征点的提取定位精度，又兼顾特征点的重复性。

3.2　特征点主方向计算

传统方法^［9，12］采用梯度方向直方图峰值方向作为特征点的主方向，而已有研究表明这种主方向分配方法极易引入主方向分配误差，当主方向估计误差大于20°时，可能会引入大量的误匹配^［26］。

受利用局部梯度场进行纹理分析的启发^［27］，利用多尺度累积的 $F_{C S}$ 特征图和 $ψ$ 方向图构造类方向梯度图，并以此构造局部结构特征场，通过恢复特征场的方向信息作为特征点的主方向。

首先，以多尺度累积 $F_{C S}$ 特征图计算特征点在水平和垂直方向上的类方向梯度图：

\{\begin{matrix} G_{x} = F_{C S} \cdot c o s (ψ) \\ G_{y} = F_{C S} \cdot s i n (ψ) \end{matrix},

（10）

式中： $G_{x}$ 和 $G_{y}$ 表示多尺度 $F_{C S}$ 特征图在水平和垂直方向上的类方向梯度图。

然后，在特征点周围局部邻域 $ℛ$ 内，将所有的类方向梯度平铺为一个二维矩阵，构造出局部结构特征场：

ℒ = [\begin{matrix} G_{x} (1,1) & G_{y} (1,1) \\ ⋮ & ⋮ \\ G_{x} (i, j) & G_{y} (i, j) \end{matrix}], i, j \in ℛ

，（11）

式中： $(i, j)$ 表示邻域 $ℛ$ 内的坐标索引。

再对局部结构特征场 $ℒ$ 进行奇异值分解：

[\cdot, \cdot, V] = S V D (ℒ)

，（12）

式中： $S V D (\cdot)$ 表示奇异值分解； $V$ 是分解后得到的右奇异矩阵。 $V$ 为 $2 \times 2$ 的酉矩阵，其第二列可以得到 $ℒ$ 的方向信息 $𝒜$ ：

𝒜 = a t a n 2 [V (2,2), V (1,2)]

，（13）

式中： $V (2,2) 、 V (1,2)$ 分别表示 $V$ 第二列的两个数；atan2为四象限反正切函数； $𝒜$ 的取值范围为［0，2π）。

$𝒜$ 可以表征特征点局部邻域内结构特征的方向统计信息，因此，可直接将其作为特征点的主方向，以减少基于梯度直方图的主方向计算方法受噪声干扰而导致的主方向分配误差。

3.3　描述子构造与特征匹配

文献［18］借助梯度直方图的概念，构造了N×N×P维的 $F_{C S}$ 特征描述子（其中，N表示邻域分块数目，P表示分块内特征方向数目），并采用L2距离对 $F_{C S}$ 特征向量进行归一化以提高鲁棒性。在特征匹配阶段采用最近欧氏距离准则和双向匹配策略进行特征匹配。然而特征向量间的欧氏距离会倾向于强调部分较大差异特征维度的重要性，而忽略剩下的大部分差异较小特征维度的贡献，导致在特征匹配阶段损失部分描述子的辨识能力，而采用海林格距离可以缓解这个问题^［28］。

假设 $p$ 和 $q$ 为两个原始的 $F_{C S}$ 特征描述向量（即未进行任何归一化操作），则它们之间的海林格距离 $d_{h}$ 可以表示为

d_{h} = \sum \sqrt[]{(p / \sum p) \cdot (q / \sum q)}

。（14）

由式（14）可以看出， $p$ 和 $q$ 之间的海林格距离就是 $p$ 和 $q$ 进行L1归一化后的特征向量之间的欧氏距离。因此，对原始 $F_{C S}$ 描述子 $D$ 进行L1归一化及开方处理：

D^{'} = \sqrt[]{D / \sum D}

，（15）

式中： $D^{'}$ 为重新构造的 $F_{C S}$ 归一化描述子。从而在特征匹配阶段直接使用已有的特征向量欧氏距离测度匹配框架。实验中，N和P均取8。

4　实验及讨论

4.1　实验数据与评价指标

选择文献［29］所述的可见光-可见光（a组）、红外-可见光（b组）、map-可见光（c组）、深度图-可见光（d组）、SAR-可见光（e组）和昼-夜（f组）等6类真实多模态遥感图像进行匹配性能验证，每类包含10幅图像对，总共60对图像，部分实验数据如图3所示。所用图像对的非线性辐射差异非常显著，易于验证各种多模态遥感图像匹配算法的性能差异。

图 3. 部分实验数据。（a）可见光-可见光；（b）红外-可见光；（c）map-可见光；（d）深度图-可见光；（e）SAR-可见光；（f）昼-夜

Fig. 3. Partial experimental data. (a) Optical-optical; (b) infrared-optical; (c) map-optical; (d) depth-optical; (e) SAR-optical; (f) day-night

下载图片查看所有图片

在每对多模态图像上均通过人工刺点的方式均匀地选择一定数量的控制点，大部分的图像上控制点数目均超过20个，从而保证可利用这些控制点计算出一个仿射模型作为模型真值。在评价过程中，以仿射模型真值和匹配点坐标计算残差，若残差小于3 pixel则视为正确匹配，否则认为是粗差；若图像对的正确匹配点不足3个，则视为匹配失败，反之视为成功。将匹配正确点数（即所有匹配点中匹配正确点数目）、匹配正确率（即匹配正确点数与总匹配点数的比值）作为主要评价指标，兼顾匹配成功率（即成功匹配图像对数目与总图像对数目的比值）和运行时间，并作为次要评价指标。

所提方法延续了 $F_{C S}$ 描述子构造思想，并在其基础上进行针对性扩展，为了便于描述，称所提方法为extended CSF（ECSF）。在实验环节，将ECSF与LHOPC^［15］、RIFT^［16］、HAPCG^［17］、CSF^［18］等几种先进的人工多模态图像匹配方法进行对比。

4.2　对比实验细节设置

由于LHOPC、RIFT、CSF和ECSF等4种方法采用类似的描述子构造方式，为了公平比较描述子的辨识能力，采用了如下的实验设计：1）特征提取阶段，LHOPC、RIFT、ECSF均采用所提多尺度混合特征点提取方法，在前两层小尺度累积结构特征图上各提取不超过1500个Shi-Tomasi角点，在后两层中高尺度累积结构特征图上各提取不超过1000个FAST角点，而CSF则直接在多尺度多方向累积结构特征图提取不超过5000个FAST角点；2）LHOPC描述子采用与CSF相同的空间格网结构，且与后者的格网划分方式完全相同；3）采用相同的主方向和描述子邻域，其中，主方向邻域半径均设置为4.5 pixel；对于a组、d组、f组等3种类型的图像对，描述子邻域窗口设置为48 pixel×48 pixel，而对于b组、c组、e组等3种类型的图像对，描述子邻域窗口设置为96 pixel×96 pixel。原因是后3类图像间的结构信息不如前3类显著，增大特征点的描述半径有助于提高描述子间的相似性，从而提高多模态图像对间的匹配点数目。HAPCG方法采用文献［17］中的默认参数。所有算法的编译环境和运行环境相同，为Matlab 2017b和Inter（R）Core（TM）i7-6700HQ CPU@2.6GHz 8GB，以保证时间指标对比的相对公平。

4.3　实验结果与分析

为了定性说明几种方法匹配多模态遥感图像时的性能，对图3所示的图像对进行匹配实验，并对其结果进行可视化展示，如图4所示。可以看出：从正确匹配点数目和匹配点分布整体来看，CSF、ECSF、RIFT的效果最好，LHOPC次之，HAPCG的效果最差；对于（e）组的SAR-可见光场景来看，RIFT的效果最好，CSF和ECSF的效果次之，LHOPC的匹配效果最差，只有4对正确的匹配点；对于其他组的场景来看，CSF和ECSF的效果略占据优势，但并不明显。直观上，从定性的整体匹配性能来看，ECSF≈CSF≈RIFT>LHOPC>HAPCG。这表明ECSF在存在非常显著差异的6类多模态遥感图像上具有不弱于其他先进人工多模态图像特征匹配方法的潜力。

图 4. 不同方法在图3所示图像对上的匹配效果可视化展示。（a）可见光-可见光；（b）红外-可见光；（c）map-可见光；（d）深度图-可见光；（e）SAR-可见光；（f）昼-夜

Fig. 4. Visualization of matching effects of different methods on image pairs shown in Fig. 3. (a) Optical-optical; (b) infrared-optical; (c) map-optical; (d) depth-optical; (e) SAR-optical; (f) day-night

下载图片查看所有图片

利用上述几种方法在整个数据集上进行匹配实验，统计各方法在不同类别多模态遥感图像上的各类评价指标，以便进行定量对比分析。

各方法在整个数据集上的平均匹配正确点数目和平均匹配正确率如表1所示，其中，total列表示在整个数据集上的平均值。由表1可看出：当特征提取方式相同时，相比LHOPC，ECSF在整个数据集上的平均匹配正确点数和平均匹配正确率分别提高了26.6%和10.1个百分点；相比RIFT，ECSF在整个数据集上的平均匹配正确点数和匹配正确率提高了2.3%和10.6个百分点。这说明ECSF的描述子辨识力要明显优于LHOPC和RIFT，其原因在于：1）相比于LHOPC中的相位一致性特征图，CSF特征图不仅克服了相位一致性特征图非零信息量少且易受孤立点干扰的缺陷，且通过累积结构增强了特征信息，更有利于特征描述；2）RIFT通过最大相位幅值所在方向指数构造的最大指数图虽然克服了相位一致性特征图信息量少的缺陷，增加了匹配点数目，但它也丢失了部分相邻像素的空间信息，导致描述子的分辨能力下降，从而产生更多错误匹配，降低了匹配正确率。相比HAPCG，ECSF的平均匹配正确率略低，但平均匹配正确点数却是HAPCG的2.48倍，且HAPCG的平均匹配正确点数是所有算法中最少的，说明HAPCG特征点的重复性有所欠缺。相比于CSF，ECSF在整个数据集上的平均匹配正确点数略有下降，但平均匹配正确率相比原始的CSF方法仍然提升了6.6个百分点，且在每一类多模态遥感图像匹配场景中，平均匹配正确率均有较大程度提升，说明ECSF对CSF的扩展一定程度上可以提升描述子的辨识能力。

表 1. 平均正确匹配点数和平均匹配正确率对比

Table 1. Comparison of average number of correct matching and ratio of correct matching

	Average number of correct matching							Average ratio of correct matching /%
Method	（a）	（b）	（c）	（d）	（e）	（f）	total	（a）	（b）	（c）	（d）	（e）	（f）	total
LHOPC	177.6	44.9	51.5	109.1	23.3	42.6	74.9	17.6	8.6	9.7	9.6	5.2	4.8	9.3
RIFT	195.8	70.3	74.7	95.1	82.7	37.1	92.6	17.6	8.6	10.1	6.5	7.1	2.6	8.8
HAPCG	35.3	73.7	44.3	30.4	27.3	18.4	38.2	22.5	42.2	25.1	22.8	16.4	12.7	23.6
CSF	243.5	49.0	68.2	120.0	59.0	76.7	102.7	25.3	12.6	9.9	10.3	10.8	8.1	12.8
ECSF	222.0	70.9	60.9	111.3	59.0	44.4	94.8	41.5	17.0	16.8	16.3	13.0	11.5	19.4

查看所有表

各方法在整个数据集上的成功匹配图像对数目和平均匹配成功率结果如表2所示。

表 2. 成功匹配图像对数目和平均匹配成功率对比

Table 2. Comparison of number of success matching cases and average success ratio of matching

	Number of the success cases							Average ratio of correct matching /%
Method	（a）	（b）	（c）	（d）	（e）	（f）	total	（a）	（b）	（c）	（d）	（e）	（f）	total
LHOPC	10	10	10	7	10	8	55	100	100	100	70	100	80	91.7
RIFT	10	9	10	9	10	10	58	100	90	100	90	100	100	96.7
HAPCG	10	10	9	9	10	8	56	100	100	90	90	100	80	93.3
CSF	10	10	10	8	10	9	57	100	100	100	80	100	90	95
ECSF	10	10	10	7	10	8	55	100	100	100	70	100	80	91.7

查看所有表

由表2可以看出，5种方法在60对多模态匹配任务上成功匹配的图像对数目分别为55、58、56、57和55，平均匹配正确率均高于90%，这说明它们对多模态遥感图像匹配的场景适应性均较强，选取的对比方法具有普遍的代表性。虽然ECSF的平均匹配正确率略低于CSF，但失败数目相差不大，说明在大部分场景下其适应性能基本相当。

为了定量说明ECSF在匹配质量方面的改善效果，计算各方法在每对图像上正确匹配点的均方根误差，并计算整个数据集上均方根误差的平均值，如表3所示。可以看到，ECSF均方根误差的平均值明显低于RIFT和HAPCG，略低于CSF，但略高于LHOPC。其原因是：小尺度CSF图细节更清晰，提取的角点定位精度更好；中大尺度CSF更模糊，提取的FAST角点定位精度稍差，因而混合特征提取方法相对于直接在多尺度CSF图上提取FAST特征点更容易获得精度更好的匹配结果。而LHOPC的平均均方根误差更低，可能是由于LHOPC特征匹配阶段更容易获得残差较小的点对，而对中等残差的点对辨识能力较低所致。

表 3. 正确匹配点均方根误差平均值对比

Table 3. Comparison of mean of root mean square residuals of correct matching

LHOPC	RIFT	HAPCG	CSF	ECSF
1.679	1.899	1.876	1.783	1.771

查看所有表

各算法在整个数据集上的平均运行时间如表4所示。由表4可见，HAPCG用时最短，ECSF、LHOPC和CSF次之，RIFT最长。其原因是：HAPCG提取的特征点更少，在特征描述和匹配环节用时更少；而RIFT采用循环最大指数图构造描述子，特征匹配阶段的复杂度随循环次数成倍增加，因此，在特征点相同的情况下，特征匹配阶段用时最长；ECSF、LHOPC和CSF在特征描述阶段的复杂度相同，用时较为接近。而ECSF用时要略高于CSF，是因为在多个尺度上提取混合特征点一定程度上增加了算法复杂度。

表 4. 平均运行时间对比

Table 4. Comparison of average running time

LHOPC	RIFT	HAPCG	CSF	ECSF
6.53	26.14	5.99	6.29	7.23

查看所有表

4.4　扩展策略效能分析

为了分析所提针对累积结构特征匹配方法3个扩展策略（策略1：混合特征点提取；策略2：局部结构特征场提取特征点主方向；策略3：描述子L1归一化及开方）的效能，按照扩展策略依次叠加的方式进行对比实验，在整个数据集上考查其平均匹配点总数目、匹配正确点数目和匹配正确率，结果如表5所示。由表5可见，与CSF相比，ECSF采用策略1时平均匹配正确点数目和平均匹配正确率均有所下降，表明只采用策略1并不能提高算法的性能；当增加策略2时，ECSF的平均匹配正确点数目增加1.5个，平均匹配正确率上升1.7个百分点，间接表明策略2可通过缓解主方向分配误差提高匹配性能；当继续增加策略3时，ECSF的平均匹配点总数由679.9下降到410.0，但平均匹配正确点数目只下降7.9个，平均匹配正确率却上升6.6个百分点，表明策略3可有效地减少匹配点中的错误匹配，提高算法鲁棒性。上述实验说明，只有综合采用策略1、2、3，才能体现混合特征点重复性不低于累积结构特征图FAST特征点重复性的优势。此外，增加仅采用策略2、3的对比实验，结果表明，ECSF的平均匹配点总数从679.9下降到418.3，但平均正确匹配点数只下降1.2个，平均匹配正确率反而增加了7.8个百分点，间接说明所提方法在特征点提取方式相同的情况下可明显增强累积结构特征描述子的辨识能力。

表 5. 扩展策略效能对比实验结果

Table 5. Comparative experimental results on the effectiveness of extended strategies

Strategy	Average number of total matching	Average number of correct matching	Average ratio of correct matching /%
CSF	679.9	102.7	12.8
ECSF（strategy 1）	630.9	88.2	11.9
ECSF（strategy 1，2）	628.2	104.2	14.5
ECSF（strategy 1，2，3）	410.0	94.8	19.4
ECSF（strategy 2，3）	418.3	101.5	20.6

查看所有表

5　结论

从特征提取、主方向分配和描述子构造等各个环节对多模态图像累积结构特征匹配方法进行扩展，提高匹配鲁棒性。考虑累积结构特征图的细节层次，在不同尺度上分别提取改进后的Shi-Tomasi和FAST角点；以特征点局部累积结构特征场的方向信息作为特征点主方向，减少梯度方向直方图等方法在主方向计算上产生的分配误差；对原始CSF描述子进行L1归一化并开方，避免在特征匹配阶段采用欧氏距离度量时过度强调少数差异较大的特征维度，从而增强描述子的辨识能力。实验结果表明，扩展的累积结构特征匹配算法显著提升了平均匹配正确点数目和匹配正确率等综合性能指标，同时提高了匹配精度，且运行效率并未明显损失，说明了扩展策略的有效性。

所提方法可用于后续卫星影像底图控制点匹配、多源遥感影像拼接等常规遥感图像处理任务。在后续研究中可考虑如何利用CSF特征图提取精度更高且重复性更好的特征点，以及研究不同场景、不同结构内容下采用多模态图像累积特征描述邻域大小的普适性。

参考文献

[1] Sedaghat A, Mohammadi N. High-resolution image registration based on improved SURF detector and localized GTM[J]. International Journal of Remote Sensing, 2019, 40(7): 2576-2601.

[2] Kakooei M, Baleghi Y. Fusion of satellite, aircraft, and UAV data for automatic disaster damage assessment[J]. International Journal of Remote Sensing, 2017, 38(8/9/10): 2511-2534.

[3] Xing J, Sieber R, Caelli T. A scale-invariant change detection method for land use/cover change research[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 141: 252-264.

[4] Noh M J, Howat I M. Automatic relative RPC image model bias compensation through hierarchical image matching for improving DEM quality[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 136: 120-133.

[5] Zitová B, Flusser J. Image registration methods: a survey[J]. Image and Vision Computing, 2003, 21(11): 977-1000.

[6] 于子雯, 张宁, 潘越, 等. 基于改进的SIFT算法的异源图像匹配[J]. 激光与光电子学进展, 2022, 59(12): 121002.

Yu Z W, Zhang N, Pan Y, et al. Heterogeneous image matching based on improved SIFT algorithm[J]. Laser & Optoelectronics Progress, 2022, 59(12): 121002.

[7] Ye Y X, Shan J, Bruzzone L, et al. Robust registration of multimodal remote sensing images based on structural similarity[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(5): 2941-2958.

[8] Sedaghat A, Mohammadi N. Illumination-Robust remote sensing image matching based on oriented self-similarity[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 153: 21-35.

[9] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

[10] Bay H, Ess A, Tuytelaars T, et al. Speeded-up robust features (SURF)[J]. Computer Vision and Image Understanding, 2008, 110(3): 346-359.

[11] Sedaghat A, Mokhtarzade M, Ebadi H. Uniform robust scale-invariant feature matching for optical remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2011, 49(11): 4516-4527.

[12] Dellinger F, Delon J, Gousseau Y, et al. SAR-SIFT: a SIFT-like algorithm for SAR images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2015, 53(1): 453-466.

[13] Kovesi P. Image features from phase congruency[J]. Journal of Computer Vision Research, 1999, 1(3): 1-26.

[14] Wong A, Clausi D A. ARRSI: automatic registration of remote-sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2007, 45(5): 1483-1493.

[15] Ye Y X, Shan J, Hao S Y, et al. A local phase based invariant feature for remote sensing image matching[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 142: 205-221.

[16] Li J Y, Hu Q W, Ai M Y. RIFT: multi-modal image matching based on radiation-variation insensitive feature transform[J]. IEEE Transactions on Image Processing, 2020, 29: 3296-3310.

[17] 姚永祥, 张永军, 万一, 等. 顾及各向异性加权力矩与绝对相位方向的异源影像匹配[J]. 武汉大学学报(信息科学版), 2021, 46(11): 1727-1736.

Yao Y X, Zhang Y J, Wan Y, et al. Heterologous images matching considering anisotropic weighted moment and absolute phase orientation[J]. Geomatics and Information Science of Wuhan University, 2021, 46(11): 1727-1736.

[18] 谢勋伟. 累积结构特征描述的多模态遥感影像匹配[J]. 电讯技术, 2022, 62(12): 1780-1785.

Xie X W. Multi-modal remote sensing image matching based on cumulative structural feature description[J]. Telecommunication Engineering, 2022, 62(12): 1780-1785.

[19] Haskins G, Kruger U, Yan P K. Deep learning in medical image registration: a survey[J]. Machine Vision and Applications, 2020, 31(1): 8.

[20] EfeU, InceK G, Aydin AlatanA. DFM: a performance baseline for deep feature matching[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), June 19-25, 2021, Nashville, TN, USA. New York: IEEE Press, 2021: 4279-4288.

[21] 刘磊, 李元祥, 倪润生, 等. 基于卷积与图神经网络的合成孔径雷达与可见光图像配准[J]. 光学学报, 2022, 42(24): 2410002.

Liu L, Li Y X, Ni R S, et al. Synthetic aperture radar and optical images registration based on convolutional and graph neural networks[J]. Acta Optica Sinica, 2022, 42(24): 2410002.

[22] 邹融平, 朱斌, 王晨阳, 等. 基于残差伪孪生卷积互相关网络的异源遥感图像匹配算法[J]. 激光与光电子学进展, 2022, 59(12): 1228002.

Zou R P, Zhu B, Wang C Y, et al. Heterogeneous remote sensing image matching algorithm based on residual pseudo-twin convolutional cross-correlation network[J]. Laser & Optoelectronics Progress, 2022, 59(12): 1228002.

[23] Fischer S, Šroubek F, Perrinet L, et al. Self-invertible 2D log-Gabor wavelets[J]. International Journal of Computer Vision, 2007, 75(2): 231-246.

[24] Rosten E, Porter R, Drummond T. Faster and better: a machine learning approach to corner detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(1): 105-119.

[25] ShiJ B, Tomasi. Good features to track[C]∥1994 Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, June 21-23, 1994, Seattle, WA, USA. New York: IEEE Press, 2002: 593-600.

[26] Fan B, Wu F C, Hu Z Y. Rotationally invariant descriptors using intensity order pooling[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(10): 2031-2045.

[27] Qian J J, Yang J, Gao G W. Discriminative histograms of local dominant orientation (D-HLDO) for biometric image feature extraction[J]. Pattern Recognition, 2013, 46(10): 2724-2739.

[28] Bellavia F, Colombo C. RootsGLOH2: embedding RootSIFT‘square rooting’in sGLOH2[J]. IET Computer Vision, 2020, 14(4): 138-143.

[29] Yao Y X, Zhang Y J, Wan Y, et al. Multi-modal remote sensing image matching considering co-occurrence filter[J]. IEEE Transactions on Image Processing, 2022, 31: 2584-2597.

1　引言

2　累积结构特征匹配方法原理

2.1　奇对称Log-Gabor小波预处理

谢勋伟. 扩展的多模态遥感图像累积结构特征匹配方法[J]. 激光与光电子学进展, 2024, 61(4): 0428002. Xunwei Xie. Extended Cumulative Structural Feature Matching Method for Multimodal Remote Sensing Images[J]. Laser & Optoelectronics Progress, 2024, 61(4): 0428002.