融合混合注意力实例分割的视觉同步定位与建图算法

针对视觉同步定位与建图算法在遮挡情况下易受到干扰而导致定位误差较大且闭环检测精度较低等问题，提出一种融合混合注意力实例分割的视觉同步定位与建图算法。该算法能够动态调整被遮挡物识别权重，在出现遮挡情况时提升对被遮挡物的特征提取与识别能力。同时采用概率去误匹配算法去除错误匹配点对，增加位姿求解及关键帧选取精度，从而更好地修正机器人位姿、提高系统构图的准确率。通过KITTI公开数据集和真实场景对所提算法进行测试，结果表明，所提算法在闭环准确率上与ORB-SLAM2算法相比约提高10.7%，平移误差约减小27.6%，体现了良好的构图能力。

Abstract

The visual simultaneous localization and mapping algorithm is easy to be interfered under occlusion, which leads to large positioning error and low closed-loop detection accuracy. In this paper, a visual simultaneous localization and mapping algorithm based on mixed attention instance segmentation is proposed, which can dynamically adjust the recognition weight of the occluded object and improve the feature extraction and recognition ability of the occluded object in the case of occlusion. At the same time, a probabilistic mismatching removal algorithm is used to remove the wrong matching point pairs and increase the accuracy of pose solution and key frame selection. In this way, the robot pose can be better corrected and the accuracy of system composition can be improved. The proposed algorithm is tested through KITTI open dataset and real scenes, and the results show that the closed-loop accuracy of the proposed algorithm is about 10.7% higher than ORB-SLAM2 algorithm, and the translation error is about 27.6% lower, reflecting good composition ability.

1　引言

同步定位与建图（SLAM）是指移动机器人进入未知环境时，在没有环境先验输入情况下，对所处位置进行定位并同时形成环境地图，从而实现后续的导航任务^［1-3］。视觉SLAM利用视觉传感器获取图像，从图像信息中提取移动机器人位姿信息，具有应用场景广泛、耗能较低的特点。不过视觉SLAM也存在缺陷，累积漂移误差的修正受外界环境影响仍存在精度不高的情况^［4-6］。

为了在多场景下消除累积漂移误差对系统的影响，加入闭环检测来不断修正移动机器人位姿，旨在通过对不同时刻场景的辨别来判断移动机器人当前位置是否为之前某个相同位置^［7-8］。Konolige等^［9］提出Random Sample Consensus（RANSANC）算法提取特征点周围三维信息进行闭环检测，然而该算法在几何结构相同率高的情况下效果不尽如人意。Olson^［10］提出相关性扫描匹配（CSM）算法，通过每一帧与另一帧之间的相似性进行匹配，相似度高的则认定为同一场景。这种算法虽无需局部地图的存储，但计算过于复杂、计算量过大。Cummins等^［11］在假定图像只存在旋转角度的情况下，只检测图像特征的几何一致来提高算法效率，但存在过分堆叠环境下，只利用特征一致性存在区分度弱、提供信息不充分等问题。Botterill等^［12］使用词袋模型思想将每幅图片表示为某些单词的集合，进行特征分类。Mur-Artal等^［13］提出的ORB-SLAM2算法，融合Oriented Fast and Rotated Brief（ORB）算法良好的特征计算不变性，有效解决基于词袋模型可能存在的定位丢失问题。但上述所有算法在存在遮挡的情况下均难以提取目标物体的部分或全部特征。Arandjelović等^［14］通过视觉词典中的词汇提取语义信息，将图像语义与闭环检测环节相结合，在闭环检测时引入语义信息代替单纯的几何信息来实现鲁棒的场景识别，规避了点特征参与匹配时可能存在的误识别，使匹配结果准确度大大提高。迅速发展的深度学习又给人们提供了另一种思路。Detect-SLAM^［15］系统使用SSD^［16］目标检测网络对关键帧进行动态物体检测，解决存在的动态遮挡问题，但所需时间相对较多。Wang等^［17］利用YOLOv3算法检测特定运动物体，相较Detect-SLAM算法运行时间显著减少。但以上两种算法只对物体大致位置进行框选，忽略了物体的边缘轮廓，提取精度较差。Yu等^［18］提出的DS-SLAM算法在ORB-SLAM2框架上添加SegNet^［19］提取目标的像素级信息进行分割，解决物体遮挡问题，提高了提取精度。上述算法均是对遮挡物体类别进行识别，忽略了对被遮挡物特征的提取，使得整体可用特征较少，不利于SLAM算法的闭环，且检测到的物体可能是处于静止状态的，例如在KITTI数据集或停车场中，静态车辆可以用作SLAM算法闭环检测。若只考虑遮挡物类别，算法精度将会大大降低，甚至会导致闭环检测失败。

因此，所提算法改进实例分割算法Mask-RCNN^［20］主干网络，并将两种软注意力（空间、通道）机制与视觉SLAM算法相结合，增大被遮挡物识别权重，提高SLAM算法闭环检测时对被遮挡物特征的提取与识别能力。同时，为避免因环境变化导致图像匹配错误率较高，而造成用于实例分割的关键帧冗余：引入概率去误匹配算法，计算每张图片匹配特征点对距离分布；去除极端分布匹配点对，减少选取关键帧时存在的误匹配得到更为优质的关键帧。改进后算法可以更好地实现相同场景下的识别与匹配，增强算法在遮挡环境下对被遮挡物体的识别能力，提升SLAM建图环节的稳定性。

2　算法结构

所提算法由混合注意力Mask-RCNN、概率去误匹配算法以及定位建图等3个部分构成。将机器人探索未知环境时视觉传感器获取的图像信息输入融合混合注意力Mask-RCNN实例分割算法中对被遮挡物进行注意力加权，最终得出实例分割结果。概率去误匹配算法对输入图像进行特征提取与匹配，并根据匹配点对概率分布去除可能存在的误匹配。根据图像间位姿估计更新移动机器人轨迹地图，并与已有关键帧库中图像进行比对得出相似性评分，确定阈值将相似性较低的图片设定为关键帧进行闭环检测。若产生闭环，则用较前时刻相应位姿信息进行修正构图。系统框架图如图1所示，其中ROI为感兴趣区域的缩写。