激光与光电子学进展, 2023, 60 (16): 1615008, 网络出版: 2023-08-18  

基于关键点距离表征网络的物体位姿估计方法 下载: 770次

Object Pose Estimation Method Based on Keypoint Distance Network
作者单位
天津大学精密测试技术及仪器国家重点实验室,天津 300072
摘要
提出一种新型的关键点距离表征学习网络,该网络利用位姿变换过程的几何不变性信息,在网络中引入距离量的估计,进而推导出稳健关键点,以此来提升基于深度学习的六自由度物体位姿估计方法的精度。所提方法包含两个阶段。首先,设计了关键点距离表征网络,通过一种骨干网络模块和特征融合结构实现RGB-D图像特征提取,并结合多层感知机预测物体逐点相对于关键点的距离量、语义和置信度。其次,根据可视点投票法及四点距离定位法,利用网络输出的多维信息推理计算关键点坐标,并最终通过最小二乘拟合算法得到物体位姿。为了证明所提方法的有效性,在公开数据集LineMOD和YCB-Video上进行了测试,实验结果表明,所提方法相比于原PSPNet框架中的ResNet参数量减少一半且精度有所提升,在两个数据集上精度分别提升了1.1个百分点和5.8个百分点。
Abstract
Herein, we present a novel keypoint distance learning network, which utilizes geometric invariance information in pose transformation. Distance estimation is added to the network and robust keypoints are determined, which improves the pose estimation accuracy within six degrees of freedom based on deep learning. The proposed method consists of two stages. First, a keypoint distance network is designed, which achieves RGB-D image feature extraction using a backbone network module and a feature fusion structure and predicts the distances of each point relative to the keypoints, semantics, and confidence using a multilayer perceptron. Second, based on the visual point voting method and the four point distance positioning method, keypoint coordinates are calculated using the multi-dimensional information output from the network. Finally, object poses are obtained through the least square fitting algorithm. To prove the effectiveness of the proposed method, we tested it on public datasets LineMOD and YCB-Video. Experimental results show that the network parameters of this method can be reduced by 50% with improved accuracy compared to ResNet in the original PSPNet framework, with accuracy improvements of 1.1 percentage points and 5.8 percentage points on two datasets, respectively.

1 引言

物体的六自由度(6D)位姿估计是计算机视觉领域的重要问题,是机械臂作业、自动驾驶以及增强现实任务中的关键技术。其主要任务是根据相机等视觉传感器采集到的信息,估计场景中物体与传感器之间的变换关系,包括三自由度旋转变换和三自由度平移变换1-2

传统的6D位姿估计方法需要人工提取并选择合适的特征,如纹理、形状等全局特征和SIFT、SURF、ORB特征点等局部特征3,采用机器学习等方法实现与模板之间的特征匹配。但由于人工选取的特征比较单一且鲁棒性差,在目标被遮挡、光照变换强烈、背景杂乱等复杂情况下结果较差。随着深度学习技术的飞速发展,深度卷积神经网络(DCNN)被应用到此任务中,代替人工自动提取更深层次的抽象特征,鲁棒性高,在复杂环境中表现出更优的性能。Xiang等4、Chen等5、Wang等6通过神经网络直接回归目标物体6D位姿,此种框架较为简洁高效,但由于旋转空间是非线性的,网络回归的结果往往不够精确,还需结合iterative closest point(ICP)等耗时的迭代优化过程才能达到更优的水平。而Rad等7、Zhao等8、Peng等9则采用二阶段的方法,先通过神经网络进行关键点检测再通过perspective-n-point(PnP)算法求解位姿。此方法的结果更加稳定。与Rad等7不同的是,Peng等9选用目标表面的8个关键点代替包围框的8个角点,使得网络可以更好地获得上下文信息。同时Peng等9对目标可视部分的每个像素特征都回归了一个指向关键点的单位向量,在遮挡情况下具有很好的鲁棒性。但它们都是基于二维投影空间的检测,二维中较小的误差在三维空间中可能很大,且三维中不同关键点的二维投影可能会重叠,较难分辨。此外,二维投影会使刚性物体的部分几何约束信息丢失。随着RGB-D传感器的发展,深度图像的引入为物体位姿估计增加了更多的几何信息,使其向三维空间的拓展成为可能,例如Frustum PointNets10、MPCS-Net11等。在Wang等12提出的DenseFusion中,深度图被转化为点云数据通过PointNet提取点云特征,再与RGB图像特征逐像素融合,以生成目标最终的6D位姿预测。结合深度图像的物体位姿估计相较于仅使用RGB图的方法通常能得到更加精确且鲁棒的位姿,对弱纹理物体的估计也能保持结果的稳定性。综上所述,本文基于RGB-D图像采用深度神经网络实现三维空间中关键点的检测,改善二维关键点方法的缺陷,进而实现具有鲁棒性的物体位姿估计。

目前一些基于关键点检测网络的方法直接输出关键点坐标或指向关键点的向量,在相机坐标系中,关键点坐标或指向关键点向量随着物体姿态的变换而变化,使得网络较难学习到物体其他可视点与关键点之间的关系,网络泛化能力较弱,在场景变换等情况下鲁棒性较低。针对这一问题,本文提出基于距离表征的关键点检测网络,在网络中引入距离量,使网络直接输出物体每一可视点与关键点三维空间之间的距离。由于刚体质点之间的距离在姿态变换时保持不变,因此网络更容易学习到逐点与关键点之间的距离特征,从而提升网络泛化能力。

在第一阶段关键点检测网络中采用PSPNet框架13和RandLA-Net框架14分别对RGB图和由深度图像转化的点云进行特征提取融合。并且在RGB图的特征提取中设计了一种新的骨干网络模块,结合了ResNet15和DenseNet16的优势,大大减少了网络的参数量。第二阶段将网络输出的关键点距离通过推理计算得到物体的6D位姿,由于网络输出会存在一些异常值点影响后续计算,因此引入置信度网络,输出每一特征点距离预测的置信度,剔除置信度低的点,从而提升最终的位姿估计精度。

2 基于关键点距离表征网络

所提方法的总体框架如图1所示,主要包括神经网络和推理计算两部分。其中,神经网络部分由特征提取融合网络、关键点距离预测模块、结合聚类的语义分割模块和置信度网络组成。首先根据已知的相机内参将深度图转换成点云,再分别对RGB图和点云进行特征提取,并逐层逐点融合得到包含纹理信息和几何信息的特征,分别输入后续的关键点距离预测网络、语义分割网络和置信度网络,得到逐点与关键点的距离、逐点语义和逐点置信度。其中:距离量用于关键点计算;逐点语义用于物体分割;置信度用于异常值点剔除。

图 1. 位姿估计总体框架

Fig. 1. Overview of pose estimation

下载图片 查看所有图片

2.1 特征提取融合网络

为了获取图像中的纹理颜色信息和几何信息用于关键点的检测,需要从输入的RGB-D图像中分别提取特征,同时将物体同一位置的两种特征对应融合。首先,根据已知的相机内参将深度图转化为点云。分别采用PSPNet13和RandLA-Net14的核心特征提取框架中的卷积层和点云网络层对RGB图和点云进行特征提取。简单地将图像特征和点云特征拼接起来可以实现两种信息的结合,但在纹理特征或点云特征有部分缺失时,网络准确性随之下降。因此所提方法在每个编码层和解码层都将两者融合,如图1所示,在每个特征层次都实现了图像信息和几何信息的融合,以实现特征的互补。当有一方信息缺失时,另一方可以弥补,实现稳健可靠的特征提取。

PSPNet的核心模块是金字塔池化模块(pyramid pooling module),该模块可以将不同区域的上下文信息聚合起来,增加全局信息的获取能力同时增大感受野。设计了一种新的骨干网络模块替代网络中原本的ResNet101,如图2所示。它结合DenseNet15与ResNet16的优势,包含稠密连接结构和残差短连接结构,增强了网络的学习能力并且减小了网络的规模,减少运行时间。RandLA-Net是一种基于随机降采样和局部特征聚合的轻量级的网络,采用随机降采样,大大减小了计算量,节省运行时间,同时采用局部特征聚合解决随机降采样导致的信息丢失问题。此网络框架计算效率高且内存占用少,同时可增大每个特征点有效的感受野,适用于本研究的点云特征提取。

图 2. 骨干网络模块

Fig. 2. Backbone network module

下载图片 查看所有图片

RGB特征和点云特征逐层的融合结构如图3所示。由于RGB图和深度图是对齐的,可以根据深度图将RGB图中的每个像素点均转换为三维空间的点坐标,从而可以在RGB特征中找到与点云特征相对应的特征。将对应特征拼接后通过共享多层感知机(shared MLP)得到融合后的特征。

图 3. 特征融合结构

Fig. 3. Feature fusion structure

下载图片 查看所有图片

2.2 关键点距离预测模块

2.2.1 关键点的选择

为实现基于关键点的位姿估计,首先需要根据物体已知的CAD模型选择合适的关键点作为先验知识,关键点常常采用物体检测中的三维包围盒的8个角点8,但这8个点是虚拟的点,并且距物体的距离较远,使得基于点的网络无法获得上下文信息,从而产生较大的定位误差。针对这一问题,采用最远点采样(FPS)算法在物体表面选择关键点。在这一过程中,选择物体模型的中心点作为初始点,然后每次选择一个距离所有选中点最远的新点加入集合,直到得到所有关键点。得到的关键点分散在物体表面边缘,具有较丰富的几何信息。为了使关键点同时包含物体的纹理信息,结合SIFT特征提取方法,从不同视角对物体CAD模型进行图片采集,采用SIFT特征提取得到候选的2D关键点,再将其转换到三维空间,最后通过FPS算法得到N个关键点。

2.2.2 关键点距离预测

通过特征提取融合网络得到RGB-D的密集融合特征后,采用MLP实现关键点距离的预测。MLP层与层之间是全连接的,包括输入层、输出层和隐藏层,具备快速解决复杂问题的能力。输入提取特征,经过隐藏层,输出为N通道,分别表示其他可视点距N个关键点的距离。对于关键点距离量的监督采用L1损失,损失函数如式(1)所示:

Lkeypoint=1MiMjNdij-d*ij

式中:N为关键点的个数;M为物体可视点的数量;d为逐点与关键点的距离;d*为距离的真值。

2.3 结合聚类的语义分割

当场景中存在多个物体时,为实现物体分割,以前的方法1214通过目标检测或者分割对图像进行预处理从而获得单个物体的包围框。而所提方法在语义分割的基础上结合物体中心点的预测,实现结合聚类的语义分割,以达到更好的分割效果。采用MLP分别预测M个点的语义和M个点相对于中心点的偏移ΔviΔxi,Δyi,Δzii=1M,已知每点的三维坐标pixi,yi,zii=1M,根据式(2)可以得到逐点预测出的物体中心点pctr i

pctr i=pi+Δvi

根据点的语义类别将M个中心点分成S类,在理想情况下,属于同一类别的点预测的中心点应该是一致的。但实际的网络输出会有误差,使预测的中心点不完全一致,而对其直接求其平均值会使预测错误的点对结果影响较大,因此所提方法将属于同一类别的中心点通过MeanShift聚类算法得到每个物体的中心点,消除错误点的影响。分别计算M个预测的中心点与S个物体中心点的距离{dij}|i=1S|j=1M,选择距离M点最近的中心点的语义作为该点的语义更新初始语义分割,并且删除最小距离大于0.8R的点,R为物体的半径。与普通的语义分割相比,结合聚类的语义分割可以得到更优的结果,同时对于外观相似但大小不同的物体也有较好的分割效果。

在此任务中,中心点预测的损失函数为

Lcenter=1MiMΔvi-Δvi*

式中:Δvi为预测的中心点偏移;Δvi*为中心点偏移的真值。语义分割的损失采用Focal损失:

Lsemantic=-α1-qiγlogqi

式中:αγ均为可调节参数,α用于调节正负样本损失之间的比例,γ用于调节难分与易分样本的损失贡献;qi为预测类别正确的概率。

2.4 置信度模块

在以下几种情况时,网络的输出可能会存在一些异常值,影响估计结果:1)当两物体相互堆叠时,在其交界处可能会存在分割错误的点;2)当物体外观与背景相似或与另一物体相似时,存在预测错误的点;3)在距离关键点极近的位置,与关键点的距离值接近0,此时网络的输出值可能会出现异常。针对这一问题,设计置信度网络模块,在输出每点距离预测的同时输出每点的置信度,通过置信度评价距离预测的准确程度。此模块根据提取的逐点特征和关键点距离预测误差预测置信度。

置信度网络模块结构如图4所示,作为一个分类任务,包括MLP和Softmax层。网络的输入为上文中网络输出的拼接,包括逐点融合特征、关键点距离预测值以及语义分割结果,输出为两通道的向量,分别代表类别0和1的概率。置信度的标签由关键点距离预测的误差决定,当误差大于设定的阈值时标签为0,小于阈值时标签为1。损失函数为

Lconf=-1Mi=1Myilgci+1-yilg1-ci

式中:yi为置信度标签;ci为预测的置信度。从损失函数可以看出,输出置信度值越接近1,损失越小。网络训练置信度值为1,因此将输出1通道的值作为最终的逐点置信度是合理的。

图 4. 置信度网络

Fig. 4. Confidence network

下载图片 查看所有图片

3 位姿推理计算

在基于关键点的位姿估计方法中,需要将网络输出的结果经过第二阶段的处理以得到最终的位姿。第二阶段的推理计算主要包括从距离量到关键点的计算和从关键点到位姿的计算,如图5所示。根据第一阶段的网络语义和置信度实现物体的分割以及异常值的剔除得到每个物体可视点到关键点的距离量,再根据可视点多少选择投票法或四点定位法实现距离量到关键点的转换。从计算得到的相机坐标系下的N个关键点坐标中挑选最优的3个点,与先验的物体坐标系下的对应关键点坐标组成关键点对,并通过最小二乘拟合计算得到最终的物体位姿。经过这两部分的计算可以将网络输出的语义预测、距离预测和置信度预测转化为物体的精确位姿。

图 5. 推理计算流程图

Fig. 5. Flow chart of reasoning calculation

下载图片 查看所有图片

3.1 距离量到关键点的计算

想要完成距离量到关键点的转换,首先需要根据每点的语义将不同的物体区分开,分别得到每个物体可视点的距离值,同时根据置信度值剔除异常的距离量。由于点云特征提取网络中对点云的下采样是随机的,每个物体采样到的点数量不同,点的数量会对估计结果产生影响,因此根据物体采样点数量的多少,采用不同方法完成距离量到关键点的转换。

当物体采样点较少时,从距离量到空间点的转换采用四点定位法。根据已知的4点坐标p1p2p3p4和4个点到点p0的距离量d1d2d3d4,可以求得另一点p0的空间坐标。首先根据距离公式可得

x1-x02+y1-y02+z1-z02=d12x2-x02+y2-y02+z2-z02=d22x3-x02+y3-y02+z3-z02=d32x4-x02+y4-y02+z4-z02=d42

由于式(6)中存在高次项,不利于方程的求解,所以需要对方程进行三次差分消除高次项:

2x0x2-x12+2y0y2-y12+2z0z2-z12=d12-d22+x22-x12+y22-y12+z22-z122x0x2-x12+2y0y2-y12+2z0z2-z12=d12-d32+x32-x12+y32-y12+z32-z122x0x2-x12+2y0y2-y12+2z0z2-z12=d12-d42+x42-x12+y42-y12+z42-z12

用矩阵可表示为

Ac=b

式中:A=2x2-x12y2-y12z2-z12x3-x12y3-y12z3-z12x4-x12y4-y12z4-z1c=x0y0z0b=d12-d22+x22-x12+y22-y12+z22-z12d12-d32+x32-x12+y32-y12+z32-z12d12-d42+x42-x12+y42-y12+z42-z12

c即为待求点,如果A的逆矩阵存在即可通过式(9)求得待求点坐标。

c=A-1b

根据上述4点定位法可知,4点可以确定1个候选关键点,在物体所有可视点中随机选择4点计算得到关键点候选,重复多次可得到多个关键点候选点。由于预测距离存在误差,若随机选取的4点距离较近或接近于同一平面时,微小误差会造成关键点误差较大,因此选用MeanShift聚类方法得到大多数关键点候选的聚集位置,消除异常的关键点候选对于最终结果的影响。

但当物体采样点较多时,采用此方法计算量较大、时间代价较高。由于关键点均在物体表面,因此借助RGB-D图像得到的点云坐标,采用投票的方法在物体表面找到最合适的关键点。

首先,将物体表面的所有点均看作关键点k的一组候选点Pk,i=(xk,i,yk,i,zk,i)|k=1,2,,N; i=1,2,,M,根据其他点预测的距离dj和已知坐标pj=(xj,yj,zj)|j=1,2,,M-1式(10)计算得到该点与其他所有点z坐标的差值。

Δzk,i,j'=dj2-(xj-xk,i)2-(yj-yk,i)2

而实际z坐标的差值可由Δzk,i,j=zj-zk,i计算得到,根据式(11)得到其他所有点对每个候选关键点的投票值。

vk,i=j=1M-1Δzk,i,j-Δzk,i,j'>t

式中:t为误差阈值,若小于此阈值则认为pj点对Pi候选点的投票为真。选择最大投票值vk,max对应的点Pk,max作为最后的关键点k

vk,max=maxvk,i|i=1,2,,M

3.2 关键点到位姿的计算

根据第3.1小节得到的相机坐标系下的关键点坐标pkey ii=1N和已知的物体坐标系下的关键点坐标pkey* ii=1N采用最小二乘拟合的方法通过最小化Lfit损失[式(13)]实现物体位姿旋转矩阵R和平移矩阵T的计算。但在实际情况中可能会出现遮挡的情况,某些关键点在RGB-D图像中不可见,其关键点误差比可见关键点误差稍大,因此从所有关键点中挑选精度更高的关键点可以提升位姿估计准确度。由于采用最小二乘拟合方法求解物体位姿时需要至少3个点才能完成,因此可以从N个关键点中选择最合适的3个点参与解算。由于关键点的数量较少,可以采用穷举法,选择任意3点组合解算,共计算CN3种组合求得CN3个候选位姿结果。将已知的物体点云模型按每个候选位姿进行变换,寻找场景中物体点云与转换后的点云模型距离最近的点并一一对应,计算点与点之间的平均距离误差,选择候选位姿中误差最小的位姿作为最终的位姿结果。

Lfit=i=1Npkey* i-Rpkey i+T2

4 实验与分析

本实验基于PyTorch 1.11的环境,采用RTX3090显卡实现模型训练和测试。分别在LineMOD和YCB-Video两个公开数据集对所提方法进行验证,并与其他先进方法进行比较。

4.1 数据集

LineMOD数据集是一个包含13个低纹理对象的视频数据集。每个物体包含大约1200组数据,每组数据包括RGB-D图像、实例掩膜和标注的六自由度位姿。其中,图像大小为480 pixel×640 pixel。对此数据集位姿估计的主要挑战是场景杂乱、物体纹理弱和环境光照变化。

YCB-Video数据集包含21个形状和纹理各不相同的物体。它们分布在92个RGB-D视频中,每个视频场景中包含不同的物体组合,图像大小为480 pixel×640 pixel。数据集中包括标注的六自由度位姿和实例语义分割产生的掩码以及每个物体的CAD模型。数据集具有光照变化、图像噪声和遮挡等挑战。

4.2 评价指标

对位姿估计的评价通常采用ADD和ADDS两种指标。对于非对称物体,ADD指标计算物体模型分别通过预测值变换和真值变换后对应点对的平均距离,如式(14)所示。而对于对称物体,ADDS计算物体模型分别通过预测值变换和真值变换后距离最近的点对的平均距离,如式(15)所示。

DADD=1mvoRvo+T-R*vo+T*,DADDS=1mv1ominv2oRv1+T-R*v2+T*

式中:v表示物体模型o中的体素点;m表示点的总数;RT表示预测的位姿;R*T*表示位姿的真值。

对于YCB-Video数据集,本文按照文献[4]、[12]的评估方式,通过计算精度-阈值曲线下的面积,即随着距离阈值变化ADD(S)/ADD-S的变化曲线下的面积,后文称为AUC-ADD(S)。这里ADD(S)表示针对对称和非对称物体分别采用不同的指标,ADD-S表示对对称物体和非对称物体的综合评价。对于LineMOD数据集,按照文献[4]、[9]的评估方式,平均距离误差小于10%物体直径的预测被视为成功的预测,计算测试集中所有情况的预测精度,后文称为10%d-ADD(S)。

4.3 测试结果与分析

4.3.1 实验细节

所提网络模型中的特征提取融合网络为编码-解码结构。针对RGB图像的特征提取采用基于新型骨干模块的PSPNet。在点云的特征提取中,需要先对深度图随机采样12800个点实现深度图到点云的转换,再采用RandLA-Net实现点云的特征提取。在编码和解码的每层都通过shared MLP将两种特征逐点融合,共融合8次,得到最终的密集融合特征。再通过MLP分别实现语义分割、关键点距离预测和置信度预测。训练过程中采用小批量梯度下降法,单次批量设置为6,每个物体训练约30 epoch。语义分割和置信度预测模块的优化均采用Focal损失函数,关键点距离预测模块和分割中的中心点预测的优化采用L1损失函数,通过多任务损失函数来监督整个过程,损失函数如式(16)所示,其中,w1=w3=1w2=w4=2

Lall=w1Lkeypoints+w2Lsemantic+w3Lcenter+w4Lconf

4.3.2 数据集测试结果

分别在LineMOD数据集和YCB数据集上进行测试。图6(a)和图6(b)分别为两数据集测试的可视化结果,图中物体覆盖的色块为将物体点云模型经过位姿结果变换并投影到图片的结果,覆盖程度越高表示估计位姿越准确。从图中可以看出,投影与物体重合度较高。

图 6. 可视化结果。(a)LineMOD数据集;(b)YCB-Video数据集

Fig. 6. Visualization results. (a) LineMOD dataset; (b) YCB-Video dataset

下载图片 查看所有图片

表1为所提方法与其他4种49125具有代表性方法对LineMOD数据集中每类物体的测试结果。采用与其他4种方法相同的评价指标10%d-ADD(S),将半径的10%作为阈值评价估计结果成功与否。eggbox和glue两种对称物体采用ADDS指标,其他物体采用ADD指标。表1结果显示,所提方法相比于其他方法有较明显的优势,平均结果从对比方法中最好的98.7%提升到99.8%。

表 1. LineMOD数据集上的测试结果[10%d-ADD(S)]

Table 1. Test results on LineMOD dataset [10%d-ADD(S)]

ObjectPoseCNNPVNetDenseFusionG2L-NetProposed method
mean88.686.394.398.799.8
ape77.043.692.396.898.7
benchvise97.599.993.296.1100.0
camera93.586.994.498.299.9
can96.595.593.198.0100.0
cat82.179.396.599.299.9
driller95.096.487.099.8100.0
duck77.752.692.397.798.6
eggbox97.199.299.8100.0100.0
glue99.495.7100.0100.099.9
holepuncher52.882.092.199.0100.0
iron98.398.997.099.3100.0
lamp97.599.395.399.5100.0
phone87.792.492.898.9100.0

查看所有表

表2为所提方法与其他3种方法在YCB-Video数据集上每类物体的测试结果,由于PVNet未在此数据集上测试,因此未列出。采用与其他3种方法4126相同的评价指标AUC-ADD-S和AUC-ADD(S)计算精度-阈值曲线下的面积。其中:ADD-S是将对称物体和非对称物体集成到同一评估中的指标,均采用ADDS指标计算;ADD(S)是对bowl、wood block、large clamp、extra large clamp和foam brick几种对称物体采用ADDS指标,其他物体采用ADD指标的结果。表2结果显示,ADD-S和ADD(S)两指标分别从91.6%、84.3%提升到了94.1%、90.1%。

表 2. YCB-Video数据集上的测试结果[AUC-ADD(S)]

Table 2. Test results on YCB-Video dataset [AUC-ADD(S)]

ObjectPoseCNNDenseFusionGDR-NetProposed method
ADD-SADD(S)ADD-SADD(S)ADD-SADD(S)ADD-SADD(S)
mean75.959.991.282.991.684.394.190.1
02 master chef can83.950.295.370.796.365.295.177.7
03 cracker box76.953.192.586.997.088.893.989.4
04 sugar box84.268.495.190.898.995.096.594.4
05 tomato soup can81.066.293.884.796.591.994.989.2
06 mustard bottle90.481.095.890.9100.092.896.894.7
07 tuna fish can88.070.795.779.699.494.295.090.3
08 pudding box79.162.794.389.364.644.793.987.4
09 gelatin box87.275.297.295.897.192.597.094.8
10 potted meat can78.559.589.379.686.080.289.981.8
11 banana86.072.390.076.796.385.895.291.1
19 pitcher base77.053.393.687.199.998.596.694.9
21 bleach cleanser71.650.394.487.594.284.395.090.6
24 bowl69.669.686.086.085.785.788.188.1
25 mug78.258.595.383.899.694.096.892.5
35 power drill72.755.392.183.797.590.195.692.7
36 wood block64.364.389.589.582.582.590.590.5
37 scissors56.935.890.177.463.849.593.689.9
40 large marker71.758.395.189.188.076.195.085.3
51 large clamp50.250.271.571.589.389.393.393.3
52 extra large clamp44.144.170.270.293.593.588.288.2
61 foam brick88.088.092.292.296.996.995.895.8

查看所有表

图7为在YCB-Video数据集几个复杂场景下的测试结果对比图。将所提方法与同样采用RGB-D作为数据源的DenseFusion12进行对比。可以看出,所提方法在遮挡、背景干扰的复杂场景情况下仍表现良好,具有较强的鲁棒性。

图 7. 位姿估计结果对比

Fig. 7. Comparison of pose estimation results

下载图片 查看所有图片

4.3.3 消融实验

为验证所提方法的有效性,通过消融实验对各部分进行测试。表3为采用不同特征提取骨干模块的测试结果。表4为采用不同骨干模块时特征提取网络的参数量。结果显示,所设计的骨干网络相比于原PSPNet框架中的ResNet在精度提升的同时减少了50%的参数量,具有较好的性能。

表 3. 不同骨干网络模块的精度比较

Table 3. Accuracy comparison of different backbone network modules

DatasetResNetProposed module
LineMOD99.699.8
YCB-Video,ADD-S92.194.1
YCB-Video,ADD(S)86.590.1

查看所有表

表 4. 不同骨干网络模块的特征网络参数量

Table 4. Feature network parameters of different backbone network modules

ModuleResNetProposed module
Parameters /MB33.715.4

查看所有表

表5为其他条件不变时有无数据处理过程的结果对比,数据处理过程包括置信度低点的剔除以及误差较大关键点的剔除,表中数据均为AUC-ADD(S)指标。结果表明,数据处理过程对于位姿估计准确度的提升有所帮助。

表 5. 有无数据处理过程的结果对比

Table 5. Comparison of results with or without data processing

DatasetWithout data processingWith data processing
LineMOD96.196.6
YCB-Video,ADD-S93.594.1
YCB-Video,ADD(S)88.390.1

查看所有表

综上所述,在去掉某些环节的作用下,所提方法的位姿估计准确度依然高于其他方法,说明利用关键点距离量表征网络在物体位姿的估计任务中是有效且鲁棒的。

5 结论

设计了一种基于关键点距离表征网络的物体位姿估计方法,通过网络输出距离量实现物体的位姿估计,提高网络泛化能力,从而提升位姿估计的精度。网络部分设计了一种基于新型骨干网络模块的特征提取网络,实现逐层逐点的特征融合,获得包含多层次纹理信息和几何信息的特征的同时大大减少参数量。基于融合特征实现基于聚类的语义分割、关键点距离预测以及置信度预测。置信度的预测可以剔除网络预测异常的点,提高位姿估计精度。在推理计算部分将得到的网络输出信息结合,针对物体采样点数量的多少采用不同的方法将网络输出的距离量转换为关键点坐标,再从关键点中选择3点通过最小二乘拟合得到最终的精确位姿。在LineMOD和YCB-Video数据集上的实验结果表明,与其他先进方法对比,所提方法在两数据集上的准确度分别提升了1.1个百分点和5.8个百分点,同时相比于原PSPNet框架中的ResNet减少了特征提取网络50%的参数量,节省了时间。所提方法可以实现准确稳定的物体位姿估计。

参考文献

[1] 杨步一, 杜小平, 方宇强, 等. 单幅图像刚体目标姿态估计方法综述[J]. 中国图象图形学报, 2021, 26(2): 334-354.

    Yang B Y, Du X P, Fang Y Q, et al. Review of rigid object pose estimation from a single image[J]. Journal of Image and Graphics, 2021, 26(2): 334-354.

[2] Sahin C, Carcia-Hernando G, Sock J, et al. A review on object pose recovery: from 3D bounding box detectors to full 6D pose estimators[J]. Image and Vision Computing, 2020, 96: 103898.

[3] Du G G, Wang K, Lian S G, et al. Vision-based robotic grasping from object localization, object pose estimation to grasp estimation for parallel grippers: a review[J]. Artificial Intelligence Review, 2021, 54(3): 1677-1734.

[4] XiangY, SchmidtT, NarayananV, et al. PoseCNN: a convolutional neural network for 6D object pose estimation in cluttered scenes[EB/OL]. (2017-11-01)[2022-05-06]. https://arxiv.org/abs/1711.00199.

[5] ChenW, JiaX, ChangH J, et al. G2L-net: global to local network for real-time 6D pose estimation with embedding vector features[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 13-19, 2020, Seattle, WA, USA. New York: IEEE Press, 2020: 4232-4241.

[6] WangG, ManhardtF, TombariF, et al. GDR-net: geometry-guided direct regression network for monocular 6D object pose estimation[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 20-25, 2021, Nashville, TN, USA. New York: IEEE Press, 2021: 16606-16616.

[7] RadM, LepetitV. BB8: a scalable, accurate, robust to partial occlusion method for predicting the 3D poses of challenging objects without using depth[C]∥2017 IEEE International Conference on Computer Vision, October 22-29, 2017, Venice, Italy. New York: IEEE Press, 2017: 3848-3856.

[8] ZhaoZ L, PengG, WangH Y, et al. Estimating 6D pose from localizing designated surface keypoints[EB/OL]. (2018-12-04)[2022-05-08]. https://arxiv.org/abs/1812.01387.

[9] Peng S D, Zhou X W, Liu Y, et al. PVNet: pixel-wise voting network for 6DoF object pose estimation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(6): 3212-3223.

[10] QiC R, LiuW, WuC X, et al. Frustum PointNets for 3D object detection from RGB-D data[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 918-927.

[11] 陈海永, 李龙腾, 陈鹏, 等. 复杂场景点云数据的6D位姿估计深度学习网络[J]. 电子与信息学报, 2022, 44(5): 1591-1601.

    Chen H Y, Li L T, Chen P, et al. 6D pose estimation network in complex point cloud scenes[J]. Journal of Electronics & Information Technology, 2022, 44(5): 1591-1601.

[12] WangC, XuD F, ZhuY K, et al. DenseFusion: 6D object pose estimation by iterative dense fusion[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA. New York: IEEE Press, 2019: 3338-3347.

[13] ZhaoH S, ShiJ P, QiX J, et al. Pyramid scene parsing network[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition, July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 6230-6239.

[14] HuQ Y, YangB, XieL H, et al. RandLA-net: efficient semantic segmentation of large-scale point clouds[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 13-19, 2020, Seattle, WA, USA. New York: IEEE Press, 2020: 11105-11114.

[15] HeK M, ZhangX Y, RenS Q, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition, June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE Press, 2016: 770-778.

[16] HuangG, LiuZ, van der MaatenL, et al. Densely connected convolutional networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition, July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 2261-2269.

夏梦, 杜弘志, 林嘉睿, 孙岩标, 邾继贵. 基于关键点距离表征网络的物体位姿估计方法[J]. 激光与光电子学进展, 2023, 60(16): 1615008. Meng Xia, Hongzhi Du, Jiarui Lin, Yanbiao Sun, Jigui Zhu. Object Pose Estimation Method Based on Keypoint Distance Network[J]. Laser & Optoelectronics Progress, 2023, 60(16): 1615008.

引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!