数据驱动函数映射的三维模型对应关系计算 下载: 908次
1 引言
在两个或多个模型以及相邻视频帧之间建立正确的对应关系是一项非常重要的基础性研究工作[1]。近年来,三维数据随建模软件的发展大规模增长,如何快速可靠地计算三维模型间的对应关系成为一个亟待解决的问题[2]。对应关系在自动驾驶、文物修复、目标检测与识别等领域有广泛应用。现有的对应关系计算方法主要包括基于特征描述符、基于函数映射和基于深度学习的方法。相关研究人员依据经验设定参数,计算模型相应的特征描述符,如直方图签名、波核签名、热核签名,然后结合匹配方法或函数映射方法构建模型间的对应关系。但上述方法都存在几何特征单一的问题,且对包含噪声、残缺部件的模型缺乏鲁棒性。函数映射方法将源模型与目标模型的特征点与特征描述符联系起来,然后将对应关系的计算问题转化为模型间函数映射矩阵的计算问题,但无法区分模型左右对称的部件。
近年来,人工智能的研究加快了深度学习的发展,涌现出大量利用深度学习计算三维模型间对应关系的方法。目前结合深度学习的大多数方法属于监督学习类型,通过使用标签,将对应关系的计算问题转化为分类问题,但计算效率受限于模型的顶点数,计算结果也依赖给定的标签。相比设计三维模型特征描述符的复杂性和不确定性,基于数据驱动的深度学习方法在二维图像语义分割和分类领域以及三维模型识别与分类领域已取得突破性进展,如残差网络(ResNet)[3]、点云网络(PointNet)[4]、改进的点云网络(PointNet++)[5]。然而,三维数据内在结构的复杂性与多样性对深度学习方法提出了挑战,如三维数据表示(网格、点云)的多样性,数据存储格式(off格式、obj格式、ply格式)的多样性,均增加了三维数据分析与处理的难度。最新研究通过设计深度学习框架计算三维模型间精确的对应关系,如用于计算非刚性模型对应关系的监督描述符学习框架[6],其结果由训练数据集的类别、质量和数量决定,但该方法在标签数据匮乏的情况下性能较低。
本文结合函数映射理论和深度学习方法的优势,提出了一种无监督数据驱动函数映射方法。首先,利用残差网络改进三维模型预处理提取的方向直方图签名(SHOT)特征描述符;然后,利用SHOT特征描述符计算初始对应关系,得到函数映射矩阵;最后,优化函数映射矩阵得到最终的模型对应关系。解决了传统方法中几何特征单一和深度学习方法依赖标签的问题,利用拉普拉斯算子的交换性以及描述符的保留性加强了对特征描述符的约束,获得更优的函数映射矩阵。分析了拉普拉斯-贝尔特拉米算子的特征向量数对构建对应关系的影响,并选取合适的矩阵维度以得到连续且一致的对应关系。
2 相关研究工作
构建特征描述符是三维模型对应关系计算的首要任务,目的是挖掘表达模型本征属性的数学模型,特征描述符的质量直接影响了对应关系计算的准确性和效率。常见的特征描述符包括SHOT特征描述符[7]、热核签名描述符[8]和波核签名描述符[9]等。杨军等[10]提出了一种基于热核签名与波核签名的融合特征描述符计算三维模型间的对应关系,与使用单一描述符的方法相比,得到的对应关系更加准确。
Ovsjanikov等[11]提出了基于函数映射理论的模型对应关系计算方法,将构建模型间对应关系的计算问题转化为模型间函数映射的问题。杨军等[12]提出了一种校准三维模型基矩阵的方法,将对应关系的计算问题转化为由模型特征函数构建的基矩阵之间的校准运算问题。Ren等[13]提出了一种利用函数映射框架计算非刚性模型间对应关系的计算方法,通过添加方向保持和近似连续等多个约束,获得了高质量的函数映射,但该方法优化步骤复杂。
随着深度学习相关方法的迅速发展,利用深度学习计算对应关系的方法越来越多。Corman等[6]利用有监督方法训练模型表面的特征描述符,并用训练得到的特征描述符计算两模型间的函数映射矩阵,但该方法的网络训练成本较高。Huang等[14]构建了一种多视图卷积神经网络框架,通过拍照渲染得到所选对应点的局部视图,利用卷积网络训练所得模型的多维局部描述符,最后使用视图层与降维处理生成通用的局部描述符。但该方法将描述符的学习过程与对应关系计算过程分离,效率较低。
此外,Masci等[15]提出了基于测地度量的卷积神经网络(GCNN),结合模型表面的测地距离函数,实现了对三维网格模型深层特征信息的提取。但对于非等距模型,该方法无法构建理想的模型间对应关系。Litany等[16]提出了深度函数映射网络(FMnet),学习两个给定对象之间的模糊映射(Soft-correspondence),但该方法目标函数的优化依赖于测地距离矩阵以及模糊对应矩阵的计算,计算量较大,且该方法属于监督类型,计算结果受标签的制约。
综上所述,传统方法手工设计的描述符仅能提取单一特征,无法对模型的整体性特征进行编码;基于函数映射理论的传统方法无法区分模型的对称性,且对于非等距模型的对应关系计算效果不佳;而基于深度学习的方法,其训练阶段依赖标签数据,泛化能力不强。因此,提出了一种新的数据驱动强正则化函数映射对应关系的计算方法,将对应关系的学习作为深度学习网络训练过程的一个步骤,以获得更加准确的三维模型间对应关系。
3 数据驱动函数映射
3.1 函数映射
给定一对用三角网格表示的模型M和N,用映射T:M→N表示源模型M和目标模型N之间的映射关系。在源模型M上定义一个标量函数f:M→R,R为函数的值域。函数f:M→R经过复合变换fT-1可在目标模型N上得到相应的标量函数g:N→R,即对M上任意一点p,都有g(p)=f[T-1(p)]。用TF:F(M,R)→F(N,R)表示函数变换,F(M,R)和F(N,R)分别为模型M和N的函数空间,TF为映射T的函数映射。假设模型M中的函数空间具有一组基函数{
若模型N存在一组含s个特征向量的基函数{
将函数f:M→R和g:N→ R分别用系数向量a=(a1,a2,a3,…,aq)和b=(b1,b2,b3,…,bs)表示,可将(2)式简化为
综上所述,函数映射方法将模型间对应关系的计算转化为函数映射矩阵的计算,通过优化映射矩阵可获得模型间的对应关系。在函数映射计算过程中,设一对三角网格模型分别包含n1和n2个顶点,利用函数映射计算模型间对应关系的步骤如下。
1) 计算每个模型的拉普拉斯-贝尔特拉米算子(LBO)[17],用前k个特征函数构建每个模型中函数空间的基函数。相应基函数的个数为kj≪nj, j=1, 2,其中,符号≪表示k的取值远小于nj。
2) 在每个模型上计算相应的SHOT特征描述符函数,并将描述符函数系数存储在相应的基底中,作为矩阵
3) 最优函数映射矩阵Copt可表示为
式中,第一项Edesc(C)为描述符项,第二项Ereg(C)为正则化项,α为正则化超参数。为了保证映射的准确性,需要添加正则化项对映射进行约束。Edesc(C)和Ereg(C)可表示为
式中,Δ1和Δ2分别为两个模型上的LBO在相应特征基上的表示,‖O‖F为矩阵O的Frobenius范数,即矩阵O中元素ouv绝对值的平方和再开平方,u和v分别为矩阵的行、列索引。
3.2 函数映射约束
有监督的深度函数映射方法将深度学习方法和经典的函数映射对应关系计算理论相结合,但在训练时需要大量带标签的模型数据,为三维模型数据集手动添加标签是一项耗时耗力的工作。因此,使用函数映射的双射性、正交性、拉普拉斯算子的交换性和描述符的保留性等几何约束代替标签对网络进行训练。
双射性[18]:从源模型到目标模型和目标模型到源模型两个方向对函数映射矩阵进行联合优化,确保构建出更精确的对应关系。通过计算两个方向的函数映射矩阵,构建一个约束项,监督网络训练,确保网络充分学习模型间的映射关系,从而增强网络的鲁棒性。双射性约束R1可表示为
式中,CMN为从模型M到模型N的函数映射矩阵,CNM为从模型N到模型M的函数映射矩阵,I为单位矩阵。
正交性[19]:只有当函数映射矩阵正交时,点到点映射的计算结果才是最优值,因此保证函数映射的正交性有利于提高对应关系的精度,正交性约束R2可表示为
拉普拉斯算子的交换性[20]:将拉普拉斯算子与函数映射矩阵交换,以确保模型的近似等距特性。为了加强约束性,拉普拉斯算子的交换性定义R3可表示为
式中,Z(Δγ)为基于拉普拉斯算子构建的约束矩阵,Δγ为拉普拉斯算子的γ次方,i为虚数单位,
描述符保留性[21]:该约束可以提高函数映射与逐点映射的对应准确率,无需额外计算就可在谱域中利用函数映射直接优化目标函数。在函数映射框架下,当且仅当任意描述符的函数映射TF(f☉g)=TF(f)☉TF(g)成立时,作用在函数空间内的线性变换TF可转换为精确的逐点映射,其中,☉为函数映射变换运算。在简化的基上等式TF(f☉g)=TF(f)☉TF(g)可表示为
式中,fq和gs为残差网络改进的描述符函数,Hfq为模型M在简化基上改进的第q个描述符矩阵,Hgs为模型N上在简化基上改进的的第s个描述符矩阵,Φ和Ψ为模型上基函数构成的基矩阵,XDiag( )为对角矩阵,上标+为摩尔彭若斯广义逆,为矩阵逆的广义形式,在实数域和复数域上都是唯一的,可通过奇异值分解求得。根据上述方程,将描述符的保留性R4定义为
3.3 数据驱动下的无监督函数映射对应关系计算
针对三维模型对应关系的计算问题,提出了一种数据驱动的函数映射方法,利用神经网络自动学习的特点从原始数据中获得泛化能力更好的特征描述符。
为利用权重共享的特性提高运算效率,采用孪生残差网络学习模型库的整体特征,对模型上的SHOT特征描述符进行增强,并结合函数映射理论将SHOT特征描述符投影到用模型拉普拉斯特征基表示的谱域中,得到改进的SHOT特征描述符。在无标签数据的情况下,为保证函数映射的准确性与全局对应的一致性,用函数映射的双射性、正交性、描述符保留性等几何约束对描述符的学习过程进行约束。网络训练过程包括正向传递和反向传递,描述符的学习结果正向传递到目标函数,正则化项反向约束描述符学习,使目标函数达到最优。对训练数据集中所有模型进行优化的过程可表示为
式中,Rl为正则化约束项,wl为正则化项对应的权重,l=1,2,3,4,用来对改进后的SHOT特征描述符计算得到的函数映射进行约束,
将函数映射易于计算的特性与数据驱动的自主灵活特性相结合,相比单一的函数映射方法和数据驱动方法,运行效率更快,同时提高了对应关系计算的准确率,实验使用的无监督数据驱动网络框架如
4 实验结果与分析
4.1 实验数据预处理
用FAUST[22]数据集训练神经网络,该数据集包含10个类别,共100个模型,数据集的原始数据为off格式。预处理阶段首先将包含顶点和三角面片信息的off格式数据转换为含对应几何信息的mat格式数据。然后计算LBO和SHOT特征描述符。将LBO特征分解得到的模型特征值、特征向量和SHOT特征描述符组合后作为神经网络的训练数据。
4.2 实验环境及参数设置
实验环境:操作系统为Linux Ubuntu 18.04,CPU为i9-9900k,GPU为NVIDIA GeForce RTX 2080 Ti,显存为11 G,采用的深度学习框架为TensorFlow,基于该框架的深度学习运算平台为CUDA10.0版本。用
4.3 实验结果与分析
为了体现本方法的有效性,将其与目前主流的对应关系计算方法进行比较。文献[ 13]采用函数映射的几何约束优化函数映射关系后,利用双射连续迭代最近点(BCICP)算法进行优化。文献[ 16]基于函数映射理论构建有监督的对应关系学习框架,先将函数映射矩阵转为模糊对应关系矩阵,再结合测地距离矩阵构建损失函数。文献[ 20]和文献[ 21]均为基于函数映射的传统对应关系计算方法,前者着重分析拉普拉斯算子的交换性对函数映射矩阵的约束作用,后者重点突出描述符的保留性对函数映射关系的约束作用。
不同方法构建的三维模型对应关系结果如
从
图 2. 不同方法构建的对应关系结果。(a)源模型;(b)文献[ 13];(c)文献[ 16];(d)文献[ 20];(e)文献[ 21];(f)本方法
Fig. 2. Correspondence results of different methods. (a) Source shape; (b) Ref. [13]; (c) Ref. [16]; (d) Ref. [20]; (e) Ref. [21]; (f) our method
不同方法的测量误差曲线如
为了定量评价本方法与其他方法的对应关系计算结果,用文献[ 16]使用的测地误差进行评价。给定源模型X上一点x,目标模型Y上对应于x的点为y,标记的对应点为y*,通过不同方法计算得到的对应关系为(x, y),模型间标记的正确对应关系(Ground-truth correspondence)为(x, y*),则测地误差Xerror可表示为
式中,dy(y,y*)为目标模型上的点y与标记的点y*之间的测地距离,Xarea(Y)为目标模型的表面积。
定量对比结果如
表 1. 不同方法的测地误差
Table 1. Geodesic errors of different methods
|
表 2. 不同方法的单步训练时间
Table 2. Step training time with different methodsunit: s
|
4.4 特征向量数量与对应关系准确率之间的关系
将改进的描述符投影至谱域构建对应关系,并通过最小二乘法进行求解,得到的函数映射矩阵维度大小即为特征向量的数量。为了分析不同维度的函数映射矩阵对匹配结果的影响,在LBO特征向量的数量k分别为70,120,150,500时,得到深度学习环境下对应关系的计算结果,如
图 4. 不同数量特征向量构建的对应关系。(a) k=70;(b) k=120;(c) k=150;(d) k=500
Fig. 4. Correspondence by different numbers of feature vectors. (a) k=70; (b) k=120; (c) k=150; (d) k=500
5 结论
结合经典的函数映射与深度学习方法计算三维模型间的对应关系。首先,计算模型表面的SHOT特征描述符,并通过残差网络学习模型的整体相关性改进SHOT特征描述符。然后,利用特征描述符构建模型间的初始对应关系,并使用函数映射的双射性、正交性和描述符保留性等几何约束优化函数映射矩阵。最后,利用已训练的神经网络构建准确的模型间对应关系。将本方法与当前主流方法在FAUST数据集上进行对比,实验结果表明,本方法得到的对应关系计算结果较好。除了已采用的函数映射几何约束外,还可以引入函数映射的循环一致性约束进一步提升准确性。此外,如何在不增加额外计算量的前提下,提高本方法的鲁棒性以及普适性还需进一步研究。
[1] 杨军, 李龙杰, 田振华, 等. 非刚性变换的三维等距模型的对应关系研究[J]. 计算机科学与探索, 2014, 8(8): 1009-1016.
Yang J, Li L J, Tian Z H, et al. Research on shape correspondence of 3D isometric models differing by non-rigid deformations[J]. Journal of Frontiers of Computer Science & Technology, 2014, 8(8): 1009-1016.
[3] He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 770- 778.
[4] Charles RQ, SuH, Mo KC, et al. PointNet: deep learning on point sets for 3D classification and segmentation[EB/OL]. [2019-12-18].https: ∥arxiv.org/abs/1612. 00593.
[5] Qi CR, YiL, SuH, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space[EB/OL]. [2019-12-15].https:∥arxiv.org/abs/1706. 02413.
[6] CormanÉ, OvsjanikovM, ChambolleA. Supervised descriptor learning for non-rigid shape matching[M] ∥Agapito L, Bronstein M, Rother C, et al. Computer Vision-ECCV 2014. Lecture Notes in Computer Science. Cham: Springer, 2014, 8928: 283- 298.
[7] Salti S. Tombari F, di Stefano L. SHOT: unique signatures of histograms for surface and texture description[J]. Computer Vision and Image Understanding, 2014, 125(8): 251-264.
[8] Sun J, Ovsjanikov M, Guibas L. A concise and provably informative multi-scale signature based on heat diffusion[J]. Computer Graphics Forum, 2009, 28(5): 1383-1392.
[9] AubryM, SchlickeweiU, CremersD. The wave kernel signature: a quantum mechanical approach to shape analysis[C]∥2011 IEEE International Conference on Computer Vision Workshops, November 6-13, 2011, Barcelona, Spain. New York: IEEE, 2011: 1626- 1633.
[10] 杨军, 闫寒, 王茂正. 融合特征描述符约束的3维等距模型对应关系计算[J]. 中国图象图形学报, 2016, 21(5): 628-635.
Yang J, Yan H, Wang M Z. Calculation of correspondences between three-dimensional isometric shapes with the use of a fused feature descriptor[J]. Journal of Image and Graphics, 2016, 21(5): 628-635.
[11] Ovsjanikov M, Ben-Chen M, Solomon J, et al. Functional maps: a flexible representation of maps between shapes[J]. ACM Transactions on Graphics, 2012, 31(4): 30.
[12] 杨军, 闫寒. 校准三维模型基矩阵的函数映射的对应关系计算[J]. 武汉大学学报·信息科学版, 2018, 43(10): 1518-1525.
Yang J, Yan H. An algorithm for calculating shape correspondences using functional maps by calibrating base matrix of 3D shapes[J]. Geomatics and Information Science of Wuhan University, 2018, 43(10): 1518-1525.
[13] Ren J, Poulenard A, Wonka P, et al. Continuous and orientation-preserving correspondences via functional maps[J]. ACM Transactions on Graphics, 2019, 37(6): 248-263.
[14] Huang H B, Kalogerakis E, Chaudhuri S, et al. Learning local shape descriptors from part correspondences with multiview convolutional networks[J]. ACM Transactions on Graphics, 2018, 37(1): 1-14.
[15] MasciJ, BoscainiD, Bronstein MM, et al. Geodesic convolutional neural networks on Riemannian manifolds[C]∥2015 IEEE International Conference on Computer Vision Workshop (ICCVW), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 832- 840.
[16] LitanyO, RemezT, RodolàE, et al. Deep functional maps: structured prediction for dense shape correspondence[C]∥2017 IEEE International Conference on Computer Vision (ICCV), October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 5660- 5668.
[17] Aflalo Y, Brezis H, Kimmel R. On the optimality of shape and data representation in the spectral domain[J]. Siam Journal on Imaging Sciences, 2015, 8(2): 1141-1160.
[18] EynardD, RodolàE, GlashoffK, et al. Coupled functional maps[C]∥2016 Fourth International Conference on 3D Vision (3DV), October 25-28, 2016, Stanford, CA, USA. New York: IEEE, 2016: 399- 407.
[19] Rustamov R M, Ovsjanikov M, Azencot O, et al. Map-based exploration of intrinsic shape differences and variability[J]. ACM Transactions on Graphics, 2013, 32(4): 72-83.
[20] Ren J, Panine M, Wonka P, et al. Structured regularization of functional map computations[J]. Computer Graphics Forum, 2019, 38(5): 39-53.
[21] Nogneng D, Ovsjanikov M. Informative descriptor preservation via commutativity for shape matching[J]. Computer Graphics Forum, 2017, 36(2): 259-267.
[22] BogoF, RomeroJ, LoperM, et al. FAUST: dataset and evaluation for 3D mesh registration[C]∥2014 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2014, Columbus, OH, USA. New York: IEEE, 2014: 3794- 3801.
Article Outline
杨军, 赵金龙. 数据驱动函数映射的三维模型对应关系计算[J]. 激光与光电子学进展, 2020, 57(18): 181507. Yang Jun, Zhao Jinlong. Calculation of Three-Dimensional shape Correspondence Based on Data-Driven Functional Map[J]. Laser & Optoelectronics Progress, 2020, 57(18): 181507.