基于改进多层感知机的神经辐射场三维重建方法
1 引言
三维重建广泛应用于虚拟现实/增强现实(VR/AR)、医疗影像、机器人导航、智慧城市等多个领域与行业,是处理复杂环境下游任务的基础。基于结构光原理的三维扫描仪虽然可以实现较高精度的三维重建,但此类设备的价格昂贵且操作繁琐[1-2]。过去十年,人们将基于物理的多视图几何技术集成到基于深度学习的方法中,直接使用神经网络从二维观测中推断三维场景表示,进而用于三维场景重建任务[3-6]。
目前多视图重建所采用的方法分为几何显式方法和神经隐式方法[7],其中显式方法有基于体素的方法[8]、基于点云的方法[9]、基于曲面网格的方法[10]等。虽然这些方法可以有效地呈现物体的三维特征,但它们通常只对局部区域进行密集采样与重建,除了需要大量的图像输入,查询3D几何先验的方式也增加了对视图重建的内存需求[11]。相比较而言,依赖于隐式神经表征的视图重建方法因场景表征存储小、与视图分辨率无关等优势而应用前景广泛[12]。近年来重建效果优异的隐式方法之一是神经辐射场(NeRF)[13]。NeRF采用由粗到细的采样策略,将一组稀疏视图输入多层感知机(MLP)模型,隐式地将物体的颜色和密度从三维空间位置映射到二维像素点,实现了高质量的新视图重建,但NeRF简单的线性全连接层采样方法会造成局部信息的缺失,导致重建视图的模糊和混叠[14]。针对上述问题,Liu等[15]使用稀疏体素八叉树结构建模局部属性,实现了对重建视图的快速渲染,但由于预定义的体素不能表示无界的三维空间,无法处理真实场景。Zhang等[16]证明了特定的MLP结构可以有效避免像素点隐式映射中可能出现的歧义解的结论,并提出了一种反球面参数化的方法,解决了无界场景渲染困难的问题,整体渲染结果较好,但捕获的局部细节有所欠缺。Trevithick等[17]构造了一个通用辐射场来学习每个像素的局部信息,并引入注意力机制来聚合多个视图的像素特征,隐式地解决了视觉遮挡的问题,但边缘局部特征表达仍有提升的空间。Arandjelović等[18]通过引入尺度较小的MLP建议网络,提出一种联合训练方法,该方法有良好的视图重建性能,但其采样网络与NeRF一致,依然存在渲染模糊和混叠的现象。Yang等[19]在网络的不同阶段递归地应用不同数量线性层的MLP结构,同时采用阈值控制的方法优化采样策略,实现了对不同场景的自适应渲染,但忽略了细节信息,导致重建质量受限。Wang等[20]将整个光线作为网络输入进行信息采样,利用Transformer编码器捕获光线中样本点之间的内在依赖关系,进而促进重建,但Transformer高昂的训练成本增加了实现难度。Fang等[21]放弃粗采样阶段的神经辐射场,构建了一个轻量化的神经样本场,将光线样本分布转换为三维点坐标,提升了采样效率,但未提取全局信息与局部信息之间的依赖关系。
以上文献虽然对NeRF的MLP采样网络做了不同程度的改进,但对于网络训练中多尺度特征信息提取与融合方面的研究仍较少,难以解决局部细节出现频次较少时的特征稀疏或缺失问题。本文在NeRF端到端训练方式的基础上,提出一种基于MLP的多特征联合学习方法,对其简单的全连接层模型进行优化,提高网络提取细粒度特征和抵抗重建退化的能力。主要工作如下:1)在粗采样阶段,设计了多特征联合学习(MFJL)模块,利用归一化MLP瓶颈结构和离散余弦变换(DCT)解码空间全局特征和频域局部特征,并利用无参注意力融合两种特征,为网络提供更丰富的多尺度特征信息,缓解位置编码到定长向量转换造成的特征信息损失的问题;2)在细采样阶段,设计了一个增大网络感受野的标准化中间层(NIL)模块,缓解局部混淆情况以提升模型拟合粗采样特征的能力,纠正粗采样阶段三维特征中错误的部分;3)在特征推理过程中,提出一种门控通道变换多层感知机(GCT-MLP)模块学习高阶特征交互关系,通过优化门控单元,提升网络对像素区域高权重特征的筛选能力。
2 神经辐射场
NeRF结构分为正余弦位置编码网络、特征提取网络和体积渲染网络,整体网络结构如
NeRF接收一组同光照条件下某一物体或场景的静态图片。网络输入是由三维位置
相机成像可以看作光线从像素点出发穿过物体并计算其颜色值来渲染观察到的图像的过程。NeRF通过将相机的光线集成到像素,利用体积渲染方程沿光线独立计算每个采样点的颜色,最终重建图像中像素的颜色
式中:
式中:
为了使MLP更好地拟合高频信息以补偿网络的光谱偏差,NeRF使用位置编码
式中:
为了提高采样效率,NeRF使用粗糙-细腻(coarse-to-fine)双层采样策略将高维信号先后输入到两个特征提取网络中。粗糙表征网络均匀采样
从上述描述可以看出,两个特征提取网络的任务并不相同,但在NeRF中二者结构相同,这影响了新视图重建的效果。因此,本文分别对两个特征提取网络的结构进行优化,构建基于改进MLP的神经辐射场(IP-NeRF)。
3 IP-NeRF网络构建
IP-NeRF由改进后的主干、多特征联合学习模块、门控通道变换MLP模块组成,网络结构如
3.1 多特征联合学习模块
MLP模型擅长于对全局特征的采样与推理,而容易丢失局部特征信息[22]。为了在NeRF使用的线性连接MLP模型中引入局部性,本文使用离散余弦变换(DCT)[23]采样局部特征;利用NeRF的位置编码输入在训练过程中会发生尺度变化的特点,设计了一种归一化MLP瓶颈结构采样全局特征;利用无参注意力(SimAM)[24]对两个分支的采样特征进行融合,使NeRF的MLP模型在捕获全局特征的同时获得更多的局部依赖,从而提高采样性能。综上,构建了MFJL模块,结构如
其中一个分支输入为三维坐标
式中:
3.2 门控通道变换多层感知机模块
Liu等[25]证明了门控机制与MLP配合的有效性,因此本文在NeRF的采样层与推理层之间加入门控MLP(gMLP)模块以增强对歧义编码特征的空间筛选能力。为使模块更加契合NeRF经傅里叶变换后的高维特征,将gMLP的门控单元由逐点卷积(PW)替换为门控通道变换(GCT)[26]。该方法使NeRF的MLP模型专注于学习权重信息的博弈状态,获得更多与视图高相关性的特征信息进行颜色与密度推理,可以有效减少推理过程中歧义编码特征的干扰,从而提高推理性能,结构如
门控单元是特征筛选层构成的门控矩阵,通过矩阵点乘来控制特征的通过率,进而控制参数量。GCT采用
式中:
4 实验结果与分析
4.1 数据集与实验参数设置
使用3个公共数据集进行实验,即Realistic Synthetic 360°数据集、Real Forward-Facing数据集和DTU数据集。Realistic Synthetic 360°数据集是一个真实渲染的360°合成数据集,包括8个场景、100张训练视图、100张验证视图和200张测试视图,分辨率为800×800。Real Forward-Facing数据集是手持相机拍摄的真实场景数据集,包含8个真实场景,每个场景有20~62张分辨率为1008×756的视图,其中1/8用于测试,其余用于训练。DTU数据集是搭载可调节亮度灯的工业机器臂拍摄的室内物体数据集,包含128个场景,本文随机选取4个场景进行实验,每个场景分配49张分辨率为512×640的视图,其中1/8用于测试,其余用于训练。
实验在腾讯云服务器Ubuntu 18.04平台上进行,CPU为Intel® Xeon® Platinum 8255C@2.50 GHz,GPU为NVIDIA® Tesla® T4,采用CUDA11.2加速库进行并行加速,基于Python 3.8的PyTorch深度学习框架实现算法。IP-NeRF采用分层采样策略进行训练,粗糙表征网络的均匀采样点个数为64,细腻优化网络的非均匀采样点个数为128,每个批次的采样光线数量为1024,单次采样数量为32768。使用均方误差(MSE)光度损失,在Adam优化器(
4.2 消融实验
为验证所提方法的有效性,依次设置仅使用改进主干网络的实验组A、只添加MFJL模块的实验组B、只添加GCT-MLP模块的实验组C、同时引入MFJL模块和GCT-MLP模块的实验组D。在Realistic Synthetic 360°数据集Lego场景和Real Forward-Facing数据集的Trex场景上验证4个实验组的新视图重建性能。
表 1. 在Trex场景下新视图重建的消融实验
Table 1. Ablation experiment of the new view reconstruction in Trex scene
|
表 2. 在Lego场景下新视图重建的消融实验
Table 2. Ablation experiment of the new view reconstruction in Lego scene
|
由
图 5. 各模块作用下Trex和Lego场景的新视图重建可视化结果
Fig. 5. Visualized new view reconstruction results under the modules in Trex and Lego scenes
4.3 对比实验
为验证所提网络的新视图重建性能,分别在Real Forward-Facing、Realistic Synthetic 360°、DTU数据集共20个场景上进行测试,并与具有同样实验参数设置的NeRF、NeRF-ID进行对比。不同网络的新视图重建定量结果如
表 3. 不同方法在Realistic Synthetic 360°数据集上的参数对比
Table 3. Parameter comparison of different methods on Realistic Synthetic 360° dataset
|
表 4. 不同方法在Real Forward-Facing数据集上的参数对比
Table 4. Parameter comparison of different methods on Real Forward-Facing dataset
|
表 5. 不同方法在DTU数据集部分场景上的参数对比
Table 5. Parameter comparison of different methods on DTU dataset
|
图 6. 不同方法在3个数据集部分场景的新视图重建可视化结果
Fig. 6. Visualized new view reconstruction results of different methods in the selected scenes of the three datasets
由
算法运行时间也是衡量算法性能的重要指标,
表 6. 不同方法的计算代价对比
Table 6. Calculation cost comparison of different methods
|
通过剔除细腻优化网络的门控通道变换MLP模块,得到IP-NeRF的简化网络,其余参数设置不变,将这种方案命名为“SIP-NeRF”。
表 7. 简化网络的计算代价对比
Table 7. Calculation cost comparison of simplified network
|
表 8. 不同方法的综合性能分析
Table 8. Comprehensive performance analysis of different methods
|
5 结论
隐式神经表达的有效采样是神经辐射场三维重建的基础,针对NeRF网络表征能力弱的问题,提出一种基于MLP的多特征联合学习方法。所提IP-NeRF网络使用改进后的主干为基本结构,通过在NeRF嵌入层和采样层之间设计归一化MLP瓶颈结构和DCT并行的特征解码器进行全局特征和局部特征提取,结合无参注意力(SimAM)构建了MFJL模块,实现特征融合。此外,通过在NeRF采样层和推理层之间建立门控通道变换MLP,筛选高权重特征,缓解了编码特征歧义值对颜色和密度推理的影响。最后,使用3个公开数据集对IP-NeRF进行实验训练与测试。实验结果表明,相比NeRF,所提方法的新视图重建各项评价指标均有提高,在Real Forward-Facing数据集上的PSNR、SSIM、LPIPS值提升幅度分别为5.9%、9.3%、16.4%,在Realistic Synthetic 360°数据集上的PSNR、SSIM、LPIPS值提升幅度分别为5.6%、1.4%、36.6%,在DTU数据集部分场景上的PSNR、SSIM、LPIPS值提升幅度分别为3.9%、3.6%、15.4%,且新视图重建定性结果也有较优表现。因此所提方法能为NeRF的MLP模型改进提供一定参考价值,后续可以在编码器网络和推理网络上做进一步的优化。
[1] 殷永凯, 于锴, 于春展, 等. 几何光场三维成像综述[J]. 中国激光, 2021, 48(12): 1209001.
[2] 张博霄, 于佳慧, 焦小雪, 等. 线结构光双目融合补缺重建技术[J]. 激光与光电子学进展, 2023, 60(16): 1611001.
[3] 石世锋, 叶南, 张丽艳. 具有远近视距的两目视觉系统标定技术研究[J]. 光学学报, 2021, 41(24): 2415001.
[5] 刘昊鑫, 赵源萌, 张存林, 等. 基于改进U-net的牙齿锥形束CT图像重建研究[J]. 中国激光, 2022, 49(24): 2407207.
[6] 王明军, 李乐, 易芳, 等. 模拟真实水体环境下目标激光点云数据的三维重建与分析[J]. 中国激光, 2022, 49(3): 0309001.
[7] 李明阳, 陈伟, 王珊珊, 等. 视觉深度学习的三维重建方法综述[J]. 计算机科学与探索, 2023, 17(2): 279-302.
Li M Y, Chen W, Wang S S, et al. Survey on 3D reconstruction methods based on visual deep learning[J]. Journal of Frontiers of Computer Science and Technology, 2023, 17(2): 279-302.
[8] SitzmannV, ThiesJ, HeideF, et al. DeepVoxels: learning persistent 3D feature embeddings[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA. New York: IEEE Press, 2020: 2432-2441.
[9] Bui G, Le T, Morago B, et al. Point-based rendering enhancement via deep learning[J]. The Visual Computer, 2018, 34(6): 829-841.
[10] RieglerG, KoltunV. Free view synthesis[M]∥Vedaldi A, Bischof H, Brox T, et al. Computer vision-ECCV 2020. Lecture notes in computer science. Cham: Springer, 2020, 12364: 623-640.
[11] SrinivasanP P, TuckerR, BarronJ T, et al. Pushing the boundaries of view extrapolation with multiplane images[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA. New York: IEEE Press, 2020: 175-184.
[12] SchirmerL, SchardongG, da SilvaV, et al. Neural networks for implicit representations of 3D scenes[C]∥2021 34th SIBGRAPI Conference on Graphics, Patterns and Images, October 18-22, 2021, Gramado, Rio Grande do Sul, Brazil. New York: IEEE Press, 2021: 17-24.
[13] Mildenhall B, Srinivasan P P, Tancik M, et al. NeRF: representing scenes as neural radiance fields for view synthesis[J]. Communications of the ACM, 2022, 65(1): 99-106.
[14] ZhuZ H, PengS Y, LarssonV, et al. NICE-SLAM: neural implicit scalable encoding for SLAM[C]∥2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 18-24, 2022, New Orleans, LA, USA. New York: IEEE Press, 2022: 12776-12786.
[15] Liu L, Gu J, Zaw L K, et al. Neural sparse voxel fields[J]. Advances in Neural Information Processing Systems, 2020, 33: 15651-15663.
[17] TrevithickA, YangB. GRF: learning a general radiance field for 3D representation and rendering[C]∥2021 IEEE/CVF International Conference on Computer Vision (ICCV), October 10-17, 2021, Montreal, QC, Canada. New York: IEEE Press, 2022: 15162-15172.
[19] Yang G W, Zhou W Y, Peng H Y, et al. Recursive-NeRF: an efficient and dynamically growing NeRF[J]. IEEE Transactions on Visualization and Computer Graphics, 2022, 14(8): 36194712.
[20] WangY X, LiY J, LiuP D, et al. NeXT: towards high quality neural radiance fields via multi-skip transformer[M]∥Avidan S, Brostow G, Cissé M, et al. Computer vision-ECCV 2022. Lecture notes in computer science. Cham: Springer, 2022, 13692: 69-86.
[23] QinZ Q, ZhangP Y, WuF, et al. FcaNet: frequency channel attention networks[C]∥2021 IEEE/CVF International Conference on Computer Vision (ICCV), October 10-17, 2021, Montreal, QC, Canada. New York: IEEE Press, 2022: 763-772.
[24] YangL, ZhangR, LiL, et al. Simam: a simple, parameter-free attention module for convolutional neural networks[C]∥Proceedings of the 38th International Conference on Machine Learning, July 18-24, 2021, Virtual Event. Cambridge: JMLR, 2021: 11863-11874.
[25] LiuH, DaiZ, SoD R, et al. Pay attention to MLPs[C]∥Advances in Neural Information Processing Systems 34, December 6-14, 2021, Virtual Event. Cambridge: JMLR, 2021: 9204-9215.
[26] YangZ X, ZhuL C, WuY, et al. Gated channel transformation for visual recognition[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 13-19, 2020, Seattle, WA, USA. New York: IEEE Press, 2020: 11791-11800.
Article Outline
侯耀斐, 黄海松, 范青松, 肖婧, 韩正功. 基于改进多层感知机的神经辐射场三维重建方法[J]. 激光与光电子学进展, 2024, 61(4): 0415004. Yaofei Hou, Haisong Huang, Qingsong Fan, Jing Xiao, Zhenggong Han. 3D Reconstruction of Neural Radiation Field Based on Improved Multiple Layer Perceptron[J]. Laser & Optoelectronics Progress, 2024, 61(4): 0415004.