基于改进残差密集网络的高光谱重建 下载: 1374次
1 引言
当今世界上,视觉数据的来源多种多样,但包含信息最多、最精确的莫过于高光谱数据了。从遥感到农业和地物信息获取等领域,光谱特性都被广泛应用[1-4]。近年来,高光谱图像在目标检测和人脸图像配准[5-7]等方面开始得到大量应用。高光谱波段之间的相关性研究已成为目前的研究热点,例如高光谱波段的选择、高光谱图像的解混等[8-10]。因此,高光谱成像得到了越来越多的关注。
由于高光谱设备价格昂贵、结构复杂等原因,高光谱图像的应用严重受限。为了解决这个问题,许多学者提出了基于压缩感知的解决方案,但重建算法仍然具有很高的复杂性。近年来,基于RGB图像重建高光谱图像成为了研究热点。Arad等[11]提出了光谱稀疏字典的重建方法,建立了高维空间和低维空间对应的字典对。通过字典对之间的映射关系可以恢复出高光谱信息,但该方法严重依赖于字典原子数目的选取,而且需要相机的光谱响应曲线。Jia等[12]提出了基于流形学习的重建方法,该方法先将高光谱映射到三维流形空间,然后再利用神经网络进行三对三映射学习;但该方法严重依赖于降维方法,且需要知道相机的光谱响应曲线。Geng等[13]提出了空间限制字典表示的重建方法,该方法将高光谱数据用字典表示,利用相邻像素点之间的光谱相似性,通过一个邻域框来限制用字典表示的RGB,最后通过高光谱和RGB字典对之间的映射关系实现高光谱的重建。
RGB值与其对应的高光谱反射值之间存在高度相关性,而从大量的训练数据中可以学习这种相关性,因此,基于卷积神经网络的方法被引入到该任务中。Xiong等[14]针对RGB图像重建高光谱任务提出了统一的卷积网络模型框架,先对输入图像进行插值预处理,然后再将其输入到卷积网络模型中,但这种方法的重建精度较低。Stiebel等[15]提出了基于U-net网络的重建方法,使用U-net网络连接上下文信息,并分析了以不同评价指标作为损失函数对重建结果的影响;但该网络模型比较简单,重建精度略有升高。Wang等[16]提出了基于先验网络的重建方法,利用先验网络模型的空间网络部分和光谱网络部分来学习光谱和空间之间的相关性,将正则化函数和激励优化网络相结合,通过端到端的训练模式获得网络参数。Fubara等[17]提出了使用基函数和预测训练权重的重建方法,将U-net模型修改为编码器和解码器网络模型;同时,他们还提出了无监督的学习方式,该学习方式可以端到端地学习RGB数据到光谱的映射,提高了模型训练的稳定性和学习能力。Zhao等[18]提出了基于层次回归网络的重建方法,该方法使用像素重组层来连接上下文信息,使用残差密集块去除真实世界中RGB图像的伪像,通过注意力机制来扩大感受野;结果表明,采用该方法重建的图像在背景细节处存在模糊现象。
残差密集网络[19]在超分辨率重建领域取得了巨大成功,但在光谱重建领域的应用较少。这主要是因为超分辨率重建与光谱重建有着本质的区别:超分辨率重建是在空间域中将低分辨率图像变为高分辨率图像,变化的只是图像分辨率的大小;而光谱重建则是在光谱域中将三通道图像变为多通道图像,变化的只是图像的光谱通道数。针对传统算法需要知道相机的光谱响应以及深度学习方法中存在信息丢失和背景模糊的问题,本文从光谱的角度出发,提出了一种改进残差密集网络。该网络主要有两个特点:1)将残差密集块(RDB)与压缩激励(SE)模块[20]相结合,构成通道自适应残差密集块(RDSB),此模块加强了对特征图信息的提取,减弱了噪声和无用信息对学习光谱通道信息的影响;2)将用于图像超分辨率问题的残差密集网络中的空间尺寸扩大层替换为光谱通道扩大层,使得残差密集网络在图像光谱重建问题上取得了不错的效果,并实现了光谱空间向光谱通道的转换。
2 RGB图像重建高光谱图像的原理
2.1 自然场景光谱重建物理模型
重建超分辨率物理模型是高分辨率图像因为噪声、运动干扰、模糊干扰等因素退化成低分辨率图像的过程,改变的只是分辨率的高低,光谱通道数并未发生改变。光谱成像过程是照明光源的光谱辐亮度E(λ),通过目标的光谱反射率r(λ)、光学路径光谱透过率o(λ)、第i个通道滤色片的透过率ti(λ)以及传感器的光谱灵敏度s(λ)在相机上形成响应值的过程。假设成像系统的光电转换是线性的,则图像上某像素第i个通道响应值pi可表示为[21]
式中:λ表示波长;ni表示第i个通道的噪声。将(1)式转化为矩阵形式,即
式中:r是m维光谱反射率向量;Q是m×k维系统光谱响应矩阵,由照明光源的光谱辐亮度、光学系统和滤色片的光谱透过率以及传感器的光谱灵敏度构成;n是k维噪声;p是k维多通道响应值向量。
由(2)式可知,重建光谱物理模型就是通过k维多通道响应值和系统光谱响应矩阵估计m维光谱反射率的过程。不同于超分辨率重建的是,光谱重建改变的只是光谱数,而空间分辨率不变。
2.2 RGB图像与高光谱图像的映射模型
给定一个RGB图像及其对应的高光谱图像,已知相机的高光谱-RGB空间转换函数,那么RGB图像上的像素点都可以用对应的高光谱像素点表示,即
式中:X表示RGB图像,维度为h×w×3;Y表示高光谱图像,维度为h×w×c;h、w、c分别表示图像的高度、宽度和通道数;xij、yij分别表示图像X、Y上的像素点;C表示相机的高光谱-RGB空间转换矩阵。
RGB图像上的像素点xij可以通过高光谱像素点yij得到的。同理,高光谱像素点yij可以用RGB图像上的像素点xij表示,那么高光谱图像Y也可以由整幅RGB图像X表示,即
式中:F(·)为RGB图像空间到高光谱图像空间的映射函数。重建流程如
3 RGB图像重建高光谱图像的网络结构
3.1 通道自适应残差密集块
通道自适应残差密集块主要由残差块(Residual Block)、密集块(Dense Block)、SE模块三部分构成。残差块的主要作用是在网络层数较深的情况下,将要拟合的函数映射(输出)H(x),通过输入x跳跃连接到输出,形成一个残差映射F(x)=H(x)-x,避免了梯度消失现象的发生。
密集块的主要作用是将每一层的特征信息都与之前的所有层连接。一个密集块第l层的输出xl可表示为
式中:Hl(·)表示第l层的非线性映射;[x0,x1,…,xl-1]表示将0~(l-1)层输出的特征图合并。这种密集连接提高了特征信息的重复利用率,大幅减少了网络的参数量,也在一定程度上减缓了梯度消失问题的产生。
SE模块的主要作用是:首先,将特征图输入到压缩函数中,在每个通道上输出一个实数;其次,通过激励函数为每个特征通道生成权重;最后,通过逐通道加权函数,在特征通道上完成对原始特征的重标定。最终的输出可表示为
式中:z为输入;Fsq(·)为压缩函数;Fex(·,w)为激励函数;Fscale(·)为逐通道加权函数;输出为z1。通过这种操作可以自适应学习每个通道的权重,然后根据这个权重去提升有用的特征并抑制用处不大的特征。
残差密集块结构可以在加深网络深度的基础上,提高特征信息的利用率。在残差密集结构中添加可以进一步提高特征通道学习能力的SE模块,以减小无用信息对重建结果的干扰,提升网络性能。因此,本文设计了通道自适应残差密集模块(RDSB),其结构如
3.2 改进的残差密集网络模型
基于残差密集结构的网络模型,本文引入了SE模块,以改善网络优化困难的问题,进一步提升网络性能,自动提升有用的特征并抑制对当前任务用处不大的特征,使噪声对图像信息的影响大大减弱。此外,本文将空间尺寸变换层操作替换成简单的卷积操作,完成了空间维度向特征维度的转换。
本文算法的网络结构如
1) 特征提取:该部分由两个卷积层组成。将具有64个3×3卷积核的卷积层作为第一层,对RGB图像进行卷积处理,提取图像的浅层特征信息;将具有64个1×1卷积核的卷积层作为第二层,可以使网络的层数得到加深。
2) RDSB:在特征提取部分之后,有6个RDSB结构。每一层均使用具有32个卷积核(大小为3×3)的卷积层,将经密集连接后的特征图输入到Concat层中进行拼接。然后使用具有64个卷积核(大小为1×1)的卷积层进行局部特征融合和平均池化,两次经过全连接层(将其中的缩小因子a设为16,以大大减少参数量和计算量),再经过Sigmoid激活函数将融合之后的通道特征进行自适应加权。最后,使用跳跃连接将RDSB输出的深层特征信息与特征提取部分输出的浅层特征信息结合,在加深网络的基础上,使特征图包含更多的信息。
3) 全局特征融合:将每个RDSB结构输出的特征图输入到Concat层中进行拼接,然后再用具有64个卷积核(大小为1×1)的卷积层将拼接后的特征图进行降维融合,之后使用具有64个卷积核(大小为3×3)的卷积层对融合之后的特征图进行特征提取,得到更深层的特征信息。
4) 全局残差学习:将特征提取部分的第一层输出连接到全局特征融合的输出中,将低级的特征图像结构信息与深层的网络图像语义信息结合,使重建信息更全面。
5) 重建:使用具有31个卷积核(大小为1×1)的卷积层对全局残差学习层输出的特征图进行卷积处理,重建出高光谱信息。
4 实验结果与分析
4.1 实验数据与训练过程
本文算法采用TensorFlow框架,硬件设备为英特尔酷睿i7-6700K,显卡使用Nvidia GeForce GTX1080Ti。网络输入采用的是随机裁剪的训练数据集,即ICVL数据集(分辨率为256 pixel×256 pixel的RGB图像与高光谱图像对)。ICVL数据集是以色列内盖夫本古里安大学计算机科学系使用Specim PS Kappa DX4高光谱相机(配有旋转平台,以便于空间扫描)采集的,一共包含201张1300 pixel×1392 pixel空间分辨率的图像。从400~700 nm以10 nm为间隔,每幅图像有31个通道。将80%的ICVL数据集作为训练集,20%的数据集作为验证集,CAVE[22]数据集作为测试集。CAVE数据集是使用Cooled CCD相机拍摄的空间分辨率为512 pixel×512 pixel的图像,该数据集一共包含32张图片,分为画(Paints)、食物和饮料(Food and Drinks)、真假图片(Real and Fake)、皮肤和头发(Skin and Hair)以及材料(Stuff)五类场景。光谱波段范围从400~700 nm以10 nm为间隔,每幅图像共有31个波段。采用平均相对绝对误差(MRAE)作为损失函数,其表达式为
式中:IR、IG表示重建图像和真实图像;i表示图像上第i个像素点;n表示一幅图像上像素点的数量。
批数量设置为8,优化器选择Adam,动量因子设为0.9,权重衰减系数(L2正则化)为0.0001,学习率从初始的0.001呈指数衰减到0.0001。当训练数据集上的loss没有明显衰减时,停止迭代训练。除了最后一层,初始权重均被应用于整体网络架构上,最后一层重建操作的初始化采用的是方差为0.001的高斯分布函数,所有卷积层的偏差均设置成0。
4.2 性能评价指标
与超分辨率重建使用的峰值信噪比(PSNR)和结构相似性度量法(SSIM)评价指标不同,光谱重建的评价性能指标有均方根误差(RMSE)和平均相对绝对误差(MRAE)。均方根误差的计算公式为
PSNR和SSIM指标对一幅图像的明亮度、对比度、结构等进行评价,而本文使用的RMSE和MRAE指标是将重建的高光谱图像与真实图像在各个通道内的多幅图像进行误差比较。MRAE和RMSE的值越小,表示重建图像与真实图像越接近,说明重建精度越高,网络的性能越好。
4.3 实验结果
为了验证本文所提算法的重建效果,使用上述评价指标将本文算法与文献[
11-12,17-18]中的算法在公开的ICVL数据集上进行对比。
从
表 1. ICVL标准数据集的评估结果
Table 1. Evaluate results of ICVL dataset
|
图 4. ICVL数据集中部分图像的重建结果。(a)文献[ 11]中的算法;(b)文献[ 12]中的算法;(c)文献[ 17]中的算法;(d)文献[ 18]中的算法;(e)本文算法;(f)原始RGB图像
Fig. 4. Reconstruction results of some images in ICVL dataset. (a)Algorithm in Ref. [11]; (b) algorithm in Ref. [12]; (c) algorithm in Ref. [17]; (d) algorithm in Ref. [18]; (e) proposed algorithm; (f) original RGB images
图 5. 不同算法在CAVE数据集上的重建结果。(a)文献[ 11]中的算法;(b)文献[ 12]中的算法;(c)文献[ 17]中的算法;(d)文献[ 18]中算法;(e)本文算法;(f)原始图像
Fig. 5. Reconstruction results of different algorithms in CAVE dataset. (a) Algorithm in Ref. [11]; (b) algorithm in Ref. [12]; (c) algorithm in Ref. [17]; (d) algorithm in Ref. [18]; (e) proposed algorithm; (f) original images
为了进一步测试本文网络模型的鲁棒性,本文在CAVE数据集上进行了对比实验。
CAVE数据集的定量结果如
表 2. CAVE数据集的评估结果
Table 2. Evaluate results of CAVE dataset
|
4.4 普通相机拍摄的RGB图像的重建结果
为了达到使用任意一张RGB图像就可重建出高光谱图像的目的,本文使用CMOS相机拍摄了真实场景的RGB图像。相机的像素为1200万,支持JPEG压缩存储,未知RGB图像对应的真实高光谱图像的重建结果如
图 6. 普通相机拍摄图像的重建结果。(a)文献[ 11]中的算法;(b)文献[ 12]中的算法;(c)文献[ 17]中的算法;(d)文献[ 18]中的算法;(e)本文算法;(f)原始RGB图像
Fig. 6. Reconstruction images on real-world images taken by an ordinal camera. (a) Algorithm in Ref. [11]; (b) algorithm in Ref. [12]; (c) algorithm in Ref. [17]; (d) algorithm in Ref. [18]; (e) proposed algorithm; (f) original RGB image
5 结论
针对单幅RGB图像重建高光谱的问题,本文提出了基于改进残差密集网络的重建算法。首先,在残差密集块的基础上嵌入SE模块,构成通道自适应残差密集模块。该模块不仅能加深网络,减少网络参数量,还能对通道间的特征信息进行重标定,使模型能够增强有益的特征信息,从而优化网络。其次,使用卷积操作代替原网络的空间尺寸放大操作,将图像超分辨率问题转化为图像的光谱重建问题。实验结果表明,无论是与传统算法对比还是与深度学习方法对比,本文算法在主观重建图像细节纹理上和客观重建精度上都达到了更优的效果。但本文算法也存在不足,比如,对于微弱光照以及无光照条件下的场景,重建效果不太理想,这是因为训练集缺乏低光照图像。在未来的工作中,可以针对低光照场景,设计专门的深度学习网络解决此问题。
[1] Goetz A F, Vane G, Solomon J E, et al. Imaging spectrometry for Earth remote sensing[J]. Science, 1985, 228(4704): 1147-1153.
[2] , 等. 基于高光谱和BP神经网络的棉花冠层叶绿素含量联合估算[J]. 光学学报, 2019, 39(9): 0930003.
[3] 钱立勇, 吴德成, 周晓军, 等. 高光谱成像激光雷达系统辐射定标和地物信息获取[J]. 光学学报, 2020, 40(11): 1128001.
[4] 孙伟伟, 杨刚, 陈超, 等. 中国地球观测遥感卫星发展现状及文献分析[J]. 遥感学报, 2020, 24(5): 479-510.
Sun W W, Yang G, Chen C, et al. Development status and literature analysis of China's earth observation remote sensing satellites[J]. Journal of Remote Sensing, 2020, 24(5): 479-510.
[5] 于纯妍, 赵猛, 宋梅萍, 等. 基于目标约束与谱空迭代的高光谱图像分类方法[J]. 光学学报, 2018, 38(6): 0628003.
[6] 吴超, 吴一全. 基于混沌粒子群优化投影寻踪的高光谱图像目标检测[J]. 光学学报, 2011, 31(12): 1211003.
[7] 李巍, 董明利, 吕乃光, 等. 基于T分布混合模型的多光谱人脸图像配准[J]. 光学学报, 2019, 39(7): 0710001.
[8] Peng J T, Zhou Y C, Sun W W, et al. Self-paced nonnegative matrix factorization for hyperspectral unmixing[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(2): 1501-1515.
[9] Sun W W, Peng J T, Yang G, et al. Fast and latent low-rank subspace clustering for hyperspectral band selection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(6): 3906-3915.
[10] Sun W W, Yang G, Peng J T, et al. Hyperspectral band selection using weighted kernel regularization[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2019, 12(9): 3665-3676.
[11] AradB, Ben-ShaharO. Sparse recovery of hyperspectral signal from natural RGB images[C]∥European Conference on Computer Vision, October 8-16, 2016, Amsterdam, Holland. Switzerland: Springer, 2016, 978: 19- 34.
[12] JiaY, Zheng YQ, GuL, et al.From RGB to spectrum for natural scenes via manifold-based mapping[C]∥2017 IEEE International Conference on Computer Vision (ICCV), October 22-29, 2017, Venice, Italy.New York: IEEE Press, 2017: 4715- 4723.
[13] Geng YH, Mei SH, TianJ, et al.Spatial constrained hyperspectral reconstruction from RGB inputs using dictionary representation[C]∥2019 IEEE International Geoscience and Remote Sensing Symposium, July 28-August 2, 2019, Yokohama, Japan.New York: IEEE Press, 2019: 3169- 3172.
[14] Xiong ZW, ShiZ, Li HQ, et al.HSCNN: CNN-based hyperspectral image recovery from spectrally undersampled projections[C]∥2017 IEEE International Conference on Computer Vision Workshops (ICCVW), October 22-29, 2017, Venice, Italy. New York: IEEE Press, 2017: 518- 525.
[15] StiebelT, KoppersS, SeltsamP, et al.Reconstructing spectral images from RGB-images using a convolutional neural network[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), June 18-22, 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 1061- 10615.
[16] Wang LZ, SunC, FuY, et al.Hyperspectral image reconstruction using a deep spatial-spectral prior[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA.New York: IEEE Press, 2019: 8024- 8033.
[17] Fubara BJ, SedkyM, DykeD. RGB to spectral reconstruction via learned basis functions and weights[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), June 14-19, 2020, Seattle, WA, USA.New York: IEEE Press, 2020: 1984- 1993.
[18] Zhao YZ, Po LM, YanQ, et al.Hierarchical regression network for spectral reconstruction from RGB images[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), June 14-19, 2020, Seattle, WA, USA.New York: IEEE Press, 2020: 1695- 1704.
[19] Zhang YL, Tian YP, KongY, et al.Residual dense network forimage super-resolution[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 2472- 2481.
[20] Roy A G, Navab N, Wachinger C. Recalibrating fully convolutional networks with spatial and channel “squeeze and excitation” blocks[J]. IEEE Transactions on Medical Imaging, 2019, 38(2): 540-549.
[21] 徐鹏. 基于多光谱成像技术的光谱图像重构与显示研究[D]. 杭州: 浙江大学, 2017.
XuP. Study on spectral image reconsturction and display based on multispectral imaging technology[D]. Hangzhou: Zhejiang University, 2017.
[22] Yasuma F, Mitsunaga T, Iso D, et al. Generalized assorted pixel camera: postcapture control of resolution, dynamic range, and spectrum[J]. IEEE Transactions on Image Processing, 2010, 19(9): 2241-2253.
Article Outline
李勇, 金秋雨, 赵怀慈, 李波. 基于改进残差密集网络的高光谱重建[J]. 光学学报, 2021, 41(7): 0730001. Yong Li, Qiuyu Jin, Huaici Zhao, Bo Li. Hyperspectral Image Reconstruction Based on Improved Residual Dense Network[J]. Acta Optica Sinica, 2021, 41(7): 0730001.