1 东南大学 自动化学院,江苏南京20096
2 东南大学 复杂工程系统测量与控制教育部重点实验室,江苏南京10096
3 南京航空航天大学 空间光电探测与感知工业和信息化部重点实验室, 江苏南京211106
为了在严重遮挡以及少纹理等具有挑战性的场景下,准确地估计物体在相机坐标系中的位置和姿态,同时进一步提高网络效率,简化网络结构,本文基于RGB-D数据提出了采用辅助学习的六自由度位姿估计方法。网络以目标物体图像块、对应深度图以及CAD模型作为输入,首先,利用双分支点云配准网络,分别得到模型空间和相机空间下的预测点云;接着,对于辅助学习网络,将目标物体图像块和由深度图得到的Depth-XYZ输入多模态特征提取及融合模块,再进行由粗到细的位姿估计,并将估计结果作为先验用于优化损失计算。最后,在性能评估阶段,舍弃辅助学习分支,仅将双分支点云配准网络的输出利用点对特征匹配进行六自由度位姿估计。实验结果表明:所提方法在YCB-Video数据集上的AUC和ADD-S<2 cm结果分别为95.9%和99.0%;在LineMOD数据集上的平均ADD(-S)结果为99.4%;在LM-O数据集上的平均ADD(-S)结果为71.3%。与现有的其他六自由度位姿估计方法相比,采用辅助学习的方法在模型性能上具有优势,在位姿估计准确率上有较大提升。
六自由度位姿估计 辅助学习 深度图像 三维点云 6-DoF pose estimation auxiliary learning RGB-D image 3D point cloud
中国人民解放军63870部队,陕西渭南714299
在可见光红外跟踪(RGB and Thermal Infrared Tracking,RGB-T)的研究中,为了在常规跟踪算法的基础上实现两个模态的有效融合,基于注意力机制提出了一种基于注意力交互的RGB-T跟踪算法。该算法引入注意力机制对可见光和红外两种模态的图像特征进行增强和融合,设计了自特征增强编码器对单一模态的特征进行增强,设计了互特征解码器对两个模态增强后的特征进行交互融合。编码器和解码器均采用两层注意力模块。为了减小算法模型的复杂度,对传统注意力模块进行简化,将全连接层改为1
![]()
![]()
1卷积。此外,该算法对多个卷积层的特征均进行分层融合,以充分挖掘各层卷积特征中的细节和语义信息。在GTOT,RGBT234和LasHeR三个数据集上进行对比测试。实验结果表明,所提算法性能优异,特别是在RGBT234和LasHeR这两个大规模数据集上取得了最优的跟踪结果,验证了注意力机制在RGB-T跟踪中的有效性。
可见光红外跟踪 注意力机制 多模态特征融合 特征增强 RGB-T tracking attention mechanism feature fuse of multi-modality feature enhancement
常州大学计算机与人工智能学院, 江苏常州 213164
在人群计数中, 针对尺度变化、行人分布不均以及夜间较差成像条件, 提出了一种基于 RGB-T(RGB-Thermal)图像的多模态人群计数算法, 称为双流残差扩张网络, 它由前端特征提取网络、多尺度的残差扩张卷积模块和全局注意力模块所构成。其中, 前端网络用来提取 RGB特征和热特征, 扩张卷积模块进一步提取不同尺度的行人特征信息, 全局注意力模块用来建立全局特征之间的依赖关系。此外, 还引入了一种新的多尺度差异性损失, 以提高网络的计数性能。为评估该方法, 在 RGBT-CC(RGBT Crowd Counting)数据集和 DroneRGBT数据集上进行了对比实验。实验结果表明, 在 RGBT-CC数据集上与 CMCRL(Cross-modal Collaborative Representation Learning)算法相比该算法的 GAME(0)
人群计数 RGB-T图像 扩张卷积 全局注意力 多尺度差异性损失 crowd counting, RGB-T images, dilated convolution,
1 北京理工大学光电学院, 北京 100081 精密光电测试仪器及技术北京市重点实验室, 北京 100081
2 北京理工大学光电学院, 北京 100081 精密光电测试仪器及技术北京市重点实验室, 北京 100081北京理工大学长三角研究院(嘉兴), 浙江 嘉兴 314019
组织血氧饱和度(StO2)是检测组织和血液中血液灌注和血液氧合变化的重要指标, 在临床及日常监测中具有重要意义。 高光谱成像以其非接触、 光谱信息丰富等优点, 成为一种评估StO2的新兴手段, 然而高光谱成像设备造价昂贵且操作复杂, 限制了其使用环境及发展。 传统工业相机获取皮肤组织的RGB图像空间分辨率高、 但其光谱分辨率低, 若能提高光谱分辨, 则其实现高精度生理参数测量成为可能。 提出了一种基于RGB图像高光谱重建的StO2评估方法。 该方法基于深度学习方法构建了从RGB图像到皮肤组织高光谱图像的重建模型, 获得了高物理可靠性皮肤组织高光谱图像, 并利用改进的朗伯比尔模型, 实现了区域StO2评估。 采用普通可见光相机与高光谱相机通过捆绑实验同时采集了49位受试者处于不同血液灌注状态下手部的RGB图像与高光谱图像作为数据集。 在对高光谱图像进行降维去噪的基础上, 根据含氧血红蛋白、 脱氧血红蛋白的特征光谱选取了450~600 nm(含31个光谱通道)波段作为重建光谱波段, 构建了基于深度学习的皮肤组织高光谱重建神经网络模型。 实验结果表明, 重建模型获得的皮肤反射光谱与高光谱相机直接采集的反射光谱曲线具有较高的一致性, 测试集中二者的平均绝对误差(MAE)为0.009 38, 均方误差(RMSE)为0.0148 1。 之后对重建模型得到的区域StO2测量结果与高光谱相机得到的测量结果二者的相似性进行了定量评估, 测试集样本中两种方法生成StO2空间分布图的二维相关系数均处于可靠范围内(大于94%), 表明了本文提出的基于可见光图像高光谱重建的StO2评估方法具有较高的可靠性。 该研究利用普通彩色相机实现了区域StO2评估, 为各种疾病的临床诊断和监测提供了一种简单低成本的StO2监测方法。
组织血氧饱和度, RGB图像, 光谱重建, 深度学习 Tissue oxygenation RGB images Spectral reconstruction Deep learning 光谱学与光谱分析
2023, 43(10): 3193
上海电子信息职业技术学院 通信与信息工程学院,上海 201411
RGB合波器作为激光扫描显示系统的关键性核心部件,其微小型化和高传输效率是应用于增强现实的必然要求。针对氮化硅、氮化镓、SU8三种可见光波段高透过率材料,对比研究了其波导的折射率差、色散曲线、单模条件,以及所构成的多模干涉型RGB波导合波器的尺寸、传输效率、光场分布。研究结果表明,氮化硅器件的各项性能介于氮化镓与SU8器件之间;氮化镓器件具有最大的芯层与包层折射率差,最小的单模截止尺寸,最短的器件长度(2 000 μm);SU8器件具有最小的芯层与包层折射率差,最大的单模截止尺寸,但器件长度大于氮化镓,为3 600 μm。此外,氮化硅、氮化镓、SU8三种器件的RGB平均传输率分别为78%,55%和91%,可见SU8器件占有明显优势。未来,经过进一步优化设计的超紧凑氮化镓多模干涉型RGB波导合波器有望应用于激光扫描单片集成系统中,而具有良好柔性的SU8多模干涉型RGB波导合波器则在可形变系统中具有重要应用价值。这些器件为增强现实系统朝着微小型化和高传输效率的方向发展提供了技术基础。
多模干涉 RGB波导 合波器 增强现实 multi-mode interference RGB waveguide combiner augmented reality (AR)
1 昆明理工大学机电工程学院,云南 昆明 650500
2 云南省先进装备智能制造技术重点实验室,云南 昆明 650500
3 云南省先进装备智能维护工程研究中心,云南 昆明 650500
针对移动机器人单激光雷达或RGB-D相机Gmapping建图时存在的障碍物检测不完全或建图效果不理想等问题,提出一种激光与相机融合Gmapping建图策略。首先,对相机点云和激光点云进行预处理,然后通过点云库(PCL)进行点云融合、滤波,采用点对线的迭代最近点(PL-ICP)算法进行相邻帧点云配准,以提高匹配精度和速率;接着,为了提高里程计精度,对视觉里程计、激光里程计采用Kalman滤波算法进行融合,对融合后的数据与轮式里程计进行动态加权二次融合;最后,在搭建好的移动机器人上验证所提方法。实验结果表明:与激光建图和相机建图方法相比,所提方法的障碍物检测率提高了32.03个百分点和19.86个百分点,地图的尺寸误差分别减小0.014 m和0.141 m,角度误差分别减小1°和3°;与原始里程计相比,里程计精度提高了0.12个百分点。
Gmapping 数据融合 里程计融合 激光雷达 RGB-D相机 激光与光电子学进展
2023, 60(12): 1228003
1 南京林业大学轻工与食品学院, 江苏 南京 210037
2 南京林业大学信息科学技术学院, 江苏 南京 210037
3 武汉大学, 湖北省文物颜色信息数字化与虚拟再现工程研究中心, 湖北 武汉 430079
针对单幅RGB图像重建光谱图像中的病态问题, 提出一种基于非线性光谱字典学习的非线性重建方法。 为了适应线性和非线性数据, 该方法首先改进了基于自联想神经网络模型的非线性主成分分析算法, 并利用其从训练光谱集中学习低维光谱字典, 用于光谱重建的求逆方程中, 以缓解病态状况。 再在此光谱字典基础上, 利用阻尼高斯牛顿法结合截断奇异值分解的正则化方法, 进一步缓解该非线性反演的病态问题, 实现单幅RGB图像重建光谱图像。 在实验中, 采用Munsell以及Munsell+Pantone两个光谱训练集学习光谱字典, 同时利用CAVE和UEA光谱图像库进行光谱重建测试。 该方法测试结果与现有方法比较发现, 该方法在不同光谱训练集下重建CAVE和UEA两库光谱图像的均方根差的平均值最低, 分别为0.212 4, 0.255 4, 0.229 4和0.294 9, 均方根差的标准偏差接近最好方法的效果, 分别为0.068 5, 0.084 7, 0.066 8和0.087 0。 此结果表明该方法针对单幅RGB图像重建光谱图像在重建精度和稳定性上均存在优势。
光谱重建 RGB图像 非线性 光谱字典 学习 Spectral reconstruction RGB image Nonlinear Spectral dictionary Learning 光谱学与光谱分析
2022, 42(7): 2092