陈敏佳 1,2盖绍彦 1,2,*达飞鹏 1,2俞健 1,2,3,*
作者单位
摘要
1 东南大学 自动化学院,江苏南京20096
2 东南大学 复杂工程系统测量与控制教育部重点实验室,江苏南京10096
3 南京航空航天大学 空间光电探测与感知工业和信息化部重点实验室, 江苏南京211106
为了在严重遮挡以及少纹理等具有挑战性的场景下,准确地估计物体在相机坐标系中的位置和姿态,同时进一步提高网络效率,简化网络结构,本文基于RGB-D数据提出了采用辅助学习的六自由度位姿估计方法。网络以目标物体图像块、对应深度图以及CAD模型作为输入,首先,利用双分支点云配准网络,分别得到模型空间和相机空间下的预测点云;接着,对于辅助学习网络,将目标物体图像块和由深度图得到的Depth-XYZ输入多模态特征提取及融合模块,再进行由粗到细的位姿估计,并将估计结果作为先验用于优化损失计算。最后,在性能评估阶段,舍弃辅助学习分支,仅将双分支点云配准网络的输出利用点对特征匹配进行六自由度位姿估计。实验结果表明:所提方法在YCB-Video数据集上的AUC和ADD-S<2 cm结果分别为95.9%和99.0%;在LineMOD数据集上的平均ADD(-S)结果为99.4%;在LM-O数据集上的平均ADD(-S)结果为71.3%。与现有的其他六自由度位姿估计方法相比,采用辅助学习的方法在模型性能上具有优势,在位姿估计准确率上有较大提升。
六自由度位姿估计 辅助学习 深度图像 三维点云 6-DoF pose estimation auxiliary learning RGB-D image 3D point cloud 
光学 精密工程
2024, 32(6): 901
盖绍彦 1,2,*冯瑞 1,2达飞鹏 1,2,**
作者单位
摘要
1 东南大学自动化学院,江苏 南京 210096
2 东南大学复杂工程系统测量与控制教育部重点实验室,江苏 南京 210096
针对人脸测量时的抖动现象,设计了一种循环反向编码方法。该方法无需专门投影反向二值条纹辅助边缘点定位,减少了投影图案的数量。用循环的三帧条纹图像代替原本利用正反两帧条纹图像定位的方式,提高边缘点检测精度的同时能够有效消除定位偏差。实验表明,所提方法能够有效提高测量速度,同时保持较高的测量精度,减少点云中的运动波纹。
三维测量 循环反向编码 二值条纹 边缘定位 
光学学报
2023, 43(23): 2312004
盖绍彦 1,2,*黄妍妍 1,2达飞鹏 1,2,**
作者单位
摘要
1 东南大学自动化学院,江苏 南京 210096
2 东南大学复杂工程系统测量与控制教育部重点实验室,江苏 南京 210096
针对现有图像匹配算法追求匹配精度,而一定程度上忽略匹配速度下降的问题,设计了通道注意力和特征切片描述网络(CAFSD),并将其与快速特征点检测算法(ORB)结合,进而提出一种精度和速度均衡的图像快速匹配算法。首先利用通道注意力对ORB获取的图像块进行初步全局特征学习,接着将初步特征描述子切片,再对每个特征切片进行特征学习和二进制化,最后重新拼接得到二进制特征描述子,减少了传统二进制编码的冗余问题。此外,设计了复合损失函数进一步减少描述子二进制化造成的信息损失。实验结果表明,所提算法的匹配性能和处理速度优于大部分其他二进制匹配算法。
图像处理 图像匹配 注意力 特征描述 
光学学报
2023, 43(22): 2210001
衡玮 1,2俞健 1,2,*达飞鹏 1,2,3,**
作者单位
摘要
1 东南大学自动化学院,江苏 南京 210096
2 东南大学复杂工程系统测量与控制教育部重点实验室,江苏 南京 210096
3 东南大学深圳研究院,广东 深圳 518063
针对宽基线场景下的拼接因视差导致伪影和瑕疵的问题,提出了一种基于密集视点插值的实时视频拼接方法。该方法采用在左右相机的基线上补充密集中间视点的方式,为拼接的重叠区域合成平滑过渡的插值视图,以更好地对齐多个输入。为生成该插值视图,利用立体匹配中的匹配代价,设计了网络用来预测在原视图中采样的像素位移场。所提方法在没有插值视图真值的情形下,利用视点间的空间变换关系,指引网络学习视图生成规则。实验结果表明,所提方法能提升视频图像拼接后的视觉观感,并可以达到实时性能,满足实际场景中的应用需求。
机器视觉 视频拼接 宽基线 深度学习 视图插值 
光学学报
2023, 43(14): 1415003
张磊 1,2盖绍彦 1,2,*达飞鹏 1,2,3
作者单位
摘要
1 东南大学自动化学院,江苏 南京 210096
2 东南大学复杂工程系统测量与控制教育部重点实验室,江苏 南京 210096
3 东南大学深圳研究院,广东 深圳 518063
针对现有人脸活体检测算法在单一数据集内表现良好而在多个数据集间泛化能力较差的问题,提出一种聚焦于真实人脸的活体检测方法。在数据输入阶段,每轮训练会向网络输入所有源域的真实人脸的同时只随机输入其中一个源域的虚假人脸。在特征学习阶段,使用Resnet18网络作为主干网络,对不同残差块的输出特征进行基于注意力机制的加权融合。利用三元组损失和对抗损失对融合后的真实人脸特征进行领域内和领域间的聚合,利用三元组损失对融合后的虚假人脸特征只进行领域内的聚合。在分类阶段,利用交叉熵损失对所有源域的真实人脸和虚假人脸进行分类。所提方法在4个人脸活体检测数据集中进行了实验,实验结果表明所提方法相比其他方法具有更低的识别错误率和更高的鲁棒性。
图像处理 模式识别 人脸活体检测 三元组损失 生成对抗机制 多尺度注意力融合机制 
激光与光电子学进展
2023, 60(10): 1010007
张开宜 1,2洪濡 1,2盖绍彦 1,2达飞鹏 1,2,3,*
作者单位
摘要
1 东南大学自动化学院,江苏 南京 210096
2 东南大学复杂工程系统测量与控制教育部重点实验室,江苏 南京 210096
3 东南大学深圳研究院,广东 深圳 518036
针对现有的三维(3D)人手姿态估计算法没有充分挖掘手指特性和关键特征作用的问题,提出了手指点加强(FPR)策略和多级融合注意力(MFSE)模块。FPR策略突出了人手点云中手指位置点的作用,加强了网络特征提取层对点云中手指位置点的关注,提高了手指关节点的回归精度。MFSE模块提高了分层网络提取和表达局部特征的能力,该模块实现了分层网络之间不同层次特征的融合和权重分配,增强了模型的鲁棒性和人手姿态估计的准确度。在两个公共基准数据集MSRA和ICVL上的实验表明,所提算法能够实现高精度的3D人手姿态估计。
机器视觉 三维点云 深度学习 注意力机制 手部姿态估计 
光学学报
2022, 42(19): 1915001
李昱 1,2盖绍彦 1,2,3达飞鹏 1,2,3,*洪濡 1,2
作者单位
摘要
1 东南大学自动化学院,江苏 南京 210096
2 东南大学复杂工程系统测量与控制教育部重点实验室,江苏 南京 210096
3 东南大学深圳研究院,广东 深圳 518063
样本采样和检测框优化是目标检测任务中的两项重要技术。为了解决正负样本分配不合理的问题,获取更优的图像分类特征和检测框,提出一个精确且高效的单阶无锚框目标检测算法,算法由基于语义的定位、自适应特征增强和高效的检测框优化3个模块组成。首先,定位模块提出基于语义的样本采样方法,根据目标的语义特征区分前/背景区域,合理选择正样本和负样本,优先选择语义信息量较大的前景区域作为正样本;其次,特征增强模块利用目标语义概率图和检测框偏移逐像素调整图像分类特征,增大前景特征所占比重,根据目标大小自适应调整特征编码范围;最后,采用并联的方式优化检测框,对优化前后的检测框计算分类损失,几乎无成本地提升了定位性能,保证了特征对齐性和一致性。在MS COCO数据集下,提出的目标检测算法取得了平均精度为42.8% 的检测精度,单张图像的检测时间达到78 ms,实现了检测精度与速度的平衡。
机器视觉 目标检测 正负样本采样 检测框优化 特征增强 
激光与光电子学进展
2022, 59(18): 1815015
陈汶铭 1,2洪濡 1,2盖绍彦 1,2,*达飞鹏 1,2,3,**
作者单位
摘要
1 东南大学自动化学院,江苏 南京 210096
2 东南大学复杂工程系统测量与控制教育部重点实验室,江苏 南京 210096
3 东南大学深圳研究院,广东 深圳 518063
针对现有自动驾驶多目标跟踪算法融合多传感信息的方式不能充分发挥协同作用的问题,提出了一种基于多模态特征融合与可学习式目标相似度估计的三维多目标跟踪算法。多模态特征融合模块对图像和点云特征进行基于通道注意力机制的特征融合,进一步提升了多模态特征的表达能力。目标相似度估计模块通过网络直接生成相似度矩阵,以可学习方式实现多目标之间的跨模态联合推理,避免了大量的人工参数设定。将所提算法在KITTI数据集上进行了验证与测试,其高阶跟踪精度(HOTA)在测试集中达到了69.24%,表明所提算法在精度上优于其他算法,具有较好的鲁棒性。
机器视觉 多目标跟踪 特征融合 注意力机制 卷积神经网络 
光学学报
2022, 42(16): 1615001
李文健 1,2盖绍彦 1,2,*俞健 1,2达飞鹏 1,2,3,**
作者单位
摘要
1 东南大学自动化学院, 江苏 南京 210096
2 东南大学复杂工程系统测量与控制教育部重点实验室, 江苏 南京 210096
3 东南大学深圳研究院, 广东 深圳 518063
提出一种使用卷积神经网络从单帧复合图像中获得高质量绝对相位的方法。所提方法使用的复合图像为嵌入散斑的条纹图像,卷积神经网络包括两个子网络,分别利用复合图像中的条纹模式分量和散斑模式分量完成包裹相位的求解及展开。所提方法在相位展开的过程中使用预拍摄的平板复合图像及其条纹阶次作为辅助信息,从而保证相位展开的准确性。实验结果表明,所提方法可以利用单帧复合图像最大限度地减少投影图片的数量,能够获得较高精度的绝对相位,为实现高精度动态场景下的三维测量提供一种可行性的解决方案。
测量 相位恢复 条纹投影 神经网络 三维测量 散斑相关 
光学学报
2021, 41(23): 2312001
邹梓吟 1,2盖绍彦 1,2,*达飞鹏 1,2,3李昱 1,2
作者单位
摘要
1 东南大学自动化学院, 江苏 南京 210096
2 东南大学复杂工程系统测量与控制教育部重点实验室, 江苏 南京 210096
3 东南大学深圳研究院, 广东 深圳 518063
针对真实场景中因行人相互遮挡难以被精确检测的情况,提出一种基于注意力机制的特征提取增强检测算法。首先,通过添加注意力模块学习特征通道间关系和特征图空间信息,增强对行人目标可视区域的特征提取。其次根据行人数据的实际尺寸,采用k-means++算法对行人标注进行聚类,确定锚框(anchor)大小及比例。利用距离交并比损失函数(DIOULoss)设计检测器的损失函数,使得检测框的回归更关注候选框与真实框的交并比与两框的中心距离。最后使用新设计的非极大值抑制算法(DSoft-NMS)保留更精确的预测框。所提方法在CityPersons和WiderPerson数据集上进行了实验,结果表明该方法在遮挡行人检测方面具有更高的检测精度,同时网络结构简单,方便后续研究。
机器视觉 遮挡行人检测 注意力机制 k-means聚类 交并比 
光学学报
2021, 41(15): 1515001

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!