1 西安交通大学机械工程学院航空发动机研究所,陕西 西安 710049
2 空军工程大学航空动力系统与等离子体技术全国重点实验室,陕西 西安 710038
激光粉末床熔融增材制造面临质量稳定一致性的挑战,铺粉质量是影响成形件质量的重要因素。近年来,计算机视觉在铺粉缺陷监测中的应用表现突出,但其性能却受到标注数据数量不足的限制。针对这一问题,笔者设计了基于视觉大模型分割一切模型(SAM)的铺粉缺陷分割模型(PSAM)。针对SAM预训练参数的知识迁移问题,引入Adapter模块实现参数微调;针对铺粉分割任务中类别信息的需求,改进了SAM中的掩码解码器;针对工业场景中人工提示难的问题,提出了自动提示生成器,实现了视觉提示的自动生成。在训练样本数量仅为50的情况下,PSAM表现出了良好的分割性能,平均交并比(mIoU)可达到65.02%,相较于Deeplab v3和U-Net分别提升了8.52个百分点和5.31个百分点。本研究展示了视觉大模型在增材过程监控中的应用价值和应用潜力。
激光技术 激光粉末床熔融 过程监测 视觉大模型 缺陷检测 中国激光
2024, 51(10): 1002319
1 西京学院 材料与能源科学技术研究院,陕西 西安 710123
2 北京星航机电装备有限公司,北京 100074
3 西北工业大学 光电与智能研究院,陕西 西安 710072
在计算机视觉领域中,基于孪生网络的跟踪算法相比于传统算法提高了精度和速度,但是仍会受到目标遮挡、变形、环境变化等影响,导致孪生网络的跟踪算法的性能降低。为了深入了解基于孪生网络的单目标跟踪算法,本文对现有基于孪生网络目标跟踪算法进行了总结和分析,主要包括在孪生网络中引入注意力机制方法、超参数推理方法和模板更新方法,对这3种方法的目标跟踪算法进行了综述,详细介绍了国内外近几年基于孪生网络的算法研究和发展现状。对3个方面的代表算法采用VOT2016、VOT2017、VOT2018和OTB-2015数据集进行实验对比,获得了多种基于孪生网络的目标跟踪算法的性能。最后对基于孪生网络的目标跟踪算法进行了总结,并对未来的发展方向进行了展望。
计算机视觉 目标跟踪 孪生网络 深度学习 computer vision target tracking Siamese networks deep learning
1 辽宁工程技术大学 软件学院,辽宁 葫芦岛 125105
2 汕头职业技术学院 计算机系,广东 汕头 515071
现有的层级式文本生成图像的方法在初始图像生成阶段仅使用上采样进行特征提取,上采样过程本质是卷积运算,卷积运算的局限性会造成全局信息被忽略并且远程语义无法交互。虽然已经有方法在模型中加入自注意力机制,但依然存在图像细节缺失、图像结构性错误等问题。针对上述存在的问题,提出一种基于自监督注意和图像特征融合的生成对抗网络模型SAF-GAN。将基于ContNet的自监督模块加入到初始特征生成阶段,利用注意机制进行图像特征之间的自主映射学习,通过特征的上下文关系引导动态注意矩阵,实现上下文挖掘和自注意学习的高度结合,提高低分辨率图像特征的生成效果,后续通过不同阶段网络的交替训练实现高分辨率图像的细化生成。同时加入了特征融合增强模块,通过将模型上一阶段的低分辨率特征与当前阶段的特征进行融合,生成网络可以充分利用低层特征的高语义信息和高层特征的高分辨率信息,更加保证了不同分辨率特征图的语义一致性,从而实现高分辨率的逼真的图像生成。实验结果表明,相较于基准模型(AttnGAN),SAF-GAN模型在IS和FID指标上均有改善,在CUB数据集上的IS分数提升了0.31,FID指标降低了3.45;在COCO数据集上的IS分数提升了2.68,FID指标降低了5.18。SAF-GAN模型能够有效生成更加真实的图像,证明了该方法的有效性。
计算机视觉 生成对抗网络 文本生成图像 CotNet 图像特征融合 computer vision generative adversarial networks text-to-image cotnet image feature fusion
南京航空航天大学 电子信息工程学院,江苏南京211106
太阳能电池片(Photovoltaic, PV)表面缺陷检测是光伏组件生产中不可或缺的流程。基于机器视觉的自动缺陷检测方法因其高精度、实时性、低成本等优点得到了广泛应用。本文综述了基于机器视觉的太阳能电池片表面缺陷检测方法的研究进展。首先,阐述了太阳能电池片表面成像方式,列举了典型缺陷类型。然后重点分析了基于传统机器视觉算法及基于深度学习算法进行太阳能电池片表面缺陷检测的原理。将传统机器视觉算法分为图像域分析法、变换域分析法进行综述;从无监督学习、有监督学习和弱监督及半监督学习三个方面分别概述了近几年来基于深度学习的太阳能电池片表面缺陷检测的研究现状。对太阳能电池片表面缺陷检测各种典型方法进一步细分归类和对比分析,总结了每种方法的优缺点。随后,介绍了9种太阳能电池片表面缺陷图像数据集及缺陷检测性能评价指标。最后,系统总结了太阳能电池片缺陷检测常见的关键问题及其解决方法,对太阳能电池片表面缺陷检测的未来发展趋势进行了展望。
太阳能电池 缺陷检测 机器视觉 深度学习 检测网络 solar cells defect detection machine vision deep learning detection network
为探究成像参数对大深度物体聚焦形貌恢复精度的影响规律,明确实际应用中聚焦形貌恢复重建精度不满足要求时成像系统的改进措施,在构建聚焦形貌恢复三维重建精度评价指标的基础上,利用正交实验确定成像参数对聚焦形貌恢复精度影响的主次顺序,重点分析主要和次主要参数对重建精度的影响规律,并揭示最佳成像参数随多聚焦图像采样间距的变化关系。考虑到成像参数的变化实际通过改变系统景深影响聚焦形貌恢复精度,建立了多聚焦图像采样间距与最佳景深之间的经验公式,为系统成像参数的设定提供了理论依据。实验结果表明:焦距和F数是聚焦形貌恢复的主要和次主要影响参数,在给定多聚焦图像采样间距下存在使重建精度最高的最佳焦距和最佳F数,且随着采样间距减小,最佳焦距增大,最佳F数减小;多聚焦图像采样间距与最佳景深之间的经验公式拟合准确率为97.28%,验证准确率为94.76%,可用于最佳景深的计算;采用最佳景深能够显著提升聚焦形貌恢复精度,为大深度物体聚焦形貌恢复精度的提升提供了新途径。
机器视觉 聚焦形貌恢复 成像参数 大深度物体 重建精度
汕头大学 工学院 机械工程系, 广东 汕头 515063
视差不连续区域和重复纹理区域的误匹配率高一直是影响双目立体匹配测量精度的主要问题,为此,本文提出一种基于多特征融合的立体匹配算法。首先,在代价计算阶段,通过高斯加权法赋予邻域像素点的权值,从而优化绝对差之和(Sum of Absolute Differences,SAD)算法的计算精度。接着,基于Census变换改进二进制链码方式,将邻域内像素的平均灰度值与梯度图像的灰度均值相融合,进而建立左右图像对应点的判断依据并优化其编码长度。然后,构建基于十字交叉法与改进的引导滤波器相融合的聚合方法,从而实现视差值再分配,以降低误匹配率。最后,通过赢家通吃(Winner Take All,WTA)算法获取初始视差,并采用左右一致性检测方法及亚像素法提高匹配精度,从而获取最终的视差结果。实验结果表明,在Middlebury数据集的测试中,所提SAD-Census算法的平均非遮挡区域和全部区域的误匹配率为分别为2.67%和5.69%,测量200~900 mm距离的平均误差小于2%;而实际三维测量的最大误差为1.5%。实验结果检验了所提算法的有效性和可靠性。
机器视觉 立体匹配 SAD-Census变换 十字交叉法 引导滤波 machine vision stereo matching SAD-Census transform cross method guided filtering
1 东南大学土木工程学院江苏省工程力学重点实验室,江苏 南京 211189
2 山东理工大学交通与车辆工程学院,山东 淄博 255090
对棱镜分光式单目立体视觉系统进行了深度方程的推导,修正了棱镜位姿偏移引入的成像误差,分析了位姿引起的成像视场变化。该系统由一个相机与两个具有相同参数的双棱镜组成,相机单次拍摄可获取两幅具有视差的子图像,这可视为两个具有一定夹角的虚拟相机同时成像。采用虚拟点模型与光线追踪法推导深度方程,建立视差与深度方程参数之间的关系,进一步研究了系统中物距与夹角对图像深度信息与视差的影响。棱镜组的人为放置,不可避免地引入位姿误差,进而影响每个成像通道中的成像视场。基于棱镜的旋转与偏移,建立了修正的虚拟点模型,并深入研究了棱镜组位姿对系统成像与视场产生的影响;最后通过实验验证了理论与推导的有效性与准确性。
测量 单目立体视觉 棱镜位姿 深度方程 系统误差 视场评估
1 云南师范大学物理与电子信息学院,云南 昆明 650500
2 云南省光电信息技术重点实验室,云南 昆明 650500
构建了一种基于自监督的框架,该框架从单目立体内窥镜视频中提取多视图图像,利用图像中的底层三维(3D)信息构建对象的几何约束,实现软组织结构的准确重建。基于分割任意场景模型对内窥镜下的动态手术器械、静态腹腔场景及可形变软组织结构进行分割解耦。该框架利用简单的神经网络多层感知机来表示动态神经辐射场(NeRF)中运动手术器械和形变软组织结构,基于偏斜熵损失对手术场景中的手术器械、腔体场景和软组织结构进行正确分离。在通过使用单目立体内窥镜捕获机器人手术模拟器场景的数据集上,将所提方法的结果与其他方法进行定量定性比较。结果表明本文方法在处理腹腔体场景、软组织结构重建、手术器械的分割解耦,以及来自多视点的3D信息和运动对象的图像分割等方面显著优于当前的方法。
视觉光学 神经辐射场 软组织三维重建 分割任意场景模型 分割解耦