作者单位
摘要
中国科学院大学 中国科学院空间应用工程与技术中心中国科学院太空应用重点实验室,北京100094
为了让科学家快速定位实验关键过程,获取更为详细的实验过程信息,需要对空间科学实验自动添加描述性文字内容。针对空间科学实验目标较小且数据样本较少的问题,本文提出了基于多模态学习的空间科学实验图像描述算法模型,主要分为四部分:基于改进U-Net的语义分割模型,基于语义分割的空间科学实验词汇候选,自下而上的通用场景图像特征向量提取和基于多模态学习的描述语句生成。此外,本文构建了空间科学实验目标数据集,包括语义掩码标注和图像描述标注,来对空间科学实验进行图像描述。实验结果表明:相对于经典的图像描述模型Neuraltalk2,本文提出的算法在精度评定方面,METEOR结果平均提升了0.089,SPICE结果平均提升了0.174;解决了空间科学实验目标较小、样本较少的难点,构建基于多模态学习的空间科学实验图像描述模型,满足对空间科学实验场景进行专业性、精准性的描述要求,实现从低层次感知到深层场景理解的能力。
空间科学实验 图像描述 语义分割 多模态学习 space science experiment image captioning semantic segmentation multi-modal learning 
光学 精密工程
2021, 29(12): 2944
作者单位
摘要
中国海洋大学工程学院, 山东 青岛 266100
针对当前遥感目标检测方法只能识别出遥感目标的类别及位置,无法生成与遥感图像内容相关文本描述的问题,提出了一种基于注意力和强化学习的遥感图像描述方法。首先,采用卷积神经网络构建编码器,提取遥感图像的特征。其次,利用长短期记忆网络搭建解码器,学习图像特征与文本语义特征间的映射关系。然后,引入注意力机制,增强模型对显著性特征的关注,减少无关背景特征的干扰。最后,采用强化学习策略,根据离散且不可微的评价指标直接对模型进行优化,消除暴露偏差及优化方向不一致的缺陷。在公开遥感图像描述数据集中的实验结果表明,本方法的检测精度较高,对密集小目标、雾气积聚、背景特征与目标特征相似等复杂环境下的遥感图像具有良好的描述性能。
遥感 图像描述 强化学习 注意力机制 编码-解码 
光学学报
2021, 41(22): 2228001
作者单位
摘要
1 郑州经贸学院 计算机与人工智能学院, 河南 郑州 451191
2 河南理工大学 计算机科学与技术学院, 河南 焦作 454003
针对传统图像描述方法存在提取图像关键信息精度不高、描述不准确等问题, 提出了一种结合残差学习和双模态CAE的图像描述方法。提出一种新型双模态卷积自动编码器(CAE)结构, 包括图像和文本两个输入, 以及编码、隐藏层交互、解码等处理环节, 完成对输入图像的文本描述;在经典CAE中加入残差学习, 与CAE的卷积层构成深度残差网络(DRN), 增加了学习深度, 以提高方法的准确率;将文本和图像的隐藏层进行交叉重构, 以最小化损失函数为目的, 训练得到图像-文本的关系, 从而实现图像的描述。利用COCO和Flickr30k数据集对所提方法进行定性和定量的仿真实验, 其结果论证了所提方法的有效性, 与其他方法相比, 评价指标Med r最低, 且R@K(K=1,5,10)最高, 运算时间仅为0.183s, 能够更为精准地描述图像。
残差学习 双模态CAE 图像描述 深度残差网络 交叉重构 最小化损失函数 residual learning bimodal CAE image description deep residual network cross reconstruction minimizing loss function 
光学技术
2021, 47(1): 93
杨楠 1,2南琳 1,2张丁一 1,2库涛 1,2
作者单位
摘要
1 中国科学院沈阳自动化研究所, 辽宁 沈阳 110016
2 中国科学院大学, 北京 100049
卷积神经网络(Convolution Neural Networks, CNN)和循环神经网络(Recurrent Neural Networks, RNN)在图像分类、计算机视觉、自然语言处理、语音识别、机器翻译、语义分析等领域取得了迅速的发展, 引起了研究者对计算机自动生成图像描述的广泛关注。目前图像描述存在的主要问题有输入文本数据稀疏、模型存在过拟合、模型损失函数震荡难以收敛等问题。文中使用NIC作为基线模型, 针对数据稀疏问题, 改变了基线模型中的文本one-hot表示, 使用word2vec对文本进行映射, 为了防止过拟合, 在模型中加入了正则项和使用Dropout技术, 并在词序记忆方面取得创新, 引入联想记忆单元GRU, 用于文本生成。在试验中使用AdamOptimizer优化器进行参数迭代更新。实验结果表明: 改进后的模型参数减少且收敛速度大幅加快, 损失函数曲线更加平滑, 损失最大降至2.91, 模型的准确率比NIC提高了接近15%。实验有效地验证了在模型当中使用word2vec对文本进行映射可明显缓解数据稀疏问题, 加入正则项和使用Dropout技术可有效防止模型过拟合, 引入联想记忆单元GRU能够大幅减少模型训练参数, 加快算法收敛速度, 进而提高整个模型的准确率。
卷积神经网络 循环神经网络 门控循环单元 自然语言处理 图像描述 convolution neural networks recurrent neural networks gated recurrent unit natural language processing image description 
红外与激光工程
2018, 47(2): 0203002
作者单位
摘要
1 空军工程大学 理学院,西安 710051
2 西安理工大学 自动化学院,西安 710048
通过对大图像、小图像、噪声图像的重建,比较了泽尼克矩、正交的傅里叶-梅林矩,畸变的雅可比-傅里叶矩的图像描述能力,最后得出:畸变的雅可比-傅里叶矩有着最强的图像描述能力。在实验中还发现:在噪声图像的重建中,随着重建阶数的提高,图像的重建误差并不是一直减少,而是和有噪声图像一样,是一个先降后升的过程,并对此现象作了解释:在离散空间中连续正交多项式矩并不是完全意义上的正交,是这种正交误差造成了此现象。
图像描述 图像重建 不变矩 重建误差 image description image reconstruction moment invariants reconstruction error 
电光与控制
2009, 16(2): 48
作者单位
摘要
北京交通大学,理学院,北京,100044
经过图像分割后,得到的是若干区域和边界.通常把感兴趣的部分叫目标,其余的部分叫背景,最终目的是要让计算机来识别这些目标.为了有效地识别目标,必须要描述这些目标即提供它们的有用信息和相互关系.本文分区域内部描述、区域边界描述和关系描述三个部分,对现有的各种图像描述方法进行全面的讨论,分析了每种方法的原理、优缺点和适用场合,并对图像描述方法的发展前景做了展望.
图像描述 描述子 投影 模板匹配 曲线拟合 image description descriptor projection module matching curve fitting 
应用光学
2005, 26(3): 27
作者单位
摘要
1 中国协和医科大学中国医学科学院肿瘤医院核医学科,北京,100021
2 内蒙古师范大学物理系,呼和浩特,010022
3 北京大学数学学院,北京,100871
4 加拿大Laval大学物理系,魁北克,GIK 7P4
提出了雅可比-傅里叶矩,它是用雅可比多项式作为径向函数,用傅里叶因子作为角向函数构造而成的,是广义正交傅里叶-梅林矩.经过归一化处理后的雅克比-傅立叶矩具有平移、尺度、旋转、灰度多畸不变性.从归一化图像重建误差、噪声灵敏度等方面对雅可比-傅里叶矩的图像描述能力进行了研究,结果显示雅可比-傅里叶矩在各种参量选择的情况下,具有良好的图像描述和抗噪声能力,是一个优良的图像特征.以前的研究多为单纯构建某一个函数,而现在将其扩展为构建一个函数族,开阔了矩描述量的研究视野.
信息光学 图像处理 正交矩 图像描述 
光学学报
2004, 24(1): 5

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!