杨楠 1,2南琳 1,2张丁一 1,2库涛 1,2
作者单位
摘要
1 中国科学院沈阳自动化研究所, 辽宁 沈阳 110016
2 中国科学院大学, 北京 100049
卷积神经网络(Convolution Neural Networks, CNN)和循环神经网络(Recurrent Neural Networks, RNN)在图像分类、计算机视觉、自然语言处理、语音识别、机器翻译、语义分析等领域取得了迅速的发展, 引起了研究者对计算机自动生成图像描述的广泛关注。目前图像描述存在的主要问题有输入文本数据稀疏、模型存在过拟合、模型损失函数震荡难以收敛等问题。文中使用NIC作为基线模型, 针对数据稀疏问题, 改变了基线模型中的文本one-hot表示, 使用word2vec对文本进行映射, 为了防止过拟合, 在模型中加入了正则项和使用Dropout技术, 并在词序记忆方面取得创新, 引入联想记忆单元GRU, 用于文本生成。在试验中使用AdamOptimizer优化器进行参数迭代更新。实验结果表明: 改进后的模型参数减少且收敛速度大幅加快, 损失函数曲线更加平滑, 损失最大降至2.91, 模型的准确率比NIC提高了接近15%。实验有效地验证了在模型当中使用word2vec对文本进行映射可明显缓解数据稀疏问题, 加入正则项和使用Dropout技术可有效防止模型过拟合, 引入联想记忆单元GRU能够大幅减少模型训练参数, 加快算法收敛速度, 进而提高整个模型的准确率。
卷积神经网络 循环神经网络 门控循环单元 自然语言处理 图像描述 convolution neural networks recurrent neural networks gated recurrent unit natural language processing image description 
红外与激光工程
2018, 47(2): 0203002

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!