融合卷积神经网络与主题模型的图像标注

张蕾; 蔡明

doi:doi:10.3788/LOP56.201004

激光与光电子学进展, 2019, 56 (20): 201004, 网络出版: 2019-10-22

融合卷积神经网络与主题模型的图像标注下载： 842次

Image Annotation Based on Convolutional Neural Network and Topic Model

论文大纲

张蕾 ^*蔡明

作者单位

江南大学物联网工程学院, 无锡江苏 214122

AI 词云图 AI语音精读 AI语音超短摘要

注：本部分内容由 AI 自动生成，请您知悉。

摘要

为降低图像文本数据的稀疏性和传统图像特征的局限性,提出一种融合卷积神经网络(CNN)和主题模型的图像标注算法。利用狄利克雷主题模型对图像训练集的文本数据进行建模,生成文本主题分布和文本主题标注词分布,以降低图像文本数据的维度和稀疏性。考虑到图像文本主题的稀疏分布,利用CNN提取图像的高层视觉特征,同时改进损失函数以重构CNN。利用图像的高层视觉特征和对应的多个文本主题构建多分类器,进行图像文本主题多标签分类学习,并获得图像的文本主题分布。最后,将该文本主题分布和主题模型生成的文本主题标注词分布融合计算出图像的标注词概率。由Corel5K和IAPR TC-12图像标注数据集的对比实验可知,本文方法有效提高了图像的标注性能。

Abstract

To address the issue of the sparsity of image text data and the limitation of traditional image features, this study proposes an image annotation algorithm that combines a convolutional neural network (CNN) and a topic model. Herein, a Dirichlet topic model is used to model text data on image training sets and generate text topic distribution and text topic label distribution, which reduces the dimension and sparsity of image text data. Considering the sparse distribution of image text topic, the CNN is used to extract high-level visual image features, and the loss function is improved to reconstruct the CNN. Multiple classifiers are constructed based on the high-level visual image features and corresponding multi-text topics to perform multi-label classification learning on image text topics and obtain the text-topic distribution of image. Finally, the text-topic distribution and text-topic label distribution are combined to calculate the probability of the image label. Based on the contrast experiment on Corel5K and IAPR TC-12 image annotation datasets, the proposed algorithm effectively improves the performance of image annotation.

1 引言

随着网络社交平台及APP的普及,互联网中无标签图像数据的规模日益增长。由于大数据技术的高速发展,网络中的无标签图像展现出巨大的商业价值,如何快速筛选并使用这些无标签图像数据成为一个极具研究价值的问题。图像检索^[1]可以高效检索出需要的图像,而其在无标签图像数据的检索效果依赖于图像标注方法。由于图像的视觉特征与文本标签之间存在“语义鸿沟”^[2],研究图像标注方法依旧是一份十分具有挑战性的工作。

当前图像标注方法主要分为4类:第1类是判别式图像标注^[3-4],将图像自动标注问题看作是一个有监督的分类问题,通过计算视觉特征的相似性将一幅图分类为一个或多个语义类别;第2类是生成式图像标注模型^[5-6],计算出视觉特征和语义文本之间的联合分布概率,然后使用分布模型估计新图像的语义标注文本概率;第3类是最邻近图像标注模型^[7-8],依据图像特征找出与测试图像最相似的多张图像,并利用这些图像的标注词为测试图像进行标注;第4类是基于深度学习的图像标注模型。由于深度学习在多个领域取得了较好的成绩,特别是卷积神经网络^[9](CNN)在计算机视觉领域(如图像分类^[10]和目标识别^[11]等)表现出优秀的图像处理能力,因此基于深度学习的图像标注效果一般优于其他模型。例如,基于线性回归的CNN-R(CNN-Regression)模型,该方法通过优化模型参数,提高了图像标注的性能^[12];高耀东等^[13]提出的CNN-MSE(CNN-Mean Squared Error)方法,通过将CNN的损失函数改进为均方差误差损失函数,极大地提高了图像的标注性能。虽然基于深度学习的图像标注性能较好,但忽略了图像集文本数据的稀疏分布及分布不平衡对图像标注的影响。为解决该问题,本文提出融合CNN和主题模型的图像标注方法。

本文充分利用狄利克雷(LDA)模型对图像文本信息处理和CNN对图像视觉特征提取的优势。利用LDA主题模型对图像训练集的文本数据建模,生成图像训练集的潜在文本主题分布和文本主题标注词分布,对图像训练集文本数据的处理弥补了CNN分类训练集中文本数据维度大、分布稀疏的问题;CNN提取图像的高层视觉特征弥补了传统图像特征提取复杂和传递图像视觉信息有限的问题。通过结合CNN和主题模型对图像视觉数据和文本数据的处理,改进CNN中的损失函数,使其可以计算图像对应多个文本主题分类学习的损失和提高低频文本主题分类的准确率,从而提高图像标注的性能。

2 主题模型

LDA模型是一个生成式主题模型,其概率图模型如图1所示。模型中用到的符号及其所代表意义如表1所示。

图 1. LDA的图模型

Fig. 1. Graphical model of LDA

下载图片查看所有图片

在LDA模型下文档的具体生成过程为

1) 抽取一个主题比例θ~P_dir(α);

2) 对于文档d_i的每个单词w_n,n∈(1,…,N),n为当前单词数;

3) 抽取主题分派z_n|θ~Mult(θ),z_n为当前单词对应的主题;

4) 生成单词w_n|z_n~Mult(β_zn)。

潜变量和可观测变量的联合分布为

\begin{matrix} P (w, θ, z | α, β) = P (θ | α) (\overset{N}{\prod_{n = 1}} A) (1) \end{matrix}

式中,A为文档中单个单词在主题比例中出现的概率,A=P(z_n|θ)P(w_n|z_n,β)。

表 1. 符号及其意义

Table 1. Symbols and their meaning

Symbol	Meaning of symbol	Symbol	Meaning of symbol
M	Size of training set	N	Number of vocabulary
K	Number of topics	w	Vocabulary
z	Potential topic	θ	Proportion of topic
α	Parameter of model	β	Parameter of model
γ	Variational parameter α	φ	Variational parameter β
P_dir	Dirichlet distribution	Mult(·)	Polynomial distribution

查看所有表

利用LDA主题模型进行图像标注,需要得到测试集的图像主题分布P $\begin{matrix} (T_{k} |d_{test}) \end{matrix}$ ,然后根据该分布选择图像的主题T,最后计算出图像的标注词概率。图像的标注词概率为

\begin{matrix} P (v |d_{test}) = \overset{K}{\sum_{k = 1}} P (v |T_{k}) P (T_{k} |d_{test}), (2) \end{matrix}

式中,v为测试集图像中文本标注词,d_test为测试集图像,k为当前主题数,T_k为第k个图像主题。

3 改进的卷积神经网络

3.1 基于迁移学习的卷积神经网络

用来进行图像特征学习和图像文本主题多标签分类学习的模型是AlexNet^[14]模型,它曾是ImageNet^[15]图像分类比赛中第一名。AlexNet模型的网络结构有 5个卷积层、3个池化层、3个全连接层,所有网络共计11层。CNN需要大量的图像数据进行训练以得到较好的模型参数,但是这种大规模数据训练对实验环境的要求高,耗费时间长,而采用小规模的数据集进行训练又易导致网络过拟合。因此采用迁移学习^[16]的思想,即获得CNN在大规模数据集ImageNet上的模型参数,将其迁移到CNN上进行初始化,然后利用指定图像数据集对最后一层网络的模型参数进行微调,同时为适应对指定实验数据集的文本主题进行多标签分类的任务,需要修改网络输出层的损失函数。最后,使用完成微调的CNN模型提取图像数据集的高层特征同时进行图像文本主题多标签分类。基于迁移学习的CNN模型结构如图2所示。

图 2. 基于迁移学习的卷积神经网络结构

Fig. 2. Structure of CNN based on transfer learning

下载图片查看所有图片

图像在输入CNN之前需要裁剪为指定大小227×227。在图2中,convi表示卷积层i,fci表示全连接层i,i表示数字。CNN中所有网络层的参数设置如表2所示,其中F、S、P分别表示卷积池化窗的大小、窗口滑动的步长、图像的边界填充, K_f表示在当前网络层中卷积池化窗的个数,D_f表示当前网络层输出特征的维度。当网络层为全连接层时,全连接fc6和fc7输出的特征维度为4096,而最后一个全连接层fc8输出的特征维度为N_df。CNN的初始化参数如下:动量设置为0.5,参数衰减量为0.0002,学习率为0.001。由于CNN模型的图像文本主题多标签分类学习任务,该网络输出特征维度N_df由实验指定的图像数据集Corel5K和IAPR TC-12的文本主题的个数决定。

表 2. CNN各层参数设置

Table 2. Parameters of different layers of CNN

Type ofnetwork layer	K_f	F	S	P	D_f
conv1	96	11×11	4	0	55×55×96
Max-Pooling1	-	3×3	2	0	27×27×96
conv2	256	5×5	1	2	27×27×256
Max-Pooling2	-	3×3	2	0	13×13×256
conv3	384	3×3	1	1	13×13×384
conv4	384	3×3	1	1	13×13×384
conv5	256	3×3	1	1	13×13×256
Max-Pooling5	-	3×3	2	0	6×6×256

查看所有表

3.2 基于多标签分类的损失函数

CNN中损失层的损失函数主要适用于单标签分类,但本文在CNN中需要进行图像文本主题多标签分类。因此需要将CNN的分类训练集由图像的高层视觉特征对应单个标签改为对应多个文本主题,并对原有的损失函数进行改进。CNN在进行单标签分类时,选用softmax交叉熵函数作为其损失函数,其公式为

\begin{matrix} \begin{matrix} p_{i} = \frac{\exp (a_{i})}{\overset{Nt}{\sum_{n = 1}} \exp (a_{n})}, (3) \\ L = - \overset{Nt}{\sum_{i = 1}} y_{i} \ln (p_{i}) 。 (4) \end{matrix} \end{matrix}

为使CNN适应多标签分类,其损失函数需要计算训练集中图像的多个文本主题的全部损失,即对一张图像对应的多个潜在文本主题的损失进行累加。改进的损失函数为

\begin{matrix} L = - \overset{Km}{\sum_{j = 1}} \overset{Nt}{\sum_{i = 1}} y_{ji} \ln (p_{i}), (5) \end{matrix}

式中:N_t为图像文本主题的个数;a_n为图像训练样本x对应的高层特征向量的特征值;a_i为图像训练样本x对应的高层特征向量第i维的特征值;p_i为CNN预测训练样本x属于第i个文本主题的概率;L为交叉损失函数;y_i∈{0,1}为训练样本x对应一个标签时的标签值;K_m为训练样本x对应多个标签时标签的个数;y_ji为训练样本x对应多个标签时第j个标签的标签值。

图像的文本主题分布基于图像训练集文本标注词生成,因此图像训练集的文本标注词分布不平衡会影响图像生成的对应文本主题,使得该文本主题分布不平衡。由于图像训练集的文本主题分布不平衡,CNN在进行图像文本主题多标签分类学习时,低频文本主题分类学习的准确性要远低于高频文本主题。为提高分类学习中低频文本主题的准确率,在图像训练集中的高频标签中加入噪声进行平滑处理^[17],在损失函数中加入频率系数,改进(5)式,表示为

\begin{matrix} L = - \overset{Km}{\sum_{j = 1}} \overset{Nt}{\sum_{i = 1}} α_{k} y_{ji} \ln (p_{i}), (6) \end{matrix}

式中:α_k表示图像对应的多个文本主题中第k个主题的相关频率系数。 $\begin{matrix} α_{k} = \frac{1}{m} \overset{m}{\sum_{i = 1}} \frac{n_{i}}{M}, n_{i} \end{matrix}$ 表示在对应的文本主题中第i个标注词在图像训练集中出现的次数,m表示对应的文本主题中标注词的个数,M表示图像训练集的样本数。当α_k的值较大时,依据

\begin{matrix} y'_{ji} = α_{k} y_{ji} + \frac{(1 - α_{k})}{N_{t}} s_{sign} (y_{ji}), (7) \end{matrix}

对原有的文本主题y_ji进行替换,式中s_sign为符号函数。图像对应的高频原始文本主题由其对应的频率系数来调整权重,即在高频文本主题中加入噪声。

4 图像标注框架

在CNN和LDA主题模型的基础上,提出融合CNN和主题模型的图像标注方法。利用LDA主题模型对图像训练集的文本标注词进行建模,生成图像训练集的文本主题分布和文本主题的标注词分布。该处理充分利用主题模型的优势,降低图像文本数据的维度和稀疏性。考虑到判别式分类算法在图像稀疏标签分类中的优势,利用CNN的分类器进行图像文本主题多标签分类,可获取比生成式的主题模型中更加准确的潜在文本主题分布。由于传统特征的表达能力弱和提取过程复杂,这里采用CNN模型提取图像的高层视觉特征。在CNN完成图像特征学习后,改进CNN的分类器使其适应多标签分类,利用图像的高层特征及其对应的多个文本主题构造分类器,进行图像的文本主题多标签学习。图像标注的框架如图3所示。

图 3. 融合CNN和主题模型的图像标注框架

Fig. 3. Framework of image annotation that combines CNN and topic model

下载图片查看所有图片

由图3可看出,图像语义标注方法的训练过程可分为2部分:

1) 采用LDA主题模型为图像训练集的文本标注词建模,生成图像文本模态的主题分布P $\begin{matrix} (z_{k} |d_{i}) \end{matrix}$ 和文本主题标注词分布P $\begin{matrix} (v_{n} |z_{k}) \end{matrix}$ 即φ。文本主题标注词分布对非训练集的图像数据同样有效,而图像文本模态的主题分布P $\begin{matrix} (z_{k} |d_{i}) \end{matrix}$ 只是针对训练集中对应图像的文本标注词。在LDA主题模型上完成图像训练集的文本标注词建模后,可由图像对应生成的文本主题代表其文本标注词。

2) 利用完成微调的CNN提取图像的高层视觉特征,此特征表达的图像视觉信息比传统手工特征更加全面。由于图像训练集的文本主题分布稀疏且判别式分类处理图像标签的稀疏分布更具有优势,利用训练集中图像的高层语义特征及其文本主题构造分类器,其中每一类代表一个图像文本模态的主题。同时,每张训练图像可由一个图像的高层特征向量表示,其文本模态对应多个文本主题,将CNN模型的分类器改为多标签分类器,在此过程中也需注意改善训练集图像的文本主题分布不平衡的问题。

在图像标注阶段,即标注测试图像的过程可分为2步:

1) 利用完成微调的CNN提取测试图像的高层特征。然后利用完成训练的CNN的分类器对测试图像的高层特征进行分类,得到该测试图像的文本主题分布。

2) 将测试图像的文本主题分布和由主题模型生成的文本主题标注词分布按照主题模型的图像标注 (2) 式进行计算,以得到测试图像的文本标注词概率,选取概率最大的5个标注词作为测试图像的标注结果。

5 实验结果分析

5.1 实验设置

为验证本文标注方法的有效性,分别在两个图像标注数据集Corel5K与IAPR TC-12上进行实验。Corel5K图像数据集共有4999张彩色图像,图像大小为192×168,每张图像有1~5个标签。其中,4500张图像用于训练,剩余的499张用于测试。IAPR TC-12数据集共有19627张480×360大小的彩色图像,平均每张图像有5.7个标注。在此数据集中用于训练的图像个数为17665,用于测试的图像个数为1962。另外,验证图片包含于训练图像集。实验结果的评价指标是平均查准率(AP)、平均查全率(AR)和综合评价指标F1^[18]。

5.2 实验参数设置

实验中的CNN是在Caffe深度学习框架的基础上运行的,并且CNN在运行过程中使用NVIDIA K620 GPU和cuDNN进行计算和加速^[17]。在图像标注方法中,图像训练集中文本主题的个数K影响图像标注效果。为找到文本主题数K,使图像标注方法的标注性能达到最佳,需在图像数据集上进行多次实验。在图像数据集Corel5K中,当文本主题数K=80时,图像自动标注实验的标注性能达到最佳;在图像数据集IAPR TC-12中,当文本主题数K=80时,图像标注方法的标注性能最好。

5.3 实验结果

为验证本文图像标注算法的有效性,在图像数据集上将本文图像标注方法与当前一些传统的图像标注方法进行比较,如MBRM^[7]模型、JEC^[8]模型、及改进的TagProp-ML方法^[11]、2PKNN方法^[12]。同时,与使用深度CNN的图像标注方法进行比较,如CNN-R模型^[12]、CNN-MSE模型^[13]。为验证图像高层视觉特征对图像标注的积极影响,在Corel5k数据集上,取不同图像视觉特征(传统特征和高层特征)的传统标注模型PLSA-WORDS^[6]和HGMD^[17]与本文图像标注方法进行对比。

表3为传统标注方法PLSA-WORDS和HGMD使用传统图像特征(TVS)和CNN提取的图像高层特征fc7时,与本文图像标注模型在AR、AP及综合评价指标F1中的对比。在同一模型中对比不同图像特征的标注性能,可以看出图像高层特征明显提升对传统图像标注模型的标注性能。本文融合CNN和主题模型的图像标注方法与使用图像高层特征的传统图像标注方法相比,其召回率、准确率和F1值都有了大幅度的提升。

表 3. 模型在Corel5K上的标注结果

Table 3. Annotation results of different models on Corel5K

Model	Visual feature	AP	AR	F1
PLSA-WORDS	TVS	0.121	0.221	0.191
PLSA-WORDS	fc7	0.217	0.275	0.269
HGDM	TVS	0.293	0.321	0.263
HGDM	fc7	0.305	0.364	0.297
Proposed model	fc7	0.380	0.490	0.420

查看所有表

通过表4可以看出,在Corel5K和IAPR TC-12图像集上,本文图像标注模型较传统图像语义标注方法均有较大提升。在Corel5K图像数据集中,本文标注方法的平均查全率较MBRM提高了24%,较JEC提高了17%;对比改进的传统方法,本文图像标注方法的平均查准率低于2PKNN,但平均查全率却提升了9%,并且对应F1值亦有所提高,这表明本文图像标注模型的有效性;与CNN-R相比,图像标注的平均查全率提升了8%,且平均查准率提升了6%。在IAPR TC-12图像数据集中,本文图像标注方法与改进的传统标注方法及其他的基于CNN的图像标注方法进行比较,在平均查全率上有较好的表现,其平均查准率与部分图像标注方法如CNN-R等存在一些差距,但综合两者考虑即综合指标F1依旧有提升。

表 4. 通用数据集上所有图像标注方法的标注结果

Table 4. Annotation results of all image annotation models on common datasets

Model	Corel5K			IAPR TC-12
Model	AR	AP	F1	AR	AP	F1
MBRM	0.25	0.24	0.25	0.23	0.24	0.24
JEC	0.32	0.27	0.29	0.29	0.28	0.29
TagProp-ML	0.37	0.31	0.34	0.25	0.48	0.33
2PKNN	0.40	0.39	0.40	0.32	0.49	0.39
CNN-R	0.41	0.32	0.37	0.31	0.49	0.37
CNN-MSE	0.35	0.41	0.38	0.35	0.40	0.37
Proposed model	0.49	0.38	0.43	0.40	0.44	0.42

查看所有表

6 结论

为有效进行图像标注,提出融合卷积神经网络与主题模型的图像标注方法。对比其他标注方法,本文充分利用了主题模型在文本处理的优势,降低了图像文本数据的维度和稀疏性,运用卷积神经网络提取图像的高层视觉特征和进行图像文本主题多标签学习,获得更多的图像信息和更准确的文本主题分布。实验表明,本文方法显著提升了图像标注的性能。

参考文献

[1] 彭晏飞, 宋晓男, 訾玲玲, 等. 基于卷积神经网络和改进模糊C均值的遥感图像检索[J]. 激光与光电子学进展, 2018, 55(9): 091008.

Peng Y F, Song X N, Zi L L, et al. Remote sensing image retrieval based on convolutional neural network and modified fuzzy C-means[J]. Laser & Optoelectronics Progress, 2018, 55(9): 091008.

[2] Liu Y, Zhang D S, Lu G J, et al. A survey of content-based image retrieval with high-level semantics[J]. Pattern Recognition, 2007, 40(1): 262-282.

[3] Li J, Wang J Z. Automatic linguistic indexing of pictures by a statistical modeling approach[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(9): 1075-1088.

[4] Cusano C, Ciocca G, Schettini R. Image annotation using SVM[J]. Proceedings of SPIE, 2003, 5301: 330-338.

[5] Blei[\s]{1}DM,[\s]{1}Jordan[\s]{1}MI.[\s]{1}Modeling[\s]{1}annotated[\s]{1}data[C]∥Proceedings[\s]{1}of[\s]{1}the[\s]{1}26th[\s]{1}annual[\s]{1}international[\s]{1}ACM[\s]{1}SIGIR[\s]{1}conference[\s]{1}on[\s]{1}Research[\s]{1}and[\s]{1}development[\s]{1}in[\s]{1}information[\s]{1}retrieval,[\s]{1}July[\s]{1}28-August[\s]{1}1,[\s]{1}2003,[\s]{1}Toronto,[\s]{1}Canada.[\s]{1}New[\s]{1}York:[\s]{1}ACM,[\s]{1}2003:[\s]{1}127-[\s]{1}134.[\s]{1}

[6] Monay F, Gatica-Perez D. Modeling semantic aspects for cross-media image indexing[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(10): 1802-1817.

[7] GuillauminM,[\s]{1}MensinkT,[\s]{1}VerbeekJ,[\s]{1}et[\s]{1}al.[\s]{1}TagProp:[\s]{1}discriminative[\s]{1}metric[\s]{1}learning[\s]{1}in[\s]{1}nearest[\s]{1}neighbor[\s]{1}models[\s]{1}for[\s]{1}image[\s]{1}auto-annotation[C]∥2009[\s]{1}IEEE[\s]{1}12th[\s]{1}International[\s]{1}Conference[\s]{1}on[\s]{1}Computer[\s]{1}Vision,[\s]{1}September[\s]{1}29-October[\s]{1}2,[\s]{1}2009,[\s]{1}Kyoto,[\s]{1}Japan.[\s]{1}New[\s]{1}York:[\s]{1}IEEE,[\s]{1}2009:[\s]{1}309-[\s]{1}316.[\s]{1}

[8] Makadia A, Pavlovic V, Kumar S. Baselines for image annotation[J]. International Journal of Computer Vision, 2010, 90(1): 88-105.

[9] 郭呈呈, 于凤芹, 陈莹. 基于卷积神经网络特征和改进超像素匹配的图像语义分割[J]. 激光与光电子学进展, 2018, 55(8): 081005.

Guo C C, Yu F Q, Chen Y. Image semantic segmentation based on convolutional neural network feature and improved superpixel matching[J]. Laser & Optoelectronics Progress, 2018, 55(8): 081005.

[10] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[11] He[\s]{1}KM,[\s]{1}Zhang[\s]{1}XY,[\s]{1}Ren[\s]{1}SQ,[\s]{1}et[\s]{1}al.[\s]{1}Deep[\s]{1}residual[\s]{1}learning[\s]{1}for[\s]{1}image[\s]{1}recognition[C]∥2016[\s]{1}IEEE[\s]{1}Conference[\s]{1}on[\s]{1}Computer[\s]{1}Vision[\s]{1}and[\s]{1}Pattern[\s]{1}Recognition[\s]{1}(CVPR),[\s]{1}June[\s]{1}27-30,[\s]{1}2016,[\s]{1}Las[\s]{1}Vegas,[\s]{1}NV,[\s]{1}USA.[\s]{1}New[\s]{1}York:[\s]{1}IEEE,[\s]{1}2016:[\s]{1}770-[\s]{1}778.[\s]{1}

[12] Murthy[\s]{1}VN,[\s]{1}MajiS,[\s]{1}ManmathaR.[\s]{1}Automatic[\s]{1}image[\s]{1}annotation[\s]{1}using[\s]{1}deep[\s]{1}learning[\s]{1}representations[C]∥Proceedings[\s]{1}of[\s]{1}the[\s]{1}5th[\s]{1}ACM[\s]{1}on[\s]{1}International[\s]{1}Conference[\s]{1}on[\s]{1}Multimedia[\s]{1}Retrieval,[\s]{1}June[\s]{1}23-26,[\s]{1}2015,[\s]{1}Shanghai,[\s]{1}China.[\s]{1}New[\s]{1}York:[\s]{1}ACM,[\s]{1}2015:[\s]{1}603-[\s]{1}606.[\s]{1}

[13] 高耀东, 侯凌燕, 杨大利. 基于多标签学习的卷积神经网络的图像标注方法[J]. 计算机应用, 2017, 37(1): 228-232.

Gao Y D, Hou L Y, Yang D L. Automatic image annotation method using multi-label learning convolutional neural network[J]. Journal of Computer Applications, 2017, 37(1): 228-232.

[14] 马永杰, 李雪燕, 宋晓凤. 基于改进深度卷积神经网络的交通标志识别[J]. 激光与光电子学进展, 2018, 55(12): 121009.

Ma Y J, Li X Y, Song X F. Traffic sign recognition based on improved deep convolution neural network[J]. Laser & Optoelectronics Progress, 2018, 55(12): 121009.

[15] Russakovsky O, Deng J, Su H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.

[16] 庄福振, 罗平, 何清, 等. 迁移学习研究进展[J]. 软件学报, 2015, 26(1): 26-29.

Zhuang F Z, Luo P, He Q, et al. Survey on transfer learning research[J]. Journal of Software, 2015, 26(1): 26-29.

[17] 李志欣, 郑永哲, 张灿龙, 等. 结合深度特征与多标记分类的图像语义标注[J]. 计算机辅助设计与图形学学报, 2018, 30(2): 318-326.

Li Z X, Zheng Y Z, Zhang C L, et al. Combining deep feature and multi-label classification for semantic image annotation[J]. Journal of Computer-Aided Design & Computer Graphics, 2018, 30(2): 318-326.

[18] 汪鹏, 张奥帆, 王利琴, 等. 基于迁移学习与多标签平滑策略的图像自动标注[J]. 计算机应用, 2018, 38(11): 3199-3203, 3210.

Wang P, Zhang A F, Wang L Q, et al. Image automatic annotation based on transfer learning and multi-label smoothing strategy[J]. Journal of Computer Applications, 2018, 38(11): 3199-3203, 3210.

张蕾, 蔡明. 融合卷积神经网络与主题模型的图像标注[J]. 激光与光电子学进展, 2019, 56(20): 201004. Lei Zhang, Ming Cai. Image Annotation Based on Convolutional Neural Network and Topic Model[J]. Laser & Optoelectronics Progress, 2019, 56(20): 201004.

融合卷积神经网络与主题模型的图像标注下载： 842次

1 引言

2 主题模型

图 1. LDA的图模型

Fig. 1. Graphical model of LDA

表 1. 符号及其意义

Table 1. Symbols and their meaning

3 改进的卷积神经网络

3.1 基于迁移学习的卷积神经网络

图 2. 基于迁移学习的卷积神经网络结构

Fig. 2. Structure of CNN based on transfer learning

表 2. CNN各层参数设置

Table 2. Parameters of different layers of CNN

3.2 基于多标签分类的损失函数

4 图像标注框架

图 3. 融合CNN和主题模型的图像标注框架

Fig. 3. Framework of image annotation that combines CNN and topic model

5 实验结果分析

5.1 实验设置

5.2 实验参数设置

5.3 实验结果

表 3. 模型在Corel5K上的标注结果

Table 3. Annotation results of different models on Corel5K

表 4. 通用数据集上所有图像标注方法的标注结果

Table 4. Annotation results of all image annotation models on common datasets

6 结论

Article Outline

关于本站 Cookie 的使用提示

全站搜索

融合卷积神经网络与主题模型的图像标注 下载： 842次

1 引言

2 主题模型

图 1. LDA的图模型

Fig. 1. Graphical model of LDA

表 1. 符号及其意义

Table 1. Symbols and their meaning

3 改进的卷积神经网络

3.1 基于迁移学习的卷积神经网络

图 2. 基于迁移学习的卷积神经网络结构

Fig. 2. Structure of CNN based on transfer learning

表 2. CNN各层参数设置

Table 2. Parameters of different layers of CNN

3.2 基于多标签分类的损失函数

4 图像标注框架

图 3. 融合CNN和主题模型的图像标注框架

Fig. 3. Framework of image annotation that combines CNN and topic model

5 实验结果分析

5.1 实验设置

5.2 实验参数设置

5.3 实验结果

表 3. 模型在Corel5K上的标注结果

Table 3. Annotation results of different models on Corel5K

表 4. 通用数据集上所有图像标注方法的标注结果

Table 4. Annotation results of all image annotation models on common datasets

6 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

融合卷积神经网络与主题模型的图像标注下载： 842次