基于人眼视觉规律的注视点分类及其在图像标注中的应用

漆正溢; 方红萍; 万中华; 张瀚源; 伍世虔

doi:doi:10.37188/CJLCD.2022-0245

液晶与显示, 2023, 38 (4): 515, 网络出版: 2023-04-25

基于人眼视觉规律的注视点分类及其在图像标注中的应用

Visual-pattern-based fixation classification and its application in image annotation

论文大纲

漆正溢 ¹方红萍 ^1,*万中华 ¹张瀚源 ²伍世虔 ¹

作者单位

¹ 武汉科技大学信息科学与工程学院，湖北武汉 430081

² 武汉科技大学机械自动化学院，湖北武汉 430081

摘要

针对现有眼动图像标注算法中停留在非目标上的注视点容易引入定位干扰，导致标注精度不高的问题，本文首先实验探索了标注任务中的眼动规律；然后提出将标注注视序列分为视觉搜索和视觉识别两个阶段，并设计了基于参数自适应DBSCAN算法的视觉搜索和视觉识别注视点分类方法，旨在将提取的识别注视点作为眼动图像标注算法的输入，提高标注结果的准确性；最后基于2014 DIMITRIOS P数据集开展实验对比与分析。实验结果表明，与现有相关算法相比，F1度量提升4%，算法运行效率提升了近1倍，眼动图像标注算法精度提高3.34%，满足稳定可靠、精度高、运行速度快等要求。

Abstract

In the existing works of eye-movement image annotation algorithms, the fixation points resting on non-targets may introduce localization interference, and produce low annotation accuracy. To solve this problem. Firstly, experimental studies are conducted to explore the eye-movement pattern in the annotation task. Then, the annotated gaze sequences are divided into two stages: visual search and visual recognition, and a fixation points classification method based on the parameter adaptive DBSCAN algorithm is proposed to extract recognition fixation points as the input of the eye-movement image annotation algorithm in order to improve the accuracy of the annotation results. Finally, the experimental comparison and analysis are carried out based on the 2014 DIMITRIOS P data set. The experimental results show that compared with the existing related algorithms, the F1 score is improved by 4%, the algorithm operation efficiency is improved by nearly one time, and the eye-movement image annotation accuracy is improved by 3.34%, which meets the requirements of stability, reliability, high accuracy, and fast running speed.

1　引言

图像标注广泛应用于计算机视觉领域，如物体检测、识别等^［1-4］。传统图像标注通常由标注人员手动绘制目标物体边界框，存在效率低、成本高的问题。据统计，在Mechanical Turk上对ImageNet进行大规模标注时，绘制边界框耗费的时间中位数为25.5 s。此外，还需要对标注人员进行相关培训^［5-6］。

生物学研究表明，人类的视觉系统存在选择性注意机制^［7］。目前，针对眼动规律与目标识别关系的相关研究结果表明，在任务驱动型眼动过程中，相较于背景，人眼注视点会更多地停留在与任务相关的图像目标中^［8-10］。基于上述研究结果，利用人眼在观测标注目标过程中的注视点规律，自动确定目标物体边界框，能有效提高标注效率，降低标注成本^［11-12］。DIMITRIOS P等提出的眼动图像标注算法^［11］就是此类应用领域的一个经典算法^［13］。该方法将目标标注问题建模为一个目标和背景的分类问题。首先提取眼动注视点和背景分别所在的超像素块的相关眼动特征和图像外观^［14］、似物性特征^［15］等，构建一个支持向量机（Support Vector Machine，SVM）超像素块分类模型，实现标注目标边界框的初定位；然后采用似GrabCut能量模型^［14］进行目标边界框精定位。该算法只需使用较少的数据（7%）训练标注模型，标注一幅图片平均仅需2 s。

标定过程中采集的眼动数据中包含标定目标的位置先验线索，利用这些线索能有效提高后续标定精度。但是，首先眼动过程中存在的固有抖动和眨动，使眼动数据中容易引入噪声；另外，眼动图像目标标注这类任务驱动型眼动过程是一个自底向上和自顶而下相互交互的复杂认知过程^{［11，16］}。研究表明，人眼更容易关注动物、人之类的活动目标，也容易停留在显著的非目标对象或背景对象上，因此目前提取和标注任务相关的眼动信息仍然是一个研究难点。目前DIMITRIOS P等提出的眼动图像标注算法利用所有注视点定位标注目标，停留在非目标上的注视点容易引入干扰因素，存在算法精度不高的问题。文献［10，17］采用热力图去除离群点算法提取和识别任务相关的注视点，但是该方法以每一个注视点为中心累加二维高斯函数，通过设置阈值将离群注视点滤除，未能有效地适应注视点通常以线状而非球状呈现这一空间特征，并且高斯函数计算量大、方差难以确定，因此存在运行效率低、阈值设置困难等问题。另外，这些算法主要应用在目标检测领域，文献［10］虽然提到目标标注问题，但是也是以现有图像目标检测结果为基础，辅助眼动数据减少漏标注，与经典的DIMITRIOS P眼动图像标注算法思路不一致。

国内已有针对驾驶过程中的注视序列^［18-19］以及人机交互过程中的注视序列^［20-21］的研究，但均不能适用于图片标注研究领域。在目标导向、任务驱动的图像标注过程中，人眼视觉由“预注意”和“注意”两个阶段组成^［22-23］，被称为人眼视觉的“搜索”和“识别”^［16］，前者的凝视点不在目标上，而后者的凝视点在目标上。准确提取眼动识别阶段的注视点是提高眼动图像标注定位精度的关键。鉴于此，本文拟从探索图像目标标注这一任务驱动下的眼动规律入手，设计注视点分类模型。首先研究图像标注过程中眼动注视点在时间、空间维度上的眼动规律，然后结合眼动规律，提出基于参数自适应的DBSCAN（Density-Based Spatial Clustering of Applications with Noise）^［24］算法将人眼注视序列中注视点自动分类为视觉搜索和视觉识别两个类别，旨在将提取的眼动识别阶段注视点作为图像标注算法的输入，提高标注精度。

2　搜索和识别两阶段的眼动规律

为了探究隶属于视觉识别和视觉搜索阶段注视点的规律，本文选取2014 DIMITRIOS P数据集^{［11，25］}当中的包含单目标的图片开展眼动规律实验研究。该数据集选取Pascal VOC2012数据集中的10类目标，共6 270幅图片，其中单目标图片共5 104幅图。这10类目标分别为猫/狗、自行车/摩托车、飞机/船、牛/马以及沙发/餐桌。5位受试者眼动标注过程中的眼动数据采用Eyelink 2 000眼动仪采集，采样频率为1 000 Hz。眼动数据格式用 $F = (x_{i}, y_{i}, t_s t a r t_{i}, t_e n d_{i})_{i = 1}^{N}$ 表示，其中 $x, y$ 表示坐标（单位：像素）， $t_s t a r t, t_e n d$ 分别记录为注视点的开始时间戳和结束时间戳（单位：ms），可通过 $t_e n d - t_s t a r t$ 计算得到注视点的持续时间。每个目标的标注真值框由数据集提供。图1为摩托车目标图像，5位受试者的眼动注视数据使用不同颜色绘制，目标标注真值框使用绿色标识。

图 1. 数据集展示

Fig. 1. Data set presentation

下载图片查看所有图片

针对标注目标 $i$ （ $1 \leq i \leq 10$ ），5位受试者标注过程中的眼动注视点集合为 $U_{i}$ 。定义实验中视觉搜索和视觉识别两阶段注视点的量化判定标准如下：若注视点落在目标物体 $i$ 的标注真值框B内，则属于视觉识别阶段注视点集合 $R_{i}$ ，反之属于视觉搜索阶段注视点集合 $S_{i}$ ，即 $U_{i} = R_{i} ⋃ S_{i}$ 。具体如图2所示。

图 2. 视觉搜索-识别阶段注视点的量化标准示意图

Fig. 2. Visual search and recognition fixations

下载图片查看所有图片

针对10类标注目标，从注视点分布占比率、注视持续时间、注视空间聚集度3个角度探索两个视觉阶段的眼动规律。

（1）两阶段注视点分布占比率对比

针对上述10类标注目标，分别计算5位受试者眼动注视点集合 $R_{i} 、 S_{i}$ 中注视点数目占集合 $U_{i}$ 中注视点总数目的比例： $c a r d (R_{i}) / c a r d (U_{i})$ 、 $c a r d (S_{i}) / c a r d (U_{i})$ 。

从图3所示的计算结果可知，所有标注目标视觉识别阶段的注视点分布占比明显比视觉搜索阶段高，其中8个目标在视觉识别阶段的注视点占比甚至超过70%。说明在标注这类任务驱动的眼动过程中，人类的眼动注视点会明显分布在标注目标附近。

图 3. 不同标注目标的人眼注视点分布情况

Fig. 3. Fixations distribution of different objects

下载图片查看所有图片

（2）两阶段注视点持续时间对比

针对标注目标 $i$ ，将每一幅包含 $i$ 的图片当中的人眼注视点归类于集合 $R_{i}$ 和集合 $S_{i}$ ，并计算两阶段的注视点持续时间均值。最后分别累加得到集合 $R_{i}$ 和集合 $S_{i}$ 中相应注视点的注视持续时间，研究二者占集合 $U_{i}$ 所有注视点的持续时间总和的比例。

从图4可知，在所有类别标注目标过程中，视觉识别阶段注视点的注视持续时间明显大于视觉搜索阶段。标注目标“猫”的视觉识别阶段与其视觉搜索阶段的注视持续时间差异最显著，目标“船”的差异最小，但也有22.8%。所有目标两阶段的持续时间占比差的平均值为58.5%。

图 4. 不同标注目标的搜索-识别阶段注视点的持续时间占比

Fig. 4. Proportion of the duration of fixations in the search-recognition of different targets

下载图片查看所有图片

（3）两阶段注视点空间聚集度对比

针对视觉识别和视觉搜索两个阶段，分别按照式（1）和（2）计算标注目标 $i$ 的眼动注视点集合 $R_{i} 、 S_{i}$ 中的眼动注视点空间位置归一化点密度 $D (R_{i})$ 和 $D (S_{i})$ ：

D (R_{i}) = \frac{1}{M_{i}} \sum_{j = 1}^{M_{i}} \frac{R_{i}^{j} / U_{i}^{j}}{λ_{i}^{j}}

，（1）

D (S_{i}) = \frac{1}{M_{i}} \sum_{j = 1}^{M_{i}} \frac{S_{i}^{j} / U_{i}^{j}}{1 - λ_{i}^{j}}

，（2）

式中： $i$ 表示标注目标类别， $M_{i}$ 表示第 $i$ 类标注目标的图片总数， $R_{i}^{j}$ 和 $S_{i}^{j}$ 分别表示第 $i$ 类目标中第 $j$ 幅图片的视觉识别阶段注视点集合和视觉搜索阶段注视点集合， $λ_{i}^{j}$ 表示第 $i$ 类物体的第 $j$ 幅图片目标框B的面积与图片面积的比值。

绘制不同类别目标物体的搜索、识别阶段归一化点密度，如图5所示。视觉识别阶段的注视点密度明显高于视觉搜索阶段的注视点密度。

图 5. 不同标注目标的搜索-识别阶段注视点的归一化点密度

Fig. 5. Normalized point density of fixations in the visual search-recognition of different targets

下载图片查看所有图片

综合上述实验结果，可分析得出如下眼动规律：

（1）在眼动图像标注这类任务驱动的眼动过程中，眼动注视点会明显落在标注目标上。因此以标注者的眼动注视点位置为线索，能较准确地初步定位标注目标位置。

（2）从眼动注视点的时间维度上看，视觉识别阶段的注视点总的持续时间呈现明显大于视觉搜索阶段的趋势。

（3）从眼动注视点的空间维度上看，视觉识别阶段注视点在目标内部聚集，视觉搜索阶段注视点在标注目标四周稀疏分布。

3　基于眼动规律的眼动注视点分类

实验结果表明：在眼动标注过程中，处于眼动搜索阶段和眼动识别阶段的注视点在空间聚集度和时间持续性两个方面存在明显的差别。因此本文提出基于眼动注视点空间和时间两个维度特征的眼动注视点分类方法。在图6（a）中红色标识的是该图片标注过程中一位受试者的所有注视点。为了有效分类注视点，首先在第一阶段利用视觉识别阶段存在的空间聚集度高的特点，提出基于参数自适应的DBSCAN密度聚类算法，得到 $k$ 个候选眼动识别阶段注视点集。然后结合识别阶段注视点持续时间长的特性，筛选出注视总时长最长的集合，将其中所包含的注视点分类为眼动识别注视点。算法流程示意图和具体算法如图6和表1所示。

图 6. 视觉搜索-识别注视点划分流程图。（a）注视序列用红点标识，蓝线相连；（b）、（c）聚类簇由绿色和粉红色点标识；（d）视觉搜索阶段使用红点标识，视觉识别阶段使用黄点标识。

Fig. 6. Framework of visual search-recognition fixations classification.（a）Fixation sequence marked with red dots and linked by blue lines；（b），（c）Different clusters marked with green and pink dots individually；（d）Visual search phase and visual recognition phase marked with the red and yellow dots correspondingly.

下载图片查看所有图片

表 1. 视觉搜索-识别注视点划分算法伪代码

Table 1. Visual search-recognition classification pseudocode

算法：视觉搜索与识别注视点分类算法
输入：图像 $I$ ，注视序列 $F = (x_{i}, y_{i}, t_s t a r t_{i}, t_e n d_{i})_{i = 1}^{N}$ ，参数 $α, β$
输出：视觉识别注视序列 $R$ ，视觉搜索注视序列 $S$
$b e g i n$
	//获取自适应参数
	$(W, H) = s i z e (I)$
	$E p s = m a x (W, H) / α$
	$M i n P t s = N / β$
	//DBSCAN划分聚类簇 $C_{k}$ 以及离群点集合 $O$
	$[C_{k}, O] = D B S C A N (F, E p s, M i n P t s)$
	//分类聚类簇，完成划分
	$i f k = = 0$
	$R = \emptyset$
	$S = F$
	$e l s e i f k = = 1$
	$R = C_{k}$
	$S = O$
	$e l s e k > 1$
	// $T_{k}$ 表示第 $k$ 个簇 $C_{k}$ 的注视点持续时间之和
	$k' = \underset{k = 1,2, . . . k}{a r g m a x} T_{k}$
	$R = C_{k'}$
	$S = F - C_{k'}$
	$e n d$
$e n d$

查看所有表

表1算法中，关键的是第一步，即基于空间维度聚集特性的眼动识别阶段注视点候选集的确定。传统的聚类算法如k-means聚类或者高斯混合聚类算法，都是适合球形聚类簇。但是观察发现，眼动识别阶段的注视点簇不一定满足该形状假设。DBSCAN算法^［24］是一种基于密度且适应任何形状簇的经典聚类算法，同时只需要迭代一次，具有聚类速度快的特点。但是算法中的两个重要参数邻域半径Eps和邻域密度阈值MinPts的设置对算法的执行效果影响较大。本文结合标注任务特点，通过分析发现了参数的如下特点：

（1）目标标注问题中聚类簇的邻域半径Eps与标注目标的尺寸有较明确的对应关系。观察发现，标注目标尺寸占标注图片总尺寸的比例主要分布在5%~50%左右，因此定义Eps参数取值公式如公式（3）所示：

E p s = \frac{m a x (W, H)}{α}

，（3）

式中： $(W, H)$ 表示标注图像I的宽度和高度， $α$ 取值可选范围大致在3~7。

（2）邻域密度阈值MinPts与停留在标注目标上的平均注视点数量有关。统计分析发现，数据集中标注目标上的注视点数目占注视点总数比例分布在12.7%~29.3%之间。基于此，定义MinPts参数取值公式如式（4）所示：

M i n P t s = \frac{N}{β}

. （4）

其中：N表示当前标注图像I中的注视点总数目， $β$ 可取值范围大致在3~10。

图7绘制了 $α$ 、 $β$ 取不同值时，眼动注视点分类的查准率指标结果。从图7可知，分类准确率对参数 $α$ 的敏感程度更高，当 $α$ 取7、 $β$ 在3~10之间时，查准率基本稳定在0.65~0.66之间。当 $β$ 取5时，查准率相对最高。因此，自适应参数设置为 $α = 7, β = 5$ 。

图 7. 参数取值情况

Fig. 7. Parameter value situation

下载图片查看所有图片

4　实验与分析

本文针对标注过程中的眼动序列，结合眼动规律提出算法将包含的眼动注视点分类到对应的搜索阶段和识别阶段。本节将首先围绕算法分类性能、算法执行效率两个方面开展对比分析，然后验证本文算法对提高眼动图像标注精度的有效性。

实验数据集：2014 DIMITRIOS P公共眼动数据集（10类目标，目标物体占整幅图片比小于30%，单目标图片共1 962幅），训练集和测试集比例为1∶9。

实验硬件环境：第4代Intel Core i5（3.3 GHz）；8GB内存；256 GB SSD；Matlab R2018b；操作系统为Win10 专业版。

4.1　视觉搜索和识别注视点分类相关实验与分析

4.1.1　眼动注视点分类性能评估

本文提出将受试者眼动序列中的注视点分为视觉搜索和识别两个阶段，这个过程可看作一个二分类问题。因此，采用机器学习常用的查准率P、查全率R和 $F_{1}$ 度量分数来评估算法的分类性能，其中 $F_{1}$ 度量计算如式（5）所示：

F_{1} = \frac{2 \times P \times R}{P + R}

. （5）

计算热图（Heatmap）算法^［17］、基于固定参数的本文算法（DBSCAN）和基于自适应参数的本文算法（Adaptive-DBSCAN）3种方法的查准率P、查全率R和 $F_{1}$ 度量分数。其中，Heatmap算法使用自适应阈值，设置 $t h r = m e a n (T) / 12$ ，T表示图片内注视点的注视持续时间之和；DBSCAN算法的参数设置为MinPts=2，Eps=65；本文的Adaptive-DBSCAN算法自适应参数设置为 $α = 7, β = 5$ 。计算结果如表2所示。

表 2. 眼动注视点分类结果对比

Table 2. Comparison of the classification results of eye movement fixation points

方法	P	R	F₁
Heatmap	0.61	0.876	0.71
DBSCAN	0.65	0.74	0.69
Adaptive-DBSCAN	0.65	0.881	0.75

查看所有表

从表2结果可知，DBSCAN方法相对于Heatmap方法，仅在查准率方面有提升，但却影响了查全率R和 $F_{1}$ 度量分数。而本文提出的Adaptive-DBSCAN算法在查准率、查全率和 $F_{1}$ 度量分数均高于Heatmap算法。图8给出了本文算法对标注过程中眼动注视点的分类结果。从图8可以看出当注视序列符合“识别阶段注视序列聚集，搜索阶段注视序列离散”和“视觉识别阶段的注视持续时间比视觉搜索阶段的注视持续时间长”这两条规律时，本文算法性能表现良好。另外，图8（b）绘制了图片中有显著物体的情况，此时只要满足上述的两条规律，算法的输出结果依然较好。

图 8. 视觉搜索-识别注视序列划分算法的结果。（a）常规情况；（b）含有显著物体的情况。

Fig. 8. Results of visual search-recognition classification.（a）Normal situation；（b）Situation containing visual attention objects.

下载图片查看所有图片

4.1.2　算法执行效率对比

从表3可知，本文算法的运行速度明显优于Heatmap算法。Heatmap算法是由高斯函数累加，运行速度与注视序列的数量成正比，每一个注视点都需要进行一次二维高斯函数的计算，极大地影响了算法的运行速度。而本文基于空间特征聚类，无需反复进行高斯函数累加，因此运行速度有较大的改善。

表 3. 算法的整体运行速度

Table 3. Overall running speed of the algorithm

方法	运行时间/s
本文Adaptive-DBSCAN算法	24.16
Heatmap算法	47.21

查看所有表

4.2　眼动图像标注精度对比

利用眼动数据标注图像的方法的研究目前还处于初级阶段，DIMITRIOS P等^［11］提出的眼动图像标注算法是一个非常经典的算法。因此，为了验证本文算法对提高眼动图像标注精度的可行性和有效性，本实验将以该算法为基础对比以下3种方法的图像标注精度：（1）复现的DIMITRIOS P图像标注算法（DIMITRIOS P）；（2）基于热力图过滤离群点的图像标注算法（Heatmap-Annotation）；（3）基于本文方法提取眼动识别阶段注视点的图像标注方法（Ours）。为了比较结果的客观性，这3种方法仅在眼动序列输入的选择上采取不同策略，后续的图像标注过程均保持一致。DIMITRIOS P算法未开源，因此复现该算法的初分割部分作为本文标注算法的基线。其中似物性特征使用BING算法^［26］构建。

精度评估指标CorLoc^{［11，27］}的计算公式如式（6）所示：

C o r L o c = \frac{m}{n}

，（6）

式中：n为预测的物体框总数，m为标注结果与目标真值框重叠率大于0.5目标总数。

针对数据集中的10种标注目标，上述3种方法标注结果的CorLoc精度指标计算结果如表4所示。原始DIMITRIOS P算法基于标注过程中所有的眼动注视点，而实际情况中这些注视点有一部分可能停留在背景或者显著非目标上，因此容易造成标注目标定位不准确的问题。从表4中可以明显看到，10种目标中除了“牛”和本文算法相等、“狗”高于本文算法之外，标注指标均明显低于Heatmap-Annotation或者本文算法。实验结果说明在眼动标注过程中，选择与标注物体相关的眼动注视点进行后续标注目标位置的初定位能提高标注精度，证明了文本研究思路的有效性和可行性。比较Heatmap-Annotation算法和本文算法的标注结果，本文方法7种目标的标注精度明显比Heatmap-Annotation方法高，精度指标的平均值高于Heatmap-Annotation。本文算法相较于DIMITRIOS P算法和Heatmap-Annotation算法分别平均提高了3.34%和1.02%，能更准确地定位标注目标。图9展示了部分目标的标注结果图。

表 4. 眼动图像标注精度指标CorLoc结果

Table 4. Eye movement image annotation accuracy index CorLoc results

	飞机	自行车	船	猫	牛	餐桌	狗	马	摩托车	沙发	均值
DIMITRIOS P	52.5	7.5	16.5	39.7	34.9	23.3	31.0	35.5	30.5	21.3	29.27
Heatmap-Annotation	52.8	29.1	18.7	37.6	30.3	23.3	32.4	28.0	38.0	25.7	31.59
Ours	55.9	21.2	20.3	40.2	34.9	24.7	30.8	38.3	33.3	26.5	32.61

查看所有表

图 9. 眼动图像标注算法的输出结果对比图。（a）~（c）飞机标注图；（d）~（f）自行车标注图；（g）沙发标注图。

Fig. 9. Comparison of the output results of the eye movement image annotation.（a）~（c）Aeroplane；（d）~（f）Bicycle；（g）Sofa.

下载图片查看所有图片

5　结论

眼动图像标注算法以标注序列中的所有人眼注视点为输入实现目标框标注，然而注视点并非都是等权重的，未落在目标物体上的注视点会为标注算法引入目标定位干扰因素，降低算法性能。

鉴于此，本文结合目标标注任务中的眼动特点，提出将注视点分类为视觉搜索和视觉识别两大类，首先探究了两个阶段注视点在时间维度和空间维度上的眼动规律，然后结合眼动规律提出基于参数自适应的DBSCAN算法的注视点分类方法。实验结果表明，该方法能有效提取和标注目标相关的视觉识别注视点，提高目标标注精度，同时算法运行稳定，执行效率高。

目前我们仅考虑利用眼动规律实现两个阶段注视点的分类，对于标注目标大、停留其中的注视点空间聚集度不明显的注视点，分类还不够准确。另外在多目标聚集的情况下，多标注目标注视点的提取也比较困难。针对上述问题，在本文现有Adaptive-DBSCAN算法聚类特征仅为注视点眼动特征的基础上，如何融合注视点所在超像素块图像特征（如纹理、颜色、边缘等），提高大目标、多目标聚集时的图像目标标注精度将是下一步的研究重点。

参考文献

[1] 兰旭婷, 郭中华, 李昌昊. 基于注意力与特征融合的光学遥感图像飞机目标检测[J]. 液晶与显示, 2021, 36(11): 1506-1515.

LAN X T, GUO Z H, LI C H. Attention and feature fusion for aircraft target detection in optical remote sensing images[J]. Chinese Journal of Liquid Crystals and Displays, 2021, 36(11): 1506-1515.

[2] 孔雅洁, 张叶. 引入高斯掩码自注意力模块的YOLOv3目标检测方法[J]. 液晶与显示, 2022, 37(4): 539-548.

KONG Y J, ZHANG Y. YOLOv3 object detection method by introducing Gaussian mask self-attention module[J]. Chinese Journal of Liquid Crystals and Displays, 2022, 37(4): 539-548.

[3] 李玲, 宋莹玮, 杨秀华, 等. 应用图学习算法的跨媒体相关模型图像语义标注[J]. 光学精密工程, 2016, 24(1): 229-235.

LI L, SONG Y W, YANG X H, et al. Image semantic annotation of CMRM based on graph learning[J]. Optics and Precision Engineering, 2016, 24(1): 229-235.

[4] SHI W X, HUANG Z, HUANG H H, et al. LOEN: lensless opto-electronic neural network empowered machine vision[J]. Light: Science & Applications, 2022, 11(1): 121.

[5] RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.

[6] SUH, DENGJ, FEI-FEIL. Crowdsourcing annotations for visual object detection [R]. Toronto: AAAI Workshop, 2012: 40-46.

[7] 樊镕. 基于眼动先验的显著性检测 [D]. 天津: 天津大学, 2015.

FANR. Visual saliency detection based on eye tracking prior knowledge [D]. Tianjin: Tianjin University, 2015. (in Chinese)

[8] EINHÄUSER W, SPAIN M, PERONA P. Objects predict fixations better than early saliency[J]. Journal of Vision, 2008, 8(14): 1-26.

[9] WOLFE J M. Visual search[J]. Current Biology, 2010, 20(8): R346-R349.

[10] YUNK, PENGY F, SAMARASD, et al. Studying relationships between human gaze, description, and computer vision [C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE, 2013: 739-746. 10.1109/cvpr.2013.101

[11] PAPADOPOULOSD P, CLARKEA D F, KELLERF, et al. Training object class detectors from eye tracking data [C]//Proceedings of the 13th European Conference on Computer Vision. Zurich: Springer, 2014: 361-376. 10.1007/978-3-319-10602-1_24

[12] PAPADOPOULOSD P. Efficient human annotation schemes for training object class detectors [D]. Edinburgh: University of Edinburgh, 2018.

[13] ZHANGR H, SARANA, LIUB, et al. Human gaze assisted artificial intelligence: a review [C]//Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence. Yokohama: IJCAI, 2020: 4951-4958. 10.24963/ijcai.2020/689

[14] KUETTELD, FERRARIV. Figure-ground segmentation by transferring window masks [C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012: 558-565. 10.1109/cvpr.2012.6247721

[15] ALEXEB, DESELAERST, FERRARIV. What is an object？ [C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco: IEEE, 2010: 73-80. 10.1109/cvpr.2010.5540226

[16] ELAZARY L, ITTI L. A Bayesian model for efficient visual search and recognition[J]. Vision Research, 2010, 50(14): 1338-1352.

[17] HENDERSON J M. Human gaze control during real-world scene perception[J]. Trends in Cognitive Sciences, 2003, 7(11): 498-504.

[18] 孙文财, 杨志发, 李世武, 等. 面向驾驶员注视区域划分的DBSCAN-MMC方法[J]. 浙江大学学报(工学版), 2015, 49(8): 1455-1461.

SUN W C, YANG Z F, LI S W, et al. Driver fixation area division oriented DBSCAN-MMC method[J]. Journal of Zhejiang University (Engineering Science), 2015, 49(8): 1455-1461.

[19] 谭婷, 王羽尘, 宗晨宏, 等. 公路隧道群不同区段驾驶人视觉特征差异性研究[J]. 物流科技, 2020, 43(10): 68-72,82.

TAN T, WANG Y C, ZONG C H, et al. Research on the difference of drivers’ visual characteristics in different sections of highway tunnel group[J]. Logistics Sci-Tech, 2020, 43(10): 68-72, 82.

[20] 贺辉, 黄君浩. 基于眼动跟踪的人机交互应用[J]. 山东大学学报(工学版), 2021, 51(2): 1-8.

HE H, HUANG J H. Eye tracking in human-computer interaction control[J]. Journal of Shandong University (Engineering Science), 2021, 51(2): 1-8.

[21] 陆柳杏, 石宇, 李济远, 等. 人机交互研究中的眼动追踪:主题、作用、动向[J]. 图书情报工作, 2020, 64(1): 113-119.

LU L X, SHI Y, LI J Y, et al. Eye-tracking in human-computer interaction: status quo, roles, and trends[J]. Library and Information Service, 2020, 64(1): 113-119.

[22] HOFFMAN J E. Search through a sequentially presented visual display[J]. Perception & Psychophysics, 1978, 23(1): 1-11.

[23] THEEUWES J. Endogenous and exogenous control of visual selection[J]. Perception, 1994, 23(4): 429-440.

[24] ESTERM, KRIEGELH P, SANDERJ, et al. A density-based algorithm for discovering clusters in large spatial databases with noise [C]//Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining. Portland: AAAI Press, 1996: 226-231.

[25] MARKE, LUCV G, CHRISTOPHERK I W, et al. The PASCAL visual object classes challenge 2012 (VOC2012) results [EB/OL]. http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html. 10.1007/s11263-009-0275-4

[26] CHENG M M, LIU Y, LIN W Y, et al. BING: binarized normed gradients for objectness estimation at 300 fps[J]. Computational Visual Media, 2019, 5(1): 3-20.

[27] CHENG G, YANG J Y, GAO D C, et al. High-quality proposals for weakly supervised object detection[J]. IEEE Transactions on Image Processing, 2020, 29: 5794-5804.

4.1　视觉搜索和识别注视点分类相关实验与分析

漆正溢, 方红萍, 万中华, 张瀚源, 伍世虔. 基于人眼视觉规律的注视点分类及其在图像标注中的应用[J]. 液晶与显示, 2023, 38(4): 515. Zheng-yi QI, Hong-ping FANG, Zhong-hua WAN, Han-yuan ZHANG, Shi-qian WU. Visual-pattern-based fixation classification and its application in image annotation[J]. Chinese Journal of Liquid Crystals and Displays, 2023, 38(4): 515.

基于人眼视觉规律的注视点分类及其在图像标注中的应用

1　引言

2　搜索和识别两阶段的眼动规律

图 1. 数据集展示

Fig. 1. Data set presentation

图 2. 视觉搜索-识别阶段注视点的量化标准示意图

Fig. 2. Visual search and recognition fixations

图 3. 不同标注目标的人眼注视点分布情况

Fig. 3. Fixations distribution of different objects

图 4. 不同标注目标的搜索-识别阶段注视点的持续时间占比

Fig. 4. Proportion of the duration of fixations in the search-recognition of different targets

图 5. 不同标注目标的搜索-识别阶段注视点的归一化点密度

Fig. 5. Normalized point density of fixations in the visual search-recognition of different targets

3　基于眼动规律的眼动注视点分类

图 6. 视觉搜索-识别注视点划分流程图。（a）注视序列用红点标识，蓝线相连；（b）、（c）聚类簇由绿色和粉红色点标识；（d）视觉搜索阶段使用红点标识，视觉识别阶段使用黄点标识。

表 1. 视觉搜索-识别注视点划分算法伪代码

Table 1. Visual search-recognition classification pseudocode

图 7. 参数取值情况

Fig. 7. Parameter value situation

4　实验与分析

4.1　视觉搜索和识别注视点分类相关实验与分析

4.1.1　眼动注视点分类性能评估

表 2. 眼动注视点分类结果对比

Table 2. Comparison of the classification results of eye movement fixation points

图 8. 视觉搜索-识别注视序列划分算法的结果。（a）常规情况；（b）含有显著物体的情况。

Fig. 8. Results of visual search-recognition classification.（a）Normal situation；（b）Situation containing visual attention objects.

4.1.2　算法执行效率对比

表 3. 算法的整体运行速度

Table 3. Overall running speed of the algorithm

4.2　眼动图像标注精度对比

表 4. 眼动图像标注精度指标CorLoc结果

Table 4. Eye movement image annotation accuracy index CorLoc results

图 9. 眼动图像标注算法的输出结果对比图。（a）~（c）飞机标注图；（d）~（f）自行车标注图；（g）沙发标注图。

Fig. 9. Comparison of the output results of the eye movement image annotation.（a）~（c）Aeroplane；（d）~（f）Bicycle；（g）Sofa.

5　结论

Article Outline

关于本站 Cookie 的使用提示

全站搜索

基于人眼视觉规律的注视点分类及其在图像标注中的应用

1 引言

2 搜索和识别两阶段的眼动规律

图 1. 数据集展示

Fig. 1. Data set presentation

图 2. 视觉搜索-识别阶段注视点的量化标准示意图

Fig. 2. Visual search and recognition fixations

图 3. 不同标注目标的人眼注视点分布情况

Fig. 3. Fixations distribution of different objects

图 4. 不同标注目标的搜索-识别阶段注视点的持续时间占比

Fig. 4. Proportion of the duration of fixations in the search-recognition of different targets

图 5. 不同标注目标的搜索-识别阶段注视点的归一化点密度

Fig. 5. Normalized point density of fixations in the visual search-recognition of different targets

3 基于眼动规律的眼动注视点分类

图 6. 视觉搜索-识别注视点划分流程图。（a）注视序列用红点标识，蓝线相连；（b）、（c）聚类簇由绿色和粉红色点标识；（d）视觉搜索阶段使用红点标识，视觉识别阶段使用黄点标识。

表 1. 视觉搜索-识别注视点划分算法伪代码

Table 1. Visual search-recognition classification pseudocode

图 7. 参数取值情况

Fig. 7. Parameter value situation

4 实验与分析

4.1 视觉搜索和识别注视点分类相关实验与分析

4.1.1 眼动注视点分类性能评估

表 2. 眼动注视点分类结果对比

Table 2. Comparison of the classification results of eye movement fixation points

图 8. 视觉搜索-识别注视序列划分算法的结果。（a）常规情况；（b）含有显著物体的情况。

Fig. 8. Results of visual search-recognition classification.（a）Normal situation；（b）Situation containing visual attention objects.

4.1.2 算法执行效率对比

表 3. 算法的整体运行速度

Table 3. Overall running speed of the algorithm

4.2 眼动图像标注精度对比

表 4. 眼动图像标注精度指标CorLoc结果

Table 4. Eye movement image annotation accuracy index CorLoc results

图 9. 眼动图像标注算法的输出结果对比图。（a）~（c）飞机标注图；（d）~（f）自行车标注图；（g）沙发标注图。

Fig. 9. Comparison of the output results of the eye movement image annotation.（a）~（c）Aeroplane；（d）~（f）Bicycle；（g）Sofa.

5 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

1　引言

2　搜索和识别两阶段的眼动规律

3　基于眼动规律的眼动注视点分类

4　实验与分析

4.1　视觉搜索和识别注视点分类相关实验与分析

4.1.1　眼动注视点分类性能评估

4.1.2　算法执行效率对比

4.2　眼动图像标注精度对比

5　结论