激光与光电子学进展, 2019, 56 (6): 061004, 网络出版: 2019-07-30   

基于图像质量和注意力的宫腔镜视频关键帧提取 下载: 947次

Key Frame Extraction of Hysteroscopy Videos Based on Image Quality and Attention
作者单位
武汉理工大学信息工程学院, 湖北 武汉 430070
摘要
为解决传统方法中由注意力曲线等长分段导致的精确率偏低的问题,提出了基于图像质量曲线提取关键视频段的方法,从各段内选取注意力值最高的帧作为关键帧。针对本地数据库进行视频关键帧提取,精确率为52.94%,F值为62.77%,分别比Muhammad的方法提高了5.23%和2.65%。
Abstract
In order to solve the problem of low accuracy rate caused by the equal length segmentation of the attention curve in the traditional methods, a scheme is proposed, in which the key video segments are extracted based on the image quality curve. The frame with the highest attention value is selected from each segment as the key frame. On the local database, the precision and F-measure are 52.94% and 62.77%, 5.23% and 2.65% higher than those by the Muhammad method, respectively.

1 引言

在医院或诊所里,妇科医生每天要为大量的病人做宫腔镜视频检查,相应的视频被保存在数据库中,用于病例对比、病史追踪、医学研究等。这些视频都是连续的、未经编辑的帧序列,其中只有少部分帧有助于诊断病情,所以宫腔镜视频中存在着大量的冗余数据。专家在查阅这些视频资料时,为避免错过关键信息,只能依次浏览所有图像帧,这一过程非常浪费时间,降低了医生的工作效率[1]。为此,相关的研究主要致力于从宫腔镜视频中提取关键帧(摘要),以供快速浏览和检索。具体实现时,采用的技术主要有K-means聚类[2]、最小生成树[3]、支持向量机[4]、稀疏重构[5-7]等。此外,文献[ 8-10]中对多个低级特征(如颜色直方图、颜色矩、惯性矩、边缘等)进行加权融合,用于筛选关键帧。但这些方法都没有使用高级的语义特征,而且都是用于提取普通视频摘要的方法,所以用于宫腔镜视频提取时效果不佳。近年来,Ejaz等[11-13]开始使用视觉注意力模型来解决这一问题。其中文献[ 11]中在评估注意力值时使用了运动显著性、多尺度颜色对比度和纹理显著性。运动显著性属于动态注意力,它反映了镜头的运动量,从而间接地反映了医生对当前帧的感兴趣程度。文献[ 12]中在Ejaz等的基础上增加了曲率特征,以强调方向不变性。随后,Muhammad等[13]又在此基础上做出改进:1) 使用COC(color opponent color)颜色空间,更符合人类视觉系统[13];2) 使用积分图像,减少了重复计算。总之,基于注意力模型的方法融合了高级语义信息,因而更符合人类视觉感知,实验效果也较好。但是文献[ 11-13]都是将注意力曲线等分为NKF段,从各段内取注意力最高者为关键帧,而宫腔镜视频中的关键帧并不是均匀分布的,所以人为地强制等分注意力曲线缺乏合理性,也容易选出更多的错误帧,同时其实验效果比较依赖于NKF的取值。为此,本文提出了基于图像质量对注意力曲线进行自适应分段的方法。实现时,考虑了锐利度、亮度两个指标。此外,文献[ 11-13]在计算视觉注意力时均采用的是Lucas Kanade光流法[14],而该算法处理时间较长,为此提出了一种基于SURF(speeded up robust features)特征点匹配的方法,用于计算注意力值。

2 基本原理

2.1 视觉注意力评估

医生在给患者做宫腔镜检查时,并不是以恒定速度移动摄像设备,其中大部分时间都是用于搜索感兴趣区域,一旦找到相关区域,就会以缓慢的速度移动镜头,甚至保持相对静止,以仔细观察该病理区域,这一区域的视觉注意力值较高。相反,当医生遇到非兴趣区域时,快速移动宫腔镜,相应的注意力值较低。这就是宫腔镜视频中隐含的视觉注意力模型。因此,可以由镜头内物体的位移量来估计镜头位移量(运动显著性),进而计算注意力值。本文的处理思路是从相邻帧中寻找匹配的特征点,然后根据匹配点的位置变化来求取物体的位移量。

本文采用了文献[ 15]中提出的SURF特征,这是一种局部图像特征,它对缩放、旋转、平移等具有较好的稳健性[16]。但是实验发现,直接对宫腔镜视频中的帧提取SURF特征时,无法获取足够多的稳定的特征点。文献[ 17]中指出,SURF特征点容易集中在图像中纹理特征丰富的区域,据此,先对原始帧求取对应的LBP(local binary patterns)图像,然后在此基础上提取SURF特征点。其中,LBP是一种纹理特征,具有较高的区分性、较低的计算量[18-19]。文献[ 20]中先对原图求取LBP图,然后从中提取SURF特征点,用于服装分类;而文献[ 21]中首先提取图像的颜色不变量边缘特征[22]和 CS-LBP(central symmetry-local binary patterns)[23]纹理特征形成融合特征灰度图,并从该图中提取SURF特征点。

对于某一宫腔镜视频,设其采样后共有l帧,记为 Fframei,其中i∈[1,l]。在计算第iFframei的镜头位移量(运动显著性)时,具体算法如下:

1) 分别求取 FframeiFframe(i+1)的LBP图像BiBi+1

2) 从BiBi+1中提取SURF特征点,得到对应的点集PiPi+1

3) 使用RANSAC(random sample consensus)[24]算法求取PiPi+1的匹配点对[25],得到n个匹配点对的集合:{V1,V2,…,Vj,…,Vn},其中Vj={ c1j, c2jc1jPi,c2jPi+1},且 c1jc2j的像素位置分别为( x1j, y1j)、( x2j, y2j)。

4) 计算镜头位移量(运动显著性):

MSi=j=1nx1j-x2j2+y1j-y2j2/n(1)

按照步骤1)~2)依次计算各帧的运动显著性,得到集合{ MSii=1,2,,l}。然后对其进行归一化处理:

M~Si=MSi/maxMSii=1,2,,l(2)

并依次求各帧的注意力值:

ATFi=1-M~Si(3)

2.2 基于离散余弦变换(DCT)系数的图像锐利度评估

文献[ 26]的研究发现:对于散焦图像,其归一化DCT系数趋于低频加强;对于聚焦准确的图像,其归一化DCT系数趋于均匀分布,所以可以通过评估图像DCT系数分布的均匀程度,来计算图像的锐利度[26-27]。图像的DCT系数越趋于均匀分布,则其锐利度越高,而衡量一个分布的均匀程度可以使用熵的方法。贝叶斯熵[28]的定义为

H2=21-eTpe2,(4)

式中:e为域T内的点;pe是定义在域T内的分布函数;H2是熵的值。由(4)式可知,分布越均匀,则贝叶斯熵越大。所以可以借鉴贝叶斯熵的形式来定义锐利度的计算方法[26]。在本文的应用背景下,pe是图像的归一化DCT变换。对于某一帧图像 Fframei,其中i∈[1,l],可以将其分为M×N个不重叠的图像块(用fab表示),a∈[1,M],b∈[1,N]。然后,计算每个图像块的锐利度(局部锐利度),锐利度可表示为

MB(fab)=1-ω=0r-1υ=0c-1U~C(ω,ν)2=1-ω=0r-1ν=0c-1UC(ω,ν)2ω=0r-1ν=0c-1UC(ω,ν)2,(5)

式中:MB(fab)是fab的锐利度; U~C(ω,ν)是fab的归一化离散余弦变换;UC(ω,ν)是fab的离散余弦变换;ων是频率;rc分别是fab的高度和宽度,此处取r=c=8 pixel。

图像 Fframei的整体锐利度可表示为

SPFframei=a=1Mb=1NMB(fab)M×N(6)

3 基于图像质量和注意力的关键帧提取

所提方法的整体框架如图1所示,主要包括提取核心内容、视觉注意力评估、图像质量评估、提取关键视频段、提取关键帧几个部分。其中在提取核心内容时,先对图像进行二值化处理,通过水平投影、垂直投影来确定视镜有效区域,并截取相应的子图,用于后续的处理。评估视觉注意力的方法如2.1节所述。此外,人体内腔室的复杂性,使得操作者不能很好地控制宫腔镜,导致一些视频帧质量较差,这些帧无助于诊断病情,反而增加了视频冗余度。因此,在图像质量评估方面,综合考虑镜头亮度和图像锐利度,2.1节是用灰度均值来衡量的,2.2节是基于DCT系数来计算的。

图 1. 所提方法的整体框架

Fig. 1. Overall framework of proposed method

下载图片 查看所有图片

3.1 粗筛选

对于给定的某一视频(采样后,共有l帧),依次计算其中各帧的图像质量值(锐利度、亮度),得到相应的序列: SPFframeii[1,l]LFframeii[1,l]。其中,SPFframei对应于锐利度,δLFframei对应于亮度(用灰度均值衡量)。分别计算这两种图像质量序列的均值,得到δSPδL。以此作为阈值,对相应的图像质量曲线进行分割,高于阈值的视频段为关键视频段,相应的编码为1;反之为无意义视频段,编码为0。于是分别得到锐利度、亮度对应的编码序列CSPCL,图1展示了相关实例。

两种图像质量评分标准各有侧重,二者互为补充。因此,本文约定对于视频中某个片段,只有当所有图像质量指标都达标时,才能成为关键视频段。相应地,本文将两种图像质量的编码序列进行与操作,即

C=CSPCL,(7)

式中:符号“&”表示“与操作”;C为最终的编码序列(图1展示了相关实例)。

而那些长度太短的关键视频段,可以被视为噪声、干扰。因此,对长度低于Tmin帧的关键片段予以滤除,这有利于提高视频摘要提取的精确率。其中,取Tmin=25。

通过图像质量评估、提取关键视频段,去除大部分图像质量较差的无意义帧,缩小了筛选关键帧的范围,这一部分被视为关键帧的粗筛选。

3.2 提取关键帧

对于给定的宫腔镜视频,按照3.1节的算法,可以将其分为数个关键片段、无意义片段(二者相间分布)。其物理意义是,每一个关键视频段都对应于一个观察目标(或一个观察区域),而无意义视频段则是其间的过渡片段。

但是,关键视频段内的帧并非都是关键帧。所以需要使用视觉注意力做进一步的筛选。当宫腔镜移动到感兴趣的病理区域时,医生会缓慢地移动镜头,甚至保持相对静止,以仔细观察相应的目标(此时注意力值较高)。根据这一理论基础,本文在各关键视频段中选择注意力值最高的帧作为关键帧(如图1所示)。通过此步骤,可以去除那些图像质量较好、但动态视觉注意力较低的帧。

4 实验及分析

4.1 实验设置

实验环境为Intel i5-3230M 处理器,12 GB内存,采用Matlab R2016a 编程。实验所用数据集包含了30个宫腔镜视频,其视频长度从0.5 min到2 min不等,帧速为25 frame/s,帧尺寸为768 pixel×576 pixel 。另外,由两名妇科专家负责标记出关键视频片段(ground truth),这一点与文献[ 13]一致。最终,专家标注出的片段共有48个,即NGT=48。相应地,将专家标记的结果转换为编码CGT,其中关键片段的编码为1,否则为0。

此外,由于所用的视频数据都是实际的宫腔镜检查视频,情况比较复杂,在视频首尾都各有一个无意义片段(准备开始阶段、准备结束阶段),时长均约为6 s,这属于该数据集本身的特性。所以在实验中,对所有方法都增加如下步骤:遍历所有选出的关键帧,若相应的帧被包括在首尾无意义片段内,则予以去除。

4.2 评价机制

对于某宫腔镜视频,假设专家标出NGT个视频段,记为 Kseggg=1,2,,NGT,某种方法从该视频中提取出了NM个关键帧,记为 Kframehh=1,2,,NM。且在集合 Kframehh=1,2,,NM中,有ξ个元素分别落在各自对应的片段 Ksegg内,其中片段序号g∈[1,NGT](可能会有多个 Kframeh指向同一个 Ksegg)。此时,在集合 Kseggg=1,2,,NGT中,有μ个元素与集合 Kframehh=1,2,,NM中的元素存在映射关系,即意味着该方法识别出了μ个视频段。

在以上约定下计算召回率、精确率和F值。其中,召回率表征样本中的正例被正确预测的比例;精确率表征在预测为正例的样本中,真正的正样本所占的比例;F值是一种兼顾召回率和精确率的综合性评价指标,是在评价各个方法时的主要参考标准。相应地,计算召回率、精确率和F值的方法分别为

R=μ/NGT,(8)P=ξ/NM,(9)F=2×R×PR+P(10)

4.3 实验结果及分析

表1展示了各个方法的实验结果。实验所用视频共30个,专家标注出的关键片段共有48个(NGT=48)。

表 1. 各方法的实验结果对比

Table 1. Comparison of experimental resultsby each method

MethodNMξμR /%P /%F /%Running time /h
Method in Ref. [1]121563572.9246.2856.6215.56
Method in Ref. [2]192582245.8330.2136.420.13
Method in Ref. [11]110503879.1745.4557.7512.36
Method in Ref. [13]109523981.2547.7160.1212.21
Proposed102543777.0852.9462.771.64

查看所有表

表1可知,在F值方面,所提方法最佳,为62.77%;在精确率方面,所提方法也优于其他方法,为52.94%;但是在召回率方面,文献[ 11,13]中的方法均比所提方法好,其中,文献[ 13]的方法最高,为81.25%。在计算时间方面,文献[ 13]中使用了积分图像,因此其计算效率高于文献[ 11]的方法;本文在计算视觉注意力时,没有使用Lucas Kanade光流法,而是提出了基于匹配SURF特征点的方法(如2.1节所述),相应的运行时间明显小于文献[ 1,11,13]的方法。此外,文献[ 2]的方法在精确率、召回率、在F值方面均明显低于其他方法,所以这种通用的视频摘要方法并不适用于宫腔镜视频。

文献[ 11,13]都是将视频等分为NKF段,在每个段内选择注意力值最高者作为关键帧。但是关键帧并非一定是均匀分布在整个视频中的,不同的视频情况不同。所以这种方法会选出更多错误的关键帧,相应地,其精确率偏低。而所提方法考虑到了宫腔镜视频内容的连续性、渐变性,所以识别并去除一系列连续的无意义帧,这样可以避免遗漏。相比于那些将视频序列等分为NKF段的方法,本文基于视频帧的图像质量变化趋势对自适应视频片段进行分割,分离出关键视频段,再从这些片段中提取关键帧,因而更符合镜头内容的实际变化情况。这就是所提方法的精确率和F值比其他方法高的原因。

图 2. 文献[ 13]中的方法对视频4的处理结果

Fig. 2. Processing results of video 4 by method in Ref.[13]

下载图片 查看所有图片

以视频4为例,专家标记出了一个关键片段。图2给出文献[ 13]的方法对视频4的处理结果,该方法将视频等分为5段,然后从各段内选择注意力值最高者作为关键帧,其中,从第1、5个片段内选出的两帧都在首尾无意义片段内(首尾无意义视频段对应的注意力曲线显示为绿色),故被滤除。最终该方法选出了3个关键帧,但有一个是错误帧(不在专家标注的关键片段内)。图3图4给出所提方法对视频4的处理结果,所提方法提取出了3个关键帧,且全部都在专家标记的关键片段内。这进一步证明了本文所提出的关键帧粗筛选方法的有效性。

图 3. 视频4的图像质量曲线及其相应的视频分段结果

Fig. 3. Image quality curve of video 4 and corresponding video segmentation results

下载图片 查看所有图片

图 4. 视频4的最终分段结果及所提方法选择出的关键帧

Fig. 4. Final segmentation results of video 4 and key frames selected by proposed method

下载图片 查看所有图片

图5展示了各个方法从视频8中提取出的关键帧,以及专家标注的真图。其中文献 [1-2]的方法筛选出的错误帧偏多;文献[ 13]的方法只选出了一个正确的关键帧;而文献 [11]的方法以及所提方法的处理结果与专家标注结果最为接近,不过二者都包含了一个错误帧。

图 5. 各个方法在视频8中提取的关键帧的对比

Fig. 5. Comparison of key frames extractedfrom video 8 by each method

下载图片 查看所有图片

5 结论

通过图像质量评估获得相应的质量曲线,并以此进行自适应的视频分段,选出关键片段,从而实现关键帧的粗筛选,这一过程滤除了大部分无意义帧,有效地提高了精确率。此外,取相邻的两帧,求得其LBP图像,然后从中提取SURF特征点,并根据匹配特征点的像素位置计算运动量,进而评估当前帧的注意力值。在评估视觉注意力时,与Lucas Kanade光流法相比,所提方法的计算速度更快,且其精确率、F值也更高。

参考文献

[1] Gavião W, Scharcanski J, Frahm J M, et al. Hysteroscopy video summarization and browsing by estimating the physician's attention on video segments[J]. Medical Image Analysis, 2012, 16(1): 160-176.

[2] Lopes A P B, da Luz A, et al. . VSUMM: A mechanism designed to produce static video summaries and a novel evaluation method[J]. Pattern Recognition Letters, 2011, 32(1): 56-68.

[3] dos Santos Belo L, Caetano C A, et al. . Summarizing video sequence using a graph-based hierarchical approach[J]. Neurocomputing, 2016, 173: 1001-1016.

[4] ChenJ, Zou YX, WangY. Wireless capsule endoscopy video summarization: A learning approach based on Siamese neural network and support vector machine[C]∥International Conference on Pattern Recognition, December 4-8, 2016, Cancún Center, Cancún, México. New York: IEEE, 2016: 1303- 1308.

[5] Meng J J, Wang H X, Yuan J S, et al. From keyframes to key objects: video summarization by representative object proposal selection[J]. Proceedings of the IEEE, 2016: 1039-1048.

[6] Li J T, Yao T, Ling Q, et al. Detecting shot boundary with sparse coding for video summarization[J]. Neurocomputing, 2017, 266: 66-78.

[7] Ma MY, MetS, HonJ, et al. Nonlinear kernel sparse dictionary selection for video summarization[C]∥IEEE International Conference on Multimedia and Expo, July 10-14, 2017, Hong Kong, China. New York: IEEE, 2017: 637- 642.

[8] Ioannidis A, Chasanis V, Likas A. Weighted multi-view key-frame extraction[J]. Pattern Recognition Letters, 2016, 72: 52-61.

[9] Chen L, Wang Y H. Automatic key frame extraction in continuous videos from construction monitoring by using color, texture, and gradient features[J]. Automation in Construction, 2017, 81: 355-368.

[10] Hamza R, Muhammad K, Lü Z, et al. Secure video summarization framework for personalized wireless capsule endoscopy[J]. Pervasive and Mobile Computing, 2017, 41: 436-450.

[11] Ejaz N, Mehmood I, Baik S W. MRT letter: Visual attention driven framework for hysteroscopy video abstraction[J]. Microscopy Research and Technique, 2013, 76(6): 559-563.

[12] Muhammad K, Ahmad J, Sajjad M, et al. Visual saliency models for summarization of diagnostic hysteroscopy videos in healthcare systems[J]. SpringerPlus, 2016, 5(1): 1495.

[13] Muhammad K, Sajjad M, Lee M Y, et al. Efficient visual attention driven framework for key frames extraction from hysteroscopy videos[J]. Biomedical Signal Processing and Control, 2017, 33: 161-168.

[14] Lucas BD, KanadeT. An iterative image registration technique with an application to stereo vision[C]∥International Joint Conference on Artificial Intelligence, August 24-28, 1981, Vancouver, British Columbia. [S. l. : s. n.], 1981: 674- 679.

[15] BayH, Tuytelaars T, van Gool L. SURF: Speeded up robust features[C]∥European Conference on Computer Vision. Berlin, Heidelberg: Springer, 2006: 404- 417.

[16] 王民, 李泽洋, 王纯, 等. 基于压缩感知与SURF特征的手语关键帧提取算法[J]. 激光与光电子学进展, 2018, 55(5): 051013.

    Wang M, Li Z Y, Wang C, et al. Key frame extraction algorithm of sign language based on compressed sensing and SURF features[J]. Laser & Optoelectronics Progress, 2018, 55(5): 051013.

[17] 韩天庆, 赵银娣, 刘善磊, 等. 空间约束的无人机影像SURF特征点匹配[J]. 中国图象图形学报, 2013, 18(6): 669-676.

    Han T Q, Zhao Y D, Liu S L, et al. Spatially constrained SURF feature point matching for UAV images[J]. Journal of Image and Graphics, 2013, 18(6): 669-676.

[18] Ojala T, Pietikäinen M, Harwood D. A comparative study of texture measures with classification based on featured distributions[J]. Pattern Recognition, 1996, 29(1): 51-59.

[19] 杨恢先, 陈永, 张翡, 等. 基于改进梯度局部二值模式的人脸识别[J]. 激光与光电子学进展, 2018, 55(6): 061004.

    Yang H X, Chen Y, Zhang F, et al. Face recognition based on improved gradient local binary pattern[J]. Laser & Optoelectronics Progress, 2018, 55(6): 061004.

[20] SurakarinW, ChongstitvatanaP. Classification of clothing with weighted SURF and local binary patterns[C]∥International Computer Science and Engineering Conference, Nov. 23-26, 2015, Chiang Mai, Thailand. New York: IEEE, 2015: 1- 4.

[21] 罗天健, 刘秉瀚. 融合特征的快速SURF配准算法[J]. 中国图象图形学报, 2015, 20(1): 95-103.

    Luo T J, Liu B H. Fast SURF key-points image registration algorithm by fusion features[J]. Journal of Image and Graphics, 2015, 20(1): 95-103.

[22] Geusebroek J M, van den Boomgaard R, Smeulders A W M, et al. . Color invariance[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(12): 1338-1350.

[23] HeikkiläM, PietikäinenM, SchmidC. Description of interest regions with center-symmetric local binary patterns[M]. Computer Vision, Graphics and Image Processing. Berlin, Heidelberg: Springer, 2006: 58- 69.

[24] Fischler M A, Bolles R C. Random sample consensus: A paradigm for model fitting with applications to image analysis and automated cartography[J]. Communications of the ACM, 1981, 24(6): 381-395.

[25] 靳京京, 卢文龙, 郭小庭, 等. 基于SURF和RANSAC算法的同步相移干涉图位置配准方法[J]. 光学学报, 2017, 37(10): 1012002.

    Jin J J, Lu W L, Guo X T, et al. Position registration method of simultaneous phase-shifting interferograms based on SURF and RANSAC algorithms[J]. Acta Optica Sinica, 2017, 37(10): 1012002.

[26] Kristan M, Perš J, Perše M, et al. A Bayes-spectral-entropy-based measure of camera focus using a discrete cosine transform[J]. Pattern Recognition Letters, 2006, 27(13): 1431-1439.

[27] 王志明. 无参考图像质量评价综述[J]. 自动化学报, 2015, 41(6): 1062-1079.

    Wang Z M. Review of no-reference image quality assessment[J]. Acta Automatica Sinica, 2015, 41(6): 1062-1079.

[28] . C-[J]. Devijver P A. On a new class of bounds on Bayes risk in multihypothesis pattern recognition. IEEE Transactions on Computers, 1974, 23(1): 70-80.

苗强强. 基于图像质量和注意力的宫腔镜视频关键帧提取[J]. 激光与光电子学进展, 2019, 56(6): 061004. Qiangqiang Miao. Key Frame Extraction of Hysteroscopy Videos Based on Image Quality and Attention[J]. Laser & Optoelectronics Progress, 2019, 56(6): 061004.

本文已被 1 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!