激光与光电子学进展, 2018, 55 (1): 011007, 网络出版: 2018-09-10   

基于Shearlet变换的扫描文档图像倾斜检测 下载: 1085次

Skew Detection of Scanned Document Image Based on Shearlet Transform
作者单位
1 河南大学图像处理与模式识别研究所, 河南 开封 475000
2 河南大学软件学院, 河南 开封 475000
摘要
针对含有文本、图像、表格和公式等复杂扫描电子文档的倾斜校正问题,提出了一种基于Shearlet(剪切波)变换与多尺度分析的复杂文档图像倾斜检测方法,利用剪切波变换的局部性和方向性,可以得到各个方向的能量值,能量最高的两个分量分别对应于横画与竖画的方向,根据这两个方向可以较准确地检测出扫描文档图像中文字行的方向并进一步确定扫描文档图像的倾斜角度。实验结果表明,该方法可以避免扫描文档中图像、表格等的干扰,具有较好的抗噪声能力,对于具有复杂内容的文档图像有较高的检测准确率。
Abstract
For the skew correction of complex scanned electronic documents with text, images, tables and formulas, a new skew detection method is proposed based on Shearlet transform and multi-scale analysis. Based on the localization and directionality of Shearlet transform, energy in all directions can be obtained. The two components with the highest energy can correspond to the horizontal and vertical directions, respectively. According to these two directions, the direction of the text line in the scanned document can be accurately detected and the skew angle of document image can be further determined. The experimental results show that the proposed method can avoid the interference of images, tables, and so on in scanned documents, and has a good anti-noise ability. The proposed method is of higher detection accuracy for document images with complex content.

1 引言

随着计算机技术、通信技术以及数字图像处理技术的发展,信息的获取与传输已经越来越多地依赖计算机和网络,大量图文信息的处理需要在计算机上完成。计算机的便捷性、高效性使得办公数字化、自动化成为信息社会的发展趋势。在办公自动化中,纸质文档常会被扫描成电子文档加以保存,以便后续处理。在纸质文档通过图像获取设备转换为文档图像的过程中,由于扫描设备本身以及人为因素等原因,扫描出的文档图像不可避免地会发生一定程度的倾斜,这对文档图像的正常使用及后期处理都会产生不利的影响。因此使用数字图像处理技术对扫描文档图像进行倾斜检测与校正是非常必要的[1-4]

目前常见的文档图像倾斜角度检测的方法主要包括:基于Hough变换的方法[5]、基于Radon变换的方法[6]、基于聚类的方法[7]、基于图像旋转不变性特征的方法[8]、基于图像频域变换的方法[9]等。扫描文档的版面内容可能会比较复杂,除了纯文本以外,通常还可能含有图像、表格、公式等,检测这类含有复杂版面文档图像的倾斜角度是一个有挑战性的工作。本文提出了一种基于剪切波变换(Shearlet)与多尺度分析的扫描文档图像倾斜校正算法。剪切波变换通过对基本小波函数的膨胀、剪切和平移变换表示图像,是进行多尺度几何分析的有效工具。由于剪切波变换具有很好的局部性和类似于小波变换的分解算法,因此可以很好地刻画图像的局部特征。本文通过非下采样金字塔形式的剪切波变换来进行文档图像的倾斜检测。

2 Shearlet变换与多尺度分析

Shearlet变换是合成小波理论发展的成果。传统小波变换在一维情况下具有良好的性质,但这些性质在推广到二维或者更高维时会出现奇异性,其原因是二维可分离小波变换的滤波器方向有限,只包括水平、垂直和对角线3个方向,对于纹理复杂、包含边缘比较多的图像不能精确地表示这些图像边缘。为了解决二维小波变换中存在的这些问题,需要使用更多的小波基并增加小波基的方向敏感性才能更好地表示图像边缘。近年来,常见的基于小波变换的多尺度几何分析工具包括轮廓波变换(Contourlet)、曲线波变换(Curvelet)、脊波变换(Ridgelet)、条带波变换(Bandelet)、子束波变换(Beamlet)、方向波变换(Directionlet)、表面波变换(Surfacelet)、梳状波变换(Brushlet)、楔形波变换(Wedgelet)和剪切波变换(Shearlet)等[10-13]

Shearlet变换是通过对基本小波函数进行扩张、剪切和平移变换来构造新的基函数,这也是剪切波变换名称的由来。剪切波变换基函数的支撑区间为梯形,这种设计体现了滤波器的方向敏感性和各向异性,所以剪切波变换对方向性比传统小波变换更敏感,可以充分利用和表达图像的几何特征。近年来剪切波变换已经在图像压缩、图像增强、数字图像水印、图像边缘提取和图像去噪等图像处理领域得到了广泛的研究与应用[14-16]

Guo等[17]采用具有合成膨胀的仿射系统构造了一种接近最优表示的多维剪切波函数。剪切波变换在合成小波理论的基础上通过对基本小波函数的扩张、剪切以及平移变换,并结合仿射系统理论来构造梯形的剪切波基函数。在二维的情况下,剪切波变换的仿射系统形式可以表示为

MAB(ψ)={ψj,l,k(x)=detAj2ψ(BlAjx-k)},(1)

式中ψ表示合成仿射系统中的元素;AB分别表示2×2的可逆矩阵,并且|det B|=1;jlk分别为尺度参数、剪切参数和平移参数。

如果MAB(ψ)满足Parseval 框架 ( 紧框架 ) ,则MAB(ψ)称为合成小波。令

Aa=a00a12,(2)Ss=1s01,(3)

式中Aa表示各向异性的伸缩矩阵,Ss表示剪切矩阵,其中as分别为尺度参数和剪切参数,a>0。函数f(x)的二维连续剪切波变换为

Hf=<f,ψa,s,t>,(4)ψa,s,t(x)=a-3/4ψAa-1Ss-1(x-t),(5)

式中ψ为剪切波函数,ast分别表示尺度参数、剪切参数和平移参数。当调整剪切参数s时,梯形的支撑区域在保持面积不变的情况下可进行剪切变形。支撑区域的旋转由尺度参数a进行控制,随着参数a趋向于0,支撑区间逐渐变得更加狭窄。

图1为(a=1,s=0),(a=1/4,s=0),(a=1,s=-3)时的ψa,s,t频域支撑。图2为剪切波变换在频域中的部分基函数,图中ξ表示频率,单位为赫兹。

图 1. 频域支撑

Fig. 1. Frequency domain support

下载图片 查看所有图片

图 2. Shearlet变换在频域中的部分基函数

Fig. 2. Some basis functions of Shearlet in frequency domain

下载图片 查看所有图片

本文算法中采用了自适应锥形Shearlet变换[18]的方法实现剪切波变换。频域被划分为5个部分,两个水平锥部分、两个垂直锥部分和一个低通部分。令

A˙a=a1200a.(6)

A˙a作为另一个伸缩矩阵,如果给定剪切波变换的生成函数ψ和尺度函数φ,则自适应锥形Shearlet系统可以表示为3个剪切波集合,即

φ={φt=φ(x-t)},(7)ψ=ψa,s,t=a-3/4ψAa-1Ss-1(x-t),a(0,1],|s|1+a12,(8)ψ˙=ψ˙a,s,t=a-3/4ψ˙A˙a-1Ss-T(x-t),a(0,1],|s|1+a12,(9)

式中尺度函数φ对应于低通部分,剪切波函数ψ对应于水平锥,生成函数 ψ˙对应于垂直锥。

3 基于Shearlet变换的倾斜检测

对于中文文档扫描图像,图像的方向通常可以参考文档中文字行的方向。每个汉字中的横笔画平行于文字行的方向,而竖笔画则与文字行的方向相垂直。汉字中横笔画与竖笔画在汉字的8种主要笔画中占有主导性地位。张静贤[19]的《现代汉字笔形论》对汉字笔画频率进行了研究,根据对6196个通用汉字的统计结果,横画和竖画的笔形频率比例分别达到了27.65%和17.6%。冯志伟[20]对《辞海》中汉字笔画频率进行了统计研究,其结果是横画比例为30.66%,竖画比例为19.17%。虽然两个文献的数据略有不同,但总体来说,在不同的统计中横画与竖画都是约占总笔画数的一半左右,说明汉字的主要构成笔画是横画与竖画[21]

本文提出的基于剪切波变换与多尺度分析的扫描文档图像倾斜校正算法的主要思想是通过检测扫描文档图像中文字行的方向来检测扫描文档图像的倾斜方向。汉字中横笔画与竖笔画占总笔画数的一半左右,而文字行的方向平行于汉字中横笔画的方向,垂直于竖笔画的方向,因此如果对文档图像进行剪切波变换,能量最高的两个分量就会分别对应于横画与竖画的方向,根据这两个方向就可以确定文字行的方向并进一步确定文档图像的倾斜角度。

对于一些含有复杂内容的文档图像,图像中除了文字,还可能含有大量的插图、表格、公式等。如果插图图像不具有明显的方向性,通过剪切波变换得到的各个分量的能量是均匀分布的,并不会影响文档图像的倾斜方向检测。表格与公式的主要构成也决定了它们只会加强文字行方向的能量。

由于扫描文档图像中的文字、表格、公式等通常都具有一致的方向,因此在剪切波变换中所得到的各个方向分量中一定有两个分量的能量最高,分别为与文本行平行的方向和与文本行垂直的方向。根据剪切波变换的局部性和方向性,在检测过程中本质上是检测图像在某一方向上对应的分量,即本文方法是检测扫描文档图像中所有文字的横画与竖画而不是文本行的方向,但是在绝大多数情况下,文字方向与文本行方向是一致的,文字的方向决定了文本行的方向。

剪切波变换的实现过程是在频域中,与Fourier变换一样,剪切波变换可以很好地把图像的主要信息与噪声区分开,因此基于剪切波变换检测文档图像的倾斜角受噪声的影响很小,具有很好的抗噪声能力。

本文提出的基于剪切波变换的文档图像倾斜检测算法主要分为3个部分: 1) 图像预处理,并根据预处理得到的图像进行剪切波变换;2) 逐个尺度计算Shearlet分量,并找出每个尺度下能量最强的Shearlet分量;3) 根据最强能量的Shearlet分量得出文档图像倾斜的角度并进行校正。本文算法的流程图如图3所示,具体算法描述为:

1) 对图像进行适当的缩放,建立尺度为n的剪切波变换S

2) 假设Si,j为第i尺度下第j个分量。如图4所示,第n个尺度下有2n+2+2个分量。假定一个文档图像,在第1尺度下,S1,x1S1,x2能量最强,这两个分量分别为与文本垂直与平行的方向。

3) 由于第1尺度已经测出倾斜角度的大致范围,因此在第2尺度下,只需要测与S1,x1S1,x2方向相关的分量,即S2,y1S2,y2S2,y3S2,y4S2,y5S2,y6,检测出能量最强的分量,比如最强分量为S2,y1S2,y4

4) 继续进行下一尺度的分解,直到计算出最高尺度下能量最强的Shearlet分量。由于文本倾斜角度一般小于90°,所以在查找倾斜角时,若文本左低右高可只计算垂直锥部分的分量,若文本左高右低可只计算水平锥部分的分量,即与文本方向平行的方向。

图 3. 基于剪切波变换的文档图像倾斜校正流程图

Fig. 3. Flow chart of document images skew correction based on Shearlet transform

下载图片 查看所有图片

图 4. Shearlet尺度示例图

Fig. 4. Frequency domain distribution of Shearlet

下载图片 查看所有图片

图 5. 实验图像

Fig. 5. Experimental images

下载图片 查看所有图片

5) 根据最高尺度下能量最高的分量得出文本倾斜的角度,对原图像进行倾斜校正。

4 实验结果

为了验证基于剪切波变换与多尺度分析的扫描文档图像倾斜检测算法的有效性,采用公开的ICDAR2013数据集进行了实验[22]。实验环境如下:CPU类型为Intel至强E5-2400,CPU频率1.8 GHz,内存8 G。操作系统为Windows 7,编程环境为Matlab 2014a。ICDAR2013数据集中包括了英文、中文、日文等大量扫描文档,本文实验使用的扫描文档图像以中文文档图像为主,图像中均含有部分图案或表格,如图5所示。

首先把实验图像缩放为800×800的图像。建立尺度为5的Shearlet系统。图6分别为各个尺度下所有分量的能量对比。在图6中横坐标表示Shearlet频谱分量的编号,无量纲。纵坐标表示Shearlet频谱的能量,定义为各Shearlet频谱分量幅值的平方和,无量纲。在实际运行中,从第2尺度开始只需计算与上一尺度相关的分量。确定了文档图像倾斜角度后,利用图像处理算法对原图像进行旋转校正,校正后的图像如图7所示。

为了检验本文算法的稳健性,本文实验中在原始图像中加入方差为5的高斯噪声。图8为加噪声前后第5尺度分量的能量对比,从图中可以看出最强能量分量的位置及对应的倾斜角度没有明显变化。实验结果表明,基于剪切波变换检测文档图像的倾斜角度受噪声的影响很小,剪切波变换可以很好地把图像的主要信息与噪声区分开,因此具有较好的抗噪声能力。

为了验证本文方法的有效性,采用ICDAR2013数据集中的图像进行实验,并把实验结果与多种文档倾斜检测算法进行对比,这些算法包括:基于

表 1. 实验结果的比较

Table 1. Comparison of experimental results

ImageSkew angle /(°)
ICDAR2013 datasetRadonPCPe-PCPPPAOur method
18.6398.408.418.498.55
222.012222.3622.3522.2321.81
314.761514.2214.2214.4514.69
45.5955.295.315.435.54
528.822928.3828.4128.5628.47
69.3599.019.049.119.48
711.471111.1711.1811.3611.31
818.751918.3218.3118.4218.46
923.492323.5823.6923.3023.33
1013.571413.4313.4113.5113.84

查看所有表

表 2. 分组实验平均误差的比较

Table 2. Comparison of average errors in grouping experiments

GroupImage numberSkew angle /(°)
RadonPCPe-PCPPPAOur method
English500.3230.2560.2560.1930.167
Chinese500.4020.3510.3550.2320.136
English with diagrams500.3840.3230.3250.2070.181
Chinese with diagrams500.5630.3660.3690.2610.158

查看所有表

图 6. 不同尺度下所有分量的能量对比。(a)第2尺度;(b)第3尺度;(c)第4尺度;(d)第5尺度

Fig. 6. Energy of all coefficients at different scales. (a) 2nd scale; (b) 3rd scale; (c) 4th scale; (d) 5th scale

下载图片 查看所有图片

图 7. 旋转校正后的图像

Fig. 7. Corrected images

下载图片 查看所有图片

图 8. 加噪声前后第5尺度分量的能量对比。(a)加噪声前;(b)加噪声后

Fig. 8. Comparison of the 5th scale component before and after adding noise. (a) Before adding noise; (b) after adding noise

下载图片 查看所有图片

Radon变换的检测算法、PCP算法[23]、e-PCP算法[24]以及PPA算法[7]。基于Radon变换的检测方法是对图像进行不同方向的投影,然后根据投影后的特征进行统计得到图像倾斜角度并进行校正。PCP(Piecewise Covering by Parallelograms)算法首先将文档图像分割成若干个不重叠的块,每个块对应于一个对象,如文本行、数字和表格等,然后用平行四边形覆盖这些块,最后根据这些平行四边形的倾斜角度来估计文档的倾斜角度。e-PCP(enhanced PCP)算法在PCP算法的基础上进行了改进,减少了计算量,提高了稳健性。PPA (Piecewise Painting Algorithm)算法首先分别在水平和垂直两个方向上对图像进行粉刷,在水平粉刷图上选择具有特定高度的区域,把这些区域的顶部、中部和底部上的点归为 3个单独的列表。同时在垂直粉刷图上选择具有特定宽度的区域,把这些区域的左侧、中部和右侧上的点归为另外3个单独的列表。根据这6个列表中的点,利用线性回归的方法绘制直线,然后通过投票策略选出最佳拟合直线,最后根据最佳拟合直线的倾斜角度来估计文档的倾斜角度。本文对比实验的结果如表1所示。

表1中, ICDAR2013数据集提供的图像倾斜角度用作分析对比其他算法实验结果的参考值。本文实验中,Radon算法的平均误差为0.338°,PCP算法和e-PCP算法的平均误差分别为0.316°和0.319°,PPA算法的平均误差为0.202°。与上述算法相比,本文方法的检测精度较高,平均误差达到0.176°,优于上述所有算法。由于本文方法需要计算多个尺度的Shearlet,计算量比较大,因此耗时较多。本文方法的平均耗时为5.441 s,而Radon算法的平均耗时为0.857 s,PCP算法和e-PCP算法的平均耗时分别为1.918 s和1.382 s,PPA算法的平均耗时为3.736 s。从实验结果可以看出,简单快速的算法其检测精度一般较低,而复杂的算法通常兼顾了多方面的目标,所以检测精度较高,但通常计算量大,耗时较多。

为了进一步与同类算法进行比较并验证本文方法对不同种类倾斜文档图像检测的有效性,从ICDAR2013数据集中选择一批图像并分为4组:纯英文文档图像组、纯中文文档图像组、含图表的英文文档图像组、含图表的中文文档图像组。每组包括50幅图像。对这4组图像分别采用Radon算法、PCP算法、e-PCP算法、PPA算法以及本文方法进行检测,并比较了平均检测误差,实验结果如表2所示。

分组实验结果表明,本文算法倾斜检测的平均误差在4个图像组中均优于其他4种算法。由于本文算法对中文文档的检测进行了优化,因此对中文文档图像检测的平均误差明显低于其他算法。同时,本文算法对中文文档图像检测的平均误差小于对英文文档图像检测的平均误差。

本文方法除了可以提升检测精度,还可以利用剪切波变换的局部性和方向性,很好地避免噪声的干扰。目前本文方法计算复杂度较高,下一步将研究基于剪切波变换的快速算法,进一步降低计算复杂度。

5 结论

提出了一种基于剪切波变换与多尺度分析的扫描文档图像倾斜检测算法。本文算法在频域中进行检测,对扫描文档图像进行剪切波变换将图像转换到频域,得到各个方向Shearlet分量的能量值,检测出能量最强的分量作为文本行的方向。利用剪切波变换的局部性和方向性,可以很好地避免噪声对文档图像内容的干扰,较准确地检测出文档图像的倾斜角度。实验结果表明,本文方法对于内容复杂的文档图像有较高的检测准确率,并且具有较好的抗噪声能力。

参考文献

[1] Singh B, Maini R. Skew detection and correction of Gurmukhi words from natural scene images[J]. International Journal of Signal Processing, Image Processing and Pattern Recognition, 2016, 9(9): 139-146.

[2] 刘全金, 赵志敏, 张文杰. 一种基因芯片光学扫描图像倾斜校正方法研究[J]. 光学技术, 2017, 43(2): 108-113.

    LiuQ J, Zhao Z M, Zhang W J. Study on skew correction method for gene-chip scanning image based on pixel gray[J]. Optical Technique, 2017, 43(2): 108-113.

[3] 廖周, 邱琪, 张雨东. 分块拼接望远镜的数值仿真[J]. 光学学报, 2014, 34(7): 0722002.

    Liao Z, Qiu Q, Zhang Y D. Numerical simulation of segmented telescope[J]. Acta Optica Sinica, 2014, 34(7): 0722002.

[4] 张一凡. 基于Shearlet变换的图像降噪及文档图像倾斜校正研究[D]. 开封: 河南大学, 2016: 5- 20.

    Zhang YF. Research of image denoising and document image skew correction based on Shearlet[D]. Kaifeng: Henan University, 2016: 5- 20.

[5] Boukharouba A. A new algorithm for skew correction and baseline detection based on the randomized Hough Transform[J]. Journal of King Saud University-Computer and Information Sciences, 2017, 29(1): 29-38.

[6] AhmadR, Rashid SF, Afzal MZ, et al. A novel skew detection and correction approach for scanned documents[C]//DAS 2016, 12th Intl IAPR Workshop on Document Analysis Systems, Santorini, Greece, 2016.

[7] Alaei A, Nagabhushan P, Pal U, et al. An efficient skew estimation technique for scanned documents: An application of piece-wise painting algorithm[J]. Journal of Pattern Recognition Research, 2016, 11(1): 1-14.

[8] O'Reilly C. Gluhak A, Imran M A. Distributed anomaly detection using minimum volume elliptical principal component analysis[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(9): 2320-2333.

[9] Verma R N, Malik L G. Review of illumination and skew correction techniques for scanned documents[J]. Procedia Computer Science, 2015, 45(1): 322-327.

[10] Easley G R, Labate D, Colonna F. Shearlet-based total variation for denoising[J]. IEEE Transactions on Image Processing, 2009, 18(18): 260-268.

[11] Jakobsen M, Lemvig J. Reproducing formulas for generalized translation invariant systems on locally compact abelian groups[J]. Transactions of the American Mathematical Society, 2016, 368(12): 8447-8480.

[12] Jenifha M A, Babu G M. Nonparametric illumination and skew correction for scanned document images[J]. Digital Image Processing, 2016, 8(5): 165-169.

[13] 胡江华. 基于Shearlet变换方向性的图像消噪[D]. 西安: 西北大学, 2014: 14- 26.

    Hu JH. Image denoising based on Shearlet transform directionality[D]. Xi'an:Northwest University, 2014: 14- 26.

[14] Koo H I, Cho N I. Robust skew estimation using straight lines in document images[J]. Journal of Electronic Imaging, 2016, 25(3): 033014.

[15] 吴一全, 陶飞翔. 改进投影梯度NMF的NSST域多光谱与全色图像融合[J]. 光学学报, 2015, 35(4): 0410005.

    Wu Y Q, Tao F X. Multispectral and panchromatic image fusion based on improved projected gradient NMF in NSST domain[J]. Acta Optica Sinica, 2015, 35(4): 0410005.

[16] 石满红, 刘卫. 一种新的平移不变Shearlet变换域图像去噪算法[J]. 红外技术, 2016, 38(1): 33-40.

    Shi M H, Liu W. Anew image denoising algorithm based on shift-invariant Shearlet transform domain[J]. Infrared Technology, 2016, 38(1): 33-40.

[17] Guo K, Labate D. Characterization and analysis of edges using the continuous Shearlet transform[J]. Siam Journal on Imaging Sciences, 2009, 2(3): 959-986.

[18] Easley GR, LabateD, Lim WQ. Optimally sparse image representations using shearlets[C]// Proceedings of IEEE International Conference on Signals, Systems and Computers, 2006: 974- 978.

[19] 张静贤. 现代汉字笔形论[C]. 第二届国际汉语教学讨论会论文选. 北京: 北京语言学院出版社, 1988: 162- 165.

    Zhang JX. The theory of modern Chinese character pen shape[C]. The Selection of the 2nd International Chinese Teaching Symposium.Beijing: Beijing Language Institute Press, 1988: 162- 165.

[20] 冯志伟. 自然语言的计算机处理[J]. 中文信息, 1997( 4): 26- 27.

    Feng ZW. Computer processing of natural language[J]. Chinese Information, 1997( 4): 26- 27.

[21] 范玲. 现行汉字笔画分布及特征研究[D]. 重庆: 西南大学, 2013: 17- 27.

    FanL. Research on stroke characteristics and feature of Chinese characters[D]. Chongqing: Southwestern University, 2013: 17- 27.

[22] PapandreouA, GatosB, LouloudisG, et al. ICDAR 2013 document image skew estimation contest[C]// Proceedings of IEEE International Conference on Document Analysis and Recognition, 2013: 1444- 1448.

[23] Chou C H, Chu S Y, Chang F. Estimation of skew angles for scanned documents based on piecewise covering by parallelograms[J]. Pattern Recognition, 2007, 40(2): 443-455.

[24] Dey P. Noushath S. e-PCP: A robust skew detection method for scanned document images[J]. Pattern Recognition, 2010, 43(3): 937-948.

张新红, 张一凡, 张帆. 基于Shearlet变换的扫描文档图像倾斜检测[J]. 激光与光电子学进展, 2018, 55(1): 011007. Zhang Xinhong, Zhang Yifan, Zhang Fan. Skew Detection of Scanned Document Image Based on Shearlet Transform[J]. Laser & Optoelectronics Progress, 2018, 55(1): 011007.

本文已被 1 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!