光电工程, 2012, 39 (11): 75, 网络出版: 2012-11-22   

局部高亮干扰文本图像的二值化方法研究

Binarization Method for the Document Images with Local Highlight Interference
作者单位
1 燕山大学 信息科学与工程学院, 河北 秦皇岛 066004
2 燕山大学 河北省测试计量技术及仪器重点实验室, 河北 秦皇岛 066004
3 中国石油天然气管道通信电力工程总公司, 河北 廊坊 065000
摘要
本文提出一种新的基于 Curvelet变换的文本图像二值化处理方法, 以消除文本图像中局部高亮度区域对二值化图像质量的影响。首先对具有局部高亮度区域干扰的原始文本图像进行 Curvelet变换, 得到图像在曲波域的 Curvelet系数集; 然后根据各 Curvelet系数所表征的图像特征, 对 Curvelet系数进行非线性增强, 以优化文本图像的直方图分布; 对增强的 Curvelet系数集进行反变换, 得到直方图优化后的时域图像, 进而应用 Otsu方法实现文本图像二值化。应用本文方法对具有带状及点状局部高亮度区域的文本图像进行二值化处理, 并采用 ABBYY FineReader10对二值图像进行 OCR识别。实验结果表明, 通过本文提出的处理方法所得到的二值化图像, 其字符的 OCR识别准确率最高可达 94.81%, 优于其他四种典型的图像二值化处理方法。
Abstract
A novel binarization method for document images based on Curvelet transform is presented. The interference caused by local high lightness is eliminated to get a better image quality. Firstly, the Curvelet transformation is applied to the document images with local high lightness area, and the Curvelet coefficients can be got. Then, according to the feature of images represented by Curvelet coefficients, the Curvelet coefficients are enhanced nonlinearly to optimize the histogram distribution. Curvelet coefficients are transformed inversely to get the images, and then the Otsu method is applied to get the binary image. According to the binarized image, the OCR recognition results are got by the ABBYY FineReader10. Experimental results show that the highest recognition accuracy of characters could reach 94.81%. The performance of this method is better than the other four typical binarization methods.

孙洁娣, 温江涛, 李书茉, 任瑞军. 局部高亮干扰文本图像的二值化方法研究[J]. 光电工程, 2012, 39(11): 75. SUN Jie-di, WEN Jiang-tao, LI Shu-mo, REN Rui-jun. Binarization Method for the Document Images with Local Highlight Interference[J]. Opto-Electronic Engineering, 2012, 39(11): 75.

本文已被 2 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!