应用光学, 2020, 41 (1): 74, 网络出版: 2021-06-18   

不均匀光照和重影的仪表图像二值化方法

Binarization method of instrument image with uneven illumination and ghosting
作者单位
湖北工业大学 机械工程学院,湖北 武汉 430068
摘要
高压计量仪表识别过程中需要对图像进行二值化操作,然而拍摄的仪表图像多出现光照不均和数字重影现象,导致传统方法对仪表图像的二值化困难。为此,提出一种基于卷积神经网络的二值化方法,用于对复杂光照下含数字重影的仪表图像二值化。该网络使用的数据集为真实环境下的仪表图像,首先对输入的图像进行降维提取特征,然后反卷积重建图像前景,最后输出二值图。将设计的网络与传统的二值化方法进行对比,实验结果表明,经该网络训练得到的二值图数字清晰且无重影,且测得的交并比(IoU)平均值为95.12,与样本标签图像的相似度最高,能够有效解决复杂环境下有重影的仪表图像二值化问题。
Abstract
The image needs to be binarized during the identification process of the high-voltage meter. However, the phenomenon of uneven illumination and digital ghosting often appears in the instrument images, so that it is difficult to binarize the instrument images with traditional method. Therefore, a binarization method based on convolutional neural network was proposed to binarize the instrument images with digital ghosting under complex illumination. The data sets used in the network were the instrument images in real environment. Firstly, the dimensionality reduction was used to extract features of the input images, and then the foreground of images was reconstructed by deconvolution. Finally, the binary images were output by the network. Comparing the designed network with the traditional binarization method, the experimental results show that the binary images of the proposed network are clear and have no ghosting. The average IoU is 95.12, which is most similar to the sample label images. Therefore, the method can effectively solve the problem of binarization of instrument images with ghosting under complex environment.

1 引言

高压计量仪表在发电厂和变电站中起着至关重要的作用,涉及发电、供电、用电三方之间很多的经济和技术问题,其准确与否直接关系到三方的经济利益。因此,定期校验高压计量仪表以提高其准确性具有重要意义[1]。传统人眼读数校验跟不上计量仪表的变化速度,难以准确记录仪表真实数值。而部分高压计量仪表不提供与计算机进行数据通信的接口,无法通过仪表端口直接将数字读取出来。为了适用各种送检的计量仪表,采用机器视觉方法进行字符识别。机器视觉使仪表字符识别成为可能,仪表图像的字符识别一般分为三步[2-4]:字符分割,特征提取和字符分类。由于高压计量仪表现场测试难免处在光照过强、过弱和光照不均的环境下,并且仪表数字在变化的过程中会产生重影现象,导致字符分割过程中的图像二值化困难。传统的二值化主要有全局阈值算法和局部阈值算法[5]。大津法(Otsu)[6]、迭代阈值法[7]和最大熵法[8]是常用的全局阈值算法,其通常是从整个图像选择一个阈值来最小化前景和背景像素的类间方差,但对于复杂光照下或目标灰度范围分布大的图像效果较差,且无法去除重影现象。局部阈值分割算法常用的有Bernsen算法[9]、Niblack算法[10]、Sauvola算法[11]、Bradley[12]算法和Wellner[13]算法,其处理光照不均的图像效果比全局阈值好,但是存在对目标像素点邻域相差很大的图像处理效果不佳的问题,同样不能去除图像中的重影现象。

由于直接对图像数字分割和分类识别的深度神经网络结构比较复杂,而且对仪表上的小数点识别效果不好,影响仪表字符识别的效率,所以本文主要针对仪表字符分割算法进行研究。虽然Mei等[14]提出基于深度学习的方法能有效去除光照不均,但该方法采用的数据集是在原始图像中添加不均匀光照得到的模拟图,输出结果为彩色图,且模拟图与真实图像差距较大,失真现象较严重,也没有去除重影,因而无法应用在真实环境下的仪表识别中。针对仪表图像含有光照不均和重影而无法有效二值化的问题,本文设计了一种新型全卷积神经网络框架用于仪表图像的二值化分割,网络的输出为二值图,实验所用的数据集为真实环境下的仪表图像。

1 实验方法

1.1 FCN网络

全卷积神经网络(Fully Convolutional Networks,FCN)[15]作为一种卷积神经网络(CNN),能够对图像进行像素级分类并解决了语义级别的图像分割问题,为深度学习领域做出了巨大的贡献。FCN网络不是分类网络,而是一个可以接受任意大小尺寸输入并且输出相同大小的标签图像的端到端的网络,其将CNN最后的全连接层换成了卷积层,输出的是目标对应的标签图像。FCN的网络结构包含下采样和上采样两个部分,下采样部分提取语义信息并能堆叠卷积层信息,上采样部分对最后一个卷积层的特征图进行反卷积,将图像恢复到与输入图像相同大小的尺寸。

1.2 VGG网络级标题

VGG16是卷积神经网络中分类效果非常好的一种网络[16],为了能够充分捕捉图像的信息同时减少参数量,简化网络结构,整个网络基本使用大小为3×3的卷积核组合与堆叠,可以得到与卷积核大小为5×5或7×7相同的效果。图1是VGG16的网络结构图,由13个卷积层和3个全连接层组成。输入大小为224×224×3像素的原始图片,每一个卷积层通过多个3×3卷积核连续堆叠组成卷积序列。

图 1. vgg16网络结构

Fig. 1. Structure diagram of vgg16 network

下载图片 查看所有图片

1.3 提出的网络结构

本文提出的网络也是一种端到端的可训练的全卷积神经网络模型。网络框架结合了FCN网络和VGG16网络,网络输入是原始的RGB图像,输出是干净无重影的二值图,训练和测试都可以接收任意大小的图像。

网络结构主要由两部分组成:特征提取部分和图像重组部分。特征提取是一个下采样过程,由5个卷积块组成,每个卷积块由卷积层和最大池化层组成,卷积层后面接relu函数作为激活函数,relu函数相比与sigmoid函数和tanh函数计算更快,收敛更快。卷积层的卷积核大小为3×3,步长为1,池化层的池化窗口的大小选择2×2,步长为2,以减少输出大小和防止网络过度拟合。每经过一个卷积块,图像大小减小一倍,以更大的比例来提取信息。图像重组是一个上采样过程,有5个反卷积块将提取的信息还原成图片形式,反卷积块由反卷积层和连接层组成,反卷积层的卷积核大小为4×4,步长为2。与FCN网络类似,为了减少在上采样过程中的信息丢失,在上采样部分添加连接层,连接层是反卷积后的特征图与下采样部分相同大小的特征图进行信息组合,补充反卷积后的语义信息得到更高分辨率的新特征图。之后,连接层和上采样部分的卷积层不用激活函数,采用线性变换合成这些多尺度特征,网络的最后经softmax输出。网络总体结构如图2所示,蓝色代表卷积层,橙色代表最大池化层,红色代表反卷积层,绿色代表连接层,最后的紫色代表softmax层。

图 2. 设计的全卷积神经网络结构图

Fig. 2. Structure diagram of designed full convolutional neural network

下载图片 查看所有图片

损失函数是训练网络很重要的一个环节,在FCN网络中,网络的任务用于分类,使用的是交叉熵损失函数。而我们的网络训练任务是回归,因为输出是一个图像,又必须要学习回归模型来消除图像中的不均匀光照和数字重影。为了训练我们的模型,采用均方误差(mean square error,MSE)作为损失函数。其定义如下:

$ {\rm MSE}\left( {y,y'} \right) = - \frac{1}{n}\sum\nolimits_{i = 1}^n {{{\left( {{y_i} - {{y_i}'}} \right)}^2}} $  (1)

其中:n代表样本个数; ${y_i}$代表标签; ${y_i}'$代表网络预测输出。

2 实验过程和结果

2.1 数据集的采集和制作

为了提高网络在复杂环境下的鲁棒性,本实验使用的数据集在仪表所处的真实环境下采集,并且调节光源处于仪表左右边或正对位置并与相机是否有旋转角度组合拍摄,采集得到的图像是3通道的RGB图片,剔除肉眼无法识别出的图像,最终样本图像尺寸为911×261像素,共计7 600张。模拟数据可以在原始的均匀光图像上直接二值化得到样本的标签,但是用模拟图训练的网络测试真实的仪表图像效果很不理想。本文使用的训练数据为真实的仪表图像,需要手动制作标签,由于仪表上的数字大小距离一致,可以通过确定图像上数字的相对位置制作标签。如图3所示,在仪表上标记固定点,以下面两个固定点为x轴,包含数字的最小矩形边为y轴,建立直角坐标系,从而可确定图像上每个数字的位置。以小数点为基础,将人眼识别到的数字依次按位置填充,即可得到对应的标签。为了减少训练时间,实验样本图只截取数字信息部分。

图 3. 标签的制作

Fig. 3. Label making

下载图片 查看所有图片

2.2 实验结果集的采集和制作

实验环境为:GPU为NVIDIA Quard K2200,显存4G;Intel(R)Xeon(R)CPU E5-2640 2.4 GHz;基于TensorFlow框架,Python3.6编程语言。

实验没有使用任何预先训练过的其他模型,初始学习率设为1e-4,batch size设置为16,epoch设置为100个。本文使用PASCAL challenges的IoU (Intersection over Union)标准和衡量两幅图像相似度的指标信噪比(SNR)来评价分割后的二值图,IoU是一个简单的测量标准,设标签上为目标的像素点集合为A,训练结果的目标像素点集合为B,则IoU的计算公式为

$ {\rm{IoU}} = \frac{{\rm A \cap \rm B}}{{ \rm A \cup \rm B}} \times 100 \% $  (2)

其中:分子表示A与B的目标像素重合值;分母表示A与B的目标像素总和。IoU值越大,表示预测结果与真实结果重叠部分越多,分割效果越好。

图像信噪比能对经过处理后的图像质量好坏进行衡量,其计算公式如下:

${\rm SNR} = 10{\log _{10}}\frac{{\displaystyle\sum\limits_{i = 1}^M {\sum\limits_{j = 1}^N {g{{(i,j)}^2}} } }}{{\displaystyle\sum\limits_{i = 1}^M {\sum\limits_{j = 1}^N {{{[g(i,j) - f(i,j)]}^2}} } }}$ (3)

其中:ij分别是图像的长和宽像素点: $g(i,j)$$f(i,j)$分别代表原始图像和处理后的图像在点 $(i,j)$处的灰度值。计算得到的SNR值越大,说明处理后的图像与原图像越相似。

表1给出了各个算法运行时间以及测试200张图像的IoU值和SNR值,图4显示了各种算法的运行结果。从实验结果可以看出,不均匀的光照对二值化的效果影响很大。传统的方法对仪表中含有光照不均和重影的图像进行二值化后效果很差,其中Otsu法、最大熵法和迭代阈值法都是使用单一阈值的方法,对不均匀光很敏感,不能有效区分出背景与目标,并且对不同光照的图像处理结果相差很大,有很大的局限性。Niblack算法能够大体上分割出目标区域,但是结果伴随大量的噪声,同样不能去除数字重影。Bernsen算法、Sauvola算法和Bradley算法通过逐点比较相邻点的像素灰度值来确定阈值,但是仪表图像存在局部区域大部分为背景的现象,而光照不均的影响会使这些方法将背景像素划分为目标像素,从而产生分割错误,分割出来的数字仍然没有去除数字重影。Wellner算法将图像分成较小的块来确定每个块的阈值,但对于强光照块却无法分割出目标像素点,对数字重影也没有效果。而本文所设计的网络对含有不均匀光照和重影的图像二值化效果清晰无重影,计算出来的IoU值和SNR值都比其他方法高,证明分割得到的图像与原图像相似度最高,且网络模型对不同光照强度和旋转的图像都能适用,具有较强的泛化能力。

表 1. 各算法的结果对比

Table 1. Comparison of results of each algorithm

方法耗时/sIoU平均值SNR
Otsu法0.1742.459.21
最大熵法0.9135.689.36
迭代阈值法0.2346.568.97
Bernsen法0.8533.228.93
Niblack法19.8951.386.74
Sauvola法0.2866.7410.17
Bradley法1.8771.3410.11
Wellner法0.0770.6310.97
本文方法0.1095.1220.53

查看所有表

图 4. 不同算法对图像的处理结果

Fig. 4. Processing result of each algorithm

下载图片 查看所有图片

3 结论

不同强度的光照和数字重影严重影响高压计量仪表图像的字符识别准确性。为此,本文提出一种新的全卷积神经网络用于复杂光照下含有重影的仪表图像的二值化分割。与传统的阈值分割方法不同,网络不用手动寻找阈值,只需训练样本数据得到网络模型即可实现仪表图像的二值化分割。通过与传统的二值化方法进行对比,实验结果显示了本文方法的二值化效果最佳,能够有效去除数字重影,且对不同程度的光照都适用,对发生偏移或旋转的图像,仍然能给出正确的结果,更适合于复杂环境下的仪表图像二值化。本文的方法仅用于仪表字符识别的二值化过程,并且训练所需要的时间较长,有一定的局限性。下一步的研究工作将进一步提高网络的鲁棒性和适用性,以在更多的场景中应用。

参考文献

[1] 陈缨, 岳长喜, 杨勇波, , et al. 配网高压电能计量装置整体校准技术研究[J]. 电测与仪表, 2017, 54(9): 35-39.

    CHEN Ying, YUE Changxi, YANG Yongbo, . Research on the overall calibration technology of high voltage power metering device in distribution network[J]. Electrical Measurement & Instrumentation, 2017, 54(9): 35-39.

[2] 陈南南, 董坤煌, 高凤强, , et al. 基于数字识别的数显仪器数据远程传输系统[J]. 仪表技术与传感器, 2018(6): 39-44.

    CHEN Nannan, DONG Kunhuang, GAO Fengqiang, . Remote data transmission system for digital display instrument based on digit recognition[J]. Instrument Technique and Sensor, 2018(6): 39-44.

[3] 刘自立, 周洪, 余力, , et al. 基于投影矩阵法的仪表字符实时识别系统[J]. 仪表技术与传感器, 2008(8): 98-100.

    LIU Zili, ZHOU Hong, YU Li, . Real-time instrument character recognition system based on projective matrix method[J]. Instrument Technique and Sensor, 2008(8): 98-100.

[4] 肖坚. 基于学习的OCR字符识别[J]. 计算机时代, 2018(7): 48-51.

    XIAO Jian. OCR character recognition based on Learning[J]. Computer Era, 2018(7): 48-51.

[5] 甘志坚, 方俊彬, 关贺元, , et al. 复杂光照下QR码图像二值化算法研究及应用[J]. 应用光学, 2018, 39(5): 667-673.

    GAN Zhijian, FANG Junbin, GUAN Heyuan, . Research and application of binarization algorithm of QR code image under complex illumination[J]. Journal of Applied Optics, 2018, 39(5): 667-673.

[6] 陈思. 基于Otsu算法的车牌图像二值化及其Matlab实现[J]. 长春师范学院学报(自然科学版), 2012, 31(3): 33-35.

    CHEN Si. The license plate image binarization based on otsu algorithm and its MATLAB realization[J]. Journal of Changchun Teachers College, 2012, 31(3): 33-35.

[7] 严曲, 赵跃龙. 一种基于迭代阈值法的身份证图像二值化算法研究[J]. 计算机测量与控制, 2005, 13(6): 595-597.

    YAN Qu, ZHAO Yuelong. Study of binarization method of identification card scanned image[J]. Computer Automated Measurement & Control, 2005, 13(6): 595-597.

[8] WONG A K C, SAHOO P K. A gray-level threshold selection method based on maximum entropy principle[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1989, 19(4): 866-871.

[9] 强枫, 尚明. Bernsen法在字符分割领域的应用[J]. 黑龙江科技信息, 2014(3): 144-145.

    QIANG Feng, SHANG Ming. Application of Bernsen method in the field of character segmentation[J]. Heilongjiang Science and Technology Information, 2014(3): 144-145.

[10] NIBLACK W. An introduction to digital image processing[M]. Englewood Cliffs: PrenticeHall, 1986.

[11] SAUVOLA J, PIETIKÄINEN M. Adaptive document image binarization[J]. Pattern Recognition, 2000, 33(2): 225-236.

[12] BRADLEY D, ROTH G. Adaptive thresholding using the integral image[J]. Journal of Graphics Tools, 2007, 12(2): 13-21.

[13] WELLNER P D. Adaptive thresholding for the DigitalDesk[J]. Xerox EPC, 1993, 110: 1-19.

[14] MEI X F, XIE F Y, JIANG Z G. Uneven illumination removal based on fully convolutional wk f dermoscopy images[C]2016 13th International Computer Conference on Wavelet Active Media Technology Infmation Processing (ICCWAMTIP). USA: IEEE, 2016.

[15] LONG J, SHELHAMER E, DARRELL T. Fully convolutional wks f semantic segmentation[C]2015 IEEE Conference on Computer Vision Pattern Recognition (CVPR). USA: IEEE, 2015.

[16] SIMONYAN K, ZISSERMAN A. Very deep convolutional wks f largescale image recognition[C]. USA: arXiv, 2015.

孙国栋, 徐昀, 徐亮, 张航, 柳晨康. 不均匀光照和重影的仪表图像二值化方法[J]. 应用光学, 2020, 41(1): 74. Guodong SUN, Yun XU, Liang XU, Hang ZHANG, Chenkang LIU. Binarization method of instrument image with uneven illumination and ghosting[J]. Journal of Applied Optics, 2020, 41(1): 74.

本文已被 2 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!