基于总变分模型的图片文字干扰消除 下载: 738次
1 引言
在影视剧制作过程中,字幕会以各种形式出现在视频影像中。某些老式的视频影像,由于受当时技术水平的限制,字幕常被固化在视频中,无法通过现有技术将其消除或替换,严重妨碍了不同语种之间的视频交流。
字幕会以不同的程度呈现在视频影像的某些画面中。季丽琴等[1]提出的基于彩色边缘检测形态逻辑算子“与”(CEMA)和纹理修复的技术对含较少文字的图片具有较好的处理效果。基于区域匹配的方法主要用来消除块状干扰 [2-3]。将插值法与图像修复相结合[4-5],使用方向梯度直方图[6]对图片中的划痕、文字或块状干扰进行去除均能取得很好的效果,但算法较为复杂。采用总体变分(TV)模型与其他方法结合[6-11]可对纹理图片、老旧照片等进行修复。本文将TV模型与Roberts算子、二值形态学巧妙结合,用于检测并确定文字所在区域,然后利用已确定的矩形区域四个角的坐标约束TV模型,有效消除了图片中文字的干扰。
2 文字干扰自动消除原理
设去除文字干扰后
式中:
噪声约束条件为
式中:
引入拉格朗日常数对TV文字干扰消除模型进行改进,可得
式中:
结合梯度的概念和欧拉-拉格朗日方程[12]求解(4)式中
3 数值实现
(6)式为偏微分方程,在实际图片中无法表示,本文用近似的数值差分方程替代。
图 2. 受文字干扰处像素及其邻域点示意图
Fig. 2. Schematic of pixels with text interference and their neighborhood points
令
式中:
设(7)式中的步长
式中
同理可计算得到其余的半像素点梯度值
式中:
将这三个系数代入(11)式可得到
式中:上标(
4 算法步骤
1) 输入存在文字干扰的图片,对干扰文字进行检测与定位,确定待处理区域;
2)根据图片中文字区域的大小合理设置迭代次数;
3)用
4)将步骤3)中所求得的梯度模值|∇
5)将
6)待处理域中所有未知像素的像素值求解完成后,将迭代次数减1;
7)重复步骤3)~6)进行多次迭代,直到迭代次数减为0;
8)计算并输出处理过程所用时间,输出文字干扰消除后的图片。
5 仿真结果及分析
下面利用计算机(I7-3.2 GHz处理器、8 GB内存、240 GB SSD硬盘、128位2 GB显卡、64位WIN10操作系统),在VS2015平台上对
5.1 干扰文字的检测与定位
由
图 4. 干扰文字的检测。(a)对图3 边缘检测的结果;(b)对图4 (a)二值化的结果
Fig. 4. Detection for text interference. (a) Detection result of edge in Fig. 3 ; (b) result of binarization of Fig. 4 (a)
为获取干扰文字所在区域,对
图 5. 干扰文字的定位。(a)形态学处理后的连通域图;(b)去除像素少的连通域后的结果
Fig. 5. Location of interference text. (a) Connected domain processed by morphology; (b) result after removing connected domain with few pixels
对
图 6. 形态学处理去除小连通域后的图片。(a)待修复图像对应的灰度图;(b)二值化后的灰度图
Fig. 6. Images obtained by morphological processing and removing small connected domain. (a) Gray scale corresponding to image to be repaired; (b) gray scale after binarization
将上述所得矩形区域的4个顶点坐标作为(13)式的限定条件,将
5.2 干扰文字的消除
根据第4部分的算法步骤对
图 7. 定位干扰文字。(a)掩模图;(b)标记文字区域的待处理图片
Fig. 7. Location of interference text. (a) Mask pattern; (b) image with text to be processed
图 8. 采用TV模型消除图片中干扰文字后的结果。(a)迭代5次;(b)迭代60次
Fig. 8. Result after eliminating interference text in image by using TV model. (a) 5 iterations; (b) 60 iterations
为进一步说明本文所提方法能有效消除文字,依照上述过程对大小为554 pixel×554 pixel、含有较小且文字较多的Lena图片进行了迭代次数分别为50、100和300的处理,结果如
图 9. 采用TV模型迭代不同次数消除文字干扰的结果。(a)待处理图片;(b)迭代50次;(c)迭代100次;(d)迭代300次
Fig. 9. Results after eliminating interference text in image by using TV model with different iterations. (a) Image to be processed; (b) 50 iterations; (c) 100 iterations; (d) 300 iterations
6 结论
结合TV模型,通过Roberts算法和二值形态学对图片中的干扰文字区域进行检测与定位,对干扰文字区域和不含文字区域进行区分,避免了消除文字干扰后图片中色彩的失真或信息丢失。对受不同程度文字干扰的图片进行处理后可以看出,采用本文方法对图片中文字干扰的消除效果显著,但对较密集和较多文字的图片处理难度明显有所增大,TV模型的迭代次数和运行时间显著增多。可见,若要在改善图片中文字干扰效果的同时缩短运行时间,就得进一步加快TV模型算法的收敛速度。
[1] 季丽琴, 王加俊. 视频字幕的自动检测与去除[J]. 中国图象图形学报, 2008, 13(3): 461-466.
[2] Telea A. An image inpainting technique based on the fast marching method[J]. Journal of Graphics Tools, 2004, 9(1): 23-34.
[3] 张显全, 高志卉. 一种块匹配的图像修复算法[J]. 光电子·激光, 2012, 23(4): 805-811.
[4] 王昊京, 王建立, 王鸣浩, 等. 采用双线性插值收缩的图像修复方法[J]. 光学精密工程, 2010, 18(5): 1234-1241.
[5] 蔡占川, 姚菲菲, 唐泽圣. 基于克里金插值法的图像修复[J]. 计算机辅助设计与图形学学报, 2013, 25(9): 1281-1287.
[6] Alilou V K, Yaghmaee F. Non-texture image inpainting using histogram of oriented gradients[J]. Journal of Visual Communication and Image Representation, 2017, 48: 43-53.
[7] 王卫卫, 李莉, 韩雨. 基于非局部曲率驱动扩散的图像修复[J]. 光学学报, 2010, 30(6): 1634-1638.
[9] Fuchs M, Müller J. A higher order TV-type variation problem related to the denoising and inpainting of images[J]. Nonlinear Analysis: Theory Methods & Applications, 2016, 154: 122-147.
[10] 杜闪闪, 韩超. 基于总变分模型的改进图像修复算法[J]. 激光与光电子学进展, 2018, 55(7): 071005.
[11] 王斌, 胡辽林, 薛瑞洋. 基于退化转换及可分离全变差模型的图像修复[J]. 光学学报, 2014, 34(10): 1011002.
[12] Bourdin L, Cresson J, Greff I, et al. Variational integrator for fractional Euler-Lagrange equations[J]. Applied Numerical Mathematics, 2013, 71: 14-23.
董剑龙, 王浩全. 基于总变分模型的图片文字干扰消除[J]. 激光与光电子学进展, 2019, 56(24): 241004. Jianlong Dong, Haoquan Wang. Elimination of Interferential Text from Images Based on Total Variation Model[J]. Laser & Optoelectronics Progress, 2019, 56(24): 241004.