激光与光电子学进展, 2018, 55 (5): 051003, 网络出版: 2018-09-11   

基于频率约束的相机与屏幕通信隐写算法 下载: 1318次

Screen-Camera Communication Steganography Based on Frequency Constraint
作者单位
天津大学电气自动化与信息工程学院, 天津 300072
摘要
移动设备的快速普及,催生了一系列新的信息获取方式,其中,最具代表性的是已广泛应用于移动支付领域的二维码技术,它实现了二维码屏幕显示到相机拍照识别获取的新型通信。基于这种新的通信方式,引入信息隐藏技术构建不可见的二维码信息,使用户在获取信息的同时,减少由于引入可见二维码而带来的对载体信息感观的不良影响。该算法针对数字视频资源,利用频率约束方法将特定信息嵌入到载体之中,通过相机或手机在视频屏幕播放时进行拍摄,获取视频信息后提取隐藏信息,实现特定信息的有效传递。同时,算法引入能量统计模型和纠错机制,以保证提取信息的准确性。大量实验测试显示,该算法能够在1~2 m距离下获得较高的信息提取准确率。
Abstract
The series of new information acquisition methods are spawned with the rapid popularization of mobile devices. The most representative one is the two-dimensional code technology, which is widely used in the field of mobile payment. It implements a new type of communication method, in which two-dimensional code is displayed on the screen and recognized by camera. We introduce an information hiding technology to build invisible two-dimensional code information based on this new mode of communication, so that the users can obtain information while reducing the information perception of adverse effects from the introduction of visible two-dimensional code to the carrier. According to the digital video resources, the proposed algorithm embeds the specific information into the carrier by frequency constraint method, and takes pictures when the camera or mobile phone is played on the video screen. After the video information is obtained, the hidden information is extracted to achieve the effective transmission of the specific information. At the same time, the energy statistics model and error correction mechanism are introduced to ensure the accuracy of the extracted information. A large number of experimental tests show that the algorithm can achieve high accuracy of information extraction within 1-2 m distance.

1 引言

在日常生活中,利用移动设备与二维码进行信息传递越来越常见[1-6]。使用智能手机的用户可以通过拍摄二维码图片并解码它们,使手机连接到更多的内容,包括文档、电影剪辑或网址等。二维码可以应用在不同场合。例如:图书馆中的所有书籍都标记有条形码以表示其属性和信息,从而方便图书管理[7];邮件上的条形码可以跟踪物品信息[8];被广告商广泛应用的二维码常标记在屏幕或其他产品上,通过智能手机扫描后即可直接链接到目的地址[9]。但在图片或视频上放置二维码,不但占据宝贵的屏幕资源,而且有时还影响使用。

这一难题促使研究人员尝试将二维码嵌入到屏幕图像或视频中,经过隐藏处理的代码既可以被照相机接收器探测到,又让人类视觉系统难以察觉。Woo等[10]利用只有混合颜色才能被人眼感知这一事实,基于高频红色和绿色光在相机和相机之间进行通信,而人眼无法感知;Wang等[11]利用人类视觉系统的闪烁融合特性嵌入数据,依赖于高的屏幕刷新率和相机捕获帧率实现人眼视觉的不可感知;Li等[12]提出一种通过轻微像素半透明度变化来传递信息的方法;Nguyen等[13]利用高屏幕刷新率和相机捕捉速率,在空间和时间域均嵌入信息,提高了系统的吞吐量。

上述研究虽然都取得了一系列的成果,都有各自的突破,但稳健性都较弱,而且对光感知的有效性使上述方法在短距离的检测下难以获得高准确率,存在短距离通信的弊端。短距离的条件要求和弱稳健性的缺点限制了上述技术在实际应用中的发展。因此,提出适用于远距离的强稳健通信方法是非常有必要的。本文通过对相关算法进行研究,提出新的算法,并对其步骤进行详细描述,最后通过实验验证了新方法的有效性。

2 相机与屏幕通信隐写算法

算法流程如图1所示。在发送端,将信息编码为比特流,利用频率约束方法将信息嵌入到可视帧中得到载体视频序列并在显示屏中播放,允许配备摄像机的设备对着屏幕拍摄得到画中画视频,从捕获的视频中提取能量统计特征并进行训练,将训练模型用来初步提取嵌入信息,最后将初步提取的冗余信息根据样本重要性的不同赋予不同权值,通过加权求和过滤冗余信息,实现纠错。

图 1. 算法框图

Fig. 1. Block diagram of proposed algorithm

下载图片 查看所有图片

2.1 信息嵌入

不同的DCT系数作为信息嵌入的载体对图像质量有不同影响[14]。一般说来,低频系数集中了图像大部分的能量,对图像较为重要。人眼对低频分量比较敏感,对高频分量则不太敏感,因而在离散余弦变换(DCT)的高频区域进行频率约束。具体地,基于频率约束模板对视频帧的频域幅值图进行信息嵌入,实现信息携带。利用频率约束模板实现对频率的约束,既可以是频率抑制,也可以是频率增强,只要能实现频率成形,就可完成信息携带。

2.1.1 频率幅值

利用人类视觉系统的亮度掩蔽效应[15],将信息全部嵌入到视频的Y分量中。根据数据存储方式和以下公式[16],分离出视频序列的YUV分量矩阵:

Y=0.299R+0.587G+0.114B,(1)U=0.492(B-Y),(2)V=0.877(R-Y),(3)

式中RGB是彩色图像RGB格式的三个分量矩阵。根据(4)式对Y分量进行分块DCT变换并取模值,得到频率幅值F,在此基础上进行多比特信息嵌入操作。

F(u,v)=2WHi=0W-1j=0H-1Y(i,j)C(u)C(v)cos(2i+1)2Wcos(2j+1)2H,(4)

式中(i,j)和(u,v)分别是变换前后的图像坐标,WH分别是分块的宽和长。

图 2. 频率约束的可视化表示

Fig. 2. Visual illustration of frequency constraints

下载图片 查看所有图片

2.1.2 约束模板

此处构造方形的频率截断模板。模板与图像大小相同,平均分成若干块,块数与进行分块DCT变换的块数相同,共(M/W)×(N/H)块,其中MN分别是频域幅值图像的宽度和长度。因为信号能量大部分集中在频率域的左上角,右下角的系数对人类视觉的影响较小,所以提出保留左上角、截断右下角的方形频率抑制形式。模板具体由多个分块组成:若频域幅值块进行频率约束,则此块传递消息1;反之,不进行频率约束的块传递信息0,对应频域幅值图部分的幅值大小不变。由此可知,分块的约束形式决定了模板的类型,也决定了传递的比特流信息。传递比特1的公式定义为

Tr(u,v)=1,ifuQ,vQ0,ifu>Q,vQ,1uW,1vH(5)

传递比特0的公式定义为

Tr(u,v)=1,1uW,1vH,(6)

式中Tr代表频率约束模板P的第r分块的频率约束矩阵,Q代表截断参数,它直接影响图像质量和传输准确率。按行读取约束模板P携带的信息,即以蛇形轨迹解码比特流,实现多比特信息的传输。

2.1.3 频率约束

利用约束模板实现频率幅值控制的过程叫频率约束。约束频率的过程定义为

Z(u,v)=P(u,v)×F(u,v),(7)

式中Z代表频率约束后的输出幅值图像。将频域幅值和约束模板的位置相互对应作积,得到输出幅值图像相应位置的值。代表比特1和0的约束块对输入频域幅值图像的作用效果不同,具体规律可以从图2中看出。

图2以测试序列中的highway为例,对其帧序列分块,并经过约束模板进行信息嵌入。其中黑色代表嵌入1,白色代表嵌入0。取出约束前后图像及模板相同区域的部分频率进行观察,发现频率幅值变化规律是不同的(如图中低频区域置0)。经过黑色模板约束的频率会呈现明显的方形,存在截断点;而白色模板的约束频率没有变化,会呈平缓的下滑趋势。因此,可以通过分析区域内频率幅值特点来进行信息检测。为了提高信息提取准确率,在时间域实行时间复合操作,实现信息冗余。在变换不同频率约束模板对视频帧的频域幅值进行约束处理时,采用每隔连续4帧图像再变换频率约束模板的形式进行,从而实现时间域的信息冗余。

图 3. 画中画检测

Fig. 3. Image of image detection

下载图片 查看所有图片

2.2 信息提取

针对频率约束的信息嵌入算法,设计与之对应的提取算法。首先对采集的视频进行预处理,再提出频率域的能量统计直方图分析方法,对频率进行统计,分析出频率是否进行约束成形,从而实现信息的初步提取。

2.2.1 预处理

在信息嵌入步骤完成后,将各帧YUV分量矩阵重新合成视频,并在屏幕发送端上播放,利用相机在远处对测试序列进行拍摄捕获。翻拍操作后的采集数据会出现画中画问题,造成有效画面占整帧画面比例的下降,不利于信息的提取;因此,检测到屏幕位置,定位有效画面是信息提取步骤的基础。本文采用文献[ 17]中的画中画检测方法来定位屏幕位置,图3所示为定位效果。

图 4. 正负训练特征的提取。(a)训练块;(b)训练特征;(c)正负样本

Fig. 4. Extraction of training feature. (a) Training block; (b) training feature; (c) positive and negative samples

下载图片 查看所有图片

2.2.2 能量统计直方图

利用能量统计直方图方法从频域幅值图中提取出D维频率幅值信息,将其作为一种检测特征分量。对频率幅值图的每分块用如下公式提取特征向量:

Sk=u=Q-r+n(k-1)Q-r+nk-1 v=wlF'(u,v),Q-riQ+z,(8)

式中F'是翻拍视频的频率幅值矩阵,Sk是特征向量中第k个特征点,Q为截断参数,n为统计单位间隔,lw分别是列上下限,rz分别是行上下限,图像每块特征点数为D=(z+r+1)/n图4所示为正负训练特征的提取示例。每分块均为一个训练块,图4(a)为已约束区域的模拟数据,用能量统计直方图的方法对其提取D维频率幅值信息并进行最小二乘法曲线拟合。将未约束块数据作为负样本,约束块信息作为正样本。两者的能量曲线存在明显差别,正样本有较明显截断点,负样本更平缓,所以可将曲线拟合信息作为另一种检测特征分量。曲线拟合公式为

minfi=1Dφi=i=1Df(xi)-Si,(9)

式中f为拟合曲线,φi=f(xi)-Si是特征点Si处的偏差。将拟合曲线fM个参数与D个频率幅值分量串联作为最终检测特征。为了加快训练时收敛速度,将特征向量进行归一化,最后得到特征向量:

S=(S1,S2,,SD+M)(10)

2.3 纠错机制

由于算法的时间信息冗余,即有连续4帧采用的是相同频率约束模板,所以对特征进行支持向量机(SVM)训练提取初步信息后,增加了时间域纠错机制步骤。利用信息冗余来提高信息检测准确率。最后将可以确定所属类别的原测试集帧作为第二次训练的训练集,未确定的原测试集帧再次作为测试集,然后获得未确定帧的新一轮检测。

图 5. 时间域纠错机制

Fig. 5. Corrective mechanism of time domain

下载图片 查看所有图片

图5所示为时间域纠错,B1、B2等表示分块所处图像位置,黑色表示此位置进行约束,白色表示此区域无约束。R帧的4个区域都进行了约束处理,而后4帧采用相同的约束模板。在进行视频采集时,由于前后帧相同区域有可能是不同约束情况,如R帧的B1是黑色,R+1帧的B1是白色,采集结果很有可能是灰色,导致检测结果为1,出现检测错误情况。利用时间冗余特点,对4帧赋予不同权重,因为第一帧和最后一帧易出现错误,所以α<β,判断分类情况如下:

B1α+B2β+B3β+B4α2β,(11)B1α+B2β+B3β+B4α2α,(12)

式中B1B2B3B4分别表示B1、B2、B3、B4区域被检测分类情况,取值为0或1。满足(11)式,则分类为1;满足(12)式,则分类为0。若两者均不满足,则不进行纠正。根据权重求和调整初步提取信息,得到二次标定结果,然后重复SVM训练,得到最终结果。

3 实验结果及分析

本文实验使用的测试序列共16个,既包括静态场景和动态场景,又包括纹理丰富和平坦视频,且均为352 pixel×288 pixel大小的YUV格式。每个序列有96个样本,所以总共有1536个样本。16个测试序列如图6所示。

图 6. 测试序列

Fig. 6. Test sequence samples

下载图片 查看所有图片

实验中约束模板块采用2 pixel×2 pixel模式。按照(5)式和(6)式进行约束,以及(7)式进行特征提取。在此实验环境下,根据一定的实验经验和结果,选择实验参数:k=14,Q=70,r=20,z=50,w=1,l=70,n=5。距离远近对算法来说是稳健性强弱的具体表现。距离越远,相机对屏幕的信息采集越困难,提取信息亦越困难。在公共电子屏面前,2 m距离已有实际应用的条件(更短的距离检测效果会更好,更远的距离检测准确率还有所欠缺)。因此,测试视频在距离屏幕2 m处、帧率为30 frame/s、屏幕刷新率为60 Hz的情况下进行拍摄。实验设置如图7所示,发送器分辨率为1600 pixel × 900 pixel,接收器分辨率为1920 pixel ×1088 pixel。

图 7. 实验设置

Fig. 7. Experiment setting

下载图片 查看所有图片

测试样本集进行0或者1的对应标记。对标记后的测试集用SVM训练模型进行分类和预测。因为有16个测试序列,所以采用十六折交叉验证方法。测试序列分为16个子集,每个子集均做一次测试集,其余作为训练集。交叉验证重复16次,并将16次的平均交叉验证识别正确率作为结果。最后对预分类结果进行纠错实现二次标记,重复SVM训练,得到最终结果。

实验的评估指标有处理视频的频率波动程度和准确率两方面。在发送端,将频率波动程度作为评估标准。因为现在还没有评价视频的客观标准,所以通过观察者的视觉体验评价视频质量。在帧率为30 frame·s-1、屏幕刷新率为60 Hz的普通情况下,所有的测试视频在距离屏幕2 m远处观察均没有频率波动情况,近距离观察时,纹理少的视频有轻微频率波动,纹理丰富的视频几乎无频率波动。总体展现的效果显示,该算法具有良好的不可见性。在接收端,以准确率作为评估标准。

本文算法得到的实验结果如表1所示。表1的第一列表示16个测试序列的名称,第二列表示将特征进行SVM训练直接检测的准确率,第三列表示对SVM训练直接的检测结果再进行纠错的准确率,第四列表示纠错后再进行二次训练的分类准确率。

表 1. 实验结果准确率

Table 1. Accuracy of experimental results%

Test videoSVM classificationCorrectionCorrection+Retrain
Akiyo98.9583100.0000100.0000
Bus83.333391.666797.9167
Container91.666793.7500100.0000
Cosatguard94.791795.8333100.0000
Flower88.541792.708396.8750
Hall81.250079.166789.5833
Highway77.083377.083375.0000
Mobile81.250090.625092.7083
Mother89.583391.666791.6667
News89.583390.625096.8750
Silent93.750097.916796.8750
Stefen97.9167100.0000100.0000
Tempete97.916797.9167100.0000
Waterfall90.625094.7917100.0000
Blue_sky89.583390.625092.7083
Crowd_run88.541791.666791.6667
Average89.648492.252695.1172

查看所有表

表1记录了16个测试序列在本算法下的检测准确率。从实验结果看,在检测距离为2 m的情况下,平均准确率达95.1172%,而且大多数样本的准确率在90%以上,取得理想的结果。同时,只进行SVM训练的平均准确率为89.6484%,在此基础上进行纠错得到的平均准确率为92.2526%,再加上二次训练算法得到的平均准确率为95.1172%,这说明纠错机制和二次训练起到了提高准确率的作用,算法中时间冗余的设计是有效和必要的。总体结果说明,该方法具有强稳健性,能抵抗翻拍操作所引进的各种噪声(如旋转、缩放、模/数和数/模转换等)影响,改进了利用光谱进行1 m内短距离通信的弊端。

对本文算法具稳健性和可行性作深层次理论剖析。相机与屏幕的通信过程涉及的噪声对频率的影响类似于低通滤波器,存在固有截止频率,本文算法也相当于低通滤波器,截断参数Q是截止频率,只要Q小于固有截止频率,便可通过噪声的干扰被检测到,从而完成信息传递。但一些测试视频结果相比其他视频较差,如Highway视频。这是由于视频内容为快速运动,相机在采集信息的过程中出现了运动模糊,对连续帧进行了融合采集,嵌入信息的杂糅使得本文算法在提取运动模糊帧中的信息时出现问题。

将本文算法与目前效果较好的InFrame++[11]、HiLight[12]、ImplicitCode[18]算法等进行比较,在检测距离和检测准确率方面的比较结果如图8所示。

图 8. 对比实验

Fig. 8. Comparative experiment

下载图片 查看所有图片

检测距离和准确率是一对矛盾变量,在应用中要根据实际需求进行平衡。由图8可以看出,三种对比算法在短距离内都可达到较好的实验结果。相较而言,本文算法不仅能达到较好的准确率,还能在更远距离实现该效果,说明本文算法在抗击引进的噪声方面更具稳健性。

4 结论

提出了一种新颖的相机与屏幕通信框架,该方法是一种跨学科的方法,将计算机视觉(隐写、目标检测)和通信原理相结合。采用视觉多输入多输出的概念,其中屏幕是发送端,摄像机是接收端。以这种方式,计算机视觉技术可以与来自无线通信的原理相结合,以创建光视线通信信道。在光视线通信信道下,提出基于频率约束的相机与屏幕通信隐写方法。设计频率约束方法进行嵌入、能量统计图分析法进行信息提取,再结合纠错机制和二次训练提高准确率。在2 m远处通信,能获得95%左右的准确率,说明该算法具有强稳健性。同时,信息嵌入具有不可见性,不影响视频的原使用价值。信息传输容量取决于约束模板分块的密集程度,实验中使用的约束模板所传输信息容量偏小。同时,约束模板的分块情况也会影响稳健性:容量和稳健性是一对矛盾的存在。此外,快速运动内容造成的运动模糊也会导致隐写内容提取困难。因此,如何寻找算法的平衡点,增加信息容量,克服运动模糊带来的影响是后续算法提升和改进的方向。

参考文献

[1] 丁伟利, 王明魁, 谷朝, 等. 一种多目标QR码图像快速校正方法[J]. 光学学报, 2017, 37(10): 1010001.

    Ding W L, Wang M K, Gu C, et al. A fast image correction method for multi target QR code[J]. Acta Optica Sinica, 2017, 37(10): 1010001.

[2] 王红娟, 王志鹏, 张颖颖, 等. 利用QR码在光学干涉多图像加密系统中实现信息高质量恢复[J]. 光学学报, 2014, 34(9): 0907001.

    Wang H J, Wang Z P, Zhang Y Y, et al. Using QR code to achieve high quality information recovery in optical interference multi image encryption system[J]. Acta Optica Sinica, 2014, 34(9): 0907001.

[3] 李建华, 张郁天, 伊煊, 等. 激光标刻铝锭二维码图像灰度与加工参数计算模型[J]. 激光与光电子学进展, 2017, 54(7): 071203.

    Li J H, Zhang Y T, Yi X, et al. Calculation model of gray scale and processing parameters for laser marking two-dimensional code image of aluminum ingot[J]. Laser & Optoelectronics Progress, 2017, 54(7): 071203.

[4] RekimotoJ, AyatsukaY. Cybercode: designing augmented reality environments with visual tags[C]∥ Proceedings of DARE 2000 on Designing Augmented Reality Environments, 2000: 1- 10.

[5] ChaisatienP, AkahoriK. Introducing QR code in classroom management and communication via mobile phone application system[C]. World Conference on Educational Media and Technology, 2006: 2181- 2187.

[6] Tarjan L, Senk I, Tegeltija S, et al. A readability analysis for QR code application in a traceability system[J]. Computers & Electronics in Agriculture, 2014, 109: 1-11.

[7] Pulliam B, Landry C. Tag, you're it! Using QR codes to promote library services[J]. Reference Librarian, 2010, 52(1/2): 68-74.

[8] Avant O L, Boldt R W, Brandt B A, et al. Apparatus and methods for identifying and processing mail using an identification code: US8227718[P/OL]. 2012- 07- 24[2017-10-16]. http://www.google.co.in/patents/US8227718.

[9] Iogear. QR codes improve shopping experience[EB/OL]. [ 2017- 10- 16]. http://www.iogear.com/blog/2011/03/15/qr-codes-improve-shopping-experience/.

[10] WooG, LippmanA, RaskarR. VRCodes: unobtrusive and active visual codes for interaction by exploiting rolling shutter[C]∥ Proceedings of the 2012 IEEE International Symposium on Mixed and Augmented Reality, 2012: 59- 64.

[11] WangA, LiZ, PengC, et al. InFrame++: achieve simultaneous screen-human viewing and hidden screen-camera communication[C]∥ Proceedings of the 13th Annual International Conference on Mobile Systems, Applications, and Services, ACM, 2015: 181- 195.

[12] LiT, AnC, XiaoX, et al. Real-time screen-camera communication behind any scene[C]∥ Proceedings of the 13th Annual International Conference on Mobile Systems, Applications, and Services, ACM, 2015: 197- 211.

[13] NguyenV, TangY, AshokA, et al. High-rate flicker-free screen-camera communication with spatially adaptive embedding[C]. IEEE INFOCOM 2016,The 35th Annual IEEE International Conference on Computer Communications, 2016: 1- 9.

[14] 谢建全, 谢勍, 田立军. 离散余弦变换域隐藏算法隐藏容量与频域系数选择研究[J]. 计算机应用, 2011, 31(4): 963-965.

    Xie J Q, Xie Q, Tian L J. The discrete cosine transform domain hiding algorithm hiding capacity and frequency coefficient[J]. Application Research of Computers, 2011, 31(4): 963-965.

[15] Wang Y, Yu N, Wang T. Ada-Sal Network: emulate the human visual system[J]. Signal Processing: Image Communication, 2016, 47: 519-528.

[16] 向方明, 朱遵义, 许敬, 等. YUV到RGB颜色空间转换算法研究[J]. 现代电子技术, 2012, 35(22): 65-68.

    Xian F M, Zhu Z Y, Xu J, et al. Research on algorithm of color space conversion from YUV to RGB[J]. Modern Electronics Technique, 2012, 35(22): 65-68.

[17] YuanW, DanaK, AshokA, et al. Dynamic and invisible messaging for visual MIMO[C]. Applications of Computer Vision, IEEE, 2012: 345- 352.

[18] ShiS, ChenL, HuW, et al. Reading between lines: high-rate, non-intrusive visual codes within regular videos via ImplicitCode[C]. ACM International Joint Conference on Pervasive and Ubiquitous Computing, ACM, 2015: 157- 168.

褚晶辉, 田叶, 苏育挺. 基于频率约束的相机与屏幕通信隐写算法[J]. 激光与光电子学进展, 2018, 55(5): 051003. Jinghui Chu, Ye Tian, Yuting Su. Screen-Camera Communication Steganography Based on Frequency Constraint[J]. Laser & Optoelectronics Progress, 2018, 55(5): 051003.

本文已被 1 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!