基于感兴趣区域的360°全景视频编码 下载: 1676次
1 引言
近年来,360°全景视频以其高分辨率、沉浸式特点引起了人们的广泛关注[1],其覆盖水平360°和垂直180°拍摄范围,可称之为虚拟现实(VR)或球面全景[2]。球面全景视频通常是使用多个相机拍摄周围场景后应用视频拼接技术得到一幅具有大视场、高分辨率和沉浸式特点的视频[3-5]。该视频普遍采用4 K或8 K的分辨率和支持10 bit以上的高动态显示范围[6],如此高分辨率和像素深度给编码传输带来了新的挑战。
目前针对全景视频的压缩主要分两类:1) 针对用户观看时的视口进行高效压缩;2) 针对等矩形投影面的高效压缩,如对等矩形投影视频[7]、立方体投影视频[8]进行压缩。Zare等[9-10]提出了针对视口的编码方案,根据视口观看位置分别编码传输该位置所对应的Tile块数据,避免了因传输整幅图像而占用过多带宽的问题,但由于对图像中部区域分配较大的码率而上下两部分区域采用较低的码流,会导致观看上下两部分时出现画面质量较差的情况。Budagavi等[11]提出将等矩形格式视频基于不同区域采用不同尺度的高斯滤波后再进行编码,其采用的低通滤波会造成画面模糊,对于图像细节部分损伤较大。Li等[12]提出将等矩形格式视频按照高度分成三部分,中间部分保持原始宽度,将等矩形投影上下两部分内容分别压缩成两个圆形。Lee等[13]提出将等矩形投影中的像素基于纬度下采样后重新密集排布以减少原等矩形投影存在的冗余像素过多问题,然而,后两种方法都是通过降低等矩形投影面中冗余像素面积以达到提高编码性能的目的,但没有考虑图像压缩过程对人眼较为关注区域画面质量造成的影响。
对全景视频的研究目前大都局限于上述两个方向,却鲜有利用视觉感知特性进行360°全景视频编码的研究。考虑到大部分全景视频存在相机固定拍摄,画面内容和场景的背景较简单这一特点,本文提出一种基于感兴趣区域(ROI)的360°全景视频编码方法,该方法使用编码残差信息提取ROI,利用从球面投影到等矩形平面后不同纬度处存在不同程度的像素冗余作为非ROI量化参数的调节因子,使用360°全景视频质量评价方法--加权球面峰值信噪比(WS-PSNR)[14]、球面峰值信噪比(S-PSNR)[15]以及基于结构相似性的结构相似性(SSIM)[16]进行客观质量评价。结果显示,本文方法能够实现视频数据进一步压缩,同时能够显著提高ROI画面质量。
2 基于ROI的360°全景视频编码方法
针对目前全景视频编码过程较少考虑保护ROI区域质量的问题,提出一种基于ROI的360°全景视频编码方法,其算法框架如
2.1 360°全景视频中ROI提取
现有的全景视频拍摄主要分为相机位置固定和可移动两类。如
图 2. 360°全景图展示[18]。(a) Building序列(相机固定);(b) glacier序列(相机可移动);(c) jump序列(相机固定);(d) balloning序列(相机可移动)
Fig. 2. 360° image sequences. (a) Building sequence for camera fixed; (b) glacier sequence for camera not fixed; (c) jump sequence for camera fixed; (d) ballooning sequence for camera not fixed
全景视频画面中大部分区域是天空、地面这些纹理比较简单的区域,相比之下人眼更关注,纹理较复杂的区域。针对全景视频具有如此特点的ROI,首先求取一帧原始图像的灰度图
图 3. ROI提取效果。(a) Building序列;(b) glacier序列
Fig. 3. Extracting results of ROI. (a) Building sequence; (b) glacier sequence
2.2 ROI的QP分配策略
由于编码参数QP的调整直接影响重建视频的质量,所以ROI应该分配更多的码流以保证画面质量。ROI设置统一的QP值,容易导致ROI块与非ROI块之间出现明显的块效应,并且ROI内部也应该具有不同的感兴趣程度。基于该思路,本文方法采用ROI区域
式中
2.3 非ROI的QP分配策略
球面投影到等矩形平面后,由于各个纬度采用不同程度像素采样,等矩形平面中不同区域存在不同像素冗余,等矩形投影中不同高度处像素冗余程度可以用1/cos
仿照(3)式,设
为了与提取ROI一致,只求取每个块左上角处的
式中
3 实验结果与分析
为了验证算法的有效性,分别实现HM15.0标准测试平台编码和经本文方法改进的HM15.0平台,全帧内编码模式下以原HM15.0标准测试平台实现的结果作为比较。QP依次设置为22、27、32和37,使用
图 4. 分辨率为3840 pixel×1920 pixel的图像QP偏移值
Fig. 4. Distribution of QP offset for image with resolution of 3840 pixel×1920 pixel
表 1. 全景视频序列信息[18]
Table 1. Panoramic video sequence information
|
每个序列第一帧使用HM15.0标准测试模型编码,从第二帧开始使用所提算法进行编码。首先提取ROI并分配对应级别ROI的相应
接着基于纬度调整非ROI的
本文编码方案目标是保证视频感知质量不下降的情况下,降低视频编码的码率。
表 2. 本文方法和原始HM15.0平台的对比结果
Table 2. Comparison results of proposed method and original HM15.0
|
S-PSNR是针对360°全景视频提出的一种客观质量评价方法,使用S-PSNR进行评价时,首先从球面上选取655362个均匀分布的采样点,利用采样点计算S-PSNR,对于球面上的采样点
从
为了检验算法对视频的感知质量的提升效果,对比本文方法与文献[
20]方法,结果如
式中
表 3. 本文方法和文献[ 20]方法的对比结果
Table 3. Comparison results of proposed method and Ref. [20]%
|
由
图 5. 部分序列率失真性能。(a) Glacier序列;(b) building序列
Fig. 5. BD-rate performance of glacier and building sequences. (a) Glacier sequence; (b) building sequence
图 6. Glacier序列第8帧原始图及ROI局部放大图。(a)原始视频;(b)局部视口放大图;(c) HM15.0重建帧;(d)本文算法重建帧
Fig. 6. Local enlarged drawing of ROI and original 8th frame of glacier sequence. (a) Original frame; (b) enlarged drawing of local viewport; (c) reconstructed frame using HM15.0; (d) reconstructed frame using proposed method
4 结论
提出了一种基于ROI提取的全景视频编码方法,该方法使用当前帧编码残差信息提取ROI,利用等矩形投影不同纬度存在的像素冗余指导非ROI的QP分配,结合ROI与非ROI的QP分配策略对全景视频进行编码,实现了更好地保护ROI质量的目的。实验结果表明,本文方法有效降低了码率,同时更好地保持了图像的感知质量。
本文算法是在等矩形平面内基于LCU级别的,然而等矩形投影存在较多冗余像素限制了编码效率的进一步提升。后续研究可以使用如立方体投影或八面体投影等冗余像素少的投影面,进行基于整幅图像的ROI提取编码。
[1] JärvinenA. Virtual reality as trend contextualising an emerging consumer technology into trend analysis[C]. IEEE Future Technologies Conference, 2016: 1065- 1070.
[2] 陈继华, 郭文松. 基于摄影经纬仪的全景图像拼接方法[J]. 激光与光电子学进展, 2016, 53(5): 051001.
[3] 蒋欣兰, 王胜春, 罗四维, 等. 车载前向运动视频的实时全景成像方法[J]. 光学学报, 2017, 37(5): 0515003.
[4] 张春萍, 王庆. 光场相机成像模型及参数标定方法综述[J]. 中国激光, 2016, 43(6): 0609004.
[5] 肖朝, 陈锋, 钟敏, 等. 基于鱼眼相机的全景显示系统几何校正方法[J]. 激光与光电子学进展, 2017, 54(2): 021501.
[6] See ZS, BillinghurstM, Cheok AD. Augmented reality using high fidelity spherical panorama with HDRI[C]∥SIGGRAPH Asia 2015 Mobile Graphics and Interactive Applications, 2015: 14.
[7] NakazawaM, KoikeH. Synthesizing fixed point of views from a spinning omnidirectional ball camera[C]∥Proceedings of the 8 th Augmented Human International Conference , 2017: 32.
[8] YeY, AlshinaElena, BoyceJill. Algorithm descriptions of projection format conversion and video quality metrics in 360Lib[C]. Joint Video Exploration Team of ITU-T SG, 2017, 16.
[9] ZareA, AminlouA, Hannuksela MM, et al. HEVC-compliant tile-based streaming of panoramic video for virtual reality applications[C]∥Proceedings of the 2016 ACM on Multimedia Conference, 2016: 601- 605.
[10] ZareA, Sreedhar KK, Vadakital V K M, et al. HEVC-compliant viewport-adaptive streaming of stereoscopic panoramic video[C]. IEEE Picture Coding Symposium (PCS), 2016: 1- 5.
[11] BudagaviM, FurtonJ, JinG, et al. 360 degrees video coding using region adaptive smoothing[C]. IEEE International Conference on Image Processing, 2015: 750- 754.
[12] LiJ, WenZ, LiS, et al. Novel tile segmentation scheme for omnidirectional video[C]. 2016 IEEE International Conference on Image Processing, 2016: 370- 374.
[14] ZakharchenkoV, Choi KP, Park JH. Quality metric for spherical panoramic video[C]. SPIE, 2016, 9970: 99700C.
[15] YuM, LakshmanH, GirodB. A framework to evaluate omnidirectional video coding schemes[C]. 2015 IEEE International Symposium on Mixed and Augmented Reality, 2015: 31- 36.
[16] 薛小波, 郁梅, 何美伶. 基于仿视觉细胞模型的立体图像质量评价方法[J]. 激光与光电子学进展, 2016, 53(4): 041004.
[17] 蒋刚毅, 朱亚培, 郁梅, 等. 基于感知的视频编码方法综述[J]. 电子与信息学报, 2013, 35(2): 474-483.
Jiang G Y, Zhu Y P, Yu M, et al. Perceptual video coding: a survey[J]. Journal of Electronics & Information Technology, 2013, 35(2): 474-483.
[18] AbbasA. GoPro test sequences for virtual reality video coding[C]. Joint Video Exploration Team (JVET) of ITU-T VCEG and ISO/IEC MPEG, Geneva, 2016.
[19] Simone FD, FrossardP, WilkinsP, et al. Geometry-driven quantization for omnidirectional image coding[C]. IEEE Picture Coding Symposium (PCS), 2016: 1- 5.
[20] RacapéF, GalpinF, RathG, et al. AHG8: adaptive QP for 360 video coding[C]. Joint Video Exploration Team (JVET) JVET-F0038, m40327, 2017.
吴志强, 郁梅, 姜浩, 陈芬, 蒋刚毅. 基于感兴趣区域的360°全景视频编码[J]. 激光与光电子学进展, 2018, 55(6): 061013. Zhiqiang Wu, Mei Yu, Hao Jiang, Fen Chen, Gangyi Jiang. 360° Panoramic Video Coding Based on Region of Interest[J]. Laser & Optoelectronics Progress, 2018, 55(6): 061013.