基于多尺度在线字典学习的可分级视频编码系统.pdf

摘要
申请专利号：	CN201410331199.6	申请日：	2014.07.11
公开号：	CN104199627A	公开日：	2014.12.10
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 3/14申请日:20140711\|\|\|公开
IPC分类号：	G06F3/14	主分类号：	G06F3/14
申请人：	上海交通大学
发明人：	熊红凯; 唐欣
地址：	200240 上海市闵行区东川路800号
优先权：
专利代理机构：	上海汉声知识产权代理有限公司 31236	代理人：	郭国中
PDF下载：	PDF下载

内容摘要

本发明提供了一种基于多尺度在线字典学习的可分级视频编码系统，其中：基于层次化稀疏的多尺度训练集构造模块利用小波变换获得图像不同尺度上的层次化稀疏结构，通过高斯差分滤波器组提取方向能量获得图像中的基元区域，截取基元区域的图像块生成多尺度训练集，在线字典学习模块利用随机梯度下降法保证了在低复杂度下迭代优化字典原子，生成多尺度训练集对应的子字典基，跨尺度视频帧重构模块对低频视频帧通过构造的子字典基学习到不同层次的丢失高频信息，通过不同级数的小波逆变换重构，实现视频质量可分级的目的。本发明降低了基于学习的超分辨率算法的复杂度，在不同的传输速率下相比H.264取得了重构质量增益，具备良好的可扩展性。

权利要求书

1.  一种基于多尺度在线字典学习的可分级视频编码系统，其特征在于所述系统包括：基于层次化稀疏的多尺度训练集构造模块、在线字典学习模块以及跨尺度视频帧重构模块，其中：
所述基于层次化稀疏的多尺度训练集构造模块利用多级小波变换获得图像不同尺度上的层次化稀疏结构，通过高斯差分滤波器组提取方向能量获得图像中的基元区域，截取基元区域的图像块生成多尺度训练集；
所述在线字典学习模块利用随机梯度下降法保证了在低复杂度下迭代优化字典原子，通过在线字典学习算法对不同尺度的训练集进行字典学习，生成对应的多尺度子字典基；
所述跨尺度视频帧重构模块对低频视频帧通过构造的子字典基学习到不同层次的丢失高频信息，通过不同级数的小波逆变换重构，实现视频质量可分级的目的。

2.  根据权利要求1所述的一种基于多尺度在线字典学习的可分级视频编码系统，其特征在于，所述的基于层次化稀疏的多尺度训练集构造模块实现由在重构的关键帧上通过K阶小波变换得到图片的低频子带和3个方向上的K-1阶高频子带，对于每一个子带通过高斯滤波器进行基元块的提取和方向分类，不同尺度的每个方向类中的基元块对应于一个子训练集，同时在子训练集上训练得到的字典基上具有层次化稀疏结构。

3.  根据权利要求2所述的一种基于多尺度在线字典学习的可分级视频编码系统，其特征在于，所述的基于小波变换的多尺度训练集构造通过小波变换、基元块提取和分类方法对整个重构关键帧进行操作来实现。

4.  根据权利要求1-3任一项所述的一种基于多尺度在线字典学习的可分级视频编码系统，其特征在于，所述的在线字典学习模块实现由随机梯度下降法实现稀疏表示误差的最小化，它能够适应性的表示出高维信号的内在结构，相对于固定基能更有效地稀疏表示视频信号，这种在过完备学习字典基矩阵上的稀疏表示是具有结构化稀疏的。

5.  根据权利要求4所述的一种基于多尺度在线字典学习的可分级视频编码系统，其特征在于，所述的在线字典学习模块能够在每一次迭代中仅基于当前训练块最小化代价函数，单独作用于不同的子训练集组得到不同的子字典对。

6.  根据权利要求1-3任一项所述的一种基于多尺度在线字典学习的可分级视频编码系统，其特征在于，所述的跨尺度视频帧重构模块通过一种凸松弛算法模型实现的，找到的最优的稀疏表示稀疏乘以对应子字典基，通过不同阶数的小波逆变换就是要得到可分级的重构信号。

说明书

基于多尺度在线字典学习的可分级视频编码系统
技术领域
本发明涉及可分级视频编码方案，具体地，涉及一种基于多尺度在线字典学习的可分级视频编码系统。
背景技术
随着HEVC标准的完善，HEVC的可分级编码方案的制定同样受到了广泛的关注。为了自适应的满足不同传输特性的异构网络上的视频传输要求和不同客户端的应用要求，视频编码的可分级性具有很高的理论研究以及实际应用价值。从H.264/AVC到HEVC，越来越成熟的帧间和帧内预测方法提高了率失真表现，例如自适应的核函数：MDDT、ROT和自适应的DCT/DST变换等，其本质是如何有效的通过分析字典基或学习字典基的线性组合有效且稀疏地表达自然信号的问题，在解码端通过相邻或当前帧的本地或非本地样本块来预测最可能的视频图像块。近几年热门的超分辨率重构技术证明了字典学习算法能够有效地通过非参数的方式对稀疏采样的低分辨率图像和高分辨率图像之间的相关性进行估计。
经过对现有技术的文献检索发现，现有的两个主流的可分级视频编码方案为亚洲微软研究院Ruiqin Xiong,Jizheng Xu,Feng Wu和Shipeng Li在2007年的《IEEE Transactions on Circuits and Systems for Video Technology》(TCSVT)期刊上发表的“Barbell-Lifting Based3-D Wavelet Coding Scheme”一文中提出了基于3-D wavelet变换分级的可分级视频编码架构，以及德国Heinrich-Hertz Institute(HHI)Schwarz,H.Marpe,D.Wiegand,T.在2007年的《IEEE Transactions on Circuits and Systems for Video Technology》(TCSVT)期刊上发表的“Overview of the Scalable Video Coding Extension of the H.264/AVC Standard”一文中提出的基于H.264的编码方案。然而传统的DCT变换以及2-D离散小波变换只能捕捉到边缘的一维奇异点，无法有效的表示二维乃至高维图像边界的光滑性。因此Elad等人于2011年在《IEEE Journal of Selected Topics in Signal Processing》上发表的“Multi-Scale Dictionary Learning Using Wavelets”一文中提出了基于小波分解的多尺度学习字典方法，通过构造分层稀疏的结构，自适应地对不同尺度图像信息进行学习，结合分析字典的固定基以及学习字典的自适应基，天然的实现对天然信号尺度渐进逼近，同时获得比单尺度学习字典基和小波基更好的稀疏分解和重建效果。但该多尺度学习字典仅适用于图像的稀疏表示，无法应用在视频编码和压缩中。
发明内容
针对现有技术中的缺陷，本发明的目的是提供一种基于多尺度在线字典学习的可分级视频编码系统，可以有效提高视频信号编码效率以及重构系统的主客观质量，并可作为一种通用的质量可分级视频编码工具。
为实现以上目的，本发明提供一种基于多尺度在线字典学习的可分级视频编码系统，包括：基于层次化稀疏的多尺度训练集构造模块、在线字典学习模块以及跨尺度视频帧重构模块，其中：
所述基于层次化稀疏的多尺度训练集构造模块利用多级小波变换获得图像不同尺度上的层次化稀疏结构，通过高斯差分滤波器组提取方向能量获得图像中的基元区域，截取基元区域的图像块生成多尺度训练集；
所述在线字典学习模块利用随机梯度下降法保证了在低复杂度下迭代优化字典原子，通过在线字典学习算法对不同尺度的训练集进行字典学习，生成对应的多尺度子字典基；
所述跨尺度视频帧重构模块对低频视频帧通过构造的子字典基学习到不同层次的丢失高频信息，通过不同级数的小波逆变换重构，实现视频质量可分级的目的。
优选地，所述的基于层次化稀疏的多尺度训练集构造模块，该模块实现由在重构的关键帧上通过K阶小波变换得到图片的低频子带和3个方向上的K-1阶高频子带，对于每一个子带通过高斯滤波器进行基元块的提取和方向分类，不同尺度的每个方向类中的基元块对应于一个子训练集，同时在子训练集上训练得到的字典基上具有层次化稀疏结构。
更优选地，所述的基于小波变换的多尺度训练集构造可以通过小波变换、基元块提取和分类方法对整个重构关键帧进行操作来实现。
优选地，所述的在线字典学习模块，该模块实现由随机梯度下降法实现稀疏表示误差的最小化，它能够适应性的表示出高维信号的内在结构，相对于固定基能更有效地稀疏表示视频信号，这种在过完备学习字典基矩阵上的稀疏表示是具有结构化稀疏的。
更优选地，所述的在线字典学习模块能够在每一次迭代中仅基于当前训练块最小化代价函数，降低了计算复杂度和空间使用率，单独作用于不同的子训练集组得到不同的子字典对。
优选地，所述的跨尺度视频帧重构模块通过一种凸松弛算法模型实现的，找到的最优的稀疏表示稀疏乘以对应字典学习得到的子字典基，通过不同阶数的小波逆变换就是要得到可分级的重构信号。
本发明系统为视频信号的编码压缩提供了通用的解决方案。本发明所使用的基于层次化稀疏的多尺度训练集构造模块可以通过小波变换、基元块提取和分类方法对整个重构关键帧进行操作得到的，充分利用了视频帧块的块结构稀疏，以及小波变换不同阶层子带间的层次化结构稀疏，实现了多尺度字典字典对的低频子带和高频子带映射；另一方面，鉴于在线字典学习在训练字典对过程中发挥的重要作用，本发明通过在线字典学习的方法对每个子带的每个方向中的训练集单独进行学习得到相应的基进而得到多尺度中每一个尺度的稀疏表示完备字典基，这样能够使得帧块信号具有适应性稀疏表示，并且该稀疏表示具有结构性，进而提高视频中自然信号的表示精确性，还能加速凸松弛重构算法的收敛及稳定性，有助于本发明可分级视频编码的性能及实用性的提升。
与现有技术相比，本发明具有如下的有益效果：
本发明大大提高了重构性能，与传统的使用固定基或者小波基进行重构的视频压缩传感系统相比，由于本发明的重构采用的是适应性的全局最优的基因此在重构效果上均能够得到增强；对于其它高维信号，本发明通过适当的修改也可使用，具有较强的适应性；在重建时由于多尺度字典基的特殊构造，使得信号具有结构性的稀疏表示，因此本发明在相同的编码速率的情况下可以进一步提高重构质量，同时也具备良好的可扩展性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：
图1为本发明一实施例的基于层次化稀疏的多尺度训练集构造模块以及在线字典学习模块的结构框图；
图2为本发明一实施例的跨尺度视频帧重构模块的结构框图；
图3为本发明一实施例的跨尺度视频帧重构模块对尺度间系数延展示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1、图2所示，本实施例提供一种基于多尺度在线字典学习的可分级视频编码系统，包括：基于层次化稀疏的多尺度训练集构造模块、在线字典学习模块以及跨尺度视频帧重构模块，其中：
所述基于层次化稀疏的多尺度训练集构造模块利用多级小波变换获得图像不同尺度上的层次化稀疏结构，通过高斯差分滤波器组提取方向能量获得图像中的基元区域：OEσ,θ=(I×fσ,θodd)2+(I×fσ,θeven)2]]>对基元区域提取7*7的图像块，式中和是尺度σ和方向θ上的一阶和二阶高斯差分滤波器，基元图像块生成多尺度训练集；
所述在线字典学习模块利用随机梯度下降法保证了在低复杂度下迭代优化字典原子，通过在线字典学习算法对不同尺度的训练集进行字典学习，生成对应的多尺度子字典基；
所述跨尺度视频帧重构模块对低频视频帧通过构造的子字典基学习到不同层次的丢失高频信息，通过不同级数的小波逆变换重构，实现视频质量可分级的目的。
本实施例中，所述的基于层次化稀疏的多尺度训练集构造模块以及在线字典学习模块如图1所示，对于一段序列的视频帧，选出一个子集作为关键帧，在解码端对关键帧做K阶小波变换，获得一个低频子带和(K-1)*3个方向上的高频子带，通过小波逆变换获得不同阶数的小波重构信号，依次与前一阶的重构信号相减，得到每一层上重构获得的高频信息增益。对每一层上的高频信息增益中对应于低频子带的相同位置通过高斯滤波器进行边缘和纹理检测获得基元块，得到多尺度训练集每一个子训练集对应第i阶小波逆变换所获得的高频信息的结构块，对应于低频子带结构块的高频信息都可以通过对应的高频训练集中的原子线性表示。
本实施例中，所述的在线字典学习模块是为了从大样本的训练集中学习到一个自适应的完备字典基，能够在可接受的误差内稀疏的表示图像视频块。对应训练集x=[x₁，x₂，...，x_n]，传统的基于批量梯度下降法通过迭代减少经验代价函数优化字典原子，其中D为信号表示的字典基，代价函数表示稀疏编码的误差度，α为稀疏表示系数，然而这种每次迭代中都基于整个训练集的方法有着很高的计算复杂度和空间占用率。在线字典通过在每次迭代中随机选择一个样本块来优化近似期望代价函数基于随机梯度下降法更新字典原子φ_t为学习率，为对D求偏导，降低了计算复杂度和空间占用率，同时可以证明在样本数足够大的情况下近似期望代价函数收敛到0。其稀疏编码算法由LARS算法实现，字典原子更新过程由块坐标梯度下降法(block-coordinate gradient descent)实现。
如图3所示，小波变换的子带间有着系数的延展性，因此在构造字典时考虑对应坐标位置的高-低频图像块能够用基于字典对上相同的稀疏表示来进行逼近。因此通过对低频子带的训练集进行学习，得到低频字典基以及训练集在其上最优的l₁范数最小的稀疏表示系数α_L，通过凸松弛算法模型，用对应的训练集乘以α_L得到对应各级尺度上的过完被字典基。
如图2所示，所述的跨尺度视频帧重构模块是通过一种凸松弛算法模型实现的，具体为：对于下采样再内插的低分辨率非关键帧，先通过一级小波分解获得其低频子带的小波系数，和学习时一样通过高斯差分滤波器组提取方向能量获得低分辨率关键帧中的基元区域，截取基元区域的图像块，用正交匹配追踪(OMP)算法得到基元区域的图像块在学习所得的低频字典基上的l₁范数最小的最优稀疏表示系数自适应的根据网络带宽和客户端需求决定重构所需的视频质量，即决定小波逆变换重构所需的级数L，要求重构低分辨率非关键帧的第1-L层的小波高频子带信息，通过小波逆变换得到所需重构的非关键帧块信号，实现质量可分级的目的。
本发明以上实施例中没有特别说明的部分，可以采用现有技术来实现。
实施效果
本实施例中关键参数的设置为：实验用视频序列来源于foreman_cif.yuv，akiyo.yuv，(352x288的4:2:0格式的YUV文件)，总共取48帧。每16帧为一个帧组，选取每帧组的前三帧和下一帧组的前三帧为关键帧，本帧组的剩余13帧为非关键帧，块的尺寸选取为7×7像素。由于信号的灰度图集中了绝大部分能量，测试主要是在灰度图上完成的。我们比较了HHI所提出的H.264/SVC的方法。本发明所用在线字典学习方法选取了迭代次数为150次。
与H.264/SVC相比，foreman.yuv在码率为240.64kbps时，本实施例系统获得平均 0.4dB左右的重构增益；在码率为135.34kbps时，本实施例系统获得平均0.2dB左右的重构增益。akiyo.yuv在码率为170.15kbps时，本实施例系统获得平均0.3dB左右的重构增益；在码率为112.04kbps时，本实施例系统获得平均0.1dB左右的重构增益。
实验表明，本实施例系统重建出来的视频序列在重构质量上优于H.264/SVC得到的视频序列。
以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。