基于时空域的运动感知模型提取方法.pdf

摘要
申请专利号：	CN201010152494.7	申请日：	2010.04.20
公开号：	CN101853510A	公开日：	2010.10.06
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G06T 7/20公开日:20101006\|\|\|实质审查的生效IPC(主分类):G06T 7/20申请日:20100420\|\|\|公开
IPC分类号：	G06T7/20; H04N5/14	主分类号：	G06T7/20
申请人：	上海大学
发明人：	石旭利; 潘琤雯; 张兆扬; 魏小文
地址：	200444 上海市宝山区上大路99号
优先权：
专利代理机构：	上海上大专利事务所(普通合伙) 31205	代理人：	何文欣
PDF下载：	PDF下载

内容摘要

本发明涉及一种基于时空域的运动感知模型提取方法。本方法的具体操作步骤是：输入视频编码帧，建立运动模型，筛选感知运动对象，建立空间域分割模型，最后利用边缘判定方法结合运动模型和空间域分割模型得到最终的时空域运动感知模型。本发明考虑到运动对象的区域一致性，结合空间域视频图像分割，改善视频运动对象提取效果，建立了基于时空域的运动感知模型。

权利要求书

1：一种基于时空域的运动感知模型提取方法，其特征在于具体的步骤如下： (1) 输入视频编码帧； (2) 建立运动模型：计算运动矢量空间域和时间域熵值，得到时间域和空间域运动模型，并综合两种模型得到初始运动模型； (3) 筛选感知运动对象：通过综合分析运动模型中多个运动对象的位置和所占像素点数来提取人眼最关注的运动对象； (4) 建立空间域分割模型：利用视频图像亮度信息进行 Mean-shift 和区域生长法得到空间域分割图像，以此建立空间域分割模型； (5) 利用边缘判定方法结合运动模型和空间域分割模型得到最终的时空域运动感知模型。
2：根据权利要求 1 所述的基于时空的运动感知模型提取方法，其特征在于所述步骤 (2) 中建立运动模型通过以下步骤实现： ①对编码过程中产生的运动矢量进行 3×3 大小的均值滤波器掩模处理； ②设第 n 帧第 (i， j) 宏块的运动矢量为 PV(i， j) ＝ (xn， yn，将该宏块的运动矢 i， j， i， j)，量默认为该宏块内每一个像素点的运动矢量，其中 xn， yn， i， j 为运动矢量 x 分量， i， j 为运动矢量 y 分量，该矢量的运动方向表示为 θn， i， j ； θn， i， j ＝ arctan(yn， i， j/xn， i， j) ③计算当前像素点及其周围八个点的运动矢量值的概率直方图分布函数其中 SH() 为由当前像素点及其周围八个点的运动矢量的方向值 θn，i，j 所组成的直方图， m 为直方图空间大小， w 表示 N*N 的搜索窗口尺寸， n 标记了当前运动矢量位置， 1 例举了周围八点运动矢量；依据所得的概率分布情况计算每一个像素点的运动矢量值的空间相关性熵值 Cs() 表示运动矢量的空间信息熵， Ps 是直方图 SH() 的相应概率分布函数； ④计算当前像素点的运动矢量值及其前后三帧相同位置像素点的运动矢量值的概率直方图分布函数其中 TH() 为由当前像素点及其前后三帧相应位置像素点的运动矢量方向值 θn， Pt 是直方图 TH() 的相应概率分布函数， m为 i， j 所组成的直方图，直方图空间大小， L 表示时间轴上的相关帧数， n 标记了当前运动矢量位置， 1 例举了前后帧八个运动矢量；由此计算每一个像素点的运动矢量值的时间相关性熵值： Ct() 表示运动矢量的时间信息熵； ⑤将一帧图像的相位空间和时间熵值图归一化至 [0， 1]，得到的空间域和时间域运动矢量熵值矩阵图 Cs， Ct ； Ct(i， j)， Cs(i， j) 对应矩阵中的任意点，然后比较任意点的熵值的大小：若空间域的值大于时间域，则该点最终判定为为空间域熵值，反之则取时间域熵值，如下列公式 (1) 综合时间和空间信息，得到最终的时空信息熵值，式中 Cts(i， j) 为结合后的 2 运动矢量熵值图中的任意点： ⑥在一帧图像中，令最小的时空信息熵值为 Min[C(i， j)]，用信息等级 0 来表示，令最大时空信息熵值为 Max[C(i， j)]，用信息等级 l-1 表示， R ＝ {0， 1， ...， l-1} 表示信息等级的集合；定义 Np(p ∈ R) 为信息等级为 p 时的像素点数量，即具有相同信息熵值的像素点数目，其中 i 和 n 列举了求和过程的像素点；对于阈值 t ∈ R，需要在 0 等级到 l-1 等级内找出其中某一级所对应的时空信息熵值作为阈值 t，并根据阈值 t 进行自适应划分，即低于阈值的信息熵为高于阈值的信息熵为其中阈值其中 argmax 表示当高于阈值点信息熵值 EA 和低于阈值点信息熵值 EB 之和最大值时取的阈值 t ；在找到信息熵阈值 t 后，可按 t 值划分运动区域：当像素点的时空信息熵值大于阈值 t 时，该像素点处在运动区域，否则处在非运动区域。
3：根据权利要求 1 所述的感知运动对象筛选方法，其特征在于所述步骤 (3) 中筛选感知运动对象是：定义一个运动对象显著系数，如下列公式 (2) ～式 (5)，利用这些系数筛选出最为人眼所关注的运动对象；在得到各运动对象的显著性系数后，我们对这些系数进行排序，找出显著性系数最大的运动对象；确定此运动对象为后续处理的运动对象； (2) α(j) ＝ αLocation(j)*αNRate(j)*αMotion(j) 式中 α(j) 为通过计算后得到的第 j 个运动对象的运动显著性系数， αlocation(j) 为第 j 个运动对象中心到图像中心的距离的倒数， (xcenter(j)， ycenter(j)) 为第 j 个运动对象的联通区域的中心位置坐标。(xpic_center， ypic_center) 为图像的中心点的坐标； αnum(j) 为第 j 个运动对象联通区域所占的图像像素点的个数， Nall 为一帧图像中像素点的总数。αNRate(j) 为第 j 个运动对象像素数占总像素数的比率； αMotion(j) 为第 j 个运动对象的运动显著系数，分子为第 j 个运动对象所占宏块的运动矢量的模的平均值，分母为当前这一帧图像中所有宏块的运动矢量模的平均值。
4：根据权利要求 1 所述的基于时空的运动感知模型提取方法，其特征在于所述步骤 3 (4) 中的建立空间域分割模型通过以下步骤实现： ①提取视频图像中的亮度分量 Y(n， i， j)，首先利用 mean-shift 算法平滑图像中每一个亮度分量；设 x 为待平滑的初始点，下列公按式 (6) 计算该点的均值偏移向量 mk(x)，当 ||mk(x)-x|| ＜ ε 时结束当前点的均值偏移计算，将偏移值赋给当前像素点；继续进行下一点的偏移计算，直至完成所有像素点的均值偏移算法， ε 为判定是否继续平移的阈值，其大小由实验确定， mk(x) 为每一次均值计算的偏移向量值；上式中的 G() 为核函数，本实验设定高斯函数为便宜计算核函数， w(xi) 为每一个采样点计算权重，本文设定权重为 1 ； ②利用区域生长法分割 mean-shift 算法处理后的图像，得到视频图像初始分割图，该图中每个分割区域都为联通区域且包含一定数量的像素点，所有独立分割区域的集合即为整幅视频图像； ③利用区域归并法处理初始分割图进一步提升分割效果：找出分割图中包含像素个数小于阈值 T 的分割区域，根据实验结果，阈值 T 取 50 ；设定四个坐标 (xl， yl)， (xr， yr)， (xu， yu) 和 (xd， yd) 分别存放当前区域最左、左右、最上和最下边的像素点坐标。将这四个坐标初始化为子区域内第一个像素点 (x1， y1) ；然后遍历待归并的干扰子区域中每一像素点记录其坐标 (xi， yi)，并根据下列公式 (7) 更新四个坐标值；遍历干扰子区域内所有像素点后，四个坐标对应了四个方位的目标归并区域。在确定四个目标归并区域的坐标初始点后，分别计算四个目标区域亮度 Lregion(1)、 Lregion(2)、 Lregion(3) 和 Lregion(4) 与待归并的干扰区域亮度差值。最后取亮度差值最小的区域作为归并区域，将该区域的编号和均值赋给待归并区域。
5：根据权利要求 1 所述的基于时空的运动感知模型提取方法，其特征在于所述步骤 (5) 中的时空域运动感知模型通过以下步骤进一步实现： ①利用区域生长法定位说明 3) 中所得到的显著性最强的运动对象的位置信息； ②找出这一运动对象在空间域分割图像中所占区域，并统计出分块图像中第 i 个区域所占图像像素点的个数 Nall(i) 和显著联通区域所占第 i 个区域的像素点个数 Nobject(i) ； ③依据以上得到的平滑分块图、最显著运动对象区域图以及第四步得到的两个统计系数值 Nall(i) 和 Nobject(i) 精确提取出显著运动对象，实现最终的运动对象分割；定义 ObjReg(i) 来标示运动感知对象所占的分块区域，如下列公式 (8) ： 4 其中 ε1 和 ε2 为两个区分是否为运动对象所占区域的阈值， ε1 定为 3， ε2 定为 0.5 ；在得到的运动感知图后即完成了整个运动感知模型的建立。

说明书

基于时空域的运动感知模型提取方法
    技术领域本发明涉及了一种基于时空域的运动感知模型提取方法，将多种数据处理方法融合到提取人眼关注的视频运动对象上，特别是在分析运动矢量的基础上融入了视频空间域图像分割方法，大大改善了运动感知模型。
     背景技术运动感知模型的建立已成为视频处理技术中的研究热点。视频是图像在连续时间上的组合，连续图像所产生的运动现象使视频运动对象的提取具有一定的现实意义。视频中的运动对象是人们观看时最为关注的部分，因此建立一种良好的运动感知模型是广大研究人员关注的重点。
     视频对象的检测和分割是建立运动感知模型的前提和基础，其中视频对象检测是在视频图像中找出区别于背景区域的运动前景部分，而视频对象分割是将所检测到的运动前景部分从背景中完整的分离出来。作为视频处理领域的一个经典问题，目前已有大量的研究文献。根据视频数据是否为压缩形式，可将分割算法分为压缩域分割和非压缩域分割。
     按是否需要人工参与分割过程，可分为自动方式和半自动方式。根据分割过程中所利用信息的不同，可分为时域分割和时空域联合分割。
     虽然已提出了很多分割算法，并有着不同的分割步骤，但是基本的分割策略都大致相同。分割算法的一般步骤包括对视频数据的分析，确定待分割区域和不同的分割方法。由于视频对象本身内容复杂，同时人工智能技术的现状决定了当前计算机仍然不具有人的观察、识别、理解图像的能力。目前还不存在一种通用、有效的分割方法。当前视频分割算法的研究趋势是寻找更好的联合时域信息和时空域信息分割方法。
     鉴于此，本方法在利用视频压缩域信息提取运动模型的基础上，融入了视频空间域的信息及配套的处理方法。这种空间域和时间域视频处理方法的融合使最终提取的运动感知模型具有更理想的效果。发明内容本发明的目的是针对已有技术存在的缺陷，提供一种基于时空域的运动感知模型提取方法，改进运动感知对象的提取效果，得到一种更加理想的运动感知模型。该模型可以用于改善视频编码算法，通过降低非运动感知部分的编码比特数来提高运动感知部分的编码码率。
     为达到上述的目的，本发明的构思是：如图 1 所示，首先利用预处理后的运动矢量建立运动图，然后依据多个显著性参数筛选出最受人眼关注的运动对象，获得运动模型；同时利用视频图像亮度信息进行图像分割得到空间域分割模型，并结合以上两模型得到基于时空域的运动感知模型。图 1 中运动矢量预处理和边缘判定过程如下：
     (1) 感知运动对象筛选方法：通过运动矢量熵值计算得到的运动矢量图中同时存在多个运动对象，但并非所有运动对象都是人眼所关注的。我们利用运动对象的位置信息
     和所占像素点的比率设定一个显著性系数，依据显著性系数的大小筛选最受关注的运动对象。
     (2) 边缘判定方法：由于利用运动矢量得到的运动模型和空间域分割模型都是以连通区域为基本单位；运动模型标示出了运动对象所占区域的位置信息；分割模型标示出不同纹理区域所组成的连通块。因此我们利用运动区域所占不同纹理区域个数的比列来确定哪些纹理区域包含于所要提取的运动对象内，找出这一联通显著运动对象区域所占经平滑分块图像中的区域种类，并统计出分块图像中第 i 个区域所占图像像素点的个数 Nall(i) 和显著联通区域所占第 i 个区域的像素点个数 Nabject(i) ；定义 ObjReg(i) 来标示运动对象所占的分块区域，定义见式 (1)。
     其中 ε1 和 ε2 为两个区分是否为运动对象所占区域的阈值， ε1 定为 3， ε2 定为 0.5 ；通过以上方法找出运动模型和分割模型中的区域交集，并得到最终的运动感知模型。
     首先预处理运动矢量并获方向信息，后续所有关于运动矢量熵值处理都是基于运动矢量的方向。再将运动矢量方向值分成两路输入，一路输入空间域的相关性熵值计算，另一路输入时间域的相关性熵值计算，并依据一定原理综合以上两种相关性熵，得到运动矢量图。最后利用自适应阈值选择方法划分运动关注对象和非运动关注对象区域以建立相应的运动模型。
     信息熵可用于度量信息量的大小，系统越是有序，信息熵就越低；系统越是混乱，信息熵就越高。由于镜头移动会导致视频中背景也具有运动矢量，故为了正确描述视频图像中的运动状况，我们引入了运动矢量的信息熵。运动矢量的信息熵可以分成时间域熵值和空间域熵值。所谓时间域熵值，是不同帧图像中的运动矢量的一致性程度；空间域熵值是当前矢量空间上相邻运动矢量的一致性程度。我们通过分析运动矢量方向的时间域和空间域熵值来提取运动模型，具体可分成以下几个方面完成：
     (1) 预处理运动矢量：首先对原始的运动矢量数据进行 3×3 大小的均值滤波器掩模处理，平滑运动矢量图中的独立噪点，实现运动矢量图在空间上的去燥。然后对每帧及其前后两帧的运动矢量图进行算术平均，可在时间上去燥，并弥补当前帧的零运动矢量状况。
     (2) 运动矢量方向的获得：我们通过矢量公式获得运动矢量的方向信息，假设预处理后的第 n 帧第 (i， j) 宏块的运动矢量为 PV(i， j) ＝ (Xn， yn，则运动矢量方向获 i， j， i， j)，取公式如下：
     θn， (2) i， j ＝ arctan(yn， i， j/xn， i， j)
     (3) 计算空间相关性熵值：由于空间相关性熵值取决于每个宏块及其周围的数值，因此我们通过计算空间相关性概率分布得到，如公式 (3) 和公式 (4) 所示，其中 (i， j) 表示当前运动矢量的位置， Cs() 表示运动矢量的空间信息量， Ps 是直方图 SH 的相应概率分配函数， m 为直方图空间大小。W 表示 Nx N 的窗口尺寸。要求对每帧的每个运动矢量都计算他们的信息量。
     (4) 计算时间相关性熵值：运动矢量时间相关性熵值则取决于当前宏块和前 L/2 帧、后 L/2 帧之间的宏块的数值。计算公式如 (5) 和式 (6)。其中， (i， j) 表示当前运动矢量的位置， Ct 表示运动矢量的空间信息量， Pt 是直方图 TH 的相应概率分配函数， m 为直方图空间大小。 L 表示时间轴上相关帧数。要求对每帧的每个运动矢量都计算他们的信息量。
     (5) 运动矢量图的结合：首先归一化相位空间和时间熵值至 [0， 1]，得到空间域和 j) 和 Cs(i， j) 对应矩阵中的任意点，然后比较时间域运动矢量熵值矩阵图 Cs 和 Ct。Ct(i，任意点的熵值的大小：若空间域的值大于时间域的值，则该点判定为空间域的值，反之则取时间域的值，如式 (7) 所示。式中 Cts(i， j) 为结合后的运动矢量熵值图中的任意点。
     (6) 自适应熵值选择：以上方法得到的熵值图，其中的对象比较模糊，也会受到噪声的影响，所以通过设定对象和背景之间的阈值分割熵值图。我们采用基于最大信息量自适应选择阈值的方法，得到运动矢量分割图。
     基于视频图像空间域的分割模型建立过程如图 3 所示，其关键步骤如下：
     (1)Mean-shift 算法平滑图像： Mean-shift 算法对图像具有平滑作用，可去除图像中的纹理细节。而该算法和一般的模糊算法又有所不同，其在平滑图像纹理信息时保留了图像边缘信息。我们利用 Mean-shift 算法平滑视频图像的亮度分量，并选取高斯函数作为 Mean-shift 算法的核函数，公式如下：
     (2) 利用区域生长法获得分块图像：在 Mean-shift 算法平滑后的图像上选取任一像素点，以此为起点不断往外搜寻与其有近似特性的点，并将他们归为一类。当结束一片区域的生长后，再次选取未被归类的像素点重复以上步骤直至完成所有像素点的合并工作。
     (3) 归并分块区域：找出分割图中包含像素个数小于阈值 T 的分割区域，由于这些区域形状都是无规则的，因此与其相邻的区域往往会超过四个。本方法只关注当前小区域的最上、最下、最左和最右的临接区域，将他们作为归并目标。首先通过当前待归并区域所在位置找出四个相邻区域，然后计算这四个区域亮度和当前区域亮度的差值，取亮度差值最小的区域作为最终的目标归并区域，将该区域的编号和均值赋给待归并区域。按以上方法循环处理图像中的待归并区域，直到所有区域像素点个数都大于阈值 T。
     根据上述理论，本发明的过程为以下几个步骤：
     (1) 利用运动矢量得到运动模型，其过程是：
     ①对编码过程中产生的运动矢量进行 3×3 均值滤波器掩模处理；
     ②设第 n 帧第 (i， j) 个宏块的运动矢量为 PV(i， j) ＝ (Xn， yn，将该宏块的 i， j， i， j)，运动矢量默认为宏块内每一个像素点的运动矢量，该矢量的方向为 θn， i， j ；
     θn， i， j ＝ arctan(yn， i， j/xn， i， j)
     ③计算当前像素点及其周围八个点的运动矢量值的概率直方图分布函数其中 SH() 为由当前像素点及其周围八个点的运动矢量的方向值 θn，i，j 所组成的直方图， m 为直方图空间大小， w 表示 N*N 的搜索窗口尺寸；依据所得的概率分布情况计算每一个像素点的运动矢量值的空间相关性熵值其中， Cs() 表示运动矢量的空间信息熵， Ps 是直方图 SH() 的相应概率分布函数；
     ④计算当前像素点的运动矢量值及其前后三帧的相同位置上像素点的运动矢量值的概率直方图分布函数其中 TH() 为由当前像素点及其前后三帧相应位置像素点的运动矢量方向值 θn， Pt 是直方图 TH() 的相应概率分布函 i， j 所组成的直方图，数， m 为直方图空间大小， L 表示时间轴上的相关帧数；并按下式计算每一个像素点运动矢量方向的时间相关性熵值：熵； ⑤将上一步得到的空间和时间熵值图归一化至 [0， 1]，得到的空间域和时间域运动矢量熵值矩阵图 Cs， Ct。Ct(i， j)， Cs(i， j) 对应矩阵中的任意点，然后比较任意点的熵值的大小：若空间域的值大于时间域的值，则此点为空间域的值，反之则取时间域的值。最后利用下式综合时间和空间信息，得到最终的时空信息熵值。式中 Cts(i， j) 为结合后的运动矢量熵值图中的任意点。
     Ct() 表示运动矢量的时间信息⑥令一帧图像中最小的时空信息熵值为 Min[f(x， y)]，用信息等级 0 来表示，令最大时空信息熵值为 Max[f(x， y)]，用信息等级 l-1 表示， R ＝ {0， 1...， l-1} 表示信息等级的集合；定义 Np(p ∈ R) 为信息等级为 p 时的像素点数量，即具有相同信息熵值的像素点数目；对于阈值 t ∈ R，需要在 0 等级到 l-1 等级内找出其中某一级所对应的时空信息熵值作为阈
     值 t，并根据阈值 t 进行自适应划分，即低于阈值的信息熵为高于阈值的信息熵为其中阈值在得到阈值 t 后，可以按以下规则提取运动区域：即当像素点的时空信息熵值大于阈值 t 时，即该像素点处在运动区域，否则处在非运动区域。
     (2) 筛选运动感知对象，其过程是：
     ①定义了一个运动对象显著系数，筛选最为人眼所关注的运动对象。定义如下： α(j) ＝ αLocation(j)*αMotion(j) ；
     其中 α(j) 为通过计算后得到的第 j 个运动对象的运动显著性系数， αlocation(j) 为第 j 个运动对象联通区域中心到图像中心的距离的倒数， (xcenter(j)， ycenter(j)) 为第 j个运动对象的联通区域的中心位置坐标。(xpic_center， ypic_center) 为图像的中心点的坐标。 αMotion(j) 为第 j 个运动对象的运动显著系数，分子为第 j 个运动对象所占宏块的运动矢量的模的平均值，分母为当前这一帧图像中所有宏块的运动矢量模的平均值；
     ②在得到各运动对象的显著性系数后，对这些系数进行排序，找出显著性系数最大的运动对象。并确定此运动对象为后续精确分割的对象；
     (3) 利用空间域亮度信息得到视频分割模型，其过程如下：
     ①提取视频图像中的亮度分量 Y(n， i， j)，利用 mean-shift 算法平滑亮度分量。设 x 为待平滑的初始点，可按下式计算该点的均值偏移向量 mk(x)，当 ||mh(x)-x|| ＜ ε 时结束当前点的均值偏移运算，将得到的偏移值赋给当前像素点，并进行下一点的偏移计算，直至完成所有像素点的计算；
     ②利用区域生长法分割 mean-shift 算法处理后的图像，得到视频图像初始分割图，该图中每个分割区域都为联通区域，且包含一定数量的像素点。
     ③利用区域归并法处理初始分割图，进一步提升分割效果：找出包含像素个数小于阈值 T 的分割区域，根据实验结果，阈值 T 取 50。同时设定四个坐标 (xl， yl)， (xr， yr)， (xu， yu) 和 (xd， yd)，分别存放当前区域最左、左右、最上和最下边的像素点坐标值。在确定四个目标归并区域的坐标初始点后，分别计算四个目标区域亮度 Lregion(1)、 Lregion(2)、 Lregion(3) 和 Lregion(4) 与待归并的干扰区域亮度差值。然后取亮度差值最小的区域作为归并区域，将该区域的编号和均值赋给待归并区域。
     (4) 提取最终的运动感知模型，边缘判定法得到最终运动感知模型的过程如下：
     ①利用区域生长法定位根据 3) 所得到的显著性最强的运动对象的位置信息；
     ②找出这一运动对象在空间域分割图像中所在区域，并统计出分块图像中第 i 个区域所占图像像素点的个数 Nall(i) 以及显著联通区域所占第 i 个区域的像素点个数 Nobject(i) ；
     ③依据得到的平滑分块图和最显著运动对象区域图以及在第四步中得到的两个统计系数值 Nall(i) 和 Nobject(i) 提取出运动感知对象，实现运动感知模型的建立。我们定义 ObjReg(i) 来标记运动对象所占的分块区域，定义见下式：
     其中 ε1 和 ε2 为两个区分是否为运动对象所占区域的阈值， ε1 定为 3， ε2 定为0.5。根据上述发明构思，本发明采用下述技术方案：
     一种基于时空域的运动感知模型提取方法，其特征在于具体的步骤如下：
     (1) 输入视频编码帧；
     (2) 建立运动模型：计算运动矢量空间域和时间域熵值，得到时间域和空间域运动模型，并综合两种模型得到初始运动模型；
     (3) 筛选感知运动对象：通过综合分析运动模型中多个运动对象的位置和所占像素点数来提取人眼最关注的运动对象；
     (4) 建立空间域分割模型：利用视频图像亮度信息进行 Mean-shift 和区域生长法得到空间域分割图像，以此建立空间域分割模型；
     (5) 利用边缘判定方法结合运动模型和空间域分割模型得到最终的时空域运动感知模型。
     上述步骤 (2) 中建立
     上述步骤 (3) 中筛选感知
     上述步骤 (4) 中的建立空间
     上述步骤 (5) 中的空间域
     与以往的运动感知模型相比，本方法能够精确地提取出运动对象。综合了空间域视频分割效果和运动矢量熵值提取，使最终的运动感知模型能很好地放映人们观看视频时所关注的对象。
     附图说明图 1 是本发明的基于时空域运动感知模型提取方法原理流程框图。
     图 2 是图 1 中建立运动模型的结构框图。
     图 3 是图 1 中建立空间域分割模型的结构框图。
     图 4 是 JM10.2 校验模型中输入 mother-daughter 序列所得到的某一帧的运动矢量图和运动模型图。
     图 5 是 JM10.2 校验模型中输入 mother-daughter 序列所得到的某一帧的 Mean-shift 平滑图和空间域分割模型图。
     图 6 是 JM10.2 校验模型中输入 mother-daughter 序列所得到的某一帧的空间域
     分割模型图和运动感知模型图。
     图 7 是本发明采用的方法具体操作程序框图。具体实施方式
     本发明的优选实施例子结合附图的详述说明如下：
     实施例一：本发明基于时空域运动感知模型提取方法是按图 1 所示程序框图，在 CPU 为 Athlon x22.0GHz、内存 1024M 的 PC 测试平台上编程实现，图 6 为 JM10.2 校验模型上输入 mother-daughter 序列所得到的某一帧运动感知模型图。
     参见图 1，本发明基于时空域运动感知模型提取方法，通过分析编码过程中所产生的运动矢量，提取初始运动模型。同时利用空间域的亮度信息获得视频图像分割模型。在以上两个模型的基础上，利用边缘判定原理获得最终的运动感知模型。通过此方法获得的运动感知模型综合了空间域和时间域的特性，更符合人眼感看视频时的特性。
     参见图 7 其具体操作步骤是：
     (1) 输入视频帧；
     (2) 建立运动模型：利用运动矢量进行空间域和时间域熵值计算，得到时间域和空间域运动模型，并综合两种模型得到初始运动模型； (3) 通过分析运动模型中运动对象的位置和所占像素点数来筛选运动感知对象；
     (4) 建立空间域分割模型；利用视频图像亮度信息进行 Mean-shift 和区域生长法，得到空间域分割图像，建立空间域分割模型；
     (5) 利用边缘判定法融合运动模型和空间域分割模型，获得最终的运动感知模型。
     实施例二：本实施例与实施例一基本相同，特别之处如下：上述步骤 (2) 的运动模型建立过程如下：
     ①对编码过程中产生的运动矢量进行 3×3 掩模的均值滤波器处理；
     ②设第 n 帧第 (i， j) 个宏块的运动矢量记为 PV(i， j) ＝ (xn， yn，该宏块每 i， j， i， j)，一个像素点的运动矢量都为 PV(i， j)，矢量的运动方向为 θn， i， j ＝ arctan(yn， i， j/xn， i， j)
     ③计算当前像素点及其周围八个点的运动矢量方向的概率直方图分布函数
     其中 SH() 为由当前像素点及其周围八个点的运动矢量的方向值 θn，i，j 所组成的直方图， m 为直方图空间大小， w 表示 N*N 的搜索窗口尺寸；依据所得的概率分布情况计算每一个像素点的运动矢量值的空间相关性熵值 Cs()表示运动矢量的空间信息熵， Ps 是直方图 SH() 的相应概率分布函数；
     ④计算当前像素点的运动矢量值及其前后三帧的相同位置上的像素点的运动矢量值的概率直方图分布函数其中 TH() 为由当前像素点及其前后三帧相应位置像素点的运动矢量方向表示值 θn， Pt 是直方图 TH() 的相应概率 i， j 所组成的直方图，分布函数， m 为直方图空间大小， L 表示时间轴上的相关帧数；由此计算每一个像素点的运动矢量值的时间相关性熵值：息熵；
     Ct() 表示运动矢量的时间信⑤归一化运动矢量相位的空间、时间熵值至 [0， 1]，得到的空间域和时间域运动矢量熵值矩阵图 Cs， Ct。Ct(i， j)， Cs(i， j) 对应矩阵中的任意点，并比较任意点的熵值的大小：若空间域的值大于时间域的值，则当前点为空间域的值，反之则取时间域的值，如下式所示，综合时间和空间信息，得到最终的时空信息熵值。式中 Cts(i， j) 为结合后的运动矢量熵值图中的任意点。
     ⑥令一帧图像中最小的时空信息熵值为 Min[f(x， y)]，用信息等级 0 来表示；最大时空信息熵值为 Max[f(x， y)]，用信息等级 l-1 表示； R ＝ {0， 1...， l-1} 表示信息等级的集合。定义 Np(p ∈ R) 为信息等级为 p 时的像素点数量，即具有相同信息熵值的像素点个数；对于阈值 t ∈ R，需要在 0 等级到 l-1 等级内找出其中某一级所对应的时空信息熵值作为阈值 t，并根据阈值 t 自适应划分信息熵：低于阈值的信息熵为：
     高于阈值的信息熵为：其中阈值在获得阈值 t 后，可找出图像中运动区域：当像素点的时空信息熵值大于阈值 t 时，即该像素点处在运动区域；否则处在非运动区域。
     上述步骤 (3) 筛选感知运动对象的过程如下：
     ①定义了一个运动对象显著系数 α(j)，来筛选最终待分割的最为人眼所关注的运动对象。定义如下：
     α(j) ＝ αLocation(j)*αMotion(j) ；
     其中 α(j) 为通过计算后得到的第 j 个运动对象的运动显著性系数， αlocation(j) 为第 j 个运动对象联通区域中心到图像中心的距离的倒数， (xcenter(j)， ycenter(j)) 为第 j 个运动对象的联通区域的中心位置坐标。(xpic_center， ypic_center) 为图像的中心点的坐标。 αMotion(j) 为第 j 个运动对象的运动显著系数，分子为第 j 个运动对象所占宏块的运动矢量的模的平均值，分母为当前这一帧图像中所有宏块的运动矢量模的均值；
     ②在得到各运动对象的显著性系数后，对这些系数进行排序，找出最大显著性系数所对应的运动对象。并确定此运动对象为后续要精确分割的对象；
     上述步骤 (4) 的空间域分割模型建立过程如下：
     ①提取视频图像中的亮度分量 Y(n， i， j)，利用 mean-shift 算法平滑 Y(n， i， j)。令
     x 为当前待平滑的初始点，可按下式计算该点的均值偏移向量 mk(x)，当 ||mh(x)-x|| ＜ ε 时结束当前点的均值偏移计算，将偏移值赋给当前像素点，并进行下一点的偏移计算，直至完成所有像素点的均值偏移算法；
     ②利用区域生长法分割 mean-shift 算法处理后的平滑图像，得到视频图像初始分割图，该图中每个分割区域都为联通区域且包含一定数量的像素点，所有分割区域可组成整幅图像；
     ③利用区域归并法处理初始分割图，进一步提升分割效果：找出分割图中像素点个数小于阈值 T 的区域，根据实验结果，阈值 T 取 50。设定四个坐标 (xl， yl)， (xr， yr)， (xu， yu) 和 (xd， yd) 分别存放当前区域最左、左右、最上和最下边的像素点坐标。将这四个坐标初始化为小区域内第一个像素点 (x1， y1)。然后遍历待归并的干扰小区域中每一像素点记录其坐标 (xi， yi)，并根据下式更新四个坐标值。在遍历干扰区域内所有像素点后，四个坐标对应四个方位的目标归并区域。
     在确定四个目标归并区域的坐标初始点后，分别计算四个目标区域亮度 Lregion(1)、 Lregion(2)、 Lregion(3) 和 Lregion(4) 与待归并区域亮度差值。最后取亮度差值最小的区域作为归并区域，将此区域的编号和均值赋给待归并区域。
     上述步骤 (5) 的边缘判定法获得感知运动模型的过程如下：
     ①利用区域生长法定位根据 3) 所得到的运动对象的位置信息；
     ②找出这一运动对象在空间域分割图像中所占区域，并统计出分块图像中第 i 个区域所占图像像素点的个数 Nall(i) 以及显著联通区域所占第 i 个区域的像素点个数 Nobject(i) ；
     ③依据得到的平滑分块图和最显著运动对象区域图以及两个统计系数值 Nall(i) 和 Nobject(i)，精确提取出显著运动对象，得到最终的运动感知模型。我们定义 ObjReg(i) 来
     标记运动对象所占的分块区域，定义见下式。
     其中 ε1 和 ε2 为两个区分是否为运动对象所占区域的阈值， ε1 定为 3， ε2 定为0.5 ；
     以下给出输入视频格式为 352×288 的 CIF 时的实例，采用 JM10.2 版本的 H.264 编码器对标准测试序列进行编码。H.264 编码器的配置如下： Baseline Profile， IPPP，每 15 帧插入 1 个 I 帧， 1 个参考帧，带宽设置为 256k bps，帧率设置为 30fps，初始量化参数设置为 32。采用典型的标准测试序列 mother-daughter 作为输入视频进行测试，图 4 为通过分析运动矢量所得到的运动模型，从图上可以看出此运动模型只能粗略地反应出运动对象所在的位置，并不能将运动对象完整地提取出来。图 5 是空间域亮度分析所建立的分割模型，此模型能很好地保留物体的边缘，完整地分割出物体。因此结合了以上两种模型所得到的运动感知模型，如图 6 能完整地分割出人眼所最为关注的运动对象。