指导对于画面修改和帧速率转换不敏感的视频签名.pdf

摘要
申请专利号：	CN200880016427.3	申请日：	2008.05.01
公开号：	CN101681373A	公开日：	2010.03.24
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20080501\|\|\|公开
IPC分类号：	G06F17/30; H04N5/91	主分类号：	G06F17/30
申请人：	杜比实验室特许公司
发明人：	R·拉达克里希南; C·鲍尔
地址：	美国加利福尼亚
优先权：	2007.5.17 US 60/930,905
专利代理机构：	中国国际贸易促进委员会专利商标事务所	代理人：	魏小薇
PDF下载：	PDF下载

内容摘要

通过首先计算在低分辨率合成图像中的画面元素的平均值和方差而产生可用于标识在一系列视频帧中的视频内容的签名，该低分辨率合成图像代表在所述一系列帧中的视频内容的时间和空间合成。通过将散列函数应用于从平均值和方差合成表示推导的值上而产生签名。信号的视频内容由对在信号内的多个帧系列所产生的一组签名代表。一组签名不管对于内容的有意和无意修改都可提供可靠标识。

权利要求书

1.  一种方法，包括：
接收视频信号段中的一系列帧，该视频信号段传送视频内容，所述视频内容代表具有规定的分辨率的一系列画面；
处理由所述段传送的视频内容，以计算表达一系列低分辨率图像中的画面元素的平均值和方差的合成值，每一个低分辨率图像至少代表具有第二分辨率的一系列画面中的相应画面的一部分，该第二分辨率低于所述规定的分辨率；及
通过将散列函数应用于从所述合成值获得的一组值上，产生标识所述视频信号段的视频内容的签名。

2.  根据权利要求1所述的方法，其中，该一组值中的每一个值等于相应的合成值。

3.  根据权利要求1所述的方法，包括：从所述合成值的秩矩阵获得该一组值。

4.  根据权利要求1至3中任一项所述的方法，包括：通过剪辑和下取样代表所述一系列画面的像素，产生所述一系列低分辨率图像；以及，从像素组的强度的平均值产生所述画面元素。

5.  根据权利要求1至4中任一项所述的方法，包括：
通过剪辑和下取样代表所述一系列画面的像素，产生一系列格式独立的图像；和
从每一个格式独立的图像中的像素组的强度的平均值产生所述画面元素。

6.  根据权利要求1至5中任一项所述的方法，其中，将散列函数应用于从所述合成值获得的一组值包括将该一组值投影到一组随机向量上，并且其中，所述签名的每一个分量是从该一组值到相应随机向量上的投影推导的。

7.  根据权利要求6所述的方法，其中：
所述一组随机向量中的每一个相应的向量具有向量元素，这些向量元素具有从处于零到一的范围内的均匀分布随机变量与对相应向量的所有向量元素的均匀分布随机变量的平均值之间的差获得的值；
所述中间值到相应随机向量上的投影是从中间值与相应向量的向量元素的内积获得的；以及
所述签名的每一个分量在所述中间值到对应随机向量上的投影大于阈值时具有第一值，或者，在所述中间值到对应随机向量上的投影小于阈值时具有第二值，其中，所述阈值等于中间值到所述一组随机向量上的投影的中值。

8.  根据权利要求1至7中任一项所述的方法，包括：
接收多个视频信号段；
对所述多个视频信号段中的每一个段，计算合成值；以及
产生标识所述多个视频信号段的视频内容的多个签名，以获得签名组，对所述多个视频信号段中的每一个段产生了所述多个签名中的相应的签名。

9.  根据权利要求8所述的方法，其中：
所述视频信号段以一帧速率传送代表一系列画面的帧中的视频内容，在相邻的帧之间具有帧时段；并且
所述方法包括：形成在相继的段的对之间具有偏移的多个视频信号段，该偏移是可变化的并且在等于标定时间间隔的一个帧时段内。

10.  根据权利要求8所述的方法，包括：
获得具有多个标识第一视频信号的段的视频内容的签名的第一签名组，第一视频信号的段以第一帧速率传送代表一系列画面的帧中的视频内容，在相邻的帧之间具有第一时段；
获得具有多个标识第二视频信号的段的视频内容的签名的第二签名组，第二视频信号的段以第二帧速率传送代表一系列画面的帧中的视频内容，在相邻的帧之间具有第二时段；以及
推导第一签名组与第二签名组之间的相异性的度量，以确定第一视频信号和第二视频信号是否传送代表源于共同画面源的相应画面系列的视频内容。

11.  根据权利要求10所述的方法，其中，相继的段的对传送在彼此偏移大于或等于第一时段并且大于或等于第二时段的时间间隔的相应时间处开始的视频内容。

12.  根据权利要求11所述的方法，包括：
形成在相继的段的对之间具有偏移的第一视频信号的段，该偏移是可变化的并且在等于标定时间间隔的一个第一时段内；和
形成在相继的段的对之间具有偏移的第二视频信号的段，该偏移是可变化的并且在等于所述标定时间间隔的一个第二时段内。

13.  根据权利要求10所述的方法，其中，第一帧速率与第二帧速率不同，并且所述方法包括：
形成具有代表一个第一时段内的视频内容的间隔的第一数量的帧的第一视频信号的段，所述第一时段等于标定段长度；和
形成具有代表一个第二时段内的视频内容的间隔的第二数量的帧的第二视频信号的段，所述第二时段等于所述标定段长度，第二数量不等于第一数量。

14.  一种设备，包括用于执行权利要求1至13中任一项所述方法的步骤的装置。

15.  一种传送可由装置运行以执行权利要求1至13中任一项所述方法的指令的程序的介质。

说明书

推导对于画面修改和帧速率转换不敏感的视频签名
技术领域
本发明一般涉及视频信号的处理，并且更具体地涉及从视频信号提取特征以标识信号的处理。贯穿本公开，术语“视频信号”和“视频内容”是指代表意欲用于视觉感知的图像的信号和内容。
背景技术
试图探测接收信号的授权和未授权视频内容的应用(application)，常常依赖于分析接收信号的内容以产生某种类型的内容标识符或签名的处理。这些应用使用基于分析的结果，以确定接收的内容是否是某种基准内容的拷贝。对于这些应用中的许多来说，重要的是，即使当接收的信号的内容已经被无意或有意地修改而使其与基准内容不同、但仍然可由人类观察者识别为与基准内容大体相同时，仍获得可靠的标识。如果在基准内容与修改内容之间的感觉差别小，那么优选地，签名产生处理应该从基准和修改内容产生彼此非常相似的签名。
对于信号内容的无意修改的例子包括噪声在传输通道中和在存储介质上插入或添加到信号。对于视频信号有意修改的例子包括亮度和颜色修改(如对比度/亮度调节、伽马校正、亮度直方图均衡、颜色饱和度调节及用于白平衡的颜色校正)，包括几何修改(诸如，图像剪辑和尺寸改变、图像旋转和倒转(flip)、拉伸、斑点去除、模糊化、锐化(sharpen)及边缘加强)，并且包括编码技术(诸如，有损压缩和帧速率转换)。
发明内容
本发明的目的是提供一种标识处理，即使内容已经通过诸如以上提到的那些之类的机理修改了，该标识处理也可用于获得视频内容的可靠标识。
由下面描述的本发明实现这个目的。
通过参考下面的讨论和附图可以更好地理解本发明的各种特征和其优选实施例，在附图中，类似附图标记指在几个图中的类似元素。下面的讨论和附图的内容仅作为例子被叙述，并且不应该理解成代表对本发明范围的限制。
附图说明
图1和2是视频签名产生器的示意方块图，该视频签名产生器可以用于获得视频信号的可靠标识。
图3是在图像预处理器的一种实施方式中执行的处理的示意框图。
图4是由空间域处理器获得的较低分辨率图像的示意框图。
图5是分段布置的视频帧的示意框图。
图6是处理视频内容段以产生一组视频签名的视频签名产生器的示意框图。
图7是管理用于视频内容拷贝的探测的签名数据库的系统的示意框图。
图8是可以用于实施本发明的各种方面的装置的示意框图。
具体实施方式
A.引言
本发明的各种方面可以有利地用在系统中，该系统用于通过分析该内容的段和产生对每一个段的签名来标识该内容。在信号的间隔(interval)中对这些段产生的签名形成签名组，该签名组可在该间隔中用作内容的可靠标识。如下的公开首先描述可以用于对单个段产生签名的处理，并且然后描述签名组的产生和使用。
图1是视频签名产生器100的示意框图，该视频签名产生器100分析信号段3中的视频内容，以产生视频签名193，该视频签名193标识或代表该内容。在示出的例子中，段3包括一系列视频帧3a至3d。如果视频信号传送(convey)音频内容以及视频内容，则可以通过按各种方式处理音频内容而获得代表音频内容的音频签名，这些方式包括在Regunathan Radhakrishnan等的、在2006年11月30日提交的、标题为“Extracting Features of Video and Audio Signal Contentto Provide a Reliable Identification of the Signals(提取视频和音频信号内容的特征以提供信号的可靠标识)”的美国临时专利申请第60/872,090号中公开的那些，这里通过参考并入该专利申请的全部内容。
B.视频签名提取器
视频签名产生器100的一种实施方式被示出在图2中。在这种实施方式中，图像预处理器110对在帧3a、3b、3c、3d中传送的画面获得一系列格式独立的图像，空间域处理器130下取样(down-samples)格式独立的图像以产生格式独立的图像的一系列较低分辨率表示(representation)，时间域处理器150产生代表较低分辨率表示的一系列的合成的值，并且视频签名处理器170将散列函数应用到合成值上，以产生代表和标识段3的内容的视频签名193。可以按各种方式实施由处理器110、130、150及170执行的处理。下面描述这些处理的优选实施方式。
1.图像预处理器
对于一种示例性实施方式，段3中的每一个视频帧3a、3b、3c、3d传送由像素D的阵列代表的画面。图像预处理器110对每一个帧推导(derive)画面的格式独立的图像。格式独立的图像由像素F的阵列代表。可以按各种方式进行格式独立的图像的推导。下面描述少量例子。
在一种应用中，视频签名产生器100产生对电视视频信号的签名，这些电视视频信号按各种格式传送视频内容，包括480×640像素的标准-清晰度(SD)分辨率和1080×1920像素的高-清晰度(HD)分辨率逐行扫描和隔行扫描。图像预处理器110将每一个帧中的画面转换成格式独立的图像，该格式独立的图像具有对所有感兴趣的信号格式来说共同的格式。在优选实施方式中，通过下取样在帧中的像素D而获得格式独立的图像中的像素F，以减小对修改(当视频的帧在不同格式之间转换时可能发生)的敏感性。
在一个例子中，格式独立的图像的分辨率选择成具有120×160像素的分辨率，这对于电视信号是方便的选择，这些电视信号对于逐行扫描和隔行扫描格式都按HD和SD分辨率传送图像。图像预处理器110通过按因数4下取样在每一个帧画面中的像素，将SD-格式视频内容转换成格式独立的图像。图像预处理器110通过剪辑每一个帧画面以从左手边缘去除240个像素和从右手边缘去除240个像素而获得具有1080×1440像素分辨率的中间图像、并且按因数9下取样在中间图像中的像素，将HD-格式视频内容转换成格式独立的图像。
如果视频信号按其中视频的帧布置在两个字段(field)中的隔行扫描格式传送内容，则可以在获得格式独立的图像之前将所述信号转换成逐行扫描格式。可选择地，可通过仅从在逐行扫描帧中的其中一个字段获得格式独立的图像，实现与扫描格式的选择的较大独立性。例如，可仅从每一个帧中的第一字段或仅从每一个帧中的第二字段获得格式独立的图像。在其它字段中的视频内容可被忽略。此处理避免在获得格式独立的图像之前转换到逐行扫描格式的需要。
如果使用适当的剪辑和下取样，则得到的图像基本上独立于帧画面格式，从而随后的签名产生处理对于不同的格式和对于由格式之间的转换产生的修改不敏感。这种解决方案增大了从一系列格式独立的图像所产生的视频签名在即使这些画面已经进行了格式转换的情况下也将正确地标识一系列帧画面中的视频内容的可能性。
优选地，格式独立的图像排除可能由有意修改影响的画面区域。对于诸如电视之类的视频应用，例如，这可以通过剪辑以排除图像的角部和边缘而实现，在这些角部和边缘处，标志或其它图形对象可能被插入到视频内容中。
图3提供通过由图像预处理器110执行的处理112获得的结果的示意说明，该处理112包括以上描述的剪辑和下取样操作。段3内的帧3a中的画面被剪辑，以提取在画面的中央部分中的像素D。在这个中央部分中的像素D被下取样，以获得在格式独立的图像5a中的像素F。对于在段3中的每一个帧3a、3b、3c、3d，获得在一系列图像5中的格式独立的图像5a、5b、5c、5d。处理112可以表达为：
{F_m}＝IP[{D_m}]对于0≤m＜M    (1)
其中，{F_m}＝对于帧m在格式独立的图像中的像素的组；
IP[]＝应用于帧m中的画面的图像预处理器操作；
{D_m}＝对于帧m在画面中的像素的组；及
M＝在段中的帧数量。
为了格式转换而改变画面尺寸的剪辑操作可以与排除画面可能受诸如标志插入之类的有意修改的影响的区域的剪辑操作相结合，或者被分离地执行。可以在下取样操作之前或之后执行这些剪辑操作。例如，可以通过剪辑视频内容和随后下取样剪辑的图像而获得格式独立的图像，可通过下取样视频内容和随后剪辑该下取样的图像而获得它，也可通过在以上提到的两个剪辑操作之间执行下取样操作而获得它。
如果每一个视频帧传送包括例如由红、绿及蓝(RGB)值代表的像素的彩色图像，则可以对每一个帧中的红、绿及蓝值中的每一个获得分离的格式独立的图像。优选地，对于每一个帧，可由从帧中的红、绿及蓝值推导的像素的亮度或辉度获得一个格式独立的图像。如果每一个视频帧传送单色图像，则可以从该帧中的各个像素的强度获得格式独立的图像。
2.空间域处理器
在示例性实施方式中，空间域处理器130通过将在格式独立的图像的每一个中的像素F分组成GX个像素宽和GY个像素高的区域，获得格式独立的图像的下取样的较低分辨率表示。通过计算每一个区域中的像素的平均强度，从相应格式独立的图像中的像素F的强度推导具有画面元素E的较低分辨率图像。每一个较低分辨率图像具有K×L元素的分辨率。这示意地示出在图4中。可以通过执行实施如下表达式的处理而获得画面元素E：
Em(k,l)=1GX·GYΣi=k·GX(k+1)·GX-1Σj=l·GY(l+1)·GY-1Fm(i,j)]]>对于0≤k＜K；0≤l＜L；0≤m＜M
                           (2)
其中E_m(k，l)＝对于帧m在较低分辨率图像中的画面元素；
GX＝按像素F的数量表达的像素组的宽度；
GY＝按像素F的数量表达的像素组的高度；
K＝较低分辨率图像的水平分辨率；
L＝较低分辨率图像的垂直分辨率；及
F_m(i，j)＝对于帧m在格式独立的图像中的像素。
组的水平尺寸GX被选择成使得K·GX＝RH，并且组的垂直尺寸GY被选择成使得L·GY＝RV，其中RH和RV分别是格式独立的图像的水平和垂直分辨率。对于产生具有120×160像素的分辨率的下取样的格式独立的图像中的元素的以上讨论的示例性实施方式，所述组的一种适当尺寸是8×8，这提供具有120/8×160/8＝15×20画面元素的分辨率的较低分辨率图像。
可选择地，由空间域处理器130执行的分组可与由图像预处理器110执行的处理相组合，或者在其之前被执行。
通过使用较低分辨率画面元素E产生视频签名而不是较高分辨率像素F，产生的视频签名对于改变视频信号内容的细节但保留平均强度的处理较不敏感。
3.时间域处理器
在时间域处理器150的示例性实施方式中，由相应画面元素E的时间平均值和方差获得代表较低分辨率图像的系列的合成的值。
可以由如下表达式计算每一个相应画面元素E(k，l)的时间平均值Z(k，l)：
Z(k,l)=1MΣm=0M-1Em(k,l)]]>对于0≤k＜K；0≤l＜L    (3a)
可选择地，可以通过从如下表达式中所示的画面元素的加权和(weighted sum)计算时间平均值而给予在段3内选中的帧的视频内容较大的重要性：
Z(k,l)=1MΣm=0M-1wm·Em(k,l)]]>对于0≤k＜K；0≤l＜L    (3b)
其中w_m＝用于在从帧m的视频内容推导的较低分辨率图像中的画面元素的加权因数。
如果希望，在由表达式2代表的空间域处理之前，可以执行由表达式3a或3b代表的时间域处理。
值Z(k，l)代表在时间和空间上对每一个画面元素E(k，l)的平均强度；因此，这些平均值不传送关于可以由段3的视频内容代表的任何运动的太多信息。通过计算每一个画面元素E(k，l)的方差可以获得运动的表示。
如果如在表达式3a中示出的那样计算每一个画面元素E(k，l)的平均值Z(k，l)，则每一个相应画面元素E(k，l)的方差V(k，l)可以由如下表达式计算：
V(k,l)=1MΣm=0M-1(Em(k,l)-Z(k,l))2]]>对于0≤k＜K；0≤l＜L    (4a)
如果如在表达式3b中示出的那样计算每一个画面元素的平均值，则每一个相应画面元素E(k，l)的方差V(k，l)可以由如下表达式计算：
V(k,l)=1MΣm=0M-1(wn·[Em(k,l)-Z(k,l)])2]]>对于0≤k＜K；0≤l＜L    (4b)
在优选实施方式中，代表较低分辨率图像的系列的合成的值是在分别从时间平均值和方差阵列Z和V推导的两个秩矩阵Z_r和V_r中的元素的值。在秩矩阵中的每一个元素的值代表其在关联阵列中的相应元素的秩顺序(rank order)。例如，如果元素Z(2，3)是在平均值阵列Z中的第四大元素，则在秩矩阵Z_r中的对应Z_r(2，3)的值等于4。对于这种优选实施方式，合成值QZ和QV可以表达为：
QZ(k，l)＝Z_r(k，l)对于0≤k＜K；0≤l＜L    (5)
QV(k，l)＝V_r(k，l)对于0≤k＜K；0≤l＜L    (6)
秩矩阵的使用是可选的。在可选的实施方式中，代表较低分辨率图像的系列的合成的值是在时间平均值和方差阵列Z和V中的元素的值。对于这种可选的实施方式，合成值QZ和QV可以表达为：
QZ(k，l)＝Z(k，l)对于0≤k＜K；0≤l＜L    (7)
QV(k，l)＝V(k，l)对于0≤k＜K；0≤l＜L    (8)
4.视频签名处理器
视频签名处理器170将散列函数应用于合成值QZ和QV的K×L阵列，以产生两组散列位。这两组散列位的组合构成标识段3的内容的视频签名。优选地，散列函数对于合成值的变化较不敏感，并且对于在可能使用的任何散列密钥的变化较敏感。不像对于其输入的甚至单个位的变化其输出都显著地变化的典型的密码散列函数，用于这种应用的优选散列函数提供对于输入合成值的小变化仅经历小变化的输出。这允许产生的视频签名关于对视频内容的小变化仅轻微地变化。
一种适当的散列函数使用一组N_Z基矩阵产生用于QZ合成值的一组N_Z散列位，并且使用一组N_V基矩阵产生用于QV合成值的一组N_V散列位。基矩阵的每一个为元素的K×L阵列。这些元素代表优选地彼此正交或几乎正交的一组向量。在下面描述的实施方式中，在基矩阵的元素代表彼此正交或几乎正交的一组向量的假设下，这些元素由随机数产生器产生。
供合成值QZ一起使用的每一个基矩阵PZ_n的矩阵元素pz_n(k，l)可以从如下表达式产生：
pz_n(k，l)＝RGN-p_n对于1≤n≤N_Z，0≤k＜K，0≤l＜L    (9)
其中RNG＝随机数产生器的输出；并且
p_n＝对于每一个矩阵由RNG产生的数的平均值。
与合成值QV一起使用的每一个基矩阵PV_n的矩阵元素pv_n(k，l)可以从如下表达式产生：
pv_n(k，l)＝RGN-p_n对于1≤n≤N_V，0≤k＜K，0≤l＜L    (10)
产生器RNG产生在范围[0，1]中均匀分布的随机或伪-随机值。可以通过散列密钥初始化产生器的初始状态，这使散列函数和产生的视频签名密码上更可靠。
通过首先将合成值QZ投影到N_Z基矩阵的每一个上获得一组散列位BZ_n，这可以表达为：
HZn=Σk=0K-lΣl=0L-lQZ(k,l)·pzn(k,l)]]>对于1≤n≤N_Z    (11)
其中HZ_n＝合成值QZ到基矩阵PZ_n上的投影。
然后通过将每一个投影与所有投影的中间值相比较、并且如果投影等于或超过阈值则将散列位设置为第一值以及如果投影小于阈值则将散列位设置为第二值而获得散列位的组BZ_n。这个处理的一个例子可以表达为：
BZ_n＝sgn(HZ_n-H_Z)    (12)
其中并且
H_Z＝所有投影HZ_n的中间值。
如在如下表达式中示出的那样，以类似方式获得另一组散列位BV_n：
HVn=Σk=0K-lΣl=0L-lQV(k,l)·pvn(k,l)]]>对于1≤n≤N_V    (13)
BV_n＝sgn(HV_n-H_V)    (14)
其中HV_n＝合成值QV到基矩阵PV_n上的投影；并且
H_V＝所有投影HV_n的中间值。
从两组散列位的结合(concatenation)获得视频签名，该结合形成具有等于N_Z+N_V的总位长度的值。用于N_Z和N_V的值可以被设置成：提供希望的总位长度，以及衡量(weight)合成值QZ和QV对于最终视频签名的相对贡献。在产生用于电视信号的视频签名的以上提到的一种应用中，N_Z和N_V都设置成等于十八。
C.应用
1.签名组
由视频签名产生器100产生的签名代表段的视频内容，从该视频内容产生签名。可通过对于在该间隔中包括的段产生一组签名而获得在比段长得多的信号的间隔中的视频内容的可靠标识。
在图5中示出的图是包括视频帧的几个段的信号的间隔的示意说明。五个段被示出。信号的第一段3包括视频帧3a至3d。每一个随后段4、5、6、7分别包括视频帧4a至4d、5a至5d、6a至6d及7a至7d。如以上描述的那样，对于这些段，通过使用视频信号产生器100处理在每一个段中的视频帧的内容，可产生一组签名。
每一个段包含整数的视频帧。优选地，在每一个段中的帧的系列在等于标定长度L的时间间隔上或在标定长度L的一个帧时段内传送视频内容。术语“帧时段”是指由一个帧传送的视频内容的持续时间。用于相继的段的标定开始时间t#彼此分离偏移ΔT。这个偏移可以设置成等于待由视频签名产生器100处理的信号的最低帧速率的帧时段。例如，如果待处理的最低速率是十二帧每秒，则偏移ΔT可以设置成等于1/12秒，或者约83.3毫秒。
可以选择标定长度L，以平衡减小随后产生的视频签名对于内容修改(如帧速率转换)的敏感性和增大由视频签名提供的表示的时间分辨率的矛盾的好处。经验研究已经表明，与视频内容的大约两秒相对应的标定段长度L为多种应用提供良好结果。
提到的段长度L和偏移量ΔT的具体值仅仅是例子。如果偏移ΔT不等于整数的帧时段，则在相继的段的实际开始时间之间的偏移可如在图中示出的那样变化不同偏移量Δ1和Δ2。如果希望，在实际开始时间之间的偏移的长度可以保持在标定偏移ΔT的一个帧时段内。
图6是示意框图，示出分别从段3至7的视频内容产生的一组视频签名193至197。参照图5和6，视频签名产生器100获得在标定开始时间t1处开始的段3的视频内容，并且处理这个视频内容以产生视频签名193。视频签名产生器100然后获得在标定开始时间t2处开始的段4的视频内容，并且处理这个视频内容以产生视频签名194。产生器继续通过分别处理在标定开始时间t3、t4及t5处开始的段5、6及7的视频内容以产生视频签名195、196及197。可以对可能希望的基本上任何数量的段产生签名。
标定开始时间不必与可能伴随视频内容的任何具体时间数据相对应。在原理上，在标定开始时间与视频内容之间的对准是任意的。例如，在一种实施方式中，标定开始时间表达为从待处理的信号的开始的相对偏移。每一个段从传送具有开始时间的视频内容的视频帧开始，该开始时间最靠近其相应标定开始时间。可选择地，每一个段可从跨(span)用于该段的标定开始时间的视频帧开始。基本上可以使用在开始帧与标定开始时间之间的任何对准。
2.拷贝的探测
从视频内容段产生的签名组可用于标识内容，即使当内容已经由包括以上提到的那些的各种处理修改时也是如此。可按各种方式使用可靠地确定规定视频内容(即使修改了)是否为基准内容的拷贝的能力，这些方式包括如下：
·未授权拷贝的探测：对等服务器的网络的使用可便利于内容的分布，但它们也能增加探测私有内容的未授权或侵权拷贝的难度，因为内容的多个拷贝可存在于对等服务器中。设施能够通过对于从网络可获得的所有内容产生签名组并且相对于基准签名组的数据库检查这些签名组，自动地确定任何未授权拷贝是否存在于网络中。
·广播的确认：与分发规定视频内容的广播网络订立合同的企业(business)能够通过从由广播接收机接收的信号产生签名组并且将这些签名组与对规定内容的基准签名组相比较，确认满足合同的条款。
·接收的标识：为广播网络提供排名(rating)的企业能够通过由接收信号产生签名组并且将这些签名组与基准签名组相比较，标识由接收机接收的内容。
图7是可以用于实施各种应用(如在前面清单中提到的那些)的系统的示意框图。视频签名产生器100由从路径31接收的视频内容的基准流产生基准视频签名组。产生的基准视频签名组被存储在签名数据库180中。基准签名组可以与可能便利于应用的实施的其它信息一起存储。例如，基准签名组可以与基础内容本身或与关于内容的信息(如内容所有者、内容许可条款、内容的标题或内容的文本描述)一起存储。每一个基准签名组具有数据库搜索密钥。可以按可能希望的任何方式推导这个密钥。优选地，密钥基于在关联基准签名组中的签名，或者从其推导。
可以相对于在签名数据库中存储的一个或多个签名组代表的基准内容检查任何规定视频内容。待检查的内容在这里被称作测试内容。通过使视频签名产生器101由从路径33接收的测试视频内容产生一个或多个测试视频签名组并且将测试视频签名组送到视频搜索引擎185，检查测试视频内容的身份。视频搜索引擎185试图在签名数据库180中找到与测试视频签名组准确或接近匹配的基准视频签名组。
在一种实施方式中，视频搜索引擎185从视频签名产生器101接收一个或多个测试签名组。每一个测试签名组包括按它们从测试内容产生的顺序定序的测试签名S_TEST的系列。视频搜索引擎185经路径182从签名数据库180接收基准签名组。每一个基准签名组包括按它们从对应基准内容产生的顺序定序的基准签名S_REF的系列。视频搜索引擎185通过计算在用于测试内容的测试签名组与用于具体基准内容的基准签名组之间的相异性DSM的度量，确定在测试内容与具体基准内容之间的相似性。从在用于测试签名组的签名系列中的对应签名与用于具体基准内容的基准签名组之间的汉明(Hamming)距离推导相异性DSM的这种度量。可以按多种方式计算这种度量，这些方式包括如下表达式的任一种：
DSM=Σs=1M(HD[SREF(s),STEST(s)])---(15a)]]>
DSM=Σs=1M(HD[SREF(s),STEST(s)])2---(15b)]]>
其中DSM＝相异性的计算度量；
HD[x，y]＝在签名x与y之间的汉明距离；
S_REF(s)＝在基准签名的系列中的第s个签名；及
S_TEST(s)＝在测试签名的系列中的第s个签名。
视频搜索引擎185从签名数据库180中搜索产生与测试签名组的最小相异性度量的基准签名组。与这个基准签名组相关联的基准内容是在数据库中与测试内容共享共同起源的最可能的候选对象。如果相异性度量小于某个分类阈值，则认为与测试签名组相关联的测试内容和基准内容共享共同起源或者是该基准内容的拷贝，该基准内容与匹配的基准签名组相关联。经验结果建议，如果在每一个签名组中的签名的系列代表大约两秒的视频内容，那么对于使用的各种视频内容，可以获得良好的结果。
为了在如下讨论中容易解释，如果测试内容与规定基准内容共享共同起源，则说测试内容和某种规定基准内容“匹配”。
为以上提到的分类阈值选择的值影响测试和基准内容将正确地被识别为彼此匹配或不匹配的可能性。它也影响做出错误决定的可能性。当分类阈值的值减小时，匹配内容将被错误地分类为不匹配的内容的“错误否定决定”的概率增大。相反，当分类阈值的值增大时，不匹配内容将被错误地分类为匹配的内容的“错误肯定决定”的概率增大。
可以按可能希望的任何方式设置分类阈值。可以用于设置分类阈值的值的一种方法获得由在数据库180中的基准签名代表的原始视频内容，并且创建这个原始内容的多个拷贝。按各种方式修改拷贝，如通过帧速率转换和以上描述的其它有意和无意修改的任一种。该方法对于每一个拷贝产生测试签名，并且计算在测试签名组与基准签名组之间的第一组相异性度量DSM。该方法也计算在测试签名组与用于不与原始内容共享共同起源的其它视频内容的签名组之间的第二组相异性度量DSM。在两个组中的值的范围不能重叠。如果它们重叠，则重叠量典型地为每一个组中的值的范围的非常小的部分。或者如果两个范围不重叠，则将分类阈值设置为在重叠内的值或者它们之间的值。根据应用的需要可以调节这个阈值，以平衡发生错误肯定决定或错误否定决定的危险。
D.实施
包括本发明的各种方面的装置可以按各种方式实施，包括由计算机或某种其它装置执行的软件，该其它装置包括更专用的元件，如联接到与在通用计算机中存在的那些相似的元件上的数字信号处理器(DSP)。图8是可以用于实施本发明的方面的装置70的示意框图。处理器72提供计算资源。RAM 73是由用于处理的处理器72使用的系统随机存取存储器(RAM)。ROM 74代表某种形式的持久存储装置，如用于存储操作装置70和可能用于执行本发明的各种方面所需要的程序的只读存储器(ROM)。I/O控制75代表经由通信通道76、77接收和传输信号的接口电路。在示出的实施方式中，所有主要系统元件都连接到总线71上，该总线71可以代表多于一条物理或逻辑总线；然而，不要求总线体系结构来实施本发明。
在由通用计算机系统实施的实施例中，为了与诸如键盘或鼠标和显示器之类的装置进行连接、和为了控制具有诸如磁带或磁盘、或光学介质之类的存储介质的存储装置78，可以包括辅助元件。存储介质可以用于记录用于操作系统、设备和应用的指令的程序，并且可以包括实现本发明的各种方面的程序。
可由元件执行实践本发明的各种方面要求的功能，这些元件按各种各样的方式实施，包括分立逻辑元件、集成电路、一个或多个ASIC和/或程序控制处理器。实施这些元件的方式对于本发明并不重要。
本发明的软件实施可以由各种机器可读介质传送，如遍及包括从超声波到紫外线频率的频谱的基带或调制通信路径、或基本上使用任何记录技术传送信息的存储介质，该记录技术包括磁带、磁卡或磁盘、光卡或光盘、及在包括纸的介质上的可探测标记。