产生压缩的代码转换提示元数据的方法和设备.pdf

摘要
申请专利号：	CN01800759.7	申请日：	2001.03.13
公开号：	CN1372769A	公开日：	2002.10.02
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效\|\|\|公开\|\|\|实质审查的生效
IPC分类号：	H04N7/26; G06F17/30; H04N7/24; H04N7/50; H04N7/36	主分类号：	H04N7/26; G06F17/30; H04N7/24; H04N7/50; H04N7/36
申请人：	索尼公司;
发明人：	彼得·库恩
地址：	日本东京都
优先权：	2000.03.13 JP 68720/00; 2000.05.16 US 60/204,729
专利代理机构：	北京市柳沈律师事务所	代理人：	吕晓章;李晓舒
PDF下载：	PDF下载

内容摘要

一种音频/视频(或视听即“A/V”)信号处理设备和方法,用于提取多媒体描述的压缩表示和代码转换提示元数据,用于在不同的(例如,MPEG)压缩内容表示之间进行代码转换,操作(例如,MPEG压缩的)位流参数如帧频、位速率、对话尺寸、量化参数、以及图像编码类型结构(例如,图像组或“GOP”),将A/V内容分类,以及检索多媒体信息。

权利要求书

1：一种用于处理提供的视频/音频信号的视频/音频信号处理方法，包括下面的步骤：描述代码转换目标位流参数；提取代码转换提示元数据；存储代码转换提示元数据；将A/V材料分为段；将代码转换提示元数据与分开的A/V段相关；以及代码转换A/V材料。
2：如权利要求1所述的视频/音频信号处理方法，其中描述代码转换目标位流参数包括下面的步骤：规定压缩图像第二位流的位速率；规定压缩图像第二位流的画面尺寸；规定压缩图像第二位流的每秒的帧数量；规定压缩图像第二位流的像素宽高比；规定压缩图像第二位流的每个像素的色彩深度；规定是否逐行格式用于压缩图像的第二位流；规定是否隔行格式用于压缩图像的第二位流；规定是否将帧画面用于压缩图像的第二位流；规定是否将保留画面用于压缩图像的第二位流；以及规定压缩图像第二位流的压缩方法。
3：如权利要求2所述的视频/音频信号处理方法，其中描述代码转换目标位流参数的步骤还包括规定使用如MPEG(活动图像专家组)规定的压缩标淮的步骤。
4：如权利要求2所述的视频/音频信号处理方法，其中描述代码转换目标位流参数的步骤还包括规定使用如ITU-T(国际电信联盟技术标淮组)规定的压缩标准的步骤。
5：如权利要求1所述的视频/音频信号处理方法，其中提取代码转换提示元数据的步骤包括：接收具有第一GOP结构的压缩图像数据的第一位流；从第一位流获得第一运动信息；获得第一段的结构/边缘信息；从第一位流获得特征点和相关的运动信息；以及从第一位流获得感兴趣信息的区域。
6：如权利要求5所述的视频/音频信号处理方法，其中提取代码转换提示元数据的步骤还包括将第一运动信息存储为代码转换提示元数据。
7：如权利要求5所述的视频/音频信号处理方法，其中提取代码转换提示元数据的步骤还包括将运动相关代码转换提示元数据表示为参数运动模型的参数的步骤。
8：如权利要求7所述的视频/音频信号处理方法，其中提取代码转换提示元数据的步骤还包括使用参数运动模型来描述随后的矩形视频帧内全局运动的步骤。
9：如权利要求7所述的视频/音频信号处理方法，其中提取代码转换提示元数据的步骤还包括使用参数运动模型来描述任意形状规定区域内运动的步骤。
10：如权利要求9所述的视频/音频信号处理方法，其中使用参数运动模型以描述如MPEG-4内使用的任意形状的规定区域内的运动。
11：如权利要求5所述的视频/音频信号处理方法，其中提取代码转换提示元数据的步骤还包括将运动相关代码转换提示元数据表示为包含在压缩图像数据第一位流内的运动向量阵列的步骤。
12：如权利要求5所述的视频/音频信号处理方法，其中提取代码转换提示元数据的步骤还包括将运动相关代码转换提示元数据表示为从包含在压缩图像数据第一位流的运动向量获得的运动向量阵列的步骤。
13：如权利要求5所述的视频/音频信号处理方法，其中提取代码转换提示元数据的步骤还包括将运动相关代码转换提示元数据表示为具有相关运动向量的特征点列表，它们在随后的帧内被跟踪。
14：如权利要求5所述的视频/音频信号处理方法，其中提取代码转换提示元数据的步骤还包括将运动相关代码转换提示元数据表示为具有相关运动向量的特征点列表，它们在随后的帧内在任意形状区域内被跟踪。
15：如权利要求5所述的视频/音频信号处理方法，其中提取代码转换提示元数据的步骤还包括将结构相关的代码转换提示元数据表示为DCT系数列表中的一个和从那里获得的一个测量值(平均值、最小值、最大值、变量、标准偏差中的一个)。
16：如权利要求5所述的视频/音频信号处理方法，其中提取代码转换提示元数据的步骤还包括将边缘相关的代码转换提示元数据表示为DCT系数列表中的一个和从那里获得的一个测量值(平均值、最小值、最大值、变量、标淮偏差中的一个)。
17：如权利要求5所述的视频/音频信号处理方法，其中提取代码转换提示元数据的步骤还包括将特征点和有关的运动相关的代码转换提示元数据表示为列表。
18：如权利要求5所述的视频/音频信号处理方法，其中提取代码转换提示元数据的步骤还包括将编码复杂性相关的代码转换提示元数据表示为从特征点使用期限列表获得的复杂性度量，这些特征点通过使用从一个帧到下一个帧的许多丢失的和新的特征点在随后的帧内被跟踪。
19：如权利要求1所述的视频/音频信号处理方法，其中存储代码转换提示元数据的步骤包括保留一个缓存器的步骤，该缓存器包含几种情况下的代码转换提示元数据。
20：如权利要求19所述的视频/音频信号处理方法，其中存储代码转换提示元数据的步骤还包括存储各个通用的代码转换提示元数据用于几个目标装置的步骤。
21：如权利要求19所述的视频/音频信号处理方法，其中存储代码转换提示元数据的步骤还包括存储通用的代码转换提示元数据用于不同场景活动的A/V段的步骤。
22：如权利要求1所述的视频/音频信号处理方法，其中将A/V材料分为段的步骤包括：使用具有相关运动向量的特征点；跟踪特征点并且保持特征点的使用期限；以及根据不能逐帧跟踪的特征点的数量，确定用于代码转换的新A/V段。
23：如权利要求1所述的视频/音频信号处理方法，其中将代码转换提示元数据与分开的A/V段相关的步骤包括：计算每帧新特征点的数量；确定是否新特征点的数量超过某些门限值；以及根据一些代码转换提示状态中所述确定的一个来选择。
24：如权利要求1所述的视频/音频信号处理方法，其中代码转换A/V 材料的步骤包括：接收具有第一GOP结构的压缩图像数据的第一位流；从第一位流中提取代码转换提示元数据；利用与第一位流相关的代码转换提示元数据以便于代码转换；以及输出第二位流。
25：如权利要求24所述的视频/音频信号处理方法，其中代码转换A/V 材料的步骤还包括利用与第一位流的时间段相关的代码转换提示元数据以便于代码转换。
26：如权利要求24所述的视频/音频信号处理方法，其中代码转换A/V 材料的步骤还包括利用与第一位流的空间段相关的代码转换提示元数据以便于代码转换。
27：如权利要求24所述的视频/音频信号处理方法，其中代码转换A/V 材料的步骤还包括利用包含在代码转换提示元数据中的运动信息来外插第二运动信息，用于具有与第一GOP结构不同的第二GOP结构的压缩图像数据的第二位流。
28：如权利要求24所述的视频/音频信号处理方法，其中代码转换A/V 材料的步骤还包括控制第二位流的位速率的步骤，使得第一位流的位速率不同于第二位流的位速率。
29：如权利要求28所述的视频/音频信号处理方法，其中代码转换A/V 材料的步骤还包括调节第一位流表示的图像尺寸的步骤，使得第二位流表示的图像的尺寸不同于第一位流表示的图像的尺寸。
30：如权利要求24所述的视频/音频信号处理方法，其中代码转换A/V 材料的步骤还包括调节第一位流表示的图像尺寸的步骤，使得第二位流表示的图像的尺寸不同于第一个位流表示的图像的尺寸。
31：如权利要求30所述的视频/音频信号处理方法，其中代码转换A/V 材料的步骤还包括当第一位流表示的图像被编码为帧图像时，将第二位流表示的图像编码为字段图像的步骤。
32：如权利要求30所述的视频/音频信号处理方法，其中代码转换A/V 材料的步骤还包括当第一位流表示的图像被编码为字段图像时，将第二位流表示的图像编码为帧图像的步骤。
33：如权利要求30所述的视频/音频信号处理方法，其中代码转换A/V 材料的步骤还包括当第一位流表示的图像作为逐行序列接收时，将第一位流表示的图像进行隔行处理的步骤，使得第二位流表示的图像作为隔行序列输出。
34：如权利要求30所述的视频/音频信号处理方法，其中代码转换A/V 材料的步骤还包括当第一位流表示的图像作为隔行序列接收时，将第一位流表示的图像去隔行处理的步骤，使得第二位流表示的图像作为逐行序列输出。
35：如权利要求24所述的视频/音频信号处理方法，其中代码转换A/V 材料的步骤还包括当第一位流表示的图像被编码为帧图像时，将第二位流表示的图像编码为字段图像的步骤。
36：如权利要求24所述的视频/音频信号处理方法，其中代码转换A/V 材料的步骤还包括当第一位流表示的图像被编码为字段图像时，将第二位流表示的图像编码为帧图像的步骤。
37：如权利要求24所述的视频/音频信号处理方法，其中代码转换A/V 材料的步骤还包括当第一位流表示的图像作为逐行序列接收时，将第一位流表示的图像进行隔行处理的步骤，使得第二位流表示的图像作为隔行序列输出。
38：如权利要求24所述的视频/音频信号处理方法，其中代码转换A/V 材料的步骤还包括当第一位流表示的图像作为隔行序列接收时，将第一位流表示的图像去隔行处理的步骤，使得第二位流表示的图像作为逐行序列输出。
39：一种代码转换方法，包括下面的步骤：接收表示第一尺寸画面的压缩图像数据的第一位流；从第一位流中提取第一运动相关的代码转换提示元数据；存储第一个运动相关的代码转换提示元数据；利用存储的第一运动相关的代码转换提示元数据来外插第二运动信息，用于表示不同于第一尺寸的第二尺寸的图像的压缩图像数据的第二位流；及输出第二位流。
40：一种代码转换方法，包括下面的步骤：接收表示规定隔行序列的画面的压缩图像数据的第一位流；从第一位流中提取第一运动相关的代码转换提示元数据；存储第一运动相关的代码转换提示元数据；利用存储的第一个运动相关的代码转换提示元数据来外插第二运动信息，用于表示规定逐行序列的图像的压缩图像数据的第二位流；以及输出第二位流。
41：一种代码转换方法，包括下面的步骤：接收表示规定逐行序列的画面的压缩图像数据的第一位流；从第一位流中提取第一运动相关的代码转换提示元数据；存储第一运动相关的代码转换提示元数据；利用存储的第一运动相关的代码转换提示元数据来外插第二运动信息，用于表示规定隔行序列的图像的压缩图像数据的第二位流；以及输出第二位流。
42：一种代码转换方法，包括下面的步骤：接收表示帧画面的压缩图像数据的第一位流；从第一位流中提取第一运动相关的代码转换提示元数据；存储第一运动相关的代码转换提示元数据；利用存储的第一运动相关的代码转换提示元数据来外插第二运动信息，用于表示字段图像的压缩图像数据的第二位流；以及输出第二位流。
43：一种代码转换方法，包括下面的步骤：接收表示字段画面的压缩图像数据的第一位流；从第一位流中提取第一运动相关的代码转换提示元数据；存储第一运动相关的代码转换提示元数据；利用存储的第一运动相关的代码转换提示元数据来外插第二运动信息，用于表示帧图像的压缩图像数据的第二位流；以及输出第二位流。
44：一种代码转换方法，包括下面的步骤：接收表示主要图像的压缩图像数据的第一位流；从第一位流中提取第一运动相关的代码转换提示元数据；存储第一运动相关的代码转换提示元数据；利用存储的第一运动相关的代码转换提示元数据来外插第二运动信息，用于表示一部分主要图像的压缩图像数据的第二位流；以及输出第二位流。
45：一种代码转换方法，包括下面的步骤：接收具有多个编码参数的压缩图像数据的第一位流，这些参数包括GOP 结构、图像尺寸、位速率、帧画面格式、字段画面格式、逐行序列、以及隔行序列中至少一个；从第一位流中提取第一运动相关的代码转换提示元数据；存储第一运动相关的代码转换提示元数据；利用存储的第一运动相关的代码转换提示元数据来外插第二运动信息，用于具有若干个编码参数的压缩图像数据的第二位流，使得第二位流的编码参数中一个或多个与第一位流的编码参数不同；以及输出第二位流。
46：一种代码转换方法，包括下面的步骤：接收表示第一尺寸的画面的压缩图像数据的第一位流；从第一位流中提取第一特征点运动相关的代码转换提示元数据；存储第一特征点运动相关的代码转换提示元数据；利用存储的第一特征点运动相关的代码转换提示元数据来外插第二运动信息，用于表示不同于第一尺寸的第二尺寸的画面的压缩图像数据的第二位流：以及输出第二位流。
47：一种代码转换方法，包括下面的步骤：接收表示规定隔行序列的画面的压缩图像数据的第一位流；从第一位流中提取第一特征点运动相关的代码转换提示元数据；存储第一特征点运动相关的代码转换提示元数据；利用存储的第一特征点运动相关的代码转换提示元数据来外插第二运动信息，用于表示规定逐行序列的画面的压缩图像数据的第二位流；以及输出第二位流。
48：一种代码转换方法，包括下面的步骤：接收表示规定逐行序列的画面的压缩图像数据的第一位流；从第一位流中提取第一特征点运动相关的代码转换提示元数据；存储第一特征点运动相关的代码转换提示元数据；利用存储的第一特征点运动相关的代码转换提示元数据来外插第二运动信息，用于表示规定隔行序列的画面的压缩图像数据的第二位流；以及输出第二位流。
49：一种代码转换方法，包括下面的步骤：接收表示帧画面的压缩图像数据的第一位流；从第一位流中提取第一特征点运动相关的代码转换提示元数据；存储第一特征点运动相关的代码转换提示元数据；利用存储的第一特征点运动相关的代码转换提示元数据来外插第二运动信息，用于表示字段画面的压缩图像数据的第二位流；以及输出第二位流。
50：一种代码转换方法，包括下面的步骤：接收表示字段画面的压缩图像数据的第一位流；从第一位流中提取第一特征点运动相关的代码转换提示元数据；存储第一特征点运动相关的代码转换提示元数据；利用存储的第一特征点运动相关的代码转换提示元数据来外插第二运动信息，用于表示帧画面的压缩图像数据的第二位流；以及输出第二位流。
51：一咱代码转换方法，包括下面的步骤：接收表示主要图像的压缩图像数据的第一位流；从第一位流中提取第一特征点运动相关的代码转换提示元数据；存储第一特征点运动相关的代码转换提示元数据；利用存储的第一特征点运动相关的代码转换提示元数据来外插第二运动信息，用于表示一部分主要图像的压缩图像数据的第二位流；以及输出第二位流。
52：一种代码转换方法，包括下面的步骤：接收具有多个编码参数的压缩图像数据的第一位流，这些参数包括GOP 结构、画面尺寸、位速率、帧画面格式、字段画面格式、逐行序列、以及隔行序列中至少一个；从第一位流中提取第一特征点运动相关的代码转换提示元数据；存储第一特征点运动相关的代码转换提示元数据；利用存储的第一特征点运动相关的代码转换提示元数据来外插第二运动信息，用于具有多个编码参数的压缩图像数据的第二位流，使得第二位流的编码参数的一个或多个与第一位流的编码参数不同；以及输出第二位流。
53：一种用于处理提供的视频信号的视频处理方法，包括下面的步骤：接收源视频；以及使用运动元数据、结构/边缘元数据、以及特征点和相关的运动元数据中的一个，将源视频的内容分类，包括每帧许多新特征点。
54：如权利要求53所述的视频处理方法，其中所述方法用于确定代码转换的代码转换参数设置。
55：如权利要求53所述的视频处理方法，其中所述方法用于根据源视频的内容分类来组织视听材料。
56：一种用于处理提供的视频/音频信号的设备，包括：用于存储代码转换目标位流参数中至少一个描述的目标缓存器；根据这至少一个描述，用于提取代码转换提示元数据的提取单元；用于存储代码转换提示元数据的缓存器；用于将A/V材料分为段的分段单元；以及用于将代码转换提示元数据与分开的A/V段相关并且代码转换A/V材料的代码转换单元。
57：一种代码转换设备，包括：用于接收表示第一尺寸画面的压缩图像数据的第一位流的输入端；用于从第一位流中提取代码转换提示元数据的代码转换提示元数据提取单元；用于存储代码转换提示元数据的缓存器；处理单元，利用存储的代码转换提示元数据来外插运动信息，用于与第一位流不同的压缩图像数据的第二位流；以及输出第二位流的输出端。
58：一种用于处理提供的视频信号的设备，包括：用于接收源视频的输入端；以及处理器，利用运动元数据、结构/边缘元数据、以及特征点和相关的运动元数据中的一个，将源视频的内容分类，包括每帧许多新特征点。

说明书

产生压缩的代码转换提示元数据的方法和设备
    【技术领域】

    本发明涉及音频/视频(或视听“A/V”)信号处理方法和A/V信号处理设备，用于提取多媒体描述的压缩表示和不同(例如MPEG)压缩内容表示之间进行代码转换的代码转换提示元数据，操作(例如MPEG压缩的)位流参数如帧频、位速率、对话大小、量化参数以及图像编码类型结构如图像组或“GOP”，分类A/V内容，以及检索多媒体信息。背景技术

    A/V内容越来越多地经过光纤、无线和有线网络来传送。因为这些网络由不同的网络带宽约束来表征，所以需要由导致不同主观视觉质量的不同位速率来表示A/V内容。对于A/V内容压缩表示的其他要求通过A/V终端的屏幕大小、计算性能和存储器约束来产生。

    因此，以如活动图像专家组(“MPEG”)规定的压缩格式存储的A/V内容必须转换为例如不同的位速率、帧频、屏幕大小，并且适应不同的译码复杂性和不同A/V终端的存储约束。

    为了避免对不同的网络带宽和不同的A/V终端存储相同A/V内容的多个压缩的表示，以压缩的MPEG格式存储的A/V内容可以被代码转换为不同的MPEG格式。

    对于视频代码转换，可以参照下面的内容：

    W009838800A1：O.H.Werner，N.D.Wells，M.J.Knee：采用改进量化的数字压缩编码，1999，提出了一种自适应量化方案；

    US5870146：Zhu；Qin-Fan：用于数字视频代码转换的装置和方法，1999；

    W009929113A1：Nilsson，Michael，Erling；Ghanbari，Mohammed：代码转换，1999；

    US5805224：Keesman；Gerrit J，Van Otterloo；Petrus J.：用于代码转换视频信号地方法和装置，1998；

    W009943162ALGolin，Stuart，Jay：用于代码转换视频序列的运动向量外插，1999；

    US5838664：Polomski；Mark D.：采用数字代码转换的视频电话会议系统，1998；

    W009957673A2：Balliol，Nicolas：数据流的代码转换，1999；

    US5808570：Bakhmutsky；Michael：用于双匹配霍夫曼代码转换的装置和方法以及具有利用它们的两个码字位流分段的高性能变量长度译码器，1998；

    W009905870A2：Lemaguet，Yann：在视频序列和相应装置之间转换的方法，1999；以及

    W009923560A1：LUDWIG，Lester；BROWN，William；YUL，Inn，J.；VUONG，Anh，T.，VANDERLIPPE，Richard；BURNETT，Gerald；LAUWERS，Chris；LUI，Richard；APPLEBAUM，Daniel：可伸缩的网络多媒体系统和应用，1999。

    然而，在视频代码转换方面，这些专利中没有一个揭示或建议使用代码转换提示元数据信息以便于A/V代码转换。

    电影电视工程师协会(“SMPTE”)推荐了一种用于MPEG-2视频记录数据集的电视标准(327M-2000)，它对于源格式的每个宏块提供使用256位的重新编码的元数据。但是，这种代码转换提示元数据的提取和表示具有一些缺点。例如，根据推荐的标淮，对于A/V源内容的每单个帧和宏块提取代码转换提示元数据(如GOP结构、量化器设置、运动向量等)。这种方法的优点是提供详细的和内容自适应的代码转换提示，便于代码转换，同时大大地保留了主观A/V质量。然而，代码转换提示元数据的尺寸是非常大的。在推荐标准的一种特定实施方式中，MPEG视频的每个宏块存储256位代码转换提示元数据。这样大的代码转换提示元数据量不便于到本地(例如住家)A/V内容服务器的广播分配。因此。关于代码转换提示元数据的推荐标准只限于广播制作室应用。

    用于代码转换提示元数据提取和表示的另一种技术包括收集通用的代码转换提示元数据，用于以特定的位速率将压缩的A/V源内容代码转换到另一个压缩格式和位速率。然而，这种技术的缺点是不考虑代码转换内容的特有特性。例如，在源内容中，A/V特性可以从具有有限运动量和很少细节(例如新闻锚固场景)的A/V段改变为描述快速运动和许多细节(例如运动事件场景)的另一个A/V段。根据这种技术，可能选择错误引导代码转换提示元数据，它不适用于表示两种视频段不同的特性，因此，导致不好的A/V质量和错误的位速率分配。本发明公开

    根据前面所述，本发明的目的是提供一种用于提取压缩和A/V内容自适应多媒体描述和代码转换提示元数据表示的方法和设备。

    本发明的另一个目的是提供一种代码转换方法和设备，代码转换方法的一个要求是允许实时执行而没有明显的延迟，并且抑制计算复杂性。对于代码转换方法的第二个要求是尽可能多地保留主观A/V质量。为了便于代码转换方法对于不同的压缩目标格式达到这两个要求，可以提前产生并且分开存储或与压缩的A/V内容一起存储代码转换提示元数据。本发明的另一个目的是提供一种高度压缩的表示，以减少存储尺寸并且便于多媒体描述和代码转换提示元数据的分配(例如，到本地A/V内容服务器的广播)。

    因此，本发明的目的是为代码转换系统提供：1)经过代码转换处理保持A/V质量，以及2)限制计算复杂性以便使得实时应用以最小的延迟进行。根据本发明的实施例，包括代码转换提示的附加的数据(元数据)可以与压缩的A/V内容相关。

    通过说明书和附图的描述，本发明的其它目的和优点将会变得更加明显。

    本发明的设备和方法提供自动代码转换提示元数据的提取和压缩表示。

    本发明的领域是通过使用支持的代码转换元数据，将一种压缩格式的压缩的A/V内容代码转换为另一种格式的A/V内容。术语“代码转换”包括但不限于改变压缩的格式(例如，从MPEG-2格式转换为MPEG-4格式)、帧频转换、位速率转换、对话尺寸转换、屏幕尺寸转换、画面编码类型转换等。

    本发明也可以应用于自动的视频分类，使用前面所述的代码转换提示状态作为视频的不同场景活动的类别。

    因此，本发明包括若干个步骤并且这些步骤的一个或多个相关于其它步骤中的每一个，以及体现结构特征的设备，适用于实现这些步骤的元件组合和部件配置，所有这些都作为下面公开的详细内容进行示范，本发明的范围将在权利要求书中表示。附图的简要说明

    为了更全面地理解本发明，可以参照下面的描述和附图，其中：

    图1根据本发明实施例，描述了具有不同A/V终端的家网中代码转换系统的系统概况；

    图2根据本发明实施例，说明了代码转换提示提取(图像组，“GOP”)；

    图3根据本发明实施例，说明了基于每帧新特性点数量选择代码转换状态的例子；

    图4根据本发明实施例，示出具有3个状态的代码转换提示状态图的例子；

    图5根据本发明实施例，说明了从压缩和未压缩源内容提取代码转换提示元数据；

    图6根据本发明实施例，示出视频段和代码转换提示状态选择处理；

    图7根据本发明实施例，示出确定新的视频段(或新的GOP)的边界的方法；

    图8根据本发明实施例，示出如何选择代码转换提示状态的算法；

    图9根据本发明实施例，提供代码转换提示元数据的结构组织的概况；

    图10根据本发明实施例，描述通用代码转换提示元数据描述方案的结构组织；

    图11根据本发明实施例，描述了用于源格式定义的代码转换提示元数据；

    图12根据本发明实施例，描述了用于目标格式定义的代码转换提示元数据；

    图13根据本发明实施例，描述了通用代码转换提示元数据表示；

    图14根据本发明实施例，描述了基于段的代码转换提示元数据表示；

    图15根据本发明实施例，描述了编码复杂性代码转换提示元数据；以及

    图16根据本发明实施例，描述了代码转换提示状态元数据。优选实施方式

    图1根据本发明实施例，描述了用于家网环境下代码转换的系统100的一般概况。如图1所示，A/V内容服务器102包括A/V内容存储器103、A/V代码转换单元106、代码转换提示元数据提取单元104、以及A/V代码转换提示元数据存储缓冲器105。A/V内容存储器103存储来自不同源的压缩的A/V材料，这些源具有不同的位速率和不同的主观质量。例如，A/V内容存储器103可以包含来自便携式数字视频(“DV”)摄像机111的家庭视频，来自MPEG-4互联网络摄像机112的具有非常低位速率(比如说10kbit/s)的MPEG-4压缩视频，以及来自广播服务101的大约5Mbit/s的MPEG-2 MainProfile at Main Level(“MP@ML”)压缩广播视频，在某些情况下它已经与代码转换提示元数据相关联。A/V内容服务器102也可以包含以相当高位速率的高清晰度压缩MPEG视频。

    如图1所示，A/V内容服务器102连接到网络113，该网络可以是有线或无线家网。一些具有不同特性的A/V终端也可以连接到网络113，包括但不限于：无线MPEG-4 A/V个人数字助理(“PDA”)107、用于高清晰度电视娱乐的高分辨率A/V终端108、A/V游戏控制台109、以及基于国际电信联盟技术标准组(“ITU-T”)的可视电话110。A/V终端107、108、109和110可以采用不同的位速率传输性能(取决于有线电视或无线电链路)连接到家网113。

    另外，根据计算功率、存储器、屏幕尺寸、视频帧频、以及网络位速率可以限制无线视频PDA 107。因此，A/V代码转换单元106可以将例如欧洲5Mbit/s MPEG-2广播电视的每秒钟25帧(“fps”)和包含在A/V内容服务器102中的720×480像素代码转换为MPEG-4 500kbit/s 15fps视频用于无线传输，并且通过无线MPEG-4视频PDA 107显示在352×240像素显示器上。A/V代码转换单元106可以使用来自缓存器105的代码转换提示元数据，实时地将A/V内容的压缩的源位速率代码转换为每个特定的目标A/V终端107、108、109和110的性能。代码转换提示元数据在代码转换提示元数据提取单元104中产生，或者它们可以由广播服务程序101分配。

    如图1所示，采用源格式的压缩位流(以后称为“第一位流”)116从A/V内容缓存器103传送到A/V代码转换单元106。采用目标格式的位流(以后称为“第二位流”)115在代码转换单元106的代码转换之后传送到家网113。来自家网113的例如采用压缩DV格式的内容经过链路114存储在A/V内容存储器103中。

    图2根据本发明实施例，说明代码转换提示提取、代码转换提示存储以及代码转换处理。如图2所示，缓存器201包含采用源格式的A/V内容。缓存器202包含源格式的描述，如位速率、压缩方法、GOP结构、屏幕尺寸、隔行或逐行的格式等。缓存器203包含目标格式的描述，如位速率、压缩方法、GOP结构、屏幕尺寸、隔行或逐行的格式等。代码转换提示提取单元207从A/V缓存器201读出采用压缩源格式的A/V内容，以及来自缓存器202的源格式描述和来自缓存器203的代码转换目标格式描述。在代码转换提示提取单元207计算代码转换提示之后，代码转换提示存储在代码转换提示元数据缓存器206中。A/V代码转换单元205从A/V内容缓存器201读出采用源格式的第一位流204，并且借助于存储在缓存器206的代码转换提示元数据将源格式转换为目标格式。A/V代码转换单元205输出采用新的压缩目标格式的第二位流208到A/V目标格式缓存器209用于存储。

    图3和图4根据本发明实施例，说明代码转换提示元数据组织的原理。基于MPEG的视频压缩使用可预测的方法，这里相邻帧之间的变化被编码。从一个帧到下一个帧具有许多变化的视频内容与帧之间具有较小变化的视频内容相比，要求(为了保持主观质量同时限制位速率)不同的重新编码参数设置。因此，重要的是事先决定重新编码参数。代码转换提示元数据选择主要取决于不可预测的视觉内容的量和特性。新的视觉内容不能由先前帧预测并且可以是使用DCT系数密集编码的位速率。这样，本发明方法使用新特征点数量来确定每帧新的内容量，该新特征点的数量不是从先前帧到当前帧跟踪的。

    图3根据视频的帧数量，描述了每帧新特征点数量的图形(水平轴，时间轴)。部分301是一部分视频段，这里在连续帧之间只出现了非常少量的新内容，因此可以选择相应的代码转换提示元数据(例如，大GOP尺寸，低帧频，低位速率)。部分302包括每帧稍微高一些的新特征点的数量，这意味着选择了描述代码转换提示元数据的状态，它提供了这种情况下最佳的代码转换参数(例如，稍微小一些GOP尺寸，较高位速率)。部分303描述了每帧具有较大的新特征点数量的代码转换元数据提示状态，因此，每个场景具有较高的新内容量。这样，选择了较小M值(I/P帧距离)和较高位速率。

    图4描述了包括三个离散的代码转换提示元数据状态的代码转换提示元数据状态图的基本组织的例子。每个离散的代码转换状态可以包含用于GOP结构的元数据、量化器参数、位速率、屏幕尺寸等。这些代码转换提示参数可以具有一个固定值或可以是另一个参数的函数。例如，GOP长度可以是每帧新特征点数量的离散函数，量化器参数可以是从DCT系数获得的边缘和结构活动性的函数。在这个例子中可以选择三个代码转换提示元数据状态的每一个来适应三种不同的编码情况。如图4所示，状态“3”403被选择用于每帧高运动量和低新内容量，并且表示对这种内容的代码转换提示元数据的最佳状态。状态“2”402被选择用于具有高边缘活动性的低运动量和高内容量，它可能需要使用许多位。例如，状态“1”401被选择适用于具有低场景活动性的A/V内容的代码转换处理。还提供其它特别的代码转换提示元数据状态用于视频编辑效果，如不同的交叉衰落效果、突然的场景变化、或者两个场景之间的黑图像。视频编辑效果的位置可以手工地、半自动地或全自动地检测。

    图5根据本发明实施例，说明了从压缩和未压缩的源内容提取的代码转换提示元数据。如图5所示，系统500包括A/V源内容缓存器501、源格式描述缓存器502、以及目标格式描述缓存器503。

    存储器504用于存储运动向量、DCT系数以及来自压缩和未压缩区域的特征点提取。在压缩区域中，来自P和B宏块的运动向量可以直接从位流中提取。然而，宏块内不存在运动向量。因此，对于B和P宏块获得的运动向量可以内插用于I宏块(见Roy Wang，Thomas Huang：“在MPEG区域的快速摄像运动分析”，IEEE图像处理国际会议(International Conference onImage Processing)，ICIP99，Kobe，Japan，Oct 1999)。用于宏块内的块的DCT系数可以直接从位流中提取。对于P和B宏块，限定数量的DCT系数(DC和2个AC系数)可以通过下面描述的方法来获得，即Shih-Fu Chang，DavidG.Messerschmid：“MC-DCT压缩视频的操作和合成”，IEEE选择通信区域杂志(Journal on Selected Areas in Communications)，vol.8，1996。在Peter Kuhn1999年12月的PCT专利“用于压缩区域特征点登记和运动估计的方法和设备”中，公开了压缩区域特征点提取和运动估计的示范方法，它在此作为参考。在某些情况下，A/V源内容可以仅仅以未压缩的格式或以不基于DCT和运动补偿原理的压缩格式获得，它由MPEG-1、MPEG-2、MPEG-4、ITU-T H.261和ITU-T H.263使用。对于DV格式，可能只有DCT系数可以获得。在这些情况下，运动向量可以通过运动估计方法来获得，参照例如Peter Kuhn“用于MPEG-4运动估计的算法、复杂性分析和VLSI体系结构”，KluwerAcademic Publishers，1999。DCT系数可以通过完成基于块的DCT变换来获得，参照K.R.Rao，P.Yip：“离散余弦变换-算法，优点、应用”，学院出版社(Academic Press)1990。在像素区域(未压缩区域)的特征点可以通过例如下面描述的方法获得，即Bruce D.Lucas，Takeo Kanade“应用于立体视觉的迭代登记技术”，人工智能国际联合会议(International Joint Conference onArtificial Intelligence)，pp.674-679，1981。

    运动分析部分505从存储器504的运动向量表示中提取参数运动模型的参数。参数运动模型可以具有6个和8个参数，参数运动估计可以通过下面描述的方法获得，即M.Tekalp：“数字视频处理”，Prentice Hall，1995。使用运动表示的目的是去除由于延迟和速度原因在代码转换器中的运动估计。因此，来自源位流的运动输入表示可以用于获得输出表示(目标位流)。例如，对屏幕尺寸重定尺寸、隔行-逐行转换等可以主要地取决于运动表示。运动表示的参数也可以根据GOP结构进行编码判定。结构/边缘分析部件506可以基于从位流提取的DCT系数，可以参照例如K.R.Rao，P Yip“离散余弦变换-算法、优点、应用”，学院出版社(Academic Press)1990，或者K.W.Chun，K.W.Lim，H.D.Cho，J.B.Ra“用于视频编码的自适应感觉量化算法”，IEEE消费电子文集(Transactions on Consumer Electronics)，Vol.39，No.3，August1993。

    用于压缩区域的特征点跟踪部件507可以使用Peter Kuhn描述的技术，即“用于压缩区域特征点登记和运动估计的方法和设备”，PCT专利，1999年12月，它在此作为参考。处理器510计算每帧新特征点的数量。处理器509计算时间的视频段，处理器510计算每段的代码转换提示状态。下面参照附图6、图7和图8详细地描述根据本发明实施例用于这些计算的方法。

    存储器511包含运动相关的代码转换提示元数据。存储器512包含结构/边缘相关的代码转换提示元数据，而存储器513包含特征点代码转换提示元数据，下面参照图15对它们进行详细描述。存储器514包含视频段代码转换提示选择元数据，参照图16来描述它们。现在描述代码转换提示元数据的自动提取、压缩表示以及用途。

    图6根据本发明实施例，公开了视频段和代码转换提示状态选择处理。在步骤601，初始化一些变量。变量“帧”是源位流的当前帧数量，“n帧(nframes)”是新视频段(或GOP，即图像组)内帧的数量。其它的变量仅用于这个子程序。在步骤602，GOP内帧的数量加1。在步骤603，确定是否新的段/GOP在帧内开始，参照图7将讨论它的详细内容。如果是这样(“是”)，控制进入到步骤604，否则，进入步骤615。在步骤604，变量“last_gop_start”采用“new_gop_start”值初始化。在步骤608和609，如果变量“帧”大于1则变量“last_gop_stop”设置为“frame-1”。否则，在步骤610，“last_gop_stop”设置为1。接着，将在图8中详细描述的步骤611，根据运动参数605、结构/边缘参数606、以及特征点数据607确定代码转换提示状态。在步骤612，代码转换提示元数据输出到代码转换提示元数据缓存器。根据本发明优选实施例，代码转换提示元数据包括“n帧”(GOP内帧的数量)，具有所有参数的代码转换提示状态，以及新GOP的开始帧数量(“new_gop_start”)。在这以后，变量“n帧”被设置为0，并且当前帧数量“帧”被给予变量“new_gop_start”。然后，在步骤615，检测以确定是否源位流的所有帧已经被处理。如果不是(“否”)，控制转到步骤614，这里帧数量被加1并且从步骤602开始重复该处理。否则，该处理终止。

    图7根据本发明实施例，说明确定新视频段或GOP的开始帧和结束帧的方法。在步骤701，确定是否来自图6的变量“n帧(nframes)”是M(它是I/P帧距离)的整数倍。如果是这样，则选择“否”并且在步骤702，确定是否当前帧号码是第一帧。如果是这样(“否”)，控制转到步骤703，这里确定是否“n帧”大于GOP内帧“gop_min”的最小数。在步骤702的结果是“是”的情况下，新GOP在步骤705开始。在步骤703的结果是“是”的情况下，新GOP在步骤705开始。在步骤703的结果是“否”的情况下，控制转到步骤704，这里确定是否“n帧”大于GOP内帧“gop_max”的最大数。在步骤704的结果是“是”的情况下，GOP在步骤706关闭，否则该处理终止。

    图8根据本发明实施例，说明选择代码转换提示状态用于特定的GOP或A/V段的处理，仅考虑每帧新特征点的数量。根据说明的基本构思，可以使用来自参数运动估计的上述的运动参数以及从DCT系数获得的结构/边缘参数来实现类似的判定结构。应该注意描述的类别和算法也可用于根据运动、边缘活动性、每帧新内容等将A/V材料分类，使得有更高级别的A/V分类。在这种情况下，代码转换提示状态将表示不同内容材料的特定分类。现在参照图8，在步骤801，变量“frame_no”、“last_gop_start”、“sum”和“new_seg”被初始化。变量“frame no”被给予“last_gop_start”参数的内容，变量“sum”和“new_seg”被初始化为零。然后，在步骤802，变量“sum”的内容加上当前帧的新特征点的数量(“frame_no”)。在步骤803，确定是否变量“frame_no”小于变量“last_gop_stop”。如果是这样(“是”)，重复步骤802，否则，控制转到步骤804。在步骤804，确定是否变量“sum”的值小于预定参数“summax”的八分之一。参数“summax”是一个常数，它表示可以逐帧跟踪的最大特征点数量乘以帧“last_gop_start”和“last_gop_stop”之间的帧数量。本发明实施例中它可以具有值200。如果在步骤804的结果是“是”，在步骤806选择代码转换提示状态1，它用于图8的表1所示的参数。否则，在步骤805，确定是否变量“sum”的值小于预定参数“summax”的四分之一。如果是这样(“是”)，则为代码转换提示状态2，如步骤807选择的表1所示。如果不是(“否”)，则在步骤808选择代码转换提示状态3(如表1所示)并且该处理终止。应该注意步骤804和805的判定门限值取决于代码转换提示状态的规定和数量。

    代码转换提示元数据描述

    为了解释元数据，可以使用伪C编码形式。可以使用如MPEG-7元数据标准中规定的描述的缩写D和描述方案的缩写DS。

    图9根据本发明实施例，描述了通用的A/V DS 901内代码转换提示元数据的结构组织。如图9所示，段DS 904和媒体信息DS 902从通用的A/V DS901中获得。段分解906从段DS 904中获得，视频段DS 907和移动区域DS907从段分解906中获得。基于段的代码转换提示DS 909从视频段DS 907中获得，将参照图14详细描述909。视频段DS 907存取一个或多个代码转换提示状态DS 911，它参照图16被详细地描述。参照图14详细描述的基于段的代码转换提示DS 910由移动区域DS 908获得用于移动区域，它存取一个或多个代码转换提示状态DS 912，它参照图16被详细地描述。从媒体信息DS 902获得媒体分布(Media Profile)DS 903。从媒体分布DS 903获得通用的代码转换提示DS 905，它将参照图10描述。

    图10描述了代码转换提示DS 1001的结构组织，它包括参照图11描述的源格式规定DS 1002中一个实例，目标格式规定DS1003的一个或多个实例将参照图12进行描述。另外，代码转换提示DS 1001包括参照图13描述的通用的代码转换提示DS 1004的一种选择实例，以及参照图15描述的一个选择代码转换编码复杂性DS 1005。

    图11根据本发明实施例，描述了与整个A/V内容或与特定的A/V段相关的源格式规定代码转换提示元数据(例如图10的源格式规定DS 1002)。如图11所示，相关的描述符和描述方案可以包括：

    ·bitrate是<int>类型并且描述源A/V数据流的每秒位速率。

    ·size_of_pictures是<2*int>类型并且描述在x和y方向上源A/V格式的图像大小。

    ·number_of_frames_per_second是<int>类型并且描述源内容的每秒帧数量。

    ·pel_aspect_ratio是<float>类型并且描述像素宽高比。

    ·pel_colour_depth是<int>类型并且描述颜色深度。

    ·usage_of_progressive_interlaced_format是<1位>大小并且描述源格式是逐行还是隔行格式。

    ·usage_of_frame_field_pictures是<1位>大小并且描述使用帧还是字段图像。

    ·compression method是<int>类型并且规定用于源格式的压缩方法，可以从包括：MPEG-1、MPEG-2、MPEG-4、DV、H.263、H.261等的列表中选择。对于每种压缩方法，可以在这里规定其他的参数。

    ·GOP_structure是I、P、B状态的行程编码的数据字段。例如，在MPEG-2视频中只有I帧的情况下，直接变换到压缩区域的DV格式是可能的。

    图12根据本发明实施例，描述了目标格式规定代码转换提示元数据，它可以与整个A/V内容或与特定的A/V段相关。如图12所示，相关的描述符和描述方案可以包括：

    ·bitrate是<int>类型并且描述目标A/V数据流的每秒位速率。

    ·size_of_pictures是<2*int>类型并且描述在x和y方向上目标A/V格式的图像大小。

    ·number_of_frames_per_second是<int>类型并且描述目标内容的每秒帧数量。

    ·pel_aspect_ratio是<float>类型并且描述像素宽高比。

    ·pel_colour_depth是<int>类型并且描述颜色深度。

    ·usage_of_progressive_interlaced_format是<1位>大小并且描述目标格式需要逐行还是隔行。

    ·usage_of_frame_field_pictures是<1位>大小并且描述使用帧还是字段图像。

    ·compression_method是<int>类型并且规定用于目标格式的压缩方法，可以从包括：MPEG-1、MPEG-2、MPEG-4、DV、H.263、H.261等的列表中选择。对于每种压缩方法，可以在这里规定其他的参数。

    ·GOP_structure是I、P、B状态的可选的行程编码数据字段。借助于这个可选参数，可以强迫一个固定的GOP结构。固定的GOP结构可以例如将I帧强迫在某一位置以便于视频编辑。

    图13根据本发明实施例，描述了通用的代码转换提示元数据(例如，图11的通用代码转换提示DS 1004)，它可以与整个A/V内容或与特定的A/V段相关。如图13所示，相关的描述符和描述方案可以包括：

    ·use_region_of_interest_DS具有<1位>的长度并且表示是否感兴趣的描述方案的区域可用于代码转换提示。

    ·在使用region_of_interest_DS的情况下，shape_D(它可以例如是下面的一个：boundary_box_D，MB_shape_D或任何其它的shape_D)与motion_trajectory_D一起可以用于在空间上和时间上描述感兴趣的区域。MB_shape_D可以使用宏块(16×16)大小的块用于目标形状描述。Motion_trajectory_D已经包括时间的概念，使得可以规定region_of_interest_DS的开始帧和结束帧。region_of_interest_DS可以具有相应的shape_D和相应的motion_trajectory_D的大小。对于代码转换应用，例如可以使用region_of_interest_DS，以对于感兴趣区域内的块比背景花费更多的位(或相应地修改量化器)。对于MPEG-4的另一个代码转换应用可以通过分开MPEG-4目标来描述感兴趣的区域，并且对于感兴趣的区域比其它的MPEG-4目标如背景花费更高的位速率和更高的帧频。region_of_interest_DS的提取可以自动地或手工地完成。

    ·use_editing_effects_transcoding_hints_DS具有<1位>的长度并且指示是否信息可以根据基于编辑效果的代码转换提示来获得。

    ·camera_flash是项目的列表，这里每个项目描述摄像机闪光产生的帧数量。因此，描述符的长度是摄像机闪光事件的数量乘以<int>。对于代码转换应用，camera_flash描述符是非常有用的，因为大多数视频(重新)编码器/代码转换器使用的运动估计方法基于亮度差别，参照Peter Kuhn“用于MPEG-4运动估计的算法、复杂性分析和VLSI结构”，Kluwer Academic Publishers，1999。在基于亮度的运动估计的情况下，两个相邻帧(一个具有闪光，一个不具有闪光)的两个宏块之间的平均绝对误差对于预测来说太高，具有摄像机闪光的帧必须作为具有高位速率成本的帧内编码。因此，表示代码转换提示描述方案(“DS”)内的摄像机闪光允许例如使用亮度校正运动估计方法或其它手段从具有适当位成本的锚帧预测具有摄像机闪光的帧。

    ·cross_fading是项目列表，这里每个项目描述交叉衰落的开始帧和结束帧。因此，这个描述符的长度是交叉衰落事件数量的<int>的两倍。在交叉衰落期间表示代码转换提示元数据中的交叉衰落事件对于控制位速率/量化器是非常有用的。在交叉衰落期间，预测一般被限制使用，使得用于预测误差编码的位速率增加。因为在交叉衰落期间，场景通常变得模糊，通过分别调节量化器比例、位速率或速率控制参数可以限制位速率增加。

    ·black_pictures是项目的列表，这里每个项目描述了一个黑画面序列的开始帧和结束帧。在场景之间，特别的在家庭视频中，可能产生黑色画面。根据经验，这种结果表示一系列黑画面增加了运动补偿DCT编码器的位速率，因为预测仅仅被有限地使用。因此，通过分别调节量化器比例、位速率或速率控制参数，这个代码转换提示描述符可以用于限制黑画面期间的位速率。

    ·fade_in类似于cross_fading，并且被描述为确定渐显的开始帧和结束帧的许多项目。与交叉衰落相比，渐显从黑图像开始，因此，通过分别调节量化器比例、位速率或速率控制参数，一种眼睛的屏蔽效果可以用于限制在渐显期间的位速率。

    ·fade_out类似于fade_in，除了在场景之后的，描述一系列黑色画面。

    ·abrupt_change通过<int>类型的单个帧数量的列表描述，表示突然的场景或拍摄变化而没有衰落出现。这些事件通过例如图3的非常高和非常陡的峰值来表示。这些峰值表示新的摄像或场景的开始。abrupt_change编辑效果与衰落效果相反。当两个视频段之间的突然变化出现时，人的视觉需要几毫秒来适应和识别新的A/V段的细节。人眼的这种慢慢适应的效果对于视频代码转换是有益的，例如用于为在场景或摄像突然变化之后的视频段的那些开始帧，减少位速率或修改量化器比例参数。

    ·use_motion_transcoding_hints_DS具有<1位>的长度并且表示运动相关的代码转换提示元数据的使用。

    ·number of regions表示下面运动相关的代码转换提示元数据有效的区域数量。

    ·for_every_region用<1位>长度字段来表示该区域是矩形还是任意形状。在区域是任意形状的情况下，使用区域描述符(包括例如形状描述符和运动轨迹描述符)。在矩形区域的情况下，使用矩形区域的大小。这个区域内的运动字段用参数运动模型来描述，对于每个帧或帧序列，它由若干个参数确定。对于代码转换，源视频的实时运动的这个运动表示可以用于限制(重新)编码部分的计算复杂性运动估计的搜索区域，也可以用于快速和有效的隔行/去隔行(帧/字段)转换并且根据视频内的运动量确定GOP(画面组)结构。运动表示也可以有益地用于视频的大小转换。

    图14根据本发明实施例，描述了基于段的代码转换提示元数据(例如，图9的基于段的代码转换提示DS 909和910)，它可以用于确定描述恒定特性的A/V段的(重新)编码器/代码转换器。如图14所示，相关的描述符和描述方案可以包括：

    ·start_frame是<int>类型并且描述A/V段的代码转换提示元数据开始的帧号码。

    ·nframe是<int>类型并且描述A/V段的长度。

    ·I_frame_location给出描述A/V段内I帧位置的几种可能。

    ·select_one_out_of_the_following是<2位>大小并且选择下面四个I帧位置描述方法中的一个。

    ·first_frame是<1位>大小并且是缺省的I帧位置。这种方法描述A/V段，这里只有第一帧是A/V段的内部帧并且用作进一步预测的锚，A/V段内所有的其它帧是P或B帧。

    ·List of frame给出A/V段内内部帧的帧数量列表。这种方法允许任意地描述A/V段内内部帧的位置。对于这个列表中的k帧，这个描述符大小是<k*int>。

    ·first_frame_and_every_k_frames是<int>类型，这里段内第一帧是内部的并且k描述了A/V段内I帧的间隔。

    ·no_I_frame是<1位>大小并且描述在A/V段内不使用I帧的情况，当A/V段的编码基于先前段的地锚(内部帧)时它是有用的。

    ·quantizer_scale是<int>类型并且描述用于A/V段的初始量化器比例值。

    ·target_bitrate是<int>类型并且描述用于A/V段的每秒目标位速率。

    ·target_min_bitrate是<int>类型并且描述用于A/V段的每秒最小目标位速率(可选)。

    ·target_max_bitrate是<int>类型并且描述用于A/V段的每秒最大目标位速率(可选)。

    ·use_transcodings_tates是<1位>大小并且描述代码转换提示状态是否用于A/V段。

    ·transcoding_state_nr是<int>类型并且给出用于段的代码转换提示元数据状态。代码转换提示元数据状态是到代码转换提示状态表中的一项的指针。代码转换提示状态表可以具有若干个项目，这里通过代码转换提示参数可以加上或减去新的项目。下面参照图16描述单个代码转换提示状态的代码转换提示元数据。

    ·add_new_transcoding_state是<1位>大小并且描述具有相关信息的新代码转换状态是否必须加到代码转换提示表上。在add_new_transcoding_state发出信号“是”的情况下，给出新代码转换提示状态的参数列表。参数列表的大小由代码转换提示状态的参数数量和代码转换提示状态的数量确定。

    ·remove_transcoding_state是<1位>大小的标记，表示代码转换状态是否可以去除。在可以去除代码转换状态的情况下，给出去除的代码转换状态的状态数量(类型：<int>)。

    ·use_encoding_complexity_description是<1位>大小并且发出是否必须使用如图15规定的更详细的编码复杂性描述方案的信号。

    图15根据本发明实施例，描述了编码复杂性代码转换提示元数据，它可以与整个A/V内容或与特定的A/V段相关。编码复杂性元数据可以用于速率控制并且确定量化器和位速率设置。

    ·use_feature_points是<1位>大小并且表示基于特征点的复杂性估计数据的使用。

    ·select_feature_point_method是<2位>大小并且选择特征点方法。

    ·number_of_new_feature_points每帧描述如图3说明的每帧新特征点数量的列表，并且它们是<nframes*int>大小。这个度量表示每帧的新内容量。

    ·feature_point_metrics描述了基于一个段内每帧新特征点的度量列表。该度量被表示为具有下面意义的<int>值的有序列表：平均值、最大值、最小值、变量、每帧新特征点数量的标准偏差。

    ·use_equation_description是到每帧编码复杂性的基于方程式描述的<int>指针。

    ·use_motion_description是<1位>大小并且表示基于运动的复杂性描述的使用。

    ·select_motion_method是<4位>大小并且选择运动描述方法。

    ·param_k_motion是<nframes*k*int>大小并且描述用于全局参数运动模型的每单个帧的k个参数。

    ·motion_metrics描述了度量列表，用于基于整个段的运动向量的大小。度量被表示为具有下面意义的<int>值的有序列表：平均值、最大值、最小值、变量、宏块运动向量的标准偏差(stddev)。

    ·block_motion_field描述了m*m块大小的运动字段的每个向量并且是<nframes*int*size_x*size_y/(m*m)>的大小。

    ·use_texture_edge_metrics是当结构或边缘度量被使用并且它是<1位>大小时设置的标记。

    ·select_texture_edge_metrics是<4位>大小并且它确定来自下面的哪个结构度量被使用。

    ·DCT_block_energy是一个块的所有DCT系数的总和并且被定义用于帧内每个块。它是<size_y_size*-X*nframes*int/64>的大小。

    ·DCT_block_activity的被定义为一块的所有DCT系数的总和，但没有DC系数。它被定义用于帧内的每个块并且是<size_y*size_x*nframes*int/64>的大小。

    ·DCT_energy_metric描述了基于每块的各个DCT能量的整个段的度量列表。该度量被表示为具有下面意义的<int>值的有序列表：平均值、最大值、最小值、变量、所有各个DCT能量度量的标淮偏差。该描述符的大小是<6*int>。这个描述符的另一种实现是描述用于视频段的每单个帧的DCT能量度量。

    ·DCT_activity_metric描述了基于每块的各个DCT活动性的整个段的度量列表。该度量被表示为具有下面意义的<int>值的有序列表：平均值、最大值、最小值、变量、所有各个DCT活动性度量的标准偏差。该描述符的大小是<6*int>。这个描述符的另一种实现是描述用于视频段的每单个帧的DCT活动性度量。

    图16根据本发明实施例，描述了代码转换提示状态元数据，它可以与整个视听内容或与特定的A/V段相关。相关的描述符和描述方案可以包括：

    ·M是<int>类型并且描述I帧/P帧距离。

    ·bitrate_fraction_for_I是<float>类型并且描述可用于I帧的A/V段规定的位速率的分数。

    ·bitrate_fraction_for_P是<float>类型并且描述可用于P帧的A/V段规定的位速率的分数。用于B帧的位速率分数是到100％的剩余百分比。

    ·quantizer_scale_ratio_I_P是<float>类型并且表示I和P帧之间的量化器比例(如为这个段规定的)关系。

    ·quantizer_scale_ratio_I_B是<float>类型并且表示I和B帧之间的量化器比例(如为这个段规定的)关系。应该注意位速率描述符(bitrate_fraction_for_I<bitrate_fraction_for_P)，quantizer_scale_ratio描述符(quantizer_scale_ratio_I_P，quantizer_scale_ratio_I_B)或下面的速率控制参数可以是强制的。

    ·X_I，X_P，X_B是frame_vbv_complexities，每个是<int>类型并且在基于帧的压缩目标格式的情况下规定(参照图12)。根据源内容特征和目标格式规定，这些和下面的虚拟缓存器检验器(“VBV”)复杂性调节是可选的并且可以用于修改速率控制方案。

    ·X_I top，X_P top，X_B top是用于顶部字段的field_vbv_complexities，每个是<int>类型并且在基于字段的压缩目标格式的情况下规定(参照图12)。

    这样从前面的描述可以有效地达到本发明的目的，因为在实现上面的方法和结构中可以有一些变化但不会背离本发明的精神和范围，上面的描述和附图中包含的内容只用于说明的目的，而没有限制的意思。

    还应该理解所附权利要求书涵盖了这里描述的本发明的一般和特定的特征以及本发明范围内的所有描述。