音频编码
发明背景
技术领域
本发明涉及把音频信号编码成数据流,以使得其能够在与另一数据流的同步的点上被编辑。本发明尤其但不限定地应用于一个数字电视传输方案,要求在相关的图像帧边界上在压缩域中音频的非破坏性接合(splice)。
数字电视(DTV)系统允许经过一个具有有限带宽的信道广播几个节目。每一节目都具有视频和音频内容。一些节目可以包含高质量的多路音频(例如,可由家庭影院系统再生的5路音频)。DTV制作站点、网络和联播台通常使用磁带录像机和传输线来传送所有的音频内容。大部分的这种基础结构具有的能力仅用于两个未压缩的音频通道,所以多个通道在记录或传输之前通常被稍作压缩和格式化。在发射(即广播到最终用户)之前,节目数据流被强压缩。
在DTV产品的采集(contribution)和分配阶段,原始数据流必须被接合,用于节目编辑或节目切换(例如,用于将本地信息内容插入到实况广播网络馈送中)。在内容数据流中的图像帧边界上执行这种接合。
广播数据流的音频内容必须满足几个要求。DTV观众可以预期接收的节目具有高感知音频质量,尤其当这些节目将被使用例如家庭影院系统中的高质量再生设备再生时。例如,应该没有任何可听到的由于多个编码和解码级的级联引起的假象(artefact),并且在节目切换期间应该没有可察觉到的声音中断。最重要地,再生的节目必须口型同步(lip sync);即,音频数据流必须与对应的视频数据流同步。为了以合理的成本实现这些目的,即,利用现有的(两路)基础结构来实现这些目的,必须在压缩域中接合该音频节目。
背景技术
一种现有的夹层(mazzanine)编码方案包括在Dolby DigitalBroadcast Implementation Guidelines Part(杜比数字广播实施准则部分)No.91549(杜比实验室的1998年版本2)中限定的杜比E(r.t.m.),用于通过AES-3对分配多达8个信道的编码音频和复用的元数据。很快将要被引入的(NAB 1999)DP571杜比E编码器和DP572杜比E解码器将允许以最小的静噪或低频干扰来编辑和切换编码的音频信号。而且,它们将实现级联而没有可听到的劣变。杜比E使用20比特取样大小并且提供比特率的在2∶1和5∶1之间的一个降低。
英国广播公司和其它机构通过ACTS ATLANTIC项目正在建议一种用于切换和编辑MPEG-2视频比特流的灵活方法。这种无缝级联方案使用具有补充信息的解码和再编码来避免级联劣变。但是,该方案局限于具有MPEG-2层II和AES/EBU接口的应用。而且,该音频数据被允许相对于引入时间偏移的编辑点滑动。因此,连续的编辑能够导致在音频和视频信息之间一个大的时间偏移。
贯穿该广播链,视频和音频流必须被保持在口型同步中。即,音频必须与对应的视频保持同步。在发射之前,分配站点可以接合(例如交换、编辑或混合)音频和视频流(例如,用于包含本地内容)。在接合之后,如果图像帧和音频帧边界不重合,对于大多数的音频编码方案来说是这种情况,由于该音频相对于该视频的滑动而不可能自动地保证口型同步。在极端情况下,当不采用特殊措施时,这将导致音频假象,例如静噪或低频干扰。低频干扰可能是尝试解码一个非适应音频流的结果,而静噪则可被用于避免这些低频干扰。本发明的一个目标是提供一种用于音频流的编码方案,该音频流能够被接合而不引入例如静音、低频干扰或滑动的音频假象。
本发明的另一目标是提供一种编码方案,能够以最低的音质损耗来进行级联压缩和解压缩。
发明内容
根据第一方面,本发明提供用于一个数据流的音频编码方案,编码音频和视频数据,通过在编码中在限定的一个序列F(j)中提供长度F可变的音频帧,该方案具有等于在整数M个图像帧上图像帧长度1/fv的一个平均有效音频帧长度F。
该方案保证至少在每一个图像帧上编辑该数据流而不劣变音频信息。该帧长度F最好可通过改变在连续音频帧之间的重叠O来调整。
在实现本发明的方案中,值F(j)可根据j、限定一个帧序列的F(j)的周期性循环地重复。每一序列通常有M个图像帧和N个音频帧,每一音频帧包括k个块。在该序列中的帧之间的全部重叠OT例如可以等于OT=p×O+q×(O+1),其中O是块中的重叠长度。
在本发明范围之内的一方案中,仅量叠对应于一个特定图像帧的音频帧。在这样的一个方案中,p和q的值可以满足下列等式:
p=(N-M)×(O+1)-OT和q=(N-M)-p。
在一个可选方案中,仅重叠对应于一个特定视频序列的音频帧。在这样的一个方案中,p和q的值可以满足下列等式:
p=(N-1)×(O+1)-OT和q=(N-1)-p。
在一个进一步的可选方案中,任何相邻的音频帧被重叠。在这样的一个首选方案中,p和q的值可以满足下列等式:
p=N×(O+1)-OT和q=N-p。
该后一方案可以提供针对图像帧M序列的最佳重叠值,以使得
∃ n ∈ ℵ + : n × t = M ( f A f V ) . ]]>
把一个视频序列定义为fV图像帧/秒速率上一个(并且可能是有限的)整数(即,M)的图像帧,每一图像帧包括相等整数N的(压缩的)音频帧,每一个音频帧包括整数k地块,每一个块表示每秒fA取样的取样速率的一个整数t的音频取样。通过使得图像帧数之间除法的余数乘以音频和视频频率之间的商数,并且使得每一(压缩)音频块的音频取样的数量等于零,保证M是一个整数。因此,N也是一个整数。结果,重叠块的总数也是一个整数,并且每个单一量叠也是如此。在大多数情况下,要求重叠块的数量是一个整数。取样的块是由基础编解码器处理的最小的信息单元。
根据第二方面,本发明提供用于传送编码音频和视频数据的数据流的音频编码方案,在该方案中N个准视频匹配帧的音频取样在具有半可变重叠的帧中被编码,从而音频帧的有效长度与一个M图像帧序列的长度一致,其中M和N是正整数。
本发明提供利用根据任何一个在前的本发明方面的方案编码的数据流。这样的数据流可以包括音频帧,每一音频帧都被标记,以指示该音频帧的大小。可以类似地标记块来指示该块是否为冗余块。
根据另一方面,本发明提供一个音频编码器(这可以例如实现为一个软件成分或硬件电路),用于根据本发明第一方面编码音频流;并且进一步提供一个音频解码器,用于根据本发明第一方面解码音频流。
根据本发明此方面的一个音频解码器通过对每一块应用一组块运算符(operator)的一个或者多个来改变数据流中块的冗余状态而操作。这可以利用包括下列一个或多个运算符的一组运算符来实现:NOP,不改变块状态的运算符;DROP(丢弃),把第一非冗余块从首部重叠改变成冗余块的运算符;APPEND(附加),把第一冗余块从尾部重叠改变成非冗余块的运算符;以及SHIFT(移位),这是DROP和APPEND两个运算符的组合的运算符。
具体地说,本发明提供一种音频编码器,用于编码数据流的音频,编码音频数据和视频数据,其中该编码器产生可变长度的音频帧,通过使得音频帧可变量叠在编码时在一个限定序列F(j)中具有长度F,使得一个平均有效音频帧长度F等于在整数M图像帧之上图像帧长度的1/fV。
这样一个音频编码器可以把一个数据流编码成在一个序列中具有长度O的一个短重叠和总数为q的长量叠,该编码器使用在N个音频帧之后重复的一种算法来计算首部重叠。
根据更进一步的方面,本发明提供一个音频解码器(这可以实现为例如一个软件成分或一个硬件电路),用于解码传送已编码音频和视频数据的数据流,该解码器计算在一个可能循环移位的序列F(j)中的一个输入帧F的预期帧长度,调整该输入帧的实际长度以使得其等于该预期帧长度,确定在一个接收帧之内的任何块是否为冗余块或非冗余数据块,把非冗余块映射到子带音频取样上。
在实现本发明的系统中,通常没有例如取样速率变换的额外的音频操作。而且,正确解码已接收数据流所需的全部信息通常都在编码器上被添加,并且不需要在编辑期间修改此信息。因此,可以使用现存的基础结构来完成编辑而不作任何修改。而且,为了使得解码有可能,需要添加非常少的额外信息到该数据流。最后,但不是最少,当使用MPEG作为发射格式时,也可以方便地使用一个MPEG类似的格式来传输。
附图说明
现将仅以实例的方式并且参照附图来详细描述本发明的实施例,其中:
图1是在DTV广播中牵涉的一个典型链的示意图;
图2是表示一个典型DTV制作站点的主要组成部分的示意图;
图3是表示一个典型DTV网络站点的主要组成部分的示意图;
图4是表示在根据本发明一个实施例的第一方案编码的一个数据流中的音频和图像帧的排列的示意图;
图5是表示在根据本发明一个实施例的第二方案编码的一个数据流中的音频和图像帧的排列的示意图;
图6是表示在根据本发明一个实施例的第三方案编码的一个数据流中的音频和图像帧的排列的示意图;
图7示出根据MPEG-2层II的实施本发明的一个数据流的比特分配,用于IEC61937中的NTSC和48kHz音频;和
图8是利用本发明的一个实施例编码的数据流中的块的排列的示意图。
具体实施方式
在下面的描述中,贯穿使用以下符号:
fA,fV 音频采样频率,图像帧速率
tA,tv 音频,图像帧持续时间长度
s 每一音频帧的取样
k 每一音频帧的取样的块
t 每一块的取样
O,OT,O 短的、总的和平均重叠
M,N 每一序列的视频、音频帧的数量
p 每一序列的短重叠的数量
q 每一序列的长重叠的数量
j 帧索引
F(j),G(j) 帧的有效长度
H(j),T(j) 帧的首部、尾部重叠
X(j),X(j) 累积的有效长度,累积的平均有效长度
F 平均有效长度
b 短帧的长度
B 视频序列中块的总数
相位
{1,2,3,...,∞}
Q 零填充
A(j) 附加操作转换
OP(j) 运算符
ε(j) 同步差错
δ 总的同步差错
u,v 辅助变量
首先参考图1,典型的DTV广播系统是牵涉采集(contribution)级10、分配级12和发射级14的一个链。
在采集级中,在一个或者多个制作站点20上产生内容,并且通过分配网络22传输到一个广播网站点24。广播网24制作包括该内容的节目流,并且经过一个分配网络30把该节目流分配到联播台,例如,直达户的卫星广播器32、地面广播器34或有线电视供应商36。用户40随后能从联播台之一的输出接收该节目流。
在制作站点中,几个类型的内容可以被产生并被存储在不同的媒体上。例如,第一演播室50可以产生实况内容,而第二演播室52可以产生记录的内容(例如商业广告)。在每种情况下,该内容包括视频和音频成分。来自每一个演播室50的输出由分别的编码器54类似地进行处理,并且产生编码该音频和视频内容的基本数据流。来自第一演播室50的将要被实况广播的内容随后被利用一个无线电链路(在适当的处理之后)发送到分配网络22。对于第二演播室的内容来说,时间不是关键的,所以这可以被记录在磁带56上并且以一个适当的方式被发送到分配网络22。编码器54及其产生的基本数据流是本发明方面的
实施例。
如图3所示,在网络站点24内,来自各种信源的内容通过一个接合器60被接合,以构成一个节目输出。从类似类型的基本数据流中获得至接合器60的输入,诸如通过无线电链路从制作单元20、磁带56或本地演播室64的各种信源获得基本数据流。接合器60的输出同样是一个基本数据流,这是在任何给定时间选择的一个输入数据流。接合器60能够被操作以便在输入数据流之间切换,其切换方式保证输出数据流的音频和视频成分能够被无缝地再生。接合器60的输出随后由打包器62处理,以形成一个传输流。随后,调制该传输数据流,以便利用一个无线电链路发送到联播台,从而分配到用户。
在实施本发明的一个基本数据流之内编码的视频内容通常将包括扫描图像帧的序列。这样的帧可以是逐行扫描图像帧,其中每一帧都是一个完全的静止画面。在这种情况下,图像帧具有帧速率fV并且具有持续时间tv=1/fV。另外,这些帧可以是隔行扫描帧,其中每一个帧都由两个连续的隔行扫描场建立,以上述介绍的表示法,该场频是2fV。帧速率和扫描类型由该数据流计划用于的电视制式所定义。基本电视标准PAL和NTSC从使用这些标准的国家的主频率中得到帧速率。由于彩色的引入,NTSC被利用系数1000/1001修改。另外,影片使用24Hz,其可以利用相同的系数进行修改。而且,计算机监视器能够运行在高达96Hz的帧速率上。在下表1中给出fV的典型值。
图像帧速率[Hz] tv[ms] 应用
23.976 41.71 3-2下拉NTSC
24 41.67 影片
25 40 PAL,SECAM
29.97 33.37 NTSC,PAL-M,SECAM-M
30 33.33 弃帧NTSC
50 20 倍速率PAL
59.94 16.68 倍速率NTSC
60 16.67 倍速率,弃帧NTSC
表1
音频信号是在频率fA,例如48kHz上取样的一个时间连续的脉码调制(PCM)信号。fA的实例值在下表2中给出。
音频采样频率[kHz] 应用
24 DAB
32 DAT,DBS
44.1 CD,DA-88,DAT
48 专业音频,DA-88,
DVD
96 DVD
表2
除这些频率之外,还有可能找到利用系数1000/1001修改的44.1和48kHz(例如44.056、44.144、47.952和48.048kHz),用于在上拉和下拉影片到NTSC转换中使音频一致。另外,对于影片到PAL的变换来说,可以应用24/25系数(例如42.336、45.937、46.08和50kHz)。而且,DAB可以使用24和48kHz;DVD音频可以使用44.1、88.2、176.4、48、96和192kHz;DVD视频可以使用48和96kHz。DAT被指定用于32、44.1和48kHz;特殊版本也可以使用96kHz。最后,以非常低比特率压缩的音频可以要求较低的采样频率(例如,16、22.05和24kHz)。
取样宽度通常是16、20或24比特。
在压缩之前,音频数据流被分割成持续时间tA=s/fA的音频帧,其中s是每一音频帧的取样的数量(例如,在MPEG-2层II中,s=1152取样;在AC-3中,s=1536采样)。在各种编码方案中使用的帧速率的实例在下表3中示出。
编码方案 使用 帧长度 tA[ms]@
[取样] 48kHz
MPEG-1层I DCC 384 8
MPEG-1层II DAB,DVB,DVD-V 1,152 24
MPEG-1层III ISDN,MP3 1,152 24
MPEG-2层II DVB,DVD 1,152 24
MPEG-2AAC 1,024 21.33
Dolby AC-3 DVD 1,536 32
Sony ATRAC MiniDisc 512 n.a.
表3
在音频编码器内,音频帧被进一步分成t取样的k个块(例如在MPEG-2层II中,有36个块,每个块具有32个采样)。这些块是将要被处理的最小音频单元。这可被表示成s=k×t。下面的表4提供了在各种编码方案中使用的帧细分的实例。
编码方案 k×t[块×取样]
MPEG层I 12×32
MPEG层II 36×32
MPEG层III 2×576
杜比AC-3 6×256
表4
贯穿该广播链,视频和音频流必须保持在口型同步中。即,音频必须与对应的视频保持同步。在发射之前,分配站点可以接合(例如,切换、编辑或混合)音频和视频流(例如,用于包含本地内容)。
在接合之后,如果图像和音频帧边界不重合,对于大部分的音频编码方案来说是这种情况,则不可能自动地保证口型同步。在极端情况下,当不采用特殊措施时,这将导致音频假象,例如静噪或滑动。
虽然本发明的各种实施例能够执行涉及现存标准(例如,MPEG-1和MPEG-2)的编码,但是本发明的实施例不一定与这些现存标准后向兼容。
实施例的基础
在本实施例的编码方案中,在N个准视频匹配帧中的音频取样具有与M个图像帧序列一致的半可变重叠。当根据本发明一个实施例进行编码时,每一个图像帧都包括相等整数数目的音频帧。因此,可以在图像帧边界上实现编辑。当解码时,可以丢弃冗余的取样。
设定一个音频帧被划分成k个具有t个取样的块,则在块中的总重叠OT可以由下式来计算:
O T = ( k × N ) - ( M t × f A f V ) ]]> 公式1
公式1中M、N、k和t是正整数,而fA和fV以Hz为单位表示频率,使得fA/fV是一个有理数。
为了提供在解码器重建滤波器中在编辑的音频数据流之间的交叉衰落,选择总重叠OT与整数块一致,如由下式给定:
OT=p×O+q×(O+1) 公式2
其中p、q和O是非负整数。
在本发明的各个实施例中,各种方案都能够用来通过音频帧扩展总重叠。即,通过强加不同的限制,可以给出用于这些实施例的不同的实施方案。在此处涉及到三个这样的方案,如:
方案1-在图像帧内的重叠;
方案2-在图像帧序列内的重叠;和
方案3-贯穿整个视频流的重叠。
能够显示出,方案3总是提供在两个相邻音频帧之间最小可能的重叠,常常每一序列具有最小数量的图像帧。因此,对于许多应用来说,此方案将比其它方案优选。但是,根据具体应用,可能不总是这种情况。
方案1
当重叠仅存在于一个图像帧之内时,如图4那样,在数据块中的平均重叠O由下式给出:
O ‾ = O T N - M ]]> 公式3
其可以实现为
p=(N-M)×(O+1)-OT 公式4
长度O块的重叠,以及
q=(N-M)-p 公式5长度(O+1)块的重叠。
方案2
当重叠仅存在于一个序列之内时,如图5那样,块中的平均重叠O由下式给出:
O ‾ = O T N - 1 ]]> 公式6
其可以实现为:
p=(N-1)×(O+1)-OT 公式7长度O块的重叠,和
q=(N-1)-p 公式8长度(O+1)块的重叠。
方案3
当重叠仅存在于序列之内时,如图6那样,块中的平均重叠O由下式给出:
O ‾ = O T N ]]> 公式9其可以实现为:
p=N×(O+1)-OT 公式10长度O块的量叠,和
q=N-p 公式11长度(O+1)块的重叠。重叠长度O可以表示成:
公式12
针对最后方案,其能够被写为:
公式13
M的选择要满足:
∃ n ∈ ℵ + : n × t = M × ( f A f V ) ]]> 公式14
并且每一图像帧的音频帧的速率N/M可被写成:
公式15
交叉衰落
按照ISO/IEC 11172″Coding of moving pictures andassociated audio for digital storage media at up to about 1.5Mbit/s(用于高达大约1.5M比特/秒的数字存储媒体的运动图像和相关音频的编码)″部分3中定义MPEG-1解码器中的重建滤波器:音频(1993-08)是一个重叠滤波器组。如果在子带域(即,块)中完成接合,则导致在解码时大约512音频取样的交叉衰落。
根据常用编码标准的实施方案
各种编码方案都已被认为是用于本发明实施例的基础。具体地说,已经考虑了MPEG-1和MPEG-2、层I和II,但这决不是可能方案的专门列举。在此必须说明,实现本发明的方案使用类似于现存标准的编码方案,但由于重叠,本发明使用的编码方案与这些标准出现偏离。
如精通本技术领域的人士所熟悉的那样,MPEG-2是用于编码与MPEG-1反向兼容的多信道音频的一个标准方案。另一方面,对多信道的一个非反向兼容的MPEG-1标准的扩展可以提供实施方案简易。而且,层II比层I更效率。另一方面,由于层I具有较少块数目,它提供较少的编码冗余度。在本发明的实施例中,根据MPEG-1层I的一个方案可以提供低冗余度和实施方案简易的最佳组合。
MPEG-2层II
当使用MPEG-2层II作为该编码方案的基础时,k=36和t=32。
表5示出当该实施例是根据如上所述的方案1时用于音频采样频率和图像帧速率的各种组合的重叠序列的某些实例。fV[Hz]fA[kHz] M N OTOp×O+q×(O+1)
23.976 48 16 32 151 9.437…9×9+7×10
44.1 2,560 5,120 37,173 14.520...1,227×14+1,333×15
32 24 48 727 30.291...17×30+7×31
24 48 2 4 19 9.51×9+1×10
44.1 64 128 933 14.578...27×14+37×15
32 3 6 91 30.333...2×30+1×31
25 48 1 2 12 121×12+0×13
44.1 8 16 135 16.8751×16+7×17
32 1 2 32 321×32+0×33
29.97 48 20 40 439 21.951×21+19×22
44.1 3,200 6,400 83,253 26.016...3,147×26+53×27
32 n/a n/a n/a n/an/a
表5:MPEG-2层II和方案1
表6示出当该实施例基于如上所述的方案2时用于音频采样频率和图像帧速率的各种组合的重叠序列的某些实例。fV[Hz]fA[kHz] M N OTOp×O+q×(O+1)
23.976 48 16 32 151 4.870...4×4+27×5
32 64 302 4.793...13×4+50×5
48 96 453 4.768...22×4+73×5
44.1 2,560 5,120 37,173 7.261...3,779×7+1,340×8
32 24 48 727 15.468...25×15+22×16
48 96 1,454 15.305...66×15+29×16
72 144 2,181 15.251...107×15+36×16
24 48 2 4 19 6.333...2×6+1×7
10 20 95 519×5+0×6
48 96 456 4.819×4+76×5
44.1 64 128 933 7.346...83×7+44×8
128 256 1,866 7.317...174×7+81×8
192 384 2,799 7.308...265×7+118×8
32 3 6 91 18.24×18+1×19
6 12 182 16.545...5×16+6×17
24 48 728 15.489...24×15+23×16
2548 1 2 12 121×12+0×13
2 4 24 83×8+0×9
7 14 84 6.461...7×6+6×7
44.1 8 16 135 915×9+0×10
72 144 1,215 8.496...72×8+71×9
32 1 2 32 321×32+0×33
2 4 64 21.333...2×21+1×22
17 34 544 16.484...17×16+16×17
29.97 48 20 40 439 11.256...29×11+10×12
40 80 878 11.113...70×11+9×12
220 440 4,829 11439×11+0×12
44.1 3200 6,400 83,253 13.010...6,333×13+66×14
6400 12,800 166,506 13.009...12,680×13+119×14
32 30 30 79 2.724...8×2+21×3
60 60 158 2.677...19×2+40×3
90 90 237 2.662...30×2+59×3
表6:MPEG-2层II和方案2
表7示出当该实施例基于如上所述的方案3时用于音频采样频率和图像帧速率的各种组合的某些重叠序列。fV[Hz] fA [kHz] M N OTOp×O+q×(O+.1)
23.976 48 16 32 151 4.718...9×4+23×5
44.1 2,560 5,120 37,173 7.260...3,787×7+1,333×8
32 24 48 727 15.145...41×15+7×16
24 48 2 4 19 4.751×4+3×5
44.1 64 128 933 7.289...91×7+37×8
32 3 6 91 15.166...5×15+1×16
25 48 1 2 12 62×6+0×7
44.1 8 16 135 8.437...9×8+7×9
32 1 2 32 162×16+0×17
29.97 48 20 40 439 10.9751×10+39×11
44.1 3200 6400 83,253 13.008...6,347×13+53×14
32 30 30 79 2.633...11×2+19×3
表7:MPEG-2层II和方案3
MPEG-2层I
当使用MPEG-2层I作为编码方案时,K=12和t=32。通过使用方案3,获得表8所示出的序列。fV[Hz] fA[kHz] M N OTOp×O+q×(O+1)
23.976 48 16 96 151 1.572...41×1+55×2
44.1 2,560 12,800 6,453 0.504...6,347×0+6,453×1
32 24 96 151 1.572...41×1+55×2
24 48 2 12 19 4.755×1+7×2
44.1 64 384 933 2.429...219×2+165×3
32 3 12 19 1.583...5×1+7×2
25 48 1 5 0 05×0+0×1
44.1 8 40 39 0.9751×0+39×1
32 1 4 8 24×2+0×3
29.97 48 20 100 199 1.991×1+99×2
44.1 3,200 12,800 6,453 0.504...6,347×0+6,453×1
32 30 90 79 0.877...11×0+79×1
表8:MPEG-2层I和方案3
应该指出,平均冗余度比使用层II时的情况少得多。
MPEG-1
能够被用于实施例的另一简化方案是使用MPEG-1作为该编码方案的基础。在此情况中,MPEG-1的双通道(例如,立体声)的上限能够被扩展到n个通道。因此,每一个通道都能够具有根据总体比特可用性和根据每一通道的音频内容的一个比特分配。
算法
在下面部分中,描述适用于根据方案3计算重叠的算法。
编码
用于创建一个实施例数据流的一种编码器创建一个具有预定结构的帧序列。每一个帧j具有在下表9中示出的结构,其中k是块的总数,H(j)是首部重叠中块的数量,而T(j)是在尾部重叠中块的数量。
表9
注意,T(j)=H(j+1)。
已知N,O和q的值,该编码器可以使用下面算法来计算确切的首部重叠。
while(new frame){
if(counter>=N‖counter=0){
overlap=O+1;
counter=counter%N;
}
else overlap=O;
return(overlap);
counter=counter+q;
}
在MPEG-2层II、fV=24Hz和fA=48kHz的情况下,从表7得到N=4,O=4和q=3。这产生下列的首部重叠序列:5,4,5和5,或其任何循环移位。
每一音频帧都必须被标记以指示其大小。在上述方案中,首部重叠可以仅为O或O+1长。因此,有可能使用一个1比特标记来区别短和长帧。
在一个视频序列中帧j的有用大小F(j)由下式给出:
F(j)=k-H(j+1) 公式16
每一数据块都必须被标记以指示其冗余度。在上述方案中,块可以仅是冗余的或非冗余的。因此,有可能使用一个1比特标记来区别冗余和非冗余的块。
记录和传输
虽然冗余信息必须被编码,但是无需全部发送。这将节省在发送流中的比特速率。一个视频序列内要被记录或发送的块的最小总数Bmin由下式给出:
公式17
可能需要每一音频帧的一个额外冗余块来允许编辑编码的数据流。在此情况中,在一个视频序列内被记录或发送的块的最大总数BMAX由下式给出:
公式18
可以在块中定义一个相位来指示相对于在该视频序列中的第一图像帧的该编码数据流的相对开始。对于的一个合适的选择是:
公式19
而且,该编码器将产生零填充Q以便根据IEC61937标准完成该数据流。填充的长度不仅根据有效负载长度,而且还得考虑图像边界,以避免一个累积误差被引进该编码的数据流中。
编辑
通过相加、删除或附加帧,可以在图像帧边界上执行根据本实施例编码的数据流的编辑。通过使用可在该解码器中得到的信息(例如fA和fV的值)或由该编码器产生的信息(例如大小标记),该解码器校正可能由于编辑产生的错误。不需要把附加信息作为编辑的结果记录或发送。而且,可以通过在该解码器中的一个重建滤波器组提供在该编辑点上的交叉衰落。
解码
用于解码数据流的解码器计算用于当前帧j的预期有用的大小F(j)。而且,它从输入帧读出一个大小标记,以确定实际的有用大小G(j)。
在一个音频帧中的数据块可以具有两个状态之一:冗余的或非冗余的。非冗余块被记录、发送和解码成子带取样。冗余块(例如在尾部重叠中的第一冗余块)可被记录和发送,以便于解码处理。但是,冗余块从不解码成子带取样。
为了修改一个重叠块的状态,定义四个运算符:NOP,DROP,APPEND和SHIFT。
NOP:NOP运算符不改变块的状态。
DROP:DROP运算符把第一非冗余块从首部重叠改变成冗余块。
APPEND:APPEND运算符把第一冗余块从尾部重叠改变成非冗余块。
SHIFT:该移位运算符是DROP和APPEND两个运算符的一个组合。
在采用本发明的一个数据流中的帧解码成子带取样被称为映射。只有非冗余块被映射成子带取样。如果输入帧大于预期帧,则应用运算符DROP。反之,如果输入帧小于预期帧,则应用运算符APPEND。当实际大小等于预期大小时,解码器注意以前帧。如果该以前帧已经被附加或移位,则应用运算符SHIFT,否则输入帧不被修改地进行映射。
同步差错
实现本发明的一个数据流基于在编码之时通过在一个限定的序列F(j)中长帧(即标记帧)和短帧的交替建立等于图像帧长度1/fV的一个平均有效音频帧长度F。不论在编辑之后输入帧的实际长度G(j)如何,在解码之时为了再生先前限定的长和短帧的序列F(j)所需的冗余度是通过在编辑点上重叠这些帧而获得的。在编辑之时,块中由于交换帧产生的同步差错ε(j)可以表示为:
公式20
任何时候可以写成:
j×p=u+N×v 公式21其中u∈{0,1,2,...,N-1}以及v ∈{0,1,2,...,p}。通过替代,得到如下公式:
ϵ ( j ) = u N , ]]> 公式22
其中0≤εMAX<1-1/N。在解码时,通过使用如上所述的运算符NOP、DROP、APPEND和SHIFT而适当地放弃那些冗余度。而且,输入帧G(j)可能由于一个DROP或SHIFT操作而被延迟一个块。因此,能够表示出由于该处理引入的总的同步差错δ被约束如下:
Δt = 0 ⇒ δ ∈ [ 0,1 - 1 N ) ΛΔt = - 1 ⇒ δ ∈ [ - 1 , - 1 N ) ]]> 公式23
具有限制:
-1≤δMAX<1 公式24
级联
有损耗编码和解码的几个级联级别可以使信号劣变。但是,以采集和分配时低压缩速率的使用、涉及压缩信号的元数据和专用技术的使用能够被用来保持此劣变不被最终用户所察觉。该技术领域的技术人员知道适用于MPEG编码的方法(例如在1996 11月8-11日101次AES大会由Warner R.Th.ten Kate发表的文章″Maintaining AudioQuality in Cascaded Psychoacoustic Coding″中所述的),这些方法可与本发明的实施例一起用于保持贯穿整个DTV广播链的音频信号的质量。
本发明的实例
块排列
根据本发明实施例编码的用于基于MPEG-2层II和方案3重叠的影片和专业音频的音频帧序列表示在表10中。根据本发明的另一实施例,在解码数据流之后的块的全部可能安排表示在图8中。参数如下(参考上述的符号列表):
图像帧速率fV=24Hz,图像帧长度tv=41.67ms;
音频采样频率fA=48kHz,音频帧长度tA=24ms;
k=36块,t=32取样;
M=2图像帧,N=4音频帧;
重叠:OT=19块,O=4.75块,O=4块,O+1=5块;
p=1短重叠,q=3长重叠;
b=31块,b+1=32块;
Bmin=125,BMAX=129,=2块;
εMAX=0.75块,![]()
j 1 2 3 4
H(j) 5 4 5 5
F(j) 32 31 31 31
表10
系统对IEC61937标准的应用
用于发送实施本发明的数据流的一个合适标准是IEC61937标准(‘Interface for non-linear PCM encoded audio bitstreamsapplying IEC 60958’(用于应用IEC 60958的非线性PCM编码音频比特流的接口))。在图7所示出的数据流分配中,对于先前实例:
·IEC61937帧具有(16/32)×3.072M比特/秒/fV的长度。对于fV=24Hz来说,它对应于64,000比特。
·前同步信号:Pa=F872h,同步字1;Pb=4E1Fh,同步字2;Pc=脉冲串信息;Pd=比特数<65536,长度码。
·数据脉冲串的重复周期是IEC60958帧的数量。
·在编辑一个VTR磁带之后音频和视频之间的相对定时精度和由于切换器系统间隙引入的延迟确定了两帧之间需要的最小间隙。这个所谓的接合间隙可以利用零帧填充来获得。
这能够被概括为:
·填充=接合间隙+脉冲串间距;接合间隙=磁带+切换不准确;脉冲串间距=每4096×IEC60958帧的4×IEC60958个″0″子帧。
·脉冲串-有效负载:系统帧=(N/M)×[系统子帧-首部重叠];N=4;M=2;N/M=2。
如果实施本发明的数据流基于384k比特/秒上用于5.1信道的MPEG-2层II,则系统至多需要45,504比特(2×[(1,152-4×32)×384/48+(2,047-4×32/1,152×2,047)×8]+0)。
相反,如果实施本发明的数据流基于用于6信道的每信道192k比特/秒上的MPEG-1层II的一个6信道型式,则至多需要49,152比特(2×(1,152-4×32)×6×192/48+0)。如果考虑LFE信道仅需要每帧12个取样,则有效的比特率将是大约每信道230k比特/秒。