DVD音频盘再现 设备及其方法 本发明涉及一种音频盘、一种再现记录在该盘上的音频数据的设备和方法,尤其涉及一种记录有高质量音频数据的盘及一种再现记录在该盘上的音频数据的设备和方法。
一般说来,记录在紧凑光盘(CD)上的音频数据以44.1KHz取样,音频数据的每个样本都按16位量化。与LP(密纹)相比,这种CD在使用和存储方面是有利的,但是人们常说CD的音质不如LP。例如,如果再现以44.1KHz取样和按16位量化的音频数据,就难以再现原来的声音,与CD上一代的盘相比,音质可能变坏。事实上,人的听觉频率范围可在20KHz之上,而动态范围应是120dB。不可能用CD记录或再现与人们日益感兴趣的多声道音乐有关的音频数据,因为CD最多只能记录两个声道的音频信号。
为了解决这些问题,提出了通过提高音频数据的取样频率及增加记录声道的数目来改进再现的音质的方法。
当前,设计出了一种再现多种盘的盘再现设备。这多种盘之一是数字多用途盘(DVD)。在DVD上,视频和音频数据以高密度记录。视频数据以MPEG格式记录。音频数据以线性脉码调制(PCM)、Dolby AC-3或MPEG格式记录。再现DVD视频盘的设备具有再现视频/音频数据的配置以便读出记录在该DVD视频盘上的视频/音频数据。
在DVD视频盘的导入区中记录视频节目组(video title set)信息管理表(VTSI_MAT),而在其后的数据区中记录音频/视频数据。在DVD视频盘的数据区中记录地音频数据具有音频包(audio pack)的结构。下面首先观察VTSI_MAT然后观察音频包的结构。
如上所述,DVD视频盘具有包含再现视频数据和音频数据的信息的VTSI_MAT。这在以下1a、1b、2a和2b各表中示出。[表1a]RBP内容字节数0至11VTS_IDVTS标识符12字节12至15VTS_EAVTS的结束地址4字节16至27保留保留12字节28至31VTSI_EAVTSI的结束地址4字节32至33VERNDVD视频规范的版本号2字节34至37VTS_CATVTS类别4字节38至127保留保留90字节128至131VTSI_MAT_EAVTSI_MAT的结束地址4字节[表1b]132至191保留保留60字节192至195VTSM_VOBS_SAVTSM_VOBS的起始地址4字节196至199VTS_VOBS_SAVTSTT_VOBS的起始地址4字节200至203VTS_PTT_SR.PPT_SAVTS_PTT_SRPT的起始地址4字节204至207VTS_GCIT_SAVTS_PFCIT的起始地址4字节208至211VTSM_PGCI_UT_SAVTSM_PGCI_UT的起始地址4字节212至215VTS_MAPT_SAVTS_TMAPT的起始地址4字节216至219VTSM_C_ADT_SAVTSM_C_ADT的起始地址4字节220至223VTSM_VOBU_ADMAP_SAVTSM_VOBU_ADMAP的起始地址4字节224至227VTS_C_AST_SAVTS_C_ADT的起始地址4字节228至231VTS_VOBU_ADMAP_SAVTS_VOBU_ADMAP的起始地址4字节[表2a]RBP内容字节数232至255保留保留24字节256至257VTSM_V_ATRVTSM的视频属性2字节258至259VTSM-AST_NsVTSM的音频流数目2字节260至267VTSM_AST_ATRVTSM的音频流属性8字节268至323保留保留56字节324至339保留保留16字节340至341VTSM_SPST_NsVTSM的子图像流数目2字节342至347VTSM_SPST_ATRVTSM的子图像流属性6字节[表2b]348至511保留保留164字节512至513VTS_V_ATRVTS的视频属性2字节514至515VTSM_AST_NsVTS的音频流数目2字节516至579VTS_AST_ATRTVTS的音频流属性表64字节580至595保留保留16字节596至597VTS_SPST_NsVTS的子图像流数目2字节598至789VTS_SPST_ATRTVTS的子图像流属性表192字节790至791保留保留2字节792至983VTS_MU_AST_ATRTVTS的多声道音频流属性表192字节984至1023保留保留40字节1024至2047保留保留1024字 节
在表1a、1b、2a和2b的VTSI_MAT中,RBP260-267的VTSM_AST_ATR表示图1的VTSM_VOBS的音频流属性。各字段的数值成为VTSM_VOBS的音频流的内部信息。参看图1,记录在b63-b61中的音频编码方式的信息的存储如下表3。[表3] b63-b61音频编码方式 000bDolby AC-3 010bMPEG-1或MPEG-2,不存在扩展位流时使用 011bMPEG-1,存在扩展位流时使用 100b线性PCM音频 其他保留
在b55-b54中,量化/DRC信息的存储如下。如果音频编码方式为“000b”(b=二进制数),则记录11b。如果音频编码方式为010b或011b,则定义量化信息如下。
00b:在MPEG音频流中不存在动态范围控制数据。
01b:在MPEG音频流中存在动态范围控制数据。
10b:保留
11b:保留
如果音频编码方式为100b,则量化信息的存储如表4所示。[表4] b55-b54 量化/DRC 00b 16位 01b 20位 10b 24位 11b 保留
在图1中表示取样频率的b53-b52示于表5。[表5] b53-b52 fs 00b 48KHz 01b 96KHz 10b 保留 11b 保留在图1中表示声道数目的b50-b28示于表6。[表6] b50-b28 声道数目 000b 1ch(单声道) 001b 2ch(立体声) 010b 3ch(多声道) 011b 4ch(多声道) 100b 5ch(多声道) 101b 6ch(多声道) 110b 7ch(多声道) 111b 8ch(多声道) 其他 保留
在表1a、1b、2a和2b的VTSI_MAT中,RBP 516-579的VTS_AST_ATRT表示图2的VTS的音频流属性。各字段的数值成为VTSM_VOBS的音频流的内部信息。参看图2,记录在b63-b31中的音频编码方式的信息的存储如下表7。[表7] b63-b61音频编码方式 000bDolby AC-3 010bMPEG-1或MPEG-2,不存在扩展位流时使用 011bMPEG-2,存在扩展位流时使用 100b线性PCM音频 110bDTS(任选) 111b SDDS(任选) 其他保留
b60的多声道扩展是指示是否执行多声道扩展的信息存储区。如果记录0b,就表示不选择多声道扩展。如果记录1b,就表示按照记录在RBP792-983上的VTS_MU_AST_ATRT信息来执行多声道扩展。
b59-b58的音频型式如下表8所示。[表8] b59-b58 音频型式 00b 不规定 01b 含语言 其他 保留
b57-b56的音频应用方式示于下表9。[表9] b57-b56 音频应用方式 00b 不规定 01b 卡拉OK方式 10b 环绕方式 11b 保留
量化/DRC、取样频率fs和声道数目分别示于表4、5和6中。
在表1a、1b、2a和2b的VTSI_MAT中,RBP792-983表示图3a和3b的VTS的多声道音频流属性表。该VTS_MU_AST_ATRT有两种型式,即图3a所示的VTS_MU_AST_ATR(1)和图3b所示的VTS_MU_AST_ATR(2)。如果在图2的VTS_AST_ATRT的b60写入0b,则存储音频流的所有位都存储0b。
DVD再现设备分析记录在DVD视频盘上的写入VTSI管理表中的信息,然后再现写在盘上的视频/音频数据。这里,写在DVD视频盘上的音频数据和视频数据以包为单位制作。图4表示在DVD中无填充小包(paddingpacket)的包结构。参看图4,一个包的大小为2048字节,其中14字节为包头,2034字节为视频、音频、子图像、DSI或PCI用的小包。14字节的包头包括4字节的包起始码、6字节的SCR、3字节的program_mux_rate(节目复用率)和1字节的stuffmg_length(填充长度)。
图5a至5e表示DVD视频中使用的音频包的结构。具体说,参考图5a,该图描述线性PCM音频包的结构,该包由14字节的包头和2034字节的线性音频小包组成。这里,音频小包具有1字节的小包头、1字节的sub_stream_id(子流标识符)、3字节的音频帧信息、3字节的音频数据信息、和1字节至2013字节的线性PCM音频数据。图5b表示DolbyAC-3音频包的结构。参照图5b,该包具有14字节的包头和2034字节的Dolby AC-3音频小包。音频小包有1字节的小包头、1字节的sub_stream_id,3字节的音频帧信息、1字节至2016字节的AC-3音频数据。
图5c表示没有扩展位流的MPEG-1音频或MPEG-2音频包的结构。图5d和5e表示有扩展位流的MPEG-2音频包。图5a至5e所示的音频包都分别具有表10a和10b的相同结构,但是分别具有与各自格式相应的专用数据区。[表10a] 字段位数字节数 数值 注释packet_start_code_prefix 24 3 000001bstream_id 8 110111101bprivate_stream_lPES_packet_length 16 2 ‘10’ 2 3 10bPES_scrambling_control 2 00b不加扰PES riority 1 0无优先权data_alignment_indicator 1 0不由描述符定义copyright 1 0不由描述符定义original_or_copy 1 1 or 0原始的:1,复制:0 PTS_DTS_flags 2 10b or 00bESCR_flag 1 0无ESCR字段ES_rate_flag 1 0无ES率字段DSM trick_mode_flag 1 0无特技方式字段additional_copy_info_flag 1 0无复制信息字段PES_CRC_flag 1 0无CRC字段PES_extension_flag 1 0或1PES_eader_data_length 8 0至15[表10b]
‘0010’45由提供者定义注1PTS[32..30]3marker_bit1PTS[29..15]15marker_bit1PTS[14..0]15marker_bit1PES_private_data_flag110注2pack_header_field_flag10program_packet_sequence_comter_flag10P_STD_buffer_flag11保留3111bPES_extension_flag_210 ‘01’2201b注2P_STD_buffer_scale11P_STD_buffer_size1358stuffing_byte-0-7
表10a和10b中的注1和注2说明如下。
注1:PTS[32.0]置入包含音频帧第一个样本的每一个音频小包中。
注2:此值只包括在每个VOB的第一个音频小包中,但不包括在各后继的音频小包中。
在具有图5a结构的线性PCM数据的音频小包中,表10a和10b所示的通用数据之外的写入专用数据区的数据示于表11。[表11]字段位数字节数数值注释sub_stream_id8110100***b注1number_of_frame_headers83由提供者定义注2first_access_unit_pointer16由提供者定义注3audio_emphasis_flag13由提供者定义注4audio_mute_flag1由提供者定义注5保留10audio_frame_number5由提供者定义注6Quantization_word_length2由提供者定义注7Audio_sampling_frequency2由提供者定义注8保留10number_of_audio_channels3由提供者定义注9Dynamic_range_control8由提供者定义注10 音频数据区(线性PCM)
在表11中,注1至注10如下。
注1:***表示解码音频数据流数。
注2:“number_of_frame_headers”表示在相应的音频小包中含有第一字节的音频帧数。
注3:访问单元为音频帧。first_access_unit(第一访问单元)表示在相应的音频小包中含有第一字节的第一音频帧。
注4:“audio_emphasis_flag(音频加重标志)”表示加重的状态。如果audio_sampling_frequency(音频取样频率)为96KHz,就在该区中记录“加重不起作用”。加重从第一访问单元的样本起实施。
0b:加重不起作用
1b:加重起作用
注5:“audio_mute_flag(音频静音标志)”表示如果音频帧内的所有数据全为零时的静音状态。静音从第一访问单元的第一样本起实施。
0b:静音不起作用
1b:静音起作用
注6:“audio_frame_number(音频帧数)”是音频小包的第一访问单元的音频帧组(GOF)内部的帧数。该数包括“0”至“19”。
注7:“quantization_word_length(量化字长)”是在音频样本的量化中使用的位数。
00b:16位
01b:20位
10b:24位
11b:保留
注8:“audio_sampling_frequency”是在音频样本的取样中使用的取样频率。
00b:48KHz
01b:96KHz
其他:保留
注9:“number_of_audio_channels(声道数)”表示声道数。
000b:1ch(单声道)
001b:2ch(立体声)
010b:3ch(多声道)
011b:4ch(多声道)
100b:5ch(多声道)
101b:6ch(多声道)
110b:7ch(多声道)
111b:8ch(多声道)
注10:“dynamic_range_control(动态范围控制)”表示从第一访问单元起压缩动态范围的动态范围控制字。
在图5a至5e的音频小包中的流标识符(streamid)确定如下。首先,线性PCM音频包的流标识符成为1011 1101b(private_stream_l),其sub_stream_id为10100***b。其次AC-3音频小包的流标识符成为10111101b(private_stream_l),其sub_stream_id为10000***b。第三,MPEG音频小包的流标识符成为11000***b或11010***b,而没有sub_stream_id。在流标识符或sub_stream_id中,“***”表示数值在0至7之间的解码音频流数。各解码音频流数不赋予同一数,这与音频压缩方式无关。
图6是说明音频包和音频流结构的图。在DVD中使用的音频数据可以是线性PCM数据、Dolby AC-3数据、或MPEG音频数据。这样的音频流如图6所示划分成多个音频包。以2048字节为单位控制这些音频包。线性PCM音频数据的编码格式如表12所示。[表12]取样频率(fs)48KHz 96KHz 取样相位对于流中的所有声道应该同时 量化16位以上,2的补码 加重实施(零点:50μs,极点:15μs)不实施
在表12中,线性PCM音频流数据由邻接的多个GOF组成,除最后的GOF外每个GOF具有20个音频帧。最后的GOF为等于或小于20个音频帧。
图7表示音频帧的结构。参照图7,一个音频帧具有与1/600秒相应的样本数据。如果取样频率fs=48KHz,则一个音频帧包含80个音频样本数据。如果取样频率fs=96KHz,则一个音频帧包含160个音频样本数据。一个GOF与1/30秒一致。
图8a至8c表示线性PCM的样本数据顺序。该样本数据由同时取样的各声道数据的片(pieces)组成。样本数据的大小随音频流属性而变化,各个样本数据连续排列。图8a、8b和8c表示两种方式下样本数据的两种格式。图8a表示16位方式的样本数据的顺序。图8b表示20位方式的样本数据的顺序。图8c表示24位方式的样本数据的顺序。
线性PCM音频的小包数据的结构示于表13中。[表13] 流的方式 小包中的数据声道数fs(KHz)量化(位)在小包中的最大样本数数据长度(字节)第一/其他PES小包的小包填充(字节)用于第一/其他PES小包的填充小包(字节)1(单声道) 48/96 16 1004 2008 2/5 0/0 48/96 20 804 2010 0/3 0/0 48/96 24 670 2010 0/3 0/02(立体声) 48/96 16 502 2008 2/5 0/0 48/96 20 402 2010 0/3 0/0 48/96 24 334 2004 6/0 0/93 48/96 16 334 2004 6/0 0/9 48/96 20 268 2010 0/3 0/0 48 24 222 1988 0/0 12/154 48/96 16 250 2000 0/0 10/13 48 20 200 2000 0/0 10/13 48 24 166 1992 0/0 18/215 48 16 200 2000 0/0 10/13 48 20 160 2000 0/0 10/13 48 24 134 2010 0/3 0/06 48 16 166 1992 0/0 18/21 48 20 134 2010 0/3 0/07 48 16 142 1988 0/0 22/258 48 16 124 1984 0/0 26/29
如果样本数小于表13中的数值,则增加填充小包的长度以便控制包的大小。样本指定给小包的边界。即,线性PCM音频的所有音频小包的样本数据总是以S2n的第一字节开始,如表13所示。
根据对线性PCM声道分配的说明,ACH0和ACH1分别对应于立体声方式的L声道和R声道。对于多声道编码,使其与立体声方式兼容。
作为DVD的音频选项,有一种数字影院系统(DTS)。该DTS的音频包具有如图9所示的包头和音频小包。该音频包对准音频帧单元内部的各LB之间的边界。参看图9,一个音频包由14字节的包头和2021字节的DTS音频小包组成。DTS音频小包具有1字节的小包头、1字节的sub_stream_id、3字节的音频帧信息和1字节至2016字节的DTS音频数据。DTS音频小包的流标识符是1011 1101b(prvate_l),其sub_stream_id是10001***b。这里,sub_stream_id的***表示具有数值0至7的解码音频流数。各解码音频流数不赋予同一数,这与音频压缩方式无关。
DTS音频小包的结构示于表10中,专用数据区则在表14中。[表14]字段位数字节数 数值注释sub_stream_id 8 110001***b 注1number_of_frame_headers 8 1由提供者定义 注2First_access_unit_pointer 16 2由提供者定义 注3 DTS音频数据区
在表14中,注1至注3的内容如下。
注1:“***”表示解码音频流数。
注2:“number_of_frame_headers”表示在DTS音频小包中存在第一字节情况下的音频帧数。
注3:访问单元是音频帧。第一访问单元是具有音频帧第一字节、定义为音频包的PTS的音频帧。“first_access_unit_pointer(第一访问单元指针)”表示具有从信息区的最后字节起的RBN的第一访问单元的第一字节地址。如果不存在第一访问单元的第一字节,则记录00000000h。
给DTS提供高质量多声道声音的DTS标准。这些DTS标准示于表15中。[表15]比特率单声道(1ch)64至384kbps立体声(2ch)96k至769k bps5.1声道256k至1536kbps取样频率只用48KHz音频编码方式1/0,2/0,3/0,2/1,2/2,3/2,*1保护CRC被禁止多语言声道0
在表15中,对于在各个音频方式中的低频音效声道来说,* 1是有用的。具有这种小包结构的DTS音频可定义为高质量多声道声音。
在DVD视频中线性PCM可能得到的声道数示于图10中。在图10中,最大的比特率是6.75Mbps,而声道由表16决定。[表16] 取样频率 量化位数 声道数 48KHz 16位 8声道 20位 6声道 24位 5声道 96KHz 16位 4声道 20位 3声道 24位 2声道
在DVD视频盘上记录的音频数据的音质远比在CD音频盘上的音频数据的好。与CD音频盘上记录的音频数据相比,DVD盘上记录的音频数据有较高的取样频率、较多的量化位数和较多的声道数。因此,DVD再现设备可以用多声道再现高音质的音频数据。
DVD视频盘允许最大为10.08Mbps的数据传送。以此为准,以192KHz取样的数据可以用两个声道再现。这些数值接近在日本于1996年4月召开的先进数字音频会议上作为下一代音频必要要求而指定的最大取样频率。
如果在DVD盘上记录纯粹的音频数据,并且DVD再现设备播放该DVD音频盘,就获得音质好得多的音频信号。
本发明的一个目的是提供一种DVD音频盘,该DVD音频盘通过使用最大为192KHz的取样频率和24位量化位数能以线性PCM方式用最多到由数据传送速度限制的声道数目记录取样的数字音频信号。
本发明的另一目的是提供一种DVD音频盘,该DVD音频盘通过使用最大为192KHz的取样频率和最大为24位的量化位数能以所设置的方式进行已取样数字音频信号的编码,然后以最多到由数据传送速度及编码方式限制的声道数记录该已编码信号。
本发明的又一目的是提供用于再现以线性PCM方式记录的DVD音频盘的设备和方法。
本发明的再一目的是提供用于再现存储压缩的音频数据的DVD音频盘的设备和方法。
本发明的又另一目的是提供用于鉴别DVD是视频还是音频盘、然后根据鉴别结果再现该盘的设备和方法。
为了达到本发明的这些目的,提供一种DVD视频/音频盘,该盘的导入区上存储音频节目信息管理表,该盘的数据区上存储线性PCM方式的音频包,其中第一、第二和第三量化位数,第一、第二和第三取样频率,及与声道数有关的信息全都记录在节目信息管理表上,音频包设有由全都记录在节目管理表上的各量化位数、各取样频率及与声道数有关的信息组成的音频小包,各小包还包括音频数据。
为了达到以上各目的,还提供一种DVD音频盘再现设备,包括:数据接收机,用于接收从盘再现的音频数据;控制器,用于分析从盘再现的音频数据,以从而产生包含音频编码方式、取样频率、声道数和量化信息的音频控制信号;具有多个解码器的音频解码器,用于在选择与音频数据编码方式对应的解码器之后对接收的音频数据解码,及用于按照音频控制信号进行多声道混合、取样频率变换及已解码音频数据的再量化;以及音频输出器,用于把已解码音频数据变换成模拟音频信号。
通过参考结合附图的以下详细说明,本发明变得更好理解,因此对本发明的更全面评价及其伴随的许多优点将变得显而易见。在附图中,相同的参考符号表示相同或相似的部件,其中,
图1表示DVD视频盘中VTSM的音频流属性的结构;
图2表示DVD视频盘中VTS的音频流属性表的结构;
图3a和3b表示DVD视频盘中VTS的多声道音频流属性的结构;
图4表示DVD视频盘中不具有填充小包的音频包的结构;
图5a至5e表示DVD视频盘中的图4音频包的结构;
图6表示DVD视频盘中音频流和音频包的结构;
图7表示DVD视频盘中的图6音频流的结构;
图8a、8b和8c表示DVD视频盘中线性PCM音频的样本数据的排列;
图9表示DVD视频盘中编码的音频包的结构;
图10表示DVD视频盘中线性PCM音频数据的可获得的声道数;
图11表示按照本发明实施例的DVD音频盘中VTSM的音频流属性的结构;
图12表示按照本发明实施例的DVD音频盘中VTS的音频流属性表的结构;
图13a和13b表示按照本发明实施例的DVD音频盘中多声道音频流属性表的结构;
图14表示按照本发明实施例的DVD音频盘中线性PCM音频数据的音频包的结构;
图15表示按照本发明实施例的DVD音频盘中已编码音频数据的音频包的结构;
图16表示再现按照本发明实施例的DVD音频盘用的设备的结构;
图17表示图16中的音频解码器的结构;
图18表示再现按照本发明实施例的DVD视频盘和DVD音频盘用的设备的结构;
图19表示图18中的视频/音频解码器的结构;
图20是通过分析记录在本发明的DVD音频盘的导入区上的节目组信息管理表来确认已记录音频数据的控制信息的流程图;
图21是说明图20的音频解码器设置过程的流程图;
图22表示初始化图1b的音频输出的过程;
图23是说明控制音频解码器操作的过程的流程图;以及
图24是说明控制音频输出操作的过程的流程图。
本发明提出一种DVD音频盘和再现该盘的设备和方法。按照本发明的DVD音频盘的VTSI_MAT,改变表1中的DVD视频盘的VTSI_MAT中的音频信息。用本发明的DVD音频盘,改变在表1a和1b的VTSI_MAT中的RBP260-267的VTSM_AST_ATR、RBP516-579的VTS_AST_ATRT、和RBP984-2047的保留区的信息。
VTSM_AST_ATR和VTS_AST_ATRT的音频编码方式存储记录在盘上的音频数据的编码信息。在本发明的优选实施例中,示出了以线性PCM方式或伪无耗(pseudo-lossless)音质编码方式在DVD音频盘上记录音频数据的例子。在本实施例中,假设音质编码方式使用DTS编码方式。这里,DTS编码方式可以任选地使用。如果b63-b61为“110b”,则是DTS音频编码方式。
现在说明VTSM_AST_ATR的变化,如图11所示,改变了b55-b48的数据模式和定义。在图2的VTSM_AST_ATR的b55-b48中,保留位b51被吞并到表示声道数的声道位中。
按照在图11中改变的定义,音频取样频率fs的改变如表17所示。[表17] b55-b54 fs 00b 48KHz 01b 96KHz 10b 192KHz 11b 保留
声道数的改变如表18a和18b。[表18a] b51-b48 声道数 0000b 1ch(单声道) 0001b 2ch(立体声) 0010b 3ch(多声道) 0011b 4ch(多声道) 0100b 5ch(多声道)[表18b] 0101b 6ch(多声道) 0110b 7ch(多声道) 0111b 8ch(多声道) 1000b 9ch(多声道) 1001b 10ch(多声道) 1010b 11ch(多声道) 1011b 12ch(多声道) 1100b 13ch(多声道) 1101b 14ch(多声道) 1110b 15ch(多声道) 1111b 16ch(多声道)
就VTS_AST_ATRT而言,b55-b48的数据模式和定义的改变如图12。在图3VTS_AST_ATRT中,保留位b51被吞并到声道数中。按照图11中改变的定义,音频取样频率fs的改变如表17,声道数的改变如表18a和18b。
给VTS_MU_AST_ATR加上了图3a和13b的信息。VTS_MU_AST_ATR给线性PCM音频提供的信息只到但是不多于8个声道。如果写入线性PCM数据,最多可得到13个声道,因此,在VTS_MU_AST_ATR之后的保留区中写入第9至13声道的信息。如同VTS_MU_AST_ATR,VTS_MU_AST_ATR_EXT由图13a的VTS_MU_AST_EXT(1)和图13b的VTS_MU_AST_ATR_EXT(2)组成。
具有如上改变的VTSI_MAT的DVD音频盘的格式分为线性PCM区和伪无耗音质已编码数据。
首先,在线性PCM区的DVD音频盘中,数据以线性PCM方式记录。取样频率为48、96和192KHz。量化位数为16、20和24位。记录声道数为1个至比特率允许的最大数目。该记录声道数用下列公式1确定。N=MbrFs*Qb]]>Fs:取样频率(Hz);48,96,192KHzQb:量化位数;16,20,24位Mbr:DVD盘的最大数据传送率(Mbps);10.08MbpsN:由DVD盘的数据传送率、取样频率和量化位数确定的可记录声道数。
由公式1确定的声道数示于表19中。[表19] 取样频率 量化位数 最大的声道数 48KHz 16位 13声道 48KHz 20位 10声道 48KHz 24位 8声道 96KHz 16位 6声道 96KHz 20位 5声道 96KHz 24位 4声道 192KHz 16位 3声道 192KHz 20位 2声道 192KHz 24位 2声道
本发明的DVD音频盘的数据结构以MPEG2系统层为基础。如果是本发明的线性PCM,则音频包的制作如图14。图14的线性PCM音频包具有与图5a相同的结构。该音频包具有14字节的包头和最大2021字节的线性PCM小包。图14的包头符合MPEG2系统层的标准。
线性PCM音频小包的结构以MPEG2系统层的标准为基础。线性PCM的音频小包的结构示于表10和20。[表20]字段位数字节数数值注释sub_stream_id8110100***b 注1number_of_frame_headers83由提供者定义 注2first_access_unit_pointer16由提供者定义 注3 audio_emphasis_flag13由提供者定义 注4 audio_mute_flag1由提供者定义 注5保留10 0 audio_frame_number5由提供者定义 注6 quantization_word_length2由提供者定义 注7 audio_sampling_frequency2由提供者定义 注8 number_of_audio_channels4由提供者定义 注9 dynamic_range_control8由提供者定义 注10 音频数据区(线性PCM)
在表20中,注1至注10的内容如下。
注1:***表示解码音频数据流数。
注2:“number_of_frame_headers”表示在相应的音频小包内含有第一字节的音频帧数。
注3:访问单元为音频帧,first_access_unit表示在相应的音频小包内含有第一字节的第一音频帧。
注4:“audio_emphasis_flag”表示加重的状态。如果音频取样频率为96、192KHz,则该状态应表示为“加重不起作用”。加重从第一访问单元的样本起实施。
0b:加重不起作用
1b:加重起作用
注5:“audio_mute_flag”表示如果音频帧内的所有数据全为零时的静音状态。静音从第一访问单元的第一样本起实施。
0b:静音不起作用
1b:静音起作用
注6:“audio_frame_number”是音频小包的第一访问单元的音频帧组GOF内部的号数。该数的覆盖范围是自0至19。
注7:“quantization_word_length”是在音频样本的量化中使用的位数。
00b:16位
01b:20位
10b:24位
11b:保留
注8:“audio_sampling_frequency”是在音频样本的取样中使用的取样频率。
00b:48KHz
01b:96KHz
10b:192KHz
11b:保留
注9:“number_of_audio_channels”表示声道数。
0000b:1ch(单声道)
0001b:2ch(立体声)
0010b:3ch(多声道)
0011b:4ch(多声道)
0100b:5ch(多声道)
0101b:6ch(多声道)
0110b:7ch(多声道)
0111b:8ch(多声道)
1000b:9ch(多声道)
1001b:10ch(多声道)
1010b:11ch(多声道)
1011b:12ch(多声道)
1100b:13ch(多声道)
注10:“dynamic_range_control”表示从第一访问单元起压缩动态范围的动态范围控制字。
线性PCM音频小包的结构和相应的帧长度示于表21a和21b中。[表21a] 流的方式 小包中的数据声道数fs(KHz)量化(位)在小包中的最大样本数数据长度(字节)第一/其他PES小包的小包填充(字节)用于第一/其他PES小包的填充小包(字节)1(单声道) 48/96/192 16 1004 2008 2/5 0/0 48/96/192 20 804 2010 0/3 0/0 48/96/192 24 670 2010 0/3 0/02(立体声) 48/96/192 16 502 2008 2/5 0/0 48/96/192 20 402 2010 0/5 0/0 48/96/192 24 334 2004 6/0 0/93 48/96/192 16 334 2004 6/0 0/9 48/96 20 268 2010 0/3 0/0 48/96 24 222 1988 0/0 12/154 48/96 16 250 2000 0/0 10/13 48/96 20 200 2000 0/0 10/13 48/96 24 166 1992 0/0 18/21[表21b]548/96 16 200 2000 0/0 10/1348/96 20 160 2000 0/0 10/1348 24 134 2010 0/3 0/0648/96 16 166 1992 0/0 18/2148 20 134 2010 0/3 0/048 24 110 1980 0/0 30/33748 16 142 1988 0/0 22/2548 20 114 1995 0/0 15/1848 24 94 1974 0/0 36/39848 16 124 1984 0/0 26/2948 20 100 2000 0/0 10/1348 24 82 1968 0/0 42/45948 16 110 1968 0/0 30/3348 20 88 1980 0/0 30/331048 16 100 2000 0/0 10/1348 20 80 2000 0/0 10/131148 16 90 1980 0/0 30/331248 16 82 1968 0/0 42/451348 16 76 1976 0/0 34/37
如果样本数小于表21a和21b中的数值,则增加填充小包的长度以适配包的长度。样本与小包边界一致。即,所有音频小包都从S2n的第一字节开始。在一个小包内,音频样本数总是偶数。
下面描述记录音质已编码音频数据的DVD音频盘。
如果记录线性PCM的音频数据并且如果使用表19中的48KHz的取样频率和16位的量化器,则可获得13个通道,使得音频数据可以写入多声道音乐所需要的多达10个声道中。然而,如果是192KHz的取样频率和24位的量化器,则如表19所示最多写入2个声道的音频数据,这不能满足多声道音频的需要。如果以高取样频率用很多位进行取样,就难以实现多声道音频的功能。为此,使用了无耗编码或伪无耗音质编码。但是由于在大多数场合无耗编码的压缩率是2∶1,难于期望在实现多声道方面有明显效果。
在本实施例中,假定伪无耗音质编码方法使用具有4∶1压缩率的DTS编码方式。DTS编码方式能含有足够的声道数而不使音质变坏。例如,不象其他当前存在的编码算法,DTS使编码能以192KHz和14位的高技术规格实施,并且能在不减低比特率的情况下尽量减少音质的变坏。取样频率为48、96和192KHz,量化位数为16、20和24位,记录的声道数是从1个到由编码方式和比特率允许的最大数目。记录通道数由下列公式2确定。N=Mbr*CcrFs*Qb]]>Fs:取样频率(Hz);48KHz,96KHz,192KHzQb:量化位数;16位,20位,24位Mbs:DVD盘的最大数据传送率(10.08Mbps)Ccr:由压缩编码方式决定的压缩比N:由DVD盘的数据传送率、取样频率、量化位数和压缩比确定的最大可记录声道数。这里,假设编码方式使用具有4∶1压缩比的DTS。在此情况下由公式2确定的声道数示于表22中。[表22] 取样频率量化位数最大的声道数 48KHz 16位 52个声道 48KHz 20位 42个声道 48KHz 24位 35个声道 96KHz 16位 26个声道 96KHz 20位 21个声道 96KHz 24位 17个声道 192KHz 16位 13个声道 192KHz 20位 10个声道 192KHz 24位 8个声道
如上所述,本发明的DVD音频盘的结构以MPEG2系统层为基础,因此压缩的音频包的制作如图15。制成的压缩音频包具有14字节的包头和最大为2021字节的压缩音频小包。在图14中,包头符合MPEG2系统层的标准。
压缩的音频小包的结构也以MPEG2系统层的标准为基础。编码后的音频小包的结构如表10和23。[表23]字段位数字节数 数值注释sub_stream_id 8 1&&&&***b注1number_of_frame_headers 8 1供应者定义注2first_access_unit_pointers 16 2供应者定义注3 DTS音频数据区
在上表23中,注1至注3的内容如下。
注1:“sub_stream_id”因编码方式而不同。如果编码方式为DTS,则该字段成为“10001***b”。在sub_stream_id中,***是解码音频流数。
注2:“number_of_frame_headers”表示在相应的音频小包内含有第一字节的音频帧数。
注3:访问单元为音频帧。first_access_unit表示在相应的音频小包内含有第一字节的第一音频帧。
压缩编码方式的DVD音频盘具有以下的技术规格。允许压缩的声道数大于8个声道。取样频率为48、96或192KHz。量化位数为16、20或24位。可得到的压缩率为1∶1至5∶1。缩混(down mixing)、动态范围和时戳(time stamp)被使能。最后,优良的音质是实际公认的。
可以独立地形成再现DVD音频盘的设备。也可以将该设备连接到DVD视频再现设备。在本实施例中,首先说明DVD音频盘再现设备,然后说明该DVD音频盘再现设备附加的再现设备。
DVD音频盘再现设备示于图16中。与用户接口的系统控制器111控制DVD音频盘再现设备的全部操作。系统控制器111分析记录在DVD音频盘上的VTSI_MAT、音频包头和小包头,以便执行再现音频信号的全部操作。拾取器112执行读出记录在DVD音频盘上的数据的功能。在系统控制器111的控制下,伺服控制器113控制拾取器112的驱动,从而执行各种伺服功能。数据接收器114对从拾取器112输出的音频数据进行差错分析和纠错。数据接收器114包含纠错电路(ECC)。音频解码器115把从数据接收器114输出的音频信息送到系统控制器111,以及在系统控制器111的控制下对接收的音频数据解码。
音频解码器115具有对线性PCM音频数据和压缩的音频数据解码的结构,以便对本发明实施例的音频数据解码。该结构示于图17。
参照图17,输入数据缓冲器211接收和存储从数据接收器114输出的音频数据。在系统控制器111的控制下,流选择器212有选择地输出从输入数据缓冲器211输出的音频数据流。线性PCM解码器213接收从流选择器212输出的线性音频数据,然后将其解码和作为原始音频数据输出。伪无耗音质解码器214接收从流选择器212输出的压缩数据,然后将其解码和作为原始音频数据输出。输出数据缓冲器215存储和输出从解码器213和214输出的音频数据。数字音频格式化器216将从解码器213和214输出的音频数据改变为系统控制器111指定的格式。定时控制器210控制系统控制器111以便产生控制音频解码器115中各部件操作的定时控制信号。
高比特高取样数字滤波器116接收从音频解码器115输出的音频数据,以及按照系统控制器111的控制信号对音频数据进行数字滤波。高性能数模变换器及模拟音频电路117把从高比特高取样数字滤波器116输出的音频数据变换成模拟信号。
参照图16和17,数据接收器114经过拾取器112把从DVD音频盘再现的音频数据送至音频解码器115。再现的音频数据顺序地存储到音频解码器115的输入数据缓冲器211。流选择器212有选择地把存储在输入数据缓冲器211中的数据输出到相应的解码器213或214。当系统控制器111请求对线性PCM的音频数据解码时,流选择器212把存储在输入数据缓冲器211中的音频数据传送给线性PCM解码器213。如果系统控制器111请求对压缩数据解码,则流选择器212把存储在输入数据缓冲器211中的音频数据传送给解码器214。
现在说明线性PCM音频数据的解码。线性PCM解码器213进行输入信号的多声道缩混、取样频率变换和再量化。例如,如果从流选择器212输出的数据是8声道数据,而要求在其输出把该数据变换成双声道数据,线性PCM解码器213就通过进行多声道缩混来制造所需的声道数。如果输入数据以192KHz取样,但是系统控制器111要求96KHz的取样数据输出,则线性PCM解码器213进行取样频率变换,将输入数据变换成具有所需取样频率的音频数据。如果音频数据输入是24位量化数据但是系统控制器111要求16位量化数据输出,则线性PCM解码器213进行再量化,于是产生所需位数的输出音频数据。
现在说明压缩音频数据的解码。在系统控制器111的控制下,解码器214通过使用相应的算法对压缩音频数据解码。从解码器214输出的音频数据的形式由系统控制器111指定。在本发明的实施例中,解码器214可以成为DTS解码器。解码器214进行输入信号的多声道缩混、取样频率变换和再量化、以及指定算法的解码。
从解码器213或214解码和输出的音频数据传送到输出数据缓冲器215和数字音频格式化器216。然后,输出数据缓冲器215存储输入的已解码音频数据,与从定时控制器210输出的控制信号同步地将该存储的数据输出。数字音频格式化器216根据数字设备之间的传送格式进行已解码音频数据的格式化,然后与从定时控制器210输出的控制信号同步地输出已格式化的数据。这里,向外输出的音频数据可以输出到音频/视频设备或具有相同传送格式的计算机。
从音频解码器115输出的已解码数据由高比特高取样数字滤波器116进行数字滤波和输出,高性能数模变换器和模拟音频电路117变换从高比特高取样数字滤波器116输出的音频数据。这里,滤波器116用一些数字滤波器组成,用于排除音频信号频带之外的噪声分量。为了处理以192KHz取样和以24位量化的音频数据,高比特高取样数字滤波器116要求其滤波器系数的分辨率和抽头数远大于DVD或CD中采用的数字滤波器的系数分辨率和抽头数。如果普遍采用96或192KHz的D/A变换器,则可以把高比特高取样数字滤波器116包含在D/A变换器中。高性能数模变换器和模拟音频电路117由D/A变换器组成,它将高比特高取样数字滤波器116排除噪声后的音频数据变换成模拟音频信号。
用于再现DVD视频盘和音频盘二者的设备的结构示于图18中。与用户接口的系统控制器111控制该再现设备的全部操作。系统控制器111分析记录在DVD视频盘和DVD音频盘上的VTSI_MAT、音频包头和小包头,鉴别盘的种类,并按照鉴别结果进行再现视频信号或音频信号的全部控制。拾取器312执行读出记录在DVD盘上的数据的功能。在系统控制器311的控制下,伺服控制器313控制拾取器312的驱动,从而执行各种伺服功能。数据接收器314进行差错分析和对从拾取器312输出的音频数据的纠错。数据接收器314含有ECC。在系统控制器311的控制下,音频/视频解码器315把从数据接收器314输出的信息传送给系统控制器311,并对接收的音频/视频数据解码。
音频/视频解码器315具有对视频/音频数据解码的结构,如图19所示。参看图19,输入数据缓冲器411接收和存储从数据接收器314输出的音频/视频数据。在系统控制器311的控制下,流分析器(stream parser)412有选择地输出从输入数据缓冲器411输出的音频/视频数据流。音频解码器413接收从流分析器412有选择地输出的音频数据,并以由系统控制器311输出的控制数据选择的方式对音频数据解码。解码音频输出器414输出从音频解码器413解码并输出的音频数据。视频解码器415接收从流分析器412有选择地输出的视频数据,并以由系统控制器311的输出控制数据选择的方式对视频数据解码。解码视频输出器416输出从视频解码器415解码并输出的视频数据。定时控制器410产生用于控制音频/视频解码器315的各部件操作的定时控制信号。
在图19中,音频解码器413应有分别对应于线性PCM、MPEG、AC-3和压缩编码方式的各个解码设备。其中,线性PCM和压缩编码方式还必须具有再现记录在本发明的盘中的音频数据的结构。即,本发明具有按照本实施例的取样频率、量化位数和声道数再现音频数据的多个解码器,及具有分配对应于多个解码器的音频数据的流选择器。
根据系统控制器311的控制信号,高比特高取样数字滤波器316接收从音频/视频解码器315输出的音频信号,并对音频输入进行数字滤波。高性能数模变换器和模拟音频电路317对从高比特高取样数字滤波器316输出的音频数据进行模拟变换。NTSC编码器视频数模变换器的模拟视频电路318对从视频解码器315输出的视频数据进行NTSC编码,并将其变换成模拟信号。
参看图18和19,从拾取器312输出的盘的再现数据传送到数据接收器314,数据接收器314对接收的数据先纠错后分析,然后将其传送给音频/视频解码器315。从数据接收器314输出的数据加到和存入音频/视频解码器315的输入数据缓冲器411。流分析器412根据系统控制器311的控制数据选择所需的流,分析输入数据,将视频数据传送给视频解码器415,及将音频数据传送给音频解码器413。
音频解码器413按照系统控制器311的控制把从流分析器412输出的音频数据先变形后输出。音频解码器413必须包括DVD视频盘的音频解码和DVD音频盘的音频解码。
视频解码器415按照系统控制器311的控制进行输入视频数据的解码、变形和输出。视频解码器415的视频数据变形是指视频信号处理,如sub_title(字幕)处理或pan_scan(扫视)。
从音频解码器413和视频解码器415输出的已解码音频/视频数据被输出到解码音频输出器414和解码视频输出器416。然后,输出器414和416存储已解码数据输入,及与从定时控制器410输出的定时控制信号同步地输出该已解码数据输入。解码音频输出器414向外传送按照数字设备之间的传送格式格式化的数字音频数据。从解码音频输出器414输出的音频数据传送到其他音频/视频设备或计算机。
图18所示的再现设备的音频/视频解码器315在处理视频信号方面符合DVD视频标准,而在处理音频信号方面既执行本发明的算法也执行DVD视频标准规定的算法。音频解码器413包括DVD视频盘的音频标准中的线性PCM和DTS算法,所以即使在插入DVD视频盘或插入本发明的DVD音频盘时也必须使该盘能够播放。
这里,在对DVD视频盘的解码中所需的音频算法是线性PCM解码(1)+AC-3解码+MPEG解码。在对本发明的DVD音频盘的解码中所需的音频算法是线性PCM解码(2)+伪无耗音质解码。因此,DVD视频盘的线性PCM算法包含在本发明的线性PCM算法中。在DVD视频/音频盘再现设备中使用的音频数据解码算法必须包含公式3的功能,该算法在音频解码器413中进行。
公式3
音频解码器=线性PCM解码器(2)+伪无耗音质解码器+AC-3解码器+MPEG解码器
具有图16或18结构的再现设备分析存储在盘的导入区中的VTSI_MAT的信息,以从而再现对应于VTSI_MAT的节目的音频。在本发明的本实施例中,假设使用DVD音频盘。
图20表示在系统控制器111中分析和设置VTSI_MAT信息的流程图。参照图20,系统控制器111在盘的导入区读出如表1和2的待再现节目的VTSI_MAT。在步骤513中,系统控制器111分析读出的VTSI_MAT,并检查是否有菜单和加载到盘中的命令或用户是否需要播放。
如果需要播放菜单,系统控制器111就在步骤515从VSTI_MAT的信息中读出图11所示的VTSM_AST_ATR,并确认需要的算法。在步骤517,系统控制器111读出VTSM_AST_ART的音频编码方式,确认相应的音频编码方式,以及设置音频解码器115以便执行相应音频编码方式的算法。这里,必须在音频解码器115中设定的功能是量化/DRC信息、取样频率fs、和声道数。在设置音频解码器115之后,系统控制器111在执行步骤519和521时再现相应节目的菜单。此过程是再现节目菜单的过程。
如果在步骤513不需要播放菜单或者在步骤521结束了播放节目菜单,则系统控制器111前进到步骤523,以便根据VTSI_MAT的信息确认图12的VTS_AST_ATR信息。这里,系统控制器111确认图12所示的VTS_AST_ATR中的音频编码方式,从而确认相应音频数据的算法。在步骤525,系统控制器111确认VTS_AST_ATR中的量化信息、取样频率和声道数,以从而设置音频解码器115。在步骤527,音频解码器115接受控制,以便将相应节目的音频小包解码。
图21表示在图20的步骤517和525中设置音频解码器115的流程图。参照图21来描述系统控制器111按照VTS_AST_ATR和VTSM_AST_ATR设置音频解码器115的操作。这里假设音频编码方式是线性PCM音频和DTS编码音频。
首先,在步骤611,系统控制器111分析VTS_AST_ATR和VTSM_AST_ATR的音频编码方式,以从而检查存储在DVD音频盘中的音频数据的编码方式。这里,如果音频算法是线性PCM,系统控制器111就在步骤611中获悉这一点,然后检查线性PCM音频数据的声道数是否大于8或取样频率是否为192KHz。如果是这种情况,该盘就是根据本发明实施例的具有新格式的DVD音频盘,因此在步骤621设置音频解码器115以执行相应的算法和设置输出数据缓冲器215到相应的取样频率。
如果在步骤613中声道数小于8并且取样频率低于96KHz,则音频具有与DVD视频盘相同的格式,因此在步骤619系统控制器111按照该取样频率设置音频解码器115和输出数据缓冲器215以便执行相应的算法。
如果在步骤611中音频算法不是线性PCM,则步骤615检查VTS_AST_ATR和VTSM_AST_ATR的音频算法是否为DTS。这里,如果盘中是DTS音频,则在步骤617检查声道数是否大于6或者取样频率是否为96或192KHz。如果是,就执行步骤621,因为该盘为新格式的DVD音频盘。然而,如果DTS数据的声道数低于6并且取样频率为48KHz,则前进到步骤619,因为该盘具有与DVD视频盘相同的音频格式。
在设置音频解码器115之后,系统控制器111执行图22的过程,即初始化高比特高取样数字滤波器116及高性能数模变换器和模拟音频电路117。在步骤711,系统控制器111控制高性能数模变换器和模拟音频电路117以使模拟音频输出为静音。在步骤713,控制高比特高取样数字滤波器116以按照取样频率选择数字滤波器程序,然后在步骤715,确定待滤波的输入块的长度。在步骤717,系统控制器111初始化去加重标志,然后在步骤719运行程序以起动中断。接着,在步骤721,系统控制器111控制音频输出117以解除模拟音频输出的静音。
在按照VTSI_MAT信息通过图20、21和22的步骤设置音频解码器之后,系统控制器111分析存储在盘的数据区中的音频包,并再现存储在盘中的音频数据,如图23。
在步骤811系统控制器111控制已设置的音频解码器115去指示解码的开始。在步骤813,控制流选择器212把接收的音频数据传送给具有相应音频算法的解码器213或214。然后,相应的解码器213或214对相应算法的音频数据解码。这里,在步骤815,系统控制器111检查解码器213或214的操作状态。如果出现解码故障,步骤821进而控制当前正在操作的解码器中断解码操作。然后控制流选择器212去中断数据的传送,根据故障情况驱动一处治算法,然后返回步骤811。
如果在步骤815当前正在操作的解码器运行正常,则在步骤817通过输出数据缓冲器215或数字音频格式化器216向外输出已解码音频数据。在步骤819,检查音频解码器115的操作状态。如果出现解码故障则进入步骤821,否则步骤返回到对下一音频数据解码。
如果在音频解码器115中结束了对音频流的解码,系统控制器111通过图24的步骤控制高比特高取样数字滤波器116及高性能数模变换器和模拟音频电路117,将已解码的音频数据变换成模拟音频信号。如果从音频解码器115输出已解码音频数据,则通过步骤911至917系统控制器111控制高比特高取样数字滤波器116按照取样频率执行数字滤波。首先,系统控制器111检查取样频率,按照48、96或192KHz执行过取样(oversampling)数字滤波。这里,如果取样频率为48KHz,则进行32倍过取样数字滤波。如果频率为96KHz,则进行16倍过取样数字滤波。如果为192KHz,则进行8倍过取样数字滤波。
在按照取样频率进行过取样数字滤波之后,在步骤919系统控制器111控制高性能数模变换器和模拟音频电路117将已数字滤波的音频信号变换成模拟音频信号,然后在步骤921在音频频带中低通滤波和缓存已变换的模拟音频信号。
如上所述,本发明的DVD音频盘能记录最大为192KHz的取样频率和24位的量化音频数据,还能大大扩展声道数。因此,如果精确地再现记录在DVD音频盘上的音频数据,就再现了对应于多声道音乐的优良品质的音频信号。由于音频信号通过使用编码算法以高取样频率和许多量化位记录,所以可以使受所用盘的数据传输速度限制的可记录声道数、信号的取样频率和样本的量化位数倍增。
一般的DVD视频再现设备的技术规格赶不上DVD音频盘的技术规格,可以根据其性能给DVD视频再现设备配置能再现192KHz和24位数据的DVD音频再现设备。这里,DVD音频再现设备包括进行抽取和再量化的音频解码器,通过使用与记录在DVD音频盘上的编码方式一致的解码算法,DVD音频再现设备可以再现多声道音乐。
因此,应当理解,本发明不局限于作为实现本发明的最佳方式而公开的特定实施例,也不局限于在本说明书中描述的各具体实施例,本发明只受所附的权利要求书的限定。