语音处理装置、语音处理方法和程序技术领域
本发明涉及一种语音处理装置、语音处理方法和程序,且更具体地涉
及一种当多声道音频信号被下混合(downmix)和编码时在音频信号解码
时防止延迟和计算量增加的语音处理装置、语音处理方法和程序。
背景技术
对多声道音频信号编码的编码装置可以通过利用声道之间的关系执
行高度有效的编码。这一编码例如包括强度编码、M/S立体声编码和空间
编码。执行空间编码的编码装置将n声道音频信号下混合成m(m<n)声
道音频信号并且对信号编码,找出在下混合时表示声道间关系的空间参数
并将空间参数与编码数据一起发送。接收空间参数和编码数据的解码装置
对编码数据解码并且使用空间参数从作为解码的结果而获得的m声道音
频信号恢复原始的n声道音频信号。
这一空间编码被称为“双耳线索编码”。对于空间参数(下文称为“BC
参数”),例如使用ILD(Inter-channel Level Difference,声道间电平差值)、
IPD(Inter-channel Phase Difference,声道间相位差值)和ICC
(Inter-channel Correlation,声道间相关性)。ILD指代如下参数,该参
数指示声道间信号的量的比值。IPD指代如下参数,该参数指示声道间相
位差值,而ICC指代如下参数,该参数指示声道间相关性。
图1是图示了执行空间编码的编码装置的配置例子的框图。
此外,为了易于描述,n=2并且m=1。也就是说,编码对象音频信号
是立体声音频信号(下文称为“立体声信号”),并且作为编码的结果而获
得的编码数据是单耳音频信号(下文称为“单耳信号”)的编码数据。
图1中的编码装置10包括声道下混合单元11、空间参数检测单元12、
音频信号编码单元13和复用单元14。编码装置10接收包括左音频信号
XL和右音频信号XR的立体声信号的输入作为编码对象,并且输出单耳信
号的编码数据。
更具体而言,编码装置10的声道下混合单元11将作为编码对象而输
入的立体声信号下混合成单耳信号XM。另外,声道下混合单元11向空间
参数检测单元12和音频信号编码单元13提供单耳信号。
空间参数检测单元12基于从声道下混合单元11提供的单耳信号XM
和作为编码对象而输入的立体声信号检测BC参数,并且将BC参数提供
给复用单元14。
音频信号编码单元13对从声道下混合单元11提供的单耳信号编码,
并将结果得到的编码数据提供给复用单元14。
复用单元14复用和输出从音频信号编码单元13提供的编码数据和从
空间参数检测单元12提供的BC参数。
图2是图示了图1中的音频信号编码单元13的配置例子的框图。
此外,图2中的音频信号编码单元13采用如下配置,其中音频信号
编码单元13根据例如MPEG-2AAC LC(Moving Picture Experts Group
phase 2 Advanced Audio Coding Low Complexity,运动图片专家组第2
阶段高级音频编码低复杂度)简档执行编码。同时,在图2中简化和图示
了该配置以便于描述。
图2中的音频信号编码单元13包括MDCT(Modified Discrete Cosine
Transform,改进型离散余弦变换)单元21、频谱量化单元22、熵编码单
元23和复用单元24。
MDCT单元21执行从声道下混合单元11提供的单耳信号的MDCT,
并将单耳信号(该信号是时域信号)变换成MDCT系数(该系数是频域
系数)。MDCT单元21向频谱量化单元22提供作为变换的结果而获得的
MDCT系数作为频率频谱系数。
频谱量化单元22量化从MDCT单元21提供的频率频谱系数,并向
熵编码单元23提供该频率频谱系数。另外,频谱量化单元22向复用单元
24提供量化信息(该信息是与上述量化有关的信息)。量化信息例如包括
比例因子和量化位信息。
熵编码单元23执行从频谱量化单元22提供的量化频率频谱系数的熵
编码(比如霍夫曼编码或者算术编码),并无损压缩该频率频谱系数。熵
编码单元23向复用单元24提供作为熵编码的结果而获得的数据。
复用单元24复用从熵编码单元23提供的数据和从频谱量化单元22
提供的量化信息,并向复用单元14(图1)提供所得数据作为编码数据。
图3是图示了图1中的音频信号编码单元13的另一配置例子的框图。
此外,图3中的音频信号编码单元13采用如下配置,该配置例如根
据MPEG-2AAC SSR(Scalable Sample Rate,可伸缩采样速率)简档或
者MP3(MPEG音频层3)执行编码。同时,在图3中简化和图示了该
配置以便于描述。
图3中的音频信号编码单元13包括分析滤波器组31、MDCT单元
32-1至32-N(N是任意整数)、频谱量化单元33、熵编码单元34和复用
单元35。
分析滤波器组31例如包括QMF(Quadrature Mirror Filterbank,
正交镜滤波器组)组或者PQF(Poly-phase Quadrature Filter,多相正交
滤波器)组。分析滤波器组31根据频率将从声道下混合单元11提供的单
耳信号划分成N组。分析滤波器组31向MDCT单元32-1至32-N提供
作为划分的结果而获得的N个子频带信号。
MDCT单元32-1至32-N各自执行从分析滤波器组31提供的子频带
信号的MDCT,并且将子频带信号(该信号是时域信号)变换成MDCT
系数(该系数是频域系数)。另外,MDCT单元32-1至32-N各自向频谱
量化单元33提供每个子频带信号的MDCT系数作为频率频谱系数。
频谱量化单元33量化从MDCT单元32-1至32-N提供的N个频率
频谱系数中的每个频率频谱系数,并且将该N个频率频谱系数提供给熵
编码单元34。另外,频谱量化单元33向复用单元35提供关于该量化的
量化信息。
熵编码单元34执行从频谱量化单元33提供的量化的N个频率频谱
系数中的每个频率频谱系数的熵编码(比如霍夫曼编码或者算术编码),
并且无损压缩N个频率频谱系数。熵编码单元34向复用单元35提供作
为熵编码的结果而获得的N个数据项。
复用单元35复用从熵编码单元34提供的N个数据项和从频谱量化
单元33提供的量化信息,并且向复用单元14(图1)提供所得数据作为
编码数据。
图4是图示了解码装置的配置例子的框图,该解码装置对由图1中的
编码装置10空间编码的编码数据进行解码。
图4中的解码装置40包括逆复用单元41、音频信号解码单元42、生
成参数计算单元43和立体声信号生成单元44。解码装置40对从图1中
的编码装置提供的编码数据进行解码并生成立体声信号。
更具体而言,解码装置40的逆复用单元41逆复用从图1中的编码装
置10提供的复用编码数据,并获得编码数据和BC参数。逆复用单元41
将编码数据提供给音频信号解码单元42,并将BC参数提供给生成参数
计算单元43。
音频信号解码单元42对从逆复用单元41提供的编码数据进行解码,
并且将所得单耳信号XM(该信号是时域信号)提供给立体声信号生成单
元44。
生成参数计算单元43使用从逆复用单元41提供的BC参数来计算生
成参数(该参数是用于根据单耳信号(该信号是复用编码数据的解码结果)
生成立体声信号的参数)。生成参数计算单元43向立体声信号生成单元
44提供这些生成参数。
立体声信号生成单元44使用从生成参数计算单元43提供的生成参数
根据从音频信号解码单元42提供的单耳信号XM生成左音频信号XL和右
音频信号XR。立体声信号生成单元44输出左音频信号XL和右音频信号
XR作为立体声信号。
图5是图示了图4中的音频信号解码单元42的配置例子的框图。
此外,图5中的音频信号解码单元42采用如下配置,其中向解码装
置40输入根据例如MPEG-2 AAC LC简档编码的编码数据。也就是说,
图5中的音频信号解码单元42对图2中的音频信号编码单元13编码的编
码数据进行解码。
图5中的音频信号解码单元42包括逆复用单元51、熵解码单元52、
频谱逆量化单元53和IMDCT单元54。
逆复用单元51逆复用从图4中的逆复用单元41提供的编码数据,并
且获得量化和熵编码的频率频谱系数和量化信息。逆复用单元51将量化
和熵编码的频率频谱系数提供给熵解码单元52,并且将量化信息提供给
频谱逆量化单元53。
熵解码单元52执行从逆复用单元51提供的频率频谱系数的熵解码
(比如霍夫曼解码或者算术解码),并且恢复量化频率频谱系数。熵解码
单元52将该频率频谱系数提供给频谱逆量化单元53。
频谱逆量化单元53基于从逆复用单元51提供的量化信息逆量化从熵
解码单元52提供的量化的频率频谱系数,并且恢复频率频谱系数。另外,
频谱逆量化单元53将频率频谱系数提供给IMDCT(逆MDCT)(Inverse
Modified Discrete Cosine Transform,逆改进型离散余弦变换)单元54。
IMDCT单元54执行从频谱逆量化单元53提供的频率频谱系数的
IMDCT,并且将频率频谱系数变换成单耳信号XM(该信号是时域信号)。
IMDCT单元54将该单耳信号XM提供给立体声信号生成单元44(图4)。
图6是图示了图4中的音频信号解码单元42的另一配置例子的框图。
此外,图6中的音频信号解码单元42采用如下配置,其中向解码装
置40输入例如根据MPEG-2 AAC SSR简档或者比如MP3这样的方法编
码的编码数据。也就是说,图6中的音频信号解码单元42对图3中的音
频信号编码单元13编码的编码数据进行解码。
图6中的音频信号解码单元42包括逆复用单元61、熵解码单元62、
频谱逆量化单元63、IMDCT单元64-1至64-N和合成滤波器组65。
逆复用单元61逆复用从图4中的逆复用单元41提供的编码数据,并
且获得N个子频带信号的量化和熵编码的频率频谱系数以及量化信息。
逆复用单元61将N个子频带信号的量化和熵编码的频率频谱系数提供给
熵解码单元62,并将量化信息提供给频谱逆量化单元63。
熵解码单元62执行从逆复用单元61提供的N个子频带信号的频率
频谱系数的熵解码(比如霍夫曼解码或者算术解码),并将频率频谱系数
提供给频谱逆量化单元63。
频谱逆量化单元63基于从逆复用单元61提供的量化信息逆量化从熵
解码单元62提供的并且作为熵解码的结果而获得的N个子频带信号的频
率频谱系数中的每个。通过这一方式,恢复了N个子频带信号的频率频
谱系数。频谱逆量化单元63将N个子频带信号的恢复的频率频谱系数逐
个地提供给IMDCT单元64-1至64-N。
IMDCT单元64-1至64-N各自执行从频谱逆量化单元63提供的频率
频谱系数的IMDCT,并且将频率频谱系数变换成子频带信号(该信号是
时域信号)。IMDCT单元64-1至64-N各自将作为变换的结果而获得的子
频带信号提供给合成滤波器组65。
合成滤波器组65包括例如逆PQF和逆QMF。合成滤波器组65合成
从IMDCT单元64-1至64-N提供的N个子频带信号,并且向立体声信号
生成单元44(图4)提供所得信号作为单耳信号XM。
图7是图示了图4中的立体声信号生成单元44的配置例子的框图。
图7中的立体声信号生成单元44包括混响信号生成单元71和立体声
合成单元72。
混响信号生成单元71使用从图4中的音频信号解码单元42提供的单
耳信号XM来生成与单耳信号XM不相关的信号XD。对于混响信号生成单
元71,一般使用梳状滤波器或全通滤波器。在这一情况下,混响信号生
成单元71生成单耳信号XM的混响信号作为信号XD。
此外,对于混响信号生成单元71,在一些情况下使用反馈延迟网络
(feedback delay network,FDN)(例如见专利文献1)。
混响信号生成单元71将生成的信号XD提供给立体声合成单元72。
立体声合成单元72使用从图4中的生成参数计算单元43提供的生成
参数来合成从图4中的音频信号解码单元42提供的单耳信号XM和从混
响信号生成单元71提供的信号XD。另外,立体声合成单元72输出作为
合成的结果而获得的左音频信号XL和右音频信号XR作为立体声信号。
图8是图示了图4中的立体声信号生成单元44的另一配置例子的框
图。
图8中的立体声信号生成单元44包括分析滤波器组81、子频带立体
声信号生成单元82-1至82-P(P是任意数)和合成滤波器组83。
此外,当图4中的立体声信号生成单元44采用图8中所示的配置时,
图1中的编码装置10的空间参数检测单元12检测每子频带信号的BC参
数。
更具体而言,例如,空间参数检测单元12具有两个分析滤波器组。
另外,在空间参数检测单元12中,一个分析滤波器组根据频率划分立体
声信号,而另一分析滤波器组根据频率划分来自声道下混合单元11的单
耳信号。空间参数检测单元12基于作为划分的结果而获得的立体声信号
的子频带信号和单耳信号的子频带信号检测每子频带信号的BC参数。另
外,图4中的生成参数计算单元43从逆复用单元41接收每个子频带信号
的BC参数的提供,并且生成每子频带信号的生成参数。
分析滤波器组81例如包括QMF(Quadrature Mirror Filter,正交镜
像滤波器)组。分析滤波器组81根据频率将从图4中的音频信号解码单
元42提供的单耳信号XM划分成P组。分析滤波器组81将作为划分的结
果而获得的P个子频带信号提供给子频带立体声信号生成单元82-1至
82-P。
子频带立体声信号生成单元82-1至82-P各自包括混响信号生成单元
和立体声合成单元。子频带立体声信号生成单元82-1至82-P中的每个的
配置相同,因此将仅描述子频带立体声信号生成单元82-B。
子频带立体声信号生成单元82-B包括混响信号生成单元91和立体声
合成单元92。混响信号生成单元91使用从分析滤波器组81提供的单耳
信号的子频带信号XmB来生成与这一子频带信号XmB不相关的信号XDB
并且将该信号XDB提供给立体声合成单元92。
立体声合成单元92使用从图4中的生成参数计算单元43提供的子频
带信号XmB的生成参数来合成从分析滤波器组81提供的子频带信号XmB
和从混响信号生成单元91提供的信号XDB。另外,立体声合成单元92将
作为合成的结果而获得的左音频信号XLB和右音频信号XRB作为立体声信
号的子频带信号提供给合成滤波器组83。
合成滤波器组83一次合成从子频带立体声信号生成单元82-1至82-P
提供的每个子频带信号的左和右立体声信号。合成滤波器组83输出所得
左音频信号XL和右音频信号XR作为立体声信号。
此外,例如在专利文献2中公开了图8中的立体声信号生成单元44
的配置。
另外,执行强度编码的编码装置混合在与输入立体声信号的预定频率
频带相等或者比预定频率频带更大的频率的每个声道的频率频谱系数,并
且生成单耳信号的频率频谱系数。另外,编码装置输出这一单耳信号的频
率频谱系数与声道间频率频谱系数的水平比值作为编码结果。
更具体而言,执行强度编码的编码装置关于立体声信号执行MDCT,
并且在声道的所得频率频谱系数之间混合和共享在与预定频率频带相等
或者比预定频率频带更大的频率的每个声道的频率频谱系数。另外,执行
强度编码的编码装置量化和熵编码共享的频率频谱系数,并且复用所得数
据和量化信息作为编码数据。另外,执行强度编码的编码装置求得声道间
频率频谱系数的水平比值,并且复用和输出水平比值和编码数据。
另外,执行强度解码的解码装置逆复用声道间频率频谱系数的水平比
值在其上被复用的编码数据、熵解码所得编码数据并且基于量化信息逆量
化编码数据。另外,执行强度解码的解码装置基于作为逆量化的结果而获
得的频率频谱系数的水平比值和在编码数据上复用的声道间频率频谱系
数恢复每个声道的频率频谱系数。另外,执行强度解码的解码装置执行每
个声道的恢复的频率频谱系数的IMDCT,并且获得在与预定频率频带相
等或者比预定频率频带更大的频率的立体声信号。
虽然通常使用这样的强度编码比值来提高编码效率,但是立体声信号
的高频带频率频谱系数被单耳编码并且仅由声道间水平差值表示,因此略
微损失了原有的立体声效果。
引用列表
专利文献
专利文献1:公开号为2006-325162的日本专利申请
专利文献2:公开号为2006-524832的日本专利申请
发明内容
本发明要解决的问题
如上文描述的那样,对常规空间编码的数据进行解码的解码装置40
使用单耳信号XM(该信号是时域信号)生成与在生成立体声信号时使用
的单耳信号XM不相关的信号XD和信号XD1至XDP。
因此,生成信号XD的混响信号生成单元71以及生成信号XD1至XDP
的子频带立体声信号生成单元82-1至82-P的分析滤波器组81和混响信
号生成单元91引起延迟,并且增加解码装置40的算法延迟。这例如在请
求解码装置40提供即时响应性能或者在实时通信中使用解码装置40时
(也就是说,在低延迟性质重要时)引起问题。
另外,在混响信号生成单元71以及子频带立体声信号生成单元82-1
至82-P的分析滤波器组81和混响信号生成单元91中的滤波器计算增加
了计算量并且也增加了所需缓冲容量。
鉴于这样的情形,本发明可以在多声道音频信号被下混合和编码的情
况下在音频信号解码时防止延迟和计算量增加。
问题的解决方案
根据本发明一个方面的一种语音处理装置包括:获取单元,获取从作
为多个声道的语音时域信号的语音信号生成、数目比多个声道少的声道的
语音信号的频域系数,和表示多个声道之间的关系的参数;第一变换单元,
将所述获取单元获取的所述频域系数变换成第一时域信号;第二变换单
元,将所述获取单元获取的所述频域系数变换成第二时域信号;以及合成
单元,通过使用所述参数合成所述第一时域信号和所述第二时域信号来生
成所述多个声道的所述语音信号,其中所述第一变换单元执行的变换的基
底与所述第二变换单元执行的变换的基底正交。
根据本发明一个方面的一种语音处理方法和程序支持根据本发明一
个方面的一种语音处理装置。
根据本发明的一个方面,获取从作为多个声道的语音时域信号的语音
信号生成、数目比多个声道少的声道的语音信号的频域系数,和表示多个
声道之间的关系的参数,将获取的频域系数变换成第一时域信号,将获取
的频域系数变换成第二时域信号,并且通过使用参数合成第一时域信号和
第二时域信号来生成多个声道的语音信号。此外,向第一时域信号的变换
的基底和向第二时域信号的变换的基底正交。
根据本发明一个方面的语音处理装置可以是独立装置或者可以是形
成一个装置的内部块。
发明效果
根据本发明的一个方面,有可能当多声道音频信号被下混合和编码时
在音频信号解码时防止延迟和计算量增加。
附图说明
图1是图示了执行空间编码的编码装置的配置例子的框图。
图2是图示了图1中的音频信号编码单元的配置例子的框图。
图3是图示了图1中的音频信号编码单元的另一配置例子的框图。
图4是图示了对空间编码数据进行解码的解码装置的配置例子的框
图。
图5是图示了图4中的音频信号解码单元的配置例子的框图。
图6是图示了图4中的音频信号解码单元的另一配置例子的框图。
图7是图示了图4中的立体声信号生成单元的配置例子的框图。
图8是图示了图4中的立体声信号生成单元的另一配置例子的框图。
图9是图示了根据第一实施例应用本发明的语音处理装置的配置例
子的框图。
图10是图示了图9中的不相关频率-时间变换单元的具体配置例子的
框图。
图11是图示了图9中的不相关频率-时间变换单元的另一具体配置例
子的框图。
图12是图示了图9中的立体声合成单元的具体配置例子的框图。
图13是图示了每个信号的矢量的视图。
图14是用于描述图9中的语音处理装置的解码处理的流程图。
图15是图示了根据第二实施例应用本发明的语音处理装置的配置例
子的框图。
图16是用于描述图15中的语音处理装置的解码处理的流程图。
图17是图示了根据第三实施例应用本发明的语音处理装置的配置例
子的框图。
图18是用于描述图17中的语音处理装置的解码处理的流程图。
图19是图示了根据第四实施例应用本发明的语音处理装置的配置例
子的框图。
图20是用于描述图19中的语音处理装置的解码处理的流程图。
图21是图示了根据一个实施例的计算机的配置例子的视图。
具体实施方式
<第一实施例>
[根据第一实施例的语音处理装置的配置例子]
图9是图示了根据第一实施例应用本发明的语音处理装置的配置例
子的框图。
对与图4和图5中所示配置相同的图9中所示配置分配相同标号。将
适当省略重复描述。
图9中的语音处理装置100的配置与图4中所示解码装置40(该解
码装置具有图5中的音频信号解码单元42和图7中的立体声信号生成单
元44)的配置不同主要在于设置了逆复用单元101而不是逆复用单元41
和逆复用单元51,设置了不相关频率-时间变换单元102而不是IMDCT
单元54和混响信号生成单元71,并且设置了立体声合成单元103和生成
参数计算单元104而不是立体声合成单元72和生成参数计算单元43。
语音处理装置100例如对图1中的编码装置10(该编码装置具有图2
中的音频信号编码单元13)空间编码的编码数据进行解码。在这一情况
下,语音处理装置100使用单耳信号XM的频率频谱系数来生成与在生成
立体声信号时使用的单耳信号XM不相关的信号XD’。
更具体而言,语音处理装置100的逆复用单元101(获取单元)对应
于图4中的逆复用单元41和图5中的逆复用单元51。也就是说,逆复用
单元101逆复用从图1中的编码装置10提供的复用编码数据,并且获取
编码数据和BC参数。此外,虽然在编码数据上复用的BC参数可以是所
有帧的BC参数或者可以是预定帧的BC参数,但是BC参数这里指代预
定帧的BC参数。
另外,逆复用单元101逆复用编码数据并且获得量化和熵编码的频率
频谱系数和量化信息。另外,逆复用单元101将量化和熵编码的频率频谱
系数提供给熵解码单元52,并将量化信息提供给频谱逆量化单元53。另
外,逆复用单元101将BC参数提供给生成参数计算单元104。
不相关频率-时间变换单元102根据作为频谱逆量化单元53的逆量化
的结果而获得的单耳信号XM的频率频谱系数生成单耳信号XM和信号
XD’(这些信号是两个不相关的时域信号)。另外,不相关频率-时间变换
单元102将单耳信号XM和信号XD’提供给立体声合成单元103。将参照
下文将描述的图10和图11具体描述该不相关频率-时间变换单元102。
立体声合成单元103(合成单元)使用从生成参数计算单元104提供
的生成参数来合成从不相关频率-时间变换单元102提供的单耳信号XM
和信号XD’。另外,立体声合成单元103输出作为合成的结果而获得的左
音频信号XL和右音频信号XR作为立体声信号。将参照下文描述的图12
具体描述该立体声合成单元103。
生成参数计算单元104插值从逆复用单元101提供的预定帧的BC参
数并且计算每帧的BC参数。生成参数计算单元104使用当前处理目标帧
的BC参数生成所述的生成参数,并且将生成参数提供给立体声合成单元
103。
[不相关频率-时间变换单元的具体配置例子]
图10是图示了图9中的不相关频率-时间变换单元102的具体配置例
子的框图。
图10中的不相关频率-时间变换单元102包括IMDCT单元54和
IMDST单元111。
图10中的IMDCT单元54(第一变换单元)与图5中的IMDCT单
元54相同,并且执行从频谱逆量化单元53提供的单耳信号XM的频率频
谱系数的IMDCT。另外,IMDCT单元54将所得单耳信号XM(该信号
是时域信号(第一时域信号))提供给立体声合成单元103(图9)。
IMDST(Inverse Modified Discrete Sine Transform,逆改进型离散
正弦变换)单元111(第二变换单元)执行从矢量逆量化单元53提供的
单耳信号XM的频率频谱系数的IMDST。另外,IMDST单元111将所得
信号XD’(该信号是时域信号(第二时域信号))提供给立体声合成单元
103(图9)。
如上文描述的那样,IMDCT单元54执行的变换是逆余弦变换,而
IMDST单元111执行的变换是逆正弦变换,并且IMDCT单元54执行的
变换的基底与IMDST单元111执行的变换的基底正交。因而有可能认为
单耳信号XM和信号XD’基本上相互不相关。
此外,根据下式(1)至(3)限定MDCT、IMDCT和IMDST。
[式1]
Xc ( k ) = Σ n = 0 2 N - 1 w ( n ) · x ( n ) · cos [ π 4 N ( 2 n + 1 + N ) ( 2 k + 1 ) ] k = 0,1 , . . , N - 1 . . . ( 1 ) ]]>
[式2]
y ( n ) = 2 · w ′ ( n ) N · Σ k = 0 N - 1 Xc ( k ) · cos [ π 4 N ( 2 n + 1 + N ) ( 2 k + 1 ) ] n = 0,1 , . . , 2 N - 1 . . . ( 2 ) ]]>
[式3]
y ( n ) = 2 · w ′ ( n ) N · Σ k = 0 N - 1 Xc ( k ) · sin [ π 4 N ( 2 n + 1 + N ) ( 2 k + 1 ) ] n = 0,1 , . . , 2 N - 1 . . . ( 3 ) ]]>
在式(1)至(3)中,x(n)是时域信号,w(n)是变换窗,w’(n)是逆变
换窗,而y(n)是逆变换信号。另外,Xc(k)是MDCT系数,并且Xs(k)是
MDST系数。
[不相关频率-时间变换单元的具体配置例子]
图11是图示了图9中的不相关频率-时间变换单元102的另一具体配
置例子的框图。
对与图10中的配置相同的图11中所示配置分配相同标号。将适当省
略重复描述。
图11中的不相关频率-时间变换单元102的配置与图10中的配置不
同主要在于设置了频谱反转单元121、IMDCT单元122和符号反转单元
123而不是IMDST单元111。
图11中的不相关频率-时间变换单元102的频谱反转单元121反转从
频谱逆量化单元53提供的频率频谱系数使得频率按照逆序,并且向
IMDCT单元122提供频率频谱系数。
IMDCT单元122执行从频谱反转单元121提供的频率频谱系数的
IMDCT,并且获得时域信号。IMDCT单元122将该时域信号提供给符号
反转单元123。
符号反转单元123反转从IMDCT单元122提供的时域信号的奇数采
样的符号,并且获得信号XD’。
同时,当Xs(k)在限定IMDST的上式3中替换为Xs(N-k-1)时,如果
N是4的公倍数,则式3可以修改成下式4。
[式4]
y ( n ) = 2 · w ′ ( n ) N · Σ k = 0 N - 1 Xs ( N - k - 1 ) · sin [ π 4 N ( 2 n + 1 + N ) ( 2 ( N - k - 1 ) + 1 ) ] ]]>
= 2 · w ′ ( n ) N · ( - 1 ) n · Σ k = 0 N - 1 Xs ( N - k - 1 ) · cos [ π 4 N ( 2 n + 1 + N ) ( 2 k + 1 ) ] = ( - 1 ) n · IMDCT [ Xs ( N - k - 1 ) ] . . . ( 4 ) ]]>
因此,作为执行来自频谱逆量化单元53的频率频谱系数的IMDST
的结果而获得的信号与作为反转频率频谱系数并且执行频率频谱系数的
IMDST使得频率按照逆序并且反转奇数采样的符号的结果而获得的信号
是相同信号XD’。也就是说,图10中的IMDST单元111与图11中的频
谱反转单元121、IMDCT单元122和符号反转单元123是等同的。
符号反转单元123向图9中的立体声合成单元103提供获得的信号
XD’。
如上文描述的那样,图11中的不相关频率-时间变换单元102仅需设
置有IMDCT单元,以便将时域信号变换成频率频谱系数,从而与其中需
要设置图9中的IMDCT单元和IMDST单元的情况相比有可能减少制造
成本。
[立体声合成单元的具体配置例子]
图12是图示了图9中的立体声合成单元103的具体配置例子的框图。
图12中的立体声合成单元103包括乘法器141至144以及加法器145
和加法器146。
乘法器141将从不相关频率-时间变换单元102提供的单耳信号XM
与系数h11(该系数是从生成参数计算单元104提供的生成系数之一)相
乘。乘法器141将所得相乘值h11×XM提供给加法器145。
乘法器142将从不相关频率-时间变换单元102提供的单耳信号XM
与系数h21(该系数是从生成参数计算单元104提供的生成系数之一)相
乘。乘法器141将所得相乘值h21×XM提供给加法器146。
乘法器143将从不相关频率-时间变换单元102提供的信号XD’与系数
h12(该系数是从生成参数计算单元104提供的生成系数之一)相乘。乘
法器141将所得相乘值h12×XD’提供给加法器145。
乘法器144将从不相关频率-时间变换单元102提供的信号XD’与系数
h22(该系数是从生成参数计算单元104提供的生成系数之一)相乘。乘
法器141将所得相乘值h22×XD’提供给加法器146。
加法器145将从乘法器141提供的相乘值h11×XM与从乘法器143提
供的相乘值h12×XD’相加,并且输出所得相加值作为左音频信号XL。
加法器146将从乘法器142提供的相乘值h21×XM与从乘法器143提
供的相乘值h22×XD’相加,并且输出作为右音频信号XR而获得的所得相加
值。
如上文描述的那样,立体声合成单元103如图13中所示通过使用单
耳信号XM、信号XD’、左音频信号XL和右音频信号XR作为矢量来执行
如下式5中所示使用生成参数的加权加法。
[式5]
XL=h11·XM+h12·XD′
XR=h21·XM+h22·XD′…(5)
此外,系数h11、h12、h21和h22由以下等式(6)表示。
[式6]
h11=gL·cos(θL)
h12=gL·sin(θL)
h21=gR·cos(θR)
h22=gR·sin(θR)…(6)
其中:
[式7]
g L = | | X L | | | | X M | | , ]]> g R = | | X R | | | | X M | | . . . ( 7 ) ]]>
在式6中,角度θL是在左音频信号XL的矢量与单耳信号XM的矢量
之间形成的角度,并且角度θR是在右音频信号XR的矢量与单耳信号XM
的矢量之间形成的角度。
同时,生成参数计算单元104计算系数h11、h12、h21和h22作为生成
参数。更具体而言,生成参数计算单元104根据BC参数计算gL、gR、θL
和θR,并且根据gL、gR、θL和θR计算系数h11、h12、h21和h22作为生成
参数。此外,例如在公开号为2006-325162的日本专利申请中公开了根据
BC参数计算gL、gR、θL和θR的方法的细节。
此外,对于BC参数,也可以使用gL、gR、θL和θR,并且也可以使
用压缩编码的gL、gR、θL和θR。另外,对于BC参数,也可以直接使用
或者也可以压缩和编码并且使用系数h11、h12、h21和h22。
[语音处理装置的处理的描述]
图14是用于描述图9中的语音处理装置100的解码处理的流程图。
当向语音处理装置100输入从图1中的编码装置10提供的复用编码数据
时开始这一解码处理。
在图14中的步骤S11中,逆复用单元101逆复用从图1中的编码装
置10提供的复用编码数据,并且获得编码数据和BC参数。另外,逆复
用单元101还逆复用该编码数据,以及量化和熵编码的频率频谱系数和量
化信息。另外,逆复用单元101向熵解码单元52提供量化和熵编码的频
率频谱系数并且向频谱逆量化单元53提供量化信息。另外,逆复用单元
101向生成参数计算单元104提供BC参数。
在步骤S12中,熵解码单元52执行从逆复用单元101提供的频率频
谱系数的熵解码(比如霍夫曼解码或者算术解码),并且恢复量化频率频
谱系数。熵解码单元52向频谱逆量化单元53提供频率频谱系数。
在步骤S13中,频谱逆量化单元53基于从逆复用单元101提供的量
化信息逆量化从熵解码单元52提供的量化的频率频谱系数,并且恢复频
率频谱系数。另外,频谱逆量化单元53将频率频谱系数提供给不相关频
率-时间变换单元102。
在步骤S14中,不相关频率-时间变换单元102根据作为频谱逆量化
单元53的逆量化的结果而获得的单耳信号XM的频率频谱系数生成单耳
信号XM和信号XD’(这些信号是两个不相关时域信号)。另外,不相关频
率-时间变换单元102将单耳信号XM和信号XD’提供给立体声合成单元
103。
在步骤S15中,立体声合成单元103使用从生成参数计算单元104
提供的生成参数来合成从不相关频率-时间变换单元102提供的单耳信号
XM和信号XD’。
在步骤S16中,生成参数计算单元104插值从逆复用单元101提供的
预定帧的BC参数并且计算每帧的BC参数。
在步骤S17中,生成参数计算单元104使用当前处理目标帧的BC参
数来生成系数h11、h12、h21和h22作为生成参数,并且向立体声合成单元
103提供生成参数。
在步骤S18中,立体声合成单元103使用从生成参数计算单元104
提供的生成参数来合成从不相关频率-时间变换单元102提供的单耳信号
XM和信号XD’,并且生成立体声信号。另外,立体声合成单元103输出
立体声信号,并且处理结束,
如上文描述的那样,语音处理装置100通过执行两个类型的变换使得
基底与单耳信号XM的频率频谱系数正交来生成单耳信号XM和信号XD’。
也就是说,语音处理装置100可以使用单耳信号XM的频率频谱系数来生
成信号XD’。因而,与图4中的常规解码装置40相比(该装置具有图5
中的音频信号解码单元42和图7中的立体声信号生成单元44),语音处
理装置100可以防止图7中的混响信号生成单元71引起的延迟以及计算
量和缓冲资源的增加。
另外,可以作为不相关频率-时间变换单元102的一部分再利用常规
解码装置40的IMDCT单元54,从而有可能使新功能的添加最少并且防
止电路规模和所需资源的增加。
<第二实施例>
[根据第二实施例的语音处理装置的配置例子]
图15是图示了根据第二实施例应用本发明的语音处理装置的配置例
子的框图。
对与图9中的配置相同的图15中所示配置分配相同标号。将适当省
略重复描述。
图15中的语音处理装置200的配置与图9中的配置不同主要在于还
设置了频带划分单元201、IMDCT单元202、加法器203和加法器204。
语音处理装置200例如解码如下编码数据,针对该编码数据执行与图
1中的编码装置10(该编码装置具有图2中的音频信号编码单元13)中
相同的空间编码,并且在该编码数据上复用高频带的BC参数,并且仅对
高频带中的单耳信号XM进行立体声编码。
更具体而言,语音处理装置200的频带划分单元201(划分单元)根
据频率将频谱逆量化单元53获得的频率频谱系数划分成两组高频带频率
频谱系数和低频带频率频谱系数。另外,频带划分单元201将低频带频率
频谱系数提供给IMDCT单元202,并将高频带频率频谱系数提供给不相
关频率-时间变换单元102。
IMDCT单元202(第三变换单元)执行从频带划分单元201提供的
低频带频率频谱系数的IMDCT,并且获得单耳信号XMlow(第三时域信
号),该信号是低频带时域信号。IMDCT单元202向加法器203提供低
频带单耳信号XMlow作为低频带左音频信号,并且向加法器204提供低频
带单耳信号XMlow作为低频带右音频信号。
加法器203接收作为在不相关频率-时间变换单元102和立体声合成
单元103中处理从频带划分单元201输出的高频带频率频谱系数的结果而
获得的高频带左音频信号XLHigh的输入。加法器203将高频带左音频信号
XLHigh与作为低频带左音频信号从IMDCT单元202提供的低频带单耳信
号XMlow相加,并且生成整个频率频带左音频信号XL。
加法器204接收作为在不相关频率-时间变换单元102和立体声合成
单元103中处理从频带划分单元201输出的高频带频率频谱系数的结果而
获得的高频带右音频信号XRHigh的输入。加法器204将高频带右音频信号
XRHigh与作为低频带右音频信号从IMDCT单元202提供的低频带单耳信
号XMlow相加,并且生成整个频率频带右音频信号XR。
[语音处理装置的处理的描述]
图16是用于描述图15中的语音处理装置200的解码处理的流程图。
当向语音处理装置200输入如下编码数据时,开始这一解码处理,针对上
述编码数据执行与图1中的编码装置10(该编码装置具有图2中的音频
信号编码单元13)中相同的空间编码,并且在该编码数据上复用高频带
的BC参数。
图16中的步骤S31至S33与图14中的步骤S11至S13中的处理相
同,不再重复说明。
在步骤S34中,频带划分单元201根据频率将频谱逆量化单元53获
得的频率频谱系数划分成两组高频带频率频谱系数和低频带频率频谱系
数。另外,频带划分单元201向IMDCT单元202提供低频带频率频谱系
数,并且向不相关频率-时间变换单元102提供高频带频率频谱系数。
在步骤S35中,IMDCT单元202执行从频带划分单元201提供的低
频带频率频谱系数的IMDCT,并且获得单耳信号XMlow(该信号是低频
带时域信号)。IMDCT单元202向加法器203提供低频带单耳信号XMlow
作为低频带左音频信号,并且向加法器204提供低频带单耳信号XMlow作
为低频带右音频信号。
在步骤S36中,通过不相关频率-时间变换单元102、立体声合成单
元103和生成参数计算单元104针对从频带划分单元201提供的高频带频
率频谱系数执行立体声信号生成处理。更具体而言,不相关频率-时间变
换单元102、立体声合成单元103和生成参数计算单元104执行图14中
的步骤S14至S18中的处理。分别向加法器203和加法器204输入所得高
频带左音频信号XLHigh和高频带右音频信号XRHigh。
在步骤S37中,加法器203将作为低频带左音频信号从IMDCT单元
202提供的低频带单耳信号XMlow与从不相关频率-时间变换单元102提供
的高频带左音频信号XLHigh相加,并且生成整个频率频带左音频信号XL。
另外,加法器203输出整个频率频带左音频信号XL。
在步骤S38中,加法器204将作为低频带右音频信号从IMDCT单元
202提供的低频带单耳信号XMlow与从不相关频率-时间变换单元102提供
的高频带右音频信号XRHigh相加,并且生成整个频率频带右音频信号XR。
另外,加法器204输出这一整个频率频带右音频信号XR。
如上文描述的那样,语音处理装置200对整个频率频带单耳信号XM
的编码数据进行解码,并且仅对高频带进行立体声编码。因而,有可能防
止声音由于低频带单耳信号XM的立体声编码而不自然。
此外,虽然对语音处理装置200而言频带划分单元201将频率频谱系
数划分成高频带频率频谱系数和低频带频率频谱系数,但是频带划分单元
201可以将频率频谱系数划分成预定频率频带的频率频谱系数和其它频
率频带的频率频谱系数。也就是说,可以根据频率频带是预定频率频带还
是其它频率频带、而不是频率频带是低频带还是高频带来选择是否执行立
体声编码。
<第三实施例>
[根据第三实施例的语音处理装置的配置例子]
图17是图示了根据第三实施例应用本发明的语音处理装置的配置例
子的框图。
对与图4、图6和图9中的配置相同的图17中所示配置分配相同标
号。将适当省略重复描述。
图17中的语音处理装置300的配置与图4中的解码装置40(该解码
装置具有图6中的音频信号解码单元42和图7中的立体声信号生成单元
44)的配置不同主要在于设置了逆复用单元301而不是逆复用单元41和
逆复用单元61,设置了IMDCT单元304-1至304-(N-1)而不是IMDCT
单元64-1至IMDCT单元64-(N-1),设置了立体声编码单元305而不是
IMDCT单元64-N和立体声信号生成单元44,并且设置了生成参数计算
单元104和合成滤波器组306而不是生成参数计算单元43和合成滤波器
组65。
图17中的语音处理装置300例如对如下编码数据进行解码,针对该
编码数据执行与图1中的编码装置10(该编码装置具有图3中的音频信
号编码单元13)中相同的空间编码,并且在该编码数据上复用预定子频
带信号的BC参数。
更具体而言,语音处理装置300的逆复用单元301对应于图4中的逆
复用单元41和图6中的逆复用单元61。也就是说,逆复用单元301接收
编码数据(针对该编码数据执行与图1中的编码装置10(该编码装置具
有图3中的音频信号编码单元13)中相同的空间编码,并且在该编码数
据中复用预定子频带信号的BC参数)的输入。逆复用单元301逆复用输
入的编码数据,并且获得编码数据和预定子频带信号的BC参数。另外,
逆复用单元301向生成参数计算单元104提供预定子频带信号的BC参
数。
另外,逆复用单元301逆复用编码数据,并且获得N个子频带信号
的量化和熵编码的频率频谱系数以及量化信息。逆复用单元301向熵解码
单元62提供N个子频带信号的量化和熵编码的频率频谱系数,并且向频
谱逆量化单元63提供量化信息。
IMDCT单元304-1至304-(N-1)(第三变换单元)和立体声编码单元
305逐个接收频谱逆量化单元63恢复的N个子频带信号的频率频谱系数
的输入。
IMDCT单元304-1至304-(N-1)各自执行输入频率频谱系数的
IMDCT,并且将频率频谱系数变换成单耳信号XM(该信号是时域信号)
的子频带信号XMi(i=1,2,...和N-1)。IMDCT单元304-1至304-(N-1)各
自向合成滤波器组306提供子频带信号XMi作为左音频信号XLi和右音频
信号XRi。
立体声编码单元305包括图9中的不相关频率-时间变换单元102和
立体声合成单元103。立体声编码单元305使用生成参数计算单元104生
成的生成参数根据从频谱逆量化单元63输入的预定子频带信号的频率频
谱系数生成左音频信号的子频带信号XLA和右音频信号的子频带信号XRA
(这些信号是时域信号)。另外,立体声编码单元305向合成滤波器组306
提供左子频带信号XLA和右子频带信号XRA。
合成滤波器组306(加法单元)包括用于合成左音频信号的子频带信
号的左合成滤波器组,和用于合成右音频信号的子频带信号的右合成滤波
器组。合成滤波器组306的左合成滤波器组合成来自IMDCT单元304-1
至304-(N-1)的左子频带信号XL1至XLN-1以及来自立体声编码单元305的
左子频带信号XLA。另外,左合成滤波器组输出作为合成的结果而获得的
整个频率频带左音频信号XL。
另外,合成滤波器组306的右合成滤波器组合成来自IMDCT单元
304-1至304-(N-1)的右子频带信号XR1至XRN-1以及来自立体声编码单元
305的右子频带信号XRA。另外,右合成滤波器组输出作为合成的结果而
获得的整个频率频带右音频信号XR。
此外,虽然图17中的语音处理装置300仅对一个子频带信号进行立
体声编码,但是语音处理装置300可以对多个子频带信号进行立体声编
码。另外,可以在编码侧上动态设置而不是预先设置被立体声编码的子频
带信号。在这一情况下,例如在BC参数中包括用于指定子频带信号(该
信号是立体声编码对象)的信息。
[语音处理装置的处理的描述]
图18是用于描述图17中的语音处理装置300的解码处理的流程图。
例如当向语音处理装置300输入编码数据(针对该编码数据执行与图1
中的编码装置10(该编码装置具有图3中的音频信号编码单元13)中相
同的空间编码,并且在该编码数据上复用预定子频带信号的BC参数)时
开始这一解码处理。
在图18中的步骤S51中,逆复用单元301逆复用输入的复用编码数
据并且获得编码数据和预定子频带信号的BC参数。另外,逆复用单元
301向生成参数计算单元104提供预定子频带信号的BC参数。另外,逆
复用单元301逆复用编码数据,并且获得N个子频带信号的量化和熵编
码的频率频谱系数以及量化信息。逆复用单元301向熵解码单元62提供
N个子频带信号的量化和熵编码的频率频谱系数,并且向频谱逆量化单元
63提供量化信息。
在步骤S52中,熵解码单元62对从逆复用单元101提供的N个子频
带信号的频率频谱系数进行熵解码,并且向频谱逆量化单元63提供频率
频谱系数。
在步骤S53中,频谱逆量化单元63基于从逆复用单元301提供的量
化信息逆量化从熵解码单元62提供的并且作为熵解码的结果而获得的N
个子频带信号的频率频谱系数。另外,频谱逆量化单元63向IMDCT单
元304-1至304-(N-1)和立体声编码单元305逐个提供N个子频带信号的
所得到的恢复的频率频谱系数。
在步骤S54中,IMDCT单元304-1至304-(N-1)各自执行从频谱逆量
化单元63提供的频率频谱系数的IMDCT。另外,IMDCT单元304-1至
304-(N-1)各自向合成滤波器组306提供单耳信号的所得子频带信号XMi
(i=1,2,…和N-1)作为左音频信号的子频带信号XLi和右音频信号的子
频带信号XLi。
在步骤S55中,立体声编码单元305使用从生成参数计算单元104
提供的生成参数来执行从频谱逆量化单元63提供的预定子频带信号的频
率频谱系数的立体声信号生成处理。另外,立体声编码单元305向合成滤
波器组306提供所得到的左音频信号的子频带信号XLA和右音频信号的子
频带信号XRA(这些信号是时域信号)。
在步骤S56中,合成滤波器组306的左合成滤波器组合成从IMDCT
单元304-1至304-(N-1)和立体声编码单元305提供的左音频信号的所有子
频带信号,并且生成整个频率频带左音频信号XL。另外,左合成滤波器
组输出该整个频率频带左音频信号XL。
在步骤S57中,合成滤波器组306的右合成滤波器组合成从IMDCT
单元304-1至304-(N-1)和立体声编码单元305提供的右音频信号的所有子
频带信号,并且生成整个频率频带右音频信号XR。另外,右合成滤波器
组输出该整个频率频带右音频信号XR。
<第四实施例>
[根据第四实施例的语音处理装置的配置例子]
图19是图示了根据第四实施例应用本发明的语音处理装置的配置例
子的框图。
对与图15中所示配置相同的图19中所示配置分配相同标号。将适当
省略重复描述。
图19中的语音处理装置400的配置与图15中的配置主要不同在于设
置了频谱分离单元401而不是频带划分单元201,设置了IMDCT 402和
403而不是IMDCT单元202,并且设置了加法器404和加法器405而不
是加法器203和加法器204。
语音处理装置400对如下编码数据进行解码,针对该编码数据执行强
度编码,并且在该编码数据上代替常规的声道间频率频谱系数的水平比
值、复用在与强度开始频率Fis相等或者比强度开始频率Fis更大的频率
的BC参数。
也就是说,语音处理装置400解码的编码数据由如下编码装置生成,
该编码装置例如通过将编码对象立体声信号下混合成单耳信号XM并且例
如借助带通滤波器提取所得单耳信号XM和在与编码对象立体声信号的强
度开始频率Fis相等或者比强度开始频率Fis更大的频率处的分量来检测
BC参数。
语音处理装置400的频谱分离单元401(分离单元)获得频谱逆量化
单元53恢复的频率频谱系数。频谱分离单元401将该频率频谱系数分离
成在比强度开始频率Fis更低的频率的立体声信号的频率频谱系数和在与
强度开始频率Fis相等或者比强度开始频率Fis更大的频率的单耳信号
XMhigh的频率频谱系数。频谱分离单元401向IMDCT单元402提供在比
强度开始频率Fis更低的频率处的立体声信号的左音频信号XLlow的频率
频谱系数,并且向IMDCT单元403提供右音频信号XRlow的频率频谱系
数。另外,频谱分离单元401向不相关频率-时间变换单元102提供单耳
信号XMhigh的频率频谱系数。
IMDCT单元402(第三变换单元)执行从频谱分离单元401提供的
左音频信号XLlow的频率频谱系数的IMDCT,并且向加法器404提供所
得左音频信号XLlow。
IMDCT单元403(第三变换单元)执行从频谱分离单元401提供的
的右音频信号XRlow的频率频谱系数的IMDCT,并且向加法器405提供
所得右音频信号XRlow。
加法器404(加法单元)将左音频信号XLhigh(该信号由立体声合成
单元103生成并且是在与强度开始频率Fis相等或者比强度开始频率Fis
更大的频率处的时域信号)与从IMDCT单元402提供的左音频信号XLlow
相加。加法器404输出所得音频信号作为整个频率频带左音频信号XL。
加法器405(加法单元)将右音频信号XRhigh(该信号由立体声合成
单元103生成并且是在与强度开始频率Fis相等或者比强度开始频率Fis
更大的频率处的时域信号)与从IMDCT单元402提供的右音频信号XRlow
相加。加法器405输出所得音频信号作为整个频率频带右音频信号XR。
如上文描述的那样,语音处理装置400使用在强度编码数据上复用的
BC参数、对通过强度编码来单耳编码的与强度开始频率Fis相等或者比
强度开始频率Fis更大的频率的分量进行立体声编码。因此,与使用常规
的声道间频率频谱系数水平比值来执行立体声编码的强度解码装置相比
有可能恢复与强度开始频率Fis相等或者比强度开始频率Fis更大的频率
的分量的立体声效果。
[语音处理装置的处理描述]
图20是用于描述图19中的语音处理装置400的解码处理的流程图。
例如当输入编码数据(对该编码数据进行强度编码并且在该编码数据上复
用与强度开始频率Fis相等或者比强度开始频率Fis更大的频率的BC参
数)时开始这一解码处理。
图20中的步骤S71至S73中的处理与图16中的步骤S31至S33中
的处理相同,因此不再描述。
在步骤S74,频谱分离单元401将频谱逆量化单元53恢复的频率频
谱系数分离成在比强度开始频率Fis更低的频率处的立体声信号的频率频
谱系数和在与强度开始频率Fis相等或者比强度开始频率Fis更大的频率
处的单耳信号XMhigh的频率频谱系数。频谱分离单元401向IMDCT单元
402提供在比强度开始频率Fis更低的频率处的立体声信号的左音频信号
XLlow的频率频谱系数,并且向IMDCT单元403提供右音频信号XRlow的
频率频谱系数。另外,频谱分离单元401向不相关频率-时间变换单元102
提供单耳信号XMhigh的频率频谱系数。
在步骤S75中,IMDCT单元402执行从频谱分离单元401提供的左
音频信号XLlow的频率频谱系数的IMDCT。另外,IMDCT单元402向加
法器404提供所得左音频信号XLlow。
在步骤S76中,IMDCT单元402执行从频谱分离单元401提供的右
音频信号XRlow的频率频谱系数的IMDCT。另外,IMDCT单元403向加
法器405提供所得右音频信号XRlow。
在步骤S77中,不相关频率-时间变换单元102、立体声合成单元103
和生成参数计算单元104执行来自频率分离单元401的单耳信号XMhigh
的频率频谱系数的立体声信号生成处理。向加法器404提供所得左音频信
号XLhigh(该信号是时域信号),并且向加法器405提供右音频信号XRhigh。
在步骤S78中,加法器404将来自IMDCT单元402的在比强度开始
频率Fis更低的频率处的左音频信号XLlow与来自立体声合成单元103的
在与强度开始频率Fis相等或者比强度开始频率Fis更大的频率处的左音
频信号XLhigh相加,并且生成整个频率频带左音频信号XL。进一步地,
加法器404输出该左音频信号XL。
在步骤S79中,加法器405将来自IMDCT单元403的在比强度开始
频率Fis更低的频率处的右音频信号XRlow与来自立体声合成单元103的
在与强度开始频率Fis相等或者比强度开始频率Fis更大的频率处的右音
频信号XRhigh相加,并且生成整个频率频带右音频信号XR。进一步地,
加法器405输出该右音频信号XR。
此外,虽然就上文描述而言语音处理装置100(200、300和400)对
由MDCT进行时间-频率变换的编码数据进行解码,且因此在频率-时间
变换时执行IMDCT,但是当对由MDST进行时间-频率变换的编码数据
进行解码时在频率-时间变换时执行IMDST。
另外,虽然就上文描述而言不相关时间-频率变换单元102使用基底
相互正交的IMDCT变换和IMDST变换,但是可以使用其它重叠正交变
换(比如正弦变换或者余弦变换)。
[应用本发明的计算机的描述]
接着,可通过硬件或软件执行系列上述处理。当系列处理由软件执行
时,例如向通用计算机安装配置该软件的程序。
图21图示了根据实施例安装有用于执行系列上述处理的程序的计算
机的配置例子。
程序可以预先记录于存储器单元508或者ROM(只读存储器)502
中(该存储器单元或者ROM是内置于计算机中的记录介质)。
取而代之,程序可以存储(记录)于可移除介质511中。可以作为所
谓的包软件来提供该可移除介质511。同时,可移除介质511例如包括软
盘、CD-ROM(光盘只读存储器)、MO(光磁)盘、DVD(数字万用盘)、
磁盘和半导体存储器。
此外,可以通过驱动510从上述可移除介质511向计算机安装程序,
并且此外还可以通过通信网络或者广播网络向计算机下载或者在内置存
储器单元508中安装程序。也就是说,例如可以通过数字卫星广播卫星从
下载站点向计算机无线传送程序,或者可以通过网络(比如LAN(局域
网)或者因特网)借助线缆向计算机传送程序。
计算机具有内置CPU(中央处理单元)501,并且CPU 501通过总
线504来与输入/输出接口505连接。
CPU 501例如根据用户通过输入/输出接口505对输入单元506的操
作在接收命令的输入时根据命令执行ROM 502中存储的程序。取而代之,
CPU 501向RAM(随机存取存储器)503加载存储器单元508中存储的
程序并且执行该程序。
因此,CPU 501执行根据上述流程图的处理或者通过上述框图中的配
置执行的处理。另外,CPU 501通过输入/输出接口505从输出单元507
输出该处理结果、从通信单元509发送处理结果或将该处理结果记录在存
储器单元508中。
此外,输入单元506包括键盘、鼠标或者麦克风。另外,输出单元
507包括LCD(液晶显示器)或者扬声器。
同时,在本说明书中,不一定需要按照流程图中公开的时间顺序执行
计算机根据程序执行的处理。也就是说,计算机根据程序执行的处理包括
并行或者单独地执行的处理(比如并行处理或者根据对象的处理)。
另外,程序可以由一个计算机(处理器)处理或者以分布方式由多个
计算机处理。另外,可以将程序传送到远程计算机并执行该程序。
本发明可应用于一种用于音频信号的伪立体声编码技术。
本发明的实施例决不限于上述实施例,并且可以在不脱离本发明的精
神的范围内进行各种修改。
标号列表
54 IMDCT单元
100 语音处理装置
101 逆复用单元
103 立体声合成单元
111 IMDST单元
121 频谱反转单元
122 IMDCT单元
123 符号反转单元
200 语音处理装置
201 频带划分单元
202 IMDCT单元
203,204 加法器
300 语音处理装置
301 逆复用单元
304-1至304-N IMDCT单元
305 立体声编码单元
306 合成滤波器组
400 语音处理装置
401 频谱分离单元
402,403 IMDCT单元
404,405 加法器