信号编码方法和装置.pdf

上传人:62****3 文档编号:704346 上传时间:2018-03-06 格式:PDF 页数:54 大小:2.10MB
返回 下载 相关 举报
摘要
申请专利号:

CN96121964.5

申请日:

1996.10.26

公开号:

CN1154013A

公开日:

1997.07.09

当前法律状态:

终止

有效性:

无权

法律详情:

未缴年费专利权终止IPC(主分类):H03M 7/00申请日:19961026授权公告日:20021211终止日期:20131026|||授权||||||公开

IPC分类号:

H03M7/00

主分类号:

H03M7/00

申请人:

索尼公司;

发明人:

松本淳; 大森士郎; 西口正之; 饭岛和幸

地址:

日本东京都

优先权:

1995.10.26 JP 302199/95; 1995.10.26 JP 302130/95

专利代理机构:

中国专利代理(香港)有限公司

代理人:

邹光新;王岳

PDF下载: PDF下载
内容摘要

对输入信号,例如宽范围语音信号进行编码的方法和装置,其中可用不同的位率进行多种译码操作,以便使甚至用低位率再现的声音的变差减至最小。该信号编码方法包括,波段分离步骤,用于将输入信号分离成若干波段,和依据各波段中的信号特征以不同方法对各波段信号进行编码的方法。特别是,低范围侧信号通过低通滤波器102从端101输入的输入信号中取出,和通过LPC分解量化单元130进行LPC分解。

权利要求书

1: 一种信号编码方法,包括: 将输入信号分离成若干波段的波段分离步骤;和 依据各波段的信号特征以不同方法对各波段信号进行编码的步骤。
2: 根据权利要求1的信号编码方法,其中所述波段分离步骤将具有宽于 电话波段的一波段的输入语音信号分离成至少第1波段的若干信号和第2波段 的若干信号。
3: 根据权利要求1的信号编码方法,其中所述第1和第2波段的较低侧 的波段的信号用短项预测码和正交变换码相结合的编码进行编码。
4: 根据权利1的信号编码方法,包括: 在所述第1和第2波段的一个中较低侧的信号上进行短项预测以便确定短 项预测余项的短项预测步骤; 在这样确定的短项预测余项上进行长项序测以便确定长项预测余项的长项 预测步骤;和 对这样确定的长项预测余项上进行正交变换的正交变换步骤。
5: 根据权利要求1的信号编码方法,进一步包括: 在由所述正交变换步骤获得的正交变换系数的基础上在频率轴上进行感性 加权量化的步骤。
6: 根据权利要求4的信号编码方法,其中改进的离散余弦变换( MDCT)被用于正交变换步骤,和其中的变换长度要稍短并被选定为2的幂。
7: 根据权利要求4的信号编码方法,其中所述第1和第2波段中的一个 的较高侧信号用短项预测码进行处理。
8: 一种信号编码装置,包括: 波段分离装置,用于将输入信号分离成若干波段;和 编码装置,用于对应于波段的信号特征以不同方法对所述分离的各波段的 信号进行编码,对分离波段中的一个的第1信号和其它分离波段的第2信号中 除同所述第1信号共同占有部分的部分进行复用。
9: 根据权利要求8的信号编码装置,其中所述波段分离装置将宽波段输 入信号分离成至少一电话波段信号和高于电话波段侧的信号。
10: 根据权利要求8的信号编码装置,其中所述编码装置包括: 通过在分离波段中的一个的较低侧的信号上执行短项预测以便确定短项预 测余项的装置; 通过在这样确定的短项预测余项上执行长项预测以便确定长项预测余项的 装置;和 对这样确定的长项预测余项进行正交变换的正交变换装置。
11: 一种便携无线电终端装置,包括: 放大装置,用于放大输入语音信号; A/D转换器装置,用于对放大的信号进行A/D转换; 语音编码装置,用于对所述A/D转换装置的输出进行编码; 传输路径编码装置,用于对所述编码信号进行信道译码; 调制装置,用于对所述传输路径编码装置的输出进行调制; D/A转换装置,用对所述调制信号进行D/A转换;和 放大装置,用于对来自D/A转换装置的信号进行放大,并把放大信号送 到天线; 其中所述语音编码装置包括: 波段分离装置,用于将输入信号分离成若干波段;和 编码装置,用于相应于该波段的信号特征以不同方法对所述分离波段的信 号进行编码,其中该波段是,对分离波段的一个的第1信号和其它分离波段的 第2信号中除与所述第1信号共同占有的部分的部分进行复用。
12: 用于复用一编码信号的方法包括: 采用利用第1位率的第1编码对输入信号进行编码,以便产生第1编码信 号的步骤; 采用第二编码对所述输入信号进行编码,以便产生一第2编码信号的步骤, 所述第2编码具有与所述第1编码仅只一部分是共同的一部分和与所述第1编 码不是共同的一部分,所述第2编码利用的第2位率不同于用于第1编码的位 率;和 对所述第1编码信号和所述第2编码信号中除与所述第1编码共同占有的 部分的部分进行复用的步骤。
13: 根据权利要求11的复用方法,其中通过对粗略分离成电话波段信 号的信号和高于电话波段的频率的信号的宽波段输入信号进行编码而获得所述 第2编码信号。
14: 根据权利要求11的复用方法,其中所述共同部分是从输入信号的 线性预测参数中导出的编码信号。
15: 根据权利要求11的复用方法,其中所述共同部分是在随着代表线 性预测系数的参数的量化在所述输入信号的线性预测分解基础上获得的数据。
16: 一种用于复用编码信号的装置包括: 对输入信号利用第1位率在第1编码的基础上获得的第1编码信号和对输 入信号在第2编码基础上获得的第2编码信号进行复用的装置,所述第2编码 具有与所述第1编码的仅只一部分是共同的部分和与所述第1编码不是共同的 部分;所述复用是以这样的方式进行,即所述第1编码信号与第2编码信号中 除与第1编码信号共同占有的部分的部分进行复用。
17: 一种便携无线电终端装置,包括: 放大装置,用对输入语音信号进行放大; A/D转换装置,用于对放大的信号进行A/D转换; 语音编码装置,用于对所述A/D转换装置的输出进行编码; 传输路径编码装置,用对所述编码信号进行信道译码; 调制装置,用于对所述传输路径编码装置的输出进行调制; D/A转换装置,用于对所述调制的信号进行D/A转换;和 放大装置,用于对来自所述D/A转换装置的信号进行放大并将放大的信 号送到天线。 其中所述语音编码装置进一步包括: 对在利用第1位率的输入信号在第1编码的基础上获得的第1编码信号和 在输入信号的第2编码基础上获得的第2编码信号进行复用的装置,所述第2 编码具有与所述第1编码的仅只一部分共同的部分和与所述第1编码不是共同 部分的部分,所述第2编码利用的第2位率不同于用于所述第1编码的位率; 和 对所述第1编码信号和第2编码信号中除与所述第1编码信号共同占有的 部分的部分进行复用的装置。

说明书


信号编码方法和装置

    本发明涉及对输入信号,例如,宽范围的语音信号,进行编码的方法和装置,特别涉及一种信号编码方法和装置,其中频谱被分离为作为语音来说能够获得足够清晰度的电话波段和该剩余的波段,其中的信号编码能够通过与相关的电话波段那样长的独立码加以实现。

    现在已知通过利用对声音信号的统计特性和人的音质特点对包括语音和声学信号的音频信号进行压缩的各种方法。编码方法可以粗分为时间轴编码,频率轴编码和分解合成编码。

    用于对语音信号等进行高效编码的已有技术中,有谐波编码,正弦分解编码,例如,多波段的激励(MBE)编码,付波段编码(SBC),线性予测码(LPC),离散余弦变换(DCT),改进的DCT(MDCT)和快速付利叶变换(FFT)。

    迄今已知的还有,在编码的前将输入信号分离为若干个波段的编码技术。然而,由于对低频范围的编码是采用对高频范围编码的相同的统一方法,这其中有这样地原因存在,适于低频范围信号的编码方法对于高频范围信号的编码效率则不足,反之亦然。特别是,当信号以低位率被传输时,最佳的编码偶尔也不能进行。

    虽然现在在使用中各种信号译码装置被设计成以多种不同位率操作,对于不同位率使用不同的装置是很不方便的,也就是希望能使用单一的装置对若干不同位率的信号进行编码和译码。

    其间,当前最迫切的是,接收具有高位率的自身具有可测量性的位流时,如果位流被直接译码,可得到高质量信号,然而,如果对位流的指定段译码,则产生低声音质量的信号。

    至此,将被处理的信号在编码侧被粗略量化,以产生低位率的位流,对该位流而言,在量化中产生的量化误差被进一步加以量化并加于该低位率的位流上,以产生高位率的位流。在此情况,如果编码方法实质上保持一样,那么位流能具有如上所述的可测量性,那就是,当低位率信号能被取出再现并对位流的部分译码,那么,通过译码该高位率位流就可直接获得高质量信号。

    然而,当维持有可测量性时,如果希望对例如2kbps,6kps和16kbps的3位率的语音进行编码的话,则不容易构成上述完整的全包括的关系。

    即,对于尽可能的高信号质量的编码来说,波形编码最好用高位率进行,如果波形编码不能平滑地实现,那么编码将利用用于低位率的模式进行。在上述包括的关系中,由于用于编码的信息的差别,高位率中包含了不能实现的低位率。

    从而本发明的目的是提供一种语音编码方法和装置,其中,用于编码的波段分离中,用少量位数就能产生高质量的播放语音,和对于予置波段的信号编码,例如电话波段,能用单独的码实现。

    本发明的另一个目的是提供一种用于多路编码的信号的方法,其中,由于位率上的重大差别而不能通过同一方法编码的若干信号使之适合于尽可能多的共同信息并通过保证有测量性的实质不同的方法进行编码。

    本发明还有另一个目的是提供一种利用用于多路编码的信号的多路方法的信号编码装置。

    另外,所提供的信号编码方法包括将输入信号分离成若干波段并依据各波段的信号特征以不同的方法,对各波段的信号进行编码的波段分离步骤。

    另一方面,本发明提供的用于多路编码的信号的方法和装置具有若干语音编码装置,依次具有的装置有,用于对在利用第1位率对输入信号进行第1编码的基础上获得的第1编码的信号和对输入信号进行第2编码的基础上获得的第2编码的信号进行多路的装置,和用于多路第1编码的信号和第2编码的信号中除了与第1编码信号共同占有的部分之外的部分的装置。第2编码具有仅仅和第1编码的一部分公共的一部分并没同第1编码公共的部分。该第2编码利用的是与用于第1编码的位率不同的第2位率。

    根据本发明,输入信号被分离成若干波段和这样被分离的各波段的信号依据各分离波段的信号特征以不同的方式被编码。译码器能以不同速率操作,对于每一波段能以最佳效率进行编码,这样就改进了编码效率。

    通过在波段中的一个的较低一侧的信号上进行短项预测,以确定短项预测余项,在这样确定短项预测余项的基础上进行长项预测,对这样确定的长项预测余项进行正交变换,这样达到较高的编码效率并可实现高质量的语音再现。

    还有,根据本发明,要取出至少一个波段,将这样取出的波段信号正交变换为频率域信号。该正交变换信号在频率轴上被移动到另一位置或另一波段,随后逆正交变换为时间域信号,该时间域信号被编码。这样任意频率波段的信号被取出并反转为低范围一侧,以便用低采样频率进行编码。

    另外,从任意频率可以产生任意频率宽度的付波段,以便于用两倍于频率宽度的采样频率加以处理,这样能使得灵活处理的应用。

    图1是用于执行本发明编码方法的语音信号编码装置的基本结构的方框图;

    图2是用于描述语音信号译码装置的基本结构的方框图;

    图3是另一种语音信号编码装置的结构的方框图;

    图4是描述被传输的编码数据的位流的可测量性;

    图5是根据本发明的编码一侧的整个系统的简略方框图;

    图6A、6B和6C是用于编码和译码的主要操作的周期和相位;

    图7A和7B是MSDCT系数的矢量量化;

    图8A和8B是应用于后滤波器输出的窗口功能的举例;

    图9是具有两类码本的矢量量化装置;

    图10是具有两类码本的矢量量化装置的详细结构的方框图;

    图11是具有两类码本的11H矢量量化装置的另一详细结构的方框图;

    图12是用于频率转换的编码器的结构方框图;

    图13A、13B是描述帧分离和重叠和加操作;

    图14A,14B和14C是描述在频率轴上的频率举例;

    图15A和15B是描述在频率轴上的数据位移;

    图16是用于频率转换的译码器的结构方框图;

    图17A,17B和17C是在频率轴上频移的另一举例;

    图18是利用本发明语音编码装置的便携终端的传输一侧的结构方框图;

    图19是与利用与图18相关的语音信号译码装置的便携终接收侧的结构方框图。

    现在详细描述本发明的最佳实施例。

    图1是用于执行本发明语音编码方法的宽范围语音信号的编码装置(编码器)。

    图1所示编码器的基本概念是,将输入信号分离为若干波段和分离的波段信号依各自波段的信号特征以不同方式编码。特别是,输入语音信号的宽范围的频谱被分离为若干波段,即能达到对于语音来说足够清晰度的电话波段,和相关于电话波段较高侧波段。在短项预测,例如,在随后将通过例如音调(pitch)预测的长项预测的线性预测编码(LPC)之后,该较低波段的信号,即电话波段被正交变换,和,在正交变换获得的系数利用感性加权矢量量化加以处理。相关于长项预测的信息,例如音调或音调增益,或代表短项预测系数的参数,例如LPC系数,也被加以量化。高于电话波段的波段信号利用短项预测处理,然后在时间轴上直接矢量量化。

    改进的DCT(MDCT)被用作为正交变换。转换长度被弄短是为了便于对矢量量化的加权。另外,转换长度被置于2N,即等于2的幂的值,以便使得能利用快速付利叶变换(FFT)达到高处理速度。用于对正交转换系数的矢量量化计算加权和用于对短项预测计算余项(类似于对后滤波)的LPC系数是来自在当前帧确定的LPC系数和在过去帧确定的那些被平滑插入的LPC系数,这样的LPC系数对于分解每个付帧将是最佳的。在进行长项预测中,对每帧执行一定次数的预测或插入,其结果的音调延迟或音调增益被直接量化或找到差后量化。另外,还可传输标志指定的插入方法。对于预测余项该随着预测次数(频率)增加而变小的变更来说,对于正交变换系数的差的量化执行多级矢量量化。另外,仅利用分离波段中单一波段的参数用于使通过单一的编码的位流的全部或部分以不同的位率的若干个译码操作。

    参看图1。

    图1的输入端101被提供一定范围的,例如0至8KHz并具有,例如16kHz采样频率FS的宽波段语音信号。来自输入端101的宽波段语音信号通过低通滤波器102和减法器106被分离成例如0至3.8kHz的低范围的电话波段信号和例如从3.8kHz至8kHz的范围信号的高范围信号。该低范围信号通过采样频率转换器103在能满足其中所提供的,例如8kHz采样信号在其中采样的范围内进行+中取-采样。

    该低范围信号通过LPC分解量化单元130利用Hamming窗口依,例如每单元256个采样的序列分解长度进行倍增。该LPC系数,例如10阶(Order),即α参数被确定,和通过LPC逆滤波器111确定LPC余项。在LPS分解期间,每个单元的256采样的96个是作为用于分解的单元的函数被重叠在下一单元,以便于使帧间隔变成等于160采样。用于8kHz采样的帧间隔是20msec。LPC分解量化单元130将作为LPC系数的α参数转换为线性频谱对(LSP)参数,然后加以量化和传输。

    特别是,在LPC分解量化单元130中的LPC分解电路132将从采样频率转换器103馈入的低范围信号提供给Hamming窗口,成为作为一个单元的输入信号波形的256个采样序列长列的输入信号波形,以便于通过相关方法确定线性预测系数,即所谓的α参数。作为一数据输出单元的帧间隔是例如20msec或160采样。

    来自LPC分解电路132的α参数被送到α-LSP转换电路133,以便转换为线性频谱对参数(LSP)。那就是,作为直接型滤波系数确定的α参数被转换为,例如,10LSP参数或5对LSP参数。利用例如N ewton-Rnapson方法执行这一转换。转换成LSP参数的理由在于在插入特征中LSP参数优于α参数。

    来自α-LSP转换电路133的LSP参数是矢量或LSP量化器134量化的矩阵。在确定帧内差之后可以执行矢量量化,而矩阵量化可以在若干帧在一起成组的被执行。在本实施例中,20msec是1帧和LSP参数的2帧,每20msec计算的每一个在一起成组并由矩阵矢量加以量化。

    LSP量化器134的量化输出,即LSP矢量量化的指数经由终端131被取出,而量化的LSP参数,或量化的输出被送到LSP插入电路136。

    LSP插入电路136的功能是插入一组由LSP量化器134每20msec矢量量化的LSP矢量的当前帧和一以前帧,以便提供用于连续处理所需的速率。在本实施例中,使用8倍率和5倍率。采用8倍率,LSP参数更新为每2.5msec。理由在于,由于余项波形的分解合成处理导致合成波形的包迹的极平滑的波形,如果LPC系数每20msec迅速变化会产生附加声音。即,如果LPC系数被每2.5msec逐渐变化,这样可以防止其中附加声音的产生。

    利用每2.5msec出现的插入LSP矢量对输入语音进行逆滤波,该LSP参数通过LSP至α转换电路137被转换成是直接型滤波系数的,例如,近似于10阶的α参数。到α转换电路137的LSP的输出被送到LPC逆滤波电路111,由于确定LPC余项。该LPC逆滤波电路111在更新为每2.5msec的α参数上执行逆滤波,以便产生平滑输出。

    在4msec间隔处的由LSP插入电路136以5倍率插入的LSP参数被送到LSP至α转换电路138,在那里被转换成α参数。这些α参数被送到矢量量化(VQ)加权计算电路139,用于计算在MDCT系数的量化中使用的加权。

    LPC逆滤波器111的输出被送到音调逆滤波器112,122,以用于长项预测的音调预测。

    现在说明长项预测,该长项预测是通过利用从原始波形中减去对应于由音调分解所确定的音调延迟或音调周期量的在时间轴上移位的波形而确定的音调预测余项来执行的。在本实施例中,是利用3点音调预测执行长项预测。另外,音调延迟音味着是对应于采样时间域数据的音调周期的采样数。

    音调分解电路115对每帧执行一次音调分解,即随着一帧的分解长度。作为音调分解的结果,音调延迟L1被送到音调逆滤波器112并送到输出端142,而音调增益被送到音调增益矢量量化(VQ)电路116。在音调增益VQ电路116中,3点预测的3点处的音调增益值被矢量量化和码本索引g1被从输出端143取出,代表值矢量或去量化输出被送到逆音调滤波器115,减法器117和加法器127中的每一个。逆音调滤波器112在音调分析结果基础上输出3点预测的音调预测余项。预测余项被送到,例如,作为正交变换装置的MDCT电路113。该结果的MDCT输出通过量化(VQ)电路114用感性加权矢量量化加以量化。该MDCT输出通过利用VQ加权计算电路139的一个输出由矢量量化(VQ)电路114用感性加权矢量化加以量化。VQ电路114的输出,即索引IdxVq1被在输出端141输出。

    在本实施例中,音调逆滤波器122,音调分解电路124和音调增益VQ电路126被提供作为分别的音调预测信道。在每个音调分解中心的中间位置处设置分解中心,以便通过音调分解电路125在一半周期处执行音调分解。音调分解电路125选定音调延迟L2到逆音调滤波器122并送到输出端145,选定音调增益到音调增益VQ电路126。音调增益VQ电路126对3点音调增益矢量进行矢量量化并将音调增益的索引g2作为量化输出送到输出端144,而选定它的代表矢量或反矢量输出到减法器117。由于在原始帧周期的分解中心处的音调增益被设计为紧靠近来自音调增益VQ电路116的音调增益,音调增益VQ电路116,126去量化输出的差由减法器117取出作为上述分解位中心处的音调增益。该差通过音调增益VQ电路118进行矢量量化,以便产生将被送到输出端146的音调增益差的索引g1d。代表矢量或音调增益差的去量化输出被送到加法器127并总和到来自音调增益VQ电路126的代表矢量或去量化输出。总和的结果作为音调增益被送到逆音调滤波器122。同时,该在输出端143获得的音调增益的索引g2就是在上述中间位置处的音调增益的索引。来自逆音调滤波器122的音调预测余项通MDCT电路123进行MDCT,并送到减法器128,在这里来自矢量(VA)量化电路114的代表矢量或去量化输出被从MDCT输出中减去。结果差被送到VQ电路124进行矢量量化,以产生将被送到输出端147的索引IdxBq2。该VQ电路利用VQ加权计算电路139的输出,通过感性加权矢量量化对差信号进行量化。

    现在说明高范围信号处理。

    对高范围信号的信号处理的基本组成是,将输入信号的频谱分离为若干波段,至少一个高范围波段的信号的频率转换到低范围侧,通过预测编码将信号的采样率转换到低频率侧和对采样率低的信号进行编码。

    提供给图1的输入端101的宽范围信号被送到减法器106。通过低滤波器(LPF)102取出的低范围侧信号,例如范围在例如从0至3.8kHz的电话波段信号被从宽波段信号中减去。该减法器106输出高范围侧信号,例如范围从3.8至8kHz的信号。然而,由于实际的LPE102的特征,低于3.8kHz的成分只有少量留在减法器106的输出中。这样,高范围侧信号处理是在成分不低于3.5kHz,或成分不低于3.4kHz的情况下进行的。

    高范围信号具有来自减法器106的从3.5kHz至8kHz的频率宽度;即4.5kHz宽度。然而,由于通过,例如对低范围侧的下采样,频率被位移和转换,它就必须把频率范围弄窄到,例如4kHz。考虑到以后高范围信号与低范围信号相结合,稍后的3.5kHz至4kHz范围,从感性感觉上它没有截止,和从7.5kHz至8kHz范围的0.5kHz在能量(power)上较低,和对于语音信号来说音质也缺少极限,它的切去由LPF或带通滤波器107)进行。

    将要进行的将频率转换成低范围侧是利用正交变换装置,例如快速付利叶变换(FFT)电路166,通过将数据转换成频率域数据来实现的,通过频率移位电路162移位该频率域数据,利用作为逆正交变换装置的逆FFT电路164进行逆FFT该结果的频率移位数据。

    通过逆FFT电路164,将例如从3.5kHz至7.5kHz转换成从0至4kHz的低范围侧的输入信号的高范围侧取出。由于该信号的采样频率能由8kHz代表,通过下采样电路164进行下采样,以形成从3.5kHz至7.5kHz范围并具有8kHz采样频率的信号。下采样电路164的输出被送到LPC逆滤波器1701和送到LPC分解量化单元180的LPC分解电路182中的每一个。

    LPC分分解量化单元180,其结构类似于低范围侧的LPC分解量化单元130,现在仅简略解释。

    在LPC分解量化单元180中,从下采样电路164中被提一信号并转换为低范围侧的LPC分解电路182提供一Hamming窗口,将输入信号波形的256采样序列长度作为一个单元,并通过,例如自相关方法确定线性预测系数,即α参数。来自LPC分解电路182的α参数送到-α至LSP转换电路183,以便将其转换成线性频谱对(LSP)参数。来自α至LSP转换电路183的LSP参数是通过LSP量化器184进行过的矢量或矩阵量化的。在此时,先于矢量量化之前可以确定帧内差。另外,若干帧可以一起成组并由矩阵矢量加以量化。在本实施例中,计算为每20msec的LSP参数用20msec作为1帧加以矢量量化。

    LSP量化器184的量化输出,即索引LSPidxH被在终端181取出,而量化的LSP矢量或去量化的输出,被送到LSP插入电路186。

    LSP内插电路186的功能是插入一组LSP的先前帧和当前帧,以便通过量化器184每20msec进行一次矢量量化的矢量,并提供连续处理所必须的速率。在本实施例中使用4倍率。

    利用插入的LSP矢量对输入语音信号的逆滤波在5msec的间隔处出现,该LSP参数通过LSP至α转换电路187被转换为作为LPC分解滤波系数的α参数。该LSP至α转换电路187的输出被送到LPC逆滤波电路171,用于确定LPC余项。该LPC逆滤波电路171利用α参数以更新为每5msec一次进行逆滤波,以便产生平滑输出。

    来自逆滤波器171的LPC预测余项输出被送到LPC余项VQ(矢量量化)电路172,以便矢量量化。该LPC逆滤波器171输出一LPC余项的索引LPCidx,并在输出端173输出。

    在上述信号编码器中,低范围侧的配置的部分被设计成独立码编码器,或整个输出的位流被转换成其中的一部分,或者相反,使信号的传输或译码用不同的位率。

    当从图1配置的各输出端传输所有数据时,传输位率变成等于16kbps(k位/秒)。如果从部分终端传输,那么传输位率变成等于6kbps。

    另外,如果从图1所有终端传输所有数据,即送出或记录,和所有16kbps数据在接收或再现侧被译码,那么可以产生高质量的16kpbs的语音信号。另外,如果对6kbps数据译码,那么可以产生具有对应于6kbps的质量声音的语音信号。

    在图1配置中,如果在输出端144至147,173至181的输出数据被加到相应于6kbps数据的输出端131和141至143的输出数据上,那么可以获得全部的16kbps的数据。

    参考图2,现在解释作为图1编码器配对物的信号译码装置(译码器)。

    参考图2,等效于图1的输出端131的输出的LSP的矢量量化输出,即码本LSPidx的索引被送到输入端200。

    LSP索引LSPidx被送到逆矢量量化(逆VQ)电路241,用于LSP参数再现单元240的LSPs以便将逆矢量量化或逆矩阵量化转换成线性频谱对(LSP)数。这样量化的LSP索引被送到LSP内插电路242,以用于LSP的插入。该插入的数据在LSP至α转换电路243中被转换成作为LPC系数的α参数,然后被送到LPC合成滤波器215,225和送到音调频谱后滤波器216,226。

    在图4的输入端201,202和203提供索引IsxVq1,用于分别来自输出端141,142,143的MDCT系数,音调延迟L1和音调增益g1的矢量量化。

    用于来自输入端201的MDCT系数IsxVq1的矢量量化的索引被送到逆VQ电路211,用于逆VQ和从那以后送到逆MDCT电路212,用于逆MDCT,然后通过重叠和加电路213进行重叠加,和并送到音调分解滤波器214。分别从输入端202,203将音调延迟L1和音调增益g1送到音调合成电路214。该音调合成电路214对由图1的音调逆滤波器215完成的音调预测编码进行逆操作。结果信号被送到LPC分合成波器215并由LPC合成处理。该LPC合成输出被送到音调频谱后滤波器216,用于后滤波,然后在输出端219被取出作为相应于6kbps位率的语音信号。

    对图4的输入端204,205,206和207分别提供音调增益g2,音调延迟L2,索引ISgVq2和音调增益g1d,以用于对分别来自输出端144,145,146和147的MDCT系数进分矢量量化。

    用于对来自输入端207的MDCT系数进行矢量量化的索引IsxVq2被送到逆VQ电路220,以便用于矢量量化,和从这里再送到加法器221,这样形成和成为来自逆VQ电路211的逆VQed MPCT系数。结果信号通过逆MDCT电路222被逆MDCTed和在重叠和加电路223中进行重叠加,再送到音调合成滤波器214。对该音调合成滤波器224分别提供来自输入端202,204和205的音调延迟L1,音调增益g2和音调延迟L2,和来自输入端203被和成来自加法器217的输入端206的音调增益g1d的音调增益g1的和信号。音调合成滤波器224合成音调余项。音调合成滤波器的输出被送到LPC合成滤波器225,用于LPC合成。LPC合成的输出被送到音调频率后滤波器226,用于后滤波。结果的后滤波信号被送到上采样电路227,用于采样频率从例如8kHz至16kHz的上采样,然后送到加法器228。

    对该输入端207还提供来自图1的输出端181的高范围侧的LSP索引LSPidxH。该LSP索引LSPidxH被送到逆VQ电路246,用于LSP参数再现单元245的LSP,以便逆矢量量化成LSP数据。这些LSP数据被送到LSP内插电路247,用于LSP插入。这些插入的数据通过LSP至α转换电路248转换成LPC系数的α参数。该α参数被送到高范围侧LPC合成滤波器232。

    对输入端209还提供索引LPCidx,即来自图1的输出端173的高范围侧LPC余项的矢量量化输出。该索引通过高范围侧逆VQ电路231被加以逆VQed和然后送到高范围侧LPC合成滤波器232。该高范围侧LPC分别滤波器232的LPC合成的输出具有通过从例如8kHz至16kHz的上采样电路233的上样的采样频率,并通过作为正交变换装置的FFT电路234进行的快速FFT而被转换成频率域数据。该结果的频率域信号然后通过频率位移电路235被频率移位到高范围侧和通过逆FFT电路236被逆FFT为高范围侧时间域的信号,然后经由重叠和加电路237送到加法器28。

    来自重叠和加电路物时间域信号通过加法器228求和成来自上采样电路227的信号。这样,在输出端229取出的输出是作为对应于16kbps的位率部分的语音信号。在求和成来自输出端219的信号之后,该整个16kbps位率信号被取出。

    现在说明可测量性。在图1和所示的结构中,6kbps和16kbps的两个传输位率是用对于实现可测量性来说实质上彼此类似的编码/译码系统实现的,其中,在该系统中6kbps位流被完全包括在16kbps位流中。如果编码/译码用所要求的2kbps的明显区别的位率,这样要达到完全包括的关系是困难的。

    如果不能应用相同的编码/译码系统,那就希望在实现可测量性方面保持最大限度的共同所有权关系。

    图3所示的编码器的终端被使用2kbps编码和最大共同拥有部分或共同拥有数据与图1的配置共用。整个16kbps位流被灵活使用,以便于总的16kbps,6kbps或2kbps能依据用法而被使用。

    特别是,总体2kbps的信息被用于2kbps编码,然而,在6kbps模式中,如果该帧作为一编码单元分别发声(V)和不发声,那么分别使用6kbps信息和5.65kbps信息。在16kbps模式中,如果该帧作为一编码单元被分别发声(V)和不发声(UV),那么使用15.2kbps信息和14.85kbps信息。

    现在说明图3所示的用于2kbps的编码配置的结构和操作。

    图3所示编码器的基本概念归于,该编码器包括:第一编码单元310,用于确定输入语音信号的短项预测余项,例如用于进行例如谐波码的余项分解编码的LPC余项;和第二编码单元320,用于通过利用输入语音信号的相位传输进行波形编码的编码。第一编码单元310和第二编码单元320分别被用于对输入信号发声部分编码和对输入信号不发声部分的编码。

    第一编码单元310使用利用正弦分解编码,例如谐波编码或多波段编码(MBE)对LPC余项进行编码的配置。第二编码单元320使用通过借助于综合方法的分解的最佳矢量的闭环搜索的矢量量化的代码激励线性预测(CELP)的配置。

    在图3的实施例中,提供到输入端301的语音信号被送到LPC逆滤波器311和到第一编码单元310的LPC分解量化单元313。由LPC分解量化单元313获得的LPC系数或称之为α的参数被送到LPC逆滤波器311,用于取出输入语音信号的线性预测余项(LPC余项)。稍后将说明LPC分解量化单元313取出线性频谱对(LSPS)的量化的输出。该量化的输出被送到输出端302。来自LPC逆滤波器311的LPC余项被送到正弦分解编码单元314,在这里检测音调并计算频谱包迹幅度。另外,通过V/UV鉴别单元315进行V/UV的鉴别。来自正弦分解编码单元314的频谱包迹幅度数据被送到矢量量化器316。来自矢量量化器316的码本索引作为频谱包迹的矢量量化输出,经由开关317被送到输出端303。正弦分解编码单元314的输出经由开关318被送到输出端304。V/UV鉴别单元315的V/UV的鉴别被送到输出端305,而且作为控制信号给开关317,318,如果输入信号是发声信号(V),索引引和音调被选出并分别送到输出端303,304。

    在本实施例中,图3的第二编码单元320具有CELP编码配置和通过利用综合方法的分解的闭环搜索的时间域波形执行矢量量化,其中通过加权的合成滤波器322合成噪声码本321的输出,结果的加权语音被送到减法器323,在这里从通过感性加权滤波器325提供到输入端301的通过的语音信号上所获得的语音中确定误差,该结果误差被送到距离计算电路324,用于距离计算和通过噪声码本321搜索最小化误差的矢量。该CELP编码被用于如上所述的无声部分的编码,以致于来自噪声码本321作为UV数据的码本索引经由开关327在输出端307被取出,这一切当来来V/UV自鉴别单元315的V/UV鉴别结果是指明UV时,就开始进行。

    上述编码器的LPC分解量化单元313可被用作为图1的LPC分解量化单元的部分,以致于终端302的输出可作用作为图1的音调分解电路115的输出。该音调分解电路115可以与正弦分解编码单元314中的音调输出部分共同使用。

    虽然图3的编码单元与图1的编码系统有不同之处,但两个系统都具有图4所示的共同信息和可测量性。

    参考图4;2kbps的位流S2具有不同于有声分解综合帧内结构的无声分解综合帧的内结构。这样的用于V的2kbps的位流S2v的组成是两部分S2ve和S2va,而用于UV的2kbPs的位流S2u的组成是两部分S2ue和S2ua。该部S2ve具有等于每帧每160采样1位(1位/160采样)的音调延迟和15位/160采样的幅度Am,总的是16位/160采样。这对应于用于采样频率8kHz的0.8kbps位率的数据。该部分S2ue的组成是11位/80采样的LPC余项和备用的1位/160采样,总的是23位/160采样。这对应于1.15kbps位率的位率的数据。剩余部分S2va和S2ua代表与6kbps和16kbps的共同部分或共同拥有部分。部分S2va的组成是,32位/320采样的LSP数据,1位/160采样的V/UV鉴别数据和7位/160采样的音调延迟,总的是24位/160采样。这对应于具有1.2kbps位率的位率的数据。部分S2ua的组成是,32位/320采样的LSP数据。和1位/160采样的V/UV鉴别数据,总的是17位/160采样。这对应于0.85kbps位率的位率的数据。

    类似于与有声分解帧的一个有部分不同的位流S2ame,用于V的6kbps的位流S6v的组成是两部分S5va和S6vb,而用于UV的6kbps的位流S6u的组成是两部分S6ua和S6ub。该部分S6va具有与部分S2va共同内容的数据,这如以前所说明。部分S6vb的组成是6位/160采的音调增益和18位/32采样的音调余项,总共是96位/160采样。这相应于4.8kbps位率的数据。部分S6ua具有与部分S2ua共同内容的数据,而部分S6ub具有与部分S6ub共同内容的数据。

    类似于位流S2和S6,16kbps的位流S16具有的用于无声分解帧的内结构,部分地不同于有声分解帧的内结构。用于V的16kpbs的位流和S16v的组成是S16va,S16vb,S16vc和S16vd4部分,而用于UV的16kbps的位流S16u的组成是S16ua,S16ub,S16uc和S16ud4部分。部分S16va具有与部分S2va共同内容的数据,而部分S16vb具有与部分S6vb,S6ub共同内容的数据。该部分S16vc的组成是,2位/160采样的音调延迟,11位/160采样的音调增益;18位/32采样的音调余项和1位/160采样的S/M模式数据,总和104位/160采样。这相应于5.2kbps位率。该S/M模式数据是用于两个不同类的用于语音和用于通过VQ电路124的音乐的码本之间的转换。该部分S16vd的组成是,5位/160采样的高范围PLC数据和15位/32采样的高范围LPC余项,总共是80位/160采样。这相应于4kbps的位率。部分S16ub具有与部分S2ua和S6ua共同内容的数据,而部S16ub具有与部分S16vb,即部分S6ub和S6ub共同内容的数据。另外,部分S16uc具有与部分S16vc共同内容的数据,而部分S16ud具有与部分S16vd共同内容的数据。

    获得上述如图5所示的位流的图1和3的配置。

    参考图5,对应于图1和3的输入端101的输入端11,进入输入端11的语音信号被送到对应于图1的LPF102的波段分离电路12,采样频率转换器103,减法器106和BPF107,这样被分离成低范围信号和高范围信号。来自波段分离电路12的低范围信号被送到2k编码单元21和等效于图3配置的公共部分编码单元22。该公共部分编码单元22粗略地等效于图1的LPC分解量化单元130或图3的LPC分解量化单元310。更有,在图3中的正弦分解编码单元的音调提取部分或图1的音调分解电路115也可被包括在公共部分编码单元22中。

    来自波段分离电路12的低范围侧信号被送到6k编码单元23和12k编码单元24 。该6k编码单元23和12k编码单元24分别粗略等效于图1的电路111至116和图1的电路117,118和122至128。

    来自段段分离电路12的高范围侧信号被送到高范围4k编码单元25。高范围4k编码单元25粗略对应于电路161至164,171和172。

    现在说明由图5的输出端31至35输出的位流和图4各部分的关系,即,图4的部分S2ve或S2ue的数据经由2k编码单元21的输出端31输出,而图4的部分S2va(=S6va=‖16va)或S2ua(=S6ua=S16ua)经由公共部分编码单元21的输出端32输出。更有图4的部分S6vb(=S16vb)或S6ub(=S16ub)的数据经由6k编码单元23的输出端33输出,而图4的部分S16vd或S16vd的数据经由12k编码单元24的输出端34输出,和图4的部分S16vd或S16ud的数据经由高范围4k编码单元25的输出端35输出。

    为于实现可测量性的上述技术可一般如下所述的:即,当对在输入信号的第1编码基础上获得的第1编码信号和在输入信号的第2编码的基础上获得的第2编码信号进行多路,以具有与该第1编码信号的部分相同的部分和另一与第1编码信号没有共同的另一部分,该第1编码信号用除了与第1编码信号共同部分的第2编码信号的该部分进行多路。

    在此方法中,如果两个编码系统是实质上不同的编码系统,能被公共处理的部分由两个系统联合占有,以用于达到可测量性。

    图1和2的各组成的操作将特别加以说明。

    假设如图6A所示,帧间隔是N采样,例如160采样,和每帧进行一次分解。

    如果,音调分解中心是t=KN,这里k=0.1,2,3,…,具有N维的矢量,当前的组成成分在来自LPC逆滤波器111的LPC预测余项的t=KN-N/2至KN+N/2中,该矢量是X,和具有N维的矢量,当前的组成成分是通过向前沿时间轴L采样而移位的t=KN-N/2+L至KN+N/2-L中,该矢量称之为XL,L=Lopt被用于最小化搜索。

    ‖X=gKL‖2该Lopt被用作为用于该域的最佳音调延迟L1。

    另外,在音调探索(tracking)之后获得的值可以被用作用于避免急剧音调变化的最佳音调延迟L1。

    其次,为该最佳音调延迟L1,g;最小化的设置D=||X‾-ΣI=11g1X‾L1+1||2]]>被用解这里i=-1,0,1,以便去确定音调增益矢量g-1。该音调增益矢量g-1被矢量量化给出代码索引g1。

    为进一步提高预测精度,可预想被放在分解中心附加在t=(k-1/2)N处,并假设预先已经确定用于t=KN和t=(k-1)N的音调延迟和音调增益。

    在语音信号情况下,可假设,基本频率被逐渐变化,以致于随着该线性变化在用于t=KN的音调延迟L(KN)和用于t=(k-1)N的音调延迟L((k-1)N)之间没有实质变化。因而,可以通过用于t=(k-1/2)N的音调延迟L((k-1/2)N)把限制加于该假设的值上。在本实施例中,

    L((k-1/2)N=L(k N)

              =(L(kN)+L((k-1)N)/2

              =L((k-1)N)

    这些值中被使用的那个通过计算对应各自的Lags的音调余项的幂(power)来确定。

    那就是,假设具有以上t=(k-1/2)N对准中心的t=(k-1/2)N-N/4-(k-1/2)N+N/4的维N/2的数的矢量是X,具有通过L(kN),(L(kN)+L((k-1)N)/2和L((k-1)N)延迟的维N/2的数的矢量分别是X0(0),X1(0),X2(0)。和那些矢量X0(0),X1(0),X2(0)。和中紧挨着的矢量是X0(-1),X0(1),X1(-1),X1(1),X2(-1),X2(1)。还有对于与这些矢量X0(i),X1(i),X2(i)相联系的音调增益g0,g1和g2,这里i=-1,0,1,对于D0=||X‾-Σig0(i)X‾0(i)||2]]>D1=||X‾-Σig1(i)X‾1(i)||2]]>D2=||X‾-Σig2(i)X‾2(i)||2]]>至少一个的Dj的延迟被假设是在t=(k-1/2)N处的最佳延迟,并对应的音调增益gj(i),这里i=-1,0,1,被矢量量化以确定音调增益。同时,L2可假设能从当前和过的L1值确定了3个值。因而,代表插入方案的标志可以被送出作为在直线值的地方的插入索引。如果L(kN)和L((k-1)N)中的任何一个被判定为0,即没有音调,和不能获得音调预测增益,这样,上述([(kN)+L((k-1)N))/2和为L((k-1/2)N)的候选物被放弃了。

    如果用作计算音调延迟的矢量X的维数数被减少到一半,或N/2,那么用于作分解中心的t=KN的Lk可被直接使用。然而,增益被需要再次计算以传输结果数据,尽管用于X的量纲N数的音调增益是有效的。这里g1d=g1′-g^1]]>是用于减少位数的量化,这里g1是作为用于确定分解长度等于N的量化的音调增益(矢量),和g1’是作为用于确定分解长度等于N/2的非量化音调增益。

    矢量g的元素(g0,g1,g2)中,最大的是g1,而g0和g2靠近零,或相反,该矢量g在3点中具有最强的相互作用。矢量g-1d被估测比原始矢量g,具有较小的变化,这样,用较少的位数就能实现量化。

    因而在一帧中有5个音调参数被传输,即l1,g1,L2,g2和g1d。

    图6B所示是用如帧频那样高的8倍速率插入的LPC系数的相位。LPC系数被用于通过图1的逆LPC滤波器111来计算预测余项,和还用于图2的LPC合成滤波器215,225和用于音调频谱后滤波器216,226。

    现在说明从音调延迟和从音调增益确定音调余项的矢量量化。

    为简化和矢量量化的高精度感性加权,该音调余项用15%的重叠窗口并用MDCT变换。在结果域中执行加权矢量量化。虽然变换长度可任意设置,但在本实施例中以如下观点还是使用较小的维数。

    (1)如果矢量量化是大维数,那么处理,操作变得庞大,这就需要在MDCT域中分离或再排列。

    (2)分离使得从分离结果的各波段中进行精确位的定位非常困难。

    (3)如果维数不是2的幂,那么利用FFT对MDCT进行快速操作不能被使用。

    由于帧长度被设置成20msec(160采样/8KHz),160/分=32=25,和因而,对于尽可能解决上述(1)至(3)点重叠50%的观点看,该MDCT变换尺寸被设置到64。

    成帧的状态如图6C所示。

    在图6C中,20msec=160采样的帧中的音调余项rp(n),这里n=0,1,…191,被划分为5个子帧,和5个子帧中的第i’个的音调余项rpi(n),这里i=0,1,…,4,被设置成:

    rpi(n)=rp(32i+n)这里n=意味着下一帧0,……31的160,=…191。该子帧的音调余项rpi(n)与有能力消除MDCT混淆的窗口函数W(n)相乘,以产生用MDCT变换的那个W(n)·rpi(n)。该窗口函数W(n)可以,例如利用w(n)=(1-(cos2π(n+0.5)/64)]]>

    由于MDCT变换是64(=26)的变换长度,该变换计算可利FFT并通过下列各项进行:(1)设置(setting)x(n)=w(n)·rpi·exp((-2πj/

    64)(n/2));(2)用64点FFT处理x(n)以产生y(k);和(3)取y(k)·exp((-2πj/64)(k+1/2+64/4)的

    实数部分,并设实数部分为MDCT系数cj(k),这里k=0,1,…31。

    每个子帧的MDCT系数ci(k)用下面要解释的加权进行矢量量化。

    如果音调余项rpi(n)被设置作为矢量rj,该距离由以下表示的加以合成:D2=||H(r‾i-^r‾i)||2]]>=(r‾i-^r‾i)tHtH(r‾i-^r‾)i]]>=(r‾i-^r‾i)tMHtHMtM(r‾i-^r‾)i]]>=(c‾i-c^‾i)tMHtHMt(c‾i-c^‾)i]]>这里H是合成滤波矩阵,M是MDCT矩阵,ci是cj(k)的矢量表示,和是cj(k)量化的矢量表示。

    由于M被设成对角线HtH,这里Ht的移项距阵,它的参数是

    这里n=64和ni被设置为合成滤波器的频率响应,因而,D2=Σkhk2(ci(k)-c^i(k))2]]>

    如果hk被直接用于量化ci(k)的加权,合成后的噪声变得平直,即达到了100%的噪声成形。这样的感性加权W被用于控制,以便该共振峰会变得类似形状的噪声。(n=64)

    同时,ni2=和wi2可以被确定作为合成滤波器H(z)和感性滤波器W(z)的脉冲响应的FFT能量(power)频谱。H(z)=11+Σj=1PαijZ-j]]>W(z)=1+Σj=1PλbjαijZ-j1+Σj=1PλajαijZ-j]]>这里p是分解数,和λa,λb是加权系数。

    在以上等式中,αij是对应于第i个子帧的LPC系数和并可从插入的LPC系数中加以确定。通过以前帧分解获得的LSP0(j)和当前帧的LSP1(j)被内在地划分,和在本实施例中,第i个子帧的LSP被设置成:LSP(i)(j)=(1-i+15)LSP0(j)+i+15LSP1(j)]]>这里i=0,1,2,3,4,以确定LSP(i)(j)。然后由LSP对α转换求得α(ij)。

    对于H和W就这样确定,W’被设置成等于WH(W’=WH),以用于作为用于矢量量化的距离的测量。

    通过形状和增益的量化进行矢量量化。现在说明在学习期间的最佳编码和译码的条件。

    如果在学习期间在确定的时间点处的形状码本是S,增益码本是g,在训练期间的输入。即在每个子帧中的MDCT系数是X和用于每个子帧的加权是W’,在该时间处用于失真的能量(power)D2由以下等式确定:D2=‖W’(X0-gs)‖2最佳编码条件是那个能最小化D2的(g,s)的选择。D2=(x-gs)tw′tw′(x-gs)=s‾tw′tw′s‾(g-s‾tw′tw′x‾s‾tw′tws‾)2]]>                                                          +xtw′tw′x-(s-tw′twtx‾)2s‾tw′twts‾]]>因而,作为第1步,那个最大化的Sopt被(s-tw′twtx‾)2s‾tw′twts‾]]>搜索用于形状码本和用于增益码本,被搜索用于形状码本和最接近于s‾toptw′tw′x‾s‾toptw′twts‾opt]]>被搜索以用于该Sopt的增益码本。

    接着确定最佳译码条件。

    作为第2步,由在学习期间的确定点处的形状码本s中编码的用于设X的xk(k=0,…,N-1)的失真的和Es是Es=Σk=0N-1||wk′(x‾k-gks‾)||2]]>最小化的那个s的该和由由下式确∂Es∂s‾=0]]>或s‾=(Σk=0N-1gk2wk′twk′)-1Σgkwk′twk′x‾k]]>

    作为用于增益码本,用加权W’k和在增益码本中编码的x的形状sk,设xk的失真Eg的和是Eg=Σk=0N-1||wk′(x‾k-gs‾k)||2]]>如此则∂E∂g=0]]>g=Σk=0M-1s‾ktwk′twk′x‾kΣk=0M-1s‾ktwk′twk′s‾k]]>

    当上述第1和第2步骤被重复确定时,通过通常的LLotd算法可以产生形状和增益码本。

    在本实施例中,因为重要的是对于低信号电平的附属的噪声,在W’自身的地方,用具有互易电平的W’/‖x‖加权来执行学习。

    利用这样准备的码本对MDCT的音调余项,进行矢量量化,和从而获得的索引随同LPC(作用中的LSP),音调和音调增益被传输。译码器侧执行逆VQ和音调LPC合成,以产生再现的声音。在本实施例中,音调增益计算次数被增加和该音调余项MDCT和矢量量化在能以较高速率操作的多级中被执行。

    图7A所示举例,其中级数是两个和矢量量化是多级VQ。到第2级的输入是第1级从来自L2,g2和g1产生的较高精度的音调余项中减去的译码结果,即第1级MDCT电路113的输出是通过VQ电路114进行矢量量化,以便确定代表矢量或反量化输出中由逆MDCT电路113a进行逆MDCT的那个。结果输出被送到减法器128’,用于从第2级余项中减去(图1的逆音调滤波器122的输出)。减法器128’的输出被送到MDCT电路123’和结果的MDCT输出通过VQ电路124进行量化。这种结构类似于图7B的等效配置,其中MDCT没有行,图1使用了图7B的配置。

    如果利用MDCT系数的索引IdxVq1和IdxVq2由图2所示译码器进行译码,则索引IdxVq1和IdxVq2的逆VQ的结果的和是逆MDCT和重叠加。随后进行音调合成和LPC合成以产生再现声音。当然,在音调合成期间音调延迟和音调增益更新频率是两倍于单级配置。这样,在本发明中,音调合成滤波器被驱动使其改变超过每次80采样。

    现在说明图2的译码器的后滤波器216,226。

    该后滤波器通过音调加重,高范围加重和频谱加重滤波器的级联连接实现后滤波特片p(Z)。P(z)=i1-γPΣi=1lgiz-L+1(1-γbz-1)1-Σj=1PγnjαijZ-j1-Σj=1PγdjαijZ-j]]>

    在以上等式中,g1和L是通过音调预测确定的音调增益和音调延迟,而υ是指明音调加重强度的参数,例如为0.5。另外,υb是指明高范围加重的参数,例如υb=0.4,而υn和υd是指明频谱加重强度的参数,例如,υn=0.5,υd=0.8。

    增益校准在LPC合成滤波器的输出s(n)和具有如下这样的系数kadj的后滤波器的输出sp(n)上进行。kadj=Σi=0N-1(s(n))2Σi=0N-1(sp(n))2]]>这里N=80或160,同时kadj在一帧中是不固定的并在通过LPE之后的采样基础上改变。例如,使用等于0.1的p。

    kadj(n)=(1-p)kadj(n-1)+pkadj

    为帧之间的平滑连接,使用两个音调加重滤波器,和使用滤波的平滑衰落结果作为最终的输出。11-γpΣi=-11g0iz-L0+i]]>11-γpΣi=11gjz-L+i]]>对于后滤波器的输出spo(n)和sp(n)这样成形的最终输出是:

    sout(n)=(1-f(n))·spo(n)·sp(n)这里f(n)是图8举例所示的窗口。图8A和8B表示分别用于低速率操作和高速率操作的窗口功能。图8B中具有80采样宽度的窗口,在160采样(20msec)的合成期间被使用两次。

    说明图1中所编码器侧VQ电路124。

    该VQ电路124具有两个不同类的码本,用于对应输入信号转换和选择的语音和音乐的。如果用于音乐声音信号的量化的量化器的配置是固定的,那么由量化器占有的码本随着在作为在学习期间使用的语音和音乐声音的特性而变得最佳。这样,如果语音和音乐声音被一起学习,和如果这两个在性质上有实质不同,则该作为学习的码本具有两个的平均性质,作为其中结果的性能或平均S/N值可以被假设在量化器仅用一个码本成形的情况下没有提高。

    这样,在本实施例中,利用用于具有不同特性的若干信号的学习数据准备的代码容量被转换用于改进量化器性能。

    图9示出了具有这样两类码本CBA,CBB的矢量量化器的结构图。

    参考图9,提供给输入端501的输入信号被送到矢量量化器511,512。这些矢量量化器511,512占有码本CBA,CBB。矢量量化器511,512的代表矢量或去量化输出被分别送到减法器513,514,在这里与原始输入信号的差被加以确定以产生将被送到比较器515的误差分量。比较器515比较误差分量和通过转换开关516选择该矢量量化器511,512的量化输出中较小的一个索引,这选择的索引被送到输出端502。

    转换开关516的转换周期要选得大于每个矢量量化器511,512的周期或量化单元时间。例如,如果量化单元是通过划分帧为8个所获得的子帧,则转换开关516的转换超过该帧的基本单位。

    假设仅分别具有学习的语音和音乐声音的码本CBA,CBB是相同的尺寸N和维M的相同数。还可以假设,当由帧的L数据组成的L组数据X用子帧长度M(=L/n)进行矢量量化时,如果使用码本CBA,CBB,则随着量化的失真分别是EA(k)和EB(k)。如果索引i和j被选定,那么这些失真EA(k)和EB(k)由下式表示:

    EA(k)=‖Wk(X-CAi)‖

    EB(k)=‖Wk(X-CBi)‖这里Wk是在子帧k处的加权矩阵,和CAj,CBj分别表示与码本CBA,CBB的索引i和j相关联的代表矢量。

    作为这样获得的两个失真,极适于给定帧的码本由在该帧中的失真的和所使用。下述两种方法可用于这样的选择。

    第一种方法是仅使用码本CBA,CBB去进行量化,以确定在帧∑kEA(k)和∑kEB(k)中的失真的和,并使用码本CBA或CBB中能对整个帧给出较小失真的一个。

    图10示出用于实施第一种方法的配置,在该配置中,对应于图9所示的那些部分或成分由相同序号并对应于帧k用例如a、b,…的下标字母注明。对于码本CBA来说,该对于在失真基础上给定子帧的减法器513a,513b,…513n的输出的帧的和在加法器517确定。对于码本CBB来说,该对于在失真基础上的子帧的帧的和在加法器518确定。这些和通过比较器515相互比较以获得控制信号或选择信号以便在终端503处进行码本转换。

    第二种方法是对每个子帧的失真EA(k)和EB(k)进行比较并估计用于在帧中的子帧总体的比较结果,以用于转换码本的选择。

    在图11中示出了用于实现第二种方法的配置。在该配置中,用于在比较基础上子帧的比较器516的输出被送到判断逻辑519,用于通过多数判定给出判定结果,以用于在终端503处产生1位码本转换选择村志信号。

    该选择标志信号作为上述的S/M(语音/音乐)模式数据被加以传输。

    在该方法中,不同特性的若干信号能利用单一量化器进行有效量化。

    现在说明图1的通过FFT单元161的频率转换操作,频率移位电路162,和FFT电路163。

    频率转换处理包括,在输入信号中至少提取一个波段的波段提取步骤,将至少一个提取的波段信号变换为频率域信号的正交变换步骤,在频率域上将正交变换的信号移位到另一位置或波段的移位步骤,和在频率域上通过逆正交变换将移位的信号转换成时间域信号的逆正交变换步骤。

    图12示出用于上述频率转换的更详细的结构。在图12中对应于图1的部分或成分由相同数字说明。在图12中具有0至8kHz成分和16kHz采样频率的宽范围语言信号被提供到输入端101。从输入端101来的宽波段语音信号中的,例如0至3.8kHz的波段,通过低通滤波器102被分离作为低范围信号,和通过减法器151从原始宽波段信号中减去低范围侧信号获得的剩余频率成分被分离出作为高频成分。低范围和高范围信号被分别处理。

    通过LPE 102之后留下的高范围侧信号具从3.5kHz至8kHz范围的4.5kHz的频率宽度。用下采样处理信号看,该频宽需要去减少到4kHz。在本实施例中,从7.5kHz至8kHz范围的0.5kHz的波段通过带通滤波器(BPF)107或LPF被截去。

    然后,利用快速付利叶变换(FFT)将频畜转换到较低范围侧。然而,先于FFT,采样数在采样数等于2的幂,例如,如图13A所示的512采样的间隔处被划分。然而该采样被提前到每次80采样,以利于连续处理。

    然后通过Hamming窗口电路109提供320采样长度的Hamming窗口。被选择的320的采样数是4倍于80,该80的数是在帧划分的时间处预先采样的数。这使得4个波形稍后被加到在通过如图13B所示的重叠和加的帧合成时间处的重叠中。

    该512采样数据然后通过FFT电路161进行FFT,以便转换成频率域数据。

    该频率域数据然后通过频率移位电路162被移位到频率轴上的另一位置或另一范围。较低采样频率的原理是,通过在频率轴上移位将图14A阴影所示高范围侧信号移位到图14B中指明的低范围侧并对如图14C所示的信号进行下采样。作为从图14A至图14B的在频率轴上移位时间处的中心与fs/z相混淆的频率成分在相反的方向上移位。这使得,如果子波段的范围低于fs/2n的话,该采样频率将被降低到fs/n。

    频率移位电路162足以将图15阴影所示的高范围侧频率域数据移位到频率轴上的低范围侧位置或波段。特别是,在FFT512时间域数据上获得的512频率域数据被加以处理。这样,127数据,即第113至第239数据被分别移位到第1到第127位置或波段,而127数据,即第273至第399数据被分别移位到第395至第511位置或波段。在此时,属于监界的第112频率域数据没有被移位到第0位置或波段。理由是,频率域信号的第0个数据是dc成分和没有相位成分,使得该位置的数据应是一实数,这样,通常是复数的该频率分量不会被引入这个位置。还有,表示fs/z的通常为N/第2数据的第256数据也被无效和不被使用。那就是,0至4kHz范围应更正确的表示为0<f<4kHz。

    移位的数据通过逆FFT电路163进行逆FFT,将频率域数据恢复成时间域数据。该给出的时间域数据每次512采样。该在时间域信号基础上的512采样通过如图13B所示用于对重叠部分求和的重叠和加电路166重量叠为每次80采样。

    通过重叠和加电路166获得的信号由16kHz采样限制为0至4kHz并由此通过下采样电路164进行下采样。这就通过用8kHz采的样的频率移位给出了0至4kHz的信号。该信号在输出端169取出并送到LPC分解量化单元130还送到图1所示的LPC逆滤波器171。

    通过图16所示的配置实现在译码器侧的译码操作。

    图16的配置对应于图2中上采样电路233的配置下游,和因此相应的部分由相同数字注明。虽然已由图2的上采样预先进行了FFT处理,随后由图16的实施例中的上采样再进行FFT处理。

    在图16中,通过8kHz采样移位到0至4kHz的高范围侧信号,例如图2的高范围侧LPC合成滤波器232的输出信号被送到图16的端部241。

    通过帧划分电路242将信号分成具有256采样的帧长度信号,并且由于如在编码器侧的帧划分的相同理由,还具有80采样的前置距离。然而,因为采样频率被二等分,该采样数也被二等分。来自帧划分电路242的信号通过Hamming窗口电路243用一Hamming窗口160采样长度相乘,该长度如同用于编码器侧的相同方法获得的长度相同(采样数无论如何是一半)。

    结果信号通过FFT电路234用256采样长度进行FFT,用于将信号从时间轴转换为频率轴。接着,上采样电路244通过如图15B所示的零塞入(zero-stuffing)提供来自216采样的帧长度的512采样帧长度。这相应于从图14C转换到图14B。频率移位电路235然后将频率域数据移位到频率轴上的另一位置或波段,以用于+3.5kHz的频率移位。这相应于从图14B转换到图14A 。

    结果的频率域信号通过逆FFT电路236进行逆FFT,以便恢复时间域信号。来自逆FFT电路236的信号范围从3.5kHz至7.5kHz并具有16kHz采样。

    接着,重叠和加电路237对每个512采样帧进行重叠加该每次80采样的时间域信号,以便恢复到连续的时间域信号。结果的高范围侧信号通过加法器228与低范围侧信号求合,和该结果的和信号在输出端229输出。

    对于,频率转换特定数字或值不限于上述实施例给定的那些。还有,波段数不限于1个。

    例如,如果窄波段信号的300kHz至3.4kHz和宽波段信号的0至7kHz通过如图17所示的16kHz采样产生,则0至300Hz的低范围信号没有被包含在窄波段中。该3.4kHz至7kHz的高范围侧被移位到300Hz至3.9kHz的范围,以便与低范围侧相接,该结果信号范围从0至3.9kHz,以便使得采样频率fs可以被二等分,即可以是8kHz。

    在更一般的限度内,如果宽波段信号用在该宽波段信号中包含的窄波段信号相乘,则窄波段信号被从宽波段信号中减去,和该在剩余信号中的高范围成分被移位到低范围侧,以用于低采样速率。

    在此方法中,任意频率的子波段可以其它任意频率中产生并用在给定应用的任意范畴内的频率宽度的两倍的采样频率与灵活地应付给定的应用。

    如果量化误差由于低位率而变得较大,混淆的噪声通常产生在具有QMF使用的波段划分频率附近。这样混淆的噪声能用目前频率转换的方法分开。

    本发明不限于上述实施例,例如,图1的语音编码器的配置图2的语音译码器的配置,由硬件表示,也可以通过利用数字信号处理器(DSP)的软件程序实现。还有,数据的若干帧可以集中并由代替矢量量化的矩阵量化加以量化。另外,根据本发明的编码和译码方法不限于上述特殊配置。本发明还可提供给各种应用,例如音调或速度转换,装配有计算机的语音合成或噪声抑制,并不局限于传送或记录/再现。

    上述信号编码器和译码器可用于,例如,如图18和19所示的便携通讯终端或便携电话中的语音代码。

    图18是利用例如图1和图3所示构成的语音编码单元160的便携终端的发送器。通过图18的话筒661收集的语音信号由放大器662放大并由A/D转换器663转换成数字信号,该数字信号送到语音编码单元660。该语音编码单元660的构成如图1和3所示。送到编码单元660的输入端101的数字信号来自A/D转换器663。语音编码单元660执行如图1和3所说明的那样的编码。图1和3的输出端的输出信号作为语音编码单元660的输出信号被送到传输路径编码单元664,在这里进行信道译码和结果的输出信号被送到调制电路665并被解调,以便经由D/A转换器666和RF放大器667送到天线668。

    图19是利用如图2所示构成的语音译码单元760的便携终端的接收侧的配置。通过图19的天线761接收的语音信号由RF放大器762放大并经由A/D转换器763送到解调电路764,以便使该解调信号被送到传输路径译码单元765。解调电路764的输出信号被送到如图2所示构成的译码单元760。执行如联系图2所说明那样的信号译码。图2的输出端201的输出信号作为语音译码单元760的信号被送到D/A转换器766。来自D/A转换器766的模拟语音信号经由放大器767送到扬声器768。

信号编码方法和装置.pdf_第1页
第1页 / 共54页
信号编码方法和装置.pdf_第2页
第2页 / 共54页
信号编码方法和装置.pdf_第3页
第3页 / 共54页
点击查看更多>>
资源描述

《信号编码方法和装置.pdf》由会员分享,可在线阅读,更多相关《信号编码方法和装置.pdf(54页珍藏版)》请在专利查询网上搜索。

对输入信号,例如宽范围语音信号进行编码的方法和装置,其中可用不同的位率进行多种译码操作,以便使甚至用低位率再现的声音的变差减至最小。该信号编码方法包括,波段分离步骤,用于将输入信号分离成若干波段,和依据各波段中的信号特征以不同方法对各波段信号进行编码的方法。特别是,低范围侧信号通过低通滤波器102从端101输入的输入信号中取出,和通过LPC分解量化单元130进行LPC分解。 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 电学 > 基本电子电路


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1