用于生成语音标签的方法和装置.pdf

摘要
申请专利号：	CN201010561793.6	申请日：	2010.11.24
公开号：	CN102479510A	公开日：	2012.05.30
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G10L 15/08申请公布日:20120530\|\|\|实质审查的生效IPC(主分类):G10L 15/08申请日:20101124\|\|\|公开
IPC分类号：	G10L15/08; G10L15/14	主分类号：	G10L15/08
申请人：	株式会社东芝
发明人：	赵蕤; 何磊
地址：	日本东京都
优先权：
专利代理机构：	北京市中咨律师事务所 11247	代理人：	杨晓光;刘瑞东
PDF下载：	PDF下载

内容摘要

本发明提供了用于生成语音标签的方法和装置。本发明的一种用于生成语音标签的装置，包括：输入单于，其输入注册语音；识别单元，其对上述注册语音进行识别，得到N个最优的识别结果，其中N是大于等于2的整数；以及合并单元，其将上述N个最优的识别结果合并为上述注册语音的语音标签。

权利要求书

1：一种用于生成语音标签的装置，包括：输入单于，其输入注册语音；识别单元，其对上述注册语音进行识别，得到 N 个最优的识别结果，其中 N 是大于等于 2 的整数；以及合并单元，其将上述 N 个最优的识别结果合并为上述注册语音的语音标签。
2：根据权利要求 1 所述的用于生成语音标签的装置，其中，上述识别单元基于隐马尔科夫模型对上述注册语音进行识别，得到上述 N 个最优的识别结果和对应的隐马尔科夫模型状态级时间分割信息。
3：根据权利要求 2 所述的用于生成语音标签的装置，其中，上述合并单元基于上述隐马尔科夫模型状态级时间分割信息，将上述 N 个最优的识别结果在状态级上合并为上述注册语音的语音标签。
4：根据权利要求 3 所述的用于生成语音标签的装置，其中，上述合并单元包括：时间分割点确定单元，其确定上述 N 个最优的识别结果的状态级时间分割点的并集，作为新的时间分割点；以及状态合并单元，其根据上述新的时间分割点，将上述 N 个最优的识别结果中位于同一时间分割段内的 N 个状态合并为一个状态，其中，将合并后的状态序列作为上述注册语音的语音标签。
5：根据权利要求 4 所述的用于生成语音标签的装置，其中，上述合并后的状态的输出概率分布为合并前的上述 N 个状态的高斯分量的并集。
6：根据权利要求 5 所述的用于生成语音标签的装置，其中，上述合并后的状态中的每个高斯分量的权重是合并前的与上述每个高斯分量相同的高斯分量的权重之和除以 N。
7：根据权利要求 5 所述的用于生成语音标签的装置，其中，上述合并后的状态中的每个高斯分量的权重根据合并前的与上述每个高斯分量相同的高斯分量所属的状态的置信度来计算。
8：根据权利要求 1 所述的用于生成语音标签的装置，其中，上述 N 个最优的识别结果包括 N 个最优的发音单位序列或发音单位格。
9：根据权利要求 8 所述的用于生成语音标签的装置，其中，上述发音单位包括音素、音节、词和 / 或短语。
10：一种用于生成语音标签的方法，包括以下步骤：输入注册语音；对上述注册语音进行识别，得到 N 个最优的识别结果，其中 N 是大于等于 2 的整数；以及将上述 N 个最优的识别结果合并为上述注册语音的语音标签。

说明书

用于生成语音标签的方法和装置
    技术领域本发明涉及信息处理技术，具体地涉及语音识别技术，更具体地涉及语音识别领域中的语音标签技术。
     背景技术语音标签是语音识别技术的一个应用，特别是在嵌入式系统中比较广泛。涉及语音标签的过程如下：首先，用户向系统输入注册语音，系统将其转换成代表该注册语音的语音标签，并将该语音标签所表示的一个词条加入到识别网络中。此过程为注册过程。然后，基于含有语音标签词条的识别网络对测试语音进行识别，以确定其内容。此过程为识别过程。通常，识别过程中的识别网络不仅仅含有语音标签词条，还含有由词典或者字音转换模块提供发音的词条，称之为词典词条。
     最初的语音标签方法通常基于模板匹配的方法。在注册过程中，对注册语音提取出一个或多个模板作为该注册语音的标签，识别过程中利用动态时间规整算法对测试语音和模板标签进行匹配。近年来，随着基于音素的隐马尔科夫模型在语音识别中的普遍应用，音素序列作为语音标签已成为主流的语音标签方法。该方法中，作为语音标签的音素序列是通过对注册语音进行音素识别而得到的。音素序列标签的优势在于：首先，音素序列标签比模板标签占用内存少。其次，音素序列标签词条更容易和词典词条结合构成新的识别网络。这都有助于提高语音标签系统所允许的词条数目。但是音素序列标签方法也有一定的不足：首先，音素识别错误不可避免，这会导致音素序列标签不能完全代表注册语音的发音，由此造成识别错误。此外，注册语音和测试语音之间存在着不匹配，也会导致识别错误。因此，减少由于上述原因而导致的识别错误即成为目前语音标签技术中的一个研究重点。
     为了克服以上提出的音素序列标签方法的不足，研究者用多个发音标签表示一个标签词条 ( 参见非专利文献 1 ： “VOICE-TO-PHONEMECONVERSION ALGORITHMS FOR SPEAKER-INDEPENDENTVOICE-TAG APPLICATIONS IN EMBEDDED PLATFORMS” ， YanMing Cheng ， Changxue Ma and Lynette Melnar ， Automatic SpeechRecognition and Understanding， 2005IEEE Workshop on， pages 403-408，在此通过参考引入其整个内容 )。具体方法是在对注册语音进行音素识别的时候，取前 N 个最优的识别结果作为该注册语音的标签。利用这种多发音标签可以很明显的减少音素识别错误所带来的负面影响，也可以降低注册语音和测试语音之间不匹配所造成的性能下降。
     但是，一个标签词条由多个发音标签表示会提高识别网络的混淆度，尤其会明显降低系统中词典词条的识别性能。
     发明内容本发明正是鉴于上述现有技术中的问题而提出了用于生成语音标签的方法和装置，具体提供了以下技术方案。
     [ 第 1 方案 ]
     本发明的第 1 方案提供了一种用于生成语音标签的方法，包括以下步骤：输入注册语音；对上述注册语音进行识别，得到 N 个最优的识别结果，其中 N 是大于等于 2 的整数；以及将上述 N 个最优的识别结果合并为上述注册语音的语音标签。
     本发明的用于生成语音标签的方法，通过将表示多个发音的多个识别结果合并为一个发音序列，作为注册语音的语音标签，可以减小包含语音标签的识别网络的混淆度，进而有助于提高语音标签系统的性能，特别是对词典词条的识别性能。另外，本发明的方法与传统的多发音语音标签方法相比，没有明显增加计算消耗及模型大小。
     [ 第 2 方案 ]
     根据上述第 1 方案的用于生成语音标签的方法，其中，上述对上述注册语音进行识别的步骤包括以下步骤：基于隐马尔科夫模型对上述注册语音进行识别，得到上述 N 个最优的识别结果和对应的隐马尔科夫模型状态级时间分割信息。
     [ 第 3 方案 ]
     根据上述第 2 方案的用于生成语音标签的方法，其中，上述将上述 N 个最优的识别结果合并为上述注册语音的语音标签的步骤包括以下步骤：基于上述隐马尔科夫模型状态级时间分割信息，将上述 N 个最优的识别结果在状态级上合并为上述注册语音的语音标签。
     [ 第 4 方案 ]
     根据上述第 3 方案的用于生成语音标签的方法，其中，上述基于上述隐马尔科夫模型状态级时间分割信息，将上述 N 个最优的识别结果在状态级上合并为上述注册语音的语音标签的步骤包括以下步骤：确定上述 N 个最优的识别结果的状态级时间分割点的并集，作为新的时间分割点；以及，根据上述新的时间分割点，将上述 N 个最优的识别结果中位于同一时间分割段内的 N 个状态合并为一个状态，其中，将合并后的状态序列作为上述注册语音的语音标签。
     [ 第 5 方案 ]
     根据上述第 4 方案的用于生成语音标签的方法，其中，上述合并后的状态的输出概率分布为合并前的上述 N 个状态的高斯分量的并集。
     本发明的用于生成语音标签的方法，由于合并后的状态序列包含多个识别结果的所有状态的高斯分量，因此可以很好的描述注册语音的差异，同时显著降低了给整个语音识别网络所带来的混淆度。
     [ 第 6 方案 ]
     根据上述第 5 方案的用于生成语音标签的方法，其中，上述合并后的状态中的每个高斯分量的权重是合并前的与上述每个高斯分量相同的高斯分量的权重之和除以 N。
     [ 第 7 方案 ]
     根据上述第 5 方案的用于生成语音标签的方法，其中，上述合并后的状态中的每个高斯分量的权重根据合并前的与上述每个高斯分量相同的高斯分量所属的状态的置信度来计算。
     [ 第 8 方案 ]
     根据上述第 1-7 方案的任一个用于生成语音标签的方法，其中，上述 N 个最优的识别结果包括 N 个最优的发音单位序列或发音单位格。[ 第 9 方案 ]
     根据上述第 8 方案的用于生成语音标签的方法，其中，上述发音单位包括音素、音节、词和 / 或短语。
     [ 第 10 方案 ]
     本发明的第 10 方案提供了一种用于生成语音标签的装置，包括：输入单元，其输入注册语音；识别单元，其对上述注册语音进行识别，得到 N 个最优的识别结果，其中 N 是大于等于 2 的整数；以及合并单元，其将上述 N 个最优的识别结果合并为上述注册语音的语音标签。
     本发明的用于生成语音标签的装置，通过将表示多个发音的多个识别结果合并为一个发音序列，作为注册语音的语音标签，可以减小包含语音标签的识别网络的混淆度，进而有助于提高语音标签系统的性能，特别是对词典词条的识别性能。另外，本发明的装置与传统的多发音语音标签系统相比，没有明显增加计算消耗及模型大小。
     [ 第 11 方案 ]
     根据上述第 10 方案的用于生成语音标签的装置，其中，上述识别单元基于隐马尔科夫模型对上述注册语音进行识别，得到上述 N 个最优的识别结果和对应的隐马尔科夫模型状态级时间分割信息。 [ 第 12 方案 ]
     根据上述第 11 方案的用于生成语音标签的装置，其中，上述合并单元基于上述隐马尔科夫模型状态级时间分割信息，将上述 N 个最优的识别结果在状态级上合并为上述注册语音的语音标签。
     [ 第 13 方案 ]
     根据上述第 12 方案的用于生成语音标签的装置，其中，上述合并单元包括：时间分割点确定单元，其确定上述 N 个最优的识别结果的状态级时间分割点的并集，作为新的时间分割点；以及状态合并单元，其根据上述新的时间分割点，将上述 N 个最优的识别结果中位于同一时间分割段内的 N 个状态合并为一个状态，其中，将合并后的状态序列作为上述注册语音的语音标签。
     [ 第 14 方案 ]
     根据上述第 13 方案的用于生成语音标签的装置，其中，上述合并后的状态的输出概率分布为合并前的上述 N 个状态的高斯分量的并集。
     本发明的用于生成语音标签的装置，由于合并后的状态序列包含多个识别结果的所有状态的高斯分量，因此可以很好的描述注册语音的差异，同时显著降低了给整个语音识别网络所带来的混淆度。
     [ 第 15 方案 ]
     根据上述第 14 方案的用于生成语音标签的装置，其中，上述合并后的状态中的每个高斯分量的权重是合并前的与上述每个高斯分量相同的高斯分量的权重之和除以 N。
     [ 第 16 方案 ]
     根据上述第 14 方案的用于生成语音标签的装置，其中，上述合并后的状态中的每个高斯分量的权重根据合并前的与上述每个高斯分量相同的高斯分量所属的状态的置信度来计算。
     [ 第 17 方案 ]
     根据上述第 10-16 方案的任一个用于生成语音标签的装置，其中，上述 N 个最优的识别结果包括 N 个最优的发音单位序列或发音单位格。
     [ 第 18 方案 ]
     根据上述第 17 方案的用于生成语音标签的装置，其中，上述发音单位包括音素、音节、词和 / 或短语。附图说明相信通过以下结合附图对本发明具体实施方式的说明，能够使人们更好地了解本发明上述的特点、优点和目的。
     图 1 是根据本发明的第一实施例的用于生成语音标签的方法的流程图。
     图 2 是根据本发明的第一实施例的在隐马尔可夫状态级上将 2 个最优的识别结果合并为一个序列的示例图。
     图 3 是根据本发明的第二实施例的用于生成语音标签的装置的框图。
     图 4 是根据本发明的第二实施例的用于生成语音标签的装置的合并单元的具体结构的框图。
     具体实施方式
     下面就结合附图对本发明的各个优选实施例进行详细的说明。
     用于生成语音标签的方法
     图 1 是根据本发明的第一实施例的用于生成语音标签的方法的流程图。下面就结合该图，对本实施例进行描述。
     如图 1 所示，首先，在步骤 101，输入注册语音。在本实施例中，输入的注册语音可以是本领域的技术人员公知的任何类型的语音，本发明对此没有任何限制。
     接着，在步骤 105，对步骤 101 输入的注册语音进行识别，得到 N 个最优的识别结果，其中 N 是大于等于 2 的整数。在本实施例中，对注册语音进行识别的方法可以是本领域的技术人员公知的任何识别方法，本发明对此没有任何限制，只要能够从注册语音中识别出代表注册语音的发音的识别结果即可。
     在本实施例中，代表注册语音的发音的识别结果可以是发音单位序列或发音单位格等，其中，发音单位可以是音素、音节、词、短语或其组合，也可以是本领域的技术人员公知的任何其它发音单位，本发明对此没有任何限制，只要能够代表注册语音的发音即可。下面仅以音素序列为例进行说明。
     具体地，在步骤 105，对输入的注册语音进行音素识别，得到多个候选的音素序列。在多个候选的音素序列中，选出 N 个最优的音素序列作为步骤 105 的识别结果。在本实施例中，从多个候选的音素序列中选择 N 个最优的音素序列的方法可以是本领域的技术人员公知的任何方法，本发明对此没有任何限制。例如，可以首先计算得到的多个候选的音素序列的每一个的得分，接着以得分的高低进行排序，最后将排序后的前 N 个音素序列作为 N 个最优的音素序列。
     在本实施例中，优选，在步骤 105，基于隐马尔科夫模型对步骤 101 输入的注册语音进行识别，得到 N 个最优的音素序列和对应的隐马尔科夫模型状态级时间分割信息。基于隐马尔科夫模型对注册语音进行识别的方法可以是本领域的技术人员公知的任何方法，例如非专利文献 2(“Fundamentals of speech recognition” ， Rabiner R.， Juang B.H.， Englewood Cliffs， New Jersey， Prentice Hall， 1993，在此通过参考引入其整个内容 ) 中公开的具体方法，本发明对此没有任何限制，只要能够得到 N 个最优的音素序列和对应的隐马尔科夫模型状态级时间分割信息即可。
     接着，在步骤 110，将步骤 105 识别出的 N 个最优的识别结果合并，作为步骤 101 输入的注册语音的语音标签。
     具体地，在步骤 105 基于隐马尔科夫模型对注册语音进行识别的情况下，在步骤 110，基于上述隐马尔科夫模型状态级时间分割信息，将上述 N 个最优识别结果在状态级上合并，作为上述注册语音的语音标签。
     在本实施例中，优选，在合并过程中，首先确定上述 N 个最优的识别结果的状态级时间分割点的并集，作为新的时间分割点，然后，基于新的时间分割点，将上述 N 个最优的识别结果中位于同一时间分割段内的 N 个状态合并为一个状态，其中，将合并后的状态序列作为上述注册语音的语音标签。下面参考图 2 详细描述上述合并过程。图 2 是根据本发明的第一实施例的在隐马尔可夫状态级上将 2 个最优的音素序列合并为一个序列的示例图。在图 2 中，以N＝2为例进行说明，即从步骤 105 识别出的多个候选的识别结果中选择出 2 个最优的音素序列。
     如图 2 所示，音素序列 1 包括 n 个状态 S1-1、 S1-2、 ...、 S1-n，音素序列 2 包括 m 个状态 S2-1、 S2-2、 ...、 S2-m，其中，音素序列 1 包括 n+1 个时间分割点，音素序列 2 包括 m+1 个时间分割点。
     在本实施例的合并过程中，首先，确定音素序列 1 的 n+1 个时间分割点和音素序列 2 的 m+1 个时间分割点的并集，作为新的时间分割点。如图 2 所示，新的时间分割点为 t0、 t1、 ...、 tk，即 k+1 个。例如，在 n 和 m 都为 3 的情况下，音素序列 1 包括 3 个状态 S1-1、 S1-2 和 S1-3 以及 4 个时间分割点 t0、 t1、 t3 和 t4，音素序列 2 包括 3 个状态 S2-1、 S2-2 和 S2-3 以及 4 个时间分割点 t0、 t2、 t3 和 t4。此时，音素序列 1 的时间分割点和音素序列 2 的时间分割点的并集为 {t0、 t1、 t2、 t3、 t4}。
     接着，基于新的时间分割点 t0、 t1、 ...、 tk，将每个时间分割段内音素序列 1 和 2 的状态合并为一个状态。具体地，将 t0 和 t1 之间的状态 S1-1 和 S2-1 合并为状态 M-1，将 t1 和 t2 之间的状态 S1-2 和 S2-1 合并为状态 M-2，将 t2 和 t3 之间的状态 S1-2 和 S2-2 合并为状态 M-3，将 t3 和 t4 之间的状态 S1-3 和 S2-3 合并为状态 M-4， ...，将 tk-1 和 tk 之间的状态 S1-n 和 S2-m 合并为状态 M-k。从而，得到合并后的状态序列，并将其作为上述注册语音的语音标签。
     本发明的用于生成语音标签的方法，通过将表示多个发音的多个识别结果合并为一个发音序列，作为注册语音的语音标签，可以减小包含语音标签的识别网络的混淆度，进而有助于提高语音标签系统的性能，特别是对词典词条的识别性能。另外，本发明的方法与传统的多发音语音标签方法相比，没有明显增加计算消耗及模型大小。
     在本实施例中，优选，上述合并后的状态的输出概率分布为合并前的上述 N 个状态的高斯分量的并集。例如，如图 2 所述，合并后的状态 M-1 的输出概率分布为合并前的
     状态 S1-1 和 S2-1 的高斯分量的并集，合并后的状态 M-2 的输出概率分布为合并前的状态 S1-2 和 S2-1 的高斯分量的并集。
     在本实施例中，优选，上述合并后的状态中的每个高斯分量的权重是合并前的相同高斯分量的权重之和除以 N。例如，如图 2 所示，合并后的状态 M-1 只有一个高斯分量，合并前的与其相同的高斯分量为状态 S1-1 的高斯分量 ( 权重为 1) 和 S2-1 的高斯分量 ( 权重为 1)，则合并后的权重为 (1+1) 除以 2，即 1。合并后的状态 M-2 具有 2 个高斯分量，其左边的高斯分量与合并前的状态 S2-1 的高斯分量 ( 权重为 1) 相同，其右边的高斯分量与合并前的状态 S1-2 的高斯分量 ( 权重为 1) 相同。合并后，其左边的高斯分量的权重为状态 S2-1 的高斯分量的权重除以 2，即 1/2，其右边的高斯分量的权重为状态 S1-2 的高斯分量的权重除以 2，即 1/2。
     另外，可选地，上述合并后的状态中的每个高斯分量的权重可以根据合并前的相同高斯分量所属的状态的置信度来计算。根据置信度来计算权重的方法可以是本领域的技术人员公知的任何方法，本发明对此没有任何限制。
     本发明的用于生成语音标签的方法，由于合并后的发音状态序列包含多个识别结果的所有状态的高斯分量，因此可以很好的描述注册语音的差异，同时显著降低了给整个语音识别网络所带来的混淆度。用于生成语音标签的装置
     在同一发明构思下，图 3 是根据本发明的第二实施例的用于生成语音标签的装置的框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。
     如图 3 所示，本实施例的用于生成语音标签的装置 300，包括：输入单于 301，其输入注册语音；识别单元 305，其对上述注册语音进行识别，得到 N 个最优的识别结果，其中 N 是大于等于 2 的整数；以及合并单元 310，其将上述 N 个最优的识别结果合并为上述注册语音的语音标签。
     在本实施例中，输入单元 301 输入的注册语音可以是本领域的技术人员公知的任何类型的语音，本发明对此没有任何限制。
     在本实施例中，对注册语音进行识别的识别单元 305 可以是本领域的技术人员公知的任何识别模块，本发明对此没有任何限制，只要能够从注册语音中识别出代表注册语音的发音的识别结果即可。
     在本实施例中，代表注册语音的发音的识别结果可以是发音单位序列或发音单位格等，其中，发音单位可以是音素、音节、词、短语或其组合，也可以是本领域的技术人员公知的任何其它发音单位，本发明对此没有任何限制，只要能够代表注册语音的发音即可。下面仅以音素序列为例进行说明。
     具体地，识别单元 305 对输入的注册语音进行音素识别，得到多个候选的音素序列。在多个候选的音素序列中，选出 N 个最优的音素序列作为识别单元 305 的识别结果。在本实施例中，从多个候选的音素序列中选择 N 个最优的音素序列的方法可以是本领域的技术人员公知的任何方法，本发明对此没有任何限制。例如，可以首先计算得到的多个候选的音素序列的每一个的得分，接着以得分的高低进行排序，最后将排序后的前 N 个音素序列作为 N 个最优的音素序列。
     在本实施例中，优选，识别单元 305 基于隐马尔科夫模型对输入单元 301 输入的注册语音进行识别，得到 N 个最优的音素序列和对应的隐马尔科夫模型状态级时间分割信息。基于隐马尔科夫模型对注册语音进行识别的方法可以是本领域的技术人员公知的任何方法，例如上述非专利文献 2 中公开的具体方法，本发明对此没有任何限制，只要能够得到 N 个最优的音素序列和对应的隐马尔科夫模型状态级时间分割信息即可。
     在本实施例中，在识别单元 305 基于隐马尔科夫模型对注册语音进行识别的情况下，合并单元 310 基于上述隐马尔科夫模型状态级时间分割信息，将上述 N 个最优的识别结果在状态级上合并为上述注册语音的语音标签。
     在本实施例中，优选，如图 4 所示，合并单元 310 包括：分割点确定单元 3101，其确定上述 N 个最优的识别结果的状态级时间分割点的并集，作为新的时间分割点；以及状态合并单元 3105，其根据上述新的时间分割点，将 N 个最优的识别结果中位于同一时间分割段内的 N 个状态合并为一个状态，其中，将合并后的状态序列作为上述注册语音的语音标签。
     下面参考图 2 详细描述图 4 所示的合并单元 310 的合并过程。在图 2 中，以N＝2 为例进行说明，即从识别单元 305 识别出的多个候选的识别结果中选择出 2 个最优的音素序列。如图 2 所示，音素序列 1 包括 n 个状态 S1-1、 S1-2、 ...、 S1-n，音素序列 2 包括 m 个状态 S2-1、 S2-2、 ...、 S2-m，其中，音素序列 1 包括 n+1 个时间分割点，音素序列 2 包括 m+1 个时间分割点。
     在本实施例的合并过程中，首先，分割点确定单元 3101 确定音素序列 1 的 n+1 个时间分割点和音素序列 2 的 m+1 个时间分割点的并集，作为新的时间分割点。如图 2 所示，新的时间分割点为 t0、 t1、 ...、 tk，即 k+1 个。例如，在 n 和 m 都为 3 的情况下，音素序列 1 包括 3 个状态 S1-1、 S1-2 和 S1-3 以及 4 个时间分割点 t0、 t1、 t3 和 t4，音素序列 2 包括 3 个状态 S2-1、 S2-2 和 S2-3 以及 4 个时间分割点 t0、 t2、 t3 和 t4。此时，音素序列 1 的时间分割点和音素序列 2 的时间分割点的并集为 {t0、 t1、 t2、 t3、 t4}。
     接着，状态合并单元 3105 根据新的时间分割点 t0、 t1、 ...、 tk，将每个时间分割段内音素序列 1 和 2 的状态合并为一个状态。具体地，将 t0 和 t1 之间的状态 S1-1 和 S2-1 合并为状态 M-1，将 t1 和 t2 之间的状态 S1-2 和 S2-1 合并为状态 M-2，将 t2 和 t3 之间的状态 S1-2 和 S2-2 合并为状态 M-3，将 t3 和 t4 之间的状态 S1-3 和 S2-3 合并为状态 M-4， ...，将 tk-1 和 tk 之间的状态 S1-n 和 S2-m 合并为状态 M-k。从而，得到合并后的状态序列，并将其作为上述注册语音的语音标签。
     本发明的用于生成语音标签的装置 300，通过将表示多个发音的多个识别结果合并为一个发音序列，作为注册语音的语音标签，可以减小包含语音标签的识别网络的混淆度，进而有助于提高语音标签系统性能，特别是对词典词条的识别性能。另外，本发明的装置 300 与传统的多发音语音标签系统相比，没有明显增加计算消耗及模型大小。
     在本实施例中，优选，上述合并单元 310 合并后的状态的输出概率分布为合并前的上述 N 个状态的高斯分量的并集。例如，如图 2 所述，合并后的状态 M-1 的输出概率分布为合并前的状态 S1-1 和 S2-1 的高斯分量的并集，合并后的状态 M-2 的输出概率分布为合并前的状态 S1-2 和 S2-1 的高斯分量的并集。
     在本实施例中，优选，上述合并单元 310 合并后的状态中的每个高斯分量的权重是合并前的相同分量的权重之和除以 N。例如，如图 2 所示，合并后的状态 M-1 只有一个高斯分量，合并前的与其相同的高斯分量是 S1-1 的高斯分量 ( 权重为 1) 和 S2-1 的高斯分量 ( 权重为 1)，因此合并后的权重为 (1+1) 除以 2，即 1。合并后的状态 M-2 具有 2 个高斯分量，其左边的高斯分量为合并前的状态 S2-1 的高斯分量，其右边的高斯分量为合并前的状态 S1-2 的高斯分量，其左边的高斯分量的权重为状态 S2-1 的高斯分量的权重 ( 为 1) 除以 2，即 1/2，其右边的高斯分量的权重为状态 S1-2 的高斯分量的权重 ( 为 1) 除以 2，即 1/2。
     另外，可选地，上述合并单元 310 合并后的状态中的每个高斯分量的权重可以根据合并前的相同高斯分量所属的状态的置信度来计算。根据置信度来计算权重的方法可以是本领域的技术人员公知的任何方法，本发明对此没有任何限制。
     本发明的用于生成语音标签的装置 300，由于合并后的发音状态序列包含多个识别结果的所有状态的高斯分量，因此可以很好的描述注册语音的差异，同时显著降低了给整个语音识别网络所带来的混淆度。
     以上虽然通过一些示例性的实施例对本发明的用于生成语音标签的方法和装置进行了详细的描述，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的发明思想和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅由所附权利要求为准。

资源描述

《用于生成语音标签的方法和装置.pdf》由会员分享，可在线阅读，更多相关《用于生成语音标签的方法和装置.pdf（12页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 102479510 A (43)申请公布日 2012.05.30 CN 102479510 A *CN102479510A* (21)申请号 201010561793.6 (22)申请日 2010.11.24 G10L 15/08(2006.01) G10L 15/14(2006.01) (71)申请人株式会社东芝地址日本东京都 (72)发明人赵蕤何磊 (74)专利代理机构北京市中咨律师事务所 11247 代理人杨晓光刘瑞东 (54) 发明名称用于生成语音标签的方法和装置 (57) 摘要本发明提供了用于生成语音标签的方法和装置。本发明的一种用于生。

2、成语音标签的装置，包括：输入单于，其输入注册语音；识别单元，其对上述注册语音进行识别，得到 N 个最优的识别结果，其中 N 是大于等于 2 的整数；以及合并单元，其将上述 N 个最优的识别结果合并为上述注册语音的语音标签。 (51)Int.Cl. 权利要求书 1 页说明书 8 页附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书 1 页说明书 8 页附图 2 页 1/1 页 2 1. 一种用于生成语音标签的装置，包括：输入单于，其输入注册语音；识别单元，其对上述注册语音进行识别，得到 N 个最优的识别结果。

3、，其中 N 是大于等于 2 的整数；以及合并单元，其将上述 N 个最优的识别结果合并为上述注册语音的语音标签。 2. 根据权利要求 1 所述的用于生成语音标签的装置，其中，上述识别单元基于隐马尔科夫模型对上述注册语音进行识别，得到上述 N 个最优的识别结果和对应的隐马尔科夫模型状态级时间分割信息。 3. 根据权利要求 2 所述的用于生成语音标签的装置，其中，上述合并单元基于上述隐马尔科夫模型状态级时间分割信息，将上述 N 个最优的识别结果在状态级上合并为上述注册语音的语音标签。 4. 根据权利要求 3 所述的用于生成语音标签的装置，其中，上述合并单元包括：。

4、时间分割点确定单元，其确定上述 N 个最优的识别结果的状态级时间分割点的并集，作为新的时间分割点；以及状态合并单元，其根据上述新的时间分割点，将上述 N 个最优的识别结果中位于同一时间分割段内的 N 个状态合并为一个状态，其中，将合并后的状态序列作为上述注册语音的语音标签。 5. 根据权利要求 4 所述的用于生成语音标签的装置，其中，上述合并后的状态的输出概率分布为合并前的上述 N 个状态的高斯分量的并集。 6. 根据权利要求 5 所述的用于生成语音标签的装置，其中，上述合并后的状态中的每个高斯分量的权重是合并前的与上述每个高斯分量相同的高斯分量的权重之和除以。

5、 N。 7. 根据权利要求 5 所述的用于生成语音标签的装置，其中，上述合并后的状态中的每个高斯分量的权重根据合并前的与上述每个高斯分量相同的高斯分量所属的状态的置信度来计算。 8.根据权利要求1所述的用于生成语音标签的装置，其中，上述N个最优的识别结果包括 N 个最优的发音单位序列或发音单位格。 9. 根据权利要求 8 所述的用于生成语音标签的装置，其中，上述发音单位包括音素、音节、词和 / 或短语。 10. 一种用于生成语音标签的方法，包括以下步骤：输入注册语音；对上述注册语音进行识别，得到 N 个最优的识别结果，其中 N 是大于等于 2 的整数；。

6、以及将上述 N 个最优的识别结果合并为上述注册语音的语音标签。权利要求书 CN 102479510 A 2 1/8 页 3 用于生成语音标签的方法和装置技术领域 0001 本发明涉及信息处理技术，具体地涉及语音识别技术，更具体地涉及语音识别领域中的语音标签技术。背景技术 0002 语音标签是语音识别技术的一个应用，特别是在嵌入式系统中比较广泛。涉及语音标签的过程如下：首先，用户向系统输入注册语音，系统将其转换成代表该注册语音的语音标签，并将该语音标签所表示的一个词条加入到识别网络中。此过程为注册过程。然后，基于含有语音标签词条的识别网络对测试语音进行识。

7、别，以确定其内容。此过程为识别过程。通常，识别过程中的识别网络不仅仅含有语音标签词条，还含有由词典或者字音转换模块提供发音的词条，称之为词典词条。 0003 最初的语音标签方法通常基于模板匹配的方法。在注册过程中，对注册语音提取出一个或多个模板作为该注册语音的标签，识别过程中利用动态时间规整算法对测试语音和模板标签进行匹配。近年来，随着基于音素的隐马尔科夫模型在语音识别中的普遍应用，音素序列作为语音标签已成为主流的语音标签方法。该方法中，作为语音标签的音素序列是通过对注册语音进行音素识别而得到的。音素序列标签的优势在于：首先，音素序列标签比模板标签占用内。

8、存少。其次，音素序列标签词条更容易和词典词条结合构成新的识别网络。这都有助于提高语音标签系统所允许的词条数目。但是音素序列标签方法也有一定的不足：首先，音素识别错误不可避免，这会导致音素序列标签不能完全代表注册语音的发音，由此造成识别错误。此外，注册语音和测试语音之间存在着不匹配，也会导致识别错误。因此，减少由于上述原因而导致的识别错误即成为目前语音标签技术中的一个研究重点。 0004 为了克服以上提出的音素序列标签方法的不足，研究者用多个发音标签表示一个标签词条 ( 参见非专利文献 1 ：“VOICE-TO-PHONEMECONVERSION ALGORITH。

9、MS FOR SPEAKER-INDEPENDENTVOICE-TAG APPLICATIONS IN EMBEDDED PLATFORMS” ， YanMing Cheng， Changxue Ma and Lynette Melnar， Automatic SpeechRecognition and Understanding， 2005IEEE Workshop on， pages 403-408，在此通过参考引入其整个内容 )。具体方法是在对注册语音进行音素识别的时候，取前 N 个最优的识别结果作为该注册语音的标签。利用这种多发音标签可以很明显的减少音素识别错误所带来的负面影响。

10、，也可以降低注册语音和测试语音之间不匹配所造成的性能下降。 0005 但是，一个标签词条由多个发音标签表示会提高识别网络的混淆度，尤其会明显降低系统中词典词条的识别性能。发明内容 0006 本发明正是鉴于上述现有技术中的问题而提出了用于生成语音标签的方法和装置，具体提供了以下技术方案。 0007 第 1 方案说明书 CN 102479510 A 3 2/8 页 4 0008 本发明的第 1 方案提供了一种用于生成语音标签的方法，包括以下步骤：输入注册语音；对上述注册语音进行识别，得到N个最优的识别结果，其中N是大于等于2的整数；以及将上述 N 个最优的。

11、识别结果合并为上述注册语音的语音标签。 0009 本发明的用于生成语音标签的方法，通过将表示多个发音的多个识别结果合并为一个发音序列，作为注册语音的语音标签，可以减小包含语音标签的识别网络的混淆度，进而有助于提高语音标签系统的性能，特别是对词典词条的识别性能。另外，本发明的方法与传统的多发音语音标签方法相比，没有明显增加计算消耗及模型大小。 0010 第 2 方案 0011 根据上述第 1 方案的用于生成语音标签的方法，其中，上述对上述注册语音进行识别的步骤包括以下步骤：基于隐马尔科夫模型对上述注册语音进行识别，得到上述 N 个最优的识别结果和对应的隐马尔科。

12、夫模型状态级时间分割信息。 0012 第 3 方案 0013 根据上述第 2 方案的用于生成语音标签的方法，其中，上述将上述 N 个最优的识别结果合并为上述注册语音的语音标签的步骤包括以下步骤：基于上述隐马尔科夫模型状态级时间分割信息，将上述 N 个最优的识别结果在状态级上合并为上述注册语音的语音标签。 0014 第 4 方案 0015 根据上述第 3 方案的用于生成语音标签的方法，其中，上述基于上述隐马尔科夫模型状态级时间分割信息，将上述 N 个最优的识别结果在状态级上合并为上述注册语音的语音标签的步骤包括以下步骤：确定上述 N 个最优的识别结果的状态级时间分割。

13、点的并集，作为新的时间分割点；以及，根据上述新的时间分割点，将上述 N 个最优的识别结果中位于同一时间分割段内的 N 个状态合并为一个状态，其中，将合并后的状态序列作为上述注册语音的语音标签。 0016 第 5 方案 0017 根据上述第 4 方案的用于生成语音标签的方法，其中，上述合并后的状态的输出概率分布为合并前的上述 N 个状态的高斯分量的并集。 0018 本发明的用于生成语音标签的方法，由于合并后的状态序列包含多个识别结果的所有状态的高斯分量，因此可以很好的描述注册语音的差异，同时显著降低了给整个语音识别网络所带来的混淆度。 0019 第 6 方案。

14、0020 根据上述第 5 方案的用于生成语音标签的方法，其中，上述合并后的状态中的每个高斯分量的权重是合并前的与上述每个高斯分量相同的高斯分量的权重之和除以 N。 0021 第 7 方案 0022 根据上述第 5 方案的用于生成语音标签的方法，其中，上述合并后的状态中的每个高斯分量的权重根据合并前的与上述每个高斯分量相同的高斯分量所属的状态的置信度来计算。 0023 第 8 方案 0024 根据上述第1-7方案的任一个用于生成语音标签的方法，其中，上述N个最优的识别结果包括 N 个最优的发音单位序列或发音单位格。说明书 CN 102479510 A 4 3/8 页 5。

15、 0025 第 9 方案 0026 根据上述第 8 方案的用于生成语音标签的方法，其中，上述发音单位包括音素、音节、词和 / 或短语。 0027 第 10 方案 0028 本发明的第 10 方案提供了一种用于生成语音标签的装置，包括：输入单元，其输入注册语音；识别单元，其对上述注册语音进行识别，得到N个最优的识别结果，其中N是大于等于2的整数；以及合并单元，其将上述N个最优的识别结果合并为上述注册语音的语音标签。 0029 本发明的用于生成语音标签的装置，通过将表示多个发音的多个识别结果合并为一个发音序列，作为注册语音的语音标签，可以减小包含语音。

16、标签的识别网络的混淆度，进而有助于提高语音标签系统的性能，特别是对词典词条的识别性能。另外，本发明的装置与传统的多发音语音标签系统相比，没有明显增加计算消耗及模型大小。 0030 第 11 方案 0031 根据上述第 10 方案的用于生成语音标签的装置，其中，上述识别单元基于隐马尔科夫模型对上述注册语音进行识别，得到上述 N 个最优的识别结果和对应的隐马尔科夫模型状态级时间分割信息。 0032 第 12 方案 0033 根据上述第 11 方案的用于生成语音标签的装置，其中，上述合并单元基于上述隐马尔科夫模型状态级时间分割信息，将上述 N 个最优的识别结果在状态级。

17、上合并为上述注册语音的语音标签。 0034 第 13 方案 0035 根据上述第 12 方案的用于生成语音标签的装置，其中，上述合并单元包括：时间分割点确定单元，其确定上述 N 个最优的识别结果的状态级时间分割点的并集，作为新的时间分割点；以及状态合并单元，其根据上述新的时间分割点，将上述 N 个最优的识别结果中位于同一时间分割段内的 N 个状态合并为一个状态，其中，将合并后的状态序列作为上述注册语音的语音标签。 0036 第 14 方案 0037 根据上述第 13 方案的用于生成语音标签的装置，其中，上述合并后的状态的输出概率分布为合并前的上述 N 个。

18、状态的高斯分量的并集。 0038 本发明的用于生成语音标签的装置，由于合并后的状态序列包含多个识别结果的所有状态的高斯分量，因此可以很好的描述注册语音的差异，同时显著降低了给整个语音识别网络所带来的混淆度。 0039 第 15 方案 0040 根据上述第 14 方案的用于生成语音标签的装置，其中，上述合并后的状态中的每个高斯分量的权重是合并前的与上述每个高斯分量相同的高斯分量的权重之和除以 N。 0041 第 16 方案 0042 根据上述第 14 方案的用于生成语音标签的装置，其中，上述合并后的状态中的每个高斯分量的权重根据合并前的与上述每个高斯分量相同的高斯分量所属的。

19、状态的置信度来计算。说明书 CN 102479510 A 5 4/8 页 6 0043 第 17 方案 0044 根据上述第10-16方案的任一个用于生成语音标签的装置，其中，上述N个最优的识别结果包括 N 个最优的发音单位序列或发音单位格。 0045 第 18 方案 0046 根据上述第 17 方案的用于生成语音标签的装置，其中，上述发音单位包括音素、音节、词和 / 或短语。附图说明 0047 相信通过以下结合附图对本发明具体实施方式的说明，能够使人们更好地了解本发明上述的特点、优点和目的。 0048 图 1 是根据本发明的第一实施例的用于生成语音标签的方法的流。

20、程图。 0049 图2是根据本发明的第一实施例的在隐马尔可夫状态级上将2个最优的识别结果合并为一个序列的示例图。 0050 图 3 是根据本发明的第二实施例的用于生成语音标签的装置的框图。 0051 图 4 是根据本发明的第二实施例的用于生成语音标签的装置的合并单元的具体结构的框图。具体实施方式 0052 下面就结合附图对本发明的各个优选实施例进行详细的说明。 0053 用于生成语音标签的方法 0054 图 1 是根据本发明的第一实施例的用于生成语音标签的方法的流程图。下面就结合该图，对本实施例进行描述。 0055 如图 1 所示，首先，在步骤 101，输入注册语音。在本实施例。

21、中，输入的注册语音可以是本领域的技术人员公知的任何类型的语音，本发明对此没有任何限制。 0056 接着，在步骤 105，对步骤 101 输入的注册语音进行识别，得到 N 个最优的识别结果，其中 N 是大于等于 2 的整数。在本实施例中，对注册语音进行识别的方法可以是本领域的技术人员公知的任何识别方法，本发明对此没有任何限制，只要能够从注册语音中识别出代表注册语音的发音的识别结果即可。 0057 在本实施例中，代表注册语音的发音的识别结果可以是发音单位序列或发音单位格等，其中，发音单位可以是音素、音节、词、短语或其组合，也可以是本领域的技术人员公知的任。

22、何其它发音单位，本发明对此没有任何限制，只要能够代表注册语音的发音即可。下面仅以音素序列为例进行说明。 0058 具体地，在步骤 105，对输入的注册语音进行音素识别，得到多个候选的音素序列。在多个候选的音素序列中，选出 N 个最优的音素序列作为步骤 105 的识别结果。在本实施例中，从多个候选的音素序列中选择 N 个最优的音素序列的方法可以是本领域的技术人员公知的任何方法，本发明对此没有任何限制。例如，可以首先计算得到的多个候选的音素序列的每一个的得分，接着以得分的高低进行排序，最后将排序后的前N个音素序列作为N个最优的音素序列。 0059 在本实施例中。

23、，优选，在步骤 105，基于隐马尔科夫模型对步骤 101 输入的注册语说明书 CN 102479510 A 6 5/8 页 7 音进行识别，得到 N 个最优的音素序列和对应的隐马尔科夫模型状态级时间分割信息。基于隐马尔科夫模型对注册语音进行识别的方法可以是本领域的技术人员公知的任何方法，例如非专利文献 2(“Fundamentals of speech recognition” ， Rabiner R.， Juang B.H.， Englewood Cliffs， New Jersey， Prentice Hall， 1993，在此通过参考引入其整个内容 ) 中公开的具体。

24、方法，本发明对此没有任何限制，只要能够得到 N 个最优的音素序列和对应的隐马尔科夫模型状态级时间分割信息即可。 0060 接着，在步骤110，将步骤105识别出的N个最优的识别结果合并，作为步骤101输入的注册语音的语音标签。 0061 具体地，在步骤 105 基于隐马尔科夫模型对注册语音进行识别的情况下，在步骤 110，基于上述隐马尔科夫模型状态级时间分割信息，将上述 N 个最优识别结果在状态级上合并，作为上述注册语音的语音标签。 0062 在本实施例中，优选，在合并过程中，首先确定上述 N 个最优的识别结果的状态级时间分割点的并集，作为新的时间分割点，。

25、然后，基于新的时间分割点，将上述 N 个最优的识别结果中位于同一时间分割段内的 N 个状态合并为一个状态，其中，将合并后的状态序列作为上述注册语音的语音标签。 0063 下面参考图 2 详细描述上述合并过程。图 2 是根据本发明的第一实施例的在隐马尔可夫状态级上将 2 个最优的音素序列合并为一个序列的示例图。在图 2 中，以 N 2 为例进行说明，即从步骤 105 识别出的多个候选的识别结果中选择出 2 个最优的音素序列。 0064 如图 2 所示，音素序列 1 包括 n 个状态 S1-1、 S1-2、 .、 S1-n，音素序列 2 包括 m 个状态 S2-1、 S2-。

26、2、 .、 S2-m，其中，音素序列 1 包括 n+1 个时间分割点，音素序列 2 包括 m+1 个时间分割点。 0065 在本实施例的合并过程中，首先，确定音素序列1的n+1个时间分割点和音素序列 2 的 m+1 个时间分割点的并集，作为新的时间分割点。如图 2 所示，新的时间分割点为 t0、 t1、 .、 tk，即 k+1 个。例如，在 n 和 m 都为 3 的情况下，音素序列 1 包括 3 个状态 S1-1、 S1-2 和 S1-3 以及 4 个时间分割点 t0、 t1、 t3 和 t4，音素序列 2 包括 3 个状态 S2-1、 S2-2 和 S2-3 以及 4 。

27、个时间分割点 t0、 t2、 t3 和 t4。此时，音素序列 1 的时间分割点和音素序列 2 的时间分割点的并集为 t0、 t1、 t2、 t3、 t4。 0066 接着，基于新的时间分割点 t0、 t1、 .、 tk，将每个时间分割段内音素序列 1 和 2 的状态合并为一个状态。具体地，将 t0 和 t1 之间的状态 S1-1 和 S2-1 合并为状态 M-1，将 t1 和 t2 之间的状态 S1-2 和 S2-1 合并为状态 M-2，将 t2 和 t3 之间的状态 S1-2 和 S2-2 合并为状态 M-3，将 t3 和 t4 之间的状态 S1-3 和 S2-3 合并为状态。

28、 M-4， .，将 tk-1 和 tk 之间的状态 S1-n 和 S2-m 合并为状态 M-k。从而，得到合并后的状态序列，并将其作为上述注册语音的语音标签。 0067 本发明的用于生成语音标签的方法，通过将表示多个发音的多个识别结果合并为一个发音序列，作为注册语音的语音标签，可以减小包含语音标签的识别网络的混淆度，进而有助于提高语音标签系统的性能，特别是对词典词条的识别性能。另外，本发明的方法与传统的多发音语音标签方法相比，没有明显增加计算消耗及模型大小。 0068 在本实施例中，优选，上述合并后的状态的输出概率分布为合并前的上述 N 个状态的高斯分量的。

29、并集。例如，如图 2 所述，合并后的状态 M-1 的输出概率分布为合并前的说明书 CN 102479510 A 7 6/8 页 8 状态 S1-1 和 S2-1 的高斯分量的并集，合并后的状态 M-2 的输出概率分布为合并前的状态 S1-2 和 S2-1 的高斯分量的并集。 0069 在本实施例中，优选，上述合并后的状态中的每个高斯分量的权重是合并前的相同高斯分量的权重之和除以N。例如，如图2所示，合并后的状态M-1只有一个高斯分量，合并前的与其相同的高斯分量为状态 S1-1 的高斯分量 ( 权重为 1) 和 S2-1 的高斯分量 ( 权重为 1)，则合并后的权。

30、重为 (1+1) 除以 2，即 1。合并后的状态 M-2 具有 2 个高斯分量，其左边的高斯分量与合并前的状态 S2-1 的高斯分量 ( 权重为 1) 相同，其右边的高斯分量与合并前的状态 S1-2 的高斯分量 ( 权重为 1) 相同。合并后，其左边的高斯分量的权重为状态 S2-1 的高斯分量的权重除以 2，即 1/2，其右边的高斯分量的权重为状态 S1-2 的高斯分量的权重除以 2，即 1/2。 0070 另外，可选地，上述合并后的状态中的每个高斯分量的权重可以根据合并前的相同高斯分量所属的状态的置信度来计算。根据置信度来计算权重的方法可以是本领域的技术人员公。

31、知的任何方法，本发明对此没有任何限制。 0071 本发明的用于生成语音标签的方法，由于合并后的发音状态序列包含多个识别结果的所有状态的高斯分量，因此可以很好的描述注册语音的差异，同时显著降低了给整个语音识别网络所带来的混淆度。 0072 用于生成语音标签的装置 0073 在同一发明构思下，图 3 是根据本发明的第二实施例的用于生成语音标签的装置的框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。 0074 如图 3 所示，本实施例的用于生成语音标签的装置 300，包括：输入单于 301，其输入注册语音；识别单元 30。

32、5，其对上述注册语音进行识别，得到 N 个最优的识别结果，其中 N 是大于等于 2 的整数；以及合并单元 310，其将上述 N 个最优的识别结果合并为上述注册语音的语音标签。 0075 在本实施例中，输入单元 301 输入的注册语音可以是本领域的技术人员公知的任何类型的语音，本发明对此没有任何限制。 0076 在本实施例中，对注册语音进行识别的识别单元 305 可以是本领域的技术人员公知的任何识别模块，本发明对此没有任何限制，只要能够从注册语音中识别出代表注册语音的发音的识别结果即可。 0077 在本实施例中，代表注册语音的发音的识别结果可以是发音单位序列或发音。

33、单位格等，其中，发音单位可以是音素、音节、词、短语或其组合，也可以是本领域的技术人员公知的任何其它发音单位，本发明对此没有任何限制，只要能够代表注册语音的发音即可。下面仅以音素序列为例进行说明。 0078 具体地，识别单元 305 对输入的注册语音进行音素识别，得到多个候选的音素序列。在多个候选的音素序列中，选出N个最优的音素序列作为识别单元305的识别结果。在本实施例中，从多个候选的音素序列中选择 N 个最优的音素序列的方法可以是本领域的技术人员公知的任何方法，本发明对此没有任何限制。例如，可以首先计算得到的多个候选的音素序列的每一个的得分，。

34、接着以得分的高低进行排序，最后将排序后的前 N 个音素序列作为 N 个最优的音素序列。说明书 CN 102479510 A 8 7/8 页 9 0079 在本实施例中，优选，识别单元 305 基于隐马尔科夫模型对输入单元 301 输入的注册语音进行识别，得到 N 个最优的音素序列和对应的隐马尔科夫模型状态级时间分割信息。基于隐马尔科夫模型对注册语音进行识别的方法可以是本领域的技术人员公知的任何方法，例如上述非专利文献 2 中公开的具体方法，本发明对此没有任何限制，只要能够得到 N 个最优的音素序列和对应的隐马尔科夫模型状态级时间分割信息即可。 0080 在本实施。

35、例中，在识别单元 305 基于隐马尔科夫模型对注册语音进行识别的情况下，合并单元310基于上述隐马尔科夫模型状态级时间分割信息，将上述N个最优的识别结果在状态级上合并为上述注册语音的语音标签。 0081 在本实施例中，优选，如图 4 所示，合并单元 310 包括：分割点确定单元 3101，其确定上述 N 个最优的识别结果的状态级时间分割点的并集，作为新的时间分割点；以及状态合并单元 3105，其根据上述新的时间分割点，将 N 个最优的识别结果中位于同一时间分割段内的 N 个状态合并为一个状态，其中，将合并后的状态序列作为上述注册语音的语音标签。 00。

36、82 下面参考图 2 详细描述图 4 所示的合并单元 310 的合并过程。在图 2 中，以 N 2 为例进行说明，即从识别单元 305 识别出的多个候选的识别结果中选择出 2 个最优的音素序列。 0083 如图 2 所示，音素序列 1 包括 n 个状态 S1-1、 S1-2、 .、 S1-n，音素序列 2 包括 m 个状态 S2-1、 S2-2、 .、 S2-m，其中，音素序列 1 包括 n+1 个时间分割点，音素序列 2 包括 m+1 个时间分割点。 0084 在本实施例的合并过程中，首先，分割点确定单元 3101 确定音素序列 1 的 n+1 个时间分割点和音素序列。

37、2 的 m+1 个时间分割点的并集，作为新的时间分割点。如图 2 所示，新的时间分割点为 t0、 t1、 .、 tk，即 k+1 个。例如，在 n 和 m 都为 3 的情况下，音素序列 1 包括 3 个状态 S1-1、 S1-2 和 S1-3 以及 4 个时间分割点 t0、 t1、 t3 和 t4，音素序列 2 包括 3 个状态 S2-1、 S2-2 和 S2-3 以及 4 个时间分割点 t0、 t2、 t3 和 t4。此时，音素序列 1 的时间分割点和音素序列 2 的时间分割点的并集为 t0、 t1、 t2、 t3、 t4。 0085 接着，状态合并单元 3105 根据新的。

38、时间分割点 t0、 t1、 .、 tk，将每个时间分割段内音素序列 1 和 2 的状态合并为一个状态。具体地，将 t0 和 t1 之间的状态 S1-1 和 S2-1 合并为状态M-1，将t1和t2之间的状态S1-2和S2-1合并为状态M-2，将t2和t3之间的状态 S1-2 和 S2-2 合并为状态 M-3，将 t3 和 t4 之间的状态 S1-3 和 S2-3 合并为状态 M-4， .，将 tk-1 和 tk 之间的状态 S1-n 和 S2-m 合并为状态 M-k。从而，得到合并后的状态序列，并将其作为上述注册语音的语音标签。 0086 本发明的用于生成语音标签的装置。

39、300，通过将表示多个发音的多个识别结果合并为一个发音序列，作为注册语音的语音标签，可以减小包含语音标签的识别网络的混淆度，进而有助于提高语音标签系统性能，特别是对词典词条的识别性能。另外，本发明的装置 300 与传统的多发音语音标签系统相比，没有明显增加计算消耗及模型大小。 0087 在本实施例中，优选，上述合并单元 310 合并后的状态的输出概率分布为合并前的上述 N 个状态的高斯分量的并集。例如，如图 2 所述，合并后的状态 M-1 的输出概率分布为合并前的状态 S1-1 和 S2-1 的高斯分量的并集，合并后的状态 M-2 的输出概率分布为合并前的状。

40、态 S1-2 和 S2-1 的高斯分量的并集。说明书 CN 102479510 A 9 8/8 页 10 0088 在本实施例中，优选，上述合并单元 310 合并后的状态中的每个高斯分量的权重是合并前的相同分量的权重之和除以 N。例如，如图 2 所示，合并后的状态 M-1 只有一个高斯分量，合并前的与其相同的高斯分量是 S1-1 的高斯分量 ( 权重为 1) 和 S2-1 的高斯分量 ( 权重为 1)，因此合并后的权重为 (1+1) 除以 2，即 1。合并后的状态 M-2 具有 2 个高斯分量，其左边的高斯分量为合并前的状态 S2-1 的高斯分量，其右边的高斯分量。

41、为合并前的状态 S1-2 的高斯分量，其左边的高斯分量的权重为状态 S2-1 的高斯分量的权重 ( 为 1) 除以 2，即 1/2，其右边的高斯分量的权重为状态 S1-2 的高斯分量的权重 ( 为 1) 除以 2，即 1/2。 0089 另外，可选地，上述合并单元 310 合并后的状态中的每个高斯分量的权重可以根据合并前的相同高斯分量所属的状态的置信度来计算。根据置信度来计算权重的方法可以是本领域的技术人员公知的任何方法，本发明对此没有任何限制。 0090 本发明的用于生成语音标签的装置 300，由于合并后的发音状态序列包含多个识别结果的所有状态的高斯分量，因此可以很好的描述注册语音的差异，同时显著降低了给整个语音识别网络所带来的混淆度。 0091 以上虽然通过一些示例性的实施例对本发明的用于生成语音标签的方法和装置进行了详细的描述，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的发明思想和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅由所附权利要求为准。说明书 CN 102479510 A 10 1/2 页 11 图 1 图 2 说明书附图 CN 102479510 A 11 2/2 页 12 图 3 图 4 说明书附图 CN 102479510 A 12 。

展开阅读全文