用于生成语音标签的方法和装置 技术领域 本发明涉及信息处理技术, 具体地涉及语音识别技术, 更具体地涉及语音识别领 域中的语音标签技术。
背景技术 语音标签是语音识别技术的一个应用, 特别是在嵌入式系统中比较广泛。涉及语 音标签的过程如下 : 首先, 用户向系统输入注册语音, 系统将其转换成代表该注册语音的语 音标签, 并将该语音标签所表示的一个词条加入到识别网络中。此过程为注册过程。然后, 基于含有语音标签词条的识别网络对测试语音进行识别, 以确定其内容。此过程为识别过 程。 通常, 识别过程中的识别网络不仅仅含有语音标签词条, 还含有由词典或者字音转换模 块提供发音的词条, 称之为词典词条。
最初的语音标签方法通常基于模板匹配的方法。在注册过程中, 对注册语音提取 出一个或多个模板作为该注册语音的标签, 识别过程中利用动态时间规整算法对测试语音 和模板标签进行匹配。 近年来, 随着基于音素的隐马尔科夫模型在语音识别中的普遍应用, 音素序列作为语音标签已成为主流的语音标签方法。该方法中, 作为语音标签的音素序列 是通过对注册语音进行音素识别而得到的。音素序列标签的优势在于 : 首先, 音素序列标 签比模板标签占用内存少。其次, 音素序列标签词条更容易和词典词条结合构成新的识别 网络。这都有助于提高语音标签系统所允许的词条数目。但是音素序列标签方法也有一定 的不足 : 首先, 音素识别错误不可避免, 这会导致音素序列标签不能完全代表注册语音的发 音, 由此造成识别错误。 此外, 注册语音和测试语音之间存在着不匹配, 也会导致识别错误。 因此, 减少由于上述原因而导致的识别错误即成为目前语音标签技术中的一个研究重点。
为了克服以上提出的音素序列标签方法的不足, 研究者用多个发音标签表示 一个标签词条 ( 参见非专利文献 1 : “VOICE-TO-PHONEMECONVERSION ALGORITHMS FOR SPEAKER-INDEPENDENTVOICE-TAG APPLICATIONS IN EMBEDDED PLATFORMS” , YanMing Cheng , Changxue Ma and Lynette Melnar , Automatic SpeechRecognition and Understanding, 2005IEEE Workshop on, pages 403-408, 在此通过参考引入其整个内容 )。 具体方法是在对注册语音进行音素识别的时候, 取前 N 个最优的识别结果作为该注册语音 的标签。利用这种多发音标签可以很明显的减少音素识别错误所带来的负面影响, 也可以 降低注册语音和测试语音之间不匹配所造成的性能下降。
但是, 一个标签词条由多个发音标签表示会提高识别网络的混淆度, 尤其会明显 降低系统中词典词条的识别性能。
发明内容 本发明正是鉴于上述现有技术中的问题而提出了用于生成语音标签的方法和装 置, 具体提供了以下技术方案。
[ 第 1 方案 ]
本发明的第 1 方案提供了一种用于生成语音标签的方法, 包括以下步骤 : 输入注 册语音 ; 对上述注册语音进行识别, 得到 N 个最优的识别结果, 其中 N 是大于等于 2 的整数 ; 以及将上述 N 个最优的识别结果合并为上述注册语音的语音标签。
本发明的用于生成语音标签的方法, 通过将表示多个发音的多个识别结果合并为 一个发音序列, 作为注册语音的语音标签, 可以减小包含语音标签的识别网络的混淆度, 进 而有助于提高语音标签系统的性能, 特别是对词典词条的识别性能。 另外, 本发明的方法与 传统的多发音语音标签方法相比, 没有明显增加计算消耗及模型大小。
[ 第 2 方案 ]
根据上述第 1 方案的用于生成语音标签的方法, 其中, 上述对上述注册语音进行 识别的步骤包括以下步骤 : 基于隐马尔科夫模型对上述注册语音进行识别, 得到上述 N 个 最优的识别结果和对应的隐马尔科夫模型状态级时间分割信息。
[ 第 3 方案 ]
根据上述第 2 方案的用于生成语音标签的方法, 其中, 上述将上述 N 个最优的识 别结果合并为上述注册语音的语音标签的步骤包括以下步骤 : 基于上述隐马尔科夫模型状 态级时间分割信息, 将上述 N 个最优的识别结果在状态级上合并为上述注册语音的语音标 签。
[ 第 4 方案 ]
根据上述第 3 方案的用于生成语音标签的方法, 其中, 上述基于上述隐马尔科夫 模型状态级时间分割信息, 将上述 N 个最优的识别结果在状态级上合并为上述注册语音的 语音标签的步骤包括以下步骤 : 确定上述 N 个最优的识别结果的状态级时间分割点的并 集, 作为新的时间分割点 ; 以及, 根据上述新的时间分割点, 将上述 N 个最优的识别结果中 位于同一时间分割段内的 N 个状态合并为一个状态, 其中, 将合并后的状态序列作为上述 注册语音的语音标签。
[ 第 5 方案 ]
根据上述第 4 方案的用于生成语音标签的方法, 其中, 上述合并后的状态的输出 概率分布为合并前的上述 N 个状态的高斯分量的并集。
本发明的用于生成语音标签的方法, 由于合并后的状态序列包含多个识别结果的 所有状态的高斯分量, 因此可以很好的描述注册语音的差异, 同时显著降低了给整个语音 识别网络所带来的混淆度。
[ 第 6 方案 ]
根据上述第 5 方案的用于生成语音标签的方法, 其中, 上述合并后的状态中的每 个高斯分量的权重是合并前的与上述每个高斯分量相同的高斯分量的权重之和除以 N。
[ 第 7 方案 ]
根据上述第 5 方案的用于生成语音标签的方法, 其中, 上述合并后的状态中的每 个高斯分量的权重根据合并前的与上述每个高斯分量相同的高斯分量所属的状态的置信 度来计算。
[ 第 8 方案 ]
根据上述第 1-7 方案的任一个用于生成语音标签的方法, 其中, 上述 N 个最优的识 别结果包括 N 个最优的发音单位序列或发音单位格。[ 第 9 方案 ]
根据上述第 8 方案的用于生成语音标签的方法, 其中, 上述发音单位包括音素、 音 节、 词和 / 或短语。
[ 第 10 方案 ]
本发明的第 10 方案提供了一种用于生成语音标签的装置, 包括 : 输入单元, 其输 入注册语音 ; 识别单元, 其对上述注册语音进行识别, 得到 N 个最优的识别结果, 其中 N 是大 于等于 2 的整数 ; 以及合并单元, 其将上述 N 个最优的识别结果合并为上述注册语音的语音 标签。
本发明的用于生成语音标签的装置, 通过将表示多个发音的多个识别结果合并为 一个发音序列, 作为注册语音的语音标签, 可以减小包含语音标签的识别网络的混淆度, 进 而有助于提高语音标签系统的性能, 特别是对词典词条的识别性能。 另外, 本发明的装置与 传统的多发音语音标签系统相比, 没有明显增加计算消耗及模型大小。
[ 第 11 方案 ]
根据上述第 10 方案的用于生成语音标签的装置, 其中, 上述识别单元基于隐马尔 科夫模型对上述注册语音进行识别, 得到上述 N 个最优的识别结果和对应的隐马尔科夫模 型状态级时间分割信息。 [ 第 12 方案 ]
根据上述第 11 方案的用于生成语音标签的装置, 其中, 上述合并单元基于上述隐 马尔科夫模型状态级时间分割信息, 将上述 N 个最优的识别结果在状态级上合并为上述注 册语音的语音标签。
[ 第 13 方案 ]
根据上述第 12 方案的用于生成语音标签的装置, 其中, 上述合并单元包括 : 时间 分割点确定单元, 其确定上述 N 个最优的识别结果的状态级时间分割点的并集, 作为新的 时间分割点 ; 以及状态合并单元, 其根据上述新的时间分割点, 将上述 N 个最优的识别结果 中位于同一时间分割段内的 N 个状态合并为一个状态, 其中, 将合并后的状态序列作为上 述注册语音的语音标签。
[ 第 14 方案 ]
根据上述第 13 方案的用于生成语音标签的装置, 其中, 上述合并后的状态的输出 概率分布为合并前的上述 N 个状态的高斯分量的并集。
本发明的用于生成语音标签的装置, 由于合并后的状态序列包含多个识别结果的 所有状态的高斯分量, 因此可以很好的描述注册语音的差异, 同时显著降低了给整个语音 识别网络所带来的混淆度。
[ 第 15 方案 ]
根据上述第 14 方案的用于生成语音标签的装置, 其中, 上述合并后的状态中的每 个高斯分量的权重是合并前的与上述每个高斯分量相同的高斯分量的权重之和除以 N。
[ 第 16 方案 ]
根据上述第 14 方案的用于生成语音标签的装置, 其中, 上述合并后的状态中的每 个高斯分量的权重根据合并前的与上述每个高斯分量相同的高斯分量所属的状态的置信 度来计算。
[ 第 17 方案 ]
根据上述第 10-16 方案的任一个用于生成语音标签的装置, 其中, 上述 N 个最优的 识别结果包括 N 个最优的发音单位序列或发音单位格。
[ 第 18 方案 ]
根据上述第 17 方案的用于生成语音标签的装置, 其中, 上述发音单位包括音素、 音节、 词和 / 或短语。 附图说明 相信通过以下结合附图对本发明具体实施方式的说明, 能够使人们更好地了解本 发明上述的特点、 优点和目的。
图 1 是根据本发明的第一实施例的用于生成语音标签的方法的流程图。
图 2 是根据本发明的第一实施例的在隐马尔可夫状态级上将 2 个最优的识别结果 合并为一个序列的示例图。
图 3 是根据本发明的第二实施例的用于生成语音标签的装置的框图。
图 4 是根据本发明的第二实施例的用于生成语音标签的装置的合并单元的具体 结构的框图。
具体实施方式
下面就结合附图对本发明的各个优选实施例进行详细的说明。
用于生成语音标签的方法
图 1 是根据本发明的第一实施例的用于生成语音标签的方法的流程图。下面就结 合该图, 对本实施例进行描述。
如图 1 所示, 首先, 在步骤 101, 输入注册语音。在本实施例中, 输入的注册语音可 以是本领域的技术人员公知的任何类型的语音, 本发明对此没有任何限制。
接着, 在步骤 105, 对步骤 101 输入的注册语音进行识别, 得到 N 个最优的识别结 果, 其中 N 是大于等于 2 的整数。在本实施例中, 对注册语音进行识别的方法可以是本领域 的技术人员公知的任何识别方法, 本发明对此没有任何限制, 只要能够从注册语音中识别 出代表注册语音的发音的识别结果即可。
在本实施例中, 代表注册语音的发音的识别结果可以是发音单位序列或发音单位 格等, 其中, 发音单位可以是音素、 音节、 词、 短语或其组合, 也可以是本领域的技术人员公 知的任何其它发音单位, 本发明对此没有任何限制, 只要能够代表注册语音的发音即可。 下 面仅以音素序列为例进行说明。
具体地, 在步骤 105, 对输入的注册语音进行音素识别, 得到多个候选的音素序列。 在多个候选的音素序列中, 选出 N 个最优的音素序列作为步骤 105 的识别结果。在本实施 例中, 从多个候选的音素序列中选择 N 个最优的音素序列的方法可以是本领域的技术人员 公知的任何方法, 本发明对此没有任何限制。 例如, 可以首先计算得到的多个候选的音素序 列的每一个的得分, 接着以得分的高低进行排序, 最后将排序后的前 N 个音素序列作为 N 个 最优的音素序列。
在本实施例中, 优选, 在步骤 105, 基于隐马尔科夫模型对步骤 101 输入的注册语音进行识别, 得到 N 个最优的音素序列和对应的隐马尔科夫模型状态级时间分割信息。基 于隐马尔科夫模型对注册语音进行识别的方法可以是本领域的技术人员公知的任何方法, 例如非专利文献 2(“Fundamentals of speech recognition” , Rabiner R., Juang B.H., Englewood Cliffs, New Jersey, Prentice Hall, 1993, 在此通过参考引入其整个内容 ) 中 公开的具体方法, 本发明对此没有任何限制, 只要能够得到 N 个最优的音素序列和对应的 隐马尔科夫模型状态级时间分割信息即可。
接着, 在步骤 110, 将步骤 105 识别出的 N 个最优的识别结果合并, 作为步骤 101 输 入的注册语音的语音标签。
具体地, 在步骤 105 基于隐马尔科夫模型对注册语音进行识别的情况下, 在步骤 110, 基于上述隐马尔科夫模型状态级时间分割信息, 将上述 N 个最优识别结果在状态级上 合并, 作为上述注册语音的语音标签。
在本实施例中, 优选, 在合并过程中, 首先确定上述 N 个最优的识别结果的状态级 时间分割点的并集, 作为新的时间分割点, 然后, 基于新的时间分割点, 将上述 N 个最优的 识别结果中位于同一时间分割段内的 N 个状态合并为一个状态, 其中, 将合并后的状态序 列作为上述注册语音的语音标签。 下面参考图 2 详细描述上述合并过程。图 2 是根据本发明的第一实施例的在隐马 尔可夫状态级上将 2 个最优的音素序列合并为一个序列的示例图。在图 2 中, 以N=2为 例进行说明, 即从步骤 105 识别出的多个候选的识别结果中选择出 2 个最优的音素序列。
如图 2 所示, 音素序列 1 包括 n 个状态 S1-1、 S1-2、 ...、 S1-n, 音素序列 2 包括 m 个状态 S2-1、 S2-2、 ...、 S2-m, 其中, 音素序列 1 包括 n+1 个时间分割点, 音素序列 2 包括 m+1 个时间分割点。
在本实施例的合并过程中, 首先, 确定音素序列 1 的 n+1 个时间分割点和音素序列 2 的 m+1 个时间分割点的并集, 作为新的时间分割点。如图 2 所示, 新的时间分割点为 t0、 t1、 ...、 tk, 即 k+1 个。例如, 在 n 和 m 都为 3 的情况下, 音素序列 1 包括 3 个状态 S1-1、 S1-2 和 S1-3 以及 4 个时间分割点 t0、 t1、 t3 和 t4, 音素序列 2 包括 3 个状态 S2-1、 S2-2 和 S2-3 以及 4 个时间分割点 t0、 t2、 t3 和 t4。此时, 音素序列 1 的时间分割点和音素序列 2 的时间分割点的并集为 {t0、 t1、 t2、 t3、 t4}。
接着, 基于新的时间分割点 t0、 t1、 ...、 tk, 将每个时间分割段内音素序列 1 和 2 的状态合并为一个状态。具体地, 将 t0 和 t1 之间的状态 S1-1 和 S2-1 合并为状态 M-1, 将 t1 和 t2 之间的状态 S1-2 和 S2-1 合并为状态 M-2, 将 t2 和 t3 之间的状态 S1-2 和 S2-2 合 并为状态 M-3, 将 t3 和 t4 之间的状态 S1-3 和 S2-3 合并为状态 M-4, ..., 将 tk-1 和 tk 之 间的状态 S1-n 和 S2-m 合并为状态 M-k。从而, 得到合并后的状态序列, 并将其作为上述注 册语音的语音标签。
本发明的用于生成语音标签的方法, 通过将表示多个发音的多个识别结果合并为 一个发音序列, 作为注册语音的语音标签, 可以减小包含语音标签的识别网络的混淆度, 进 而有助于提高语音标签系统的性能, 特别是对词典词条的识别性能。 另外, 本发明的方法与 传统的多发音语音标签方法相比, 没有明显增加计算消耗及模型大小。
在本实施例中, 优选, 上述合并后的状态的输出概率分布为合并前的上述 N 个状 态的高斯分量的并集。例如, 如图 2 所述, 合并后的状态 M-1 的输出概率分布为合并前的
状态 S1-1 和 S2-1 的高斯分量的并集, 合并后的状态 M-2 的输出概率分布为合并前的状态 S1-2 和 S2-1 的高斯分量的并集。
在本实施例中, 优选, 上述合并后的状态中的每个高斯分量的权重是合并前的相 同高斯分量的权重之和除以 N。 例如, 如图 2 所示, 合并后的状态 M-1 只有一个高斯分量, 合 并前的与其相同的高斯分量为状态 S1-1 的高斯分量 ( 权重为 1) 和 S2-1 的高斯分量 ( 权 重为 1), 则合并后的权重为 (1+1) 除以 2, 即 1。合并后的状态 M-2 具有 2 个高斯分量, 其 左边的高斯分量与合并前的状态 S2-1 的高斯分量 ( 权重为 1) 相同, 其右边的高斯分量与 合并前的状态 S1-2 的高斯分量 ( 权重为 1) 相同。合并后, 其左边的高斯分量的权重为状 态 S2-1 的高斯分量的权重除以 2, 即 1/2, 其右边的高斯分量的权重为状态 S1-2 的高斯分 量的权重除以 2, 即 1/2。
另外, 可选地, 上述合并后的状态中的每个高斯分量的权重可以根据合并前的相 同高斯分量所属的状态的置信度来计算。 根据置信度来计算权重的方法可以是本领域的技 术人员公知的任何方法, 本发明对此没有任何限制。
本发明的用于生成语音标签的方法, 由于合并后的发音状态序列包含多个识别结 果的所有状态的高斯分量, 因此可以很好的描述注册语音的差异, 同时显著降低了给整个 语音识别网络所带来的混淆度。 用于生成语音标签的装置
在同一发明构思下, 图 3 是根据本发明的第二实施例的用于生成语音标签的装置 的框图。下面就结合该图, 对本实施例进行描述。对于那些与前面实施例相同的部分, 适当 省略其说明。
如图 3 所示, 本实施例的用于生成语音标签的装置 300, 包括 : 输入单于 301, 其输 入注册语音 ; 识别单元 305, 其对上述注册语音进行识别, 得到 N 个最优的识别结果, 其中 N 是大于等于 2 的整数 ; 以及合并单元 310, 其将上述 N 个最优的识别结果合并为上述注册语 音的语音标签。
在本实施例中, 输入单元 301 输入的注册语音可以是本领域的技术人员公知的任 何类型的语音, 本发明对此没有任何限制。
在本实施例中, 对注册语音进行识别的识别单元 305 可以是本领域的技术人员公 知的任何识别模块, 本发明对此没有任何限制, 只要能够从注册语音中识别出代表注册语 音的发音的识别结果即可。
在本实施例中, 代表注册语音的发音的识别结果可以是发音单位序列或发音单位 格等, 其中, 发音单位可以是音素、 音节、 词、 短语或其组合, 也可以是本领域的技术人员公 知的任何其它发音单位, 本发明对此没有任何限制, 只要能够代表注册语音的发音即可。 下 面仅以音素序列为例进行说明。
具体地, 识别单元 305 对输入的注册语音进行音素识别, 得到多个候选的音素序 列。 在多个候选的音素序列中, 选出 N 个最优的音素序列作为识别单元 305 的识别结果。 在 本实施例中, 从多个候选的音素序列中选择 N 个最优的音素序列的方法可以是本领域的技 术人员公知的任何方法, 本发明对此没有任何限制。 例如, 可以首先计算得到的多个候选的 音素序列的每一个的得分, 接着以得分的高低进行排序, 最后将排序后的前 N 个音素序列 作为 N 个最优的音素序列。
在本实施例中, 优选, 识别单元 305 基于隐马尔科夫模型对输入单元 301 输入的 注册语音进行识别, 得到 N 个最优的音素序列和对应的隐马尔科夫模型状态级时间分割信 息。 基于隐马尔科夫模型对注册语音进行识别的方法可以是本领域的技术人员公知的任何 方法, 例如上述非专利文献 2 中公开的具体方法, 本发明对此没有任何限制, 只要能够得到 N 个最优的音素序列和对应的隐马尔科夫模型状态级时间分割信息即可。
在本实施例中, 在识别单元 305 基于隐马尔科夫模型对注册语音进行识别的情况 下, 合并单元 310 基于上述隐马尔科夫模型状态级时间分割信息, 将上述 N 个最优的识别结 果在状态级上合并为上述注册语音的语音标签。
在本实施例中, 优选, 如图 4 所示, 合并单元 310 包括 : 分割点确定单元 3101, 其确 定上述 N 个最优的识别结果的状态级时间分割点的并集, 作为新的时间分割点 ; 以及状态 合并单元 3105, 其根据上述新的时间分割点, 将 N 个最优的识别结果中位于同一时间分割 段内的 N 个状态合并为一个状态, 其中, 将合并后的状态序列作为上述注册语音的语音标 签。
下面参考图 2 详细描述图 4 所示的合并单元 310 的合并过程。在图 2 中, 以N=2 为例进行说明, 即从识别单元 305 识别出的多个候选的识别结果中选择出 2 个最优的音素 序列。 如图 2 所示, 音素序列 1 包括 n 个状态 S1-1、 S1-2、 ...、 S1-n, 音素序列 2 包括 m 个状态 S2-1、 S2-2、 ...、 S2-m, 其中, 音素序列 1 包括 n+1 个时间分割点, 音素序列 2 包括 m+1 个时间分割点。
在本实施例的合并过程中, 首先, 分割点确定单元 3101 确定音素序列 1 的 n+1 个 时间分割点和音素序列 2 的 m+1 个时间分割点的并集, 作为新的时间分割点。如图 2 所示, 新的时间分割点为 t0、 t1、 ...、 tk, 即 k+1 个。例如, 在 n 和 m 都为 3 的情况下, 音素序列 1 包括 3 个状态 S1-1、 S1-2 和 S1-3 以及 4 个时间分割点 t0、 t1、 t3 和 t4, 音素序列 2 包括 3 个状态 S2-1、 S2-2 和 S2-3 以及 4 个时间分割点 t0、 t2、 t3 和 t4。此时, 音素序列 1 的时间 分割点和音素序列 2 的时间分割点的并集为 {t0、 t1、 t2、 t3、 t4}。
接着, 状态合并单元 3105 根据新的时间分割点 t0、 t1、 ...、 tk, 将每个时间分割段 内音素序列 1 和 2 的状态合并为一个状态。具体地, 将 t0 和 t1 之间的状态 S1-1 和 S2-1 合 并为状态 M-1, 将 t1 和 t2 之间的状态 S1-2 和 S2-1 合并为状态 M-2, 将 t2 和 t3 之间的状态 S1-2 和 S2-2 合并为状态 M-3, 将 t3 和 t4 之间的状态 S1-3 和 S2-3 合并为状态 M-4, ..., 将 tk-1 和 tk 之间的状态 S1-n 和 S2-m 合并为状态 M-k。从而, 得到合并后的状态序列, 并 将其作为上述注册语音的语音标签。
本发明的用于生成语音标签的装置 300, 通过将表示多个发音的多个识别结果合 并为一个发音序列, 作为注册语音的语音标签, 可以减小包含语音标签的识别网络的混淆 度, 进而有助于提高语音标签系统性能, 特别是对词典词条的识别性能。另外, 本发明的装 置 300 与传统的多发音语音标签系统相比, 没有明显增加计算消耗及模型大小。
在本实施例中, 优选, 上述合并单元 310 合并后的状态的输出概率分布为合并前 的上述 N 个状态的高斯分量的并集。例如, 如图 2 所述, 合并后的状态 M-1 的输出概率分布 为合并前的状态 S1-1 和 S2-1 的高斯分量的并集, 合并后的状态 M-2 的输出概率分布为合 并前的状态 S1-2 和 S2-1 的高斯分量的并集。
在本实施例中, 优选, 上述合并单元 310 合并后的状态中的每个高斯分量的权重 是合并前的相同分量的权重之和除以 N。例如, 如图 2 所示, 合并后的状态 M-1 只有一个高 斯分量, 合并前的与其相同的高斯分量是 S1-1 的高斯分量 ( 权重为 1) 和 S2-1 的高斯分量 ( 权重为 1), 因此合并后的权重为 (1+1) 除以 2, 即 1。合并后的状态 M-2 具有 2 个高斯分 量, 其左边的高斯分量为合并前的状态 S2-1 的高斯分量, 其右边的高斯分量为合并前的状 态 S1-2 的高斯分量, 其左边的高斯分量的权重为状态 S2-1 的高斯分量的权重 ( 为 1) 除以 2, 即 1/2, 其右边的高斯分量的权重为状态 S1-2 的高斯分量的权重 ( 为 1) 除以 2, 即 1/2。
另外, 可选地, 上述合并单元 310 合并后的状态中的每个高斯分量的权重可以根 据合并前的相同高斯分量所属的状态的置信度来计算。 根据置信度来计算权重的方法可以 是本领域的技术人员公知的任何方法, 本发明对此没有任何限制。
本发明的用于生成语音标签的装置 300, 由于合并后的发音状态序列包含多个识 别结果的所有状态的高斯分量, 因此可以很好的描述注册语音的差异, 同时显著降低了给 整个语音识别网络所带来的混淆度。
以上虽然通过一些示例性的实施例对本发明的用于生成语音标签的方法和装置 进行了详细的描述, 但是以上这些实施例并不是穷举的, 本领域技术人员可以在本发明的 发明思想和范围内实现各种变化和修改。 因此, 本发明并不限于这些实施例, 本发明的范围 仅由所附权利要求为准。