语音合成方法及系统.pdf

摘要
申请专利号：	CN201510305754.2	申请日：	2015.06.04
公开号：	CN106297765A	公开日：	2017.01.04
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G10L 13/10申请日:20150604\|\|\|公开
IPC分类号：	G10L13/10(2013.01)I; G10L13/08(2013.01)I; G10L25/69(2013.01)I; G10L25/03(2013.01)I	主分类号：	G10L13/10
申请人：	科大讯飞股份有限公司
发明人：	夏咸军; 江源; 王影; 胡国平; 胡郁; 刘庆峰
地址：	230088 安徽省合肥市高新开发区望江西路666号
优先权：
专利代理机构：	北京维澳专利代理有限公司 11252	代理人：	刘路尧;逢京喜
PDF下载：	PDF下载

内容摘要

本发明公开了一种语音合成方法及系统，该方法首先对待合成文本进行预处理，得到待合成文本的待合成单元序列及待合成单元的上下文相关信息；根据待合成单元的上下文相关信息从音库中获取待合成单元的最优备选语音单元，并进行拼接得到待合成单元序列的备选语音数据；然后获取测听人员对备选语音数据的测听结果；根据测听结果训练对应不同声学特征的修正模型；再根据修正模型及待合成单元的上下文信息重新从音库中获取各待合成单元的最优备选语音单元，并进行拼接得到优化后的语音数据；最后将所述优化后的语音数据作为所述待合成文本的合成语音数据输出。本发明可以准确地将人工主观听感融合到待合成文本的合成结果中，提升语音合成效果。

权利要求书

1.一种语音合成方法，其特征在于，包括以下步骤：
(1)接收待合成文本；
(2)对所述待合成文本进行预处理，得到所述待合成文本的待合成单元
序列及待合成单元的上下文相关信息；
(3)根据所述待合成单元的上下文相关信息从音库中获取所述待合成单
元序列中各待合成单元的最优备选语音单元；
(4)依序将所有待合成单元的最优备选语音单元进行拼接，得到待合成
单元序列的备选语音数据；
(5)获取测听人员对所述备选语音数据的测听结果；
(6)根据所述测听结果训练对应不同声学特征的修正模型；
(7)根据所述修正模型及所述待合成单元的上下文信息重新从音库中获
取所述待合成单元序列中各待合成单元的最优备选语音单元；
(8)依序将重新获取的所有待合成单元的最优备选语音单元进行拼接，
得到优化后的语音数据；
(9)将所述优化后的语音数据作为所述待合成文本的合成语音数据输出。
2.根据权利要求1所述的方法，其特征在于，所述根据所述待合成单元
的上下文相关信息从音库中获取所述待合成单元序列中各待合成单元的最优
备选语音单元包括：
从音库中获取所述待合成单元的备选语音单元序列；
提取所述备选语音单元序列中各备选语音单元的声学特征，所述声学特征
的类型包括以下任意一种或多种：频谱、基频、时长、拼接处频谱变化、拼接
处基频变化；
计算在所述上下文相关信息表征的环境下，备选语音单元的各声学特征相
对目标模型的似然值的和，得到第一计算值；
选取对应最大第一计算值的备选语音单元作为所述待合成单元的最优备
选语音单元。
3.根据权利要求2所述的方法，其特征在于，所述测听结果包括：有错
误语音数据；
所述根据所述测听结果训练对应不同声学特征的修正模型包括：根据所述
错误语音数据训练对应不同声学特征的错误空间模型；
所述根据所述修正模型及所述待合成单元的上下文信息重新从音库中获
取所述待合成单元序列中各待合成单元的最优备选语音单元包括：
从音库中获取所述待合成单元的备选语音单元序列；
提取所述备选语音单元序列中各备选语音单元的声学特征，所述声学特征
的类型包括以下任意一种或多种：频谱、基频、时长、拼接处频谱变化、拼接
处基频变化；
计算在所述上下文相关信息表征的环境下，所述备选语音单元的各声学特
征相对目标模型的似然值减去各声学特征相对所述错误空间模型的似然值的
差值的总和，得到第二计算值；
选取对应最大第二计算值的备选语音单元作为所述待合成单元的最优备
选语音单元。
4.根据权利要求2所述的方法，其特征在于，所述测听结果包括：有错
误语音数据和无错误语音数据；
所述根据所述测听结果训练对应不同声学特征的修正模型包括：根据所述
有错误语音数据训练对应不同声学特征的错误空间模型、以及根据所述无错误
语音数据训练对应不同声学特征的正确空间模型；
所述根据所述修正模型及所述待合成单元的上下文信息重新从音库中获
取所述待合成单元序列中各待合成单元的最优备选语音单元包括：
从音库中获取所述待合成单元的备选语音单元序列；
提取所述备选语音单元序列中各备选语音单元的声学特征，所述声学特征
的类型包括以下任意一种或多种：频谱、基频、时长、拼接处频谱变化、拼接
处基频变化；
计算在所述上下文相关信息表征的环境下，所述备选语音单元的各声学特
征相对目标模型的似然值、加上相对正确空间模型的似然值、并减去相对错误
空间模型的似然值的总和后，得到第三计算值；
选取对应最大第三计算值的备选语音单元作为所述待合成单元的最优备
选语音单元。
5.根据权利要求2所述的方法，其特征在于，所述测听结果包括：有错
误语音数据及其错误类型，所述错误类型包括以下任意一种或多种：发音错误、
音高错误、语速错误、发音平滑性错误、音高平滑性错误；
所述根据所述测听结果训练对应不同声学特征的修正模型包括：
根据相同错误类型的有错误语音数据训练对应该错误类型的错误空间模
型；
所述根据所述修正模型及所述待合成单元的上下文信息重新从音库中获
取所述待合成单元序列中各待合成单元的最优备选语音单元包括：
从音库中获取所述待合成单元的备选语音单元序列；
提取所述备选语音单元序列中各备选语音单元的声学特征，所述声学特征
的类型包括以下任意一种或多种：频谱、基频、时长、拼接处频谱变化、拼接
处基频变化；
计算在所述上下文相关信息表征的环境下，所述备选语音单元的各声学特
征相对目标模型的似然值减去各声学特征相对每类错误空间模型的似然值的
差值的和，得到第四计算值；
选取对应最大第四计算值的备选语音单元作为所述待合成单元的最优备
选语音单元。
6.根据权利要求1至5任一项所述的方法，其特征在于，在步骤(8)和
步骤(9)之间还包括：
获取测听人员对所述优化后的语音数据的测听结果；
判断所述测听结果是否达到要求；
如果达到，则执行步骤(9)；否则，返回步骤(6)。
7.一种语音合成系统，其特征在于，包括：
接收模块，用于接收待合成文本；
预处理模块，用于对所述待合成文本进行预处理，得到所述待合成文本的
待合成单元序列及待合成单元的上下文相关信息；
第一挑选模块，用于根据所述待合成单元的上下文相关信息从音库中获取
所述待合成单元序列中各待合成单元的最优备选语音单元；
拼接模块，用于依序将所有待合成单元的最优备选语音单元进行拼接，得
到待合成单元序列的备选语音数据；
测听结果获取模块，用于获取测听人员对所述备选语音数据的测听结果；
修正模型训练模块，用于根据所述测听结果训练对应不同声学特征的修正
模型；
第二挑选模块，用于根据所述修正模型及所述待合成单元的上下文信息重
新从音库中获取所述待合成单元序列中各待合成单元的最优备选语音单元；
所述拼接模块，还用于依序将重新获取的所有待合成单元的最优备选语音
单元进行拼接，得到优化后的语音数据；
输出模块，用于将所述优化后的语音数据作为所述待合成文本的合成语音
数据输出。
8.根据权利要求7所述的系统，其特征在于，所述第一挑选模块包括：
备选语音单元获取单元，用于从音库中获取所述待合成单元的备选语音单
元序列；
特征提取单元，用于提取所述备选语音单元序列中各备选语音单元的声学
特征，所述声学特征的类型包括以下任意一种或多种：频谱、基频、时长、拼
接处频谱变化、拼接处基频变化；
第一计算单元，用于计算在所述上下文相关信息表征的环境下，备选语音
单元的各声学特征相对目标模型的似然值的和，得到第一计算值；
选取单元，用于选取对应最大第一计算值的备选语音单元作为所述待合成
单元的最优备选语音单元。
9.根据权利要求8所述的系统，其特征在于，所述测听结果包括：有错
误语音数据；
所述修正模型训练模块，具体用于根据所述错误语音数据训练对应不同声
学特征的错误空间模型；
所述第二挑选模块包括：
备选语音单元获取单元，用于从音库中获取所述待合成单元的备选语音单
元序列；
特征提取单元，用于提取所述备选语音单元序列中各备选语音单元的声学
特征，所述声学特征的类型包括以下任意一种或多种：频谱、基频、时长、拼
接处频谱变化、拼接处基频变化；
第二计算单元，用于计算在所述上下文相关信息表征的环境下，所述备选
语音单元的各声学特征相对目标模型的似然值减去各声学特征相对所述错误
空间模型的似然值的差值的总和，得到第二计算值；
选取单元，用于选取对应最大第二计算值的备选语音单元作为所述待合成
单元的最优备选语音单元。
10.根据权利要求8所述的系统，其特征在于，所述测听结果包括：有错
误语音数据和无错误语音数据；
所述修正模型训练模块，具体用于根据所述有错误语音数据训练对应不同
声学特征的错误空间模型、以及根据所述无错误语音数据训练对应不同声学特
征的正确空间模型；
所述第二挑选模块包括：
备选语音单元获取单元，用于从音库中获取所述待合成单元的备选语音单
元序列；
特征提取单元，用于提取所述备选语音单元序列中各备选语音单元的声学
特征，所述声学特征的类型包括以下任意一种或多种：频谱、基频、时长、拼
接处频谱变化、拼接处基频变化；
第三计算单元，用于计算在所述上下文相关信息表征的环境下，所述备选
语音单元的各声学特征相对目标模型的似然值、加上相对正确空间模型的似然
值、并减去相对错误空间模型的似然值的总和后，得到第三计算值；
选取单元，用于选取对应最大第三计算值的备选语音单元作为所述待合成
单元的最优备选语音单元。
11.根据权利要求8所述的系统，其特征在于，所述测听结果包括：有错
误语音数据及其错误类型，所述错误类型包括以下任意一种或多种：发音错误、
音高错误、语速错误、发音平滑性错误、音高平滑性错误；
所述修正模型训练模块，具体用于根据相同错误类型的有错误语音数据训
练对应该错误类型的错误空间模型；
所述第二挑选模块包括：
备选语音单元获取单元，用于从音库中获取所述待合成单元的备选语音单
元序列；
特征提取单元，用于提取所述备选语音单元序列中各备选语音单元的声学
特征，所述声学特征的类型包括以下任意一种或多种：频谱、基频、时长、拼
接处频谱变化、拼接处基频变化；
第三计算单元，用于计算在所述上下文相关信息表征的环境下，所述备选
语音单元的各声学特征相对目标模型的似然值减去各声学特征相对每类错误
空间模型的似然值的差值的和，得到第四计算值；
选取单元，用于选取对应最大第四计算值的备选语音单元作为所述待合成
单元的最优备选语音单元。
12.根据权利要求7至11任一项所述的系统，其特征在于，
所述测听结果获取模块，还用于获取测听人员对所述优化后的语音数据的
测听结果；
所述系统还包括：
判断模块，用于判断所述测听结果是否达到要求；如果达到，则触发所述
输出模块将所述优化后的语音数据作为所述待合成文本的合成语音数据输出；
如果未达到，则触发所述修正模型训练模块继续根据所述测听结果训练对应不
同声学特征的修正模型。

说明书

语音合成方法及系统

技术领域

本发明涉及语音合成技术领域，具体涉及一种语音合成方法及系统。

背景技术

实现人机之间人性化、智能化的有效交互，构建高效自然的人机交流环境，
已经成为当前信息技术应用和发展的迫切需求。语音合成技术作为人机交流的
重要环节，可以将文字信息转化为自然的语音信号，赋予计算机像人一样自如
说话的能力，改变了传统通过录音回放实现机器开口说话的繁琐操作。为了使
合成语音更加自然，更符合人的主观听感，出现了融合人主观听感的语音合成
方法，具体融合方法一般是分析人工主观测听结果来提升合成语音的自然度。

现有的融合人主观听感的语音合成方法一般是通过预先收集大量合成语
音及相应人工测听的反馈结果，训练分类模型，分类标签一般为合成正确数据
与合成错误数据，利用所述分类模型找到待合成文本多组备选合成语音中最符
合人听感的一组合成语音，作为待合成文本的最优合成结果。可见，所述方法
主要依赖分类模型将人工测听的反馈结果融合到合成语音中。然而，由于现有
合成系统合成语音时，合成错误的语音单元数远远少于合成正确的语音单元
数，即训练分类模型的两类训练数据分布不均衡，从而导致训练得到的分类模
型具有倾向性，将错误合成单元倾向正确合成单元，影响待合成文本最优合成
结果的挑选。因此，如何准确地将人工主观听感融合到待合成文本的合成结果
中，是提升语音合成效果亟待解决的问题。

发明内容

本发明实施例提供一种语音合成方法及系统，以准确地将人工主观听感融
合到待合成文本的合成结果中，提升语音合成效果。

为此，本发明实施例提供如下技术方案：

一种语音合成方法，包括以下步骤：

(1)接收待合成文本；

(2)对所述待合成文本进行预处理，得到所述待合成文本的待合成单元
序列及待合成单元的上下文相关信息；

(3)根据所述待合成单元的上下文相关信息从音库中获取所述待合成单
元序列中各待合成单元的最优备选语音单元；

(4)依序将所有待合成单元的最优备选语音单元进行拼接，得到待合成
单元序列的备选语音数据；

(5)获取测听人员对所述备选语音数据的测听结果；

(6)根据所述测听结果训练对应不同声学特征的修正模型；

(7)根据所述修正模型及所述待合成单元的上下文信息重新从音库中获
取所述待合成单元序列中各待合成单元的最优备选语音单元；

(8)依序将重新获取的所有待合成单元的最优备选语音单元进行拼接，
得到优化后的语音数据；

(9)将所述优化后的语音数据作为所述待合成文本的合成语音数据输出。

优选地，所述根据所述待合成单元的上下文相关信息从音库中获取所述待
合成单元序列中各待合成单元的最优备选语音单元包括：

从音库中获取所述待合成单元的备选语音单元序列；

提取所述备选语音单元序列中各备选语音单元的声学特征，所述声学特征
的类型包括以下任意一种或多种：频谱、基频、时长、拼接处频谱变化、拼接
处基频变化；

计算在所述上下文相关信息表征的环境下，备选语音单元的各声学特征相
对目标模型的似然值的和，得到第一计算值；

选取对应最大第一计算值的备选语音单元作为所述待合成单元的最优备
选语音单元。

优选地，所述测听结果包括：有错误语音数据；

所述根据所述测听结果训练对应不同声学特征的修正模型包括：根据所述
错误语音数据训练对应不同声学特征的错误空间模型；

所述根据所述修正模型及所述待合成单元的上下文信息重新从音库中获
取所述待合成单元序列中各待合成单元的最优备选语音单元包括：

从音库中获取所述待合成单元的备选语音单元序列；

提取所述备选语音单元序列中各备选语音单元的声学特征，所述声学特征
的类型包括以下任意一种或多种：频谱、基频、时长、拼接处频谱变化、拼接
处基频变化；

计算在所述上下文相关信息表征的环境下，所述备选语音单元的各声学特
征相对目标模型的似然值减去各声学特征相对所述错误空间模型的似然值的
差值的总和，得到第二计算值；

选取对应最大第二计算值的备选语音单元作为所述待合成单元的最优备
选语音单元。

优选地，所述测听结果包括：有错误语音数据和无错误语音数据；

所述根据所述测听结果训练对应不同声学特征的修正模型包括：根据所述
有错误语音数据训练对应不同声学特征的错误空间模型、以及根据所述无错误
语音数据训练对应不同声学特征的正确空间模型；

所述根据所述修正模型及所述待合成单元的上下文信息重新从音库中获
取所述待合成单元序列中各待合成单元的最优备选语音单元包括：

从音库中获取所述待合成单元的备选语音单元序列；

提取所述备选语音单元序列中各备选语音单元的声学特征，所述声学特征
的类型包括以下任意一种或多种：频谱、基频、时长、拼接处频谱变化、拼接
处基频变化；

计算在所述上下文相关信息表征的环境下，所述备选语音单元的各声学特
征相对目标模型的似然值、加上相对正确空间模型的似然值、并减去相对错误
空间模型的似然值的总和后，得到第三计算值；

选取对应最大第三计算值的备选语音单元作为所述待合成单元的最优备
选语音单元。

优选地，所述测听结果包括：有错误语音数据及其错误类型，所述错误类
型包括以下任意一种或多种：发音错误、音高错误、语速错误、发音平滑性错
误、音高平滑性错误；

所述根据所述测听结果训练对应不同声学特征的修正模型包括：

根据相同错误类型的有错误语音数据训练对应该错误类型的错误空间模
型；

所述根据所述修正模型及所述待合成单元的上下文信息重新从音库中获
取所述待合成单元序列中各待合成单元的最优备选语音单元包括：

从音库中获取所述待合成单元的备选语音单元序列；

提取所述备选语音单元序列中各备选语音单元的声学特征，所述声学特征
的类型包括以下任意一种或多种：频谱、基频、时长、拼接处频谱变化、拼接
处基频变化；

计算在所述上下文相关信息表征的环境下，所述备选语音单元的各声学特
征相对目标模型的似然值减去各声学特征相对每类错误空间模型的似然值的
差值的和，得到第四计算值；

选取对应最大第四计算值的备选语音单元作为所述待合成单元的最优备
选语音单元。

优选地，在步骤(8)和步骤(9)之间还包括：

获取测听人员对所述优化后的语音数据的测听结果；

判断所述测听结果是否达到要求；

如果达到，则执行步骤(9)；否则，返回步骤(6)。

一种语音合成系统，包括：

接收模块，用于接收待合成文本；

预处理模块，用于对所述待合成文本进行预处理，得到所述待合成文本的
待合成单元序列及待合成单元的上下文相关信息；

第一挑选模块，用于根据所述待合成单元的上下文相关信息从音库中获取
所述待合成单元序列中各待合成单元的最优备选语音单元；

拼接模块，用于依序将所有待合成单元的最优备选语音单元进行拼接，得
到待合成单元序列的备选语音数据；

测听结果获取模块，用于获取测听人员对所述备选语音数据的测听结果；

修正模型训练模块，用于根据所述测听结果训练对应不同声学特征的修正
模型；

第二挑选模块，用于根据所述修正模型及所述待合成单元的上下文信息重
新从音库中获取所述待合成单元序列中各待合成单元的最优备选语音单元；

所述拼接模块，还用于依序将重新获取的所有待合成单元的最优备选语音
单元进行拼接，得到优化后的语音数据；

输出模块，用于将所述优化后的语音数据作为所述待合成文本的合成语音
数据输出。

优选地，所述第一挑选模块包括：

备选语音单元获取单元，用于从音库中获取所述待合成单元的备选语音单
元序列；

特征提取单元，用于提取所述备选语音单元序列中各备选语音单元的声学
特征，所述声学特征的类型包括以下任意一种或多种：频谱、基频、时长、拼
接处频谱变化、拼接处基频变化；

第一计算单元，用于计算在所述上下文相关信息表征的环境下，备选语音
单元的各声学特征相对目标模型的似然值的和，得到第一计算值；

选取单元，用于选取对应最大第一计算值的备选语音单元作为所述待合成
单元的最优备选语音单元。

优选地，所述测听结果包括：有错误语音数据；

所述修正模型训练模块，具体用于根据所述错误语音数据训练对应不同声
学特征的错误空间模型；

所述第二挑选模块包括：

备选语音单元获取单元，用于从音库中获取所述待合成单元的备选语音单
元序列；

特征提取单元，用于提取所述备选语音单元序列中各备选语音单元的声学
特征，所述声学特征的类型包括以下任意一种或多种：频谱、基频、时长、拼
接处频谱变化、拼接处基频变化；

第二计算单元，用于计算在所述上下文相关信息表征的环境下，所述备选
语音单元的各声学特征相对目标模型的似然值减去各声学特征相对所述错误
空间模型的似然值的差值的总和，得到第二计算值；

选取单元，用于选取对应最大第二计算值的备选语音单元作为所述待合成
单元的最优备选语音单元。

优选地，所述测听结果包括：有错误语音数据和无错误语音数据；

所述修正模型训练模块，具体用于根据所述有错误语音数据训练对应不同
声学特征的错误空间模型、以及根据所述无错误语音数据训练对应不同声学特
征的正确空间模型；

所述第二挑选模块包括：

备选语音单元获取单元，用于从音库中获取所述待合成单元的备选语音单
元序列；

特征提取单元，用于提取所述备选语音单元序列中各备选语音单元的声学
特征，所述声学特征的类型包括以下任意一种或多种：频谱、基频、时长、拼
接处频谱变化、拼接处基频变化；

第三计算单元，用于计算在所述上下文相关信息表征的环境下，所述备选
语音单元的各声学特征相对目标模型的似然值、加上相对正确空间模型的似然
值、并减去相对错误空间模型的似然值的总和后，得到第三计算值；

选取单元，用于选取对应最大第三计算值的备选语音单元作为所述待合成
单元的最优备选语音单元。

优选地，所述测听结果包括：有错误语音数据及其错误类型，所述错误类
型包括以下任意一种或多种：发音错误、音高错误、语速错误、发音平滑性错
误、音高平滑性错误；

所述修正模型训练模块，具体用于根据相同错误类型的有错误语音数据训
练对应该错误类型的错误空间模型；

所述第二挑选模块包括：

备选语音单元获取单元，用于从音库中获取所述待合成单元的备选语音单
元序列；

特征提取单元，用于提取所述备选语音单元序列中各备选语音单元的声学
特征，所述声学特征的类型包括以下任意一种或多种：频谱、基频、时长、拼
接处频谱变化、拼接处基频变化；

第三计算单元，用于计算在所述上下文相关信息表征的环境下，所述备选
语音单元的各声学特征相对目标模型的似然值减去各声学特征相对每类错误
空间模型的似然值的差值的和，得到第四计算值；

选取单元，用于选取对应最大第四计算值的备选语音单元作为所述待合成
单元的最优备选语音单元。

优选地，所述测听结果获取模块，还用于获取测听人员对所述优化后的语
音数据的测听结果；

所述系统还包括：判断模块，用于判断所述测听结果是否达到要求；如果
达到，则触发所述输出模块将所述优化后的语音数据作为所述待合成文本的合
成语音数据输出；如果未达到，则触发所述修正模型训练模块继续根据所述测
听结果训练对应不同声学特征的修正模型。

本发明实施例提供的语音合成方法及系统，对于待合成文本，首先从音库
中挑选出待合成单元序列中各待合成单元的最优备选语音单元，并将其进行拼
接，得到待合成单元序列的备选语音数据。然后根据测听人员对备选语音数据
的测听结果训练对应不同声学特征的修正模型；再根据修正模型及待合成单元
的上下文信息重新从音库中获取各待合成单元的最优备选语音单元，并进行拼
接得到优化后的语音数据；将所述优化后的语音数据作为待合成文本的合成语
音数据输出。由于将人的主观听感直接融合到了最优备选语音单元的挑选中，
因而使最终得到的合成语音数据更符合人的主观听感，有效地提升了语音合成
效果，而且避免了现有技术中由于测听结果中数据不均衡对语音单元挑选产生
的不良影响。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施
例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是
本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些
附图获得其他的附图。

图1是本发明实施例语音合成方法的一种流程图；

图2是本发明实施例中利用修正模型获取待合成单元的最优备选语音单
元的一种实现流程图；

图3是本发明实施例中利用修正模型获取待合成单元的最优备选语音单
元的另一种实现流程图；

图4是本发明实施例中利用修正模型获取待合成单元的最优备选语音单
元的另一种实现流程图；

图5是本发明实施例语音合成系统的一种结构示意图；

图6是本发明实施例语音合成系统的另一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图
和实施方式对本发明实施例作进一步的详细说明。

如图1所示，是本发明实施例语音合成方法的流程图，包括以下步骤：

步骤101，接收待合成文本。

步骤102，对所述待合成文本进行预处理，得到所述待合成文本的待合成
单元序列及待合成单元的上下文相关信息。

所述预处理主要包括：分词、词性标注及韵律分析。以中文为例，待合成
文本“发生在我们身边的爱情故事”的韵律分析结果如下：

发生在*我们*身边的#爱情*故事；

fa1sheng1zai4*wo3men0*shen1bian1de0#ai4qing2gu4shi1；

其中，第一行为韵律行，“*”表示韵律词边界，“#”表示韵律短语边界，
不限于这种表示形式；第二行为拼音行，数字表示声调信息，不限于这种表示
形式，拼音行中的声母和韵母组成的序列即为待合成单元序列。

利用所述预处理结果即可获得待合成单元的上下文相关信息，如待合成单
元在句子中的位置、待合成单元的词性信息等。

步骤103，根据所述待合成单元的上下文相关信息从音库中获取所述待合
成单元序列中各待合成单元的最优备选语音单元。

具体地，首先需要从音库中获取各待合成单元的备选语音单元序列，一个
备选语音单元序列中可以有一个或多个备选语音单元，然后根据备选语音单元
的各声学特征相对目标模型的似然值的和，从这些备选语音单元中挑选出一个
最优备选语音单元。

在挑选最优备选语音单元时，挑选准则可以依照现有技术，即依照每个待
合成单元的备选语音单元在所述上下文相关信息表征的环境下相对目标模型
的似然值进行挑选，挑选出似然值最大的备选语音单元作为最优备选语音单
元。在本发明实施例中，将备选语音单元的各声学特征在所述上下文相关信息
表征的环境下相对目标模型的似然值的和作为该备选语音单元与目标模型的
似然值，为了描述方便，将其称为第一计算值。

为了描述方便，将挑选出的待合成单元序列中待合成单元的最优备选语音
单元序列表示为 $<mrow> <msup> <mi>U</mi> <mo>*</mo> </msup> <mo>=</mo> <mo>{</mo> <msubsup> <mi>U</mi> <mn>1</mn> <mo>*</mo> </msubsup> <mo>,</mo> <msubsup> <mi>U</mi> <mn>2</mn> <mo>*</mo> </msubsup> <mo>,</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>,</mo> <msubsup> <mi>U</mi> <mi>N</mi> <mo>*</mo> </msubsup> <mo>}</mo> <mo>.</mo> </mrow>$

假设C＝{c1,c2,...,cn,...,cN}表示待合成文本的N个待合成单元的上下文环
境信息，其中，cn为第n个待合成单元的上下文环境信息。 $<mrow> <mi>U</mi> <mo>=</mo> <mfenced open='[' close=']'> <mtable> <mtr> <mtd> <msub> <mi>u</mi> <mn>11</mn> </msub> </mtd> <mtd> <msub> <mi>u</mi> <mn>21</mn> </msub> </mtd> <mtd> <mo>.</mo> <mo>.</mo> <mo>.</mo> </mtd> <mtd> <msub> <mi>u</mi> <mrow> <mi>N</mi> <mn>1</mn> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>u</mi> <mn>12</mn> </msub> </mtd> <mtd> <msub> <mi>u</mi> <mn>22</mn> </msub> </mtd> <mtd> <mo>.</mo> <mo>.</mo> <mo>.</mo> </mtd> <mtd> <msub> <mi>u</mi> <mrow> <mi>N</mi> <mn>2</mn> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> <mo>.</mo> <mo>.</mo> </mtd> <mtd> <mo>.</mo> <mo>.</mo> <mo>.</mo> </mtd> <mtd> <mo>.</mo> <mo>.</mo> <mo>.</mo> </mtd> <mtd> <mo>.</mo> <mo>.</mo> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>u</mi> <mrow> <mn>1</mn> <mi>K</mi> </mrow> </msub> </mtd> <mtd> <msub> <mi>u</mi> <mrow> <mn>2</mn> <mi>K</mi> </mrow> </msub> </mtd> <mtd> <mo>.</mo> <mo>.</mo> <mo>.</mo> </mtd> <mtd> <msub> <mi>u</mi> <mi>NK</mi> </msub> </mtd> </mtr> </mtable> </mfenced> </mrow>$
表示待合成文本中N个待合成单元中每个待合成单元的K个备选语音单元序
列，如u12表示第1个待合成单元的第2个备选语音单元，则挑选最优备选语
音单元的计算如下所示：

$<mrow> <msup> <mi>U</mi> <mo>*</mo> </msup> <mo>=</mo> <munder> <mrow> <mi>arg</mi> <mi>max</mi> </mrow> <mi>U</mi> </munder> <munderover> <mi>Σ</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>w</mi> <mi>m</mi> </msub> <mi>log</mi> <mi>P</mi> <mrow> <mo>(</mo> <mi>X</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>|</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>)</mo> </mrow> <mo>,</mo> <msub> <mi>λ</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> </mrow>$

其中，U*表示备选语音单元的各声学特征与对应的目标模型的似然值的
和，为了描述方便，将其称为第一计算值；X(U,m)表示根据备选语音单元序
列U提取的备选语音单元声学特征，M为待合成单元声学特征的类型数，所述
声学特征的类型包括：频谱、基频、时长、拼接处频谱变化、拼接处基频变化
中的一种或多种；logP(X(U,m)|C,λm)是给定上下文环境C时，备选语音单元声
学特征相对目标模型λm的似然值；λm为音库中当前待合成单元声学特征m对应
的目标模型，所述目标模型一般可以通过预先收集数据训练得到，用来指导备
选语音单元的挑选，一般挑选语音单元的声学参数分布越符合目标模型的分布
越好，wm表示第m类声学特征声学模型的权值，具体取值可以根据经验或实
验结果而定。

根据上述公式，可以得到待合成单元的每个备选语音单元对应的第一计算
值，然后，选取对应最大第一计算值的备选语音单元作为所述待合成单元的最
优备选语音单元。

步骤104，依序将所有待合成单元的最优备选语音单元进行拼接，得到待
合成单元序列的备选语音数据。

具体拼接方法与现有技术相同，在此不再详述。

步骤105，获取测听人员对所述备选语音数据的测听结果。

由于合成语音可能会出现不同的错误类型，比如，发音错误、音高错误、
语速错误、发音平滑性错误、音高平滑性错误。相应地，每种错误类型对应的
声学模型依次为：频谱模型、基频模型、时长模型、频谱连接模型、基频连接
模型。因此，在实际应用中，根据不同的应用需求，可以根据不同粒度的错误
类型训练对应不同声学特征的修正模型。

相应地，对测听人员可以根据其专业水平分为不同类型，比如：初级测听
人员，高级测听人员。其中：

(1)初级测听人员可以判断出每句合成语音是否有错误，将合成语音分
为有错误和无错误两种类型。具体测听时，可以将一般用户作为初级测听人员，
将合成好的语音数据开放给用户进行体验。根据用户体验的反馈结果，获取测
听结果。

例如，初级测听人员反馈结果的收集形式如下：

“本句合成语音是否有错误？”，A：有错误，B：无错误。

(2)高级测听人员一般可以是从事语音方向相关工作的人员。高级测听
人员在初级测听人员专业水平的基础上，可以对合成语音中错误单元进行初步
定位(例如定位到错误词语单元)，同时判断出该错误单元所属的错误类型。
如对语句“语音合成前沿技术”进行错误单元定位时，可以定位到句中错误词
语单元，以及该错误单元所属的错误类型，例如错误词语单元为“前沿”，错
误类型为“发音错误”。

例如，高级测听人员测听结果的收集形式如下：

“本句合成语音是否有错误？”，A：有错误，B：无错误；

如果有错误请给出错误位置，及错误类型。错误位置可以定位到错误词语
单元所在位置，或更粗粒度。

错误类型可以包括：发音错误、音高错误、语速错误、发音平滑性错误、
音高平滑性错误。

根据测听人员的反馈，即可得到测听结果。

步骤106，根据所述测听结果训练对应不同声学特征的修正模型。

前面提到，测听人员的测听结果可以有不同的粒度，相应地，在训练修正
模型时，也可以有不同的粒度，不同粒度的修正模型的训练过程将在后面详细
描述。

步骤107，根据所述修正模型及所述待合成单元的上下文信息重新从音库
中获取所述待合成单元序列中各待合成单元的最优备选语音单元。

步骤108，依序将重新获取的所有待合成单元的最优备选语音单元进行拼
接，得到优化后的语音数据。

步骤109，将所述优化后的语音数据作为所述待合成文本的合成语音数据
输出。

下面对不同粒度的修正模型及利用该修正模型选取待合成单元的最优备
选语音单元的过程进行详细说明。

1.针对初级测听人员的测听结果的修正处理

由于初级测听人员只能判定出每句合成语音是否有错误，因此，得到的合
成语音数据分类只有两类：即有错误语音数据、无错误语音数据。

需要说明的是，在实际应用中，可以只根据有错误语音数据进行修正处理，
也可以同时根据有错误语音数据及无错误语音数据进行修正处理。下面对这两
种情况分别进行说明。

(1)测听结果包括：有错误语音数据

在这种情况下，修正模型为根据所述错误语音数据训练的错误空间模型
λunatural，即利用测听结果中的所有有错误语音数据训练目标模型，将所述目标
模型称为错误空间模型，具体模型训练方法与现有技术相同，在此不再赘述。

利用上述错误空间模型获取待合成单元的最优备选语音单元的一种实现
流程图如图2所示，包括以下步骤：

步骤201，从音库中获取待合成单元的备选语音单元序列。

步骤202，提取所述备选语音单元序列中各备选语音单元的声学特征，所
述声学特征的类型包括以下任意一种或多种：频谱、基频、时长、拼接处频谱
变化、拼接处基频变化。

步骤203，计算在所述上下文相关信息表征的环境下，备选语音单元的各
声学特征相对目标模型的似然值减去各声学特征相对所述错误空间模型的似
然值的差值的总和，得到第二计算值。

步骤204，选取对应最大第二计算值的备选语音单元作为所述待合成单元
的最优备选语音单元。

具体计算公式如下：

$<mrow> <msup> <mi>U</mi> <mo>*</mo> </msup> <mo>=</mo> <munder> <mrow> <mi>arg</mi> <mi>max</mi> </mrow> <mi>U</mi> </munder> <munderover> <mi>Σ</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>w</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <mi>log</mi> <mi>P</mi> <mrow> <mo>(</mo> <mi>X</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>|</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>)</mo> </mrow> <mo>,</mo> <msub> <mi>λ</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>log</mi> <mi>P</mi> <mrow> <mo>(</mo> <mi>X</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>|</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>)</mo> </mrow> <mo>,</mo> <msubsup> <mi>λ</mi> <mi>m</mi> <mi>unatural</mi> </msubsup> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mrow>$

其中，为相对第m类声学特征的错误空间模型。

在该实施例中，对应不同类型声学特征的错误空间模型的训练数据相同，
即所有的有错误语音数据。

(2)测听结果包括：有错误语音数据和无错误语音数据

在这种情况下，修正模型包括：根据所述错误语音数据训练的错误空间模
型、以及根据所述无错误语音数据训练的目标模型，称为正确空间模型，具体
模型训练方法与现有技术相同，在此不再赘述。

利用上述错误空间模型和正确空间模型获取待合成单元的最优备选语音
单元的一种实现流程图如图3所示，包括以下步骤：

步骤301，从音库中获取待合成单元的备选语音单元序列。

步骤302，提取所述备选语音单元序列中各备选语音单元的声学特征，所
述声学特征的类型包括以下任意一种或多种：频谱、基频、时长、拼接处频谱
变化、拼接处基频变化。

步骤303，计算在所述上下文相关信息表征的环境下，所述备选语音单元
的各声学特征相对目标模型的似然值、加上相对正确空间模型的似然值、并减
去相对错误空间模型的似然值的总和，得到第三计算值。

步骤304，选取对应最大第三计算值的备选语音单元作为所述待合成单元
的最优备选语音单元。

具体计算公式如下：

$<mfenced open='' close=''> <mtable> <mtr> <mtd> <msup> <mi>U</mi> <mo>*</mo> </msup> <mo>=</mo> <munder> <mrow> <mi>arg</mi> <mi>max</mi> </mrow> <mi>U</mi> </munder> <munderover> <mi>Σ</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>w</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <mi>log</mi> <mi>P</mi> <mrow> <mo>(</mo> <mi>X</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>|</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow> <msub> <mi>λ</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mo>+</mo> <mi>log</mi> <mi>P</mi> <mrow> <mo>(</mo> <mi>X</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>|</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>)</mo> </mrow> <mo>,</mo> <msubsup> <mi>λ</mi> <mi>m</mi> <mi>natural</mi> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mi>log</mi> <mi>P</mi> <mrow> <mo>(</mo> <mi>X</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>|</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>)</mo> </mrow> <mo>,</mo> <msubsup> <mi>λ</mi> <mi>m</mi> <mi>unatural</mi> </msubsup> <mo>)</mo> </mrow> <mo>)</mo> </mtd> </mtr> </mtable> </mfenced>$

其中，为相对第m类声学特征的正确空间模型。

在该实施例中，对应不同声学特征的错误空间模型的训练数据相同，即所
有的有错误语音数据，对应不同声学特征的正确误空间模型的训练数据相同，
即所有的无错误语音数据。

相应于图2所示实施例，该实施例可以使挑选的最优备选语音单元更符合
人的主观听感，使挑选的单元在远离错误空间模型的同时，更靠近正确空间模
型，合成语音更加平稳。

2.针对高级测听人员的测听结果的修正处理

由于初级测听人员只能从整体上判断每句合成语音正确与否，并不能给出
合成语音具体的错误类型，如发音错误还是音高错误等。但是在最优备选语音
单元的挑选中，分别使用了不同类型特征的声学模型指导语音单元的挑选，如
基频模型、频谱模型、时长模型等。如果将不同错误类型的数据统一建模，容
易造成错误类型混淆，影响语音单元挑选的准确性。此外，由于一句合成语音
只有少量错误，直接将整句作为错误类型数据进行错误空间建模，容易造成错
误空间模型中存在大量声学特征的正确空间分布，影响语音单元挑选的准确
性。

因此，可以针对高级测听人员的测听结果进行分析，找到每句合成语音的
错误位置及错误类型，对每种具体错误类型数据单独进行建模，从而得到不同
类型的错误空间模型。也就是说，测听结果可以包括：有错误语音数据、错误
位置及其错误类型，所述错误位置可以为词组，或更粗粒度，所述错误类型可
以是以下任意一种或多种：发音错误、音高错误、语速错误、发音平滑性错误、
音高平滑性错误，每种错误类型对应的声学特征分别为频谱、基频、时长、拼
接处频谱变化、拼接处基频变化。

比如，根据每种错误类型的数据构建的不同类型声学特征的错误空间模型
包括：频谱错误空间模型基频错误空间模型时长错误空间模
型频谱连接错误空间模型基频连接错误空间模型如果
一句合成语音只有少量合成错误，只需要将合成错误的片段作为错误类型数
据，所述合成错误片段如合成词组，进行每种错误类型模型的构建，然后利用
这些不同类型的错误空间模型指导最优备选语音单元的挑选。

利用上述不同类型的错误空间模型获取待合成单元的最优备选语音单元
的一种实现流程图如图4所示，包括以下步骤：

步骤401，从音库中获取待合成单元的备选语音单元序列。

步骤402，提取所述备选语音单元序列中各备选语音单元的声学特征，所
述声学特征的类型包括以下任意一种或多种：频谱、基频、时长、拼接处频谱
变化、拼接处基频变化。

步骤403，计算在所述上下文相关信息表征的环境下，所述备选语音单元
的各声学特征相对目标模型的似然值减去各声学特征相对每类错误空间模型
的似然值的差值的总和，得到第四计算值。

步骤404，选取对应最大第四计算值的备选语音单元作为所述待合成单元
的最优备选语音单元。

具体计算公式如下：

$<mrow> <msup> <mi>U</mi> <mo>*</mo> </msup> <mo>=</mo> <msub> <mrow> <mi>arg</mi> <mi>max</mi> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>)</mo> </mrow> </mrow> </msub> <munderover> <mi>Σ</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>w</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <mi>log</mi> <mi>P</mi> <mrow> <mo>(</mo> <mi>X</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>|</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>)</mo> </mrow> <mo>,</mo> <msub> <mi>λ</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>log</mi> <mi>P</mi> <mrow> <mo>(</mo> <mi>X</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>|</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>)</mo> </mrow> <mo>,</mo> <msubsup> <mi>λ</mi> <mi>m</mi> <mi>unatural</mi> </msubsup> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mrow>$

其中，表示第m类声学特征对应的错误空间模型，所述错误空间模
型可以为频谱错误空间模型、基频错误空间模型，时长错误空间
模型，频谱连接错误空间模型，基频连接错误空间模型中的
一种或多种。

可见，本发明实施例提供的语音合成方法，对于待合成文本，首先从音库
中挑选出待合成单元序列中各待合成单元的最优备选语音单元，并将其进行拼
接，得到待合成单元序列的备选语音数据。然后根据测听人员对备选语音数据
的测听结果训练对应不同声学特征的修正模型；再根据修正模型及待合成单元
的上下文信息重新从音库中获取各待合成单元的最优备选语音单元，并进行拼
接得到优化后的语音数据；将所述优化后的语音数据作为待合成文本的合成语
音数据输出。由于将人的主观听感直接融合到了最优备选语音单元的挑选中，
因而使最终得到的合成语音数据更符合人的主观听感，有效地提升了语音合成
效果，而且避免了现有技术中由于测听结果中数据不均衡对语音单元挑选产生
的不良影响。

进一步地，还可以根据实际应用需求，得到不同粒度的测听结果，进而采
用不同粒度的修正策略，使最终得到的合成语音数据更符合人的主观听感。

另外，需要说明的是，在实际应用中，还可以通过迭代方式进行多次修正
处理，以使最终得到的合成语音数据更符合人的听感。具体地，在输出最终的
合成语音数据之前，先获取测听人员对优化后的语音数据的测听结果，判断该
测听结果是否达到要求(如待合成文本为教育相关文本，对合成结果的要求较
高，如测听结果的MOS(Mean Opinion Score，MOS)分需要达到4.0以上)；
如果达到，则执行上述步骤109；否则，返回步骤106，继续进行修正处理，
直至测听结果达到要求。

相应地，本发明实施例还提供一种语音合成系统，如图5所示，是该系统
的一种结构示意图。在该实施例中，所述系统包括：

接收模块501，用于接收待合成文本；

预处理模块502，用于对所述待合成文本进行预处理，得到所述待合成文
本的待合成单元序列及待合成单元的上下文相关信息；

第一挑选模块503，用于根据所述待合成单元的上下文相关信息从音库中
获取所述待合成单元序列中各待合成单元的最优备选语音单元；

拼接模块504，用于依序将所有待合成单元的最优备选语音单元进行拼接，
得到待合成单元序列的备选语音数据；

测听结果获取模块505，用于获取测听人员对所述备选语音数据的测听结
果；

修正模型训练模块506，用于根据所述测听结果训练对应不同声学特征的
修正模型；

第二挑选模块507，用于根据所述修正模型及所述待合成单元的上下文信
息重新从音库中获取所述待合成单元序列中各待合成单元的最优备选语音单
元；

所述拼接模块504，还用于依序将重新获取的所有待合成单元的最优备选
语音单元进行拼接，得到优化后的语音数据；

输出模块508，用于将所述优化后的语音数据作为所述待合成文本的合成
语音数据输出。

所述预处理主要包括：分词、词性标注及韵律分析，利用所述预处理结果
即可获得待合成单元的上下文相关信息，如待合成单元在句子中的位置、待合
成单元的词性信息等。

上述第一挑选模块503可以采用现有的方式从音库中获取待合成单元序
列中各待合成单元的最优备选语音单元，而第二挑选模块507需要根据修正模
型及待合成单元的上下文信息从音库中获取各待合成单元的最优备选语音单
元，最优备选语音单元的挑选准则与第一挑选模块503的挑选准则不同，而且，
根据测听结果的粒度不同，第二挑选模块507在具体实现上也会采用不同的挑
选准则。下面分别对第一挑选模块503和第二挑选模块507的实现方式进行详
细说明。

所述第一挑选模块503的一种具体结构包括以下各单元：

备选语音单元获取单元，用于从音库中获取所述待合成单元的备选语音单
元序列；

特征提取单元，用于提取所述备选语音单元序列中各备选语音单元的声学
特征，所述声学特征的类型包括以下任意一种或多种：频谱、基频、时长、拼
接处频谱变化、拼接处基频变化；

第一计算单元，用于计算在所述上下文相关信息表征的环境下，备选语音
单元的各声学特征相对目标模型的似然值的和，得到第一计算值；

选取单元，用于选取对应最大第一计算值的备选语音单元作为所述待合成
单元的最优备选语音单元。

前面提到，测听结果的粒度不同，第二挑选模块507也有不同的实现方式，
比如可以有以下几种：

(1)测听结果包括：有错误语音数据。

相应地，在该实施例中，修正模型训练模块506具体用于根据所述错误语
音数据训练对应不同声学特征的错误空间模型。

第二挑选模块507可以包括以下各单元：

备选语音单元获取单元，用于从音库中获取所述待合成单元的备选语音单
元序列；

特征提取单元，用于提取所述备选语音单元序列中各备选语音单元的声学
特征，所述声学特征的类型包括以下任意一种或多种：频谱、基频、时长、拼
接处频谱变化、拼接处基频变化；

第二计算单元，用于计算在所述上下文相关信息表征的环境下，所述备选
语音单元的各声学特征相对目标模型的似然值减去各声学特征相对所述错误
空间模型的似然值的差值的总和，得到第二计算值；

选取单元，用于选取对应最大第二计算值的备选语音单元作为所述待合成
单元的最优备选语音单元。

(2)所述测听结果包括：有错误语音数据和无错误语音数据。

相应地，在该实施例中，修正模型训练模块506具体用于根据所述有错误
语音数据训练对应不同声学特征的错误空间模型、以及根据所述无错误语音数
据训练对应不同声学特征的正确空间模型；

第二挑选模块507可以包括以下各单元：

备选语音单元获取单元，用于从音库中获取所述待合成单元的备选语音单
元序列；

特征提取单元，用于提取所述备选语音单元序列中各备选语音单元的声学
特征，所述声学特征的类型包括以下任意一种或多种：频谱、基频、时长、拼
接处频谱变化、拼接处基频变化；

第三计算单元，用于计算在所述上下文相关信息表征的环境下，所述备选
语音单元的各声学特征相对目标模型的似然值、加上与正确空间模型的似然
值、并减去相对错误空间模型的似然值的总和后，得到第三计算值；

选取单元，用于选取对应最大第三计算值的备选语音单元作为所述待合成
单元的最优备选语音单元。

(3)测听结果包括：有错误语音数据及其错误类型，所述错误类型包括
以下任意一种或多种：发音错误、音高错误、语速错误、发音平滑性错误、音
高平滑性错误，每种错误类型对应的声学特征分别为频谱、基频、时长、拼接
处频谱变化、拼接处基频变化。

相应地，在该实施例中，修正模型训练模块506具体用于根据相同错误类
型的有错误语音数据训练对应该错误类型的错误空间模型。

第二挑选模块507可以包括以下各单元：

备选语音单元获取单元，用于从音库中获取所述待合成单元的备选语音单
元序列；

特征提取单元，用于提取所述备选语音单元序列中各备选语音单元的声学
特征，所述声学特征的类型包括以下任意一种或多种：频谱、基频、时长、拼
接处频谱变化、拼接处基频变化；

第三计算单元，用于计算在所述上下文相关信息表征的环境下，所述备选
语音单元的各声学特征相对目标模型的似然值减去各声学特征相对每类错误
空间模型的似然值的差值的和，得到第四计算值；

选取单元，用于选取对应最大第四计算值的备选语音单元作为所述待合成
单元的最优备选语音单元。

上述不同实施例中第二挑选模块507的挑选准则对应的具体计算公式可
参照前面本发明方法实施例中的描述，在此不再赘述。

本发明实施例提供的语音合成系统，对于待合成文本，首先从音库中挑选
出待合成单元序列中各待合成单元的最优备选语音单元，并将其进行拼接，得
到待合成单元序列的备选语音数据。然后根据测听人员对备选语音数据的测听
结果训练对应不同声学特征的修正模型；再根据修正模型及待合成单元的上下
文信息重新从音库中获取各待合成单元的最优备选语音单元，并进行拼接得到
优化后的语音数据；将所述优化后的语音数据作为待合成文本的合成语音数据
输出。由于将人的主观听感直接融合到了最优备选语音单元的挑选中，因而使
最终得到的合成语音数据更符合人的主观听感，有效地提升了语音合成效果，
而且避免了现有技术中由于测听结果中数据不均衡对语音单元挑选产生的不
良影响。

进一步地，还可以根据实际应用需求，得到不同粒度的测听结果，进而采
用不同粒度的修正策略，使最终得到的合成语音数据更符合人的主观听感。

另外，需要说明的是，在实际应用中，还可以通过迭代方式进行多次修正
处理，以使最终得到的合成语音数据更符合人的听感。

如图6所示，是本发明实施例语音合成系统的另一种结构示意图。

与图5所示实施例不同的是，在该实施例中，所述系统还包括：判断模块
509。

在该实施例中，测听结果获取模块505还用于获取测听人员对所述优化后
的语音数据的测听结果。判断模块509用于判断所述测听结果是否达到要求；
如果达到，则触发输出模块508将优化后的语音数据作为待合成文本的合成语
音数据输出；如果未达到，则触发修正模型训练模块506继续根据所述测听结
果训练对应不同声学特征的修正模型。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相
似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之
处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得
比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施
例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是
物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以
位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择
其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在
不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发
明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同
时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用
范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。