《一种导航系统用户语音自定义方法.pdf》由会员分享,可在线阅读,更多相关《一种导航系统用户语音自定义方法.pdf(12页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103093753 A (43)申请公布日 2013.05.08 CN 103093753 A *CN103093753A* (21)申请号 201210554526.5 (22)申请日 2012.12.14 G10L 15/26(2006.01) G01C 21/36(2006.01) (71)申请人 沈阳美行科技有限公司 地址 110004 辽宁省沈阳市浑南新区远航西 路 3 号 1T 国际 202 室 (72)发明人 徐小光 张璐 迟丽丽 谢振江 徐良 李峰 (74)专利代理机构 沈阳晨创科技专利代理有限 责任公司 21001 代理人 任玉龙 (54) 发明名称。
2、 一种导航系统用户语音自定义方法 (57) 摘要 一种导航系统用户语音自定义方法, 硬件涉 及定位模块、 算路模块、 引导模块、 TTS 语音合成 模块、 解码模块 ; 引导模块生成缓存中有的字符 串时, 可以直接播放缓存中已有的声音 ; 在语音 合成之前, 系统会用引导信息的字符串和缓存中 的每一条字符串索引进行比较, 再进行播放 ; 自 定义语音文件与语音缓存文件具有相同结构, 都 是由索引和数据部分构成 ; PC 端软件首先读取语 音缓存文件, 自定义语音文件添加到导航设备, 导 航系统启用自定义语音功能 ; 声音录制工具把语 音采集保存到数据文件中, 导入到导航系统内作 为自定义语音库。
3、。本发明优点 : 采用语音自定义 功能, 纠正 TTS 引擎合成语音的错误, 增加导航系 统的定制能力, 加快了提示语音的实时性能。 (51)Int.Cl. 权利要求书 2 页 说明书 5 页 附图 4 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书5页 附图4页 (10)申请公布号 CN 103093753 A CN 103093753 A *CN103093753A* 1/2 页 2 1. 一种导航系统用户语音自定义方法, 其特征在于 : 所述的导航系统用户语音自定义 方法硬件涉及定位模块、 算路模块、 引导模块、 TTS 语音合成模块、 解码模块 。
4、; 定位模块, 在汽车行驶过程中, 通过硬件的 GPS 模块获取到位置信息 ; 其中通信多数采 用 NMEA-0183 协议, 报文中包含定位所需要的坐标信息 ; 模块需要先解析报文, 获取位置坐 标后再经过地图匹配算法进行轨迹纠偏, 最后获取较精确的位置坐标 ; 算路模块, 提供了为从出发地到目的地为车辆寻找到驾驶时间最短的路线的功能 ; 电 子地图保存了矢量化的道路网络信息 ; 道路网可以看作权值为正值的有向图 ; 算路模基于 dijkstra算法在有向图中搜索最短路径 ; 一个有权重的有向图G, 以及G中的一个来源顶点 S 中, 以 V 表示 G 中所有顶点的集合 ; Dijkstra 。
5、算法可以在一个图中, 找到从一个顶点 s 到 任何其他顶点的最短路径 ; 引导模块, 在驾驶过程中用户可能会遇到限速, 转弯等情况 ; 引导模块就是在就算好的 路线上, 对用户进行提示 ; 在地图数据中, 保存了引导信息 ; 当车辆行驶到带有引导信息的 坐标时, 会触发语音提示 ; 引导模块把引导信息转换成提示字符串 ; 比如 “前方 300 米左转, 然后直行” ; TTS 语音合成模块, 把引导模块生成的提示字符串通过语言学处理, 韵律处理和声学处 理合成为语音信号 ; 解码模块, 作为数字信号的提示语音, 以 PCM 编码形式进行储存 ; 解码模块就是把语音 编码进行处理, 然后进行 D。
6、/A 转换, 推动音响设备进行发音 ; 用户自定义语音的实现基础 : TTS 语音合成引擎合成语音过程比较复杂, 从而导致消耗过多的 CPU 资源 ; 另外合成语 音需要较长时间, 会导致语音播报延时 ; 通过优化, 采用语音缓存的方式来解决这一问题 ; 在进行引导过程中, 90% 的提示语音是经常出现的, 这样可以把语音缓存起来 ; 语音缓存文 件是由字符串索引和语音数据组成 ; 引导模块生成缓存中有的字符串时, 可以直接播放缓存中已有的声音 ; 这样避免了采 用 TTS 语音合成模块生成语音的复杂过程, 加快了语音实时播报的速度, 也降低了系统资 源的损耗 ; 在语音合成之前, 系统会用引。
7、导信息的字符串和缓存中的每一条字符串索引进行比 较, 如果一致, 命中缓存, 则直接播放缓存中的语音, 如果不一致, 则利用 TTS 语音合成系统 先合成语音, 再进行播放 ; 用户自定义提示语音是通过 PC 端软件对语音缓存文件的编辑来完成的 ; 最后生成自 定义语音文件 ; 自定义语音文件与语音缓存文件具有相同结构, 都是由索引和数据部分构 成 ; 索引部分存储了语音提示的字符串信息, 而数据部分保存了 PCM 编码的语音信息 ; 索引 文件采用了链式结果进行存储 ; PC 端软件首先读取语音缓存文件, 把缓存文件的索引字符串全部载入到内存 ; 按条目 显示在 PC 端软件上, 用户可以选。
8、择所要自定义的字符串, 对字符串进行朗读录音 ; PC 端软 件调用底层硬件驱动程序, 通过 Codec 芯片对模拟语音信号以 32kbps 进行采样, 最后把字 符串索引和新录制的语音写入到用户自定义语音文件中 ; 生成的新的自定义语音文件中, 也存在相同的对应关系 ; 录制过的提示信息字符串语 音数据部分被填充为用户自己的语音, 而没有录制的部分被设置为空数据 ; 权 利 要 求 书 CN 103093753 A 2 2/2 页 3 自定义语音文件添加到导航设备, 到导航系统启用自定义语音功能时, 在播放语音时 系统优先在自定义语音文件中查找提示信息字符串 ; 查找到字符串后, 当提示信息。
9、字符串 对应的录制语音存在时, 直接播放用户录制的语音数据 ; 当没有查找到提示信息字符串时, 再到系统自带语音文件中查找 ; 声音录制工具会显示缓存中所有播报内容列表, 用户选中播报列表中的一条后, 进行 朗读 ; 声音录制工具把语音采集保存到数据文件中, 导入到导航系统内作为自定义语音库。 2. 按照权利要求 1 所述的导航系统用户语音自定义方法, 其特征在于 : 所述的语音缓 存文件中, 每个提示信息字符串都对应着唯一的语音缓存数据 ; 通过提示信息字符串就可 以找到对应的声音 ; 缓存存储文件采用链式结构, 加载到内存时构造缓存索引链表, 链表中 每个节点包含索引字符串和语音数据在缓存。
10、文件中的偏移量信息 ; 在每次比较字符串时, 遍历整个链表 ; 如果命中, 通过偏移量找到对应的语音数据。 权 利 要 求 书 CN 103093753 A 3 1/5 页 4 一种导航系统用户语音自定义方法 技术领域 0001 本发明涉及导航系统领域, 特别涉及了一种导航系统用户语音自定义方法。 背景技术 0002 随着城市道路网络的日益复杂和车辆日益增多, 汽车导航系统已经得到了广泛的 应用。使得驾驶员在复杂的路况下依然能够自由驾驶。汽车导航系统属于典型的嵌入式设 备, 受到体积, 成本, 功耗和应用场合的限制。 0003 随着嵌入式技术的发展, 汽车导航系统朝着智能化, 人性化发展。 实。
11、时语音引导功 能已经广泛的应用在导航终端。用户可以实时获得引导语音提示, 在驾驶过程中不用查看 地图的条件下就能方便的获得更多的地图提示信息。语音引导使人机交互更加人性化, 同 时也保证了驾驶的安全性。 0004 传统汽车导航系统语音提示采用内置 TTS 发声引擎, 通过计算机合成出接近自然 声音的语音信号输出到发声设备。其结构框架如下 : 0005 TTS 语音合成过程包括在文本分析处理模块进行文本解析, 词语切分, 语法分析, 语意分析和韵律处理。接下来交给语音合成模块进行语音合成, 最终输出 PCM 编码语音信 号, 传入 Codec 芯片进行 D/A 转换, 通过音响功放电路推动扬声器。
12、发出接近自然声音的语 音。 0006 传统的 TTS 发音虽然应用广泛, 但是发音前需要合成, 会导致响应速度变慢。为了 提高响应速度, 目前在导航系统采取了一些优化措施, 包括预读取字符串和语音库, 声音缓 存等方式, 提高了语音实时播报的速度。 但是由于语音库是内置在系统中, 用户并不能直接 对其进行定制。当用户不满意播报效果时, 不能单独针对某一条提示语音进行修改。现有 导航系统会在引导过程中, 给用户比较详尽道路信息的语音提示, 导航系统通过 TTS 引擎 合成语音, 语音库由于在导航出厂前内置在系统中, 用户并不能自由替换提示语音。 发明内容 0007 本发明的目的是为了能把用户预先。
13、自己录制好的语音加入到汽车导航的语音提 示系统内, 使在导航系统能够选择使用自定义的语音来进行提示, 特提供了一种导航系统 用户语音自定义方法。 0008 本发明提供了一种导航系统用户语音自定义方法, 其特征在于 : 所述的导航系统 用户语音自定义方法硬件涉及定位模块、 算路模块、 引导模块、 TTS 语音合成模块、 解码模 块 ; 0009 定位模块, 在汽车行驶过程中, 通过硬件的 GPS 模块获取到位置信息 ; 其中通信多 数采用 NMEA-0183 协议, 报文中包含定位所需要的坐标信息 ; 模块需要先解析报文, 获取位 置坐标后再经过地图匹配算法进行轨迹纠偏, 最后获取较精确的位置坐。
14、标 ; 0010 算路模块, 提供了为从出发地到目的地为车辆寻找到驾驶时间最短的路线的功 能 ; 电子地图保存了矢量化的道路网络信息 ; 道路网可以看作权值为正值的有向图 ; 算路 说 明 书 CN 103093753 A 4 2/5 页 5 模基于 dijkstra 算法在有向图中搜索最短路径 ; 一个有权重的有向图 G, 以及 G 中的一个 来源顶点 S 中, 以 V 表示 G 中所有顶点的集合 ; Dijkstra 算法可以在一个图中, 找到从一个 顶点 s 到任何其他顶点的最短路径 ; 0011 引导模块, 在驾驶过程中用户可能会遇到限速, 转弯等情况 ; 引导模块就是在就算 好的路线。
15、上, 对用户进行提示 ; 在地图数据中, 保存了引导信息 ; 当车辆行驶到带有引导信 息的坐标时, 会触发语音提示 ; 引导模块把引导信息转换成提示字符串 ; 比如 “前方 300 米 左转, 然后直行” ; 0012 TTS 语音合成模块, 把引导模块生成的提示字符串通过语言学处理, 韵律处理和声 学处理合成为语音信号 ; 0013 解码模块, 作为数字信号的提示语音, 以 PCM 编码形式进行储存 ; 解码模块就是把 语音编码进行处理, 然后进行 D/A 转换, 推动音响设备进行发音 ; 0014 用户自定义语音的实现基础 : 0015 TTS 语音合成引擎合成语音过程比较复杂, 从而导致。
16、消耗过多的 CPU 资源 ; 另外合 成语音需要较长时间, 会导致语音播报延时 ; 通过优化, 采用语音缓存的方式来解决这一问 题 ; 在进行引导过程中, 90% 的提示语音是经常出现的, 这样可以把语音缓存起来 ; 语音缓 存文件是由字符串索引和语音数据组成 ; 0016 引导模块生成缓存中有的字符串时, 可以直接播放缓存中已有的声音 ; 这样避免 了采用 TTS 语音合成模块生成语音的复杂过程, 加快了语音实时播报的速度, 也降低了系 统资源的损耗 ; 其流程如下图 2 所示 ; 0017 在语音合成之前, 系统会用引导信息的字符串和缓存中的每一条字符串索引进行 比较, 如果一致, 命中缓。
17、存, 则直接播放缓存中的语音, 如果不一致, 则利用 TTS 语音合成系 统先合成语音, 再进行播放 ; 0018 用户自定义提示语音是通过 PC 端软件对语音缓存文件的编辑来完成的 ; 最后生 成自定义语音文件 ; 自定义语音文件与语音缓存文件具有相同结构, 都是由索引和数据部 分构成 ; 索引部分存储了语音提示的字符串信息, 而数据部分保存了 PCM 编码的语音信息 ; 索引文件采用了链式结果进行存储 ; 0019 PC 端软件首先读取语音缓存文件, 把缓存文件的索引字符串全部载入到内存 ; 按 条目显示在 PC 端软件上, 用户可以选择所要自定义的字符串, 对字符串进行朗读录音 ; PC。
18、 端软件调用底层硬件驱动程序, 通过 Codec 芯片对模拟语音信号以 32kbps 进行采样, 最后 把字符串索引和新录制的语音写入到用户自定义语音文件中 ; 0020 如图 3 所示, 在语音缓存文件中, 每个提示信息字符串都对应着唯一的语音缓存 数据 ; 通过提示信息字符串就可以找到对应的声音 ; 缓存存储文件采用链式结构, 加载到 内存时构造缓存索引链表, 链表中每个节点包含索引字符串和语音数据在缓存文件中的偏 移量信息 ; 在每次比较字符串时, 遍历整个链表 ; 如果命中, 通过偏移量找到对应的语音数 据 ; 0021 生成的新的自定义语音文件中, 也存在相同的对应关系 ; 录制过的。
19、提示信息字符 串语音数据部分被填充为用户自己的语音, 而没有录制的部分被设置为空数据 ; 0022 自定义语音文件添加到导航设备, 到导航系统启用自定义语音功能时, 在播放语 音时系统优先在自定义语音文件中查找提示信息字符串 ; 查找到字符串后, 当提示信息字 说 明 书 CN 103093753 A 5 3/5 页 6 符串对应的录制语音存在时, 直接播放用户录制的语音数据 ; 当没有查找到提示信息字符 串时, 再到系统自带语音文件中查找 ; 0023 图 4 是处理用户自定义语音文件的流程图 : 0024 声音录制工具会显示缓存中所有播报内容列表, 用户选中播报列表中的一条后, 进行朗读 。
20、; 声音录制工具把语音采集保存到数据文件中, 导入到导航系统内作为自定义语 音库。 0025 由于嵌入式设备硬件资源有限, TTS 语音合成过程复杂, 运算量大, 往往会在要求 实时性比较高的场合表现的并不是很理想, 同时比较占用系统内存和 CPU 资源, 同时生成 语音用户并不能定制。 本发明由于采用用户预先定义好的语音, 可以省去语音合成的过程, 节省了硬件资源, 同时提高语音播报的响应速度。用户也可以根据自己的偏好去录制或选 择提示语音, 增加了用户的定制性。 0026 本发明的优点 : 0027 由于汉语的复杂性, TTS 引擎在一下条件合成语音可能会出现错误。字符串中包 括多音字 ;。
21、 同一个字在不同词语中有不同的读音。字符串中包含变音汉字 ; 在特定语境下, 有些汉字会出现音调变化。字符串中包含特殊含义符号, 比如日期分隔符。字符串中包含 计量单位字符。 本发明所述的导航系统用户语音自定义方法, 采用语音自定义功能, 可以纠 正 TTS 引擎合成语音的错误, 也增加了导航系统的定制能力, 加快了提示语音的实时性能。 附图说明 0028 下面结合附图及实施方式对本发明作进一步详细的说明 : 0029 图 1 为 TTS 发声引擎结构框架示意图 ; 0030 图 2 为缓存语音播放流程图 ; 0031 图 3 为自定义语音文件结构图 ; 0032 图 4 为自定义语音播放流程。
22、图 ; 0033 图 5 为自定义语音功能框架图。 具体实施方式 0034 实施例 1 0035 本实施例提供了一种导航系统用户语音自定义方法, 其特征在于 : 所述的导航系 统用户语音自定义方法硬件涉及定位模块、 算路模块、 引导模块、 TTS 语音合成模块、 解码模 块 ; 0036 定位模块, 在汽车行驶过程中, 通过硬件的 GPS 模块获取到位置信息 ; 其中通信多 数采用 NMEA-0183 协议, 报文中包含定位所需要的坐标信息 ; 模块需要先解析报文, 获取位 置坐标后再经过地图匹配算法进行轨迹纠偏, 最后获取较精确的位置坐标 ; 0037 算路模块, 提供了为从出发地到目的地为。
23、车辆寻找到驾驶时间最短的路线的功 能 ; 电子地图保存了矢量化的道路网络信息 ; 道路网可以看作权值为正值的有向图 ; 算路 模基于 dijkstra 算法在有向图中搜索最短路径 ; 一个有权重的有向图 G, 以及 G 中的一个 来源顶点 S 中, 以 V 表示 G 中所有顶点的集合 ; Dijkstra 算法可以在一个图中, 找到从一个 顶点 s 到任何其他顶点的最短路径 ; 说 明 书 CN 103093753 A 6 4/5 页 7 0038 引导模块, 在驾驶过程中用户可能会遇到限速, 转弯等情况 ; 引导模块就是在就算 好的路线上, 对用户进行提示 ; 在地图数据中, 保存了引导信息。
24、 ; 当车辆行驶到带有引导信 息的坐标时, 会触发语音提示 ; 引导模块把引导信息转换成提示字符串 ; 比如 “前方 300 米 左转, 然后直行” ; 0039 TTS 语音合成模块, 把引导模块生成的提示字符串通过语言学处理, 韵律处理和声 学处理合成为语音信号 ; 0040 解码模块, 作为数字信号的提示语音, 以 PCM 编码形式进行储存 ; 解码模块就是把 语音编码进行处理, 然后进行 D/A 转换, 推动音响设备进行发音 ; 0041 用户自定义语音的实现基础 : 0042 TTS 语音合成引擎合成语音过程比较复杂, 从而导致消耗过多的 CPU 资源 ; 另外合 成语音需要较长时间。
25、, 会导致语音播报延时 ; 通过优化, 采用语音缓存的方式来解决这一问 题 ; 在进行引导过程中, 90% 的提示语音是经常出现的, 这样可以把语音缓存起来 ; 语音缓 存文件是由字符串索引和语音数据组成 ; 0043 引导模块生成缓存中有的字符串时, 可以直接播放缓存中已有的声音 ; 这样避免 了采用 TTS 语音合成模块生成语音的复杂过程, 加快了语音实时播报的速度, 也降低了系 统资源的损耗 ; 其流程如下图 2 所示 ; 0044 在语音合成之前, 系统会用引导信息的字符串和缓存中的每一条字符串索引进行 比较, 如果一致, 命中缓存, 则直接播放缓存中的语音, 如果不一致, 则利用 T。
26、TS 语音合成系 统先合成语音, 再进行播放 ; 0045 用户自定义提示语音是通过 PC 端软件对语音缓存文件的编辑来完成的 ; 最后生 成自定义语音文件 ; 自定义语音文件与语音缓存文件具有相同结构, 都是由索引和数据部 分构成 ; 索引部分存储了语音提示的字符串信息, 而数据部分保存了 PCM 编码的语音信息 ; 索引文件采用了链式结果进行存储 ; 0046 PC 端软件首先读取语音缓存文件, 把缓存文件的索引字符串全部载入到内存 ; 按 条目显示在 PC 端软件上, 用户可以选择所要自定义的字符串, 对字符串进行朗读录音 ; PC 端软件调用底层硬件驱动程序, 通过 Codec 芯片对。
27、模拟语音信号以 32kbps 进行采样, 最后 把字符串索引和新录制的语音写入到用户自定义语音文件中 ; 0047 如图 3 所示, 在语音缓存文件中, 每个提示信息字符串都对应着唯一的语音缓存 数据 ; 通过提示信息字符串就可以找到对应的声音 ; 缓存存储文件采用链式结构, 加载到 内存时构造缓存索引链表, 链表中每个节点包含索引字符串和语音数据在缓存文件中的偏 移量信息 ; 在每次比较字符串时, 遍历整个链表 ; 如果命中, 通过偏移量找到对应的语音数 据 ; 0048 生成的新的自定义语音文件中, 也存在相同的对应关系 ; 录制过的提示信息字符 串语音数据部分被填充为用户自己的语音, 而。
28、没有录制的部分被设置为空数据 ; 0049 自定义语音文件添加到导航设备, 到导航系统启用自定义语音功能时, 在播放语 音时系统优先在自定义语音文件中查找提示信息字符串 ; 查找到字符串后, 当提示信息字 符串对应的录制语音存在时, 直接播放用户录制的语音数据 ; 当没有查找到提示信息字符 串时, 再到系统自带语音文件中查找 ; 0050 图 4 是处理用户自定义语音文件的流程图 : 说 明 书 CN 103093753 A 7 5/5 页 8 0051 声音录制工具会显示缓存中所有播报内容列表, 用户选中播报列表中的一条后, 进行朗读 ; 声音录制工具把语音采集保存到数据文件中, 导入到导航。
29、系统内作为自定义语 音库。 0052 由于嵌入式设备硬件资源有限, TTS 语音合成过程复杂, 运算量大, 往往会在要求 实时性比较高的场合表现的并不是很理想, 同时比较占用系统内存和 CPU 资源, 同时生成 语音用户并不能定制。 本发明由于采用用户预先定义好的语音, 可以省去语音合成的过程, 节省了硬件资源, 同时提高语音播报的响应速度。用户也可以根据自己的偏好去录制或选 择提示语音, 增加了用户的定制性。 说 明 书 CN 103093753 A 8 1/4 页 9 图 1 图 2 说 明 书 附 图 CN 103093753 A 9 2/4 页 10 图 3 说 明 书 附 图 CN 103093753 A 10 3/4 页 11 图 4 说 明 书 附 图 CN 103093753 A 11 4/4 页 12 图 5 说 明 书 附 图 CN 103093753 A 12 。