《一种语音交互方法、装置、系统和移动终端.pdf》由会员分享,可在线阅读,更多相关《一种语音交互方法、装置、系统和移动终端.pdf(16页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103839548 A (43)申请公布日 2014.06.04 CN 103839548 A (21)申请号 201210487130.3 (22)申请日 2012.11.26 G10L 15/30(2013.01) H04L 29/08(2006.01) H04M 1/725(2006.01) G06F 3/0487(2013.01) (71)申请人 腾讯科技 (北京) 有限公司 地址 100080 北京市海淀区海淀大街 38 号 银科大厦 16 层 1601-1608 室 (72)发明人 周彬 (74)专利代理机构 北京德琦知识产权代理有限 公司 11018 代。
2、理人 张驰 宋志强 (54) 发明名称 一种语音交互方法、 装置、 系统和移动终端 (57) 摘要 本发明实施方式提出了一种语音交互方法、 装置、 系统和移动终端。方法包括 : 设置画面素材 移动命令与交互关键字的对应关系, 该方法还包 括 : 展示画面素材 ; 录制用户语音文件, 分析用户 语音文件以解析出交互关键字 ; 根据解析出的交 互关键字确定对应于该交互关键字的画面素材移 动命令, 并基于所确定的画面素材移动命令控制 画面素材的移动。本发明实施方式可以由用户基 于语音来控制画面素材的移动方式, 有效地提高 画面素材的交互成功率。 (51)Int.Cl. 权利要求书 3 页 说明书 8。
3、 页 附图 4 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书8页 附图4页 (10)申请公布号 CN 103839548 A CN 103839548 A 1/3 页 2 1. 一种语音交互方法, 其特征在于, 设置画面素材移动命令与交互关键字的对应关系, 该方法还包括 : 展示画面素材 ; 录制用户语音文件, 分析所述用户语音文件以解析出交互关键字 ; 根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令, 并基于 所确定的画面素材移动命令控制所述画面素材的移动。 2. 根据权利要求 1 所述的语音交互方法, 其特征在于, 所述分析用户。
4、语音文件以解析 出交互关键字包括 : 获取语音训练文件和文本训练文件, 并利用所述语音训练文件和文本训练文件, 对语 音识别器采用语音自适应方式估计语音参数, 并利用该已估计语音参数的语音识别器识别 所述用户语音文件, 以将该用户语音文件转换为文本文件 ; 从所述文本文件中检索交互关键字。 3. 根据权利要求 1 所述的语音交互方法, 其特征在于, 所述分析用户语音文件以解析 出交互关键字包括 : 确定该用户语音文件的语音波形图 ; 判断该用户语音文件的语音波形图中是否包含与交互关键字的语音波形保持一致的 波形区域, 如果是, 则基于该所包含的交互关键字的语音波形确定该交互关键字。 4. 根据。
5、权利要求 1 所述的语音交互方法, 其特征在于, 所述设置画面素材移动命令与 交互关键字的对应关系为 : 设置画面素材加速命令、 画面素材减速命令、 画面素材启动命 令、 画面素材停止命令、 画面素材移动速度保持命令、 或画面素材移动轨迹与交互关键字的 对应关系。 5. 根据权利要求 1 所述的语音交互方法, 其特征在于, 进一步设置画面素材变更命令 与画面素材变更关键字的对应关系 ; 该方法还包括 : 录制用户语音文件, 分析所述用户语音文件以解析出画面素材变更关键字 ; 根据解析出的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后 画面素材, 并展示所述更新后画面素材。 6. 。
6、一种语音交互装置, 其特征在于, 包括对应关系设置单元、 画面素材展示单元、 交互 关键字解析单元和画面素材移动单元, 其中 : 对应关系设置单元, 用于设置画面素材移动命令与交互关键字的对应关系 ; 画面素材展示单元, 用于展示画面素材 ; 交互关键字解析单元, 用于录制用户语音文件, 分析所述用户语音文件以解析出交互 关键字 ; 画面素材移动单元, 用于根据解析出的所述交互关键字确定对应于该交互关键字的画 面素材移动命令, 并基于所确定的画面素材移动命令控制所述画面素材的移动。 7. 根据权利要求 6 所述的语音交互装置, 其特征在于, 交互关键字解析单元, 用于获取语音训练文件和文本训练。
7、文件, 并利用所述语音训练 文件和文本训练文件, 对语音识别器采用语音自适应方式估计语音参数, 并利用该已估计 语音参数的语音识别器识别所述用户语音文件, 以将该用户语音文件转换为文本文件 ; 从 所述文本文件中检索交互关键字。 权 利 要 求 书 CN 103839548 A 2 2/3 页 3 8. 根据权利要求 6 所述的语音交互装置, 其特征在于, 交互关键字解析单元, 用于确定该用户语音文件的语音波形图 ; 判断该用户语音文件 的语音波形图中是否包含与交互关键字的语音波形保持一致的波形区域, 如果是, 则基于 该所包含的交互关键字的语音波形确定该交互关键字。 9. 根据权利要求 6 。
8、所述的语音交互装置, 其特征在于, 对应关系设置单元, 用于设置画面素材加速命令、 画面素材减速命令、 画面素材启动命 令、 画面素材停止命令、 画面素材移动速度保持命令、 或画面素材移动轨迹与交互关键字的 对应关系。 10. 根据权利要求 6 所述的语音交互装置, 其特征在于, 进一步包括画面素材变更单 元 ; 对应关系设置单元, 进一步用于设置画面素材变更命令与画面素材变更关键字的对应 关系 ; 交互关键字解析单元, 进一步用于录制用户语音文件, 分析所述用户语音文件以解析 出画面素材变更关键字 ; 画面素材变更单元, 用于根据解析出的所述画面素材变更关键字确定对应于该画面素 材变更关键字。
9、的更新后画面素材, 并向画面素材展示单元发送该更新后画面素材 ; 画面素材展示单元, 进一步用于展示该更新后画面素材。 11. 一种移动终端, 其特征在于, 该移动终端包括显示单元、 语音录制单元和计算单元, 其中 : 显示单元, 用于展示画面素材 ; 语音录制单元, 用于录制用户语音文件 ; 计算单元, 用于保存画面素材移动命令与交互关键字的对应关系, 分析所述用户语音 文件以解析出交互关键字 ; 根据解析出的所述交互关键字确定对应于该交互关键字的画面 素材移动命令, 并基于所确定的画面素材移动命令控制所述画面素材的移动。 12. 根据权利要求 11 所述的移动终端, 进一步包括摄像单元, 。
10、摄像单元, 进一步用于感应用户的热量, 并在感应到用户热量后向显示单元发出热量 提示消息 ; 显示单元, 进一步用于收到热量提示消息之后, 播放画面素材移动启动音频。 13. 一种语音交互系统, 其特征在于, 该系统包括移动终端和服务器, 其中 : 服务器, 用于接收画面素材, 并将画面素材发送到移动终端 ; 移动终端, 用于设置画面素材移动命令与交互关键字的对应关系 ; 展示从服务器接收 的画面素材 ; 录制用户语音文件, 分析所述用户语音文件以解析出交互关键字 ; 根据解析 出的所述交互关键字确定对应于该交互关键字的画面素材移动命令, 并基于所确定的画面 素材移动命令控制所述画面素材的移动。
11、。 14. 根据权利要求 13 所述的语音交互系统, 其特征在于, 移动终端, 进一步用于保存画面素材变更命令与画面素材变更关键字的对应关系, 录 制用户语音文件, 分析所述用户语音文件以解析出画面素材变更关键字, 用于根据解析出 的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后画面素材, 并展示 所述更新后画面素材。 权 利 要 求 书 CN 103839548 A 3 3/3 页 4 15. 根据权利要求 14 所述的语音交互系统, 其特征在于, 移动终端, 用于从服务器获取该更新后画面素材, 或者在本地检索以获取该更新后画 面素材。 权 利 要 求 书 CN 1038395。
12、48 A 4 1/8 页 5 一种语音交互方法、 装置、 系统和移动终端 技术领域 0001 本发明实施方式涉及信息处理技术领域, 更具体地, 涉及一种语音交互方法、 装 置、 系统和移动终端。 背景技术 0002 随着计算机技术和网络技术的飞速发展, 互联网 (Internet) 和即时通信技术在人 们的日常生活、 学习和工作中发挥的作用也越来越大。而且, 随着移动互联网的发展, 互联 网也在向移动化发展。 0003 当今社会已经进入了高度发达的信息时代, 其企业竞争形态也已经由过去主要以 产品功能质量为主的单一竞争形态转变为以企业形象、 商品、 品牌等作为重要手段和主要 倾向的复合竞争形态。
13、。这种形态的转变与现代画面展示事业的迅速发展是分不开的。 0004 在传统的画面展示活动中, 画面主、 画面内容、 画面内容受众、 画面表现等基本要 素都在一定的区域里反映着各个时期的文明程度。所有的这些图像元素, 都在不同程度上 作为一种文化反映着社会、 经济的时代痕迹。 0005 在目前的画面展示方法中, 通常由画面提供商自己直接提供画面素材, 而且单向 在网络上主动展示画面。 然而, 这种展示方式并没有考虑到画面受众的个人参与程度, 因此 仅是一种片面的画面展示, 与画面浏览受众缺乏有效交互, 因此交互成功率很低。 发明内容 0006 本发明实施方式提出一种语音交互方法, 以提高交互成功。
14、率。 0007 本发明实施方式还提出了一种语音交互装置, 以提高交互成功率。 0008 本发明实施方式还提出了一种移动终端, 以提高交互成功率。 0009 本发明实施方式还提出了一种语音交互系统, 以提高交互成功率。 0010 本发明实施方式的具体方案如下 : 0011 一种语音交互方法, 设置画面素材移动命令与交互关键字的对应关系, 该方法还 包括 : 0012 展示画面素材 ; 0013 录制用户语音文件, 分析所述用户语音文件以解析出交互关键字 ; 0014 根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令, 并 基于所确定的画面素材移动命令控制所述画面素材的移动。 0。
15、015 一种语音交互装置, 包括对应关系设置单元、 画面素材展示单元、 交互关键字解析 单元和画面素材移动单元, 其中 : 0016 对应关系设置单元, 用于设置画面素材移动命令与交互关键字的对应关系 ; 0017 画面素材展示单元, 用于展示画面素材 ; 0018 交互关键字解析单元, 用于录制用户语音文件, 分析所述用户语音文件以解析出 交互关键字 ; 说 明 书 CN 103839548 A 5 2/8 页 6 0019 画面素材移动单元, 用于根据解析出的所述交互关键字确定对应于该交互关键字 的画面素材移动命令, 并基于所确定的画面素材移动命令控制所述画面素材的移动。 0020 一种移。
16、动终端, 该移动终端包括显示单元、 语音录制单元和计算单元, 其中 : 0021 显示单元, 用于展示画面素材 ; 0022 语音录制单元, 用于录制用户语音文件 ; 0023 计算单元, 用于保存画面素材移动命令与交互关键字的对应关系, 分析所述用户 语音文件以解析出交互关键字 ; 根据解析出的所述交互关键字确定对应于该交互关键字的 画面素材移动命令, 并基于所确定的画面素材移动命令控制所述画面素材的移动。 0024 一种语音交互系统, 该系统包括移动终端和服务器, 其中 : 0025 服务器, 用于接收画面素材, 并将画面素材发送到移动终端 ; 0026 移动终端, 用于设置画面素材移动命。
17、令与交互关键字的对应关系 ; 展示从服务器 接收的画面素材 ; 录制用户语音文件, 分析所述用户语音文件以解析出交互关键字 ; 根据 解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令, 并基于所确定的 画面素材移动命令控制所述画面素材的移动。 0027 从上述技术方案可以看出, 在本发明实施方式中, 设置画面素材移动命令与交互 关键字的对应关系 ; 展示画面素材 ; 制用户语音文件, 分析用户语音文件以解析出交互关 键字 ; 根据解析出的交互关键字确定对应于该交互关键字的画面素材移动命令, 并基于所 确定的画面素材移动命令控制述画面素材的移动。 由此可见, 应用本发明实施方式之后。
18、, 不 同于现有技术中画面提供者的单片面画面展示, 画面浏览受众可以基于语音方式控制画面 素材的移动, 因此画面浏览受众可以通过语音方式与画面素材有效交互, 提高了交互成功 率。 0028 而且, 本发明实施方式通过感应用户语音来控制画面素材, 同时还提高了画面素 材的曝光程度, 从而进一步能够提高画面素材投放效果。 附图说明 0029 图 1 为根据本发明实施方式的语音交互方法流程图 ; 0030 图 2 为根据本发明实施方式的汽车类型的画面素材示意图 ; 0031 图 3 为根据本发明实施方式的汽车类型的画面素材交互移动示意图 ; 0032 图 4 为根据本发明实施方式的语音交互装置结构图。
19、 ; 0033 图 5 为根据本发明实施方式的移动终端结构示意图 ; 0034 图 6 为根据本发明实施方式的语音交互系统结构图。 具体实施方式 0035 为使本发明的目的、 技术方案和优点更加清楚, 下面结合附图对本发明作进一步 的详细描述。 0036 图 1 为根据本发明实施方式的语音交互方法流程图。 0037 如图 1 所示, 该方法包括 : 0038 步骤 101 : 设置画面素材移动命令与交互关键字的对应关系。 0039 在这里, 优选可以设置画面素材加速命令、 画面素材减速命令、 画面素材启动命 说 明 书 CN 103839548 A 6 3/8 页 7 令、 画面素材停止命令、。
20、 画面素材移动速度保持命令、 或画面素材移动轨迹等各种画面素材 移动命令与交互关键字的对应关系。 0040 比如, 可以设置交互关键字 “启动” 对应于画面素材启动命令 ; 交互关键字 “停止” 对应于画面素材停止命令 ; 设置交互关键字 “加速” 对应于画面素材加速命令 ; 设置交互关 键字 “减速” 对应于画面素材减速命令 ; 交互关键字 “曲线” 对应于设置画面素材移动轨迹 为曲线的命令 ; 交互关键字 “直线” 对应于设置画面素材移动轨迹为直线的命令, 等等。 0041 以上虽然详细罗列了画面素材移动命令与交互关键字的具体实例, 本领域技术人 员可以意识到, 这种罗列仅仅是示范性的, 。
21、并不用于限定本发明实施方式的保护范围。 0042 在一个实施方式中, 可以将画面素材移动速度与交互关键字的对应关系保存在 移动终端上。移动终端可以包括但是不局限于 : 功能手机、 智能手机、 掌上电脑、 个人电脑 (PC) 、 平板电脑或个人数字助理 (PDA) , 等等。 0043 以上虽然详细罗列了移动终端的具体实例, 本领域人员可以意识到, 这些罗列仅 是阐述目的, 并不用于限定本发明实施方式的保护范围。 0044 移动终端可以适用于任意的智能终端操作系统, 具体可以采用的操作系统包括但 是不局限于 : 安卓 (Andorid) 、 Palm OS、 Symbian(塞班) 、 Wind。
22、ows mobile、 Linux、 Android (安卓) 、 iPhone(苹果) OS、 Black Berry(黑莓) OS6.0、 Windows Phone 系列, 等等。 0045 优选地, 移动终端具体可以采用安卓操作系统, 而且移动终端可以采用到 Andorid 的各个版本之中, 包括但是不局限于 : 阿童木 (Android Beta) 、 发条机器人 (Android1.0) 、 纸 杯 蛋 糕 (Android1.5) 、甜 甜 圈 (Android1.6) 、松 饼 (Android2.0/2.1) ,冻 酸 奶 (Android2.2) 、 姜饼 (Android。
23、2.3) 、 蜂巢 (Android3.0) 、 冰激凌三明治 (Android4.0) 、 果冻 豆 (Jelly Bean, Android4.1) 等版本。以上详细罗列了 Android 平台的具体版本, 本领域 技术人员可以意识到, 本发明实施方式并不局限于上述罗列版本, 而还可以适用于其他基 于 Android 软件架构的任意版本之中。 0046 步骤 102 : 展示画面素材, 录制用户语音文件, 分析所述用户语音文件以解析出交 互关键字。 0047 在这里, 图像受众、 图像提供商或任意的第三方都可以通过各种信息传输方式, 将 画面素材上传到位于网络侧的服务器中, 然后由移动终端。
24、从服务器中获取到画面素材, 并 展示画面素材。 0048 画面素材的具体内容与期望向用户展示的素材本身相关。比如, 假设期望投放关 于品牌汽车的信息推送, 则可以上传品牌汽车的实物模型图像 ; 假如期望投放关于某款电 子产品的信息推送, 则可以上传该款电子产品的实物模型图像 ; 等等。 0049 在移动终端上还可以展示与画面素材相对应的背景图像。 背景图像和画面素材的 种类可以有多种。比如, 背景图像和画面素材可以分别为 : 位图 ; 联合照片专家组 (JPEG) ; 签图像文件格式 (TIFF) ; 图像互换格式 (GIF) ; 流式网络图形格式 (PNG) ; 或三维图像, 等等。 GIF。
25、 图像文件的数据是经过压缩的, 而且是采用了可变长度等压缩算法。GIF 格式的另一个 特点是其在一个 GIF 文件中可以存多幅彩色图像, 如果把存于一个文件中的多幅图像数据 逐幅读出并显示到屏幕上, 就可构成一种最简单的画面。 0050 本发明实施方式中, 可以通过将该画面类型的画面素材叠加到背景图像上, 实现 共同显示。 说 明 书 CN 103839548 A 7 4/8 页 8 0051 示范性地, 图 2 为根据本发明实施方式的汽车类型的画面素材示意图。由图 2 可 见, 画面素材为汽车模型, 背景图像为房屋。汽车模型与房屋融合显示在一起, 而且汽车模 型停留在房屋之中。 0052 而。
26、且, 信息推送受众、 图像提供商或任意的第三方还可以通过多种方式上传画面 素材。 比如, 可以由图像受众直接在移动终端上, 通过无线上网的方式将画面素材上传到服 务器 ; 也可以由图像提供商通过个人计算机 (PC) 等方式将画面素材上传到服务器, 等等。 0053 优选的, 移动终端可以通过通用网关接口 (CGI) 的方式从服务器获取到背景图像 和画面素材, 并在移动终端的浏览器窗口上显示背景图像和画面素材。 0054 移动终端浏览器是运行在移动终端上的浏览器, 可以通过通用分组无线服务技术 (GPRS) 等多种方式上网浏览互联网内容。目前, 一些移动终端浏览器需要 JAVA 或移动终端 的系。
27、统 (如苹果的 IOS 系统以及 Android 平台等) 支持。 0055 服务器可以向移动终端提供背景图像, 也可以在移动终端本地预先存储背景图 像。 优选在服务器中保存背景图像, 这是因为相比较移动终端, 服务器可以具有更大的储存 空间, 因此可以在服务器中保存海量的背景图像。示范性地, 背景图像可以包括 : 蓝天、 白 云、 大桥、 公路等等。 0056 在一个实施方式中, 图像受众、 图像提供商或任意第三方除了上传画面素材之外, 还进一步上传用于描述该画面素材类型的图像属性信息。图像属性信息可以是文本信息。 还可以直接通过画面素材的命名来描述其类型。 服务器可以根据图像属性信息确定出。
28、画面 素材的类型, 并检索与该画面素材相匹配的背景图像。 0057 比如, 假设画面素材是针对汽车的信息推送, 则服务器可以检索出适于汽车的背 景图像 (比如为跑道) ; 假设画面素材是针对电子产品的信息推送, 则服务器可以检索出适 于电子产品的背景图像 (比如为办公桌) 。 0058 在这里, 当由服务器提供背景图像时, 服务器可以首先将上传来的画面素材和自 身保存的背景图像发送到移动终端, 而且优选顺带发送定单信息和 / 或广告位信息等, 并 提供给移动终端进行相应展示。 0059 在移动终端上将背景图像和画面素材共同显示, 从而实现融合显示。 优选地, 画面 素材显示在背景图像的上面或前。
29、面。 0060 当向用户展示画面素材之后, 可以基于用户的语音实现针对画面素材的互动过 程。 0061 用户在浏览画面素材时, 或者浏览画面素材之后, 可以发出语音。 此时录制用户语 音文件, 分析用户语音文件以解析出交互关键字。 0062 在这里, 可以基于各种语音识别技术分析用户语音文件以解析出交互关键字。语 音识别技术主要包括特征提取技术、 模式匹配准则及模型训练技术等方面。 0063 本发明实施方式可以采用的语音识别的种类有很多, 比如连续语音识别、 关键词 检出、 说话人辨认、 说话人确认、 语音合成、 音频检索等方式。更具体地, 连续语音识别可以 采用隐马尔科夫模型, 而且本发明实。
30、施方式还可以采用动态时间规正、 神经网络、 支持向量 机、 矢量量化等各种语音识别算法。 0064 在具体实施中, 可以将各种语音识别技术通过内置插件或接口等方式嵌入到各种 终端的浏览器窗口中, 从而使得浏览器窗口自身可以具备相应语音识别功能。 说 明 书 CN 103839548 A 8 5/8 页 9 0065 比如, 可以将用户输入的语音文件转换成文本文件, 再将文本文件与数据库中的 文本格式的关键字进行比较, 如果匹配成功则可确定出交互关键字。也可以将用户输入的 语音文件与语音格式的交互关键字进行波形比较, 若与语音格式的交互关键字波形一致, 则可确定出交互关键字。 0066 在一个实。
31、施方式中, 可以首先获取语音训练文件和文本训练文件, 并利用所述语 音训练文件和文本训练文件, 对语音识别器采用语音自适应方式估计语音参数, 并利用该 已估计语音参数的语音识别器识别所述用户语音文件, 以将该用户语音文件转换为文本文 件 ; 再从所述文本文件中检索交互关键字。 0067 在另一个实施方式中, 可以确定该用户语音文件的语音波形图 ; 判断该用户语音 文件的语音波形图中是否包含与交互关键字的语音波形保持一致的波形区域, 如果是, 则 基于该所包含的交互关键字的语音波形确定该交互关键字。 0068 在本发明实施方式中, 还可以基于语音来实现变更画面素材。 0069 具体地, 可以设置。
32、画面素材变更命令与画面素材变更关键字的对应关系 ; 然后通 过录制用户语音文件, 分析所述用户语音文件以解析出画面素材变更关键字 ; 再根据解析 出的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后画面素材, 并展 示更新后画面素材。 0070 步骤 103 : 根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移 动命令, 并基于所确定的画面素材移动命令控制所述画面素材的移动。 0071 在这里, 可以根据在步骤 101 设置的画面素材移动命令与交互关键字的对应关 系, 根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令。 0072 比如, 假如在步骤 1。
33、01 中设置有关键字 “启动” 对应于画面素材启动命令、 交互关 键字 “停止” 对应于画面素材停止命令、 设置交互关键字 “加速” 对应于画面素材加速命令、 设置交互关键字 “减速” 对应于画面素材减速命令、 交互关键字 “曲线” 对应于设置画面素材 移动轨迹为曲线的命令、 交互关键字 “直线” 对应于设置画面素材移动轨迹为直线的命令。 0073 则当步骤 102 中解析出交互关键字为 “启动” 时, 则可确定画面素材移动命令具体 为 : 画面素材启动命令 ; 当步骤 102 中解析出交互关键字为 “停止” 时, 则可确定画面素材移 动命令具体为 : 画面素材停止命令 ; 当步骤 102 中。
34、解析出交互关键字为 “加速” 时, 则可确定 画面素材移动命令具体为 : 画面素材加速命令 ; 当步骤 102 中解析出交互关键字为 “减速” 时, 则可确定画面素材移动命令具体为 : 画面素材减速命令 ; 当步骤 102 中解析出交互关键 字为 “曲线” 时, 则可确定画面素材移动命令具体为 : 设置画面素材移动轨迹为曲线的命令 ; 当步骤 102 中解析出交互关键字为 “直线” 时, 则可确定画面素材移动命令具体为 : 设置画 面素材移动轨迹为直线的命令, 等等。 0074 当解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令, 可以 基于所确定的画面素材移动命令控制所述画面素。
35、材的移动。 0075 在本发明实施方式中, 还可以在步骤 101 中预先设置交互关键字与画面素材移动 速度之间的对应关系。比如 : 设置交互关键字 “高速运动” 对应于画面素材保持预先设置的 高速移动速度, 即针对画面素材的高速移动速度保持命令 ; 还可以设置交互关键字 “中速运 动” 对应于画面素材保持为预先设置的中速移动速度, 即针对画面素材的中速移动速度保 持命令 ; 还可以设置交互关键字 “低速运动” 对应于画面素材保持为预先设置的低速移动速 说 明 书 CN 103839548 A 9 6/8 页 10 度, 即针对画面素材的低速移动速度保持命令。 0076 当步骤 102 中解析出。
36、交互关键字为 “高速运动” 时, 则可确定画面素材移动命令具 体为 : 画面素材保持预先设置的高速移动速度, 则此时控制画面素材移动速度加速到该预 先设置的高速移动速度, 并保持该高速移动速度。 0077 当步骤 102 中解析出交互关键字为 “中速运动” 时, 则可确定画面素材移动命令具 体为 : 画面素材保持预先设置的高速移动速度, 则此时控制画面素材移动速度加速到该预 先设置的中速移动速度, 并保持该中速移动速度。 0078 当步骤 102 中解析出交互关键字为 “低速运动” 时, 则可确定画面素材移动命令具 体为 : 画面素材保持预先设置的低速移动速度, 则此时控制画面素材移动速度加速。
37、到该预 先设置的低速移动速度, 并保持该低速移动速度。 0079 图 3 为根据本发明实施方式的汽车类型的画面素材交互移动示意图。 0080 由图 3 可见, 画面素材为汽车模型, 背景图像为房屋。汽车模型与房屋融合显示在 一起, 而且汽车模型停留在房屋之上。 当感应到用户的语音之后, 可以根据包含于该语音中 的画面素材移动命令, 汽车模型从该房屋中移开。 0081 而且, 在用户将手指或脚趾放到摄像头附近时, 可以由摄像头的热传感器检测到 用户的热量, 并开始播放预先设定的引擎启动声音, 以预示汽车模型已经启动。 0082 基于上述详细分析, 本发明实施方式还提出了一种语音交互装置。 008。
38、3 图 4 为根据本发明实施方式的语音交互装置结构图。 0084 如图4所示, 该装置包括对应关系设置单元401、 画面素材展示单元402、 交互关键 字解析单元 403 和画面素材移动单元 404, 其中 : 0085 对应关系设置单元 401, 用于设置画面素材移动命令与交互关键字的对应关系 ; 0086 画面素材单元 402, 用于展示画面素材 ; 0087 交互关键字解析单元 403, 用于录制用户语音文件, 分析所述用户语音文件以解析 出交互关键字 ; 0088 画面素材移动单元 404, 用于根据解析出的所述交互关键字确定对应于该交互关 键字的画面素材移动命令, 并基于所确定的画面。
39、素材移动命令控制所述画面素材的移动。 0089 在一个实施方式中, 交互关键字解析单元 403, 用于获取语音训练文件和文本训练 文件, 并利用所述语音训练文件和文本训练文件, 对语音识别器采用语音自适应方式估计 语音参数, 并利用该已估计语音参数的语音识别器识别所述用户语音文件, 以将该用户语 音文件转换为文本文件 ; 从所述文本文件中检索交互关键字。 0090 在另一个实施方式中, 交互关键字解析单元 403, 用于确定该用户语音文件的语音 波形图 ; 判断该用户语音文件的语音波形图中是否包含与交互关键字的语音波形保持一致 的波形区域, 如果是, 则基于该所包含的交互关键字的语音波形确定该。
40、交互关键字。 0091 优选地, 对应关系设置单元 401, 用于设置画面素材加速命令、 画面素材减速命令、 画面素材启动命令、 画面素材停止命令、 画面素材移动速度保持命令、 或画面素材移动轨迹 与交互关键字的对应关系。 0092 该装置进一步包括画面素材变更单元 405 ; 0093 对应关系设置单元 401, 进一步用于设置画面素材变更命令与画面素材变更关键 字的对应关系 ; 说 明 书 CN 103839548 A 10 7/8 页 11 0094 交互关键字解析单元 403, 进一步用于录制用户语音文件, 分析所述用户语音文件 以解析出画面素材变更关键字 ; 0095 画面素材变更单。
41、元 405, 用于根据解析出的所述画面素材变更关键字确定对应于 该画面素材变更关键字的更新后画面素材, 并向画面素材展示单元 402 发送该更新后画面 素材 ; 0096 画面素材展示单元 402, 进一步用于展示该更新后画面素材。 0097 可以基于上述方法和装置, 在多种应用环境中实施本发明实施方式。 比如, 可以将 本发明实施方式应用到移动终端的广告应用中。可以预先设置互动关键字 “奥迪启动” 。在 用户点击广告后, 提示用户利用麦克风说提示语 :“奥迪启动” ; 当用户说出奥迪启动后, 该 语音关键字被解析成文本, 与广告设定的互动关键字比较。 若互动关键字一致, 则将触发广 告的行为。
42、, 放出汽车启动的引擎声音, 预示着广告内的汽车已经启动, 而且广告横幅内的汽 车轮胎转动, 迅速移动开出广告可见范围, 因此更能提高广告的互动性和新颖性。 0098 基于上述分析, 本发明实施方式还提出了一种移动终端。 0099 图 5 为根据本发明实施方式的移动终端结构示意图。 0100 如图5所示, 该移动终端包括显示单元501、 语音录制单元502和计算单元503。 其 中 : 0101 显示单元 501, 用于展示画面素材 ; 0102 语音录制单元 502, 用于录制用户语音文件 ; 0103 计算单元 503, 用于保存画面素材移动命令与交互关键字的对应关系, 分析所述用 户语音。
43、文件以解析出交互关键字 ; 根据解析出的所述交互关键字确定对应于该交互关键字 的画面素材移动命令, 并基于所确定的画面素材移动命令控制所述画面素材的移动。 0104 优选地, 进一步包括摄像单元 504, 进一步用于感应用户的热量, 并在感应到用户 热量后向显示单元 501 发出热量提示消息 ; 0105 显示单元 501, 进一步用于收到热量提示消息之后, 播放画面素材移动启动音频。 0106 基于上述详细分析, 本发明实施方式还提出了一种语音交互系统。 0107 图 6 为根据本发明实施方式的语音交互系统结构图。 0108 如图 6 所示, 该系统包括移动终端和服务器, 其中 : 0109。
44、 服务器, 用于接收画面素材, 并将画面素材发送到移动终端 ; 0110 移动终端, 用于设置画面素材移动命令与交互关键字的对应关系 ; 展示从服务器 接收的画面素材 ; 录制用户语音文件, 分析所述用户语音文件以解析出交互关键字 ; 根据 解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令, 并基于所确定的 画面素材移动命令控制所述画面素材的移动。 0111 优选地, 移动终端, 进一步用于保存画面素材变更命令与画面素材变更关键字的 对应关系, 录制用户语音文件, 分析所述用户语音文件以解析出画面素材变更关键字, 用于 根据解析出的所述画面素材变更关键字确定对应于该画面素材变更关。
45、键字的更新后画面 素材, 并展示所述更新后画面素材。 0112 在一个实施方式中, 移动终端, 用于从服务器获取该更新后画面素材, 或者在本地 检索以获取该更新后画面素材。 0113 其中, 移动终端可以包括但是不局限于 : 功能手机、 智能手机、 掌上电脑、 个人电脑 说 明 书 CN 103839548 A 11 8/8 页 12 (PC) 、 平板电脑或个人数字助理 (PDA) , 等等。 0114 而且, 在这里, 图像受众、 图像提供商或任意的第三方都可以通过各种信息传输方 式, 将画面素材上传到位于网络侧的服务器中, 然后由移动终端从服务器中获取到画面素 材, 并展示画面素材。 0。
46、115 实际上, 可以通过多种形式来具体实施本发明实施方式所提出的语音互动方法和 装置。 比如, 可以遵循一定规范的应用程序接口, 将语音互动方法编写为安装到移动终端中 的插件程序, 也可以将其封装为应用程序以供用户自行下载使用。 当编写为插件程序时, 可 以将其实施为 ocx、 dll、 cab 等多种插件形式。也可以通过 Flash 插件、 RealPlayer 插件、 MMS 插件、 MIDI 五线谱插件、 ActiveX 插件等具体技术来实施本发明实施方式所提出的语音 互动方法。 0116 可以通过指令或指令集存储的储存方式将本发明实施方式所提出的语音互动方 法存储在各种存储介质上。这。
47、些存储介质包括但是不局限于 : 软盘、 光盘、 DVD、 硬盘、 闪存、 U 盘、 CF 卡、 SD 卡、 MMC 卡、 SM 卡、 记忆棒 (Memory Stick) 、 xD 卡等。 0117 另外, 还可以将本发明实施方式所提出的语音互动方法应用到基于闪存 (Nand flash) 的存储介质中, 比如 U 盘、 CF 卡、 SD 卡、 SDHC 卡、 MMC 卡、 SM 卡、 记忆棒、 xD 卡等。 0118 综上所述, 在本发明实施方式中, 设置画面素材移动命令与交互关键字的对应关 系, 该方法还包括 : 展示画面素材 ; 制用户语音文件, 分析所述用户语音文件以解析出交互 关键字。
48、 ; 根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令, 并 基于所确定的画面素材移动命令控制所述画面素材的移动。由此可见, 应用本发明实施方 式之后, 不同于现有技术中画面提供者的单片面画面展示, 而是可以基于语音文件的交互 关键字控制画面素材的移动, 因此画面浏览受众可以通过语音方式与画面素材有效交互, 提高了交互成功率。 0119 而且, 本发明实施方式通过感应用户语音来控制画面素材, 同时还提高了画面素 材的曝光程度, 从而进一步能够提高画面素材投放效果。 0120 以上所述, 仅为本发明的较佳实施例而已, 并非用于限定本发明的保护范围。 凡在 本发明的精神和原则之内, 所作的任何修改、 等同替换、 改进等, 均应包含在本发明的保护 范围之内。 说 明 书 CN 103839548 A 12 1/4 页 13 图 1 说 明 书 附 图 CN 103839548 A 13 2/4 页 14 图 2 图 3 说 明 书 附 图 CN 103839548 A 14 3/4 页 15 图 4 图 5 说 明 书 附 图 CN 103839548 A 15 4/4 页 16 图 6 说 明 书 附 图 CN 103839548 A 16 。