基于语音手势及肢体动作互动的增强现实系统.pdf

摘要
申请专利号：	CN201611070594.9	申请日：	2016.11.29
公开号：	CN106502424A	公开日：	2017.03.15
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 3/01申请日:20161129\|\|\|公开
IPC分类号：	G06F3/01	主分类号：	G06F3/01
申请人：	上海小持智能科技有限公司
发明人：	覃永平; 蒋武锋; 李晓城
地址：	201203 上海市浦东新区芳春路400号1幢3层
优先权：
专利代理机构：	上海科律专利代理事务所(特殊普通合伙) 31290	代理人：	袁亚军
PDF下载：	PDF下载

内容摘要

本发明公开了一种基于语音手势及肢体动作互动的增强现实系统，包括视频采集模块：采集视频；肢体位置变化采集模块：采集肢体位置变化的信息；手势和肢体动作识别模块：对视频流或者肢体位置变化的信息进行识别处理；音频采集模块：采集音频；语音控制指令识别模块：对采集到的音频进行解析与识别，生成语音指令；增强现实控制模块：接收到语音指令、手势指令与肢体动作的输入后改变增强现实系统中的视频和音频进行互动处理；增强现实输出模块：对增强现实的视频的内容进行显示，同时播放增强现实中的音频内容。本发明可以广泛用于家庭投影、投影机器人、影视盒子等场景，为用户提供更加便捷，更加自然和更加智能的服务。

权利要求书

1.一种基于语音手势和肢体动作互动的增强现实系统，其特征在于，包括：
视频采集模块：通过单个高清摄像头采集视频，或者是通过多个高清摄像头采集具有
景深的视频；
肢体位置变化采集模块：通过传感器采集肢体位置变化的信息；
手势和肢体动作识别模块：对来自视频采集模块的视频流进行解析，识别出手势指令
和肢体动作，以及人体在场景中的位置；或者对来自传感器的肢体位置变化的信息进行处
理，识别出肢体动作；
音频采集模块：通过单MIC或者空间分布的MIC阵列来采集音频；
语音控制指令识别模块：对采集到的音频进行解析与识别，生成语音指令；
增强现实控制模块：接收到语音指令、手势指令与肢体动作的输入后改变增强现实系
统中的视频和音频进行互动处理；
增强现实输出模块：对增强现实的视频的内容进行显示，同时播放增强现实中的音频
内容。
2.如权利要求1所述的基于语音手势及肢体动作互动的增强现实系统，其特征在于，所
述肢体位置变化采集模块通过陀螺仪、加速度、红外线或重力传感器采集肢体位置变化的
信息。
3.如权利要求1所述的基于语音手势及肢体动作互动的增强现实系统，其特征在于，所
述增强现实控制模块接收到语音指令、手势指令与肢体动作后，通过改变显示的场景和虚
拟物体的状态，实时完成相应的互动处理。
4.如权利要求1所述的基于语音手势及肢体动作互动的增强现实系统，其特征在于，所
述增强现实输出模块采用液晶屏幕或投影仪显示视频内容。

说明书

基于语音手势及肢体动作互动的增强现实系统

技术领域

本发明涉及一种增强现实(AR)系统，尤其涉及一种基于语音手势及肢体动作互动
的增强现实系统。

背景技术

目前与人互动的增强现实(AR)的方法和系统，主要通过人的手势指令输入，来实
现与增强现实(AR)互动。基于只有手势指令互动的增强现实(AR)的方法和系统的缺点是，
用户体验不够便捷，不够自然和不够智能。其原因是手势指令单一，再有目前机器视觉对人
的手势识别程度还比较低，造成只通过人的手势来交互的增强系统的功能单一和交互用户
体验比较低。同时手势指令存在比较明显的缺陷有以下几点：1、人能完成一个手势指令的
速度比较慢。2、目前计算机视觉水平只能识别出数量非常有限的手势指令。3、人对于不常
用的手势指令比较难以精确表示出来。这些缺点决定了只通过手势与增强现实(AR)互动的
方法和系统的功能比较单一，造成了其用户体验不够智能，不够便捷和不够自然。

发明内容

本发明所要解决的技术问题是提供一种基于语音手势及肢体动作互动的增强现
实系统，能够基于语音、手势以及肢体动作等输入实现增强现实的互动操作，可以广泛用于
家庭投影、投影机器人、影视盒子等场景，为用户提供更加便捷，更加自然和更加智能的服
务。

本发明为解决上述技术问题而采用的技术方案是提供一种基于语音手势及肢体
动作互动的增强现实系统，包括视频采集模块：通过单个高清摄像头采集视频，或者是通过
多个高清摄像头采集具有景深的视频；肢体位置变化采集模块：通过传感器采集肢体位置
变化的信息；手势和肢体动作识别模块：对来自视频采集模块的视频流进行解析，识别出手
势指令和肢体动作，以及人体在场景中的位置；或者对来自传感器的肢体位置变化的信息
进行处理，识别出肢体动作；音频采集模块：通过单MIC或者空间分布的MIC阵列来采集音
频；语音控制指令识别模块：对采集到的音频进行解析与识别，生成语音指令；增强现实控
制模块：接收到语音指令、手势指令与肢体动作的输入后改变增强现实系统中的视频和音
频进行互动处理；增强现实输出模块：对增强现实的视频的内容进行显示，同时播放增强现
实中的音频内容。

上述的基于语音手势及肢体动作互动的增强现实系统，其中，所述肢体位置变化
采集模块通过陀螺仪、加速度、红外线或重力传感器采集肢体位置变化的信息。

上述的基于语音手势及肢体动作互动的增强现实系统，其中，所述增强现实控制
模块接收到语音指令、手势指令与肢体动作后，通过改变显示的场景和虚拟物体的状态，实
时完成相应的互动处理。

上述的基于语音手势及肢体动作互动的增强现实系统，其中，所述增强现实输出
模块采用液晶屏幕或投影仪显示视频内容。

本发明对比现有技术有如下的有益效果：本发明提供的基于语音手势及肢体动作
互动的增强现实系统，能够广泛用于家庭投影、投影机器人、影视盒子等场景，为用户提供
更加便捷，更加智能的服务。

附图说明

图1为本发明基于语音手势及肢体动作互动的增强现实系统架构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

图1为本发明基于语音手势及肢体动作互动的增强现实系统架构示意图。

请参见图1，本发明提供的基于语音手势及肢体动作互动的增强现实系统，包括如
下七个模块：

1.视频采集模块

高清摄像头采集视频，或者用多高清摄像头采集带有景深的视频；

2.肢体位置变化采集模块：通过陀螺仪、加速度、红外线或重力传感器采集肢体位
置变化的信息。

3.手势和肢体动作识别模块：对来自视频采集模块的视频流进行解析，识别手势
指令和肢体动作，及其人体在场景中的位置；或者通过解析陀螺仪等传感器采集的肢体位
置变化的信息，识别肢体动作。

4.音频采集模块

音频通过单MIC或者空间分布的多MIC阵列来采集。

5.语音控制指令识别模块

指令通过语音识别模块翻译成可以操作的命令。

6.增强现实(AR)控制模块

接收到语音指令、手势指令与肢体动作的输入后翻译成增强现实系统的操作命
令，根据增强现实系统的操作命令改变增强现实(AR)系统中的视频(包括显示的场景和虚
拟物体的状态)和音频，完成通过人的指令控制增强现实(AR)的视频(包括显示的场景和虚
拟物体的状态)和音频。

7.增强现实(AR)输出模块

把增强现实(AR)的视频(包括显示的场景和虚拟物体的状态)的内容显示到屏幕、
投影仪等显示设备中。同时播放增强现实中的音频内容；本发明的增强现实系统首先通过
单高清摄像头或者是多个摄像头收集图像信息，再通过机器视觉识别图像中的手势指令。
或者通过陀螺仪、加速度、红外线、重力等传感器收集到的肢体位置变化的信息，再解析收
集到的位置信息，识别肢体指令。再通过语音MIC或MIC阵列采集语音，解析收集到的语音，
识别语音指令。然后增强现实(AR)控制模块在接收到语音指令、手势指令与肢体动作的输
入后翻译成增强现实系统的操作命令，根据增强现实系统的操作命令改变增强现实(AR)系
统中的视频(包括显示的场景和虚拟物体的状态)和音频内容，完成通过人的指令控制增强
现实(AR)的视频(包括显示的场景和虚拟物体的状态)和音频；。增强现实(AR)输出模块把
增强现实(AR)的视频(包括显示的场景和虚拟物体的状态)的内容显示到屏幕、投影仪等显
示设备中，同时播放增强现实中的音频内容；从而实现与人互动的增强现实(AR)的方法和
系统从而实现基于语音，手势与肢体动作互动的增强现实(AR)的方法和系统。

本发明提供的基于语音手势及肢体动作互动的增强现实系统，能够广泛用于家庭
投影、投影机器人、影视盒子等场景，为用户提供更加便捷，更加智能的服务。具体优点如
下：1、交互的方法很丰富。2、此类的交互方法是人们的生活中非常通用。3、此类交互也是人
们生活中简单和实用的方法。通过此类的交互方法与增强现实(AR)互动，可以实现出功能
非常丰富的增强现实系统。它的交互方式与人的生活方式非常接近，使得此类与人交互的
增强现实(AR)方法与系统的用户体验更加便捷，更加自然和更加智能。

虽然本发明已以较佳实施例揭示如上，然其并非用以限定本发明，任何本领域技
术人员，在不脱离本发明的精神和范围内，当可作些许的修改和完善，因此本发明的保护范
围当以权利要求书所界定的为准。