用于实现图像和语音交互的方法和装置.pdf

摘要
申请专利号：	CN201510567978.0	申请日：	2015.09.08
公开号：	CN106502938A	公开日：	2017.03.15
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 13/38申请日:20150908\|\|\|公开
IPC分类号：	G06F13/38; H04M1/725	主分类号：	G06F13/38
申请人：	北京百度网讯科技有限公司
发明人：	赵晨; 张彦福; 张运龙; 赵思聪; 李磊; 李领昌; 顾嘉唯
地址：	100085 北京市海淀区上地十街10号百度大厦2层
优先权：
专利代理机构：	北京英赛嘉华知识产权代理有限责任公司 11204	代理人：	王达佐;马晓亚
PDF下载：	PDF下载

内容摘要

本申请公开了用于实现图像和语音交互的方法和装置。所述装置的一具体实施方式包括：摄像头模块、音频模块、核心控制模块、传输模块；所述摄像头模块，用于提供图像信息采集操作；所述音频模块，用于提供音频信息采集和语音播放操作；所述核心控制模块，与所述摄像头模块和所述音频模块相连，用于将采集到的图像信息进行优化操作，并控制所述图像信息和所述音频信息的传输；所述传输模块，连接电子设备和所述核心控制模块，用于实现所述传输操作。该实施方式实现了对信号的实时处理和识别功能，并能够及时反馈给客户。

权利要求书

1.一种用于实现图像和语音交互的装置，其特征在于，包括：
摄像头模块、音频模块、核心控制模块、传输模块；
所述摄像头模块，用于提供图像信息采集操作；
所述音频模块，用于提供音频信息采集和语音播放操作；
所述核心控制模块，与所述摄像头模块和所述音频模块相连，用
于将采集到的图像信息进行优化操作，并控制所述图像信息和所述音
频信息的传输；
所述传输模块，连接电子设备和所述核心控制模块，用于实现所
述传输操作。
2.根据权利要求1所述的装置，其特征在于，所述音频模块包括：
音频编解码器、麦克风和耳机。
3.根据权利要求1所述的装置，其特征在于，所述核心控制模块
包括：微控制单元和图像信号处理单元。
4.根据权利要求1所述的装置，其特征在于，所述传输模块包括：
USB OTG传输线和按键。
5.根据权利要求1-4之一所述的装置，其特征在于，所述电子设
备用于将所述图像信息和所述音频信息进行存储和播放。
6.根据权利要求1-4之一所述的装置，其特征在于，所述电子设
备用于将所述图像信息和所述音频信息发送到网络。
7.一种用于实现图像和语音交互的方法，其特征在于，所述方法
包括：通过摄像头实现图像信息采集操作；
通过音频模块实现音频信息采集和语音播放操作；
对于采集到的图像信息实现优化操作，并控制所述图像信息和
所述音频信息的传输；
在电子设备和核心控制模块之间实现传输操作。
8.根据权利要求7所述的方法，其特征在于，所述图像信息采集
包括：利用图像信号处理器对图像进行优化调整，并通过USB OTG
传输线进行传输。
9.根据权利要求7所述的方法，其特征在于，所述音频信息采集
包括：利用语音编码器对音频进行编码，并通过USB OTG传输线进
行传输。
10.根据权利要求7-9之一所述的方法，其特征在于，电子设备
对所述图像信息和所述音频信息进行存储和播放。
11.根据权利要求7-9之一所述的方法，其特征在于，电子设备
将所述图像信息和所述音频信息发送到网络。

说明书

用于实现图像和语音交互的方法和装置

技术领域

本申请涉及通信技术领域，具体涉及信号传输领域，尤其涉及用
于实现图像和语音交互的方法和装置。

背景技术

随着科学技术的发展，多媒体应用日益广泛，数据存储容量不断
增大，传输速率的要求也在不断提高。为了满足PDA(Personal Digital
Assistant，个人数字助理)、移动电话、数码相机、打印机等电子设备
与PC(Personal Computer，个人电脑)机之间的连接，或者在电子设
备之间实现高速数据传输的要求，越来越多的电子产品具有USB2.0
和USB(Universal Serial Bus，通用串行总线)OTG(On The Go)功能。

USB OTG规范由USB-IF(USB Implementers Forum，USB实施
者论坛)制定，在完全兼容USB2.0标准的基础上，允许电子设备既
可作为USB主设备工作，又可作为USB从设备工作，并可提供一定
的检测能力。USB OTG使USB设备摆脱了原来主从架构的限制，实
现了端对端的传输模式，拓展了USB的应用领域。

目前，采用上述现有技术的录音录像产品，其自身都是独立的硬
件设备，在与其他设备的连接方式上主要是采用WIFI或者蓝牙进行
连接。由此造成了只能输入采集到的图像和音频，而无法进行实时信
号的处理和识别功能，且不能给用户反馈信息。

发明内容

本申请的目的在于提出一种用于实现图像和语音交互的方法和装
置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请提供了一种用于实现图像和语音交互的装置，
上述装置包括：摄像头模块、音频模块、核心控制模块、传输模块；
上述摄像头模块，用于提供图像信息采集操作；上述音频模块，用于
提供音频信息采集和语音播放操作；上述核心控制模块，与上述摄像
头模块和上述音频模块相连，用于将采集到的图像信息进行优化操作，
并控制上述图像信息和上述音频信息的传输；上述传输模块，连接电
子设备和上述核心控制模块，用于实现上述传输操作。

在一些实施例中，上述音频模块包括：音频编解码器、麦克风和
耳机。

在一些实施例中，上述核心控制模块包括：微控制单元和图像信
号处理单元。

在一些实施例中，上述传输模块包括：USB OTG传输线和按键。

在一些实施例中，上述电子设备用于将上述图像信息和上述音频
信息进行存储和播放。

在一些实施例中，上述电子设备用于将上述图像信息和上述音频
信息发送到网络。

第二方面，本申请提供了一种用于实现图像和语音交互的方法，
上述方法包括：通过摄像头实现图像信息采集操作；通过音频模块实
现音频信息采集和语音播放操作；对于采集到的图像信息实现优化操
作，并控制上述图像信息和上述音频信息的传输；在电子设备和核心
控制模块之间实现传输操作。

在一些实施例中，上述图像信息采集包括：利用图像信号处理器
对图像进行优化调整，并通过USB OTG传输线进行传输。

在一些实施例中，上述音频信息采集包括：利用语音编码器对音
频进行编码，并通过USB OTG传输线进行传输。

在一些实施例中，电子设备对上述图像信息和上述音频信息进行
存储和播放。

在一些实施例中，电子设备将上述图像信息和上述音频信息发送
到网络。

本申请提供的用于实现图像和语音交互的方法和装置，通过摄像
头实现图像信息采集操作以便对图像进行优化调整，再通过音频模块
实现音频信息采集和语音播放操作以便对音频进行编码，最后控制上
述图像信息和上述音频信息的传输以便实现电子设备和核心控制模块
之间的信息传递。从而实现了对信号的实时处理和识别功能，并能够
及时反馈给客户。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描
述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的用于图像和语音交互方法的一个实施例的流
程图；

图3是根据本申请的通过USB模块实现主机模式和设备模式判断
的模块示意图；

图4是根据本申请的用于图像和语音交互装置的一个实施例的流
程图；

图5是适于用来实现本申请实施例的终端设备或服务器的计算机
系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解
的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发
明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与
有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例
中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本
申请。

图1示出了可以应用本申请的图像和语音交互装置的实施例的示
例性系统架构100。

如图1所示，系统架构100可以包括摄像头模块101，音频模块
102、核心控制模块103、传输模块104和电子设备105。

在本实施例中，用户可以使用摄像头模块101采集图像，由
ISP(Image Signal Processor，图像处理器)对图像进行优化调整，然后
经由传输模块104传送到电子设备105，电子设备105接到图片后通
过本地或者经上传到服务器后进行图像识别，最后把识别结果通过音
频模块102以语音的形式播放出来。

在本实施例中，用户可以使用音频模块102采集音频，由语音编
解码器对音频进行编码，然后经由传输模块104传送到电子设备105，
电子设备105接收到音频信号后通过本地或者经上传到服务器后进行
语音识别，最后根据识别结果执行相应的操作，同时使用耳机播报相
应的语音信息。

在本实施例中，用户可以通过摄像头模块101连续采集图像，同
时通过麦克风采集音频，由图像处理器和语音编解码器对图像音频分
别进行处理，然后经由传输模块104传送到电子设备105，继而由电
子设备105通过WIFI或者3G/4G通信网络传送到远程协助端，远程
协助端根据接收到的视频语音信息进行实时处理，处理结果通过耳机
传送给用户。

在本实施例中，用户可以通过摄像头模块101连续采集图像，同
时通过麦克风采集音频，由图像信号处理器和语音编解码器对图像音
频分别进行处理，然后经由传输模块104传送到电子设备105存储器
存储起来，录制结束后可以在电子设备105上播放，或者上传到网络
与朋友共享。

电子设备105可以是具有显示屏并且支持图像和音频操作的各种
电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3
播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压
缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer
IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和
台式计算机等等。

服务器可以是提供各种服务的服务器，例如对电子设备105上接
收的图像和音频信息提供支持的后台服务器。后台服务器可以对接收
到的图像和音频请求等数据进行分析和识别等处理，并将处理结果(例
如识别结果)以图像或语音形式反馈给用户。

需要说明的是，本申请实施例所提供的图像和语音交互方法一般
由服务器执行，相应地，识别结果分析处理装置一般设置于服务器中。

需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、
WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)
连接、以及其他现在已知或将来开发的无线连接方式。

应该理解，图1中的电子设备105、传输模块104和核心控制模
块103等的数目仅仅是示意性的。根据实现需要，可以具有任意数目
的电子设备105、传输模块104和核心控制模块103等。

继续参考图2，示出了根据本申请的图像和语音交互方法的一个
实施例的流程200。所述的交互方法，包括以下步骤：

步骤201，通过摄像头实现图像信息采集操作。

在本实施例中，图像采集方法运行于其上的摄像头(例如图1所
示的摄像头模块)，可以通过图像处理器从摄像头接收图像信息，其中，
上述图像处理器设置于核心控制模块中。

通常，图像处理器将图像进行优化调整并压缩成MJPEG(Motion
Joint Photographic Experts Group，技术即运动静止图像(或逐帧)压
缩技术)格式，然后经由USB OTG传输线传到电子设备，电子设备
端读取USB底层信息包并将其重新组合成MJPEG帧信息数据。
MJPEG信息数据经由解码器解码并转换成为电子设备常用的RGB格
式信息然后传递到上层应用层，并同时发送至GPU(Graphics
Processing Unit，图形处理器)以供屏幕预览使用。在用户触发识别时，
手机开启摄像头，并截取一帧RGB图像，重新压缩之后以JPEG格式
由本地或者上传到服务器进行图像识别。识别结果以文本格式传递到
电子设备应用层的程序中，该程序最终把文本结果通过Text-To-Speech
(人机对话)功能转化为语音信号并播报出来。

需要说明的是，TTS(Text To Speech，人机对话)是语音合成应
用的一种，它将储存于电脑中的文件，如帮助文件或者网页，转换成
自然语音输出。该技术可以帮助有视觉障碍的人阅读计算机上的信息，
或者只是简单的用来增加文本文档的可读性。TTL应用包括语音驱动
的邮件以及音频敏感系统且经常与音频识别程序一起使用。

步骤202，通过音频模块实现音频信息采集和语音播放操作。

在本实施例中，音频采集方法运行于上述麦克风(例如图1所示
的音频模块)，可以通过麦克风采集音频，并利用语音编解码器对音频
进行放大和消噪处理。

在本实施例的一些可选的实现方式中，通过麦克风采集音频，由
语音编解码器对音频信号进行放大和编码，编码结果通过信号线传递
到MCU(Microcontroller Unit，微控制单元)中，然后经由USB数据
线与图像信息数据一起传到电子设备端。电子设备在本地或者上传到
服务器进行语音识别，最后根据识别结果执行相应的操作，同时用耳
机播报响应的语音信息。语音部分的硬件电路在电子设备端可被识别
为标准USB Audio Class(USB音频类)设备，电子设备的操作系统可
直接通过该设备播放音频、音乐和采集音频信号。

需要说明的是，上述语音编解码器对音频的处理是目前广泛研究
和应用的公知技术，在此不再赘述。

步骤203，对于采集到的图像信息实现优化操作，并控制所述图
像信息和所述音频信息的传输。

在本实施例中，通过摄像头连续采集图像，同时通过麦克风采集
音频。图像信号处理器将图像进行优化调整并压缩为MJPEG序列数
据，音编解码器对音频进行放大和消噪处理。处理得到的图像数据和
音频数据统一经由USB线传到电子设备。电子设备将USB数据包重
新组合，并分离为视频数据和音频数据，然后传送到相关的视频流传
输压缩程序，通过WIFI或者3G/4G通信网路传送到远程协助端；远
程协助端依据接收到的视频语音信息进行实时处理，处理结果通过本
申请的耳塞传送给用户。

在本实施例中，通过摄像头连续采集图像同时通过麦克风采集音
频，图像信号处理器将图像进行优化调整并压缩为MJPEG序列数据，
音编解码器对音频进行放大消噪处理，并量化为数字信号。处理得到
的图像数据和音频数据统一经由USB线传到电子设备。电子设备将
USB数据包重新组合，并分离为视频数据和音频数据，然后调用电子
设备的硬件压缩模块，将视频和音频压缩并保存到电子设备内置存储
器中，录制结束后可以在电子设备端播放，或者上传网络共享给朋友。

步骤204，在电子设备和核心控制模块之间实现传输操作。

在本实施例中，通过USB OTG传输线连接电子设备，并在USB
OTG传输线上提供线控按钮。核心控制模块中的MCU使用5芯数据
线连接电子设备，其中4芯线用于USB供电以及数据传输，剩余的1
芯线在USB OTG传输线中部被截断，通过一个按钮与地线相接，在
MCU端与MCU的IO口连接，实现按钮检测功能。在电子设备端的
USB接口上将ID脚接地实现USB OTG传输功能。

需要说明的是，USB OTG传输技术已经被越来越广泛的应用，该
技术中非常重要的一项工作是判断设备中的USB模块是主机模式还
是设备模式，由此才能进行后续通信。具体的，USB硬件接口上有个
ID管脚，当检测到ID管脚的状态为低电平时，表示设备的USB模块
需要采取主机模式；当检测到ID管脚的状态为高电平时，表示设备的
USB模块需要采取设备模式。

作为示例，请参见图3，图3是通过USB模块实现主机模式和设
备模式判断的模块示意图300。

在本实施例中，USB硬件接口304上的ID管脚直接与USB模块
301中的ID管脚连接，通过所述USB模块301实现对所述USB硬件
接口304上的ID管脚的状态监测。具体的，所述USB硬件接口304
上的ID管脚与所述USB模块301中的USB OTG物理层303上的ID
管脚连接，通过USB OTG控制器302便可检测到USB硬件接口304
上的ID管脚的状态是低电平还是高电平，从而可以直接得到USB模
块应采取主机模式还是设备模式。

进一步参考图4，作为对上述各图所示方法的实现，本申请提供
了用于图像和语音交互装置的一个实施例，该装置实施例与图2所示
的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例所述的图像和语音交互装置400包括：摄
像头模块401，音频模块402、核心控制模块403、传输模块404。其
中，摄像头模块401配置用于提供图像信息采集操作；音频模块402
配置用于提供音频信息采集和语音播放操作；上述核心控制模块403，
与上述摄像头模块401和上述音频模块402相连，配置用于将采集到
的图像信息进行优化操作，并控制上述图像信息和上述音频信息的传
输；上述传输模块404，连接电子设备和上述核心控制模块403，配置
用于实现上述传输操作。

在本实施例中，用户可以使用摄像头模块401采集图像，由ISP
对图像进行优化调整，然后经由传输模块404传送到电子设备，电子
设备接到图片后通过本地或者经上传到服务器后进行图像识别，最后
把识别结果通过音频模块402以语音的形式播放出来。

在本实施例中，用户可以使用音频模块401采集音频，由语音编
解码器对音频进行编码，然后经由传输模块404传送到电子设备，电
子设备接收到音频信号后通过本地或者经上传到服务器后进行语音识
别，最后根据识别结果执行相应的操作，同时使用耳机播报相应的语
音信息。

在本实施例中，用户可以通过摄像头模块401连续采集图像，同
时通过麦克风采集音频，由图像处理器和语音编解码器对图像音频进
行处理，然后经由传输模块404传送到电子设备，继而由电子设备通
过WIFI或者3G/4G通信网络传送到远程协助端，远程协助端根据接
收到的视频语音信息进行实时处理，处理结果通过耳机传送给用户。

在本实施例中，用户可以通过摄像头模块401连续采集图像，同
时通过麦克风采集音频，由图像信号处理器和语音编解码器对图像音
频进行处理，然后经由传输模块404传送到电子设备存储器存储起来，
录制结束后可以在电子设备上播放，或者上传到网络与朋友共享。

本领域技术人员可以理解，上述图像和语音交互装置400还包括
一些其他公知结构，例如处理器、存储器等，为了不必要地模糊本公
开的实施例，这些公知的结构在图4中未示出。

下面参考图5，其示出了适于用来实现本申请实施例的终端设备
或服务器的计算机系统500的结构示意图。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其
可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508
加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作
和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数
据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入
/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；
包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的
输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、
调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如
因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口
505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，
根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据
需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以
被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程
序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计
算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施
例中，该计算机程序可以通过通信部分509从网络上被下载和安装，
和/或从可拆卸介质511被安装。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、
方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点
上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码
的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于
实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的
实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发
生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们
有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的
是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的
组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，
或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实
现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理
器中，例如，可以描述为：一种处理器包括摄像头模块、音频模块、
核心控制模块和传输模块。其中，这些模块的名称在某种情况下并不
构成对该模块本身的限定，例如，音频模块还可以被描述为“接收用
户音频信号的模块”。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，
该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的
非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非
易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或
者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述
设备：通过摄像头实现图像信息采集操作；通过音频模块实现音频信
息采集和语音播放操作；对于采集到的图像信息实现优化操作，并控
制所述图像信息和所述音频信息的传输；在电子设备和核心控制模块
之间实现传输操作。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说
明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限
于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离
所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合
而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)
具有类似功能的技术特征进行互相替换而形成的技术方案。