信息处理方法和信息处理装置.pdf

摘要
申请专利号：	CN201410098941.3	申请日：	2014.03.17
公开号：	CN103841268A	公开日：	2014.06.04
当前法律状态：	驳回	有效性：	无权
法律详情：	发明专利申请公布后的驳回IPC(主分类):H04M 1/725申请公布日:20140604\|\|\|实质审查的生效IPC(主分类):H04M 1/725申请日:20140317\|\|\|公开
IPC分类号：	H04M1/725; G10L15/26; G06F3/01	主分类号：	H04M1/725
申请人：	联想（北京）有限公司
发明人：	丁晓霞
地址：	100085 北京市海淀区上地西路6号
优先权：
专利代理机构：	北京市柳沈律师事务所 11105	代理人：	安之斐
PDF下载：	PDF下载

内容摘要

本发明公开了一种信息处理方法和装置。所述信息处理方法应用于第一电子设备中，所述第一电子设备能够与第二电子设备进行语音通信，所述方法包括：当所述第一电子设备与所述第二电子设备进行语音通信时，获取语音通信数据；当检测到一识别指令时，对所述语音通信数据进行语音识别，以生成与所述语音通信数据对应的文本信息；以及呈现一用户界面，在所述用户界面中显示所述文本信息，以用于对所述文本信息进行编辑确认。因此，在本发明中，提供了一种能够灵活、方便地记录信息的方式，从而避免了用户为了在语音通信期间记录信息而不得不在通话操作和信息记录之间进行切换，提高了用户体验。

权利要求书

权利要求书
1.  一种信息处理方法，所述方法应用于第一电子设备中，所述第一电子设备能够与第二电子设备进行语音通信，其特征在于，所述方法包括：
当所述第一电子设备与所述第二电子设备进行语音通信时，获取语音通信数据；
当检测到一识别指令时，对所述语音通信数据进行语音识别，以生成与所述语音通信数据对应的文本信息；以及
呈现一用户界面，在所述用户界面中显示所述文本信息，以用于对所述文本信息进行编辑确认。

2.  根据权利要求1的方法，其特征在于，在所述对所述语音通信数据进行语音识别的步骤之前，所述方法还包括：
当检测到一操作指令时，或者当检测到在所述语音通信数据中包括一预设关键字信息时，生成所述识别指令。

3.  根据权利要求1的方法，其特征在于，所述对所述语音通信数据进行语音识别的步骤包括：
当所述语音通信为音频通信时，对所述语音通信数据进行语音识别；或者
当所述语音通信为视频通信时，从所述语音通信数据中提取音频信息，并且对所述音频信息进行语音识别；或者
当所述语音通信为视频通信时，从所述语音通信数据中提取图像信息，并且对所述图像信息进行图像识别。

4.  根据权利要求1的方法，其特征在于，所述方法还包括：
在所述语音通信结束之后，在所述用户界面中提供回放功能，所述回放功能用于向用户播放所述语音通信数据，使得所述用户能够根据所述语音通信数据来确认所生成的文本信息。

5.  根据权利要求1的方法，其特征在于，在所述用户界面中显示所述文本信息的步骤之后，所述方法还包括：
启动第一应用程序，所述第一应用程序用于存储所述文本信息；
识别所述文本信息的格式；以及
根据所述格式来将所述文本信息填写到所述第一应用程序中的相应文本输入框中。

6.  一种信息处理装置，所述装置应用于第一电子设备中，所述第一电子设备能够与第二电子设备进行语音通信，其特征在于，所述装置包括：
数据获取单元，用于当所述第一电子设备与所述第二电子设备进行语音通信时，获取语音通信数据；
语音识别单元，用于当检测到一识别指令时，对所述语音通信数据进行语音识别，以生成与所述语音通信数据对应的文本信息；以及
界面呈现单元，用于呈现一用户界面，在所述用户界面中显示所述文本信息，以用于对所述文本信息进行编辑确认。

7.  根据权利要求6的装置，其特征在于，所述装置还包括：
指令生成单元，用于在所述语音识别单元对所述语音通信数据进行语音识别之前，当检测到一操作指令时，或者当检测到在所述语音通信数据中包括一预设关键字信息时，生成所述识别指令。

8.  根据权利要求6的装置，其特征在于，所述语音识别单元通过以下操作来对所述语音通信数据进行语音识别：
当所述语音通信为音频通信时，对所述语音通信数据进行语音识别；或者
当所述语音通信为视频通信时，从所述语音通信数据中提取音频信息，并且对所述音频信息进行语音识别；或者
当所述语音通信为视频通信时，从所述语音通信数据中提取图像信息，并且对所述图像信息进行图像识别。

9.  根据权利要求6的装置，其特征在于，所述装置还包括：
数据回放单元，用于在所述语音通信结束之后，在所述用户界面中提供回放功能，所述回放功能用于向用户播放所述语音通信数据，使得所述用户能够根据所述语音通信数据来确认所生成的文本信息。

10.  根据权利要求6的装置，其特征在于，所述装置还包括：
应用启动单元，用于在所述界面呈现单元在所述用户界面中显示所述文本信息之后，启动第一应用程序，所述第一应用程序用于存储所述文本信息；
格式识别单元，用于识别所述文本信息的格式；以及
信息填写单元，用于根据所述格式来将所述文本信息填写到所述第一应用程序中的相应文本输入框中。

说明书

说明书信息处理方法和信息处理装置
技术领域
本发明涉及计算机技术领域，更具体地，本发明涉及一种信息处理方法和信息处理装置。
背景技术
近年来，诸如笔记本计算机、台式计算机、平板电脑（PAD）、移动电话、多媒体播放器、个人数字助理（PDA）之类的电子设备越发普及。
同时，随着通信技术的不断发展，在这些电子设备中通常都集成有通信装置，这使得一个用户能够方便地与其他用户随时随地地进行语音通信。
在语音通信的过程中，典型地，经常存在以下应用场景，即一个用户在使用电子设备（例如，移动电话）而与另一用户进行语音通信时，随时可能需要记录对方所说的特定信息（诸如，姓名、电话号码、地址、银行卡号码等）。为此，在现有技术中，该用户不得不将电子设备从自己耳边拿开，并且在电子设备所显示的拨号盘或其他应用程序界面中手动输入这些特定信息。显然，这种信息记录方式需要用户首先暂停通话操作并开始记录信息，并且在信息记录完成之后再重新开始该通话操作。
显然，这种操作方式十分繁琐，造成用户体验很差。尤其是，当所要记录的信息较长时，用户甚至可能需要在通话操作与信息记录之间进行多次切换，才能将信息完整地记录下来，这无疑是极为耗费精力的。
因此，需要一种新型的信息处理方法和信息处理装置来解决上述问题。
发明内容
为了解决上述技术问题，根据本发明的一个方面，提供了一种信息处理方法，所述方法应用于第一电子设备中，所述第一电子设备能够与第二电子设备进行语音通信，所述方法包括：当所述第一电子设备与所述第二电子设备进行语音通信时，获取语音通信数据；当检测到一识别指令时，对所述语音通信数据进行语音识别，以生成与所述语音通信数据对应的文本信息；以及呈现一用户界面，在所述用户界面中显示所述文本信息，以用于对所述文本信息进行编辑确认。
优选地，在所述对所述语音通信数据进行语音识别的步骤之前，所述方法还可以包括：当检测到一操作指令时，或者当检测到在所述语音通信数据中包括一预设关键字信息时，生成所述识别指令。
优选地，所述对所述语音通信数据进行语音识别的步骤可以包括：当所述语音通信为音频通信时，对所述语音通信数据进行语音识别；或者当所述语音通信为视频通信时，从所述语音通信数据中提取音频信息，并且对所述音频信息进行语音识别；或者当所述语音通信为视频通信时，从所述语音通信数据中提取图像信息，并且对所述图像信息进行图像识别。
优选地，所述方法还可以包括：在所述语音通信结束之后，在所述用户界面中提供通话回放功能，所述通话回放功能用于向用户播放所述语音通信数据，使得所述用户能够根据所述语音通信数据来确认所生成的文本信息。
优选地，在所述用户界面中显示所述文本信息的步骤之后，所述方法还可以包括：启动第一应用程序，所述第一应用程序用于存储所述文本信息；识别所述文本信息的格式；以及根据所述格式来将所述文本信息填写到所述第一应用程序中的相应文本输入框中。
此外，根据本发明的另一方面，提供了一种信息处理装置，所述装置应用于第一电子设备中，所述第一电子设备能够与第二电子设备进行语音通信，所述装置包括：数据获取单元，用于当所述第一电子设备与所述第二电子设备进行语音通信时，获取语音通信数据；语音识别单元，用于当检测到一识别指令时，对所述语音通信数据进行语音识别，以生成与所述语音通信数据对应的文本信息；以及界面呈现单元，用于呈现一用户界面，在所述用户界面中显示所述文本信息，以用于对所述文本信息进行编辑确认。
优选地，所述装置还可以包括：指令生成单元，用于在所述语音识别单元对所述语音通信数据进行语音识别之前，当检测到一操作指令时，或者当检测到在所述语音通信数据中包括一预设关键字信息时，生成所述识别指令。
优选地，所述语音识别单元可以通过以下操作来对所述语音通信数据进行语音识别：当所述语音通信为音频通信时，对所述语音通信数据进行语音识别；或者当所述语音通信为视频通信时，从所述语音通信数据中提取音频信息，并且对所述音频信息进行语音识别；或者当所述语音通信为视频通信时，从所述语音通信数据中提取图像信息，并且对所述图像信息进行图像识别。
优选地，所述装置还可以包括：数据回放单元，用于在所述语音通信结束之后，在所述用户界面中提供回放功能，所述回放功能用于向用户播放所述语音通信数据，使得所述用户能够根据所述语音通信数据来确认所生成的文本信息。
优选地，所述装置还可以包括：应用启动单元，用于在所述界面呈现单元在所述用户界面中显示所述文本信息之后，启动第一应用程序，所述第一应用程序用于存储所述文本信息；格式识别单元，用于识别所述文本信息的格式；以及信息填写单元，用于根据所述格式来将所述文本信息填写到所述第一应用程序中的相应文本输入框中。
与现有技术相比，由此可见，采用根据本发明的信息处理方法和装置，在语音通信期间，可以自动地获取语音通信数据，根据用户需求来对所述语音通信数据进行语音识别，并且在用户界面中显示通过语音识别所得到的文本信息，以供用户进行编辑确认。因此，在本发明中，提供了一种能够灵活、方便地记录信息的方式，从而避免了用户为了在语音通信期间记录信息而不得不在通话操作和信息记录之间进行切换，提高了用户体验。
本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：
图1图示了根据本发明的信息处理方法。
图2图示了根据本发明实施例的信息处理方法。
图3图示了根据本发明的信息处理装置。
图4图示了根据本发明实施例的信息处理装置。
图5图示了根据本发明实施例的电子设备。
具体实施方式
将参照附图详细描述根据本发明的各个实施例。这里，需要注意的是，在附图中，将相同的附图标记赋予基本上具有相同或类似结构和功能的组成部分，并且将省略关于它们的重复描述。
图1图示了根据本发明的信息处理方法。
图1所图示的信息处理方法应用于第一电子设备中，所述第一电子设备能够与第二电子设备进行语音通信。如图1所图示的，所述信息处理方法包括：
在步骤S110中，当所述第一电子设备与所述第二电子设备进行语音通信时，获取语音通信数据；
在步骤S120中，当检测到一识别指令时，对所述语音通信数据进行语音识别，以生成与所述语音通信数据对应的文本信息；以及
在步骤S130中，呈现一用户界面，在所述用户界面中显示所述文本信息，以用于对所述文本信息进行编辑确认。
由此可见，采用根据本发明的信息处理方法，在语音通信期间，可以自动地获取语音通信数据，根据用户需求来对所述语音通信数据进行语音识别，并且在用户界面中显示通过语音识别所得到的文本信息，以供用户进行编辑确认。因此，在本发明中，提供了一种能够灵活、方便地记录信息的方式，从而避免了用户为了在语音通信期间记录信息而不得不在通话操作和信息记录之间进行切换，提高了用户体验。
图2图示了根据本发明实施例的信息处理方法。
图2所图示的信息处理方法应用于第一电子设备。为了使得用户能够通过该第一电子设备而与使用第二电子设备的其他用户进行语音通信，在这些电子设备中可以集成有通信装置。
下面，将在以下具体实例中说明根据本发明实施例的信息处理方法，其中，假设该第一电子设备是移动电话，第一用户使用该移动电话来与第二用户进行语音通信，并且在语音通信期间，该第一用户需要在移动电话中记录该第二用户提及的特定信息（诸如，姓名、电话号码、地址、银行卡号码等），以供稍后使用。
然而，需要说明的是，本发明不限于此。该电子设备可以是任何类型的电子设备，其包括但不限于：笔记本计算机、平板电脑、移动电话、多媒体播放器、个人数字助理等。此外，还可以将根据本发明实施例的信息处理方法应用于电子设备中的任何其他处理。
如图2所图示的，所述信息处理方法包括：
在步骤S210中，当第一电子设备与第二电子设备进行语音通信时，获取语音通信数据。
当第一用户希望与第二用户进行语音通信时，该第一用户可以使用自己所持有的第一电子设备（例如，移动电话）来呼叫第二用户所持有的第二电子设备。例如，该第一电子设备和第二电子设备都具有唯一的标识符（例如，电话号码、社交网络账户、即时通信标识信息等），以用于唯一地标识所述电子设备。然后，第二用户可以接通第一用户的来电，并且使用第二电子设备与第一用户开始进行语音通信。
这里，该语音通信可以是指单纯的音频通信。然而，需要说明的是，本发明不限于此。该语音通信还可以包括视频通信等。
在所述第一电子设备与所述第二电子设备建立起语音通信之后，本信息处理方法可以获取与该语音通信相关的语音通信数据。
例如，在该语音通信是音频通信的情况下，该语音通信数据可以包括纯音频信息。或者，在该语音通信是视频通信的情况下，该语音通信数据可以包括音频信息和图像信息两者。
在步骤S220中，根据用户需要来生成识别指令。
例如，在第一用户与第二用户进行语音通信的过程中，第一用户可能会注意到第二用户马上要提及某些特定信息并需要记录下来。
为此，该信息处理方法可以根据用户需要来在第一时刻处生成一个识别指令，所述识别指令用于命令该第一电子设备自动地对第二用户提及的特定信息进行语音识别，以生成对应的文本信息，以供用户稍后进行查看、使用、编辑等用途。
在一个示例中，可以当检测到一操作指令时生成该识别指令。
换言之，可以基于用户的手动请求来生成该识别指令。
例如，在该第一电子设备中可以装备有一个物理按键，或者在该第一电子设备的语音通信界面中可以显示有一个虚拟按键，使得当检测到用户对于该物理按键或虚拟按键进行按压操作时，会生成一个操作指令，然后可以根据该操作指令来生成用于触发语音识别操作的识别指令。例如，这种按压操作的方式可以是默认的，也可以根据用户的需要进行设置。具体地，按压操作的方式可以包括：单击、双击、三击、长按等。
优选地，在物理按键的情况下，该物理按键可以与在电子设备中通常会配置有的录音按键或照相按键进行复用。
在另一示例中，可以当检测到在所述语音通信数据中包括一预设关键字信息时，生成所述识别指令。
换言之，可以基于预设的关键字信息检测来生成该识别指令。
为此，在获取到上述语音通信数据之后，可以对所述语音通信数据进行初始识别操作，以检测在所述语音通信数据中是否包括关键字信息。
例如，当所述语音通信为音频通信时，可以对所述语音通信数据（即，音频信息）直接地进行语音识别。当所述语音通信为视频通信时，可以首先从所述语音通信数据（即，音频信息和图像信息的集合）中提取音频信息，然后，对所述音频信息进行语音识别。
在对所述语音通信数据进行初始识别操作之后，可以将识别的结果与启动识别的关键字信息进行比对。如果判断出当前出现该关键字信息，则生成用于触发语音识别操作的识别指令。
例如，该关键字信息可以来自于一个词库，其中包括有通常会用到的关键字，例如“姓名是”、“电话号码是”、“地址是”等。显然，这个词库可以存储在第一电子设备本地，并且由用户根据需要而自行扩充，或者可以通过更新程序而自动进行更新；替换地，该词库也可以存储在服务器端（即，云端），并且在需要时由第一电子设备进行获取。
在任一示例的情况下，在该电子设备中可以常态地运行一个例程，用于执行上述按键或关键字检测操作，并且在检测到按键的按压操作或关键字出现时，产生一个中断，以触发后续的语音识别操作。替换地，该例程也可以随着在第一电子设备中语音通信进行的启动而启动。
在步骤S230中，当检测到一识别指令时，对语音通信数据进行语音识别，以生成与语音通信数据对应的文本信息。
当检测到在第一时刻处已经生成识别指令时，可以对接下来的语音通信数据进行精确语音识别。
需要说明的是，为了减少第一电子设备的功耗，这里的精确语音识别的精度可以大于在步骤S220中的初始语音识别的精度，这是由于在步骤S230中进行识别的目的是为了记录对于第一用户而言非常重要的信息，所以信息识别的精度要求较高，而在步骤S220中进行识别的目的是为了判断是否触发上述识别和记录操作，并且即使上述识别被误触发，也不会对用户造成太大损失，或者即使上述识别未能被及时触发，用户仍可以手动地启动识别操作，所以初始识别的精度要求相对较低。
此外，如上所述，当所述语音通信为音频通信时，可以使用任何可行的语音识别算法（基于语音学和声学的方法）来对所述语音通信数据（即，音频信息）直接地进行语音识别。当所述语音通信为视频通信时，可以首先从所述语音通信数据（即，音频信息和图像信息的集合）中提取音频信息，然后，对所述音频信息进行语音识别。
需要说明的是，这里所使用的语音识别算法不构成对于本发明的限制。例如，除了基于语音学和声学的方法之外，该语音识别算法还可以包括：模板匹配的方法、神经网络的方法等。
此外，在该语音通信是视频通信的情况下，还可能存在以下场景，即第二用户除了可以说出特定信息之外，还可以在画面中展示该特定信息。例如，当第二用户正在向第一用户推荐一本书籍的时候，该第二用户可能会在说出关键字“书名是”之后，在画面中向第一用户展示该书籍封面。这时，如果仅仅对音频信息进行语音识别，则可能会错失需要记录的信息。
为此，优选地，当所述语音通信为视频通信时，还可以首先从所述语音通信数据（即，音频信息和图像信息的集合）中提取图像信息，并且对所述图像信息进行图像识别。
此外，由于用户需要记录的特定信息的长度通常来说是有限的，所以为了节省第一电子设备的功耗和内存资源，可以根据用户需要来在第二时刻处终止上述识别操作，以免第一电子设备长时间地处于精确识别状态中。这时，语音识别操作将仅仅针对第一时刻与第二时刻之间的语音通信数据。
在一个示例中，可以基于用户的手动请求来生成该终止指令。
例如，第一用户可以通过再次按压上述的物理按键或虚拟按键来生成该终止指令。
在另一示例中，可以基于关键字信息检测来生成该识别指令。
例如，在精确识别过程中，可以将识别的结果与用于终止识别的关键字信息进行比对。如果判断出当前出现该关键字信息，则生成用于触发停止语音识别操作的终止指令。
例如，该用于终止识别的关键字信息可以是“就是这样”、“记下来了吗”、“我再重复一遍”等。
然而，需要说明的是，本发明不限于此。例如，还可以设置一个计时器，并且在该计时器的计时超出一时间阈值时，生成该终止指令。替换地，还可以直到检测到所述第一电子设备与所述第二电子设备之间语音通信结束时，才生成该终止指令。
然后，在进行了上述语音识别和/或图像识别之后，可以生成与用户所需要的特定信息对应的文本信息。
在步骤S240中，呈现一用户界面，在用户界面中显示文本信息，以用于对文本信息进行编辑确认。
接下来，可以在第一电子设备中显示一个用户界面，以向用户呈现所识别出的文本信息，使得用户能够确认该文本信息的正确与否，并且对该文本信息进行编辑、和存储等。
优选地，为了避免影响两个用户之间的语音通信，可以等到该语音通信结束之后，将用于显示文本信息的用户界面弹出到前端进行显示。
此外，优选地，为了使得用户能够进一步确认出通过识别操作得到的文本信息的正确性，可以在步骤S230中，在语音识别开始之后，对语音通信数据的内容进行记录（例如，录音或录像）并产生一个记录文件，以便稍后用户可以参照该记录文件来对该文本信息进行编辑确认。
在一个优选示例中，可以直接在所弹出的用户界面中提供通话回放功能，所述通话回放功能用于向用户播放所述语音通信数据，使得所述用户能够根据所述语音通信数据来确认所生成的文本信息。
具体地，可以在该用户界面中提供一个虚拟按钮、超级链接或文件浏览器，以便用户可以在该相关入口处，打开与先前存储的语音通信数据对应的记录文件。在接收到用户对于该记录文件的点击操作之后，可以在后台播放音频信息，以便用户能够反复收听并且确认识别得到的文本信息是否正确。
替换地，该音频信息的播放也可以处于前台，只要其不遮挡住所呈现的文本信息即可。相似地，如果所述语音通信为视频通信时，也可以在前台播放相关的画面，以便用户查看和确认。
在步骤S250中，将文本信息填写到第一应用程序中。
在用户确认了文本信息的正确性之后，可选地，可以进一步判断文本信息的类别，并且将该文本信息输入到相关的应用程序中。
为此，该信息处理方法可以启动第一应用程序，所述第一应用程序用于存储所述文本信息；识别所述文本信息的格式；并且根据所述格式来将所述文本信息填写到所述第一应用程序中的相应文本输入框中。
具体地，例如，当识别出该文本信息是第二用户的姓名和电话号码时，在用户确认上述文本信息之后，优选地，可以向用户提示是否打开潜在相关的应用程序列表。例如，该应用程序列表可以包括电话本、记事本、短信息等。例如，该用户可以从列表中选择打开电话本应用程序，以用于在电话本中保存第二用户的联系方式。
为此，可以进一步识别该文本信息的内容，以确认文本信息的哪一部分是文字、哪一部分是数字，从而判断出其可能分别对应于姓名和电话号码。
最后，可以将自动判断出的姓名和电话号码填写到所打开的电话本应用程序中。例如，将第二用户的姓名填写到电话本中的姓名栏中，并且将第二用户的电话号码填写到电话本中的电话号码栏中。
由此可见，采用根据本发明实施例的信息处理方法，在语音通信期间，可以自动地获取语音通信数据，根据用户需求来对所述语音通信数据进行语音识别，在用户界面中显示通过语音识别所得到的文本信息，向用户提供与该文本信息相关的语音通信数据，以供用户编辑和确认该文本信息，并最终根据文本信息的类别来将该文本信息自动地输入到相关的应用程序中。因此，在本发明的实施例中提供了一种信息记录方式，使得在进行信息记录时，对语音通信的影响较小，需要用户手动操作的时间较短，并且对文本信息的记录也变得更加智能。
图3图示了根据本发明的信息处理装置。
图1所图示的根据本发明的信息处理方法可以通过图3所图示的信息处理装置100来实现，并且该信息处理装置100可以应用于第一电子设备中，所述第一电子设备能够与第二电子设备进行语音通信。如图3所图示的，所述信息处理装置包括：
数据获取单元110，用于当所述第一电子设备与所述第二电子设备进行语音通信时，获取语音通信数据；
语音识别单元120，用于当检测到一识别指令时，对所述语音通信数据进行语音识别，以生成与所述语音通信数据对应的文本信息；以及
界面呈现单元130，用于呈现一用户界面，在所述用户界面中显示所述文本信息，以用于对所述文本信息进行编辑确认。
由此可见，采用根据本发明的信息处理装置，在语音通信期间，可以自动地获取语音通信数据，根据用户需求来对所述语音通信数据进行语音识别，并且在用户界面中显示通过语音识别所得到的文本信息，以供用户进行编辑确认。因此，在本发明中，提供了一种能够灵活、方便地记录信息的方式，从而避免了用户为了在语音通信期间记录信息而不得不在通话操作和信息记录之间进行切换，提高了用户体验。
图4图示了根据本发明实施例的信息处理装置，并且图5图示了根据本发明实施例的电子设备。
图2所图示的根据本发明实施例的信息处理方法可以通过图4所图示的信息处理装置100来实现，并且该信息处理装置100可以应用于图5所图示的一个或多个第一电子设备10。
所述第一电子设备10用于与所述第二电子设备建立起通信连接，以使得第一用户和第二用户进行语音通信。
如图5所图示的，所述电子设备10可以包括：信息处理装置100，用于在所述第一电子设备与第二电子设备的语音通信期间，自动地获取语音通信数据，根据用户需求来对所述语音通信数据进行语音识别，并且在用户界面中显示通过语音识别所得到的文本信息；以及通信装置200，用于使得所述第一电子设备能够与第二电子设备进行语音通信。
此外，该信息处理装置100可以通过任何方式与电子设备10进行通信。
在一个示例中，该信息处理装置100可以作为一个软件模块和/或硬件模块而集成到该电子设备10中，换言之，该电子设备10可以包括该信息处理装置100。例如，当电子设备10是移动电话时，该信息处理装置100可以是该移动电话的操作系统中的一个软件模块，或者可以是针对于该移动电话所开发的一个应用程序；当然，该信息处理装置100同样可以是该移动电话的众多硬件模块之一。
替换地，在另一示例中，该信息处理装置100与该电子设备10也可以是分离的设备，并且该信息处理装置100可以通过有线和/或无线网络连接到该电子设备10，并且按照约定的数据格式来传输交互信息。
如图4所图示的，与图3中相似地，该信息处理装置100可以包括：数据获取单元110、语音识别单元120、和界面呈现单元130。
此外，优选地，该信息处理装置100还可以包括：指令生成单元140、数据回放单元150、应用启动单元160、格式识别单元170、和/或信息填写单元180。
该数据获取单元110可以用于当所述第一电子设备与所述第二电子设备进行语音通信时，获取语音通信数据。
该语音识别单元120可以用于当检测到一识别指令时，对所述语音通信数据进行语音识别，以生成与所述语音通信数据对应的文本信息。
具体地，该语音识别单元120可以通过以下操作来对所述语音通信数据进行语音识别：当所述语音通信为音频通信时，对所述语音通信数据进行语音识别；或者当所述语音通信为视频通信时，从所述语音通信数据中提取音频信息，并且对所述音频信息进行语音识别；或者当所述语音通信为视频通信时，从所述语音通信数据中提取图像信息，并且对所述图像信息进行图像识别。
该界面呈现单元130可以用于呈现一用户界面，在所述用户界面中显示所述文本信息，以用于对所述文本信息进行编辑确认。
该指令生成单元140可以用于在所述语音识别单元对所述语音通信数据进行语音识别之前，当检测到一操作指令时，或者当检测到在所述语音通信数据中包括一预设关键字信息时，生成所述识别指令。
该数据回放单元150可以用于在所述语音通信结束之后，在所述用户界面中提供回放功能，所述回放功能用于向用户播放所述语音通信数据，使得所述用户能够根据所述语音通信数据来确认所生成的文本信息。
该应用启动单元160可以用于在所述界面呈现单元在所述用户界面中显示所述文本信息之后，启动第一应用程序，所述第一应用程序用于存储所述文本信息。
该格式识别单元170可以用于识别所述文本信息的格式。
该信息填写单元180可以用于根据所述格式来将所述文本信息填写到所述第一应用程序中的相应文本输入框中。
根据本发明实施例的信息处理装置100中的各个单元以及电子设备10中的各个装置的具体配置和操作已经在上面参考图1和图2描述的信息处理方法中详细介绍，并因此，将省略其重复描述。
由此可见，采用根据本发明实施例的信息处理装置，在语音通信期间，可以自动地获取语音通信数据，根据用户需求来对所述语音通信数据进行语音识别，在用户界面中显示通过语音识别所得到的文本信息，向用户提供与该文本信息相关的语音通信数据，以供用户编辑和确认该文本信息，并最终根据文本信息的类别来将该文本信息自动地输入到相关的应用程序中。因此，在本发明的实施例中提供了一种信息记录方式，使得在进行信息记录时，对语音通信的影响较小，需要用户手动操作的时间较短，并且对文本信息的记录也变得更加智能。
此外，尽管此处将上述的各个单元作为各个步骤的执行主体来说明本发明的各个实施例，但是，本领域技术人员能够理解的是，本发明不限于此。各个步骤的执行主体可以由其他的一个或多个设备、装置、单元、甚至模块来担任。
例如，上述数据获取单元110、语音识别单元120、界面呈现单元130、指令生成单元140、数据回放单元150、应用启动单元160、格式识别单元170、和/或信息填写单元180所执行的各个步骤可以统一地由电子设备中的中央处理单元（CPU）来实现。
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助于软件加必需的硬件平台的方式来实现，当然也可以全部通过软件、或硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁盘、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。
在上面详细描述了本发明的各个实施例。然而，本领域技术人员应该理解，在不脱离本发明的原理和精神的情况下，可对这些实施例进行各种修改，组合或子组合，并且这样的修改应落入本发明的范围内。

资源描述

《信息处理方法和信息处理装置.pdf》由会员分享，可在线阅读，更多相关《信息处理方法和信息处理装置.pdf（16页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103841268 A (43)申请公布日 2014.06.04 CN 103841268 A (21)申请号 201410098941.3 (22)申请日 2014.03.17 H04M 1/725(2006.01) G10L 15/26(2006.01) G06F 3/01(2006.01) (71)申请人联想（北京）有限公司地址 100085 北京市海淀区上地西路 6 号 (72)发明人丁晓霞 (74)专利代理机构北京市柳沈律师事务所 11105 代理人安之斐 (54) 发明名称信息处理方法和信息处理装置 (57) 摘要本发明公开了一种信息处理。

2、方法和装置。所述信息处理方法应用于第一电子设备中，所述第一电子设备能够与第二电子设备进行语音通信，所述方法包括：当所述第一电子设备与所述第二电子设备进行语音通信时，获取语音通信数据；当检测到一识别指令时，对所述语音通信数据进行语音识别，以生成与所述语音通信数据对应的文本信息；以及呈现一用户界面，在所述用户界面中显示所述文本信息，以用于对所述文本信息进行编辑确认。因此，在本发明中，提供了一种能够灵活、方便地记录信息的方式，从而避免了用户为了在语音通信期间记录信息而不得不在通话操作和信息记录之间进行切换，提高了用户体验。 (51)Int.Cl。

3、. 权利要求书 2 页说明书 9 页附图 4 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书2页说明书9页附图4页 (10)申请公布号 CN 103841268 A CN 103841268 A 1/2 页 2 1. 一种信息处理方法，所述方法应用于第一电子设备中，所述第一电子设备能够与第二电子设备进行语音通信，其特征在于，所述方法包括：当所述第一电子设备与所述第二电子设备进行语音通信时，获取语音通信数据；当检测到一识别指令时，对所述语音通信数据进行语音识别，以生成与所述语音通信数据对应的文本信息；以及呈现一用户界面，在所述。

4、用户界面中显示所述文本信息，以用于对所述文本信息进行编辑确认。 2. 根据权利要求 1 的方法，其特征在于，在所述对所述语音通信数据进行语音识别的步骤之前，所述方法还包括：当检测到一操作指令时，或者当检测到在所述语音通信数据中包括一预设关键字信息时，生成所述识别指令。 3. 根据权利要求 1 的方法，其特征在于，所述对所述语音通信数据进行语音识别的步骤包括：当所述语音通信为音频通信时，对所述语音通信数据进行语音识别；或者当所述语音通信为视频通信时，从所述语音通信数据中提取音频信息，并且对所述音频信息进行语音识别；或者当所述语音通信为视频通信时。

5、，从所述语音通信数据中提取图像信息，并且对所述图像信息进行图像识别。 4. 根据权利要求 1 的方法，其特征在于，所述方法还包括：在所述语音通信结束之后，在所述用户界面中提供回放功能，所述回放功能用于向用户播放所述语音通信数据，使得所述用户能够根据所述语音通信数据来确认所生成的文本信息。 5. 根据权利要求 1 的方法，其特征在于，在所述用户界面中显示所述文本信息的步骤之后，所述方法还包括：启动第一应用程序，所述第一应用程序用于存储所述文本信息；识别所述文本信息的格式；以及根据所述格式来将所述文本信息填写到所述第一应用程序中的相应文本输入框中。。

6、6. 一种信息处理装置，所述装置应用于第一电子设备中，所述第一电子设备能够与第二电子设备进行语音通信，其特征在于，所述装置包括：数据获取单元，用于当所述第一电子设备与所述第二电子设备进行语音通信时，获取语音通信数据；语音识别单元，用于当检测到一识别指令时，对所述语音通信数据进行语音识别，以生成与所述语音通信数据对应的文本信息；以及界面呈现单元，用于呈现一用户界面，在所述用户界面中显示所述文本信息，以用于对所述文本信息进行编辑确认。 7. 根据权利要求 6 的装置，其特征在于，所述装置还包括：指令生成单元，用于在所述语音识别单元对所述语音通。

7、信数据进行语音识别之前，当检测到一操作指令时，或者当检测到在所述语音通信数据中包括一预设关键字信息时，生成所述识别指令。权利要求书 CN 103841268 A 2 2/2 页 3 8. 根据权利要求 6 的装置，其特征在于，所述语音识别单元通过以下操作来对所述语音通信数据进行语音识别：当所述语音通信为音频通信时，对所述语音通信数据进行语音识别；或者当所述语音通信为视频通信时，从所述语音通信数据中提取音频信息，并且对所述音频信息进行语音识别；或者当所述语音通信为视频通信时，从所述语音通信数据中提取图像信息，并且对所述图像信息进行图像识别。。

8、 9. 根据权利要求 6 的装置，其特征在于，所述装置还包括：数据回放单元，用于在所述语音通信结束之后，在所述用户界面中提供回放功能，所述回放功能用于向用户播放所述语音通信数据，使得所述用户能够根据所述语音通信数据来确认所生成的文本信息。 10. 根据权利要求 6 的装置，其特征在于，所述装置还包括：应用启动单元，用于在所述界面呈现单元在所述用户界面中显示所述文本信息之后，启动第一应用程序，所述第一应用程序用于存储所述文本信息；格式识别单元，用于识别所述文本信息的格式；以及信息填写单元，用于根据所述格式来将所述文本信息填写到所述第一应用程序中的相。

9、应文本输入框中。权利要求书 CN 103841268 A 3 1/9 页 4 信息处理方法和信息处理装置技术领域 0001 本发明涉及计算机技术领域，更具体地，本发明涉及一种信息处理方法和信息处理装置。背景技术 0002 近年来，诸如笔记本计算机、台式计算机、平板电脑（PAD）、移动电话、多媒体播放器、个人数字助理（PDA）之类的电子设备越发普及。 0003 同时，随着通信技术的不断发展，在这些电子设备中通常都集成有通信装置，这使得一个用户能够方便地与其他用户随时随地地进行语音通信。 0004 在语音通信的过程中，典型地，经常存在以下应用。

10、场景，即一个用户在使用电子设备（例如，移动电话）而与另一用户进行语音通信时，随时可能需要记录对方所说的特定信息（诸如，姓名、电话号码、地址、银行卡号码等）。为此，在现有技术中，该用户不得不将电子设备从自己耳边拿开，并且在电子设备所显示的拨号盘或其他应用程序界面中手动输入这些特定信息。显然，这种信息记录方式需要用户首先暂停通话操作并开始记录信息，并且在信息记录完成之后再重新开始该通话操作。 0005 显然，这种操作方式十分繁琐，造成用户体验很差。尤其是，当所要记录的信息较长时，用户甚至可能需要在通话操作与信息记录之间进行多次切换，才能将信息。

11、完整地记录下来，这无疑是极为耗费精力的。 0006 因此，需要一种新型的信息处理方法和信息处理装置来解决上述问题。发明内容 0007 为了解决上述技术问题，根据本发明的一个方面，提供了一种信息处理方法，所述方法应用于第一电子设备中，所述第一电子设备能够与第二电子设备进行语音通信，所述方法包括：当所述第一电子设备与所述第二电子设备进行语音通信时，获取语音通信数据；当检测到一识别指令时，对所述语音通信数据进行语音识别，以生成与所述语音通信数据对应的文本信息；以及呈现一用户界面，在所述用户界面中显示所述文本信息，以用于对所述文本信息进行编辑确认。 00。

12、08 优选地，在所述对所述语音通信数据进行语音识别的步骤之前，所述方法还可以包括：当检测到一操作指令时，或者当检测到在所述语音通信数据中包括一预设关键字信息时，生成所述识别指令。 0009 优选地，所述对所述语音通信数据进行语音识别的步骤可以包括：当所述语音通信为音频通信时，对所述语音通信数据进行语音识别；或者当所述语音通信为视频通信时，从所述语音通信数据中提取音频信息，并且对所述音频信息进行语音识别；或者当所述语音通信为视频通信时，从所述语音通信数据中提取图像信息，并且对所述图像信息进行图像识别。 0010 优选地，所述方法还可以包括：在所。

13、述语音通信结束之后，在所述用户界面中提供说明书 CN 103841268 A 4 2/9 页 5 通话回放功能，所述通话回放功能用于向用户播放所述语音通信数据，使得所述用户能够根据所述语音通信数据来确认所生成的文本信息。 0011 优选地，在所述用户界面中显示所述文本信息的步骤之后，所述方法还可以包括：启动第一应用程序，所述第一应用程序用于存储所述文本信息；识别所述文本信息的格式；以及根据所述格式来将所述文本信息填写到所述第一应用程序中的相应文本输入框中。 0012 此外，根据本发明的另一方面，提供了一种信息处理装置，所述装置应用于第一电子设备中，所述。

14、第一电子设备能够与第二电子设备进行语音通信，所述装置包括：数据获取单元，用于当所述第一电子设备与所述第二电子设备进行语音通信时，获取语音通信数据；语音识别单元，用于当检测到一识别指令时，对所述语音通信数据进行语音识别，以生成与所述语音通信数据对应的文本信息；以及界面呈现单元，用于呈现一用户界面，在所述用户界面中显示所述文本信息，以用于对所述文本信息进行编辑确认。 0013 优选地，所述装置还可以包括：指令生成单元，用于在所述语音识别单元对所述语音通信数据进行语音识别之前，当检测到一操作指令时，或者当检测到在所述语音通信数据中包括一预设关键字信。

15、息时，生成所述识别指令。 0014 优选地，所述语音识别单元可以通过以下操作来对所述语音通信数据进行语音识别：当所述语音通信为音频通信时，对所述语音通信数据进行语音识别；或者当所述语音通信为视频通信时，从所述语音通信数据中提取音频信息，并且对所述音频信息进行语音识别；或者当所述语音通信为视频通信时，从所述语音通信数据中提取图像信息，并且对所述图像信息进行图像识别。 0015 优选地，所述装置还可以包括：数据回放单元，用于在所述语音通信结束之后，在所述用户界面中提供回放功能，所述回放功能用于向用户播放所述语音通信数据，使得所述用户能够根据所述语。

16、音通信数据来确认所生成的文本信息。 0016 优选地，所述装置还可以包括：应用启动单元，用于在所述界面呈现单元在所述用户界面中显示所述文本信息之后，启动第一应用程序，所述第一应用程序用于存储所述文本信息；格式识别单元，用于识别所述文本信息的格式；以及信息填写单元，用于根据所述格式来将所述文本信息填写到所述第一应用程序中的相应文本输入框中。 0017 与现有技术相比，由此可见，采用根据本发明的信息处理方法和装置，在语音通信期间，可以自动地获取语音通信数据，根据用户需求来对所述语音通信数据进行语音识别，并且在用户界面中显示通过语音识别所得到的文本信息，。

17、以供用户进行编辑确认。因此，在本发明中，提供了一种能够灵活、方便地记录信息的方式，从而避免了用户为了在语音通信期间记录信息而不得不在通话操作和信息记录之间进行切换，提高了用户体验。 0018 本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明 0019 附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中： 0020 图 1 图。

18、示了根据本发明的信息处理方法。说明书 CN 103841268 A 5 3/9 页 6 0021 图 2 图示了根据本发明实施例的信息处理方法。 0022 图 3 图示了根据本发明的信息处理装置。 0023 图 4 图示了根据本发明实施例的信息处理装置。 0024 图 5 图示了根据本发明实施例的电子设备。具体实施方式 0025 将参照附图详细描述根据本发明的各个实施例。这里，需要注意的是，在附图中，将相同的附图标记赋予基本上具有相同或类似结构和功能的组成部分，并且将省略关于它们的重复描述。 0026 图 1 图示了根据本发明的信息处理方法。 0027 图 1 所图示的信息处。

19、理方法应用于第一电子设备中，所述第一电子设备能够与第二电子设备进行语音通信。如图 1 所图示的，所述信息处理方法包括： 0028 在步骤 S110 中，当所述第一电子设备与所述第二电子设备进行语音通信时，获取语音通信数据； 0029 在步骤 S120 中，当检测到一识别指令时，对所述语音通信数据进行语音识别，以生成与所述语音通信数据对应的文本信息；以及 0030 在步骤 S130 中，呈现一用户界面，在所述用户界面中显示所述文本信息，以用于对所述文本信息进行编辑确认。 0031 由此可见，采用根据本发明的信息处理方法，在语音通信期间，可以自动地获取语。

20、音通信数据，根据用户需求来对所述语音通信数据进行语音识别，并且在用户界面中显示通过语音识别所得到的文本信息，以供用户进行编辑确认。因此，在本发明中，提供了一种能够灵活、方便地记录信息的方式，从而避免了用户为了在语音通信期间记录信息而不得不在通话操作和信息记录之间进行切换，提高了用户体验。 0032 图 2 图示了根据本发明实施例的信息处理方法。 0033 图 2 所图示的信息处理方法应用于第一电子设备。为了使得用户能够通过该第一电子设备而与使用第二电子设备的其他用户进行语音通信，在这些电子设备中可以集成有通信装置。 0034 下面，将在以下具体实例中说明根据本发明。

21、实施例的信息处理方法，其中，假设该第一电子设备是移动电话，第一用户使用该移动电话来与第二用户进行语音通信，并且在语音通信期间，该第一用户需要在移动电话中记录该第二用户提及的特定信息（诸如，姓名、电话号码、地址、银行卡号码等），以供稍后使用。 0035 然而，需要说明的是，本发明不限于此。该电子设备可以是任何类型的电子设备，其包括但不限于：笔记本计算机、平板电脑、移动电话、多媒体播放器、个人数字助理等。此外，还可以将根据本发明实施例的信息处理方法应用于电子设备中的任何其他处理。 0036 如图 2 所图示的，所述信息处理方法包括： 0037。

22、在步骤 S210 中，当第一电子设备与第二电子设备进行语音通信时，获取语音通信数据。 0038 当第一用户希望与第二用户进行语音通信时，该第一用户可以使用自己所持有的第一电子设备（例如，移动电话）来呼叫第二用户所持有的第二电子设备。例如，该第一电子说明书 CN 103841268 A 6 4/9 页 7 设备和第二电子设备都具有唯一的标识符（例如，电话号码、社交网络账户、即时通信标识信息等），以用于唯一地标识所述电子设备。然后，第二用户可以接通第一用户的来电，并且使用第二电子设备与第一用户开始进行语音通信。 0039 这里，该语音通信可以是指单纯。

23、的音频通信。然而，需要说明的是，本发明不限于此。该语音通信还可以包括视频通信等。 0040 在所述第一电子设备与所述第二电子设备建立起语音通信之后，本信息处理方法可以获取与该语音通信相关的语音通信数据。 0041 例如，在该语音通信是音频通信的情况下，该语音通信数据可以包括纯音频信息。或者，在该语音通信是视频通信的情况下，该语音通信数据可以包括音频信息和图像信息两者。 0042 在步骤 S220 中，根据用户需要来生成识别指令。 0043 例如，在第一用户与第二用户进行语音通信的过程中，第一用户可能会注意到第二用户马上要提及某些特定信息并需要记录下来。 0044 。

24、为此，该信息处理方法可以根据用户需要来在第一时刻处生成一个识别指令，所述识别指令用于命令该第一电子设备自动地对第二用户提及的特定信息进行语音识别，以生成对应的文本信息，以供用户稍后进行查看、使用、编辑等用途。 0045 在一个示例中，可以当检测到一操作指令时生成该识别指令。 0046 换言之，可以基于用户的手动请求来生成该识别指令。 0047 例如，在该第一电子设备中可以装备有一个物理按键，或者在该第一电子设备的语音通信界面中可以显示有一个虚拟按键，使得当检测到用户对于该物理按键或虚拟按键进行按压操作时，会生成一个操作指令，然后可以根据该操作指令来生成用于触发。

25、语音识别操作的识别指令。例如，这种按压操作的方式可以是默认的，也可以根据用户的需要进行设置。具体地，按压操作的方式可以包括：单击、双击、三击、长按等。 0048 优选地，在物理按键的情况下，该物理按键可以与在电子设备中通常会配置有的录音按键或照相按键进行复用。 0049 在另一示例中，可以当检测到在所述语音通信数据中包括一预设关键字信息时，生成所述识别指令。 0050 换言之，可以基于预设的关键字信息检测来生成该识别指令。 0051 为此，在获取到上述语音通信数据之后，可以对所述语音通信数据进行初始识别操作，以检测在所述语音通信数据中是否包括关键字信息。

26、。 0052 例如，当所述语音通信为音频通信时，可以对所述语音通信数据（即，音频信息）直接地进行语音识别。当所述语音通信为视频通信时，可以首先从所述语音通信数据（即，音频信息和图像信息的集合）中提取音频信息，然后，对所述音频信息进行语音识别。 0053 在对所述语音通信数据进行初始识别操作之后，可以将识别的结果与启动识别的关键字信息进行比对。如果判断出当前出现该关键字信息，则生成用于触发语音识别操作的识别指令。 0054 例如，该关键字信息可以来自于一个词库，其中包括有通常会用到的关键字，例如 “姓名是” 、“电话号码是” 、“地址是” 等。显然，这个。

27、词库可以存储在第一电子设备本地，并且由用户根据需要而自行扩充，或者可以通过更新程序而自动进行更新；替换地，该词库也可说明书 CN 103841268 A 7 5/9 页 8 以存储在服务器端（即，云端），并且在需要时由第一电子设备进行获取。 0055 在任一示例的情况下，在该电子设备中可以常态地运行一个例程，用于执行上述按键或关键字检测操作，并且在检测到按键的按压操作或关键字出现时，产生一个中断，以触发后续的语音识别操作。替换地，该例程也可以随着在第一电子设备中语音通信进行的启动而启动。 0056 在步骤 S230 中，当检测到一识别指令时，对语。

28、音通信数据进行语音识别，以生成与语音通信数据对应的文本信息。 0057 当检测到在第一时刻处已经生成识别指令时，可以对接下来的语音通信数据进行精确语音识别。 0058 需要说明的是，为了减少第一电子设备的功耗，这里的精确语音识别的精度可以大于在步骤 S220 中的初始语音识别的精度，这是由于在步骤 S230 中进行识别的目的是为了记录对于第一用户而言非常重要的信息，所以信息识别的精度要求较高，而在步骤 S220 中进行识别的目的是为了判断是否触发上述识别和记录操作，并且即使上述识别被误触发，也不会对用户造成太大损失，或者即使上述识别未能被及时触发，用户仍可以手动。

29、地启动识别操作，所以初始识别的精度要求相对较低。 0059 此外，如上所述，当所述语音通信为音频通信时，可以使用任何可行的语音识别算法（基于语音学和声学的方法）来对所述语音通信数据（即，音频信息）直接地进行语音识别。当所述语音通信为视频通信时，可以首先从所述语音通信数据（即，音频信息和图像信息的集合）中提取音频信息，然后，对所述音频信息进行语音识别。 0060 需要说明的是，这里所使用的语音识别算法不构成对于本发明的限制。例如，除了基于语音学和声学的方法之外，该语音识别算法还可以包括：模板匹配的方法、神经网络的方法等。 0061 此外，。

30、在该语音通信是视频通信的情况下，还可能存在以下场景，即第二用户除了可以说出特定信息之外，还可以在画面中展示该特定信息。例如，当第二用户正在向第一用户推荐一本书籍的时候，该第二用户可能会在说出关键字 “书名是” 之后，在画面中向第一用户展示该书籍封面。这时，如果仅仅对音频信息进行语音识别，则可能会错失需要记录的信息。 0062 为此，优选地，当所述语音通信为视频通信时，还可以首先从所述语音通信数据（即，音频信息和图像信息的集合）中提取图像信息，并且对所述图像信息进行图像识别。 0063 此外，由于用户需要记录的特定信息的长度通常来说是有限的，所以为了。

31、节省第一电子设备的功耗和内存资源，可以根据用户需要来在第二时刻处终止上述识别操作，以免第一电子设备长时间地处于精确识别状态中。这时，语音识别操作将仅仅针对第一时刻与第二时刻之间的语音通信数据。 0064 在一个示例中，可以基于用户的手动请求来生成该终止指令。 0065 例如，第一用户可以通过再次按压上述的物理按键或虚拟按键来生成该终止指令。 0066 在另一示例中，可以基于关键字信息检测来生成该识别指令。 0067 例如，在精确识别过程中，可以将识别的结果与用于终止识别的关键字信息进行比对。如果判断出当前出现该关键字信息，则生成用于触发停止语音识别操作的终止指令。。

32、说明书 CN 103841268 A 8 6/9 页 9 0068 例如，该用于终止识别的关键字信息可以是 “就是这样” 、“记下来了吗” 、“我再重复一遍” 等。 0069 然而，需要说明的是，本发明不限于此。例如，还可以设置一个计时器，并且在该计时器的计时超出一时间阈值时，生成该终止指令。替换地，还可以直到检测到所述第一电子设备与所述第二电子设备之间语音通信结束时，才生成该终止指令。 0070 然后，在进行了上述语音识别和 / 或图像识别之后，可以生成与用户所需要的特定信息对应的文本信息。 0071 在步骤 S240 中，呈现一用户界面，在用户界面。

33、中显示文本信息，以用于对文本信息进行编辑确认。 0072 接下来，可以在第一电子设备中显示一个用户界面，以向用户呈现所识别出的文本信息，使得用户能够确认该文本信息的正确与否，并且对该文本信息进行编辑、和存储等。 0073 优选地，为了避免影响两个用户之间的语音通信，可以等到该语音通信结束之后，将用于显示文本信息的用户界面弹出到前端进行显示。 0074 此外，优选地，为了使得用户能够进一步确认出通过识别操作得到的文本信息的正确性，可以在步骤 S230 中，在语音识别开始之后，对语音通信数据的内容进行记录（例如，录音或录像）并产生一个记录文件，以便稍后。

34、用户可以参照该记录文件来对该文本信息进行编辑确认。 0075 在一个优选示例中，可以直接在所弹出的用户界面中提供通话回放功能，所述通话回放功能用于向用户播放所述语音通信数据，使得所述用户能够根据所述语音通信数据来确认所生成的文本信息。 0076 具体地，可以在该用户界面中提供一个虚拟按钮、超级链接或文件浏览器，以便用户可以在该相关入口处，打开与先前存储的语音通信数据对应的记录文件。在接收到用户对于该记录文件的点击操作之后，可以在后台播放音频信息，以便用户能够反复收听并且确认识别得到的文本信息是否正确。 0077 替换地，该音频信息的播放也可以处于前台，只要其不。

35、遮挡住所呈现的文本信息即可。相似地，如果所述语音通信为视频通信时，也可以在前台播放相关的画面，以便用户查看和确认。 0078 在步骤 S250 中，将文本信息填写到第一应用程序中。 0079 在用户确认了文本信息的正确性之后，可选地，可以进一步判断文本信息的类别，并且将该文本信息输入到相关的应用程序中。 0080 为此，该信息处理方法可以启动第一应用程序，所述第一应用程序用于存储所述文本信息；识别所述文本信息的格式；并且根据所述格式来将所述文本信息填写到所述第一应用程序中的相应文本输入框中。 0081 具体地，例如，当识别出该文本信息是第二用户的姓名和电话。

36、号码时，在用户确认上述文本信息之后，优选地，可以向用户提示是否打开潜在相关的应用程序列表。例如，该应用程序列表可以包括电话本、记事本、短信息等。例如，该用户可以从列表中选择打开电话本应用程序，以用于在电话本中保存第二用户的联系方式。 0082 为此，可以进一步识别该文本信息的内容，以确认文本信息的哪一部分是文字、哪说明书 CN 103841268 A 9 7/9 页 10 一部分是数字，从而判断出其可能分别对应于姓名和电话号码。 0083 最后，可以将自动判断出的姓名和电话号码填写到所打开的电话本应用程序中。例如，将第二用户的姓名填写到电话本中的姓名栏。

37、中，并且将第二用户的电话号码填写到电话本中的电话号码栏中。 0084 由此可见，采用根据本发明实施例的信息处理方法，在语音通信期间，可以自动地获取语音通信数据，根据用户需求来对所述语音通信数据进行语音识别，在用户界面中显示通过语音识别所得到的文本信息，向用户提供与该文本信息相关的语音通信数据，以供用户编辑和确认该文本信息，并最终根据文本信息的类别来将该文本信息自动地输入到相关的应用程序中。因此，在本发明的实施例中提供了一种信息记录方式，使得在进行信息记录时，对语音通信的影响较小，需要用户手动操作的时间较短，并且对文本信息的记录也变得更加智能。 008。

38、5 图 3 图示了根据本发明的信息处理装置。 0086 图 1 所图示的根据本发明的信息处理方法可以通过图 3 所图示的信息处理装置 100 来实现，并且该信息处理装置 100 可以应用于第一电子设备中，所述第一电子设备能够与第二电子设备进行语音通信。如图 3 所图示的，所述信息处理装置包括： 0087 数据获取单元 110，用于当所述第一电子设备与所述第二电子设备进行语音通信时，获取语音通信数据； 0088 语音识别单元 120，用于当检测到一识别指令时，对所述语音通信数据进行语音识别，以生成与所述语音通信数据对应的文本信息；以及 0089 界面呈现单元 130。

39、，用于呈现一用户界面，在所述用户界面中显示所述文本信息，以用于对所述文本信息进行编辑确认。 0090 由此可见，采用根据本发明的信息处理装置，在语音通信期间，可以自动地获取语音通信数据，根据用户需求来对所述语音通信数据进行语音识别，并且在用户界面中显示通过语音识别所得到的文本信息，以供用户进行编辑确认。因此，在本发明中，提供了一种能够灵活、方便地记录信息的方式，从而避免了用户为了在语音通信期间记录信息而不得不在通话操作和信息记录之间进行切换，提高了用户体验。 0091 图 4 图示了根据本发明实施例的信息处理装置，并且图 5 图示了根据本发明实施例的电子。

40、设备。 0092 图2所图示的根据本发明实施例的信息处理方法可以通过图4所图示的信息处理装置 100 来实现，并且该信息处理装置 100 可以应用于图 5 所图示的一个或多个第一电子设备 10。 0093 所述第一电子设备 10 用于与所述第二电子设备建立起通信连接，以使得第一用户和第二用户进行语音通信。 0094 如图 5 所图示的，所述电子设备 10 可以包括：信息处理装置 100，用于在所述第一电子设备与第二电子设备的语音通信期间，自动地获取语音通信数据，根据用户需求来对所述语音通信数据进行语音识别，并且在用户界面中显示通过语音识别所得到的文本信息；以及。

41、通信装置 200，用于使得所述第一电子设备能够与第二电子设备进行语音通信。 0095 此外，该信息处理装置 100 可以通过任何方式与电子设备 10 进行通信。 0096 在一个示例中，该信息处理装置 100 可以作为一个软件模块和 / 或硬件模块而集说明书 CN 103841268 A 10 8/9 页 11 成到该电子设备10中，换言之，该电子设备10可以包括该信息处理装置100。例如，当电子设备10是移动电话时，该信息处理装置100可以是该移动电话的操作系统中的一个软件模块，或者可以是针对于该移动电话所开发的一个应用程序；当然，该信息处理装置 100 同。

42、样可以是该移动电话的众多硬件模块之一。 0097 替换地，在另一示例中，该信息处理装置 100 与该电子设备 10 也可以是分离的设备，并且该信息处理装置100可以通过有线和/或无线网络连接到该电子设备10，并且按照约定的数据格式来传输交互信息。 0098 如图 4 所图示的，与图 3 中相似地，该信息处理装置 100 可以包括：数据获取单元 110、语音识别单元 120、和界面呈现单元 130。 0099 此外，优选地，该信息处理装置 100 还可以包括：指令生成单元 140、数据回放单元 150、应用启动单元 160、格式识别单元 170、和 / 。

43、或信息填写单元 180。 0100 该数据获取单元 110 可以用于当所述第一电子设备与所述第二电子设备进行语音通信时，获取语音通信数据。 0101 该语音识别单元 120 可以用于当检测到一识别指令时，对所述语音通信数据进行语音识别，以生成与所述语音通信数据对应的文本信息。 0102 具体地，该语音识别单元 120 可以通过以下操作来对所述语音通信数据进行语音识别：当所述语音通信为音频通信时，对所述语音通信数据进行语音识别；或者当所述语音通信为视频通信时，从所述语音通信数据中提取音频信息，并且对所述音频信息进行语音识别；或者当所述语音通信为视频通信时，从。

44、所述语音通信数据中提取图像信息，并且对所述图像信息进行图像识别。 0103 该界面呈现单元 130 可以用于呈现一用户界面，在所述用户界面中显示所述文本信息，以用于对所述文本信息进行编辑确认。 0104 该指令生成单元 140 可以用于在所述语音识别单元对所述语音通信数据进行语音识别之前，当检测到一操作指令时，或者当检测到在所述语音通信数据中包括一预设关键字信息时，生成所述识别指令。 0105 该数据回放单元 150 可以用于在所述语音通信结束之后，在所述用户界面中提供回放功能，所述回放功能用于向用户播放所述语音通信数据，使得所述用户能够根据所述语音通信数据来确认。

45、所生成的文本信息。 0106 该应用启动单元 160 可以用于在所述界面呈现单元在所述用户界面中显示所述文本信息之后，启动第一应用程序，所述第一应用程序用于存储所述文本信息。 0107 该格式识别单元 170 可以用于识别所述文本信息的格式。 0108 该信息填写单元 180 可以用于根据所述格式来将所述文本信息填写到所述第一应用程序中的相应文本输入框中。 0109 根据本发明实施例的信息处理装置 100 中的各个单元以及电子设备 10 中的各个装置的具体配置和操作已经在上面参考图 1 和图 2 描述的信息处理方法中详细介绍，并因此，将省略其重复描述。 0110 由此可见，采。

46、用根据本发明实施例的信息处理装置，在语音通信期间，可以自动地获取语音通信数据，根据用户需求来对所述语音通信数据进行语音识别，在用户界面中显示通过语音识别所得到的文本信息，向用户提供与该文本信息相关的语音通信数据，以供说明书 CN 103841268 A 11 9/9 页 12 用户编辑和确认该文本信息，并最终根据文本信息的类别来将该文本信息自动地输入到相关的应用程序中。因此，在本发明的实施例中提供了一种信息记录方式，使得在进行信息记录时，对语音通信的影响较小，需要用户手动操作的时间较短，并且对文本信息的记录也变得更加智能。 0111 此外，尽管此处将。

47、上述的各个单元作为各个步骤的执行主体来说明本发明的各个实施例，但是，本领域技术人员能够理解的是，本发明不限于此。各个步骤的执行主体可以由其他的一个或多个设备、装置、单元、甚至模块来担任。 0112 例如，上述数据获取单元 110、语音识别单元 120、界面呈现单元 130、指令生成单元 140、数据回放单元 150、应用启动单元 160、格式识别单元 170、和 / 或信息填写单元 180 所执行的各个步骤可以统一地由电子设备中的中央处理单元（CPU）来实现。 0113 通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助于软件加必需。

48、的硬件平台的方式来实现，当然也可以全部通过软件、或硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如 ROM/RAM、磁盘、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。 0114 在上面详细描述了本发明的各个实施例。然而，本领域技术人员应该理解，在不脱离本发明的原理和精神的情况下，可对这些实施例进行各种修改，组合或子组合，并且这样的修改应落入本发明的范围内。说明书 CN 103841268 A 12 1/4 页 13 图 1 说明书附图 CN 103841268 A 13 2/4 页 14 图 2 图 3 说明书附图 CN 103841268 A 14 3/4 页 15 图 4 说明书附图 CN 103841268 A 15 4/4 页 16 图 5 说明书附图 CN 103841268 A 16 。

展开阅读全文