情境感知主动数字助理.pdf

摘要
申请专利号：	CN201410751759.3	申请日：	2014.12.10
公开号：	CN104699746A	公开日：	2015.06.10
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 17/30申请日:20141210\|\|\|公开
IPC分类号：	G06F17/30; G06F3/01	主分类号：	G06F17/30
申请人：	哈曼国际工业有限公司
发明人：	D.迪森索; S.马蒂; A.琼贾
地址：	美国康涅狄格州
优先权：	14/102,033 2013.12.10 US
专利代理机构：	北京市柳沈律师事务所11105	代理人：	丁艺
PDF下载：	PDF下载

内容摘要

本公开涉及一种数字助理系统，其可以用来基于用户环境和/或活动的识别情境主动检索和提供信息给所述用户。通过监控用户的环境和/或活动，可以针对所述用户可能觉得什么样的补充信息是有帮助和/或相关的做出推断。所述补充信息可以主动检索和呈现给用户。所述系统可以包括一个或多个传感器来收集与所述用户的环境和/或活动有关的信息。所述系统也可以包括主动向所述用户提供信息的一个或多个输出模块，如以听觉格式提供信息的扬声器和以视觉格式提供信息的显示器。所述系统可以是可配戴的且处于常开状态，使得其可以迅速且悄无声息地向所述用户提供信息。

权利要求书

权利要求书
1.  一种主动提供信息的系统，所述系统包括：
传感器，其可由用户配戴、被配置成检测与所述用户的环境相关联的视觉数据和听觉数据中的至少一个；
输出模块，其被配置成向所述用户呈现信息；以及
控制逻辑，其被配置成执行操作，所述操作包括：
从对与所述用户的所述环境相关联的视觉数据和听觉数据中至少一个的所述检测识别所述用户的所述环境的情境；
检索与所述识别情境相关的信息；以及
通过所述输出模块主动向所述用户呈现检索的信息。

2.  如权利要求1所述的系统，其中，所述输出模块包括扬声器，所述扬声器被配置成定位在所述用户的耳道中或贴近所述用户的所述耳道而定位，且其中，主动向所述用户呈现所述检索的信息包括通过所述扬声器将所述检索的信息以音频格式呈现给所述用户。

3.  如权利要求1所述的系统，其中所述输出模块包括视觉显示器，所述视觉显示器可由所述用户配戴、被配置成定位在所述用户的视线中，且其中，主动向所述用户呈现所述检索的信息包括将通过所述视觉显示器将所述检索的信息以视频格式呈现给所述用户。

4.  如权利要求1所述的系统，其中所述可配戴的传感器包括麦克风，所述麦克风被配置成检测所述用户的嗓音，且其中识别所述用户的所述环境的情境包括：
检测所述用户的口头词句；以及
识别与所述口头词句中的至少一个相关的情境。

5.  如权利要求4所述的系统，其中，当所述麦克风在预定时期中并未检测到所述用户的所述嗓音时，所述系统主动呈现所述检索的信息。

6.  如权利要求1所述的系统，其中所述传感器包括麦克风，所述麦克风被配置成检测来自所述用户的所述环境的声音，且其中识别所述用户的所述环境的情境包括：
检测所述用户的所述环境中的声音和嗓音的至少一者；以及
识别与所述声音和嗓音中的至少一者相关的情境。

7.  如权利要求6所述的系统，其中，当所述麦克风在预定时期中并未检测到所述用户的环境中的声音和嗓音的所述至少一者时，所述系统主动呈现所述检索的信息。

8.  如权利要求1所述的系统，其中所述可配戴的传感器包括成像传感器，所述成像传感器被配置成捕获所述用户的所述环境的图像，且其中识别所述用户的所述环境的情境包括：
捕获所述用户的所述环境中的至少一个图像；以及
识别与所述用户的所述环境中的至少一个图像相关的情境。

9.  如权利要求1所述的系统，其中，所述传感器、输出模块和控制逻辑集成到共用外壳中，所述外壳可由所述用户配戴。

10.  一种主动提供信息的方法，所述方法包括：
使用与用户相关联的环境传感器来检测与所述用户的环境相关联的视觉数据和听觉数据中的至少一个；
基于所述检测方面和与所述用户相关联的属性之间的相关性，从与所述用户的所述环境相关联的视觉数据和听觉数据中的至少一个的所述检测中来识别所述用户的所述环境的情境；
检索与所述识别的情境相关的信息；以及
主动向所述用户呈现检索的信息。

11.  如权利要求10所述的方法，其中，主动向所述用户呈现所述检索的信息包括将所述检索的信息以音频格式呈现给所述用户。

12.  如权利要求10所述的方法，其中，主动向所述用户呈现所述检索的信息包括将所述检索的信息以视觉格式呈现给所述用户。

13.  如权利要求10所述的方法，其中检测与所述用户的所述环境相关联的所述视觉数据和听觉数据中的至少一个包括检测口头词句，且其中识别所述用户的所述环境的情境包括识别与所述口头词句中的至少一个相关的情境。

14.  如权利要求13所述的方法，其中，主动向所述用户呈现所述检索的信息包括在预定时期中并未检测到口头词句之后向所述用户呈现所述检索的信息。

15.  如权利要求10所述的方法，其中检测与所述用户的所述环境相关联的视觉数据和听觉数据中的至少一个包括捕获所述用户的所述环境的至少一个图像，且其中识别所述用户的所述环境的情境包括识别与所述捕获的图像中的至少一个相关的情境。

16.  如权利要求15所述的方法，其中主动向所述人员呈现所述检索的信息包括在捕获的图像在一系列捕获的图像上相对不变之后向所述人员呈现所述检索的信息。

17.  一种主动提供信息的计算机程序产品，所述计算机程序产品包括：
计算机可读存储介质，其具有与之实施的计算机可读程序代码，所述计算机可读程序代码包括：
被配置成捕获与用户相关联的环境情境数据的计算机可读程序代码；
被配置成识别所述捕获的情境数据内的用户活动的计算机可读程序代码；
被配置成评估所述活动来确定是否向所述用户提供与所述活动有关的补充信息的计算机可读程序代码；
被配置成在确定提供所述补充数据时检索与所述活动相关联的补充信息的计算机可读程序代码；以及
被配置成主动向所述用户呈现所述检索的信息的计算机可读程序代码。

18.  如权利要求17所述的计算机程序产品，其中所述计算机可读程序代码被配置成将所述检索的信息作为音频陈述内容呈现给所述用户。

19.  如权利要求17所述的计算机程序产品，其中评估所述活动来确定是否提供补充信息包括：
基于与所述活动相关联的临时时间值或活动类型使所述活动特征化；以及
将所述活动的所述特征化与相关性阈值进行比较，其中，如果所述特征化满足所述相关性阈值，则指示应检索所述补充信息，否则，不应检索所述补充信息。

20.  如权利要求17所述的计算机程序产品，其中所述配置的计算机可读程序代码被配置成从所述捕获环境数据中检测口头词句，并且基于所述口头词句来识别所述活动。

说明书

说明书情境感知主动数字助理
技术领域
本公开涉及一种主动提供信息的系统。
背景技术
许多应用依靠用户来向其提供相关信息，然后应用使用这些信息来识别用户可能感兴趣的补充信息。举例而言，当执行标准互联网搜索时，用户可以提供其想要得到答案的问题或者其想要更多信息的主题。基于这个信息，搜索引擎可以继续找到结果列表，所述结果列表可以向用户提供其所需要的信息。尽管在识别和提供与用户搜索相关的结果列表方面已经取得了很大进步，但是这些算法依赖用户来提供初始查询。也就是，在应用可以使用它们的算法来找到答案之前，应用需要用户首先告诉它们用户想要知道什么。举例而言，如果用户被问及某个问题但不知道答案，那么用户首先必须检索个人计算装置 (例如，智能电话)并且说出或键入命令来识别答案。
发明内容
本公开的一个实施方案包括一种主动提供信息的系统。所述系统包括可由用户配戴的、被配置成检测用户环境的至少一个方面的传感器，以及被配置成向用户呈现信息的输出模块。所述系统使用控制逻辑从所述用户环境的所述检测方面来识别所述用户环境的情境 (context)、检索与所识别的情境相关的信息并且通过所述输出模块主动向所述用户呈现所检索的信息。
本公开的另一实施方案包括一种主动提供信息的方法。所述方法包括使用与用户相关联的环境传感器来检测用户环境的至少一个方面，并且基于所检测方面和与所述用户相关联属性之间的相关性从所述用户环境的所检测的至少一个方面来识别所述用户环境的情境。所述方法也检索与所识别情境相关的信息，并且主动向所述用户呈现所检索的信息。
本公开的另一实施方案包括一种主动向用户提供信息的计算机程序产品。所述程序产品包括计算机可读程序代码，所述程序代码被配置成捕获与所述用户相关联的环境情境数据并且识别所捕获情境数据内的用户活动。此外，所述程序产品包括程序代码，其评估所述活动以确定是否向所述用户提供与所述活动有关的补充信息。在确定提供所述补充数据时，所述程序产品检索与所述活动相关联的补充信息，并且主动向所述用户呈现所检索的信息。
附图说明
图1示出数字助理系统；
图2为相对于用户耳朵而定位的可配戴数字助理的实施方案的横截面视图；
图3为数字助理系统的部件的方框图；
图4A至图4J示出可配戴数字耳语助理的示范性配置；
图5为由数字助理系统的处理模块所执行的过程的实施方案的流程图；
图6A示出使用数字助理系统来捕获情境的示范性场景；
图6B示出示范性图像，其可以在上文参考图6A所描述的场景中，由用户环境和/或活动的成像模块来捕获；
图7A示出使用数字助理系统来捕获情境的示范性场景；
图7B示出示范性图像，其可以在上文参考图7A所描述的场景中，由用户环境和/或活动的成像模块来捕获；
图8A示出使用数字助理系统来捕获情境的示范性场景；以及
图8B示出示范性图像，其可以在上文参考图8A所描述的场景中，由用户环境和/或活动的成像模块来捕获。
具体实施方式
本公开的实施方案包括数字助理系统，其可以包括至少一个传感器、输出模块和控制逻辑。传感器可以检测用户环境的一个或多个方面，如说出的词句、声音、用户周围的图像和/或用户的动作。可以包括在处理模块中的控制逻辑(例如)可以从传感器所检测的各方面来识别用户活动和/或环境的情境。然后，所述系统可以主动检索与用户活动和/或环境的所识别情境相关的额外和/或补充信息，并且主动向用户呈现所检索的信息。
图1示出根据本文所述的一个实施方案的数字助理系统100。在一个实施方案中，数字助理系统100可以对贴近系统100的环境进行情境感知。数字助理系统100所捕获的情境可以包括但不限于贴近系统100的环境中的人员或对象的位置、方向、方位、运动速度、交通方式或社交互动。系统100所捕获的情境还可包括与数字助理系统 100的用户有关的信息，如用户的情绪、呼吸速率、温度、皮电反应、目视方向(例如，用户凝视的方向)、运动、面部表情、瞳孔扩张、健康诊断(例如，胰岛素水平)和类似信息。
为了捕获情境，数字助理系统100可以包括多个传感器101，所述传感器101可以单个或者以组合方式收集环境数据，所述数据使得数字助理系统100能够识别贴近系统100的环境的当前情境，以及与用户有关的信息。下文将更为详细地论述各种类型的传感器101。一般而言，传感器101捕获环境数据，并且将环境数据转换成可以由处理模块150进行处理的数据。举例而言，传感器或处理模块150可以获取模拟环境数据，并将这个数据转换成数字数据。然后，处理模块 150可以使用本文所述的各种技术来主动识别与用户活动和/或环境的情境相关的额外和/或补充信息。
一旦识别相关的额外和/或补充信息，数字助理系统100便可以使用输出模块130来向用户提供这个信息。如图1所示，输出模块 130可以向数字助理系统100的用户“耳语”相关信息(也就是，输出语音)。以这样的方式，数字助理系统100可以在用户对信息没有明确请求的情况下主动识别并提供相关信息。
数字助理系统100的传感器101、处理模块150和输出模块130 可以集成到单一物理装置中或者可以进行分布并且经由有线或无线通信进行通信连接。如果系统100的各种部件集成到单一装置中，那么所述装置可以是用户所配戴的耳机。或者，所述部件可以分布为单独部件或集成到多个不同物理装置中。举例而言，传感器101和处理模块150可以集成到智能电话、平板计算机或其它移动或可配戴的计算装置中，而输出模块130集成到耳机中。如本文所使用的，“可配戴”指示部件或系统可以借助设计或通过使用紧固元件而用物理方式附接到用户，或者部件或系统对用户而言是便携式的，也就是说，用户可以携带部件或系统。耳机可以通信耦接到计算装置，使得数据在传感器101、处理模块150和输出模块130之间进行传递，以便主动向用户提供相关信息。
现在参考图2，主动数字助理系统100的各种实施方案可以包括可相对于用户耳朵110进行定位的外壳102。外壳102可以包括可以安置在用户耳道112内的内部部分122和处于用户耳道112外部的外部部分120。外壳102的内部部分122的壁124可以与用户耳道110 的壁114啮合，从而将外壳102紧贴地保持在用户耳朵110中。外壳 102可以包括处理模块150、通信模块170、存储器模块180和电源 160。电源160可以向数字助理100的其余部件供应电力。在各种实施方案中，电源160可以包括(例如)蓄电池、燃料电池、无线电力传输模块和/或电容器。外壳102可以包括一个或多个传感器用于感测用户环境和/或活动。举例而言，外壳102可以包括检测来自用户环境的声音的面朝外麦克风142。外壳102也可以包括面朝内麦克风 140，其压抵用户耳道110的壁114，使得面朝内麦克风140只检测用户头部内的声音，例如，通过利用骨骼和组织传导性的效果。举例而言，面朝内麦克风140可以检测用户嗓音的声音，但是无法检测贴近用户的其他人的嗓音。外壳102也可以包括成像模块190(如数码相机)，其可以捕获用户环境的图像和/或视频。在某些实施方案中，成像模块190可以是面朝前的，使得成像模块190大致看到用户所看到的内容。
数字助理100可以包括和/或使用其它传感器来收集环境数据，所述环境数据可以使得处理模块150能够确定用户环境和/或活动的情境。助理100可以包括用来确定配戴助理100的用户的位置和方位的额外传感器(如目视传感器)，以及除上述视觉和听觉传感器之外的其他用户身体跟踪传感器。其它传感器的示例可以包括但不限于温度传感器、磁性传感器、惯性传感器、深度和范围传感器、动作传感器、皮肤传导性传感器、肌肉活动传感器、神经活动传感器、嗅觉传感器和类似传感器。
外壳102包括通信模块170和/或存储器模块180。举例而言，通信模块170可以包括能够与外部数据系统进行通信来检索信息的 Wi-Fi适配器、蜂窝通信适配器、适配器和/或通用串行总线 (USB)适配器。外壳102也可以包括可以确定外壳102位置的全球定位系统(“GPS”)适配器。举例而言，GPS适配器可以并入到通信模块 170中、并入到不同模块(例如，处理模块150)中和/或作为单独部件。在各种实施方案中，通信模块170可以与外部计算装置、蜂窝网络和 /或互联网进行通信。在各种实施方案中，通信模块170可以与处理模块150进行通信。在各种其它实施方案中，通信模块170可以与处理模块150集成。
外壳102也可以包括定位在外壳102的内部部分122中的听觉输出模块130，如扬声器。外壳102的内部部分122可以包括通道132(例如，开口和/或通路)，来自听觉输出模块130的声音可以借助通道132 到达用户的耳道112。再次参看图3，听觉输出装置可以与处理模块 150进行通信，使得处理模块150所检索的相关信息可以经由听觉输出模块130传输给用户。或者，在连接到听觉输出模块130或与听觉输出模块130相组合的情况下，处理模块150可以与光学输出装置(如布置在用户视线中的视频屏幕)进行通信，来将所检索的信息传输给用户。视频屏幕的示例可以包括但不限于专用视频显示器、并入到用户所配戴的眼镜中的小型视频显示器、智能电话显示器或可配戴显示器。
在一个实施方案中，数字助理100中的各种部件可以是模块化的，使得所述部件可以封装成至数字助理100的形态因素的附加件。举例而言，GPS部件、蜂窝部件、蓝牙部件和类似部件可以轻易地与数字助理100断连或连接。因此，用户可以通过改变通信接口上连接到助理100的不同模块化组件来定制数字助理100。
参考图3，在各种实施方案中，面朝内麦克风140、面朝外麦克风142和成像模块190可以与处理模块150进行通信，使得处理模块 150可以分别接收麦克风140、142和/或成像模块190的声音和/或图像。处理模块150可以分析所述声音和/或图像以识别用户环境和/或活动的情境。
存储器模块180可以包括呈DRAM、SRAM、闪速存储器和类似存储器形式的随机存取存储器。再次参看图3，在各种实施方案中，存储器模块180可以与处理模块150进行通信。在各种其它实施方案中，存储器模块180可以与处理模块150集成。在处理模块150分析来自麦克风140、142和/或成像模块190的声音和/或图像之后，处理模块150可以从通信模块170和/或存储器模块180检索与用户环境和/或活动相关的补充信息。举例而言，存储器模块180可以包括处理模块150可以检索的普通事实存储信息，如美国总统列表。存储器模块180也可以存储特定于用户的信息。在一个实施方案中，模块 180可以存储用户配置文件181，其包括用户的兴趣、与用户兴趣相关的普通事实或者用户不喜欢的东西。举例而言，如果用户是一位科学家，那么存储器模块180可以存储与科学相关的信息，如普遍使用的科学常数、科学公式和类似信息。相反地，如果用户是一位艺术史学家，那么存储器模块180可以被配置成存储与艺术相关的信息，如著名绘画的名称和艺术家的姓名。
在各种实施方案中，存储器模块180可以保持用户最近活动的日志。举例而言，存储器模块180可以保持用户最近在杂货店所采购的物品的记录。在各种实施方案中，成像模块190可以捕获用户所选取的物品的图像，并且处理模块150可以将物品的记录存储在存储器模块180中。再举一例，存储器模块可以保存用户事件日历的记录。举例而言，存储器模块可以检索经由通信模块而保持在计算机网络上的用户日历的复本。控制逻辑和/或处理模块可以与存储器模块进行通信来检索与用户活动和/或环境相关的信息。在一个实施方案中，用户最近活动或事件日历可以用来更新用户配置文件181。
现在转到图4A至图4J，本文所述的数字助理100可以用许多不同的方式进行配置。举例而言，图4A至图4E、图4H和图4I示出可配戴数字助理的不同实施方案，其中外壳102可以包括不同的形状和配置来将所附接的成像模块190相对于用户耳朵定位在不同位置上。相反地，图4G示出成像模块190并未附接到外壳的实施方案。反而，成像模块190可以用另一方式附接到用户。举例而言，图4G示出成像模块190是附接到项链吊坠300或类似的一件首饰。在其它实施方案中，成像模块190可以附接和/或并入到(例如)手表、智能电话和/ 或某件衣物中。图4J示出数字助理并不包括成像模块的实施方案。而是，数字助理可以被配置成从(例如)经由蓝牙无线连接连接到智能电话中的相机的不同成像器接收成像信号。类似地，可以远程布置其它传感器(例如，麦克风)。
在某些实施方案中，数字助理100的其它特征(如麦克风140、 142和听觉输出模块130)并不附接到和/或并入到外壳102中。举例而言，在某些实施方案中，数字助理可以包括放在口袋中或夹到皮带上的外壳。此外，各种传感器可以安装到与用户关联的车辆上，例如，汽车、自行车或摩托车。在此类实施方案中，听觉输出模块可以包括通过有线连接器或无线连接(例如，蓝牙无线连接)而连接到外壳中的处理模块的头戴式耳机。类似地，面朝内麦克风和面朝外麦克风可以与外壳102相分离，并且可以通过有线或无线连接而连接到外壳中的处理模块。在一个实施方案中，数字助理可以联接到与用户相关联的电子装置。举例而言，为了减小数字助理的尺寸或为了增加其蓄电池寿命，数字助理可以使用贴近用户的智能电话、平板计算机或其它计算装置以主动为用户确定输出。
在一个实施方案中，数字助理系统可以使用通信协议以将传感器所捕获的环境数据传递给贴近的电子装置。电子装置中的处理器可以用作处理模块150。然后，电子装置可以将建议传输给输出模块130，输出模块130将建议输出给用户。这样做可以减少数字助理系统安装在用户耳朵上的部分的形态因素(以及成本)，并且利用贴近的电子装置中的处理能力。此外，不是将所捕获的环境数据传递给贴近的电子装置，而是数字助理系统可以使用蜂窝连接来将数据传输给云中的计算系统，所述计算系统可以使用环境数据来生成建议，然后使用蜂窝连接将所述建议发送给输出模块130。
在各种实施方案中，成像模块190相对于外壳102而言可以是可转向的以允许调整成像模块190的视场。举例而言，处理模块150可以将转向命令提供给电动机或类似装置，其可以使成像模块190转向以指向各种方向。举例而言，成像模块可以指向用户目视的一般方向、指向用户后面的方向、指向用户目视方向上方或下方的方向和/或指向用户目视方向侧面的方向。
图5展示处理模块150的各种实施方案可以实施以主动向数字助理系统100的用户提供相关信息的过程的示范性流程图。在所述过程开始(步骤500)之后，处理模块150可以分析面朝内麦克风140(步骤 502)、面朝外麦克风142(步骤504)、成像模块190(步骤506)和连接到处理模块150的任何其它传感器所检测的环境数据。处理模块150 可以分析来自麦克风140、142和成像模块190中一个或多个装置的检测环境数据以识别用户环境和/或活动的情境(步骤508)。在一个实施方案中，数字助理系统100可以不断地分析传感器所捕获的环境数据来识别情境。然而，在其它实施方案中，数字助理系统100可以基于用户的位置、当日时间或用户配置文件中所存储的信息来识别情境。举例而言，为了保存电力，当用户不大可能想要从数字助理获得补充信息时，系统100可以在某些预定义时期中不使用传感器来捕获环境数据。
在确定用户环境和/或活动的情境(步骤508)之后，处理模块150 可以确定用户是否可从主动提供的额外信息中受益(步骤510)。举例而言，用户环境和/或活动可以基于与活动相关联的时间或者活动类型(例如，购物、参加会议、询问问题等)进行特征化。取决于所述特征化，数字助理系统确定是否提供额外或补充信息。更一般地说，数字助理系统可以将环境的情境和用户所关联的属性进行比较，此类属性的示例包括用户所执行的活动(购物、看电视、在餐馆就餐和类似活动)以及用户的特征(例如，用户配置文件中所存储的信息、职位名称、爱好、家庭状况和类似信息)。如果不是这样，那么处理模块150 可以返回到过程的开始处(步骤500)。如果处理器确定用户可以从主动提供的额外信息中受益(步骤510)，那么处理模块150可以检索与用户环境和/或活动相关的信息(步骤512)。在一个实施方案中，相关信息可以是不能从步骤502、504和506中所捕获的听觉或视频信息中直接检索或识别的信息。举例而言，处理模块150可以使用情境来查询用以提供与用户相关的补充信息的数据源(例如，内部存储器或互联网)。以这样的方式，处理模块150搜索可以与用户相关的捕获情境中未发现的信息。此类补充信息与情境的关联可以通过使用语义比较、知识本体、对象辨别等来完成。然后，处理模块150可以将所检索的信息转译成用户可以理解的形式(步骤514)。举例而言，处理模块150可以将所检索的信息转译成英语语音。举例而言，如果处理模块150检索无理数pi(3.14159……)的数值，那么处理模块150可以将数据转译成“three point one four one five nine”。然后，处理器可以将所转译的数据传输给听觉输出模块130供用户聆听(步骤516)。
通过主动向用户提供信息，数字助理100可以在更短的时间内提供相关数据。举例而言，通过使用环境传感器(例如，视频和/或音频传感器)来识别相关环境数据，数字助理100可以在没有来自用户的提示的情况下提供与相关数据有关的补充信息。如本文所使用的，来自用户的提示包括但不限于口头命令、向电子装置提供输入(例如，使用鼠标、触屏、键盘、轨迹球和类似装置)或启动应用。尽管如此，数字助理100也可以响应于来自用户的提示。举例而言，如果数字助理100主动提供用户当前所查看的书籍的成本，那么用户可以向数字助理发出口头指令，然后在网上书店采购所述书籍。或者，数字助理 100可以记录贴近用户的最后30秒音频数据，用户或许能够通过发出口头命令来访问所述音频数据以进行回放和/或存储。
在某些实施方案中，数字助理100可以在步骤516上主动提供所检索的信息之前等待用户准备接受信息的暗示。举例而言，在主动输出所检索的信息之前，处理模块150可以等待直到用户停止讲话之后，也就是，当面朝内麦克风140在一段时间上并未检测到用户的嗓音时。类似地，如果用户处于对话中，那么处理模块150可以等待直到用户和其他人停止讲话之后，也就是，当在一段时间上面朝内麦克风140并未检测到用户的嗓音而且面朝外麦克风142并未检测到其他人的嗓音时，才主动输出所检索的信息。再举一例，处理模块150可以只主动提供与用户环境中的对象有关的补充信息，条件是用户在某个时间段上专注于所述对象。举例而言，如果用户正在沿着城市人行道行走，那么成像模块190可以检测经过其视场的许多对象，如广告牌、海报和类似物体。如果用户停住或转头看向特定对象(例如，海报)，那么所述对象在成像模块190的视场中便是相对静止的。处理模块150可以确定成像模块190所捕获的对象的相对静止图像是用户感兴趣的一些东西，而且可以主动检索与所述对象相关的信息并将其输出给用户。
下述示例示出主动数字助理的可能用途，如参考上文结合图5所述的示范性过程的数字助理100。在第一示例中，用户进入书店，并选取一本书。成像模块190可以捕获这本书的图像，其中所述图像可以包括印刷在封面上的书名(步骤506)。处理模块150可以分析所捕获的图像，而且可以确定用户正在购物，且会从与这本书的用户评论相关的信息中受益(步骤510)。然后，处理模块150可以与通信模块 170进行通信以连接到互联网网站来查阅这本书的评论信息。举例而言，用户所选取的这本书的网站可以包括这本书的评级信息，指示这本书已经在五星评级中获得四星的平均评级。处理模块150可以从网站检索这个评级信息(步骤512)。然后，处理模块150可以为用户生成所检索评级信息的口语陈述内容(步骤514)。举例而言，处理模块 150可以生成口头语句“这本书已经在五星评级中获得四星的平均评级”。在所检索评级信息的口语陈述内容生成之后，处理模块150可以将口语陈述内容输出到听觉输出模块130供用户聆听(步骤516)。在替代实施方案中，处理模块150可以生成图形输出信息，如说明“这本书已经在五星评级中获得四星的平均评级”的文本(步骤514)，并且将图形输出信息输出到处于用户视线中的视觉显示器(例如，视频屏幕)(步骤516)。
在处理模块150将口语陈述内容输出到听觉输出模块130之后，处理模块150可以返回到图5所述的过程的开始处500。举例而言，在听到上文所述的平均评级陈述内容之后，用户可能会大声询问“这本书的价格是多少？”。处理模块150可以分析来自面朝内麦克风140 的音频数据(步骤502)，而且可以从用户词句的情境中确定用户对价格信息感兴趣(步骤508)。在一个实施方案中，处理模块150可以首先确定用户正向其询问以确定价格信息，而不是(例如)向另一个人询问。举例而言，处理模块150可以使用问题的句法(例如，如果用户在其问题的前面加上“不好意思，打扰一下”)来确定用户是向人而不是向数字助理系统100询问问题，且因此系统100不应该响应。或者，数字助理系统100可以使用位置(例如，用户处于求助台或者正面向某个人)或用户嗓音的音量(例如，用户正在耳语只有数字助理中的传感器可以检测的问题)来确定是否回答问题。处理模块150可以确定用户正在寻求帮助(步骤510)，并且可以再次使用通信模块170连接到售书网站或执行互联网搜索来检索用户所拿的这本书的价格信息。举例而言，针对这本书的网站可以包括这本书的价格信息，指示销售价为$12.99。处理模块150可以从网站检索价格信息(步骤512)，且然后生成所检索价格信息的口语陈述内容。举例而言，处理模块150 可以生成口头语句“这本书正在售书网站上特卖，售价为12美元99 美分”(步骤514)。在所检索评级信息的口语陈述内容生成之后，处理模块150可以将口语陈述内容输出到听觉输出模块130供用户聆听 (步骤516)。
在第二示例中，用户在飞机场等待登机，并且查看他的登机牌。成像模块190可以捕获登机牌的图像，所述图像可以递送给处理模块 150，并且处理模块150可以分析所捕获的图像以解析出航班号、登机口号码和起飞时间(步骤506)。处理模块150可以确定用户正在等待他的航班(步骤508)，且确定用户会从与其航班或机场/登机口方向有关的更新和/或变化信息中受益(步骤510)。举例而言，处理模块150 可以确定用户正在查看航班信息且起飞时间处于未来时期。因此，模块150随后可以确定主动提供更新后的航班信息对用户可能是有用的。然后，处理模块150可以与通信模块170进行通信来访问有关航班的最新信息。举例而言，通信模块170可以使用蜂窝适配器或Wi-Fi 适配器来访问航空公司网站以检查与航班号相关联的登机口号码和起飞时间，并且将网上信息与从机票中解析的信息进行比较。举例而言，机票可以列出起飞时间是下午6:00，但是航空公司网站可能包括指示起飞时间延迟到晚上6:30的信息。处理模块150可以从网站检索延迟后的起飞时间(步骤512)并且生成所检索起飞时间的口语陈述内容(步骤514)。举例而言，处理模块150可以生成口头语句“您的航班延迟到晚上六点半”。在所检索航班延迟信息的口语陈述内容生成之后，处理模块150可以将口语陈述内容输出到听觉输出模块130供用户聆听(步骤516)。
在各种情形中，数字助理100所提供的信息可以经历变化。参看上文的登机牌示例，起飞时间可能进一步延迟，或者延迟可能得以解决使得航班可以准时离开。在此类情形中，处理模块150可以定期再次检索信息，看看是否发生变化。如果发生变化，那么处理模块150 可以只提供更新后的信息。举例而言，如果处理模块150再次检查起飞时间，且确定延迟后的起飞时间仍然是晚上6:30，那么处理模块 150可能不会又一次向用户呈现信息。然而，如果处理模块150确定延迟后的起飞时间现在是晚上7:00，那么处理模块150可以生成更新后信息的口语陈述内容。举例而言，处理模块150可以生成口语语句 “您的航班现在又要延迟半个小时……您的起飞时间现在预计是晚上七点钟”。数字助理100可以存储所提供的最近信息的日志(例如，存储在存储器模块180中)来跟踪已经提供给用户的信息，从而确保信息不会重复。在各种实施方案中，数字助理100可以包括用户可选偏好，其允许数字助理100重复呈现更新但未变化的信息。
在第三示例中，用户可以表演手势，可配戴主动数字助理100可以辨别和响应这个手势。举例而言，用户可能没有配戴手表，但是他可以将其手臂移向他的眼睛就好像正在看手表、在其手腕上画个圆或者轻拍他的手腕。数字助理100的成像模块190可以捕获用户手臂朝向其眼睛的移动(步骤506)。处理模块150可以辨别用户的手臂移动与人们在看手表时可能做出的手势是相同或类似的(步骤508)，并且确定用户想要知道时间(步骤510)。举例而言，处理模块150可以与通信模块170进行通信来从互联网检索当前时间的数据。或者，处理装置可以包括跟踪当前时间的内部时钟。在任一个事件中，处理模块 150都可以检索当前时间(步骤512)，并且生成所检索时间数据的口语陈述内容(步骤514)。口语陈述内容可以输出到听觉输出模块 130(步骤516)供用户聆听。
在第四示例中，用户可以与同事进行交谈，而同事可能会说“…… 正如昨天会上的那个人所说的……我现在不记得他的名字了……”。同事的嗓音可以由面朝外麦克风142检测，而且处理模块150可以分析同事所说的词句(步骤504)来识别同事正在讨论昨天的会议并且正在查找与用户一起参加会议的某个人的名字(步骤508)。处理模块150 可以确定提供参加会议的那个人的名字对用户而言是有用的(步骤 510)。存储器模块180可以包括多个关键词，其用来指示何时用户无法回答问题或试图回想某个历史事件。举例而言，如果数字助理检测到口头词句“不记得”或“我不知道”，那么助理可以决定主动向用户提供信息。在某些实施方案中，存储器模块180可以包括用户过去、现在和未来事件的日历。举例而言，存储器模块180可以存储昨天会议的记录，其包括参会人员的姓名。处理模块150可以与存储器模块 180进行通信来检索所存储的记录和参会人员的姓名(步骤512)。然后，处理模块150可以生成参会人员姓名的口语陈述内容(步骤514)，进而输出到听觉输出模块130。举例而言，处理模块150可以生成口语语句“John Smith和Jane Doe参加了昨天的会议”，所述口语语句可以输出到听觉输出模块130(步骤516)。
在某些实施方案中，数字助理100可以基于来自所有麦克风140、 142和成像模块190的组合输入来推断相关性。举例而言，且参考图 4、图6A和图6B，如果用户602正在参加会议600同时配戴数字助理100(例如，将数字助理100配戴在其耳朵上或耳朵中)，那么面朝外麦克风142可以检测多个嗓音612a、612b和612c。类似地，面朝内麦克风140可以检测用户的嗓音603。最终，如果用户602固定不动，例如，在会议中就座，那么成像模块190很可能检测相对静止图像622。箭头622示出成像模块190的观察方向。举例而言，成像模块190可以检测三个人610a、610b和610c的相对静止(也就是固定不动)图像622，这三个人围绕桌子606分别在椅子608a、608b和608 上就座。此外，相对静止图像622可以检测会议室的墙壁614和房间中的图片618。另一墙壁616上的第二图片620可以不在成像模块190 所捕获的图像622中。处理模块150可以分析来自麦克风140、142 的音频数据(步骤502和504)以及来自成像模块190的图像数据(步骤 506)，并且推断用户是固定不动的，且正在参与讨论。因此，处理模块150可以忽略与对话无关的输入。举例而言，成像模块190可以检测悬挂在会议室墙壁614上的图片618，但是处理模块150可以假定图片618与对话无关并且将其忽略。相反，处理模块150可以分析麦克风140、142所检测的嗓音612a、612b、612c和603的词句和语句，并且确定用户是否可以从与对话相关的额外信息中受益。
再举一例，参考图4、图7A和图7B，如果用户702正在箭头A 的方向上沿着繁忙的城市人行道706独自行走，那么数字助理100的面朝外麦克风142可以分别检测用户702行走时路过的不同人718a 和718b的多个嗓音720a和720b。举例而言，这两个人718a和718b 可以在箭头B的方向上行走。然而，因为用户没有对任何人讲话，所以面朝内麦克风140并不检测用户的嗓音。另外，成像模块190可以随着用户行走而检测不断变化的图像722。箭头722示出成像模块 190的观察方向。举例而言，所捕获图像722可以包括各种对象的图像，如人行道706、墙壁708、墙壁708上的海报712和714。所捕获图像722也可以包括其他人718a和718b以及指示牌716，如公交车站指示牌。随着用户702在箭头A的方向上行走，一系列图像722 中所捕获的对象将朝向用户702移动(也就是，超出图7B所示的页面之外)。处理模块150可以分析来自麦克风140、142的音频数据(步骤502和504)以及来自成像模块190的图像数据(步骤506)，并且推断用户正在行走、没有对任何人说话，且推断面朝外麦克风142所检测的嗓音720a和720b对用户并不重要。因此，处理模块150可以假定面朝外麦克风142所检测的对话并不重要且可以忽略。此外，处理模块150可以推断与成像模块190所检测的用户702变化的周围环境有关的信息对用户而言可能更为相关和有用。
再举一例，参考图4、图8A和图8B，用户802可能正和同事830 沿着繁忙的城市人行道行走，而且正在和其同事说话。这里，面朝外麦克风140可以检测同事830的嗓音833以及也分别检测其他人818a 和818b的嗓音820a和820b。当用户802对其同事830讲话时，面朝内麦克风140可以检测用户的嗓音803。另外，成像模块190可以随着用户行走而检测不断变化的场景。箭头822示出成像模块190的观察方向。举例而言，所捕获图像822可以包括各种对象的图像，如人行道806、墙壁808、墙壁上808的海报812和814。所捕获图像 822也可以包括其他人818a和818b以及指示牌816，如公交车站指示牌816。随着用户802在箭头A的方向上行走，一系列图像822中所捕获的对象将朝向用户802移动(也就是，超出图8B所示的页面之外)。处理模块150可以分析来自麦克风140、142的音频数据(步骤 502和504)以及来自成像模块190的图像数据(步骤506)，并且推断用户802正在行走，且推断与成像模块190所检测的用户802变化的周围环境有关的信息可能对用户而言是相关和有用的。然而，不像之前的示例，用户802正在行走，而且正在对其同事830说话。处理模块150可以分析来自麦克风140、142的音频数据(步骤502和504)，从而确定面朝外麦克风142所检测的一个嗓音(同事的嗓音833)随着用户802行走是始终如一的，而其他路人820a和820b的嗓音820a 和820b分别随着用户802从其旁边经过而来来去去。另外，处理模块150可以确定只在未检测到同事嗓音833时检测到面朝内麦克风 140所检测的用户嗓音803，也就是用户802和同事830轮流讲话。根据这个分析，处理模块150可以识别用户802与同事830处于对话中，但是除用户和同事嗓音之外的其它嗓音可以忽略。以这样的方式，处理模块150可以从数字助理中的传感器所捕获的环境数据中识别相关信息。
在各种实施方案中，数字助理100可以提供广告平台。举例而言，某本杂志可以向服务提供商支付广告费，服务提供商为通信模块170 提供数据连接，例如，蜂窝数据连接。如果成像模块190在用户环境中检测到杂志的图像，例如，如果用户路过销售杂志的报摊，那么处理模块150可以将广告输出到听觉输出模块130。举例而言，广告可以是口语语句“本杂志一年订购只需花费十五美元”。广告收入可以抵消向数字助理100提供无线数据服务的部分或全部成本。
在某些实例中，如果提供有线索或暗示，数字助理100可以更好地确定什么信息对用户而言很有可能是相关和/或有用的。在各种实施方案中，用户可以为数字助理100预设偏好来帮助处理模块150确定用户愿意聆听什么类型的信息(步骤510)。举例而言，用户可以在数字助理100中设置与用户配置文件相关联的偏好来指示其具有环境意识。随后，如果用户在商店里选取一瓶衣服清洗剂(在步骤506 中成像模块190所看到的)，那么处理模块150可以确定用户正在采购衣服清洗剂(步骤508)。通过将用户当前活动与配置文件中用户预设偏好进行匹配，处理模块150可以确定用户会觉得与可能更环保的其它衣服清洗剂有关的信息是有用信息(步骤510)。换句话说，数字助理可以使用设置在用户配置文件中的偏好来过滤和识别数字助理上的视觉或听觉传感器所捕获的相关信息。在这个示例中，处理模块 150可以与通信模块170进行通信来从互联网检索(步骤512)与更为环保的衣服清洗剂品牌有关的信息(步骤514)，并且主动将所检索信息递送给用户(步骤516)。
再举一例，用户可以在数字助理100中设置偏好来指示其想要省钱。随后，如果用户在商店里选取一瓶衣服清洗剂(在步骤506中成像模块190所看到的)，那么处理模块150可以确定用户正在采购衣服清洗剂(步骤508)。使用用户配置文件中的用户预设偏好，处理模块150可以确定用户会觉得与比较便宜的衣服清洗剂有关的信息是有用信息(步骤510)。然后，处理模块150可以与通信模块170进行通信来从互联网检索(步骤512)与比较便宜的衣服清洗剂品牌有关的信息(步骤514)，并且主动将所检索信息递送给用户(步骤516)。
用户配置文件也可以用来执行噪音抑制。举例而言，数字助理 100的耳机可以包括可选噪音抑制特征。基于所捕获的环境数据，数字助理可以确定用户处于运动飞靶场。用户配置文件可以具有运动飞靶偏好，其中，当音频传感器检测到某人喊出“拔枪”时，处理模块150 会激活数字助理的噪音抑制功能，以便屏蔽随之而来的枪声。在处理模块150确定枪声消失之后，其可以停用噪音抑制特征。当然，在此类示例中，用户可以具有两个耳机(一只耳朵一个)，这两个耳机都具有可选噪音抑制特征。
在一个实施方案中，数字助理可以存储与用户相关联的多个用户配置文件。数字助理可以选择使用哪个用户配置文件以便基于用户的当前情境来主动向用户提供信息。举例而言，数字助理可以取决于用户所执行的当前活动(例如，购物对工作)而具有不同配置文件。数字助理可以通过评估传感器所捕获的环境数据而在配置文件之间切换。举例而言，如果用户走进购物市场，那么数字助理可以使用与用户相关联的购物配置文件。相反地，如果用户走进他的家里，那么数字助理可以切换到家庭配置文件，例如，提醒用户即将到来的生日、周年纪念日、即将到来的学校事件和类似信息。
数字助理100也可以使用与用户有关的存储信息来提供建议。举例而言，用户最近可能采购过杂货，而且数字助理100的存储器模块 180可以存储有用户所采购的各种东西的列表。在某些实施方案中，处理模块150可以通过分析由成像模块190所捕获的、放在用户购物车里的物品的图像来生成列表，从而确定每个物品是什么，并且将每个物品添加到存储在存储器模块180中的列表。如果用户已经在数字助理100中设置偏好来指示他想要省钱，且随后进入一家餐馆，那么成像模块190可以捕获餐馆的图像，而且处理模块150可以分析图像 (步骤506)，并确定用户即将在餐馆花钱吃饭(步骤508)。基于用户的预设省钱偏好，处理模块150可以辨别用户会从与相对餐馆而言比较便宜的替代方案有关的信息中受益(步骤510)。举例而言，处理模块 150可以与存储器模块180进行通信来从采购杂货物品列表中检索信息，从而建议在家用餐(步骤512)。举例而言，所检索的采购杂货物品列表可以包括意大利面和意大利面酱。处理模块150可以生成口语语句，如“您昨天在杂货店购买过意大利面和意大利面酱......在家做意大利面会比在外面就餐更加便宜”(步骤514)，并且主动输出这个语句到听觉输出模块130(步骤516)。或者，如果用户设置偏好来对应用户的饮食或者希望吃得健康，那么数字助理可以主动提供与用户当前所查看到的菜单选项相关联的营养信息(例如，卡路里、脂肪克数、维生素等)，或者助理可以查阅餐馆的评论，并且通知用户评价最高的菜肴。
在某些实施方案中，数字助理100可以了解用户来确定用户可能觉得什么样的信息是相关和有用的。举例而言，如果用户接着某些类型的主动提供信息而询问后续问题(例如，价格信息)，那么数字助理 100可以推断用户将来会觉得价格信息是有用和相关的。相反地，如果用户忽略与产品评级有关的主动提供信息，那么数字助理100可以推断用户对评级不感兴趣，且将来可以停止提供评级。
在各种实施方案中，处理模块150可以并入有机器学习算法来改善其识别情境的能力。举例而言，处理模块150可以使用并发多实例学习(MIL)以学习来自多个传感器的各种输入是如何最大可能地与特定情境相关联。在MIL框架中，存在两级训练输入：封包(bag)和实例。封包包括多个实例。这里，封包是用户环境和/或活动的情境，而实例是来自传感器的输入，如面朝内麦克风140或面朝外麦克风 142所听到的声音，或者成像模块190所看到的图像。如果实例中的至少一个实例处于所识别的情境内，那么封包则标记为正的。在使用 MIL的机器训练过程中，只有封包需要标签，而封包中的实例是不需要的。在识别情境的情况下，所标记的情境(例如，坐在会议室开会) 是封包，而来自传感器的不同输入(例如，面朝内麦克风140所检测的用户嗓音、面朝外麦克风142所检测的其他人嗓音和成像模块190 所检测的相对静止图像)则是实例。尽管传感器输入中的任何输入(例如，检测其他人的噪音)可能不会单独表示会议，但是传感器输入的组合往往在会议中同时出现。此类共存或并发性可以显著提升组合传感器输入(也就是，组合实例)将会议表示为用户环境和/或活动的情境的置信级。在各种实施方案中，处理模块150可以包括和/或可以访问不同类型传感器输入和不同传感器输入之间并发性的数据库。数据库也可以包括很可能存在于传感器输入并发出现时的多类情境。在一个实施方案中，情境类型可以用来选择与用户相关联的特定配置文件以便识别应主动向用户提供信息的情形。
在各种实施方案中，数字助理100可以由用户进行定制化以提供更为详细或更为粗略的信息。数字助理也可以进行定制化以更加频繁或更少频繁地提供信息。举例而言，在某些实施方案中，外壳102可以包括使得用户能够调整此类设置的按钮。在其它实施方案中，用户可以经由通信模块170(例如，USB适配器)将数字助理100连接到智能电话、手提计算机、台式计算机、平板计算机或类似装置来调整这些设置。
已经出于说明目的呈现了各种实施方案的描述内容，但是其并不意在是排他性的或者限于所公开的实施方案。在不背离所述实施方案的范围和精神下，许多修改和变化对于本领域普通技术人员来说将是明显的。
本文实施方案的各方面可以体现为系统、方法或计算机程序产品。因此，本公开的各方面可以采用以下形式：完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微代码等)或将软件与硬件方面组合的实施方案，所述实施方案在本文中一般都可以称为“电路”、“模块”或“系统”。此外，本公开的各方面可采用在一个或多个计算机可读介质上实施的计算机程序产品形式，所述计算机可读介质具有在该介质上实施的计算机可读程序代码。
可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是(例如)但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或装置或者前述介质的任何合适组合。计算机可读存储介质的更具体示例(并非详尽清单)将包括以下介质：具有一个或多个导线的电连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁性存储装置或前述介质的任何合适组合。在本文件的上下文中，计算机可读存储介质可以是可含有或存储供指令执行系统、设备或装置使用或与其联用的程序的任何有形介质。
计算机可读信号介质可以包括(例如)处于基带中或作为载波一部分的传播数据信号，其中实施有计算机可读程序代码。此类传播信号可以采用各种形式中的任何一种形式，包括但不限于电磁、光学或其任何合适组合。计算机可读信号介质可以是任何计算机可读介质，其并非计算机可读存储介质，而且可以递送、传播或传送供指令执行系统、设备或装置使用或与其联用的程序。
在计算机可读介质上实施的程序代码可以使用任何适当的介质来传输，所述介质包括但不限于无线、有线线路、光纤电缆、RF等或前述介质的任何合适组合。
用于进行本公开方面的操作的计算机程序代码可以用一种或多种编程语言的任何组合来编写，所述编程语言包括面向对象的编程语言，如Java、Smalltalk、C++等，以及常规程序性编程语言，如“C” 编程语言或类似的编程语言。程序代码可以完全在用户的计算机上执行，部分地在用户的计算机上执行，作为独立的软件包执行，部分地在用户的计算机上且部分地在远程计算机上执行，或完全在远程计算机或服务器上执行。在后一种场景中，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可以连接到外部计算机(例如，通过使用互联网服务提供商的互联网)。
上文中参照根据本公开实施方案的方法、设备(系统)和计算机程序产品的流程图图解和/或方框图来描述本公开的各方面。应了解，流程图图解和/或方框图的每一个方框以及流程图图解和/或方框图的方框组合可以通过计算机程序指令来实施。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以便产生一种机器，使得通过计算机或其它可编程数据处理设备的处理器运行的指令建立用于实施流程图和/或方框图一个或多个方框中所规定的功能/动作的手段。
这些计算机程序指令也可以存储在(例如)可以引导计算机、其它可编程数据处理设备或其它装置以特定方式起作用的非临时性计算机可读介质中，使得存储在计算机可读介质中的指令产生包括指令的制品，所述指令实施流程图和/或方框图一个或多个方框中所规定的功能/动作。
计算机程序指令也可以加载到计算机、其它可编程数据处理设备或其它装置上以使得在计算机、其它可编程装置或其它装置上执行一系列操作步骤来产生计算机实施的过程，使得在计算机或其它可编程设备上运行的指令提供用于实施流程图和/或方框图一个或多个方框中所规定的功能/动作的过程。
本公开的实施方案可以通过云计算基础结构来提供给最终用户。云计算一般是指在网络上将可扩展计算资源作为服务来提供。更正式而言，云计算可以定义为一种计算能力，其提供在计算资源和其底层技术架构(例如，服务器，存储设备、网络)之间的抽象，从而能够对可配置计算资源共享池进行便捷按需网络访问，所述可配置计算资源共享池可以用最小管理努力或服务提供商互动来快速提供和释放。因此，云计算允许用户访问“云”中的虚拟计算资源(例如，存储设备、数据、应用以及甚至完全虚拟化计算系统)，而不考虑用来提供计算资源的底层物理系统(或那些系统的位置)。
通常，云计算资源在按使用支付的基础上提供给用户，其中仅针对实际使用的计算资源(例如，用户所消耗的存储空间量或用户所实例化的虚拟化系统数量)来向用户收费。用户可以在任何时间且从互联网上的任何地方来访问位于云中的任何资源。在本公开的上下文中，用户可以访问云中可用的应用(例如，视频处理和/或语音分析应用)或相关数据。
附图中的流程图和方框图示出根据本公开的各种实施方案的系统、方法和计算机程序产品的可能实行方案的架构、功能性和操作。在这方面，流程图或方框图中的每个方框可以表示代码模块、代码区段或代码的一部分，其包括用于实施所指定的逻辑功能的一个或多个可执行指令。也应注意到，在一些替代实行方案中，方框中提到的功能可以不按附图中提到的顺序出现。例如，连续展示的两个方框实际上可以大致上同时执行，或者这些方框有时可以按相反的顺序执行，这取决于所涉及的功能性。也应指出的是，方框图和/或流程图图解的每个方框以及方框图和/或流程图图解中的方框的组合可以由执行指定功能或动作的、基于专用硬件的系统或者专用硬件和计算机指令的组合来实施。
虽然上述内容是针对本公开的实施方案，但是可以在不背离其基本范围的情况下，设想出本公开的其它和另外实施方案，而且其范围由随附的权利要求书加以确定。