用于计算设备的内容预先取回.pdf

上传人:xia****o6 文档编号:177534 上传时间:2018-01-31 格式:PDF 页数:18 大小:3.15MB
返回 下载 相关 举报
摘要
申请专利号:

CN201380010892.7

申请日:

2013.02.13

公开号:

CN104137094A

公开日:

2014.11.05

当前法律状态:

实审

有效性:

审中

法律详情:

专利申请权的转移IPC(主分类):G06F 17/00变更事项:申请人变更前权利人:微软公司变更后权利人:微软技术许可有限责任公司变更事项:地址变更前权利人:美国华盛顿州变更后权利人:美国华盛顿州登记生效日:20150729|||实质审查的生效IPC(主分类):G06F 17/00申请日:20130213|||公开

IPC分类号:

G06F17/00; G06F11/30

主分类号:

G06F17/00

申请人:

微软公司

发明人:

D·林贝罗普洛斯; O·里瓦; K·斯特劳斯

地址:

美国华盛顿州

优先权:

2012.02.23 US 13/403,827

专利代理机构:

上海专利商标事务所有限公司 31100

代理人:

顾嘉运

PDF下载: PDF下载
内容摘要

本发明涉及一种基于用户将请求访问内容的预测来及时地将该内容预先取回到计算设备的技术。与内容相关联的包括时间特征、空间特征、时空特征和/或其它特征的特征被提供给至少部分地用历史访问数据来训练的模型。该模型返回从中作出是否预先取回内容的判定的信息。

权利要求书

1.  一种计算环境中的至少部分地在至少一个处理器上执行的方法,包括确定是否要将内容预先取回到计算设备,包括生成包括与所述内容相关联的时间相关特征数据的特征,将所述特征提供给至少部分地用历史访问数据来训练的模型,以及从所述模型获取指示是否要预先取回所述内容的信息。

2.
  如权利要求1所述的方法,其特征在于,将所述特征提供给所述模型包括将特征向量输入到所述模型中,并且所述方法还包括计算包括表示空间相关特征数据的数据的特征向量,计算包括表示所述时间相关特征数据的数据的特征向量,计算包括表示时空相关特征数据的数据的特征向量,计算包括表示流行度相关特征数据的数据的特征向量,或者计算包括表示上下文相关特征数据的数据的特征向量,或者以下动作的任意组合:计算包括表示空间相关特征数据的数据的特征向量,计算包括表示所述时间相关特征数据的数据的特征向量,计算包括表示时空相关特征数据的数据的特征向量,计算包括表示流行度相关特征数据的数据的特征向量或计算包括表示上下文相关特征数据的数据的特征向量。

3.
  如权利要求1所述的方法,其特征在于,生成所述特征包括处理基于所述历史访问数据而被标识为目标URL的一个或多个URL的集合。

4.
  如权利要求1所述的方法,其特征在于,从所述模型获取指示是否要预先取回所述内容的信息包括接收预测出的概率值,并且所述方法还包括当所述预测出的概率值达到阈值概率值时预先取回所述内容。

5.
  一种系统,包括基于历史访问数据来训练以预测是否要预先取回内容的模型,所述模型被配置成接收表示内容片段的特征向量作为输入,所述特征向量包括表示与所述内容片段相关联的时空相关特征数据的数据,所述模型被进一步配置成处理所述特征向量以输出指示用户是否有可能及时请求访问所述内容的信息。

6.
  如权利要求5所述的系统,其特征在于,a)所述历史访问数据模型中的至少一部分是维护在内容被预先取回到的计算设备上的,和/或b)所述历史访问数据对应于单个用户,并且其中所述内容片段对应于来自基于所述用户的所述历史访问数据而被标识为目标URL的一个或多个URL的集合中的一个URL。

7.
  如权利要求5所述的系统,其特征在于,所述模型基于指示所述用户实际上是否已及时请求访问所述内容的反馈来进一步训练。

8.
  一种或多种具有计算机可执行指令的计算机可读介质,所述计算机可执行指令在被执行时执行以下动作,包括:
选择内容标识符;
为所述内容标识符生成特征向量,所述特征向量包括与所述内容标识符相关联的时间相关特征数据、空间相关特征数据和时空相关特征数据;
将所述特征向量提供给模型;
从所述模型接收表示所述特征向量的预测相关值;以及
如果所述预测相关值指示将很有可能请求对所述内容的将来访问,则将对应于所述内容标识符的内容预先取回到计算设备。

9.
  如权利要求8所述的一种或多种计算机可读介质,其特征在于,预先取回所述内容包括把对所述内容的请求与对其它内容的至少一个其它请求一起进行批处理。

10.
  如权利要求8所述的一种或多种计算机可读介质,其特征在于,还具有计算机可执行指令,包括监视对于预测结果和实际结果的准确性,并基于所述监视来调整所述预先取回。

说明书

用于计算设备的内容预先取回
背景
从计算设备,尤其是移动计算设备访问远程内容可能是令人沮丧的。移动设备经由相对较慢的蜂窝连接来连接到因特网。例如,使用现有技术,在蜂窝电话上下载网页可能花费大约几秒来建立蜂窝塔连接,之后再花费若干秒/数十秒来执行下载。
仅仅尽可能频繁地且尽可能多地预先取回远程内容以使得内容在本地可用通常是不合乎需要的。例如,远程内容(例如,web内容)频繁改变,并因此预先取回的内容可能迅速变旧,例如新闻和社交网站往往非常频繁地改变。另外,蜂窝电话和移动设备通常具有有限的电池和/或其它资源,由此尝试持续或相当有规律地在移动设备上更新预先取回的内容可能快速耗尽设备的电池并使其不可用。另外,某些设备用户招致数据下载收费,这意味着他们可能仅仅为了获取旧内容和/或大量不需要的内容而付费和/或用尽他们的下载额度限制。
概述
提供本概述以便以简化形式介绍将在以下的详细描述中进一步描述的一些代表性概念。本概述不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在以限制所要求保护的主题的范围的任何方式来使用。
简而言之,本文描述的主题的各方面涉及一种可用于确定是否要将内容预先取回到计算设备的技术。确定是否要预先取回可基于生成与用户访问web内容的方式相关联和/或与更新内容本身的方式相关联的包括时空和/或时间相关特征数据的特征,将这些特征提供给至少部分地用历史访问数据来训练的模型,以及从该模型获取指示是否要预先取回内容的信息。
在一方面,将这些特征提供给模型可包括将特征向量输入到模型中。特征向量可包括表示时间相关特征数据、空间相关特征数据、时空相关特征数据、 流行度相关数据和/或上下文相关数据(例如,位置)的数据。
在一方面,基于历史访问数据来训练以预测是否要预先取回内容的模型被配置成接收表示内容片段(例如,网页)的特征向量作为输入。特征向量可包括表示与用户何时访问该内容相关联和/或与该内容片段相关联的时间相关特征数据的数据。该模型处理特征向量以输出指示用户是否有可能请求访问内容的信息。
结合附图阅读以下具体实施方式,本发明的其他优点会变得显而易见。
附图简述
作为示例而非限制,在附图中示出了本发明,附图中相同的附图标记指示相同或相似的元素,附图中:
图1是表示用于训练模型的示例组件的框图,该模型基于从历史访问数据中提取的特征来预测用户是否有可能访问内容片段。
图2是表示用于将被模型标识为可能被请求访问的内容预先取回的示例组件的框图。
图3是表示用于训练预测用户是否有可能访问内容片段的模型的示例步骤的流程图。
图4是表示用于在评估模型是否预测到内容将很有可能被请求时及时地预先取回内容的示例步骤的流程图。
图5是表示其中可实现在此处所描述的各实施例的一个或多个方面的示例性、非限制性计算系统或操作环境的框图,例如在移动电话设备的例子中。
详细描述
本文描述的技术的各方面一般涉及提供更快的web浏览体验,它通过预测用户或应用的可能的将来web访问来在适当时智能地预先取回内容。对远程内容的及时预先取回可通过使用包括空间、时间、时空、流行度(喜好)和/或上下文相关特征的特征来完成,这些特征被用来确定预先取回哪些内容片段(例如,网页URL)以及预先取回每一内容片段的时机。在一方面和一个实现中,及时的内容预先取回基于通过组合包括空间、时间、时空、流行度(喜好) 和/或上下文相关特征的特征以学习用于确定要预先取回的远程内容片段的用户访问模型(例如,分类器)来对点击预测问题(用户是否将可能想要选择预先取回的内容)求解。
例如,基于用户访问历史,提取描述用户访问远程内容的方式的特征集。可提取对关于用户访问内容的顺序的信息进行编码的特征以及关于进行这些访问的绝对和相对时间以及这些访问的周期性的特征。使用来自这些历史访问数据的特征向量,在离线阶段中训练点击预测模型,该离线阶段提供用户在给定时间访问特定的远程内容片段(诸如URL)的概率。在运行时在线阶段,设备利用点击预测模型来查找用户(或应用)在任意长度的下一时间量内(或将来的某一时刻)访问给定的远程内容片段(例如,特定的网页URL)的概率。如果针对该URL的概率高于预定阈值,则将对应于该URL的内容预先取回到移动设备上。
应当理解的是,此处的任何示例均是非限制性的。例如,虽然在此将移动设备/智能电话用作示例,但是在此所述的至少一些概念适用于膝上型计算机、平板计算机、个人计算机等等。此外,虽然预先取回用于浏览器的URL形式的web内容被用作一个示例,但可基于本文描述的技术来预先加载和/或预先取回任何下载内容(例如,应用和/或应用内容)。因此,本发明不限制于在此描述的任何具体的实施例、方面、概念、结构、功能或示例。相反,此处所描述的实施例、方面、概念、结构、功能或示例中的任一个都是非限制性的,并且本发明一般能够以在计算和内容访问方面提供好处和优点的各种方式来使用。
图1是示出一个示例实现中各种组件的框图。一般而言,移动设备102将用户web访问记录到历史数据结构104中,该历史数据结构可位于设备上或者位于远程存储位置。web访问可包括自动页面刷新。离线训练机构106周期性地(例如每天、每周、每月)或者应某一其它适当事件使用该信息来构建关于用户的web访问预测模型108。
模型108可以在移动设备本身上、在诸如用户的台式机之类的可能更强大的机器上构建,和/或可由例如云中的服务来构建。注意,诸如如果是远程维护的(例如在云中),则历史数据结构104可以从多个设备访问(例如,智能电 话、膝上型计算机、平板计算机等)汇集,以帮助进行数据挖掘以用于训练模型,如下所述。此外,每一个这样的设备都可具有其自己的模型,且共享设备具有多个模型,每一模型映射到一个用户。来自不同设备的数据可以与例如设备标识符相关联地维护,以使得可以在适当时使用不同的权重;例如,从膝上型计算机收集到的访问数据可以不具有与智能电话所使用的模型中的智能电话的收集到的数据相同的权重。
为了构建/训练模型108,特征提取机构110提取关于从历史数据结构104中标识出的“目标”URL的集合(例如,对应于如经由图1中的表格118表示的用户的web日志)的特征111-116的集合。如此处所使用的,与相对较不频繁访问的“非目标”URL形成对比,“目标”URL指的是用户频繁访问的URL(“目标”URL的数量通常相对较小,诸如十个或更少)。例如,目标URL可以是用户在一个月内至少访问五次的URL;然而,可使用其它阈值、计数、时段等来区分目标和非目标URL。目标URL的数量还可以与用户例如在每天或每月的基础上访问的URL的平均数成比例。每个月访问数千个(不同)URL的用户可具有比一个月只访问几百个URL的用户更大数量的目标URL。注意,模型预测目标web访问,并由此在一个实现中,只为目标web访问或未访问生成特征向量;然而,特征值对关于目标和非目标web访问两者的信息进行编码。
如此处所使用的,特征111-116在空间、时间、时空、流行度、位置和/或可能的其它属性方面对移动web浏览行为(或其它内容访问)的底层结构进行编码。训练文件计算机构120将表格118中的数据映射到包括各自被注释为访问或未访问的特征向量集的训练文件122(或其它合适的数据结构)。例如,只要用户在一会话(基于某一用户活动/事件)或其它历时内打开浏览器程序,在该会话或历时期间访问过的每一个目标URL都具有用访问一(1)注释的特征向量,而未在该会话期间访问的每一个目标URL都具有用访问零(0)注释的特征向量。
将训练文件122用作带标签的特征向量轨迹,训练机构106训练关于该用户的模型108。一个这样的模型(以下进一步描述)是利用随机梯度上升技术的被创建为决策树的已知模型,该决策树在其叶节点支持具有概率(本发明技术中的访问概率)的时间范围。在替代实现中可使用其它模型/分类器。一般 而言,训练阶段将作为输入提供的不同特征进行组合,以使得模型能够最大化测试数据集中的正确预测的数量。
跨用户的移动web浏览行为在类型和已访问URL的数量以及URL访问时机方面能够极大地变化。由此,在一个实现中,按单个用户收集特征并将其用于模型。然而,可以理解,这仅仅是一个示例实现;作为另一示例,不同类型的用户可通过行为模式来标识并被归类为不同的简档类型,且对于具有给定简档的一组用户学习的信息至少在某种程度上适用于具有该简档的其它用户。
图2表示模型108(或其复制实例)的在线使用。诸如解锁设备等用户动作220的集合中的一个动作可触发预测操作。可触发预测操作的其它动作包括用户激活浏览器、访问URL、启动应用、发生调度的事件等。
当触发时,如图2所表示的,经由在线特征生成器224和特征向量226的集合来为每一个目标URL 222生成特征向量。预测模型108用作为输入的这些特征向量中的每一个来调用,如通过向量226的集合作为输入由预测机构228馈送至预测模型108来表示。注意,模型可被结合到诸如浏览器等使用该模型的程序中(即作为插件),和/或可以配置有API、被配置为服务和/或以某种其它方式配置,以便可由寻求关于用户访问的预先取回预测以及用于出于它们的目的而训练模型的外部程序访问。
对于每一个特征向量和对应的目标URL,模型分配访问概率,如由URL访问概率集230呈现的。取决于如对照预先配置的阈值概率评估(例如,如由预先取回判定机构232评估)的这些所得概率,不取回或取回一个或多个目标URL。注意,内容预先取回可包括预先取回网页内容以及任何相关联的图像、层级样式表、java脚本等。这在图2中被表示为预先取回的内容234。而且,在一个实现中,在web服务器和设备之间操作的代理或任何其它远程机器可跟踪设备最近高速缓存的web内容,由此能够只推送新内容(例如,新内容和先前高速缓存的内容之间的差异),由此节省通信带宽。之后,如果用户请求对应于预先取回的内容的URL,则所请求的内容快速变得可用,因为它已经被预先取回到设备,例如取回到合适的浏览器高速缓存或程序的存储空间中。
预先配置的阈值概率可基于可能的许多组合因素之一而改变,并且可以是用户配置的。例如,较高的阈值可以在电池电量较低时使用。阈值可基于数据 计划限制、当前访问类型(例如,Wi-Fi或蜂窝)、设备类型、一天中的时间、位置、用户是否看上去正在驾驶等。
如还在图2中经由框236表示的,用户点击还是未点击任何预先取回的URL可由合适的机构238来收集以作为反馈,以便帮助改进/更好地调节预测模型。除了在训练中使用反馈来基于预测有多好的实际结果调节模型之外,反馈还可以按其它方式使用,例如需要为了进行预先取回而被满足的阈值概率可基于这些反馈而变化。
转向特征,用户往往以明确定义的行为模式访问URL。一种模式是用户经常从他们的手机访问小网页集合,他们往往随时间重复访问这些网页,该网页集合是负责给定用户的URL访问中的大部分的少量的目标URL。另一模式是用户访问经常是周期性的并且在给定的(且通常相对较短的)时间窗口处发生,例如每三十分钟、用户醒来时、下午休息期间等。此外,用户经常连续访问内容。例如,当用户检查新闻时,该用户也可检查天气预报和当前股票价格。而且,非目标URL往往比目标URL访问在时间上更聚集,由此最近的非目标URL访问可帮助预测将来URL访问的类型(目标还是非目标)。
由此,URL访问展示时间属性,该时间属性在预测内容时可用于预测要以及时的方式预先取回的内容(其中及时一般指提前,但不是太提前以使得内容保持相当新/不旧)。注意,相比之下,基于web访问的过去序列(或更一般而言是集合)的预先取回可能是低效的。
如此处所使用的,预测特征可基于各种概念,诸如空间参数(例如,先前访问的URL)、时间参数(例如,一天中的时间)和时空参数(例如,自从上一次访问该URL以来的时间)。另一特征子集包括结合记录用户动作的标签的一个或多个流行度相关特征(例如,跨所访问的URL的完整集合该URL有多流行)。包括诸如用户是在家还是在办公室(例如,如通过GPS坐标或蜂窝塔定位来确定)之类的上下文相关特征的还有一些其它特征类型也可提高预测准确性。
以下表格描述了一些示例特征;如可以认识到,作为对这些示例特征的补充或替换,可使用其它特征:

特征生成提供关于各个用户的移动web浏览行为的准确且区别性信息。如此处所使用的移动web浏览行为展示在示例特征集中所反映的空间、时间和时空结构。这些特征往往帮助模型决定要预先取回什么目标URL以及何时预先取回,由此使得能够进行及时的预先取回。在该示例中,对于具有k个目标URL的用户而言,计算2×k+11个特征。
一般而言,空间特征对一起访问的移动web访问的集合进行编码,并且记录关于前一次访问的URL的信息(例如,该访问是针对非目标URL或访问了哪些目标URL)。替代空间特征可基于例如不止一个前一次访问的URL。
时间特征一般记录目标web访问的周期性和时基数据以及发生这些访问的一天中的时间和/或星期几。也可使用其它时间特征或附加时间特征。
一般而言,时空特征将空间和时间属性进行组合以对附加信息进行编码。例如,时空特征可以对目标URL访问和前一次访问之间逝去的时间。替代时空特征可基于例如不止一个前一次访问的URL。
一般而言,流行度特征对每一个目标URL的流行度进行编码,并且可用于决定哪些目标URL将最有可能被访问。流行度特征可基于以下观察结果:对于大多数用户,目标URL的数量从一到十变化,但通常其中只有两个或三个目标URL负责大多数目标URL访问。上下文特征可用于基于用户位置来反映用户的访问模式,例如当在下午稍晚时间在工作时,而不是在下午稍晚时间在家时,用户更有可能访问交通网站。
图3概述了基于作为(例如,二元)访问预测问题的预先取回内容的概念的训练的各方面。在一个实现中,web日志可被分成训练、确认和测试数据(步骤302,如在机器学习领域公知的),诸如百分之七十的最近训练、百分之十的确认、百分之二十的测试数据。在步骤304处理训练数据以标识用户的目标URL,例如已经一个月被访问至少五次的那些URL。可采用划分和/或使用历史数据的其它方式。
预测可基于随机梯度上升技术,其中建模消费特征(在步骤306提取并在步骤308处理成训练文件)并使用特征的依赖性来最大化访问预测,而不受到建模工具(例如,马尔可夫模型)的性质的限制。一个这样的训练工具是MART(基于多重累计回归树)。
在一个实现中,在标识出目标URL后,可如下生成训练、确认和测试数据。从日志中的第一次web访问开始,用户的web访问被分成多个访问时期,每一个时期都具有某一合适的历时,例如,五分钟。对于每一访问时期,计算特征向量,每一个目标URL一个特征向量。针对该时期中所访问的目标URL的向量被标记为已访问,而其它向量被标记为未访问。在一个实现中,如果在一时期内多次访问一目标URL,则只为该时期内对该URL的第一次访问计算一个特征向量,这使得模型偏向第一次访问以改进时间性。访问时期的历时定义预测的新近性并且可被称为新近性阈值。只要在访问时期的开头做出预测且预先取回URL,该URL的内容就被认为是对于该访问时期的历时是新近的。以此方式,web内容更新率小于每一历时一次更新。
为了构造预测模型,MART取得关于web访问的历史数据作为输入,这些历时数据被分成训练和确认集;训练数据集被用来构建模型,而确认集被用来提供无偏差误差估计。如由步骤310表示的,训练文件中的带标签的特征向量被离线使用来训练访问预测模型。梯度下降可被用作优化技术,且二元决策树被用作拟合函数。在每一训练阶段后,MART报告特征的相对排序,这指示关于做出预测的相对特征重要性,例如被关联到一特征的决策树分支的数量越大,该特征的重要性就越高。
测试数据集中的带标签的特征向量可用于评估模型的性能。例如,对于测试文件中的每一个特征向量,从模型中检索访问概率。高于0.5的访问概率对应于预先取回目标URL(该概率阈值可取决于诸如网络和电池状况等各种准则来动态调整)。预测成功与否取决于测试文件中的特征向量的标签。如果标签被标记为已访问,则预先取回是成功的,否则预先取回是不成功的。
图4概述了如此处所使用的模型的在线使用,即通过角色为在任何给定时刻将访问概率分配给每一个目标URL的web访问预测模型。概率越高,用户越有可能请求访问该URL。注意,为了确定移动设备何时应做出web访问预测,图4的示例步骤由事件驱动方法来触发,其中作为特定用户动作的结果(与其中用户显式提交查询的web搜索形成对比)移动设备做出web访问预测。
当被触发时,步骤402表示选择目标URL之一。注意,将用于在线预先取回的目标URL的集合与用于离线训练的集合解耦是可行的。例如,离线训练可 以每个月执行以构建模型,然而对于预先取回评估而考虑的目标URL可以更频繁地配置,包括只要给定URL被访问就可能更新计数等。
步骤404为在步骤402选择的目标URL生成特征,这些特征被组合成特征向量。特征向量被输入到经训练的模型中,如由步骤406所表示的。
步骤408表示从模型接收预测概率,在步骤410对照阈值概率评估该预测概率。如果满足,则在步骤412将该URL添加到预先取回列表或其它合适的数据结构。注意,改为在此刻预先取回对应于URL的内容是可行的,然而可以从对多个URL进行批处理中获取效率(诸如无线电能量节省),并由此在一个实现中首先构建这一列表。
步骤414为每一个目标URL重复该过程。当不再有要处理的URL时,步骤416预先取回列表中的任何URL。
虽然以上示例大部分在预先取回web内容以供用户的浏览器程序输出的上下文中描述的,但其它机构可以按类似的方式使用该技术。例如,一设备可启动一应用,该应用可以基于在历史使用/访问模式的基础上预测用户动作的模型来预先取回或不预先取回内容。以此方式,例如一应用可被预先加载到存储器中以便更快地启动。作为另一示例,有规律地在每天早上他或她醒来时运行获取天气预报的应用的用户能够使该应用自动启动和/或基于先前访问模式(以及触发事件,这可以是一天中的时间或使设备上电)来预先取回该应用的内容。
如可以看到,执行了一种数据驱动的内容预先取回技术,该技术基于每一个个体用户的web浏览或其它内容访问行为的时间、空间和/或时空模式,这促进了准确的内容预先取回。通过预测用户访问,在相同或更低的无线电能量消耗的情况下提供了更快的web浏览或其它设备体验。
示例性操作环境
图5示出可在其上实现此处所描述的主题的各方面的合适的移动设备500的示例。移动设备500仅仅是一个设备示例,且不旨在暗示关于本文描述的主题的各方面的使用或功能的范围的任何限制,例如,通常不被认为是移动的个人计算机可以从本文描述的技术中受益。移动设备500也不应被解释成对于在示例性移动设备500中所示出的任一组件或其组合有任何依赖或要求。
参考图5,用于实现此处所述的主题的各方面的示例性设备包括移动设备500。在某些实施例中,移动设备500包括蜂窝电话、允许与其他手持设备的语音通信的手持设备、某一其他语音通信设备等。在这些实施例中,移动设备500可配备用于拍摄照片的相机,虽然这在其他实施例中可能不是必需的。在其他实施例中,移动设备500包括个人数字助理(PDA),手持式游戏设备,笔记本计算机,打印机,包括机顶盒、媒体中心或其他电器等的电器,其他移动设备等。在又一些实施例中,移动设备500可包括通常被认作非移动的设备,如个人计算机、服务器等。
移动设备500的组件可以包括但不限于,处理单元505、系统存储器510和将包括系统存储器510在内的各种系统组件耦合至处理单元505的总线515。总线515可包括几种类型的总线结构中的任何一种,包括存储器总线、存储控制器、外围总线、以及使用各种总线体系结构中的任一种的局部总线等。总线515允许在移动设备500的各种组件之间传送数据。
移动设备500可以包括各种计算机可读介质。计算机可读介质可以是能由移动设备500访问的任何可用介质,而且包含易失性和非易失性介质以及可移动、不可移动介质。作为示例而非限制,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据这样的信息的任意方法或技术来实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁带盒、磁带、磁盘存储或其他磁存储设备、或者可用于存储所需信息并且可由移动设备500访问的任何其他介质。
通信介质通常以诸如载波或其他传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据,并包括任何信息传送介质。术语“已调制数据信号”是指使得以在信号中编码信息的方式来设定或改变其一个或多个特征的信号。作为示例而非限制,通信介质包括有线介质,诸如有线网络或直接线连接,以及无线介质,诸如声学、RF、无线USB、红外、WiFi、WiMAX、和其它无线介质。上述的任意组合也应包含在计算机可读介质的范围内。
系统存储器510包括易失性和/或非易失性存储器形式的计算机存储介质,且可包括只读存储器(ROM)和随机存取存储器(RAM)。在诸如蜂窝电话等移动设备上,操作系统代码520有时被包括ROM中,虽然在其他实施例中,这不是必需的。类似地,应用程序525通常位于RAM中,虽然同样在其他实施例中,应用程序可位于ROM中或其他计算机可读存储器中。堆530提供用于与操作系统520和应用程序525相关联的状态的存储器。例如,操作系统520和应用程序525可在其操作期间将变量和数据结构存储在堆530中。
移动设备500还可包括其他可移动/不可移动、易失性/非易失性存储器。作为示例,图5示出闪存卡535、硬盘驱动器536、以及记忆棒537。例如,可小型化硬盘驱动器536以适应存储器槽。移动设备500可经由可移动存储器接口531与这些类型的非易失性可移动存储器接口,或可经由通用串行总线(USB)、IEEE 1394、一个或多个有线端口540、或天线565连接。在这些实施例中,可移动存储器设备535-937可经由通信模块532与移动设备接口。在某些实施例中,并非所有这些类型的存储器都可被包括在单个移动设备上。在其他实施例中,可将这些和其他类型的可移动存储器中的一个或多个包括在单个移动设备上。
在某些实施例中,可按更永久地附连到移动设备500的方式连接硬盘驱动器536。例如,硬盘驱动器536可连接到诸如并行高级技术附件(PATA)、串行高级技术附件(SATA)或其他可连接到总线515的附件等接口。在此类实施例中,移除硬盘驱动器可涉及移除移动设备500的外壳并移除将硬盘驱动器536连接到移动设备500内的支承结构的螺丝钉或其他紧固件。
以上描述和在图5中示出的可移动存储设备535-937及其相关联的计算机存储介质提供对用于移动设备500的计算机可读指令、程序模块、数据结构、和其他数据的存储。例如,可移动存储器设备535-937可存储由移动设备500拍摄的图像、语音录音、联系人信息、程序、用于程序的数据等。
用户可通过诸如键区541和话筒542等输入设备向移动设备500中输入命令和信息。在某些实施例中,显示器543可以是触敏屏幕并可允许用户在其上输入命令和信息。键区541和显示器543可通过耦合到总线515的用户输入接口550连接到处理单元505,但也可由其他接口和总线结构连接,如通信模块 532和有线端口540。运动检测552或诸如加速计等其它传感器可用于确定用设备500做出的姿势。
例如,用户可经由对话筒542讲话并经由在键区541或触敏显示器543上输入的文本消息来与其他用户通信。音频单元555可提供电信号以驱动扬声器544以及接收并数字化接收自话筒542的音频信号。
移动设备500可包括提供信号以驱动相机561的视频单元560。视频单元560还可接收由相机561获得的图像并将这些图像提供给包括在移动设备500上的处理单元505和/或存储器。由相机561获得的图像可包括视频、不形成视频的一个或多个图像、或其某一组合。
通信模块532可向一根或多根天线565提供信号并从其接收信号。天线565之一可发射并接收用于蜂窝电话网络的消息。另一天线可发射并接收消息。又一天线(或共享天线)可经由无线以太网网络标准发射并接收网络消息。
更进一步,天线将例如GPS信号等基于位置的信息提供给GPS接口和机制572。GPS机制572又使相应的GPS数据(例如时间和坐标)可用于处理。
在某些实施例中,可使用单根天线来发射和/或接收用于超过一种类型的网络的消息。例如,单根天线可发射并接收语音和分组消息。
当在网络化环境中操作时,移动设备500可连接到一个或多个远程设备。远程设备可包括个人计算机、服务器、路由器、网络PC、蜂窝电话、媒体回放设备、对等设备或其他常见的网络节点,并且一般包括上面相对于移动设备500所述的许多或全部元件。
本文所描述的主题的各方面可与众多其他通用或专用计算系统环境或配置一起操作。适用于此处所描述的主题的各方面的公知的计算系统、环境和/或配置的示例包括,但不限于,个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机、大型计算机、包括上述系统或设备中的任一个的分布式计算环境等。
此处所描述的主题的各方面可在由移动设备执行的诸如程序模块等计算机可执行指令的一般上下文中描述。一般而言,程序模块包括执行特定任务或 实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。本文所描述的主题的各方面也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中,程序模块可以位于包括存储器存储设备在内的本地和远程计算机存储介质中。
此外,虽然此处频繁使用术语服务器,但可以认识到,该术语也可涵盖客户机、分布在一个或多个计算机上的一个或多个进程的集合、一个或多个独立的存储设备、一个或多个其他设备的集合、以上的一个或多个的组合,等等。
结语
尽管本发明易于作出各种修改和替换构造,但其某些说明性实施例在附图中示出并在上面被详细地描述。然而应当了解,这不旨在将本发明限于所公开的具体形式,而是相反地,旨在覆盖落入本发明的精神和范围之内的所有修改、替换构造和等效方案。

用于计算设备的内容预先取回.pdf_第1页
第1页 / 共18页
用于计算设备的内容预先取回.pdf_第2页
第2页 / 共18页
用于计算设备的内容预先取回.pdf_第3页
第3页 / 共18页
点击查看更多>>
资源描述

《用于计算设备的内容预先取回.pdf》由会员分享,可在线阅读,更多相关《用于计算设备的内容预先取回.pdf(18页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN104137094A43申请公布日20141105CN104137094A21申请号201380010892722申请日2013021313/403,82720120223USG06F17/00200601G06F11/3020060171申请人微软公司地址美国华盛顿州72发明人D林贝罗普洛斯O里瓦K斯特劳斯74专利代理机构上海专利商标事务所有限公司31100代理人顾嘉运54发明名称用于计算设备的内容预先取回57摘要本发明涉及一种基于用户将请求访问内容的预测来及时地将该内容预先取回到计算设备的技术。与内容相关联的包括时间特征、空间特征、时空特征和/或其它特征的特征被提供给至少。

2、部分地用历史访问数据来训练的模型。该模型返回从中作出是否预先取回内容的判定的信息。30优先权数据85PCT国际申请进入国家阶段日2014082586PCT国际申请的申请数据PCT/US2013/0257942013021387PCT国际申请的公布数据WO2013/126244EN2013082951INTCL权利要求书2页说明书10页附图5页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书10页附图5页10申请公布号CN104137094ACN104137094A1/2页21一种计算环境中的至少部分地在至少一个处理器上执行的方法,包括确定是否要将内容预先取回到计算设备,包括。

3、生成包括与所述内容相关联的时间相关特征数据的特征,将所述特征提供给至少部分地用历史访问数据来训练的模型,以及从所述模型获取指示是否要预先取回所述内容的信息。2如权利要求1所述的方法,其特征在于,将所述特征提供给所述模型包括将特征向量输入到所述模型中,并且所述方法还包括计算包括表示空间相关特征数据的数据的特征向量,计算包括表示所述时间相关特征数据的数据的特征向量,计算包括表示时空相关特征数据的数据的特征向量,计算包括表示流行度相关特征数据的数据的特征向量,或者计算包括表示上下文相关特征数据的数据的特征向量,或者以下动作的任意组合计算包括表示空间相关特征数据的数据的特征向量,计算包括表示所述时间相。

4、关特征数据的数据的特征向量,计算包括表示时空相关特征数据的数据的特征向量,计算包括表示流行度相关特征数据的数据的特征向量或计算包括表示上下文相关特征数据的数据的特征向量。3如权利要求1所述的方法,其特征在于,生成所述特征包括处理基于所述历史访问数据而被标识为目标URL的一个或多个URL的集合。4如权利要求1所述的方法,其特征在于,从所述模型获取指示是否要预先取回所述内容的信息包括接收预测出的概率值,并且所述方法还包括当所述预测出的概率值达到阈值概率值时预先取回所述内容。5一种系统,包括基于历史访问数据来训练以预测是否要预先取回内容的模型,所述模型被配置成接收表示内容片段的特征向量作为输入,所述。

5、特征向量包括表示与所述内容片段相关联的时空相关特征数据的数据,所述模型被进一步配置成处理所述特征向量以输出指示用户是否有可能及时请求访问所述内容的信息。6如权利要求5所述的系统,其特征在于,A所述历史访问数据模型中的至少一部分是维护在内容被预先取回到的计算设备上的,和/或B所述历史访问数据对应于单个用户,并且其中所述内容片段对应于来自基于所述用户的所述历史访问数据而被标识为目标URL的一个或多个URL的集合中的一个URL。7如权利要求5所述的系统,其特征在于,所述模型基于指示所述用户实际上是否已及时请求访问所述内容的反馈来进一步训练。8一种或多种具有计算机可执行指令的计算机可读介质,所述计算机。

6、可执行指令在被执行时执行以下动作,包括选择内容标识符;为所述内容标识符生成特征向量,所述特征向量包括与所述内容标识符相关联的时间相关特征数据、空间相关特征数据和时空相关特征数据;将所述特征向量提供给模型;从所述模型接收表示所述特征向量的预测相关值;以及如果所述预测相关值指示将很有可能请求对所述内容的将来访问,则将对应于所述内容标识符的内容预先取回到计算设备。9如权利要求8所述的一种或多种计算机可读介质,其特征在于,预先取回所述内容包括把对所述内容的请求与对其它内容的至少一个其它请求一起进行批处理。10如权利要求8所述的一种或多种计算机可读介质,其特征在于,还具有计算机可执权利要求书CN1041。

7、37094A2/2页3行指令,包括监视对于预测结果和实际结果的准确性,并基于所述监视来调整所述预先取回。权利要求书CN104137094A1/10页4用于计算设备的内容预先取回0001背景0002从计算设备,尤其是移动计算设备访问远程内容可能是令人沮丧的。移动设备经由相对较慢的蜂窝连接来连接到因特网。例如,使用现有技术,在蜂窝电话上下载网页可能花费大约几秒来建立蜂窝塔连接,之后再花费若干秒/数十秒来执行下载。0003仅仅尽可能频繁地且尽可能多地预先取回远程内容以使得内容在本地可用通常是不合乎需要的。例如,远程内容例如,WEB内容频繁改变,并因此预先取回的内容可能迅速变旧,例如新闻和社交网站往往。

8、非常频繁地改变。另外,蜂窝电话和移动设备通常具有有限的电池和/或其它资源,由此尝试持续或相当有规律地在移动设备上更新预先取回的内容可能快速耗尽设备的电池并使其不可用。另外,某些设备用户招致数据下载收费,这意味着他们可能仅仅为了获取旧内容和/或大量不需要的内容而付费和/或用尽他们的下载额度限制。0004概述0005提供本概述以便以简化形式介绍将在以下的详细描述中进一步描述的一些代表性概念。本概述不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在以限制所要求保护的主题的范围的任何方式来使用。0006简而言之,本文描述的主题的各方面涉及一种可用于确定是否要将内容预先取回到计算设备的技术。确定。

9、是否要预先取回可基于生成与用户访问WEB内容的方式相关联和/或与更新内容本身的方式相关联的包括时空和/或时间相关特征数据的特征,将这些特征提供给至少部分地用历史访问数据来训练的模型,以及从该模型获取指示是否要预先取回内容的信息。0007在一方面,将这些特征提供给模型可包括将特征向量输入到模型中。特征向量可包括表示时间相关特征数据、空间相关特征数据、时空相关特征数据、流行度相关数据和/或上下文相关数据例如,位置的数据。0008在一方面,基于历史访问数据来训练以预测是否要预先取回内容的模型被配置成接收表示内容片段例如,网页的特征向量作为输入。特征向量可包括表示与用户何时访问该内容相关联和/或与该内。

10、容片段相关联的时间相关特征数据的数据。该模型处理特征向量以输出指示用户是否有可能请求访问内容的信息。0009结合附图阅读以下具体实施方式,本发明的其他优点会变得显而易见。0010附图简述0011作为示例而非限制,在附图中示出了本发明,附图中相同的附图标记指示相同或相似的元素,附图中0012图1是表示用于训练模型的示例组件的框图,该模型基于从历史访问数据中提取的特征来预测用户是否有可能访问内容片段。0013图2是表示用于将被模型标识为可能被请求访问的内容预先取回的示例组件的框图。0014图3是表示用于训练预测用户是否有可能访问内容片段的模型的示例步骤的流说明书CN104137094A2/10页5。

11、程图。0015图4是表示用于在评估模型是否预测到内容将很有可能被请求时及时地预先取回内容的示例步骤的流程图。0016图5是表示其中可实现在此处所描述的各实施例的一个或多个方面的示例性、非限制性计算系统或操作环境的框图,例如在移动电话设备的例子中。0017详细描述0018本文描述的技术的各方面一般涉及提供更快的WEB浏览体验,它通过预测用户或应用的可能的将来WEB访问来在适当时智能地预先取回内容。对远程内容的及时预先取回可通过使用包括空间、时间、时空、流行度喜好和/或上下文相关特征的特征来完成,这些特征被用来确定预先取回哪些内容片段例如,网页URL以及预先取回每一内容片段的时机。在一方面和一个实。

12、现中,及时的内容预先取回基于通过组合包括空间、时间、时空、流行度喜好和/或上下文相关特征的特征以学习用于确定要预先取回的远程内容片段的用户访问模型例如,分类器来对点击预测问题用户是否将可能想要选择预先取回的内容求解。0019例如,基于用户访问历史,提取描述用户访问远程内容的方式的特征集。可提取对关于用户访问内容的顺序的信息进行编码的特征以及关于进行这些访问的绝对和相对时间以及这些访问的周期性的特征。使用来自这些历史访问数据的特征向量,在离线阶段中训练点击预测模型,该离线阶段提供用户在给定时间访问特定的远程内容片段诸如URL的概率。在运行时在线阶段,设备利用点击预测模型来查找用户或应用在任意长度。

13、的下一时间量内或将来的某一时刻访问给定的远程内容片段例如,特定的网页URL的概率。如果针对该URL的概率高于预定阈值,则将对应于该URL的内容预先取回到移动设备上。0020应当理解的是,此处的任何示例均是非限制性的。例如,虽然在此将移动设备/智能电话用作示例,但是在此所述的至少一些概念适用于膝上型计算机、平板计算机、个人计算机等等。此外,虽然预先取回用于浏览器的URL形式的WEB内容被用作一个示例,但可基于本文描述的技术来预先加载和/或预先取回任何下载内容例如,应用和/或应用内容。因此,本发明不限制于在此描述的任何具体的实施例、方面、概念、结构、功能或示例。相反,此处所描述的实施例、方面、概念。

14、、结构、功能或示例中的任一个都是非限制性的,并且本发明一般能够以在计算和内容访问方面提供好处和优点的各种方式来使用。0021图1是示出一个示例实现中各种组件的框图。一般而言,移动设备102将用户WEB访问记录到历史数据结构104中,该历史数据结构可位于设备上或者位于远程存储位置。WEB访问可包括自动页面刷新。离线训练机构106周期性地例如每天、每周、每月或者应某一其它适当事件使用该信息来构建关于用户的WEB访问预测模型108。0022模型108可以在移动设备本身上、在诸如用户的台式机之类的可能更强大的机器上构建,和/或可由例如云中的服务来构建。注意,诸如如果是远程维护的例如在云中,则历史数据结。

15、构104可以从多个设备访问例如,智能电话、膝上型计算机、平板计算机等汇集,以帮助进行数据挖掘以用于训练模型,如下所述。此外,每一个这样的设备都可具有其自己的模型,且共享设备具有多个模型,每一模型映射到一个用户。来自不同设备的数据可以与例如设备标识符相关联地维护,以使得可以在适当时使用不同的权重;例如,从膝上说明书CN104137094A3/10页6型计算机收集到的访问数据可以不具有与智能电话所使用的模型中的智能电话的收集到的数据相同的权重。0023为了构建/训练模型108,特征提取机构110提取关于从历史数据结构104中标识出的“目标”URL的集合例如,对应于如经由图1中的表格118表示的用户。

16、的WEB日志的特征111116的集合。如此处所使用的,与相对较不频繁访问的“非目标”URL形成对比,“目标”URL指的是用户频繁访问的URL“目标”URL的数量通常相对较小,诸如十个或更少。例如,目标URL可以是用户在一个月内至少访问五次的URL;然而,可使用其它阈值、计数、时段等来区分目标和非目标URL。目标URL的数量还可以与用户例如在每天或每月的基础上访问的URL的平均数成比例。每个月访问数千个不同URL的用户可具有比一个月只访问几百个URL的用户更大数量的目标URL。注意,模型预测目标WEB访问,并由此在一个实现中,只为目标WEB访问或未访问生成特征向量;然而,特征值对关于目标和非目标。

17、WEB访问两者的信息进行编码。0024如此处所使用的,特征111116在空间、时间、时空、流行度、位置和/或可能的其它属性方面对移动WEB浏览行为或其它内容访问的底层结构进行编码。训练文件计算机构120将表格118中的数据映射到包括各自被注释为访问或未访问的特征向量集的训练文件122或其它合适的数据结构。例如,只要用户在一会话基于某一用户活动/事件或其它历时内打开浏览器程序,在该会话或历时期间访问过的每一个目标URL都具有用访问一1注释的特征向量,而未在该会话期间访问的每一个目标URL都具有用访问零0注释的特征向量。0025将训练文件122用作带标签的特征向量轨迹,训练机构106训练关于该用户。

18、的模型108。一个这样的模型以下进一步描述是利用随机梯度上升技术的被创建为决策树的已知模型,该决策树在其叶节点支持具有概率本发明技术中的访问概率的时间范围。在替代实现中可使用其它模型/分类器。一般而言,训练阶段将作为输入提供的不同特征进行组合,以使得模型能够最大化测试数据集中的正确预测的数量。0026跨用户的移动WEB浏览行为在类型和已访问URL的数量以及URL访问时机方面能够极大地变化。由此,在一个实现中,按单个用户收集特征并将其用于模型。然而,可以理解,这仅仅是一个示例实现;作为另一示例,不同类型的用户可通过行为模式来标识并被归类为不同的简档类型,且对于具有给定简档的一组用户学习的信息至少。

19、在某种程度上适用于具有该简档的其它用户。0027图2表示模型108或其复制实例的在线使用。诸如解锁设备等用户动作220的集合中的一个动作可触发预测操作。可触发预测操作的其它动作包括用户激活浏览器、访问URL、启动应用、发生调度的事件等。0028当触发时,如图2所表示的,经由在线特征生成器224和特征向量226的集合来为每一个目标URL222生成特征向量。预测模型108用作为输入的这些特征向量中的每一个来调用,如通过向量226的集合作为输入由预测机构228馈送至预测模型108来表示。注意,模型可被结合到诸如浏览器等使用该模型的程序中即作为插件,和/或可以配置有API、被配置为服务和/或以某种其它。

20、方式配置,以便可由寻求关于用户访问的预先取回预测以及用于出于它们的目的而训练模型的外部程序访问。0029对于每一个特征向量和对应的目标URL,模型分配访问概率,如由URL访问概率集说明书CN104137094A4/10页7230呈现的。取决于如对照预先配置的阈值概率评估例如,如由预先取回判定机构232评估的这些所得概率,不取回或取回一个或多个目标URL。注意,内容预先取回可包括预先取回网页内容以及任何相关联的图像、层级样式表、JAVA脚本等。这在图2中被表示为预先取回的内容234。而且,在一个实现中,在WEB服务器和设备之间操作的代理或任何其它远程机器可跟踪设备最近高速缓存的WEB内容,由此能。

21、够只推送新内容例如,新内容和先前高速缓存的内容之间的差异,由此节省通信带宽。之后,如果用户请求对应于预先取回的内容的URL,则所请求的内容快速变得可用,因为它已经被预先取回到设备,例如取回到合适的浏览器高速缓存或程序的存储空间中。0030预先配置的阈值概率可基于可能的许多组合因素之一而改变,并且可以是用户配置的。例如,较高的阈值可以在电池电量较低时使用。阈值可基于数据计划限制、当前访问类型例如,WIFI或蜂窝、设备类型、一天中的时间、位置、用户是否看上去正在驾驶等。0031如还在图2中经由框236表示的,用户点击还是未点击任何预先取回的URL可由合适的机构238来收集以作为反馈,以便帮助改进/。

22、更好地调节预测模型。除了在训练中使用反馈来基于预测有多好的实际结果调节模型之外,反馈还可以按其它方式使用,例如需要为了进行预先取回而被满足的阈值概率可基于这些反馈而变化。0032转向特征,用户往往以明确定义的行为模式访问URL。一种模式是用户经常从他们的手机访问小网页集合,他们往往随时间重复访问这些网页,该网页集合是负责给定用户的URL访问中的大部分的少量的目标URL。另一模式是用户访问经常是周期性的并且在给定的且通常相对较短的时间窗口处发生,例如每三十分钟、用户醒来时、下午休息期间等。此外,用户经常连续访问内容。例如,当用户检查新闻时,该用户也可检查天气预报和当前股票价格。而且,非目标URL。

23、往往比目标URL访问在时间上更聚集,由此最近的非目标URL访问可帮助预测将来URL访问的类型目标还是非目标。0033由此,URL访问展示时间属性,该时间属性在预测内容时可用于预测要以及时的方式预先取回的内容其中及时一般指提前,但不是太提前以使得内容保持相当新/不旧。注意,相比之下,基于WEB访问的过去序列或更一般而言是集合的预先取回可能是低效的。0034如此处所使用的,预测特征可基于各种概念,诸如空间参数例如,先前访问的URL、时间参数例如,一天中的时间和时空参数例如,自从上一次访问该URL以来的时间。另一特征子集包括结合记录用户动作的标签的一个或多个流行度相关特征例如,跨所访问的URL的完整。

24、集合该URL有多流行。包括诸如用户是在家还是在办公室例如,如通过GPS坐标或蜂窝塔定位来确定之类的上下文相关特征的还有一些其它特征类型也可提高预测准确性。0035以下表格描述了一些示例特征;如可以认识到,作为对这些示例特征的补充或替换,可使用其它特征0036说明书CN104137094A5/10页80037特征生成提供关于各个用户的移动WEB浏览行为的准确且区别性信息。如此处所使用的移动WEB浏览行为展示在示例特征集中所反映的空间、时间和时空结构。这些特征说明书CN104137094A6/10页9往往帮助模型决定要预先取回什么目标URL以及何时预先取回,由此使得能够进行及时的预先取回。在该示例。

25、中,对于具有K个目标URL的用户而言,计算2K11个特征。0038一般而言,空间特征对一起访问的移动WEB访问的集合进行编码,并且记录关于前一次访问的URL的信息例如,该访问是针对非目标URL或访问了哪些目标URL。替代空间特征可基于例如不止一个前一次访问的URL。0039时间特征一般记录目标WEB访问的周期性和时基数据以及发生这些访问的一天中的时间和/或星期几。也可使用其它时间特征或附加时间特征。0040一般而言,时空特征将空间和时间属性进行组合以对附加信息进行编码。例如,时空特征可以对目标URL访问和前一次访问之间逝去的时间。替代时空特征可基于例如不止一个前一次访问的URL。0041一般而。

26、言,流行度特征对每一个目标URL的流行度进行编码,并且可用于决定哪些目标URL将最有可能被访问。流行度特征可基于以下观察结果对于大多数用户,目标URL的数量从一到十变化,但通常其中只有两个或三个目标URL负责大多数目标URL访问。上下文特征可用于基于用户位置来反映用户的访问模式,例如当在下午稍晚时间在工作时,而不是在下午稍晚时间在家时,用户更有可能访问交通网站。0042图3概述了基于作为例如,二元访问预测问题的预先取回内容的概念的训练的各方面。在一个实现中,WEB日志可被分成训练、确认和测试数据步骤302,如在机器学习领域公知的,诸如百分之七十的最近训练、百分之十的确认、百分之二十的测试数据。。

27、在步骤304处理训练数据以标识用户的目标URL,例如已经一个月被访问至少五次的那些URL。可采用划分和/或使用历史数据的其它方式。0043预测可基于随机梯度上升技术,其中建模消费特征在步骤306提取并在步骤308处理成训练文件并使用特征的依赖性来最大化访问预测,而不受到建模工具例如,马尔可夫模型的性质的限制。一个这样的训练工具是MART基于多重累计回归树。0044在一个实现中,在标识出目标URL后,可如下生成训练、确认和测试数据。从日志中的第一次WEB访问开始,用户的WEB访问被分成多个访问时期,每一个时期都具有某一合适的历时,例如,五分钟。对于每一访问时期,计算特征向量,每一个目标URL一个。

28、特征向量。针对该时期中所访问的目标URL的向量被标记为已访问,而其它向量被标记为未访问。在一个实现中,如果在一时期内多次访问一目标URL,则只为该时期内对该URL的第一次访问计算一个特征向量,这使得模型偏向第一次访问以改进时间性。访问时期的历时定义预测的新近性并且可被称为新近性阈值。只要在访问时期的开头做出预测且预先取回URL,该URL的内容就被认为是对于该访问时期的历时是新近的。以此方式,WEB内容更新率小于每一历时一次更新。0045为了构造预测模型,MART取得关于WEB访问的历史数据作为输入,这些历时数据被分成训练和确认集;训练数据集被用来构建模型,而确认集被用来提供无偏差误差估计。如由。

29、步骤310表示的,训练文件中的带标签的特征向量被离线使用来训练访问预测模型。梯度下降可被用作优化技术,且二元决策树被用作拟合函数。在每一训练阶段后,MART报告特征的相对排序,这指示关于做出预测的相对特征重要性,例如被关联到一特征的决策树分支的数量越大,该特征的重要性就越高。0046测试数据集中的带标签的特征向量可用于评估模型的性能。例如,对于测试文件说明书CN104137094A7/10页10中的每一个特征向量,从模型中检索访问概率。高于05的访问概率对应于预先取回目标URL该概率阈值可取决于诸如网络和电池状况等各种准则来动态调整。预测成功与否取决于测试文件中的特征向量的标签。如果标签被标记。

30、为已访问,则预先取回是成功的,否则预先取回是不成功的。0047图4概述了如此处所使用的模型的在线使用,即通过角色为在任何给定时刻将访问概率分配给每一个目标URL的WEB访问预测模型。概率越高,用户越有可能请求访问该URL。注意,为了确定移动设备何时应做出WEB访问预测,图4的示例步骤由事件驱动方法来触发,其中作为特定用户动作的结果与其中用户显式提交查询的WEB搜索形成对比移动设备做出WEB访问预测。0048当被触发时,步骤402表示选择目标URL之一。注意,将用于在线预先取回的目标URL的集合与用于离线训练的集合解耦是可行的。例如,离线训练可以每个月执行以构建模型,然而对于预先取回评估而考虑的。

31、目标URL可以更频繁地配置,包括只要给定URL被访问就可能更新计数等。0049步骤404为在步骤402选择的目标URL生成特征,这些特征被组合成特征向量。特征向量被输入到经训练的模型中,如由步骤406所表示的。0050步骤408表示从模型接收预测概率,在步骤410对照阈值概率评估该预测概率。如果满足,则在步骤412将该URL添加到预先取回列表或其它合适的数据结构。注意,改为在此刻预先取回对应于URL的内容是可行的,然而可以从对多个URL进行批处理中获取效率诸如无线电能量节省,并由此在一个实现中首先构建这一列表。0051步骤414为每一个目标URL重复该过程。当不再有要处理的URL时,步骤416。

32、预先取回列表中的任何URL。0052虽然以上示例大部分在预先取回WEB内容以供用户的浏览器程序输出的上下文中描述的,但其它机构可以按类似的方式使用该技术。例如,一设备可启动一应用,该应用可以基于在历史使用/访问模式的基础上预测用户动作的模型来预先取回或不预先取回内容。以此方式,例如一应用可被预先加载到存储器中以便更快地启动。作为另一示例,有规律地在每天早上他或她醒来时运行获取天气预报的应用的用户能够使该应用自动启动和/或基于先前访问模式以及触发事件,这可以是一天中的时间或使设备上电来预先取回该应用的内容。0053如可以看到,执行了一种数据驱动的内容预先取回技术,该技术基于每一个个体用户的WEB。

33、浏览或其它内容访问行为的时间、空间和/或时空模式,这促进了准确的内容预先取回。通过预测用户访问,在相同或更低的无线电能量消耗的情况下提供了更快的WEB浏览或其它设备体验。0054示例性操作环境0055图5示出可在其上实现此处所描述的主题的各方面的合适的移动设备500的示例。移动设备500仅仅是一个设备示例,且不旨在暗示关于本文描述的主题的各方面的使用或功能的范围的任何限制,例如,通常不被认为是移动的个人计算机可以从本文描述的技术中受益。移动设备500也不应被解释成对于在示例性移动设备500中所示出的任一组件或其组合有任何依赖或要求。0056参考图5,用于实现此处所述的主题的各方面的示例性设备包。

34、括移动设备500。在说明书CN104137094A108/10页11某些实施例中,移动设备500包括蜂窝电话、允许与其他手持设备的语音通信的手持设备、某一其他语音通信设备等。在这些实施例中,移动设备500可配备用于拍摄照片的相机,虽然这在其他实施例中可能不是必需的。在其他实施例中,移动设备500包括个人数字助理PDA,手持式游戏设备,笔记本计算机,打印机,包括机顶盒、媒体中心或其他电器等的电器,其他移动设备等。在又一些实施例中,移动设备500可包括通常被认作非移动的设备,如个人计算机、服务器等。0057移动设备500的组件可以包括但不限于,处理单元505、系统存储器510和将包括系统存储器51。

35、0在内的各种系统组件耦合至处理单元505的总线515。总线515可包括几种类型的总线结构中的任何一种,包括存储器总线、存储控制器、外围总线、以及使用各种总线体系结构中的任一种的局部总线等。总线515允许在移动设备500的各种组件之间传送数据。0058移动设备500可以包括各种计算机可读介质。计算机可读介质可以是能由移动设备500访问的任何可用介质,而且包含易失性和非易失性介质以及可移动、不可移动介质。作为示例而非限制,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据这样的信息的任意方法或技术来实现的易失性和非易失性、可移。

36、动和不可移动介质。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其他存储器技术、CDROM、数字多功能盘DVD或其他光盘存储、磁带盒、磁带、磁盘存储或其他磁存储设备、或者可用于存储所需信息并且可由移动设备500访问的任何其他介质。0059通信介质通常以诸如载波或其他传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据,并包括任何信息传送介质。术语“已调制数据信号”是指使得以在信号中编码信息的方式来设定或改变其一个或多个特征的信号。作为示例而非限制,通信介质包括有线介质,诸如有线网络或直接线连接,以及无线介质,诸如声学、RF、无线USB、红外、WIFI、W。

37、IMAX、和其它无线介质。上述的任意组合也应包含在计算机可读介质的范围内。0060系统存储器510包括易失性和/或非易失性存储器形式的计算机存储介质,且可包括只读存储器ROM和随机存取存储器RAM。在诸如蜂窝电话等移动设备上,操作系统代码520有时被包括ROM中,虽然在其他实施例中,这不是必需的。类似地,应用程序525通常位于RAM中,虽然同样在其他实施例中,应用程序可位于ROM中或其他计算机可读存储器中。堆530提供用于与操作系统520和应用程序525相关联的状态的存储器。例如,操作系统520和应用程序525可在其操作期间将变量和数据结构存储在堆530中。0061移动设备500还可包括其他可。

38、移动/不可移动、易失性/非易失性存储器。作为示例,图5示出闪存卡535、硬盘驱动器536、以及记忆棒537。例如,可小型化硬盘驱动器536以适应存储器槽。移动设备500可经由可移动存储器接口531与这些类型的非易失性可移动存储器接口,或可经由通用串行总线USB、IEEE1394、一个或多个有线端口540、或天线565连接。在这些实施例中,可移动存储器设备535937可经由通信模块532与移动设备接口。在某些实施例中,并非所有这些类型的存储器都可被包括在单个移动设备上。在其他实施例中,可将这些和其他类型的可移动存储器中的一个或多个包括在单个移动设备上。说明书CN104137094A119/10页。

39、120062在某些实施例中,可按更永久地附连到移动设备500的方式连接硬盘驱动器536。例如,硬盘驱动器536可连接到诸如并行高级技术附件PATA、串行高级技术附件SATA或其他可连接到总线515的附件等接口。在此类实施例中,移除硬盘驱动器可涉及移除移动设备500的外壳并移除将硬盘驱动器536连接到移动设备500内的支承结构的螺丝钉或其他紧固件。0063以上描述和在图5中示出的可移动存储设备535937及其相关联的计算机存储介质提供对用于移动设备500的计算机可读指令、程序模块、数据结构、和其他数据的存储。例如,可移动存储器设备535937可存储由移动设备500拍摄的图像、语音录音、联系人信息。

40、、程序、用于程序的数据等。0064用户可通过诸如键区541和话筒542等输入设备向移动设备500中输入命令和信息。在某些实施例中,显示器543可以是触敏屏幕并可允许用户在其上输入命令和信息。键区541和显示器543可通过耦合到总线515的用户输入接口550连接到处理单元505,但也可由其他接口和总线结构连接,如通信模块532和有线端口540。运动检测552或诸如加速计等其它传感器可用于确定用设备500做出的姿势。0065例如,用户可经由对话筒542讲话并经由在键区541或触敏显示器543上输入的文本消息来与其他用户通信。音频单元555可提供电信号以驱动扬声器544以及接收并数字化接收自话筒54。

41、2的音频信号。0066移动设备500可包括提供信号以驱动相机561的视频单元560。视频单元560还可接收由相机561获得的图像并将这些图像提供给包括在移动设备500上的处理单元505和/或存储器。由相机561获得的图像可包括视频、不形成视频的一个或多个图像、或其某一组合。0067通信模块532可向一根或多根天线565提供信号并从其接收信号。天线565之一可发射并接收用于蜂窝电话网络的消息。另一天线可发射并接收消息。又一天线或共享天线可经由无线以太网网络标准发射并接收网络消息。0068更进一步,天线将例如GPS信号等基于位置的信息提供给GPS接口和机制572。GPS机制572又使相应的GPS数。

42、据例如时间和坐标可用于处理。0069在某些实施例中,可使用单根天线来发射和/或接收用于超过一种类型的网络的消息。例如,单根天线可发射并接收语音和分组消息。0070当在网络化环境中操作时,移动设备500可连接到一个或多个远程设备。远程设备可包括个人计算机、服务器、路由器、网络PC、蜂窝电话、媒体回放设备、对等设备或其他常见的网络节点,并且一般包括上面相对于移动设备500所述的许多或全部元件。0071本文所描述的主题的各方面可与众多其他通用或专用计算系统环境或配置一起操作。适用于此处所描述的主题的各方面的公知的计算系统、环境和/或配置的示例包括,但不限于,个人计算机、服务器计算机、手持式或膝上型设。

43、备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机、大型计算机、包括上述系统或设备中的任一个的分布式计算环境等。0072此处所描述的主题的各方面可在由移动设备执行的诸如程序模块等计算机可执行指令的一般上下文中描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。本文所描述的主题的各方面也可以在其中任说明书CN104137094A1210/10页13务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中,程序模块可以位于包括存储器存储设备在内的本地和远程计算机存储介质中。0073此外,虽。

44、然此处频繁使用术语服务器,但可以认识到,该术语也可涵盖客户机、分布在一个或多个计算机上的一个或多个进程的集合、一个或多个独立的存储设备、一个或多个其他设备的集合、以上的一个或多个的组合,等等。0074结语0075尽管本发明易于作出各种修改和替换构造,但其某些说明性实施例在附图中示出并在上面被详细地描述。然而应当了解,这不旨在将本发明限于所公开的具体形式,而是相反地,旨在覆盖落入本发明的精神和范围之内的所有修改、替换构造和等效方案。说明书CN104137094A131/5页14图1说明书附图CN104137094A142/5页15图2说明书附图CN104137094A153/5页16图3说明书附图CN104137094A164/5页17图4说明书附图CN104137094A175/5页18图5说明书附图CN104137094A18。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1