建立搜索词与应用数据推荐关系的方法及装置技术领域
本发明涉及互联网应用技术领域,特别是一种建立搜索词与应用数据推荐
关系的方法及装置。
背景技术
随着移动终端(如手机、平板电脑、智能手表等)功能的增强,其已经成
为人们生活、工作中的必备品。为了满足用户的各种需求,互联网上存在基于
移动终端开发的各种各样的应用,例如各种阅读、游戏、网购、聊天应用等。
现有技术中,用户需要查找某一应用,在输入关键词后,搜索引擎会在应
用库中查找与该关键词匹配的应用,进而推荐给用户,给用户带来便利性。然
而,若用户无法得知该应用的关键词,从而搜索引擎获取不到关键词的信息,
此时无法给用户推荐应用。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地
解决上述问题的建立搜索词与应用数据推荐关系的方法及装置。
依据本发明的一方面,提供了一种建立搜索词与应用数据推荐关系的方
法,包括:
从用户的会话日志中提取至少两个关键词;
从所述至少两个关键词中选取至少一个搜索词对;
针对各搜索词对,查找该搜索词对中的任一关键词匹配的应用,并根据该
搜索词对在查找到的应用与另一关键词之间建立推荐关系。
可选地,所述根据该搜索词对在查找到的应用与另一关键词之间建立推荐
关系之后,还包括:
在新的会话中,当接收到用户的搜索词时,根据所述推荐关系查找到搜索
词对应的应用作为待推荐应用;
将所述待推荐应用推荐给用户。
可选地,从所述至少两个关键词中选取至少一个搜索词对,包括:
计算两两关键词的相似度,以计算的相似度为依据,选取相似度满足预设
阈值条件的作为搜索词对。
可选地,所述计算两两关键词的相似度,包括:
针对各关键词,获取该关键词的属性信息;
利用该关键词的属性信息生成该关键词的属性向量;
计算两两关键词的属性向量的余弦值作为这两个关键词的相似度。
可选地,将所述待推荐应用推荐给用户,包括:
按照预设推荐策略对所述待推荐应用中的各应用进行排序;
将排序后的所述待推荐应用推荐给用户。
可选地,每个搜索词对是由第一关键词和第二关键词构成,所述第一关键
词与所述待推荐应用中的各应用存在推荐关系,所述第二关键词与所述待推荐
应用中的各应用匹配;
按照预设推荐策略对所述待推荐应用中的各应用进行排序,包括:
对于所述待推荐应用中的各应用,计算由第一关键词通过对应的、与该应
用匹配的第二关键词到达该应用的熵值;
根据所述各应用的熵值的大小,对所述各应用进行排序。
可选地,计算由第一关键词通过对应的、与该应用匹配的第二关键词到达
该应用的熵值,包括:
计算由第一关键词通过对应的、与该应用匹配的第二关键词到达该应用的
目标概率;
利用所述目标概率,计算由第一关键词通过对应的、与该应用匹配的第二
关键词到达该应用的熵值。
可选地,计算由第一关键词通过对应的、与该应用匹配的第二关键词到达
该应用的目标概率,包括:
获取第一关键词与对应的、与该应用匹配的第二关键词的属性向量的余弦
值;
计算该应用匹配的第二关键词与该应用的属性向量的余弦值;
利用属性向量的余弦值,计算所述目标概率。
可选地,根据所述各应用的熵值的大小,对所述各应用进行排序,包括:
根据所述各应用的熵值从大到小的顺序,将对应的应用由前到后进行排
序。
可选地,根据所述各应用的熵值的大小,对所述各应用进行排序,包括:
根据所述各应用的熵值的大小以及所述各应用的逆向文件频率IDF,对所
述各应用进行排序。
可选地,根据所述各应用的熵值的大小以及所述各应用的逆向文件频率
IDF,对所述各应用进行排序,包括:
计算所述各应用的熵值与IDF的乘积;
根据计算的所述乘积,对所述各应用进行排序。
可选地,根据计算的所述乘积,对所述各应用进行排序,包括:
根据计算的所述乘积从大到小的顺序,将对应的应用由前到后进行排序。
可选地,通过以下方式计算所述各应用的IDF:
统计所述待推荐应用中第二关键词的个数;
对于所述待推荐应用中的各应用,统计与该应用匹配的第二关键词的个
数;
利用所述待推荐应用中第二关键词的个数以及与该应用匹配的第二关键
词的个数,计算该应用的IDF。
可选地,利用所述待推荐应用中第二关键词的个数以及与该应用匹配的第
二关键词的个数,计算该应用的IDF,包括:
由所述待推荐应用中第二关键词的个数除以与该应用匹配的第二关键词
的个数,将得到的商取对数得到该应用的IDF。
依据本发明的另一方面,还提供了一种建立搜索词与应用数据推荐关系的
装置,包括:
提取模块,适于从用户的会话日志中提取至少两个关键词;
选取模块,适于从所述至少两个关键词中选取至少一个搜索词对;
推荐关系建立模块,适于针对各搜索词对,查找该搜索词对中的任一关键
词匹配的应用,并根据该搜索词对在查找到的应用与另一关键词之间建立推荐
关系。
可选地,在所述推荐关系建立模块根据该搜索词对在查找到的应用与另一
关键词之间建立推荐关系之后,还包括:
应用推荐模块,适于在新的会话中,当接收到用户的搜索词时,根据所述
推荐关系查找到搜索词对应的应用作为待推荐应用;将所述待推荐应用推荐给
用户。
可选地,所述选取模块还适于:
计算两两关键词的相似度,以计算的相似度为依据,选取相似度满足预设
阈值条件的作为搜索词对。
可选地,所述选取模块还适于:
针对各关键词,获取该关键词的属性信息;
利用该关键词的属性信息生成该关键词的属性向量;
计算两两关键词的属性向量的余弦值作为这两个关键词的相似度。
可选地,所述应用推荐模块还包括:
应用排序单元,适于按照预设推荐策略对所述待推荐应用中的各应用进行
排序;
应用推荐单元,适于将排序后的所述待推荐应用推荐给用户。
可选地,每个搜索词对是由第一关键词和第二关键词构成,所述第一关键
词与所述待推荐应用中的各应用存在推荐关系,所述第二关键词与所述待推荐
应用中的各应用匹配;
所述应用排序单元还适于:
对于所述待推荐应用中的各应用,计算由第一关键词通过对应的、与该应
用匹配的第二关键词到达该应用的熵值;
根据所述各应用的熵值的大小,对所述各应用进行排序。
可选地,所述应用排序单元还适于:
计算由第一关键词通过对应的、与该应用匹配的第二关键词到达该应用的
目标概率;
利用所述目标概率,计算由第一关键词通过对应的、与该应用匹配的第二
关键词到达该应用的熵值。
可选地,所述应用排序单元还适于:
获取第一关键词与对应的、与该应用匹配的第二关键词的属性向量的余弦
值;
计算该应用匹配的第二关键词与该应用的属性向量的余弦值;
利用属性向量的余弦值,计算所述目标概率。
可选地,所述应用排序单元还适于:
根据所述各应用的熵值从大到小的顺序,将对应的应用由前到后进行排
序。
可选地,所述应用排序单元还适于:
根据所述各应用的熵值的大小以及所述各应用的逆向文件频率IDF,对所
述各应用进行排序。
可选地,所述应用排序单元还适于:
计算所述各应用的熵值与IDF的乘积;
根据计算的所述乘积,对所述各应用进行排序。
可选地,所述应用排序单元还适于:
根据计算的所述乘积从大到小的顺序,将对应的应用由前到后进行排序。
可选地,所述应用排序单元还适于:
通过以下方式计算所述各应用的IDF:
统计所述待推荐应用中第二关键词的个数;
对于所述待推荐应用中的各应用,统计与该应用匹配的第二关键词的个
数;
利用所述待推荐应用中第二关键词的个数以及与该应用匹配的第二关键
词的个数,计算该应用的IDF。
可选地,所述应用排序单元还适于:
由所述待推荐应用中第二关键词的个数除以与该应用匹配的第二关键词
的个数,将得到的商取对数得到该应用的IDF。
本发明实施例中,从用户的会话日志中提取至少两个关键词,从至少两个
关键词中选取至少一个搜索词对,随后针对各搜索词对,查找该搜索词对中的
任一关键词匹配的应用,并根据该搜索词对在查找到的应用与另一关键词之间
建立推荐关系。由于关键词是从用户的会话日志中提取的,因而各关键词之间
具备某种关联关系或者在语义上相关,本发明实施例在搜索词对中查找一关键
词匹配的应用,并在查找到的应用与另一关键词之间建立推荐关系,从而在向
用户提供搜索服务时,能够根据建立的推荐关系,向用户推荐相应的应用。并
且,这些推荐的应用可以是与用户的搜索词用词不同但具备某种关联关系或者
在语义上相关的应用,从而解决了现有技术中用户无法得知应用的关键词,从
而搜索引擎获取不到关键词的信息,此时无法给用户推荐应用的问题,使得能
够推荐更多的应用,以使用户获得额外的帮助。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术
手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、
特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会
更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领
域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并
不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的
部件。在附图中:
图1示出了根据本发明一实施例的建立搜索词与应用数据推荐关系的方法
的流程图;
图2示出了根据本发明一实施例的推荐关系示意图;
图3示出了根据本发明一实施例的建立搜索词与应用数据推荐关系的装置
的结构示意图;
图4示出了根据本发明另一实施例的建立搜索词与应用数据推荐关系的装
置的结构示意图;以及
图5示出了根据本发明一实施例的应用推荐模块的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了
本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被
这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本
公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决上述技术问题,本发明实施例提供了一种建立搜索词与应用数据推
荐关系的方法,该方法可以应用在PC(PersonalComputer,个人电脑)、笔
记本电脑、手机、平板电脑、智能手表等设备上。图1示出了根据本发明一实
施例的建立搜索词与应用数据推荐关系的方法的流程图。参见图1,该方法至
少包括步骤S102至步骤S106。
步骤S102,从用户的会话日志中提取至少两个关键词。
步骤S104,从至少两个关键词中选取至少一个搜索词对。
步骤S106,针对各搜索词对,查找该搜索词对中的任一关键词匹配的应用,
并根据该搜索词对在查找到的应用与另一关键词之间建立推荐关系。
本发明实施例中,从用户的会话日志中提取至少两个关键词,从至少两个
关键词中选取至少一个搜索词对,随后针对各搜索词对,查找该搜索词对中的
任一关键词匹配的应用,并根据该搜索词对在查找到的应用与另一关键词之间
建立推荐关系。由于关键词是从用户的会话日志中提取的,因而各关键词之间
具备某种关联关系或者在语义上相关,本发明实施例在搜索词对中查找一关键
词匹配的应用,并在查找到的应用与另一关键词之间建立推荐关系,从而在向
用户提供搜索服务时,能够根据建立的推荐关系,向用户推荐相应的应用。并
且,这些推荐的应用可以是与用户的搜索词用词不同但具备某种关联关系或者
在语义上相关的应用,从而解决了现有技术中用户无法得知应用的关键词,从
而搜索引擎获取不到关键词的信息,此时无法给用户推荐应用的问题,使得能
够推荐更多的应用,以使用户获得额外的帮助。
上文步骤S102提及的会话(session),是指一个终端用户与交互系统进
行通信的时间间隔,通常指从注册进入系统到注销退出系统之间所经过的时
间。具体到Web(网络)中的session指的就是用户在浏览某个网站时,从进
入网站到浏览器关闭所经过的这段时间,也就是用户浏览这个网站所花费的时
间。因此从上述的定义中可以看到,session实际上是一个特定的时间概念。
上文步骤S104中从至少两个关键词中选取至少一个搜索词对,本发明实
施例提供了一种可选的方案,即计算两两关键词的相似度,以计算的相似度为
依据,选取相似度满足预设阈值条件的作为搜索词对,从而使得搜索词对中的
关键词具备某种关联关系或者在语义上相关。
进一步,在本发明的可选方案中,在计算两两关键词的相似度时,可以针
对各关键词,获取该关键词的属性信息,利用该关键词的属性信息生成该关键
词的属性向量,进而计算两两关键词的属性向量的余弦值作为这两个关键词的
相似度。例如,搜索词对中关键词A和B,它们的属性向量分别为向量A和向
量B,此时可以通过下面的公式计算两者的余弦值cos(θ)作为这两个关键词
的相似度。
其中,向量A、B分别为关键词A和B的属性向量,i=1、2…n为向量A
或向量B中属性的个数。
举例来说,从用户的会话日志中提取至少两个关键词为“小龙虾”、“向
日葵”、“豌豆射手”、“植物大战僵尸”等。此时,计算两两关键词的相似
度,以计算的相似度为依据,选取相似度满足预设阈值条件的作为搜索词对,
例如,选取包含植物语义的关键词作为搜索词对,即选取的搜索词对为“向日
葵、豌豆射手”、“向日葵、植物大战僵尸”、“豌豆射手、植物大战僵尸”。
在步骤S106根据该搜索词对在查找到的应用与另一关键词之间建立推荐
关系之后,可以向用户提供搜索服务。即,在新的会话中,当接收到用户的搜
索词时,根据推荐关系查找到搜索词对应的应用作为待推荐应用,将待推荐应
用推荐给用户。这些推荐的应用可以是与用户的搜索词用词不同但具备某种关
联关系或者在语义上相关的应用,从而解决了现有技术中用户无法得知应用的
关键词,从而搜索引擎获取不到关键词的信息,此时无法给用户推荐应用的问
题,使得能够推荐更多的应用,以使用户获得额外的帮助。
进一步,本发明实施例还可以按照预设推荐策略对待推荐应用中的各应用
进行排序,进而将排序后的待推荐应用推荐给用户,从而提升推荐效果。这里,
本发明实施例提供了多种推荐策略对待推荐应用中的各应用进行排序,例如基
于搜索词对中各关键词之间关系,利用熵的二级推荐方法,提升推荐效果。又
如,基于IDF(InverseDocumentFrequency,逆向文件频率)方法,避免超
热门应用被反复推荐的问题。
下面将针对上述两种方案分别进行详细介绍,首先在介绍这两种方案之
前,为了方便描述,不妨假设每个搜索词对是由第一关键词和第二关键词构成,
且第一关键词与待推荐应用中的各应用存在推荐关系,第二关键词与待推荐应
用中的各应用匹配。
方式一、基于搜索词对中各关键词之间关系,利用熵的二级推荐方法,提
升推荐效果。
在方式一中,对于待推荐应用中的各应用,计算由第一关键词通过对应的、
与该应用匹配的第二关键词到达该应用的熵值,进而根据各应用的熵值的大
小,对各应用进行排序。
进一步,可以计算由第一关键词通过对应的、与该应用匹配的第二关键词
到达该应用的目标概率,进而利用目标概率,计算由第一关键词通过对应的、
与该应用匹配的第二关键词到达该应用的熵值。在本发明一实施例中,可以通
过如下方式计算目标概率,即,获取第一关键词与对应的、与该应用匹配的第
二关键词的属性向量的余弦值,计算该应用匹配的第二关键词与该应用的属性
向量的余弦值,利用属性向量的余弦值,计算目标概率。
在信息论里面,熵是对不确定性的测量。但是在信息世界,熵越高,则能
传输越多的信息,熵越低,则意味着传输的信息越少。根据信息熵定义:
一个值域为{x1,…,xn}的随机变量X的熵值H定义为:
H(X)=E(I(X))
其中,E代表了期望函数,而I(X)是X的信息量(又称为信息本体)。I(X)
本身是个随机变量。如果P代表了X的概率质量函数,则熵的公式可以表示为:
H ( X ) = Σ i = 1 n P ( x i ) I ( x i ) = - Σ i = 1 n P ( x i ) log b P ( x i ) ]]>
在这里b是对数所使用的底,通常是2,自然常数e,或是10。
因而,本发明实施例中各应用的熵值可以表示为:
H ( q , a ) = Σ q i - P ( q , q i , a ) log b P ( q , q i , a ) ]]>
其中,P(q,qi,a)为从关键词q通过qi到达应用a的一条路径或目标概率。
举例来说,如图2所示,在三个搜索词对中,第一关键词均为Q,第二关
键词分别为Q1、Q2和Q3。待推荐应用App1至App5中,App1、App2和
App3与第二关键词Q1匹配,App1、App3和App4与第二关键词Q2匹配,
App2、App4和App5与第二关键词Q3匹配。在新的会话中,当接收到来自
用户的、包含关键词Q的搜索词时,根据推荐关系查找到搜索词对应的应用
App1至App5作为待推荐应用。
图2中,Q通过Q1到达App1以及Q通过Q2到达App1。其中,Q通过
Q1到达App1的目标概率为P(Q,Q1,App1)=|W1|×|V11|,其中,|W1|为Q
与Q1的属性向量的余弦值,|V11|为Q1与App1的属性向量的余弦值。此外,
|W1|也可以为Q与Q1的属性向量的余弦值的平方标准化后的权重,即
W1=cos(Q,Q1)^2。同样,|V11|也可以为Q1与App1的属性向量的余弦值
的平方标准化后的权重,即V11=cos(Q1,App1)^2。
Q通过Q2到达App1的目标概率为P(Q,Q2,App1)=|W2|×|V21|,其中,
|W2|为Q与Q2的属性向量的余弦值,|V21|为Q2与App1的属性向量的余
弦值。此外,|W2|也可以为Q与Q2的属性向量的余弦值的平方标准化后的
权重,即W2=cos(Q,Q2)^2。同样,|V21|也可以为Q2与App1的属性向量
的余弦值的平方标准化后的权重,即V21=cos(Q2,App1)^2。进而,可以通
过上述公式 H ( q , a ) = Σ q i - P ( q , q i , a ) log b P ( q , q i , a ) , ]]>计算App1的熵值。
同理,可以分别计算出App2、App3、App4、App5的熵值。随后,根据
各应用的熵值的大小,对各应用进行排序。例如,根据各应用的熵值从大到小
的顺序,将对应的应用由前到后进行排序。这里,应用的熵值越大,使得推荐
的APP越多样化。
方式二,基于IDF方法,或者在方式一的基础上结合IDF方法,对待推
荐的各应用进行排序,避免超热门应用被反复推荐的问题,下面主要介绍与熵
值结合的方式。
在方式二中,根据各应用的熵值的大小以及各应用的IDF,对各应用进行
排序。即,计算各应用的熵值与IDF的乘积,进而根据计算的乘积,对各应用
进行排序。例如,根据计算的乘积从大到小的顺序,将对应的应用由前到后进
行排序。
在本发明一实施例中,可以通过以下方式计算各应用的IDF,即,统计待
推荐应用中第二关键词的个数,对于待推荐应用中的各应用,统计与该应用匹
配的第二关键词的个数,随后利用待推荐应用中第二关键词的个数以及与该应
用匹配的第二关键词的个数,计算该应用的IDF。
进一步,由待推荐应用中第二关键词的个数除以与该应用匹配的第二关键
词的个数,将得到的商取对数得到该应用的IDF。
仍以图2为例进行说明,待推荐应用App1至App5,第二关键词为Q1、
Q2和Q3,个数为三。对于待推荐应用App1,与App1匹配的第二关键词为
Q1和Q2,个数为二,此时,可以计算App1的IDF。同理,可以分别计算出
App2、App3、App4、App5的IDF。
基于同一发明构思,本发明实施例还提供了一种建立搜索词与应用数据推
荐关系的装置。图3示出了根据本发明一实施例的建立搜索词与应用数据推荐
关系的装置的结构示意图。参见图3,该装置至少可以包括:提取模块310、
选取模块320以及推荐关系建立模块330。
现介绍本发明实施例的建立搜索词与应用数据推荐关系的装置的各组成
或器件的功能以及各部分间的连接关系:
提取模块310,适于从用户的会话日志中提取至少两个关键词;
选取模块320,与提取模块310相耦合,适于从至少两个关键词中选取至
少一个搜索词对;
推荐关系建立模块330,与选取模块320相耦合,适于针对各搜索词对,
查找该搜索词对中的任一关键词匹配的应用,并根据该搜索词对在查找到的应
用与另一关键词之间建立推荐关系。
在本发明一实施例中,如图4所示,上述图3展示的装置还可以包括:
应用推荐模块340,与推荐关系建立模块330相耦合,适于在推荐关系建
立模块330根据该搜索词对在查找到的应用与另一关键词之间建立推荐关系之
后,在新的会话中,当接收到用户的搜索词时,根据推荐关系查找到搜索词对
应的应用作为待推荐应用;将待推荐应用推荐给用户。
在本发明一实施例中,上述选取模块320还适于:
计算两两关键词的相似度,以计算的相似度为依据,选取相似度满足预设
阈值条件的作为搜索词对。
在本发明一实施例中,上述选取模块320还适于:
针对各关键词,获取该关键词的属性信息;
利用该关键词的属性信息生成该关键词的属性向量;
计算两两关键词的属性向量的余弦值作为这两个关键词的相似度。
在本发明一实施例中,如图5所示,上述应用推荐模块340还可以包括:
应用排序单元510,适于按照预设推荐策略对待推荐应用中的各应用进行
排序;
应用推荐单元520,与应用排序单元510相耦合,适于将排序后的待推荐
应用推荐给用户。
在本发明一实施例中,每个搜索词对是由第一关键词和第二关键词构成,
第一关键词与待推荐应用中的各应用存在推荐关系,第二关键词与待推荐应用
中的各应用匹配;
上述应用排序单元510还适于:
对于待推荐应用中的各应用,计算由第一关键词通过对应的、与该应用匹
配的第二关键词到达该应用的熵值;
根据各应用的熵值的大小,对各应用进行排序。
在本发明一实施例中,上述应用排序单元510还适于:
计算由第一关键词通过对应的、与该应用匹配的第二关键词到达该应用的
目标概率;
利用目标概率,计算由第一关键词通过对应的、与该应用匹配的第二关键
词到达该应用的熵值。
在本发明一实施例中,上述应用排序单元510还适于:
获取第一关键词与对应的、与该应用匹配的第二关键词的属性向量的余弦
值;
计算该应用匹配的第二关键词与该应用的属性向量的余弦值;
利用属性向量的余弦值,计算目标概率。
在本发明一实施例中,上述应用排序单元510还适于:
根据各应用的熵值从大到小的顺序,将对应的应用由前到后进行排序。
在本发明一实施例中,上述应用排序单元510还适于:
根据各应用的熵值的大小以及各应用的逆向文件频率IDF,对各应用进行
排序。
在本发明一实施例中,上述应用排序单元510还适于:
计算各应用的熵值与IDF的乘积;
根据计算的乘积,对各应用进行排序。
在本发明一实施例中,上述应用排序单元510还适于:
根据计算的乘积从大到小的顺序,将对应的应用由前到后进行排序。
在本发明一实施例中,上述应用排序单元510还适于:
通过以下方式计算各应用的IDF:
统计待推荐应用中第二关键词的个数;
对于待推荐应用中的各应用,统计与该应用匹配的第二关键词的个数;
利用待推荐应用中第二关键词的个数以及与该应用匹配的第二关键词的
个数,计算该应用的IDF。
在本发明一实施例中,上述应用排序单元510还适于:
由待推荐应用中第二关键词的个数除以与该应用匹配的第二关键词的个
数,将得到的商取对数得到该应用的IDF。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能
够达到如下有益效果:
本发明实施例中,从用户的会话日志中提取至少两个关键词,从至少两个
关键词中选取至少一个搜索词对,随后针对各搜索词对,查找该搜索词对中的
任一关键词匹配的应用,并根据该搜索词对在查找到的应用与另一关键词之间
建立推荐关系。由于关键词是从用户的会话日志中提取的,因而各关键词之间
具备某种关联关系或者在语义上相关,本发明实施例在搜索词对中查找一关键
词匹配的应用,并在查找到的应用与另一关键词之间建立推荐关系,从而在向
用户提供搜索服务时,能够根据建立的推荐关系,向用户推荐相应的应用。并
且,这些推荐的应用可以是与用户的搜索词用词不同但具备某种关联关系或者
在语义上相关的应用,从而解决了现有技术中用户无法得知应用的关键词,从
而搜索引擎获取不到关键词的信息,此时无法给用户推荐应用的问题,使得能
够推荐更多的应用,以使用户获得额外的帮助。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发
明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细
示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或
多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一
起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法
解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确
记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发
明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式
的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为
本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适
应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实
施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它
们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的
至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要
求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有
过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、
摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征
来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它
实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意
味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,
所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器
上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,
可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实
施例的建立搜索词与应用数据推荐关系的装置中的一些或者全部部件的一些
或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者
全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实
现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信
号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,
或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并
且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施
例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的
限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之
前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包
括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干
装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体
体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解
释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的
多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本
发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因
此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
本发明实施例还公开了:A1、一种建立搜索词与应用数据推荐关系的方法,
包括:
从用户的会话日志中提取至少两个关键词;
从所述至少两个关键词中选取至少一个搜索词对;
针对各搜索词对,查找该搜索词对中的任一关键词匹配的应用,并根据该
搜索词对在查找到的应用与另一关键词之间建立推荐关系。
A2、根据A1所述的方法,其中,所述根据该搜索词对在查找到的应用与
另一关键词之间建立推荐关系之后,还包括:
在新的会话中,当接收到用户的搜索词时,根据所述推荐关系查找到搜索
词对应的应用作为待推荐应用;
将所述待推荐应用推荐给用户。
A3、根据A1或A2所述的方法,其中,从所述至少两个关键词中选取至
少一个搜索词对,包括:
计算两两关键词的相似度,以计算的相似度为依据,选取相似度满足预设
阈值条件的作为搜索词对。
A4、根据A1-A3任一项所述的方法,其中,所述计算两两关键词的相似
度,包括:
针对各关键词,获取该关键词的属性信息;
利用该关键词的属性信息生成该关键词的属性向量;
计算两两关键词的属性向量的余弦值作为这两个关键词的相似度。
A5、根据A1-A4任一项所述的方法,其中,将所述待推荐应用推荐给用
户,包括:
按照预设推荐策略对所述待推荐应用中的各应用进行排序;
将排序后的所述待推荐应用推荐给用户。
A6、根据A1-A5任一项所述的方法,其中,
每个搜索词对是由第一关键词和第二关键词构成,所述第一关键词与所述
待推荐应用中的各应用存在推荐关系,所述第二关键词与所述待推荐应用中的
各应用匹配;
按照预设推荐策略对所述待推荐应用中的各应用进行排序,包括:
对于所述待推荐应用中的各应用,计算由第一关键词通过对应的、与该应
用匹配的第二关键词到达该应用的熵值;
根据所述各应用的熵值的大小,对所述各应用进行排序。
A7、根据A1-A6任一项所述的方法,其中,计算由第一关键词通过对应
的、与该应用匹配的第二关键词到达该应用的熵值,包括:
计算由第一关键词通过对应的、与该应用匹配的第二关键词到达该应用的
目标概率;
利用所述目标概率,计算由第一关键词通过对应的、与该应用匹配的第二
关键词到达该应用的熵值。
A8、根据A1-A7任一项所述的方法,其中,计算由第一关键词通过对应
的、与该应用匹配的第二关键词到达该应用的目标概率,包括:
获取第一关键词与对应的、与该应用匹配的第二关键词的属性向量的余弦
值;
计算该应用匹配的第二关键词与该应用的属性向量的余弦值;
利用属性向量的余弦值,计算所述目标概率。
A9、根据A1-A8任一项所述的方法,其中,根据所述各应用的熵值的大
小,对所述各应用进行排序,包括:
根据所述各应用的熵值从大到小的顺序,将对应的应用由前到后进行排
序。
A10、根据A1-A9任一项所述的方法,其中,根据所述各应用的熵值的大
小,对所述各应用进行排序,包括:
根据所述各应用的熵值的大小以及所述各应用的逆向文件频率IDF,对所
述各应用进行排序。
A11、根据A1-A10任一项所述的方法,其中,根据所述各应用的熵值的
大小以及所述各应用的逆向文件频率IDF,对所述各应用进行排序,包括:
计算所述各应用的熵值与IDF的乘积;
根据计算的所述乘积,对所述各应用进行排序。
A12、根据A1-A11任一项所述的方法,其中,根据计算的所述乘积,对
所述各应用进行排序,包括:
根据计算的所述乘积从大到小的顺序,将对应的应用由前到后进行排序。
A13、根据A1-A12任一项所述的方法,其中,通过以下方式计算所述各
应用的IDF:
统计所述待推荐应用中第二关键词的个数;
对于所述待推荐应用中的各应用,统计与该应用匹配的第二关键词的个
数;
利用所述待推荐应用中第二关键词的个数以及与该应用匹配的第二关键
词的个数,计算该应用的IDF。
A14、根据A1-A13任一项所述的方法,其中,利用所述待推荐应用中第
二关键词的个数以及与该应用匹配的第二关键词的个数,计算该应用的IDF,
包括:
由所述待推荐应用中第二关键词的个数除以与该应用匹配的第二关键词
的个数,将得到的商取对数得到该应用的IDF。
B15、一种建立搜索词与应用数据推荐关系的装置,包括:
提取模块,适于从用户的会话日志中提取至少两个关键词;
选取模块,适于从所述至少两个关键词中选取至少一个搜索词对;
推荐关系建立模块,适于针对各搜索词对,查找该搜索词对中的任一关键
词匹配的应用,并根据该搜索词对在查找到的应用与另一关键词之间建立推荐
关系。
B16、根据B15所述的装置,其中,在所述推荐关系建立模块根据该搜索
词对在查找到的应用与另一关键词之间建立推荐关系之后,还包括:
应用推荐模块,适于在新的会话中,当接收到用户的搜索词时,根据所述
推荐关系查找到搜索词对应的应用作为待推荐应用;将所述待推荐应用推荐给
用户。
B17、根据B15或B16所述的装置,其中,所述选取模块还适于:
计算两两关键词的相似度,以计算的相似度为依据,选取相似度满足预设
阈值条件的作为搜索词对。
B18、根据B15-B17任一项所述的装置,其中,所述选取模块还适于:
针对各关键词,获取该关键词的属性信息;
利用该关键词的属性信息生成该关键词的属性向量;
计算两两关键词的属性向量的余弦值作为这两个关键词的相似度。
B19、根据B15-B18任一项所述的装置,其中,所述应用推荐模块还包括:
应用排序单元,适于按照预设推荐策略对所述待推荐应用中的各应用进行
排序;
应用推荐单元,适于将排序后的所述待推荐应用推荐给用户。
B20、根据B15-B19任一项所述的装置,其中,
每个搜索词对是由第一关键词和第二关键词构成,所述第一关键词与所述
待推荐应用中的各应用存在推荐关系,所述第二关键词与所述待推荐应用中的
各应用匹配;
所述应用排序单元还适于:
对于所述待推荐应用中的各应用,计算由第一关键词通过对应的、与该应
用匹配的第二关键词到达该应用的熵值;
根据所述各应用的熵值的大小,对所述各应用进行排序。
B21、根据B15-B20任一项所述的装置,其中,所述应用排序单元还适于:
计算由第一关键词通过对应的、与该应用匹配的第二关键词到达该应用的
目标概率;
利用所述目标概率,计算由第一关键词通过对应的、与该应用匹配的第二
关键词到达该应用的熵值。
B22、根据B15-B21任一项所述的装置,其中,所述应用排序单元还适于:
获取第一关键词与对应的、与该应用匹配的第二关键词的属性向量的余弦
值;
计算该应用匹配的第二关键词与该应用的属性向量的余弦值;
利用属性向量的余弦值,计算所述目标概率。
B23、根据B15-B22任一项所述的装置,其中,所述应用排序单元还适于:
根据所述各应用的熵值从大到小的顺序,将对应的应用由前到后进行排
序。
B24、根据B15-B23任一项所述的装置,其中,所述应用排序单元还适于:
根据所述各应用的熵值的大小以及所述各应用的逆向文件频率IDF,对所
述各应用进行排序。
B25、根据B15-B24任一项所述的装置,其中,所述应用排序单元还适于:
计算所述各应用的熵值与IDF的乘积;
根据计算的所述乘积,对所述各应用进行排序。
B26、根据B15-B25任一项所述的装置,其中,所述应用排序单元还适于:
根据计算的所述乘积从大到小的顺序,将对应的应用由前到后进行排序。
B27、根据B15-B26任一项任一项所述的装置,其中,所述应用排序单元
还适于:
通过以下方式计算所述各应用的IDF:
统计所述待推荐应用中第二关键词的个数;
对于所述待推荐应用中的各应用,统计与该应用匹配的第二关键词的个
数;
利用所述待推荐应用中第二关键词的个数以及与该应用匹配的第二关键
词的个数,计算该应用的IDF。
B28、根据B15-B27任一项所述的装置,其中,所述应用排序单元还适于:
由所述待推荐应用中第二关键词的个数除以与该应用匹配的第二关键词
的个数,将得到的商取对数得到该应用的IDF。