推荐搜索方法和系统.pdf

上传人:a**** 文档编号:1497645 上传时间:2018-06-18 格式:PDF 页数:16 大小:5.11MB
返回 下载 相关 举报
摘要
申请专利号:

CN201210150086.7

申请日:

2012.05.15

公开号:

CN103425650A

公开日:

2013.12.04

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20120515|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

腾讯科技(深圳)有限公司

发明人:

孙国政; 陈洪亮; 肖战勇

地址:

518044 广东省深圳市福田区振兴路赛格科技园2栋东403室

优先权:

专利代理机构:

广州华进联合专利商标代理有限公司 44224

代理人:

何平;曾旻辉

PDF下载: PDF下载
内容摘要

本发明提供了一种推荐搜索方法和系统。所述方法包括:通过搜索条目的点击触发获取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录;查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度;根据所述相似度估算关键词对应的条目点击记录的评分;按照所述评分对所述当前客户端身份标识进行条目点击记录的推荐。所述系统包括:触发推荐模块、处理模块、估算模块以及结果推荐模块。采用本发明提高了搜索的准确性。

权利要求书

权利要求书
1.  一种推荐搜索方法,包括如下步骤:
通过搜索条目的点击触发获取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录;
查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度;
根据所述相似度估算关键词对应的条目点击记录的评分;
按照所述评分对所述当前客户端身份标识进行条目点击记录的推荐。

2.  根据权利要求1所述的推荐搜索方法,其特征在于,所述查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度的步骤之前还包括:
获取搜索结果中点击的搜索条目以及对应的当前客户端身份标识;
将关键词对应的当前客户端身份标识以及点击的搜索条目存储为历史身份标识以及条目点击记录,并建立所述关键词中历史身份标识与条目点击记录之间的对应关系。

3.  根据权利要求2所述的推荐搜索方法,其特征在于,所述查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度的步骤为:
在条目点击记录和历史身份标识之间的对应关系中查找与点击的搜索条目相同的条目点击记录,并得到对应的历史身份标识;
分别获取当前客户端身份标识对点击的搜索条目的关注度和历史身份标识对查找得到的条目点击记录的关注度;
根据所述关注度进行运算得到所述历史身份标识和当前客户端身份标识之间的相似度。

4.  根据权利要求3所述的推荐搜索方法,其特征在于,所述根据所述相似度估算关键词对应的条目点击记录的评分的步骤为:
根据所述历史身份标识对查找得到的条目点击记录的关注度以及所述当前客户端身份标识和历史身份标识之间的相似度计算得到与所述关注度对应的条目点击记录的评分。

5.  根据权利要求4所述的推荐搜索方法,其特征在于,所述获取历史身份标识对条目点击记录的关注度的步骤之后还包括:
判断所述关注度是否为常数,若是,则统计所述关键词对应的条目点击记录的点击频率;
根据所述点击频率调整所述历史身份标识的关注度。

6.  一种推荐搜索系统,其特征在于,包括:
触发推荐模块,用于通过搜索条目的点击触发获取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录;
处理模块,用于查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度;
估算模块,用于根据所述相似度估算关键词对应的条目点击记录的评分;
结果推荐模块,用于按照所述评分对所述当前客户端身份标识进行条目点击记录的推荐。

7.  根据权利要求6所述的推荐搜索系统,其特征在于,还包括:
点击获取模块,用于获取搜索结果中点击的搜索条目以及对应的当前客户端身份标识;
存储模块,用于将关键词对应的当前客户端身份标识以及点击的搜索条目存储为历史身份标识以及条目点击记录,并建立所述关键词中历史身份标识与条目点击记录之间的对应关系。

8.  根据权利要求7所述的推荐搜索系统,其特征在于,所述处理模块包括:
查找单元,用于在条目点击记录和历史身份标识之间的对应关系中查找与点击的搜索条目相同的条目点击记录,并得到对应的历史身份标识;
第一关注度获取单元,用于分别获取当前客户端身份标识对点击的搜索条 目的关注度和历史身份标识对查找得到的条目点击记录的关注度;
相似度运算单元,用于根据所述关注度进行运算得到所述历史身份标识和当前客户端身份标识之间的相似度。

9.  根据权利要求8所述的推荐搜索系统,其特征在于,所述估算模块包括还用于根据所述历史身份标识对查找得到的条目点击记录的关注度以及所述当前客户端身份标识和历史身份标识之间的相似度计算得到与所述关注度对应的条目点击记录的评分。

10.  根据权利要求9所述的推荐搜索系统,其特征在于,所述估算模块还包括:
判断单元,用于判断所述关注度是否为常数,若是,则统计所述关键词对应的条目点击记录的点击频率;
调整单元,用于根据所述点击频率调整所述历史身份标识的关注度。

说明书

说明书推荐搜索方法和系统
技术领域
本发明涉及互联网技术,特别是涉及一种推荐搜索方法和系统。
背景技术
随着互联网技术的发展,互联网用户对信息的获取需求越来越多,网络搜索技术占据了越来越重要的地位。网络搜索技术根据用户输入的关键词对互联网中的所有网络资源进行搜索,并向用户返回符合搜索意图的搜索结果。
然而,用户进行搜索的过程中,符合搜索意图的搜索结果常常会被返回的大量网络资源淹没,无法在短时间内从大量的网络资源中查找到符合搜索意图的搜索结果。因此,为提高搜索效率,通过输入的关键词以及搜索页面中搜索结果的点击提取用于描述用户兴趣或者搜索意图的关键词,并根据提取的关键词生成该用户的属性信息。
拥有属性信息的用户进行搜索时,任一关键词所生成的大量搜索结果将通过属性信息进行过滤,以得到与属性信息中的关键词相似度较高的结果,进而将这些过滤得到的结果优先向用户展示。但是,属性信息中的关键词未必与用户搜索意图相符,用户对通过属性信息过滤得到的结果不满意的情况时有发生,此时,还将继续提取关键词更新属性信息,因此,用户继续进行关键词搜索并通过属性信息过滤所得到的搜索结果也将是与搜索意图不相符的,这一对搜索结果过滤的方式缺乏准确性,无法满足用户的需求。
发明内容
基于此,有必要提供一种能提高搜索准确性的推荐搜索方法。
此外,还有必要提供一种能提高搜索准确性的推荐搜索系统。
一种推荐搜索方法,包括如下步骤:
通过搜索条目的点击触发获取当前客户端身份标识以及搜索所输入关键词 对应的条目点击记录;
查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度;
根据所述相似度估算关键词对应的条目点击记录的评分;
按照所述评分对所述当前客户端身份标识进行条目点击记录的推荐。
在其中一个实施例中,所述查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度的步骤之前还包括:
获取搜索结果中点击的搜索条目以及对应的当前客户端身份标识;
将关键词对应的当前客户端身份标识以及点击的搜索条目存储为历史身份标识以及条目点击记录,并建立所述关键词中历史身份标识与条目点击记录之间的对应关系。
在其中一个实施例中,所述查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度的步骤为:
在条目点击记录和历史身份标识之间的对应关系中查找与点击的搜索条目相同的条目点击记录,并得到对应的历史身份标识;
分别获取当前客户端身份标识对点击的搜索条目的关注度和历史身份标识对查找得到的条目点击记录的关注度;
根据所述关注度进行运算得到所述历史身份标识和当前客户端身份标识之间的相似度。
在其中一个实施例中,所述根据所述相似度估算关键词对应的条目点击记录的评分的步骤为:
根据所述历史身份标识对查找得到的条目点击记录的关注度以及所述当前客户端身份标识和历史身份标识之间的相似度计算得到与所述关注度对应的条目点击记录的评分。
在其中一个实施例中,所述获取历史身份标识对条目点击记录的关注度的 步骤之后还包括:
判断所述关注度是否为常数,若是,则统计所述关键词对应的条目点击记录的点击频率;
根据所述点击频率调整所述历史身份标识的关注度。
一种推荐搜索系统,包括:
触发推荐模块,用于通过搜索条目的点击触发获取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录;
处理模块,用于查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度;
估算模块,用于根据所述相似度估算关键词对应的条目点击记录的评分;
结果推荐模块,用于按照所述评分对所述当前客户端身份标识进行条目点击记录的推荐。
在其中一个实施例中,还包括:
点击获取模块,用于获取搜索结果中点击的搜索条目以及对应的当前客户端身份标识;
存储模块,用于将关键词对应的当前客户端身份标识以及点击的搜索条目存储为历史身份标识以及条目点击记录,并建立所述关键词中历史身份标识与条目点击记录之间的对应关系。
在其中一个实施例中,所述处理模块包括:
查找单元,用于在条目点击记录和历史身份标识之间的对应关系中查找与点击的搜索条目相同的条目点击记录,并得到对应的历史身份标识;
第一关注度获取单元,用于分别获取当前客户端身份标识对点击的搜索条目的关注度和历史身份标识对查找得到的条目点击记录的关注度;
相似度运算单元,用于根据所述关注度进行运算得到所述历史身份标识和当前客户端身份标识之间的相似度。
在其中一个实施例中,所述估算模块还根据所述历史身份标识对查找得到 的条目点击记录的关注度以及所述当前客户端身份标识和历史身份标识之间的相似度计算得到与所述关注度对应的条目点击记录的评分。
在其中一个实施例中,所述估算模块还包括:
判断单元,用于判断所述关注度是否为常数,若是,则统计所述关键词对应的条目点击记录的点击频率;
调整单元,用于根据所述点击频率调整所述历史身份标识的关注度。
上述推荐搜索方法和系统,在通过关键词进行搜索的过程中用户点击任一搜索条目触发获取当前客户端身份标识以及该关键词对应的条目点击记录,在关键词对应的条目点击记录中得到与点击的搜索条目相同的条目点击记录所对应的历史身份标识,计算历史身份标识和当前客户端身份标识之间的相似度,进而根据相似度估算出关键词的搜索条目对应的评分,按照评分进行推荐,在这一推荐搜索的过程中,通过相似度得到相似的用户,根据这些相似用户对搜索条目关注度进行推荐,提高了搜索的准确性,挖掘用户的意图,使返回的搜索条目更好地满足用户的需求。
附图说明
图1为一个实施例中推荐搜索方法的流程图;
图2为另一个实施例中推荐搜索方法的流程图;
图3为一个实施例中查找与点击的搜索条目相同的条目点击记录,根据条目点击记录得到对应的历史身份标识,并计算历史身份标识和当前客户端身份标识之间的相似度的方法流程图;
图4为一个实施例中根据相似度估算搜索条目的评分的方法流程图;
图5为一个实施例中推荐搜索系统的结构示意图;
图6为另一个实施例中推荐搜索系统的结构示意图;
图7为一个实施例中处理模块的结构示意图;
图8为一个实施例中估算模块的结构示意图。
具体实施方式
如图1所示,在一个实施例中,一种推荐搜索方法,包括如下步骤:
步骤S110,通过搜索条目的点击触发获取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录。
本实施例中,在搜索页面中通过用户输入的任一关键词得到一搜索结果,该搜索结果包括若干个搜索条目。用户点击任一搜索条目都将触发根据该搜索条目所进行的搜索结果推荐。例如,推荐的搜索结果包括与用户点击的搜索条目相关的一个或者多个搜索条目。此时将获取当前客户端身份标识以及后台存储的日志中关键词对应的条目点击记录,该关键词为当前搜索页面中用户输入的关键词。当前客户端身份标识用于对客户端进行唯一标识,可以是客户端产生的cookie或者客户端所在的网络地址,即客户端当前所对应的ip地址。
具体的,条目点击记录是搜索页面中对用户点击一搜索条目所产生的历史记录,用于记载一关键词所对应的搜索结果中用户曾点击的搜索条目,换而言之,条目点击记录中以网络链接的形式存储了用户曾点击的搜索条目,在后台存储的日志中条目点击记录是按照关键词进行分类存储的,即关键词是与相应的条目点击记录存在映射关系的。
在另一个实施例中,获取搜索页面中输入的关键词对应的一搜索条目点击记录之前,还将对关键词进行语义分析得到该关键词的同义词;相应的,在获取关键词对应的条目点击记录时,还将获取该同义词所对应的条目点击记录。本实施例中,将同义词所对应的条目点击记录纳入搜索过程中推荐条目点击记录的范围,丰富推荐的条目点击记录,明显提高了搜索推荐的多样性。
步骤S130,查找与点击的搜索条目相同的条目点击记录,根据条目点击记录得到对应的历史身份标识,并计算历史身份标识和当前客户端身份标识之间的相似度。
本实施例中,后台存储的日志中除了存储关键词与条目点击记录之间的对应关系之后,还存储了条目点击记录和历史身份标识之间的对应关系。其中,历史身份标识为曾产生该条目点击记录的当前客户端身份标识,一旦客户端中发生了某一搜索条目的点击之后,该搜索条目被存储为输入的关键词对应的条目点击记录,当前客户端身份标识也被存储为历史身份标识,并与条目点击记 录对应。
进一步的,在当前客户端的搜索页面中存在着多个搜索条目,以供用户点击并查看;在发生了搜索条目的点击之后,被点击的搜索条目和当前客户端身份标识分别被存储为条目点击记录和历史身份标识。因此,存储的每一条目点击记录对应了多个历史身份标识,而每一历史身份标识又对应了其它条目点击记录,也就是说,每一历史身份标识对应了多个条目点击记录。
根据点击的搜索条目得到拥有与点击的搜索条目相同的条目点击记录的历史身份标识,其中,该条目点击记录可以是一个或者多个。通过与当前客户端身份标识所对应点击的搜索条目相同的条目点击记录进行分析得到当前客户端身份标识和历史身份标识之间的相似度,该相似度可用于表征当前客户端身份标识和历史身份标识所对应的两个用户之间兴趣、喜好等方面的相似程度。具体的,相似度的计算可以通过余弦相似性、皮尔森系数、调整余弦相似性等方法实现。
如图2所示,在另一个实施例中,上述步骤S130之前还包括如下步骤:
步骤S210,获取搜索结果中点击的搜索条目以及对应的当前客户端身份标识。
本实施例中,在搜索页面的搜索结果中发生点击行为时获取点击的搜索条目,以及当前客户端身份标识。
步骤S230,将关键词对应的当前客户端身份标识以及点击的搜索条目存储为历史身份标识以及条目点击记录,并建立关键词中历史身份标识与条目点击记录之间的对应关系。
本实施例中,对任一搜索页面中发生的搜索条目点击行为均生成相应的日志进行存储。具体的,获取客户端的搜索页面中用户点击的搜索条目以及当前客户端身份标识之后将当前客户端身份标识以及点击的搜索条目按照关键词生成日志中的历史身份标识及条目点击记录,并将历史身份标识与条目点击记录进行关联,形成对应关系。
在日志中,每一关键词与多个条目点击记录相对应,而每一个条目点击记录也与多个历史身份标识存在着对应关系,用于表示进行了该关键词搜索的历 史身份标识以及点击的搜索条目。
如图3所示,在一个实施例中,上述步骤S130的具体过程为:
步骤S131,在条目点击记录和历史身份标识之间的对应关系中查找与点击的搜索条目相同的条目点击记录,并得到对应的历史身份标识。
本实施例中,根据当前客户端身份标识所对应的搜索条目在关键词中历史身份标识与条目点击记录之间的对应关系查找与搜索条目相同的历史身份标识。
在另一个实施例中,上述查找到与点击的搜索条目相同的条目点击记录对应的历史身份标识的步骤之后还包括:判断所述查找得到的历史身份标识对应的条目点击记录数量是否小于阈值,若是,则清除所述历史身份标识以及对应的条目点击记录,若否,则进入步骤S133。
本实施例中,若判断到查找得到的历史身份标识对应的条目点击记录数量小于阈值,则说明在对关键词进行搜索的过程中产生的点击行为过少,可忽略不计,以减少数据处理的数量。
步骤S133,分别获取当前客户端身份标识对点击的搜索条目的关注度和历史身份标识对查找得到的条目点击记录的关注度。
本实施例中,关注度是当前客户端身份标识或历史身份标识所对应的用户对某一条目点击记录的关注程度,在与当前客户端身份标识对应的点击的搜索条目或历史身份标识对应的条目点击都将对应了相应的关注度,例如,以条目点击记录为统计对象,计算出条目点击记录在关键词搜索过程中点击频次的加权和即为关注度。
步骤S135,根据关注度进行运算得到历史身份标识和当前客户端身份标识之间的相似度。
本实施例中,通过历史身份标识对与点击的搜索条目相同的条目点击记录的关注度和身份标识对该点击的搜索条目的关注度计算历史身份标识和当前客户端身份标识之间的相似度,详细计算过程如以下公式所示:
sim(a,u)=Σi∈Ira,iru,iΣi∈Ira,i2Σi∈Iru,i2]]>
其中,sim(a,u)为当前客户端身份标识a和历史身份标识u之间的相似度,i为当前客户端身份标识和历史身份标识之间与点击的搜索条目相同的条目点击记录,I为与点击的搜索条目相同的条目点击记录的集合,ra,i为当前客户端身份标识a对相同条目点击记录i的关注度,ru,i为当前客户端身份标识u对与点击的搜索条目相同的条目点击记录i的关注度。
步骤S150,根据相似度估算搜索条目的评分。
本实施例中,在得到当前客户端身份标识和历史身份标识之间的相似度之后,在历史身份标识对应的条目点击记录中通过相似度以及关注度,估算历史身份标识对应的条目点击记录的评分。在历史身份标识对应的条目点击记录中根据相似度以及对应的关注度。
如图4所示,在另一个实施例中,上述步骤S150之前还包括如下步骤:
步骤S301,判断关注度是否为常数,若是,则进入步骤S303,若否,则进入步骤S150。
本实施例中,关注度指的是历史身份标识对某一条目点击记录的关注度,在关注度为常数时该条目点击记录所对应的点击频率较高,为高频点击的条目点击记录,因此,需对为常数的关注度进行调整,以防止每一次推荐的条目点击记录都为这些高频点击的条目点击记录。
步骤S303,统计关键词对应的条目点击记录的点击频率。
本实施例中,在存储的关键词对应的条目点击记录中统计关注度为常数的历史身份标识对应的条目点击记录点击频率。
步骤S305,根据点击频率调整历史身份标识的关注度。
本实施例中,根据点击频率进行关注度的调整,以减小推荐的条目点击记录中高频点击的干扰。一实施例中,可将log2(1/p)作为调整后历史身份标识的关注度,其中,p为点击频率。另一个实施例中,历史身份标识的关注度可通过如下公式进行调整,即ru,i=α·1/p+(1-α)log2(1/p),其中,α为调整参数,优选为 0.28。
在一个实施例中,上述步骤S150的具体过程为:根据历史身份标识对查找得到的条目点击记录的关注度以及当前客户端身份标识和历史身份标识之间的相似度计算得到与关注度对应的条目点击记录的评分。
本实施例中,在历史身份标识对应的条目点击记录中根据关注度和相似度进行计算得到该条目点击记录的评分,详细计算过程如以下公式所示:
Pa,i=Σu∈Usim(a,u)×ru,iΣu∈Usim(a,u)]]>
其中,Pa,j为当前客户端身份标识a对与点击的搜索条目相同的条目点击记录i的评分,u为与身份标识a对应相同的条目点击记录的历史身份标识,U为历史身份标识u的集合。
通过关注度以及相似度估算条目点击记录的评分来实现搜索过程中的动态推荐,即使是首次在对某一关键词的搜索条目进行点击也能够进行准确地推荐。
步骤S170,按照评分对当前客户端身份标识进行条目点击记录的推荐。
本实施例中,根据评分的大小,按照从大到小的顺序提取预设数量的条目点击记录,向用户推荐提取的条目点击记录。
在另一个实施例中,上述推荐搜索方法还将获取当前进行关键词搜索的用户信息,根据用户信息以及估算得到的评分进行条目点击记录的筛选,进而推荐筛选得到的条目点击记录。本实施例中,将用户信息与估算得到的评分相结合进一步地提高了推荐的准确性。
如图5所示,在一个实施例中,一种推荐搜索系统,包括触发推荐模块110、处理模块130、估算模块150以及结果推荐模块170。
触发推荐模块110,用于通过搜索条目的点击触发获取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录。
本实施例中,在搜索页面中通过用户输入的任一关键词得到一搜索结果,该搜索结果包括若干个搜索条目。用户点击任一搜索条目都将触发根据该搜索条目所进行的搜索结果推荐。此时触发推荐模块110将获取当前客户端身份标 识以及后台存储的日志中关键词对应的条目点击记录,该关键词为当前搜索页面中用户输入的关键词。当前客户端身份标识用于对客户端进行唯一标识,可以是客户端产生的cookie或者客户端所在的网络地址,即客户端当前所对应的ip地址。
具体的,条目点击记录是搜索页面中对用户点击一搜索条目所产生的历史记录,用于记载一关键词所对应的搜索结果中用户曾点击的搜索条目,换而言之,条目点击记录中以网络链接的形式存储了用户曾点击的搜索条目。在后台存储的日志中条目点击记录是按照关键词进行分类存储的,即关键词是与相应的条目点击记录存在映射关系的。
在另一个实施例中,触发推荐模块110还将对关键词进行语义分析得到该关键词的同义词;相应的,在获取关键词对应的条目点击记录时,还将获取该同义词所对应的条目点击记录。本实施例中,将同义词所对应的条目点击记录纳入搜索过程中推荐条目点击记录的范围,丰富推荐的条目点击记录,明显提高了搜索推荐的多样性。
处理模块130,用于查找与点击的搜索条目相同的条目点击记录,根据条目点击记录得到对应的历史身份标识,并计算历史身份标识和当前客户端身份标识之间的相似度。
本实施例中,后台存储的日志中除了存储关键词与条目点击记录之间的对应关系之后,还存储了条目点击记录和历史身份标识之间的对应关系。其中,历史身份标识为曾产生该条目点击记录的当前客户端身份标识,一旦客户端中发生了某一搜索条目的点击之后,该搜索条目被存储为输入的关键词对应的条目点击记录,当前客户端身份标识也被存储为历史身份标识,并与条目点击记录对应。
进一步的,在当前客户端的搜索页面中存在着多个搜索条目,以供用户点击并查看;在发生了搜索条目的点击之后,被点击的搜索条目和当前客户端身份标识分别被存储为条目点击记录和历史身份标识。因此,存储的每一条目点击记录对应了多个历史身份标识,而每一历史身份标识又对应了其它条目点击记录,也就是说,每一历史身份标识对应了多个条目点击记录。
处理模块130根据点击的搜索条目得到拥有与点击的搜索条目相同的条目点击记录的历史身份标识,其中,该条目点击记录可以是一个或者多个。处理模块130通过与当前客户端身份标识所对应点击的搜索条目相同的条目点击记录进行分析得到当前客户端身份标识和历史身份标识之间的相似度,该相似度可用于表征当前客户端身份标识和历史身份标识所对应的两个用户之间兴趣、喜好等方面的相似程度。具体的,相似度的计算可以通过余弦相似性、皮尔森系数、调整余弦相似性等方法实现。
如图6所示,在另一个实施例中,上述推荐搜索系统还包括点击获取模块210以及存储模块230。
点击获取模块210,用于获取搜索结果中点击的搜索条目以及对应的当前客户端身份标识。
本实施例中,在搜索页面的搜索结果中发生点击行为时点击获取模块210获取点击的搜索条目,以及当前客户端身份标识。
存储模块230,用于将关键词对应的当前客户端身份标识以及点击的搜索条目存储为历史身份标识以及条目点击记录,并建立关键词中历史身份标识与条目点击记录之间的对应关系。
本实施例中,存储模块230对任一搜索页面中发生的搜索条目点击行为均生成相应的日志进行存储。具体的,存储模块230获取客户端的搜索页面中用户点击的搜索条目以及当前客户端身份标识之后将当前客户端身份标识以及点击的搜索条目按照关键词生成日志中的历史身份标识及条目点击记录,并将历史身份标识与条目点击记录进行关联,形成对应关系。该对应关系中历史身份标识和条目点击记录为一对多的关系。
在日志中,每一关键词与多个条目点击记录相对应,而每一个条目点击记录也与多个历史身份标识存在着对应关系,用于表示进行了该关键词搜索的历史身份标识以及点击的搜索条目。
如图7所示,在一个实施例中,上述处理模块130包括查找单元131、第一关注度获取单元133以及相似度运算单元135。
查找单元131,用于在条目点击记录和历史身份标识之间的对应关系中查找 与点击的搜索条目相同的条目点击记录,并得到对应的历史身份标识。
本实施例中,查找单元131根据当前客户端身份标识所对应的搜索条目在关键词中历史身份标识与条目点击记录之间的对应关系查找与搜索条目相同的历史身份标识。
在另一个实施例中,查找到与点击的搜索条目相同的条目点击记录对应的历史身份标识之后还需判断所述查找得到的历史身份标识对应的条目点击记录数量是否小于阈值,若是,则清除所述历史身份标识以及对应的条目点击记录,若否,则进入通知第一关注度获取单元133。
本实施例中,若判断到查找得到的历史身份标识对应的条目点击记录数量小于阈值,则说明在对关键词进行搜索的过程中产生的点击行为过少,可忽略不计,以减少数据处理的数量。
第一关注度获取单元133,用于分别当前客户端身份标识对点击的搜索条目的关注度和历史身份标识对查找得到的条目点击记录的关注度。
本实施例中,关注度是当前客户端身份标识或历史身份标识所对应的用户对某一条目点击记录的关注程度,在与当前客户端身份标识对应的点击的搜索条目或历史身份标识对应的条目点击都将对应了相应的关注度,例如,以条目点击记录为统计对象,计算出条目点击记录在关键词搜索过程中点击频次的加权和即为关注度。
相似度运算单元135,用于根据关注度进行运算得到历史身份标识和当前客户端身份标识之间的相似度。
本实施例中,相似度运算单元135通过历史身份标识对与点击的搜索条目相同的条目点击记录的关注度和当前客户端身份标识对该点击的搜索条目的关注度计算历史身份标识和当前客户端身份标识之间的相似度,详细计算过程如以下公式所示:
sim(a,u)=Σi∈Ira,iru,iΣi∈Ira,i2Σi∈Iru,i2]]>
其中,sim(a,u)为当前客户端身份标识a和历史身份标识u之间的相似度,i为 当前客户端身份标识和历史身份标识之间与点击的搜索条目相同的条目点击记录,I为与点击的搜索条目相同的条目点击记录的集合,ra,i为当前客户端身份标识a对相同条目点击记录i的关注度,ru,i为当前客户端身份标识u对与点击的搜索条目相同的条目点击记录i的关注度。
估算模块150,用于根据相似度估算关键词对应的条目点击记录的评分。
本实施例中,在得到当前客户端身份标识和历史身份标识之间的相似度之后,估算模块150在历史身份标识对应的条目点击记录中通过相似度以及关注度,估算历史身份标识对应的条目点击记录的评分。在历史身份标识对应的条目点击记录中根据相似度以及对应的关注度。
在一个实施例中,上述估算模块150还用于根据历史身份标识对查找得到的条目点击记录的关注度以及当前客户端身份标识和历史身份标识之间的相似度计算得到与关注度对应的条目点击记录的评分。
本实施例中,评分计算单元153在历史身份标识对应的条目点击记录中根据关注度和相似度进行计算得到该条目点击记录的评分,详细计算过程如以下公式所示:
Pa,i=Σu∈Usim(a,u)×ru,iΣu∈Usim(a,u)]]>
其中,Pa,j为当前客户端身份标识a对与点击的搜索条目相同的条目点击记录i的评分,u为与当前客户端身份标识a对应相同的条目点击记录的历史身份标识,U为历史身份标识u的集合。
通过关注度以及相似度估算条目点击记录的评分来实现搜索过程中的动态推荐,即使是首次在对某一关键词的搜索条目进行点击也能够进行准确地推荐。
如图8所示,在另一个实施例中,上述估算模块150包括判断单元155以及调整单元157。
判断单元155,用于判断关注度是否为常数,若是,则统计关键词对应的条目点击记录的点击频率。
本实施例中,关注度指的是历史身份标识对某一条目点击记录的关注度,在关注度为常数时该条目点击记录所对应的点击频率较高,为高频点击的条目 点击记录,因此,需判断单元155对为常数的关注度进行调整,在存储的关键词对应的条目点击记录中统计关注度为常数的历史身份标识对应的条目点击记录点击频率,以防止每一次推荐的条目点击记录都为这些高频点击的条目点击记录。
调整单元157,用于根据点击频率调整历史身份标识的关注度。
本实施例中,调整单元157根据点击频率进行关注度的调整,以减小推荐的条目点击记录中高频点击的干扰。一实施例中,调整单元157可将log2(1/p)作为调整后历史身份标识的关注度,其中,p为点击频率。另一个实施例中,历史身份标识的关注度可通过如下公式进行调整,即ru,i=α·1/p+(1-α)log2(1/p),其中,α为调整参数,优选为0.28。
结果推荐模块170,用于按照评分对当前客户端身份标识进行条目点击记录的推荐。
本实施例中,结果推荐模块170根据评分的大小,按照从大到小的顺序提取预设数量的条目点击记录,向用户推荐提取的条目点击记录。
在另一个实施例中,上述推荐搜索系统还将获取当前进行关键词搜索的用户信息,根据用户信息以及估算得到的评分进行条目点击记录的筛选,进而推荐筛选得到的条目点击记录。本实施例中,将用户信息与估算得到的评分相结合进一步地提高了推荐的准确性。
上述推荐搜索方法和系统,在通过关键词进行搜索的过程中用户点击任一搜索条目触发获取当前客户端身份标识以及该关键词对应的条目点击记录,在关键词对应的条目点击记录中得到与点击的搜索条目相同的条目点击记录所对应的历史身份标识,计算历史身份标识和当前客户端身份标识之间的相似度,进而根据相似度估算出关键词的搜索条目对应的评分,按照评分进行推荐,在这一推荐搜索的过程中,通过相似度得到相似的用户,根据这些相似用户对搜索条目关注度进行推荐,提高了搜索的准确性,挖掘用户的意图,使返回的搜索条目更好地满足用户的需求。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

推荐搜索方法和系统.pdf_第1页
第1页 / 共16页
推荐搜索方法和系统.pdf_第2页
第2页 / 共16页
推荐搜索方法和系统.pdf_第3页
第3页 / 共16页
点击查看更多>>
资源描述

《推荐搜索方法和系统.pdf》由会员分享,可在线阅读,更多相关《推荐搜索方法和系统.pdf(16页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103425650 A(43)申请公布日 2013.12.04CN103425650A*CN103425650A*(21)申请号 201210150086.7(22)申请日 2012.05.15G06F 17/30(2006.01)(71)申请人腾讯科技(深圳)有限公司地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室(72)发明人孙国政 陈洪亮 肖战勇(74)专利代理机构广州华进联合专利商标代理有限公司 44224代理人何平 曾旻辉(54) 发明名称推荐搜索方法和系统(57) 摘要本发明提供了一种推荐搜索方法和系统。所述方法包括:通过搜索条目的点击。

2、触发获取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录;查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度;根据所述相似度估算关键词对应的条目点击记录的评分;按照所述评分对所述当前客户端身份标识进行条目点击记录的推荐。所述系统包括:触发推荐模块、处理模块、估算模块以及结果推荐模块。采用本发明提高了搜索的准确性。(51)Int.Cl.权利要求书2页 说明书10页 附图3页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书10页 附图3页(10)申请公布号 CN 10342。

3、5650 ACN 103425650 A1/2页21.一种推荐搜索方法,包括如下步骤:通过搜索条目的点击触发获取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录;查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度;根据所述相似度估算关键词对应的条目点击记录的评分;按照所述评分对所述当前客户端身份标识进行条目点击记录的推荐。2.根据权利要求1所述的推荐搜索方法,其特征在于,所述查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识。

4、之间的相似度的步骤之前还包括:获取搜索结果中点击的搜索条目以及对应的当前客户端身份标识;将关键词对应的当前客户端身份标识以及点击的搜索条目存储为历史身份标识以及条目点击记录,并建立所述关键词中历史身份标识与条目点击记录之间的对应关系。3.根据权利要求2所述的推荐搜索方法,其特征在于,所述查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度的步骤为:在条目点击记录和历史身份标识之间的对应关系中查找与点击的搜索条目相同的条目点击记录,并得到对应的历史身份标识;分别获取当前客户端身份标识对点击的搜索条目的关注度和历。

5、史身份标识对查找得到的条目点击记录的关注度;根据所述关注度进行运算得到所述历史身份标识和当前客户端身份标识之间的相似度。4.根据权利要求3所述的推荐搜索方法,其特征在于,所述根据所述相似度估算关键词对应的条目点击记录的评分的步骤为:根据所述历史身份标识对查找得到的条目点击记录的关注度以及所述当前客户端身份标识和历史身份标识之间的相似度计算得到与所述关注度对应的条目点击记录的评分。5.根据权利要求4所述的推荐搜索方法,其特征在于,所述获取历史身份标识对条目点击记录的关注度的步骤之后还包括:判断所述关注度是否为常数,若是,则统计所述关键词对应的条目点击记录的点击频率;根据所述点击频率调整所述历史身。

6、份标识的关注度。6.一种推荐搜索系统,其特征在于,包括:触发推荐模块,用于通过搜索条目的点击触发获取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录;处理模块,用于查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度;估算模块,用于根据所述相似度估算关键词对应的条目点击记录的评分;结果推荐模块,用于按照所述评分对所述当前客户端身份标识进行条目点击记录的推权 利 要 求 书CN 103425650 A2/2页3荐。7.根据权利要求6所述的推荐搜索系统,其特征在于,还包括:点击获取模块,用于获取搜索结果中。

7、点击的搜索条目以及对应的当前客户端身份标识;存储模块,用于将关键词对应的当前客户端身份标识以及点击的搜索条目存储为历史身份标识以及条目点击记录,并建立所述关键词中历史身份标识与条目点击记录之间的对应关系。8.根据权利要求7所述的推荐搜索系统,其特征在于,所述处理模块包括:查找单元,用于在条目点击记录和历史身份标识之间的对应关系中查找与点击的搜索条目相同的条目点击记录,并得到对应的历史身份标识;第一关注度获取单元,用于分别获取当前客户端身份标识对点击的搜索条目的关注度和历史身份标识对查找得到的条目点击记录的关注度;相似度运算单元,用于根据所述关注度进行运算得到所述历史身份标识和当前客户端身份标识。

8、之间的相似度。9.根据权利要求8所述的推荐搜索系统,其特征在于,所述估算模块包括还用于根据所述历史身份标识对查找得到的条目点击记录的关注度以及所述当前客户端身份标识和历史身份标识之间的相似度计算得到与所述关注度对应的条目点击记录的评分。10.根据权利要求9所述的推荐搜索系统,其特征在于,所述估算模块还包括:判断单元,用于判断所述关注度是否为常数,若是,则统计所述关键词对应的条目点击记录的点击频率;调整单元,用于根据所述点击频率调整所述历史身份标识的关注度。权 利 要 求 书CN 103425650 A1/10页4推荐搜索方法和系统技术领域0001 本发明涉及互联网技术,特别是涉及一种推荐搜索方。

9、法和系统。背景技术0002 随着互联网技术的发展,互联网用户对信息的获取需求越来越多,网络搜索技术占据了越来越重要的地位。网络搜索技术根据用户输入的关键词对互联网中的所有网络资源进行搜索,并向用户返回符合搜索意图的搜索结果。0003 然而,用户进行搜索的过程中,符合搜索意图的搜索结果常常会被返回的大量网络资源淹没,无法在短时间内从大量的网络资源中查找到符合搜索意图的搜索结果。因此,为提高搜索效率,通过输入的关键词以及搜索页面中搜索结果的点击提取用于描述用户兴趣或者搜索意图的关键词,并根据提取的关键词生成该用户的属性信息。0004 拥有属性信息的用户进行搜索时,任一关键词所生成的大量搜索结果将通。

10、过属性信息进行过滤,以得到与属性信息中的关键词相似度较高的结果,进而将这些过滤得到的结果优先向用户展示。但是,属性信息中的关键词未必与用户搜索意图相符,用户对通过属性信息过滤得到的结果不满意的情况时有发生,此时,还将继续提取关键词更新属性信息,因此,用户继续进行关键词搜索并通过属性信息过滤所得到的搜索结果也将是与搜索意图不相符的,这一对搜索结果过滤的方式缺乏准确性,无法满足用户的需求。发明内容0005 基于此,有必要提供一种能提高搜索准确性的推荐搜索方法。0006 此外,还有必要提供一种能提高搜索准确性的推荐搜索系统。0007 一种推荐搜索方法,包括如下步骤:0008 通过搜索条目的点击触发获。

11、取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录;0009 查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度;0010 根据所述相似度估算关键词对应的条目点击记录的评分;0011 按照所述评分对所述当前客户端身份标识进行条目点击记录的推荐。0012 在其中一个实施例中,所述查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度的步骤之前还包括:0013 获取搜索结果中点击的搜索条目以及对应的当前客户端身份标识;0。

12、014 将关键词对应的当前客户端身份标识以及点击的搜索条目存储为历史身份标识以及条目点击记录,并建立所述关键词中历史身份标识与条目点击记录之间的对应关系。0015 在其中一个实施例中,所述查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标说 明 书CN 103425650 A2/10页5识之间的相似度的步骤为:0016 在条目点击记录和历史身份标识之间的对应关系中查找与点击的搜索条目相同的条目点击记录,并得到对应的历史身份标识;0017 分别获取当前客户端身份标识对点击的搜索条目的关注度和历史身份标识对查找得到的条目点击。

13、记录的关注度;0018 根据所述关注度进行运算得到所述历史身份标识和当前客户端身份标识之间的相似度。0019 在其中一个实施例中,所述根据所述相似度估算关键词对应的条目点击记录的评分的步骤为:0020 根据所述历史身份标识对查找得到的条目点击记录的关注度以及所述当前客户端身份标识和历史身份标识之间的相似度计算得到与所述关注度对应的条目点击记录的评分。0021 在其中一个实施例中,所述获取历史身份标识对条目点击记录的关注度的步骤之后还包括:0022 判断所述关注度是否为常数,若是,则统计所述关键词对应的条目点击记录的点击频率;0023 根据所述点击频率调整所述历史身份标识的关注度。0024 一种。

14、推荐搜索系统,包括:0025 触发推荐模块,用于通过搜索条目的点击触发获取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录;0026 处理模块,用于查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度;0027 估算模块,用于根据所述相似度估算关键词对应的条目点击记录的评分;0028 结果推荐模块,用于按照所述评分对所述当前客户端身份标识进行条目点击记录的推荐。0029 在其中一个实施例中,还包括:0030 点击获取模块,用于获取搜索结果中点击的搜索条目以及对应的当前客户端身份标识;0031 存储模块。

15、,用于将关键词对应的当前客户端身份标识以及点击的搜索条目存储为历史身份标识以及条目点击记录,并建立所述关键词中历史身份标识与条目点击记录之间的对应关系。0032 在其中一个实施例中,所述处理模块包括:0033 查找单元,用于在条目点击记录和历史身份标识之间的对应关系中查找与点击的搜索条目相同的条目点击记录,并得到对应的历史身份标识;0034 第一关注度获取单元,用于分别获取当前客户端身份标识对点击的搜索条目的关注度和历史身份标识对查找得到的条目点击记录的关注度;0035 相似度运算单元,用于根据所述关注度进行运算得到所述历史身份标识和当前客户端身份标识之间的相似度。说 明 书CN 103425。

16、650 A3/10页60036 在其中一个实施例中,所述估算模块还根据所述历史身份标识对查找得到的条目点击记录的关注度以及所述当前客户端身份标识和历史身份标识之间的相似度计算得到与所述关注度对应的条目点击记录的评分。0037 在其中一个实施例中,所述估算模块还包括:0038 判断单元,用于判断所述关注度是否为常数,若是,则统计所述关键词对应的条目点击记录的点击频率;0039 调整单元,用于根据所述点击频率调整所述历史身份标识的关注度。0040 上述推荐搜索方法和系统,在通过关键词进行搜索的过程中用户点击任一搜索条目触发获取当前客户端身份标识以及该关键词对应的条目点击记录,在关键词对应的条目点击。

17、记录中得到与点击的搜索条目相同的条目点击记录所对应的历史身份标识,计算历史身份标识和当前客户端身份标识之间的相似度,进而根据相似度估算出关键词的搜索条目对应的评分,按照评分进行推荐,在这一推荐搜索的过程中,通过相似度得到相似的用户,根据这些相似用户对搜索条目关注度进行推荐,提高了搜索的准确性,挖掘用户的意图,使返回的搜索条目更好地满足用户的需求。附图说明0041 图1为一个实施例中推荐搜索方法的流程图;0042 图2为另一个实施例中推荐搜索方法的流程图;0043 图3为一个实施例中查找与点击的搜索条目相同的条目点击记录,根据条目点击记录得到对应的历史身份标识,并计算历史身份标识和当前客户端身份。

18、标识之间的相似度的方法流程图;0044 图4为一个实施例中根据相似度估算搜索条目的评分的方法流程图;0045 图5为一个实施例中推荐搜索系统的结构示意图;0046 图6为另一个实施例中推荐搜索系统的结构示意图;0047 图7为一个实施例中处理模块的结构示意图;0048 图8为一个实施例中估算模块的结构示意图。具体实施方式0049 如图1所示,在一个实施例中,一种推荐搜索方法,包括如下步骤:0050 步骤S110,通过搜索条目的点击触发获取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录。0051 本实施例中,在搜索页面中通过用户输入的任一关键词得到一搜索结果,该搜索结果包括若干个搜索条。

19、目。用户点击任一搜索条目都将触发根据该搜索条目所进行的搜索结果推荐。例如,推荐的搜索结果包括与用户点击的搜索条目相关的一个或者多个搜索条目。此时将获取当前客户端身份标识以及后台存储的日志中关键词对应的条目点击记录,该关键词为当前搜索页面中用户输入的关键词。当前客户端身份标识用于对客户端进行唯一标识,可以是客户端产生的cookie或者客户端所在的网络地址,即客户端当前所对应的ip地址。0052 具体的,条目点击记录是搜索页面中对用户点击一搜索条目所产生的历史记录,说 明 书CN 103425650 A4/10页7用于记载一关键词所对应的搜索结果中用户曾点击的搜索条目,换而言之,条目点击记录中以网。

20、络链接的形式存储了用户曾点击的搜索条目,在后台存储的日志中条目点击记录是按照关键词进行分类存储的,即关键词是与相应的条目点击记录存在映射关系的。0053 在另一个实施例中,获取搜索页面中输入的关键词对应的一搜索条目点击记录之前,还将对关键词进行语义分析得到该关键词的同义词;相应的,在获取关键词对应的条目点击记录时,还将获取该同义词所对应的条目点击记录。本实施例中,将同义词所对应的条目点击记录纳入搜索过程中推荐条目点击记录的范围,丰富推荐的条目点击记录,明显提高了搜索推荐的多样性。0054 步骤S130,查找与点击的搜索条目相同的条目点击记录,根据条目点击记录得到对应的历史身份标识,并计算历史身。

21、份标识和当前客户端身份标识之间的相似度。0055 本实施例中,后台存储的日志中除了存储关键词与条目点击记录之间的对应关系之后,还存储了条目点击记录和历史身份标识之间的对应关系。其中,历史身份标识为曾产生该条目点击记录的当前客户端身份标识,一旦客户端中发生了某一搜索条目的点击之后,该搜索条目被存储为输入的关键词对应的条目点击记录,当前客户端身份标识也被存储为历史身份标识,并与条目点击记录对应。0056 进一步的,在当前客户端的搜索页面中存在着多个搜索条目,以供用户点击并查看;在发生了搜索条目的点击之后,被点击的搜索条目和当前客户端身份标识分别被存储为条目点击记录和历史身份标识。因此,存储的每一条。

22、目点击记录对应了多个历史身份标识,而每一历史身份标识又对应了其它条目点击记录,也就是说,每一历史身份标识对应了多个条目点击记录。0057 根据点击的搜索条目得到拥有与点击的搜索条目相同的条目点击记录的历史身份标识,其中,该条目点击记录可以是一个或者多个。通过与当前客户端身份标识所对应点击的搜索条目相同的条目点击记录进行分析得到当前客户端身份标识和历史身份标识之间的相似度,该相似度可用于表征当前客户端身份标识和历史身份标识所对应的两个用户之间兴趣、喜好等方面的相似程度。具体的,相似度的计算可以通过余弦相似性、皮尔森系数、调整余弦相似性等方法实现。0058 如图2所示,在另一个实施例中,上述步骤S。

23、130之前还包括如下步骤:0059 步骤S210,获取搜索结果中点击的搜索条目以及对应的当前客户端身份标识。0060 本实施例中,在搜索页面的搜索结果中发生点击行为时获取点击的搜索条目,以及当前客户端身份标识。0061 步骤S230,将关键词对应的当前客户端身份标识以及点击的搜索条目存储为历史身份标识以及条目点击记录,并建立关键词中历史身份标识与条目点击记录之间的对应关系。0062 本实施例中,对任一搜索页面中发生的搜索条目点击行为均生成相应的日志进行存储。具体的,获取客户端的搜索页面中用户点击的搜索条目以及当前客户端身份标识之后将当前客户端身份标识以及点击的搜索条目按照关键词生成日志中的历史。

24、身份标识及条目点击记录,并将历史身份标识与条目点击记录进行关联,形成对应关系。0063 在日志中,每一关键词与多个条目点击记录相对应,而每一个条目点击记录也与多个历史身份标识存在着对应关系,用于表示进行了该关键词搜索的历史身份标识以及点说 明 书CN 103425650 A5/10页8击的搜索条目。0064 如图3所示,在一个实施例中,上述步骤S130的具体过程为:0065 步骤S131,在条目点击记录和历史身份标识之间的对应关系中查找与点击的搜索条目相同的条目点击记录,并得到对应的历史身份标识。0066 本实施例中,根据当前客户端身份标识所对应的搜索条目在关键词中历史身份标识与条目点击记录之。

25、间的对应关系查找与搜索条目相同的历史身份标识。0067 在另一个实施例中,上述查找到与点击的搜索条目相同的条目点击记录对应的历史身份标识的步骤之后还包括:判断所述查找得到的历史身份标识对应的条目点击记录数量是否小于阈值,若是,则清除所述历史身份标识以及对应的条目点击记录,若否,则进入步骤S133。0068 本实施例中,若判断到查找得到的历史身份标识对应的条目点击记录数量小于阈值,则说明在对关键词进行搜索的过程中产生的点击行为过少,可忽略不计,以减少数据处理的数量。0069 步骤S133,分别获取当前客户端身份标识对点击的搜索条目的关注度和历史身份标识对查找得到的条目点击记录的关注度。0070 。

26、本实施例中,关注度是当前客户端身份标识或历史身份标识所对应的用户对某一条目点击记录的关注程度,在与当前客户端身份标识对应的点击的搜索条目或历史身份标识对应的条目点击都将对应了相应的关注度,例如,以条目点击记录为统计对象,计算出条目点击记录在关键词搜索过程中点击频次的加权和即为关注度。0071 步骤S135,根据关注度进行运算得到历史身份标识和当前客户端身份标识之间的相似度。0072 本实施例中,通过历史身份标识对与点击的搜索条目相同的条目点击记录的关注度和身份标识对该点击的搜索条目的关注度计算历史身份标识和当前客户端身份标识之间的相似度,详细计算过程如以下公式所示:0073 0074 其中,s。

27、im(a,u)为当前客户端身份标识a和历史身份标识u之间的相似度,i为当前客户端身份标识和历史身份标识之间与点击的搜索条目相同的条目点击记录,I为与点击的搜索条目相同的条目点击记录的集合,ra,i为当前客户端身份标识a对相同条目点击记录i的关注度,ru,i为当前客户端身份标识u对与点击的搜索条目相同的条目点击记录i的关注度。0075 步骤S150,根据相似度估算搜索条目的评分。0076 本实施例中,在得到当前客户端身份标识和历史身份标识之间的相似度之后,在历史身份标识对应的条目点击记录中通过相似度以及关注度,估算历史身份标识对应的条目点击记录的评分。在历史身份标识对应的条目点击记录中根据相似度。

28、以及对应的关注度。0077 如图4所示,在另一个实施例中,上述步骤S150之前还包括如下步骤:0078 步骤S301,判断关注度是否为常数,若是,则进入步骤S303,若否,则进入步骤说 明 书CN 103425650 A6/10页9S150。0079 本实施例中,关注度指的是历史身份标识对某一条目点击记录的关注度,在关注度为常数时该条目点击记录所对应的点击频率较高,为高频点击的条目点击记录,因此,需对为常数的关注度进行调整,以防止每一次推荐的条目点击记录都为这些高频点击的条目点击记录。0080 步骤S303,统计关键词对应的条目点击记录的点击频率。0081 本实施例中,在存储的关键词对应的条目。

29、点击记录中统计关注度为常数的历史身份标识对应的条目点击记录点击频率。0082 步骤S305,根据点击频率调整历史身份标识的关注度。0083 本实施例中,根据点击频率进行关注度的调整,以减小推荐的条目点击记录中高频点击的干扰。一实施例中,可将log2(1/p)作为调整后历史身份标识的关注度,其中,p为点击频率。另一个实施例中,历史身份标识的关注度可通过如下公式进行调整,即ru,i1/p+(1-)log2(1/p),其中,为调整参数,优选为0.28。0084 在一个实施例中,上述步骤S150的具体过程为:根据历史身份标识对查找得到的条目点击记录的关注度以及当前客户端身份标识和历史身份标识之间的相似。

30、度计算得到与关注度对应的条目点击记录的评分。0085 本实施例中,在历史身份标识对应的条目点击记录中根据关注度和相似度进行计算得到该条目点击记录的评分,详细计算过程如以下公式所示:0086 0087 其中,Pa,j为当前客户端身份标识a对与点击的搜索条目相同的条目点击记录i的评分,u为与身份标识a对应相同的条目点击记录的历史身份标识,U为历史身份标识u的集合。0088 通过关注度以及相似度估算条目点击记录的评分来实现搜索过程中的动态推荐,即使是首次在对某一关键词的搜索条目进行点击也能够进行准确地推荐。0089 步骤S170,按照评分对当前客户端身份标识进行条目点击记录的推荐。0090 本实施例。

31、中,根据评分的大小,按照从大到小的顺序提取预设数量的条目点击记录,向用户推荐提取的条目点击记录。0091 在另一个实施例中,上述推荐搜索方法还将获取当前进行关键词搜索的用户信息,根据用户信息以及估算得到的评分进行条目点击记录的筛选,进而推荐筛选得到的条目点击记录。本实施例中,将用户信息与估算得到的评分相结合进一步地提高了推荐的准确性。0092 如图5所示,在一个实施例中,一种推荐搜索系统,包括触发推荐模块110、处理模块130、估算模块150以及结果推荐模块170。0093 触发推荐模块110,用于通过搜索条目的点击触发获取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录。0094 本。

32、实施例中,在搜索页面中通过用户输入的任一关键词得到一搜索结果,该搜索结果包括若干个搜索条目。用户点击任一搜索条目都将触发根据该搜索条目所进行的搜索结果推荐。此时触发推荐模块110将获取当前客户端身份标识以及后台存储的日志中关键说 明 书CN 103425650 A7/10页10词对应的条目点击记录,该关键词为当前搜索页面中用户输入的关键词。当前客户端身份标识用于对客户端进行唯一标识,可以是客户端产生的cookie或者客户端所在的网络地址,即客户端当前所对应的ip地址。0095 具体的,条目点击记录是搜索页面中对用户点击一搜索条目所产生的历史记录,用于记载一关键词所对应的搜索结果中用户曾点击的搜。

33、索条目,换而言之,条目点击记录中以网络链接的形式存储了用户曾点击的搜索条目。在后台存储的日志中条目点击记录是按照关键词进行分类存储的,即关键词是与相应的条目点击记录存在映射关系的。0096 在另一个实施例中,触发推荐模块110还将对关键词进行语义分析得到该关键词的同义词;相应的,在获取关键词对应的条目点击记录时,还将获取该同义词所对应的条目点击记录。本实施例中,将同义词所对应的条目点击记录纳入搜索过程中推荐条目点击记录的范围,丰富推荐的条目点击记录,明显提高了搜索推荐的多样性。0097 处理模块130,用于查找与点击的搜索条目相同的条目点击记录,根据条目点击记录得到对应的历史身份标识,并计算历。

34、史身份标识和当前客户端身份标识之间的相似度。0098 本实施例中,后台存储的日志中除了存储关键词与条目点击记录之间的对应关系之后,还存储了条目点击记录和历史身份标识之间的对应关系。其中,历史身份标识为曾产生该条目点击记录的当前客户端身份标识,一旦客户端中发生了某一搜索条目的点击之后,该搜索条目被存储为输入的关键词对应的条目点击记录,当前客户端身份标识也被存储为历史身份标识,并与条目点击记录对应。0099 进一步的,在当前客户端的搜索页面中存在着多个搜索条目,以供用户点击并查看;在发生了搜索条目的点击之后,被点击的搜索条目和当前客户端身份标识分别被存储为条目点击记录和历史身份标识。因此,存储的每。

35、一条目点击记录对应了多个历史身份标识,而每一历史身份标识又对应了其它条目点击记录,也就是说,每一历史身份标识对应了多个条目点击记录。0100 处理模块130根据点击的搜索条目得到拥有与点击的搜索条目相同的条目点击记录的历史身份标识,其中,该条目点击记录可以是一个或者多个。处理模块130通过与当前客户端身份标识所对应点击的搜索条目相同的条目点击记录进行分析得到当前客户端身份标识和历史身份标识之间的相似度,该相似度可用于表征当前客户端身份标识和历史身份标识所对应的两个用户之间兴趣、喜好等方面的相似程度。具体的,相似度的计算可以通过余弦相似性、皮尔森系数、调整余弦相似性等方法实现。0101 如图6所示,在另一个实施例中,上述推荐搜索系统还包括点击获取模块210以及存储模块230。0102 点击获取模块210,用于获取搜索结果中点击的搜索条目以及对应的当前客户端身份标识。0103 本实施例中,在搜索页面的搜索结果中发生点击行为时点击获取模块210获取点击的搜索条目,以及当前客户端身份标识。0104 存储模块230,用于将关键词对应的当前客户端身份标识以及点击的搜索条目存储为历史身份标识以及条目点击记录,并建立关键词中历史身份标识与条目点击记录之间的对应关系。0105 本实施例中,存储模块230对任一搜索页面中发生的搜索条目点击行为均生成相说 明 书CN 103425650 A10。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1