一种社交搜索的方法和装置.pdf

上传人:b*** 文档编号:1569282 上传时间:2018-06-25 格式:PDF 页数:10 大小:406.93KB
返回 下载 相关 举报
摘要
申请专利号:

CN201210041260.4

申请日:

2012.02.22

公开号:

CN103123641A

公开日:

2013.05.29

当前法律状态:

终止

有效性:

无权

法律详情:

专利权的视为放弃IPC(主分类):G06F 17/30放弃生效日:20170822|||文件的公告送达IPC(主分类):G06F 17/30收件人:深圳市谷古科技有限公司文件名称:办理登记手续通知书|||实质审查的生效IPC(主分类):G06F 17/30申请日:20120222|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

深圳市谷古科技有限公司

发明人:

黄炯炫

地址:

518000 广东省深圳市南山区蛇口区网谷数码大厦A座401

优先权:

专利代理机构:

代理人:

PDF下载: PDF下载
内容摘要

本发明公开了一种社交搜索方法,包括:S1.抓取搜索用户的信息并加以存储;S2.解析存储的所述的搜索用户信息,所述的搜索用户信息包括搜索关键字;S3.判断所述的关键字是否属于预设的类别,S4.将所述的搜索用户信息聚合于所述预设的类别中;S5.将所述的搜索用户信息保存于数据库中。本发明还公开了一种社交搜索装置。实施本发明的社交搜索方法及装置通过搜索分析用户属性从而延伸出社交的模式,来提高用户发掘数据的效率,给用户提高更加绿色、安全、高效的搜索服务;搜索更加具备人性化,提高用户体验。

权利要求书

权利要求书一种社交搜索的方法,其特征在于,包括:
S1.抓取搜索用户的信息并加以存储;
S2.解析存储的所述的搜索用户信息,所述的搜索用户信息包括搜索关键字;
S3.判断所述的关键字是否属于预设的类别,如果是,进入步骤S4,如果否,进入步骤S5;
S4.将所述的搜索用户信息聚合于所述预设的类别中;
S5.将所述的搜索用户信息保存于数据库中。
根据权利要求1所述的社交搜索的方法,其特征在于,在步骤S4后还包括步骤S41,推荐聚合于所述的预设类别中的其它用户给所述的搜索用户,以建立联系并进行互动。
根据权利要求1或2任一项所述的社交搜索的方法,其特征在于,所述的存储的用户信息包括存储于客户端或服务端的存储用户信息。
根据权利要求1或2任一项所述的社交搜索的方法,其特征在于,所述的搜索用户信息还包括搜索后对搜索结果的多个点击率、浏览率、停留时间。
根据权利要求4所述的社交搜索的方法,其特征在于,所述的搜索结果通过pagerank算法进行排序。
一种社交搜索的装置,用于实现权利要求1所述的方法,其特征在于,包括:
搜索用户的信息抓取单元:用于抓取搜索用户的信息并加以存储;
搜索用户的信息解析单元:与所述的搜索用户的信息抓取单元相连,用于解析存储的所述的搜索用户信息,所述的搜索用户信息包括搜索关键字;
关键字判断单元:与所述的搜索用户的信息解析单元相连,用于判断所述的关键字是否属于预设的类别;
搜索用户信息聚合单元:与所述的关键字判断单元相连,用于将所述的搜索用户信息聚合于所述预设的类别中;
搜索用户信息保存单元:与所述的关键字判断单元相连,用于将所述的搜索用户信息保存于数据库中。
根据权利要求6所述的社交搜索的装置,其特征在于,还包括其它的用户推荐单元,与所述的搜索用户信息聚合单元相连,用于推荐聚合于所述的预设类别中的其它用户给所述的搜索用户,以建立联系并进行互动。
根据权利要求6或7任一项所述的社交搜索的装置,其特征在于,所述的存储的用户信息包括存储于客户端或服务端的存储用户信息。
根据权利要求6或7任一项所述的社交搜索的装置,其特征在于,所述的搜索用户信息还包括搜索后对搜索结果的多个点击率、浏览率、停留时间。
根据权利要求9所述的社交搜索的装置,其特征在于,所述的搜索结果通过pagerank算法进行排序。

说明书

说明书一种社交搜索的方法和装置 
技术领域
本发明涉及网络搜索领域,具体涉及一种社交搜索方法和装置。 
背景技术
随着互联网上信息的日益庞大、垃圾信息、广告信息等越来越多,以及搜索用户的日益增长,想要从海量的数据中发掘出有价值的信息越来越复杂,而大到全世界,小到每个企业、商家,甚至是一个家庭和个人来说,信息是人们工作与生活关系最为密切的重要因素。虽然这些年来搜索引擎的技术是越来越先进,可是在互联网上的信息搜索不论成功与否仍然存在一个很大的问题。使用过搜索引擎的人都有过这样的感受:有的时候会搜不到你想要的结果,相反的,有的时候竟会搜索出上百万条不需要的结果。而实际上,第二种结果是最令人头疼也是最难以处理的。如果想从这百万条搜索结果中找到自己真正需要的信息,就如同是大海捞针。 
如何较快到找到需要的信息,找到和自己兴趣相类似的用户,人们不断地寻找更实时,更人性化的搜索方法和装置。 
发明内容
为了解决以上的技术问题,本发明提供一种社交搜索方法和装置。 
本发明公开了一种社交搜索的方法,包括: 
S1.抓取搜索用户的信息并加以存储; 
S2.解析存储的所述的搜索用户信息,所述的搜索用户信息包括搜索关键字; 
S3.判断所述的关键字是否属于预设的类别,如果是,进入步骤S4,如果否,进入步骤S5; 
S4.将所述的搜索用户信息聚合于所述预设的类别中; 
S5.将所述的搜索用户信息保存于数据库中。 
在本发明所述的社交搜索的方法中,在步骤S4后还包括步骤S41,推荐聚合于所述的预设类别中的其它用户给所述的搜索用户,以建立联系并进行互动。 
在本发明所述的社交搜索的方法中,所述的存储的用户信息包括存储于客户端或服务端的存储用户信息。 
在本发明所述的社交搜索的方法中,所述的搜索用户信息还包括搜索后对搜索结果的多个点击率、浏览率、停留时间。 
在本发明所述的社交搜索的方法中,所述的搜索结果通过pagerank算法进行排序。 
本发明公开了一种社交搜索的装置,用于实现上述的方法,包括: 
搜索用户的信息抓取单元:用于抓取搜索用户的信息并加以存储; 
搜索用户的信息解析单元:与所述的搜索用户的信息抓取单元相连,用于解析存储的所述的搜索用户信息,所述的搜索用户信息包括搜索关键字; 
关键字判断单元:与所述的搜索用户的信息解析单元相连,用于判断所述的关键字是否属于预设的类别; 
搜索用户信息聚合单元:与所述的关键字判断单元相连,用于将所述的搜索用户信息聚合于所述预设的类别中; 
搜索用户信息保存单元:与所述的关键字判断单元相连,用于将所述的搜索用户信息保存于数据库中。 
在本发明所述的社交搜索的装置中,还包括其它的用户推荐单元,与所述的搜索用户信息聚合单元相连,用于推荐聚合于所述的预设类别中的其它用户给所述的搜索用户,以建立联系并进行互动。 
在本发明所述的社交搜索的装置中,所述的存储的用户信息包括存储于客户端或服务端的存储用户信息。 
在本发明所述的社交搜索的装置中,所述的搜索用户信息还包括搜索后对搜索结果的多个点击率、浏览率、停留时间。 
在本发明所述的社交搜索的装置中,所述的搜索结果通过pagerank算法进行排序。 
实施本发明的一种社交搜索方法和装置,具有以下有益的技术效果: 
通过搜索分析用户属性从而延伸出社交的模式,来提高用户发掘数据的效率,给用户提高更加绿色、安全、高效的搜索服务; 
搜索更加具备人性化,提高用户体验。 
附图说明
图1是本发明实施例一种社交搜索方法流程图; 
图2是本发明实施例一种社交搜索装置流程图; 
图3是本发明中搜索结果记录存储流程图; 
图4是本发明中行为属性分析方法流程图; 
图5是本发明一种社交搜索的装置结构图。 
具体实施方式
为详细说明本发明的技术内容、构造特征、所实现目的及效果,以下结合实施方式并配合附图详予说明。 
请参阅图1,一种社交搜索方法,包括: 
S1.抓取搜索用户的信息并加以存储; 
通过搜索来记录用户搜索的一些重要信息,如关键字、时间、地域、频率,类别等,那么怎么样存储这些信息,存储信息分为两种,一种是存在服务端,即通过文件或数据库形式来存放该类用户数据,通过用户唯一身份标示或者计算唯一标示来做为主键存储该类信息,一种是存在客户端,对于B/S的架构的系统,可以通过一些存储一些COOKIES或者通过插件方式直接存储在本地,本发明支持该两种存储方式。 
S2.解析存储的所述的搜索用户信息,所述的搜索用户信息包括搜索关键字; 
服务器端通过用户输入的关键字,在索引中查询。在搜索中,我们先利用蜘蛛(网络爬虫)来模拟人查看一个一个的互联网上的网页,然后抓取该页面保存到本地,同时提取到该页面的所有其他外链,放入任务池,进行任务式的工作方式。当这些数据抓取下来后,我们会进行网页的解析,保留一些重要信息,过滤掉一些垃圾,广告信息。这些信息下来后,我们会通过分词系统对这些信息进行分词然后进行索引。索引的机制:简单说明下: 
下面有3个网页,当抓取完成后进行解析后,剩余下面的文本。 
A网页: 
标题:谷姐 
内容:谷姐周年庆感恩回馈盛典强势启动。 
B网页: 
标题:谷姐 
内容:全球首款最大社交搜索平台谷姐正式上线。 
C网页 
标题:谷姐 
内容:谷姐2011缤纷系例活动火热进行中 
接下来对解析好的文本开始分词,大致得到下例数据,以空格间隔开,其中分词系统的话,就把一些文本拆分成对应的字/词,关于分词系统的本发明使用的是带词库的分词系统,通常来说分词有很多种算法,比如:1分,2分就是一个字认为是一个词,或者2个字分成一个词,这种会分词导致索引数据文件庞大,搜索结果不精确,具备歧义性。然后还有带词库的分词,这种分词会使得索引数据文件减少很多,从而搜索速度也会加速。同时结果也会精确。 
A网页:谷姐 周年 庆 感恩 回馈 盛典 强势 启动; 
B网页:全球 首款 最大 社交 搜索 平台 谷姐 正式 上线; 
C网页:谷姐2011 缤纷 系例 活动 火热 进行 中。 
接下来就是建立索引了,索引算法也有很多种,本发明采用的是倒排文件索引: 
单个词的索引结构:关键词,文档编号,出现频率,位置下标,所在字段 
  关键词   文档编号   出现频率   位置下标   所在字段   谷姐   A   1   1   标题,内容    B   1   12   标题,内容    C   1   1   标题,内容   周年   A   1   3   内容   庆   A   1   5   内容   感恩   A   1   6   内容 。。。。。。 。。。。。。 。。。。。。 。。。。。。 。。。。。。
[0056] 上面就是索引的大致结构了,那么在种索引机制上,当用户搜索庆关键字的时候,系统能很快的找到,是在A网页中出现过,同时通过频率,下标,字段等对该结果进行一些排序操作,最众反馈搜索给结果给用户。 
S3.判断所述的关键字是否属于预设的类别,如果是,进入步骤S4,如果否,进入步骤S5; 
对存储的信息进行分类、聚合、解析。本发明提供一种支持该类信息分类的知识库,我们把一些信息按照兴趣爱好等做一些大的分类,比如:游戏,小说,音乐,购物等。同时也会存在一些细别分类,这些分类每一个用户可以包含多个,比如:古典歌曲,高跟鞋等。 
那么通过对存储的信息进行解析,会赋予用户多个大类,和多个小类。同时通过时间、地域、频率等进行不段的变更。 
搜索关键字是对给用户赋予兴趣爱好分类的基准,比如:用户搜索宝马,那么我们知道该关键字描叙的是汽车,可能会赋予该用户汽车这样的分类,同时通过时间,频率,我们会赋予该用户拥有汽车爱好的时间段。 
S4.将所述的搜索用户信息聚合于所述预设的类别中; 
我们会存储用户搜索关键后对结果的一些点击率,浏览率,停留时间等。同时记录这些信息,我们将改变我们的搜索结果默认的排序,从而使得该关键字的结果排序融入了更多人性化的功能,使得用户能够更快速的找到自己想要的结果。 
在结算这些搜索结果排序的时候,引入了一些特定的算法,我们把它称之为新的pagerank算法,它更注重人性化的因素。相对于传统的搜索来说,我们可以理解成我们的排序是有人参与的,而人就是千千万万用户,它随着使用的用户的习惯来改变,所以从很大程度上解决了结果的真实性、可靠性、精确性。 
S41,推荐聚合于所述的预设类别中的其它用户给所述的搜索用户,以建立联系并进行互动。 
那样当其他用户在搜索的时候我们会推荐一些与他具备相同的分类的用户给他,通过系统推荐他们可以建立一些关系,同时进行一些互动,那么相对于传统的社交模式来说,我们更加真实,建立的关系更加牢固。 
搜索本身就一个庞大的资源库,用户在搜索的同时可以进行社交,资源分享等一系列的互动方式。对于传统的社交模式我们更快一步,同时通过搜索关键字更好的把一系列的资源集中起来。 
其它同类用户的出现使得搜索具备人性化的思维方式,使得我们从日益庞大的海量数据中,更快一步发觉出有价值的信息。同时利用真实可靠的用户属性建立起一种真实的社交模式,弥补了传统社交模式的不足。 
S5.将所述的搜索用户信息保存于数据库中。 
本发明提供一种支持该类信息分类的知识库,我们把一些信息按照兴趣爱好等做一些大的分类,比如:游戏,小说,音乐,购物等。同时也会存在一些细别分类,这些分类每一个用户可以包含多个,比如:古典歌曲,高跟鞋等。 
那么通过对存储的信息进行解析,会赋予用户多个大类,和多个小类。同时通过时间、地域、频率等进行不段的变更。 
搜索关键字是对给用户赋予兴趣爱好分类的基准,比如:用户搜索宝马,那么我们知道该关键字描叙的是汽车,可能会赋予该用户汽车这样的分类,同时通过时间,频率,我们会赋予该用户拥有汽车爱好的时间段。 
请参阅图2,本发明中用户搜索信息记录存储实施的方法流程图,包括: 
A1.接受用户输入关键字,点击搜索。 
A2.系统会判断用户是否登录,如果是登录的情况下会把数据存储在服务器端(步骤A21),如果用户没有登录的情况下会把小部分数据存储在客户端(步骤A22),在这里主要记录用户搜索关键字、频率、时间、地域等信息。部分数据存储在客户端只是为了避免产生太多没用的信息。 
请参阅图3,本发明中搜索结果记录存储流程图,包括: 
B1.接受用户输入关键字,点击搜索。 
B2.通过分析用户搜索某个关键字后,对结果中某条信息的点击数量,以及浏览停留的时间,以及通过用户对该信息的其他操作,比如评论、举报、转发等一系列操作,都将影响到该条信息的权重。 
那么在本发明中,我们存储每一个关键字对应的,所有用户浏览过的结果,同时对该结果进行一个由点击量、停留时间、页面质量等因素综合评分得到的 一个权重。那么将会通过该权重与搜索原始的权重进行一个合并,得出一个新的结果排序。 
请参阅图4,本发明中行为属性分析方法流程图,包括: 
C1.接受用户输入关键字,点击搜索; 
C2.通过判断该关键字在用户搜索中出现的频率、时间等,最后决定是要真的纳入分析中去; 
通常来说搜索过程中,用户对一系列相关关键字进行搜索的时候,系统是不会将其纳入分析数据中去的。比如:用户搜索“宝马”、“宝马怎么样”、“宝马好不好”等这一系例的关键词的时候,本发明会给宝马该关键字的频率增加,而不会记录所有的关键字。 
C3.通过搜索类别,分好大类; 
用户在搜索的时候,有些时候已经给我们提供了大致的范围,如用户搜索WOW,那很明确WOW是一款游戏,类似于这样的情况,本发明会认为该关键字的大类是游戏。在分析之前先确定该关键字的类别是非常有意义的,这样避免了很多歧义的问题。 
C4.匹配知识库,确定兴趣类别; 
确定兴趣类别,这里的兴趣类别是一个很大的知识库,它通过关键字的大类,小类来匹配对应的兴趣类别。比如说用户搜了游戏、WOW,那么对应的同时我们根据该关键字的频率、时间等可以给其赋予:游戏爱好者、游戏狂人、夜猫子,魔兽玩家等一系列具备明显特征的属性。 
C5.赋予用户属性。 
得到用户兴趣类别后,我们把该属性赋予给该用户。当然兴趣类别一个用户可以有多个,同时有时间性。那么本发明在赋予用户该属性时候也有特定的算法,其中包含时间性、多样化。 
请参阅图5、一种社交搜索的装置,用于实现图1所述的方法,包括: 
搜索用户的信息抓取单元10、搜索用户的信息解析单元20、关键字判断单元30、搜索用户信息聚合单元40、其它的用户推荐单元45、搜索用户信息保存单元50。 
搜索用户的信息抓取单元10:用于抓取搜索用户的信息并加以存储; 
搜索用户的信息解析单元20:与搜索用户的信息抓取单元10相连,用于解析存储的所述的搜索用户信息,所述的搜索用户信息包括搜索关键字; 
关键字判断单元30:与搜索用户的信息解析单元30相连,用于判断所述的关键字是否属于预设的类别; 
搜索用户信息聚合单元40:与关键字判断单元30相连,用于将所述的搜索用户信息聚合于所述预设的类别中; 
其它的用户推荐单元45,与搜索用户信息聚合单元40相连,用于推荐聚合于所述的预设类别中的其它用户给所述的搜索用户,以建立联系并进行互动。 
搜索用户信息保存单元50:与关键字判断单元30相连,用于将所述的搜索用户信息保存于数据库中。 
较佳地,存储的用户信息包括存储于客户端或服务端的存储用户信息,搜索用户信息还包括搜索后对搜索结果的多个点击率、浏览率、停留时间,搜索结果通过pagerank算法进行排序。 
实施本发明的一种社交搜索方法和装置,具有以下有益的技术效果: 
通过搜索分析用户属性从而延伸出社交的模式,来提高用户发掘数据的效率,给用户提高更加绿色、安全、高效的搜索服务; 
搜索更加具备人性化,提高用户体验。 
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护范围之内。

一种社交搜索的方法和装置.pdf_第1页
第1页 / 共10页
一种社交搜索的方法和装置.pdf_第2页
第2页 / 共10页
一种社交搜索的方法和装置.pdf_第3页
第3页 / 共10页
点击查看更多>>
资源描述

《一种社交搜索的方法和装置.pdf》由会员分享,可在线阅读,更多相关《一种社交搜索的方法和装置.pdf(10页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103123641 A(43)申请公布日 2013.05.29CN103123641A*CN103123641A*(21)申请号 201210041260.4(22)申请日 2012.02.22G06F 17/30(2006.01)(71)申请人深圳市谷古科技有限公司地址 518000 广东省深圳市南山区蛇口区网谷数码大厦A座401(72)发明人黄炯炫(54) 发明名称一种社交搜索的方法和装置(57) 摘要本发明公开了一种社交搜索方法,包括:S1.抓取搜索用户的信息并加以存储;S2.解析存储的所述的搜索用户信息,所述的搜索用户信息包括搜索关键字;S3.判断所述的关键字。

2、是否属于预设的类别,S4.将所述的搜索用户信息聚合于所述预设的类别中;S5.将所述的搜索用户信息保存于数据库中。本发明还公开了一种社交搜索装置。实施本发明的社交搜索方法及装置通过搜索分析用户属性从而延伸出社交的模式,来提高用户发掘数据的效率,给用户提高更加绿色、安全、高效的搜索服务;搜索更加具备人性化,提高用户体验。(51)Int.Cl.权利要求书1页 说明书6页 附图2页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书1页 说明书6页 附图2页(10)申请公布号 CN 103123641 ACN 103123641 A1/1页21.一种社交搜索的方法,其特征在于,包括:S1。

3、.抓取搜索用户的信息并加以存储;S2.解析存储的所述的搜索用户信息,所述的搜索用户信息包括搜索关键字;S3.判断所述的关键字是否属于预设的类别,如果是,进入步骤S4,如果否,进入步骤S5;S4.将所述的搜索用户信息聚合于所述预设的类别中;S5.将所述的搜索用户信息保存于数据库中。2.根据权利要求1所述的社交搜索的方法,其特征在于,在步骤S4后还包括步骤S41,推荐聚合于所述的预设类别中的其它用户给所述的搜索用户,以建立联系并进行互动。3.根据权利要求1或2任一项所述的社交搜索的方法,其特征在于,所述的存储的用户信息包括存储于客户端或服务端的存储用户信息。4.根据权利要求1或2任一项所述的社交搜。

4、索的方法,其特征在于,所述的搜索用户信息还包括搜索后对搜索结果的多个点击率、浏览率、停留时间。5.根据权利要求4所述的社交搜索的方法,其特征在于,所述的搜索结果通过pagerank算法进行排序。6.一种社交搜索的装置,用于实现权利要求1所述的方法,其特征在于,包括:搜索用户的信息抓取单元:用于抓取搜索用户的信息并加以存储;搜索用户的信息解析单元:与所述的搜索用户的信息抓取单元相连,用于解析存储的所述的搜索用户信息,所述的搜索用户信息包括搜索关键字;关键字判断单元:与所述的搜索用户的信息解析单元相连,用于判断所述的关键字是否属于预设的类别;搜索用户信息聚合单元:与所述的关键字判断单元相连,用于将。

5、所述的搜索用户信息聚合于所述预设的类别中;搜索用户信息保存单元:与所述的关键字判断单元相连,用于将所述的搜索用户信息保存于数据库中。7.根据权利要求6所述的社交搜索的装置,其特征在于,还包括其它的用户推荐单元,与所述的搜索用户信息聚合单元相连,用于推荐聚合于所述的预设类别中的其它用户给所述的搜索用户,以建立联系并进行互动。8.根据权利要求6或7任一项所述的社交搜索的装置,其特征在于,所述的存储的用户信息包括存储于客户端或服务端的存储用户信息。9.根据权利要求6或7任一项所述的社交搜索的装置,其特征在于,所述的搜索用户信息还包括搜索后对搜索结果的多个点击率、浏览率、停留时间。10.根据权利要求9。

6、所述的社交搜索的装置,其特征在于,所述的搜索结果通过pagerank算法进行排序。权 利 要 求 书CN 103123641 A1/6页3一种社交搜索的方法和装置 技术领域0001 本发明涉及网络搜索领域,具体涉及一种社交搜索方法和装置。 背景技术0002 随着互联网上信息的日益庞大、垃圾信息、广告信息等越来越多,以及搜索用户的日益增长,想要从海量的数据中发掘出有价值的信息越来越复杂,而大到全世界,小到每个企业、商家,甚至是一个家庭和个人来说,信息是人们工作与生活关系最为密切的重要因素。虽然这些年来搜索引擎的技术是越来越先进,可是在互联网上的信息搜索不论成功与否仍然存在一个很大的问题。使用过搜。

7、索引擎的人都有过这样的感受:有的时候会搜不到你想要的结果,相反的,有的时候竟会搜索出上百万条不需要的结果。而实际上,第二种结果是最令人头疼也是最难以处理的。如果想从这百万条搜索结果中找到自己真正需要的信息,就如同是大海捞针。 0003 如何较快到找到需要的信息,找到和自己兴趣相类似的用户,人们不断地寻找更实时,更人性化的搜索方法和装置。 发明内容0004 为了解决以上的技术问题,本发明提供一种社交搜索方法和装置。 0005 本发明公开了一种社交搜索的方法,包括: 0006 S1.抓取搜索用户的信息并加以存储; 0007 S2.解析存储的所述的搜索用户信息,所述的搜索用户信息包括搜索关键字; 0。

8、008 S3.判断所述的关键字是否属于预设的类别,如果是,进入步骤S4,如果否,进入步骤S5; 0009 S4.将所述的搜索用户信息聚合于所述预设的类别中; 0010 S5.将所述的搜索用户信息保存于数据库中。 0011 在本发明所述的社交搜索的方法中,在步骤S4后还包括步骤S41,推荐聚合于所述的预设类别中的其它用户给所述的搜索用户,以建立联系并进行互动。 0012 在本发明所述的社交搜索的方法中,所述的存储的用户信息包括存储于客户端或服务端的存储用户信息。 0013 在本发明所述的社交搜索的方法中,所述的搜索用户信息还包括搜索后对搜索结果的多个点击率、浏览率、停留时间。 0014 在本发明。

9、所述的社交搜索的方法中,所述的搜索结果通过pagerank算法进行排序。 0015 本发明公开了一种社交搜索的装置,用于实现上述的方法,包括: 0016 搜索用户的信息抓取单元:用于抓取搜索用户的信息并加以存储; 0017 搜索用户的信息解析单元:与所述的搜索用户的信息抓取单元相连,用于解析存储的所述的搜索用户信息,所述的搜索用户信息包括搜索关键字; 说 明 书CN 103123641 A2/6页40018 关键字判断单元:与所述的搜索用户的信息解析单元相连,用于判断所述的关键字是否属于预设的类别; 0019 搜索用户信息聚合单元:与所述的关键字判断单元相连,用于将所述的搜索用户信息聚合于所述。

10、预设的类别中; 0020 搜索用户信息保存单元:与所述的关键字判断单元相连,用于将所述的搜索用户信息保存于数据库中。 0021 在本发明所述的社交搜索的装置中,还包括其它的用户推荐单元,与所述的搜索用户信息聚合单元相连,用于推荐聚合于所述的预设类别中的其它用户给所述的搜索用户,以建立联系并进行互动。 0022 在本发明所述的社交搜索的装置中,所述的存储的用户信息包括存储于客户端或服务端的存储用户信息。 0023 在本发明所述的社交搜索的装置中,所述的搜索用户信息还包括搜索后对搜索结果的多个点击率、浏览率、停留时间。 0024 在本发明所述的社交搜索的装置中,所述的搜索结果通过pagerank算。

11、法进行排序。 0025 实施本发明的一种社交搜索方法和装置,具有以下有益的技术效果: 0026 通过搜索分析用户属性从而延伸出社交的模式,来提高用户发掘数据的效率,给用户提高更加绿色、安全、高效的搜索服务; 0027 搜索更加具备人性化,提高用户体验。 附图说明0028 图1是本发明实施例一种社交搜索方法流程图; 0029 图2是本发明实施例一种社交搜索装置流程图; 0030 图3是本发明中搜索结果记录存储流程图; 0031 图4是本发明中行为属性分析方法流程图; 0032 图5是本发明一种社交搜索的装置结构图。 具体实施方式0033 为详细说明本发明的技术内容、构造特征、所实现目的及效果,以。

12、下结合实施方式并配合附图详予说明。 0034 请参阅图1,一种社交搜索方法,包括: 0035 S1.抓取搜索用户的信息并加以存储; 0036 通过搜索来记录用户搜索的一些重要信息,如关键字、时间、地域、频率,类别等,那么怎么样存储这些信息,存储信息分为两种,一种是存在服务端,即通过文件或数据库形式来存放该类用户数据,通过用户唯一身份标示或者计算唯一标示来做为主键存储该类信息,一种是存在客户端,对于B/S的架构的系统,可以通过一些存储一些COOKIES或者通过插件方式直接存储在本地,本发明支持该两种存储方式。 0037 S2.解析存储的所述的搜索用户信息,所述的搜索用户信息包括搜索关键字; 00。

13、38 服务器端通过用户输入的关键字,在索引中查询。在搜索中,我们先利用蜘蛛(网说 明 书CN 103123641 A3/6页5络爬虫)来模拟人查看一个一个的互联网上的网页,然后抓取该页面保存到本地,同时提取到该页面的所有其他外链,放入任务池,进行任务式的工作方式。当这些数据抓取下来后,我们会进行网页的解析,保留一些重要信息,过滤掉一些垃圾,广告信息。这些信息下来后,我们会通过分词系统对这些信息进行分词然后进行索引。索引的机制:简单说明下: 0039 下面有3个网页,当抓取完成后进行解析后,剩余下面的文本。 0040 A网页: 0041 标题:谷姐 0042 内容:谷姐周年庆感恩回馈盛典强势启动。

14、。 0043 B网页: 0044 标题:谷姐 0045 内容:全球首款最大社交搜索平台谷姐正式上线。 0046 C网页 0047 标题:谷姐 0048 内容:谷姐2011缤纷系例活动火热进行中 0049 接下来对解析好的文本开始分词,大致得到下例数据,以空格间隔开,其中分词系统的话,就把一些文本拆分成对应的字/词,关于分词系统的本发明使用的是带词库的分词系统,通常来说分词有很多种算法,比如:1分,2分就是一个字认为是一个词,或者2个字分成一个词,这种会分词导致索引数据文件庞大,搜索结果不精确,具备歧义性。然后还有带词库的分词,这种分词会使得索引数据文件减少很多,从而搜索速度也会加速。同时结果也。

15、会精确。 0050 A网页:谷姐 周年 庆 感恩 回馈 盛典 强势 启动; 0051 B网页:全球 首款 最大 社交 搜索 平台 谷姐 正式 上线; 0052 C网页:谷姐2011 缤纷 系例 活动 火热 进行 中。 0053 接下来就是建立索引了,索引算法也有很多种,本发明采用的是倒排文件索引: 0054 单个词的索引结构:关键词,文档编号,出现频率,位置下标,所在字段 0055 关键词 文档编号 出现频率 位置下标 所在字段谷姐 A 1 1 标题,内容B 1 12 标题,内容C 1 1 标题,内容周年 A 1 3 内容庆 A 1 5 内容感恩 A 1 6 内容。0056 上面就是索引的大致。

16、结构了,那么在种索引机制上,当用户搜索庆关键字的时候,系统能很快的找到,是在A网页中出现过,同时通过频率,下标,字段等对该结果进行一些排序操作,最众反馈搜索给结果给用户。 0057 S3.判断所述的关键字是否属于预设的类别,如果是,进入步骤S4,如果否,进入步骤S5; 0058 对存储的信息进行分类、聚合、解析。本发明提供一种支持该类信息分类的知识库,我们把一些信息按照兴趣爱好等做一些大的分类,比如:游戏,小说,音乐,购物等。同时说 明 书CN 103123641 A4/6页6也会存在一些细别分类,这些分类每一个用户可以包含多个,比如:古典歌曲,高跟鞋等。 0059 那么通过对存储的信息进行解。

17、析,会赋予用户多个大类,和多个小类。同时通过时间、地域、频率等进行不段的变更。 0060 搜索关键字是对给用户赋予兴趣爱好分类的基准,比如:用户搜索宝马,那么我们知道该关键字描叙的是汽车,可能会赋予该用户汽车这样的分类,同时通过时间,频率,我们会赋予该用户拥有汽车爱好的时间段。 0061 S4.将所述的搜索用户信息聚合于所述预设的类别中; 0062 我们会存储用户搜索关键后对结果的一些点击率,浏览率,停留时间等。同时记录这些信息,我们将改变我们的搜索结果默认的排序,从而使得该关键字的结果排序融入了更多人性化的功能,使得用户能够更快速的找到自己想要的结果。 0063 在结算这些搜索结果排序的时候。

18、,引入了一些特定的算法,我们把它称之为新的pagerank算法,它更注重人性化的因素。相对于传统的搜索来说,我们可以理解成我们的排序是有人参与的,而人就是千千万万用户,它随着使用的用户的习惯来改变,所以从很大程度上解决了结果的真实性、可靠性、精确性。 0064 S41,推荐聚合于所述的预设类别中的其它用户给所述的搜索用户,以建立联系并进行互动。 0065 那样当其他用户在搜索的时候我们会推荐一些与他具备相同的分类的用户给他,通过系统推荐他们可以建立一些关系,同时进行一些互动,那么相对于传统的社交模式来说,我们更加真实,建立的关系更加牢固。 0066 搜索本身就一个庞大的资源库,用户在搜索的同时。

19、可以进行社交,资源分享等一系列的互动方式。对于传统的社交模式我们更快一步,同时通过搜索关键字更好的把一系列的资源集中起来。 0067 其它同类用户的出现使得搜索具备人性化的思维方式,使得我们从日益庞大的海量数据中,更快一步发觉出有价值的信息。同时利用真实可靠的用户属性建立起一种真实的社交模式,弥补了传统社交模式的不足。 0068 S5.将所述的搜索用户信息保存于数据库中。 0069 本发明提供一种支持该类信息分类的知识库,我们把一些信息按照兴趣爱好等做一些大的分类,比如:游戏,小说,音乐,购物等。同时也会存在一些细别分类,这些分类每一个用户可以包含多个,比如:古典歌曲,高跟鞋等。 0070 那。

20、么通过对存储的信息进行解析,会赋予用户多个大类,和多个小类。同时通过时间、地域、频率等进行不段的变更。 0071 搜索关键字是对给用户赋予兴趣爱好分类的基准,比如:用户搜索宝马,那么我们知道该关键字描叙的是汽车,可能会赋予该用户汽车这样的分类,同时通过时间,频率,我们会赋予该用户拥有汽车爱好的时间段。 0072 请参阅图2,本发明中用户搜索信息记录存储实施的方法流程图,包括: 0073 A1.接受用户输入关键字,点击搜索。 0074 A2.系统会判断用户是否登录,如果是登录的情况下会把数据存储在服务器端(步骤A21),如果用户没有登录的情况下会把小部分数据存储在客户端(步骤A22),在这里主要。

21、记录用户搜索关键字、频率、时间、地域等信息。部分数据存储在客户端只是为了避免说 明 书CN 103123641 A5/6页7产生太多没用的信息。 0075 请参阅图3,本发明中搜索结果记录存储流程图,包括: 0076 B1.接受用户输入关键字,点击搜索。 0077 B2.通过分析用户搜索某个关键字后,对结果中某条信息的点击数量,以及浏览停留的时间,以及通过用户对该信息的其他操作,比如评论、举报、转发等一系列操作,都将影响到该条信息的权重。 0078 那么在本发明中,我们存储每一个关键字对应的,所有用户浏览过的结果,同时对该结果进行一个由点击量、停留时间、页面质量等因素综合评分得到的 一个权重。。

22、那么将会通过该权重与搜索原始的权重进行一个合并,得出一个新的结果排序。 0079 请参阅图4,本发明中行为属性分析方法流程图,包括: 0080 C1.接受用户输入关键字,点击搜索; 0081 C2.通过判断该关键字在用户搜索中出现的频率、时间等,最后决定是要真的纳入分析中去; 0082 通常来说搜索过程中,用户对一系列相关关键字进行搜索的时候,系统是不会将其纳入分析数据中去的。比如:用户搜索“宝马”、“宝马怎么样”、“宝马好不好”等这一系例的关键词的时候,本发明会给宝马该关键字的频率增加,而不会记录所有的关键字。 0083 C3.通过搜索类别,分好大类; 0084 用户在搜索的时候,有些时候已。

23、经给我们提供了大致的范围,如用户搜索WOW,那很明确WOW是一款游戏,类似于这样的情况,本发明会认为该关键字的大类是游戏。在分析之前先确定该关键字的类别是非常有意义的,这样避免了很多歧义的问题。 0085 C4.匹配知识库,确定兴趣类别; 0086 确定兴趣类别,这里的兴趣类别是一个很大的知识库,它通过关键字的大类,小类来匹配对应的兴趣类别。比如说用户搜了游戏、WOW,那么对应的同时我们根据该关键字的频率、时间等可以给其赋予:游戏爱好者、游戏狂人、夜猫子,魔兽玩家等一系列具备明显特征的属性。 0087 C5.赋予用户属性。 0088 得到用户兴趣类别后,我们把该属性赋予给该用户。当然兴趣类别一。

24、个用户可以有多个,同时有时间性。那么本发明在赋予用户该属性时候也有特定的算法,其中包含时间性、多样化。 0089 请参阅图5、一种社交搜索的装置,用于实现图1所述的方法,包括: 0090 搜索用户的信息抓取单元10、搜索用户的信息解析单元20、关键字判断单元30、搜索用户信息聚合单元40、其它的用户推荐单元45、搜索用户信息保存单元50。 0091 搜索用户的信息抓取单元10:用于抓取搜索用户的信息并加以存储; 0092 搜索用户的信息解析单元20:与搜索用户的信息抓取单元10相连,用于解析存储的所述的搜索用户信息,所述的搜索用户信息包括搜索关键字; 0093 关键字判断单元30:与搜索用户的。

25、信息解析单元30相连,用于判断所述的关键字是否属于预设的类别; 0094 搜索用户信息聚合单元40:与关键字判断单元30相连,用于将所述的搜索用户信息聚合于所述预设的类别中; 说 明 书CN 103123641 A6/6页80095 其它的用户推荐单元45,与搜索用户信息聚合单元40相连,用于推荐聚合于所述的预设类别中的其它用户给所述的搜索用户,以建立联系并进行互动。 0096 搜索用户信息保存单元50:与关键字判断单元30相连,用于将所述的搜索用户信息保存于数据库中。 0097 较佳地,存储的用户信息包括存储于客户端或服务端的存储用户信息,搜索用户信息还包括搜索后对搜索结果的多个点击率、浏览。

26、率、停留时间,搜索结果通过pagerank算法进行排序。 0098 实施本发明的一种社交搜索方法和装置,具有以下有益的技术效果: 0099 通过搜索分析用户属性从而延伸出社交的模式,来提高用户发掘数据的效率,给用户提高更加绿色、安全、高效的搜索服务; 0100 搜索更加具备人性化,提高用户体验。 0101 上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护范围之内。 说 明 书CN 103123641 A1/2页9图1图2说 明 书 附 图CN 103123641 A2/2页10图3图4图5说 明 书 附 图CN 103123641 A10。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1