搜索方法和装置.pdf

上传人:Y94****206 文档编号:481344 上传时间:2018-02-18 格式:PDF 页数:8 大小:386.96KB
返回 下载 相关 举报
摘要
申请专利号:

CN201310160724.8

申请日:

2013.04.25

公开号:

CN104123329A

公开日:

2014.10.29

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20130425|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

北京千橡网景科技发展有限公司

发明人:

郭杨

地址:

100041 北京市石景山区实兴东街11号北楼B1011室

优先权:

专利代理机构:

北京市金杜律师事务所 11256

代理人:

酆迅

PDF下载: PDF下载
内容摘要

本申请提供了一种搜索方法及装置,该方法包括:接收用户输入的搜索关键词;将搜索关键词分发至预先确定的第一搜索服务器组,以便第一搜索服务器组中的每个搜索服务器在与其对应的全量索引库中对搜索关键词进行搜索,其中第一搜索服务器组的性能高于预先确定的第二搜索服务器组的性能;以及对第一搜索服务器组返回的搜索结果进行展示。本发明可以解决相关技术中实时搜索的先后搜索结果不一致和搜索时间长尾效应的问题。

权利要求书

1.  一种搜索方法,包括:
接收用户输入的搜索关键词;
将所述搜索关键词分发至预先确定的第一搜索服务器组,以便所述第一搜索服务器组中的每个搜索服务器在与其对应的全量索引库中对所述搜索关键词进行搜索,其中所述第一搜索服务器组的性能高于预先确定的第二搜索服务器组的性能;以及
对所述第一搜索服务器组返回的搜索结果进行展示。

2.
  根据权利要求1所述的方法,在接收用户输入的搜索关键词之前,还包括:
确定多个搜索服务器的性能;
按照所述性能从高到低的顺序,对所述多个搜索服务器进行排序;
将排序在前的第一数量的搜索服务器分组作为所述第一搜索服务器组;以及
将排序在后的第二数量的搜索服务器分组作为所述第二搜索服务器组。

3.
  根据权利要求2所述的方法,在确定排序在前的第一数量的搜索服务器作为所述第一搜索服务器组之后,还包括:每间隔预先确定的时间,对所述多个搜索服务器重复进行所述排序和所述分组。

4.
  根据权利要求2所述的方法,在确定排序在前的第一数量的搜索服务器作为所述第一搜索服务器组之后,还包括:
确定所述第一搜索服务器组中的一个或多个搜索服务器失效;以及
排除所述一个或多个搜索服务器而再次进行所述排序和所述分组。

5.
  根据权利要求2所述的方法,在确定排序在前的第一数量的 搜索服务器作为所述第一搜索服务器组之后,还包括:
确定存在搜索服务器新加入所述多个搜索服务器;以及
增加该搜索服务器而再次进行所述排序和所述分组。

6.
  根据权利要求2至5中任一项所述的方法,确定多个搜索服务器的性能包括:采用预先设定的公式,根据包括以下至少之一的因素而确定所述多个搜索服务器的性能:CPU性能、内存性能、磁盘性能、CPU利用率、可用内存容量、磁盘输入输出性能、预定时间内平均每秒钟返回的搜索结果的数量、所在集群的网络环境。

7.
  根据权利要求6所述的方法,在确定多个搜索服务器的性能之后,还包括:以自学习的方式来自适应调整所述公式。

8.
  一种搜索装置,包括:
接收模块,用于接收用户输入的搜索关键词;
分发模块,用于将所述搜索关键词分发至预先确定的第一搜索服务器组,以便所述第一搜索服务器组中的每个搜索服务器在与其对应的全量索引库中对所述搜索关键词进行搜索,其中所述第一搜索服务器组的性能高于预先确定的第二搜索服务器组的性能;以及
展示模块,用于对所述第一搜索服务器组返回的搜索结果进行展示。

9.
  根据权利要求8所述的装置,还包括:
确定模块,用于确定多个搜索服务器的性能;
排序模块,用于按照所述性能从高到低的顺序,对所述多个搜索服务器进行排序;以及
第一分组模块,用于将排序在前的第一数量的搜索服务器分组作为所述第一搜索服务器组;
第二分组模块,用于将排序在后的第二数量的搜索服务器分组作为所述第二搜索服务器组。

10.
  根据权利要求9所述的装置,所述确定模块包括:确定子模块,用于采用预先设定的公式,根据包括以下至少之一的因素而确定所述多个搜索服务器的性能:CPU性能、内存性能、磁盘性能、 CPU利用率、可用内存容量、磁盘输入输出性能、预定时间内平均每秒钟返回的搜索结果的数量、所在集群的网络环境。

说明书

搜索方法和装置
技术领域
本发明的实施方式涉及搜索领域,具体涉及一种搜索方法和装置。
背景技术
为了满足人们实时获取信息的美好愿望,实时搜索应运而生。实时搜索简而言之就是对互联网上的信息进行即时、快速搜索,以实现即搜即得的效果。通过实时搜索,用户可以快速地得到新鲜的第一手信息,在第一时间了解国内外事件。
目前,各大搜索引擎都在致力于实时搜索的实现。例如,以谷歌为代表的国外搜索巨头相继推出实时搜索服务。在国内,2010年4月13日,网易有道率先推出了实时搜索服务。当用户打开有道搜索页面中,在输入一个搜索关键词并得到搜索结果之后,可以发现在页面左侧有一个“最新消息”按钮,这就是实时搜索的入口。点击“最新消息”后,可以很明显的看到在每个搜索结果的前方都有一个时间标识,并且页面也在自动刷新。
目前,大型通用实时搜索引擎大多采用定期对新采集到的数据建立增量索引、定期合并增量索引与全量索引库、定期更新全量索引库的做法,但是,这种做法存在以下不足:
1.由于增量索引是定期建立的,因此无法做到实时更新数据。增的数据只能被缓存,等到下一个索引更新周期到来时,才建立进索引,从而才能被搜索到。基于这样的机制,经过优化的增量索引能够做到分钟级(2至5分钟)的准实时效果。
2.增量索引与全量索引库的合并机制较为复杂,难于控制。如果采用单个增量索引单个全量索引的方式,将会由于全量索引在长 期运营中变得极大而导致合并过程极为缓慢,从而也会影响到搜索性能。如果采用多级增量索引多级全量索引库的方式,那么增量索引中包含的对现有数据的更新和删除操作,将会分布在多个全量索引库中,从而造成这些全量索引库存在数据不一致的问题。因此,在用户采用相同搜索关键词先后进行多次搜索的情况下,因为各个搜索服务器存在性能差异和/或网络环境差异,所以当每个搜索服务器在与其对应的全量索引库中进行搜索时,可能造成该先后多次搜索得到的搜索结果不一致,甚至可能导致在后搜索的搜索结果少于在先搜索的搜索结果。
3.在用户输入的搜索关键词被分发到各个搜索服务器之后,由于各个搜索服务器的性能差异和/或网络环境差异,因此针对该搜索关键词将会存在不同的响应时间。由于用户的搜索时间是以该响应时间中最长的时间决定,因此将造成搜索时间的长尾效应。
发明内容
本发明旨在提供一种搜索方法和装置,能够解决相关技术中实时搜索的先后搜索结果不一致和搜索时间长尾效应的问题。
根据本发明的一个方面,提供了一种搜索方法,包括:接收用户输入的搜索关键词;将搜索关键词分发至预先确定的第一搜索服务器组,以便第一搜索服务器组中的每个搜索服务器在与其对应的全量索引库中对搜索关键词进行搜索,其中第一搜索服务器组的性能高于预先确定的第二搜索服务器组的性能;以及对第一搜索服务器组返回的搜索结果进行展示。
在一个实施例中,在接收用户输入的搜索关键词之前,还包括:确定多个搜索服务器的性能;按照性能从高到低的顺序,对多个搜索服务器进行排序;将排序在前的第一数量的搜索服务器分组作为第一搜索服务器组;将排序在后的第二数量的搜索服务器分组作为第二搜索服务器组。
在一个实施例中,在确定排序在前的第一数量的搜索服务器作 为第一搜索服务器组之后,还包括:每间隔预先确定的时间,对多个搜索服务器重复进行排序和分组。
在一个实施例中,在确定排序在前的第一数量的搜索服务器作为第一搜索服务器组之后,还包括:确定第一搜索服务器组中的一个或多个搜索服务器失效;排除一个或多个搜索服务器而再次进行排序和分组。
在一个实施例中,在确定排序在前的第一数量的搜索服务器作为第一搜索服务器组之后,还包括:确定存在搜索服务器新加入多个搜索服务器;增加该搜索服务器而再次进行排序和分组。
在一个实施例中,确定多个搜索服务器的性能包括:采用预先设定的公式,根据包括以下至少之一的因素而确定多个搜索服务器的性能:CPU性能、内存性能、磁盘性能、CPU利用率、可用内存容量、磁盘输入输出性能、预定时间内平均每秒钟返回的搜索结果的数量、所在集群的网络环境。
在一个实施例中,在确定多个搜索服务器的性能之后,还包括:以自学习的方式来自适应调整公式。
根据本发明的另一个方面,提供了一种搜索装置,包括:接收模块,用于接收用户输入的搜索关键词;分发模块,用于将搜索关键词分发至预先确定的第一搜索服务器组,以便第一搜索服务器组中的每个搜索服务器在与其对应的全量索引库中对搜索关键词进行搜索,其中第一搜索服务器组的性能高于预先确定的第二搜索服务器组的性能;以及展示模块,用于对第一搜索服务器组返回的搜索结果进行展示。
在一个实施例中,该装置还包括:确定模块,用于确定多个搜索服务器的性能;排序模块,用于按照性能从高到低的顺序,对多个搜索服务器进行排序;第一分组模块,用于将排序在前的第一数量的搜索服务器分组作为第一搜索服务器组;第二分组模块,用于将排序在后的第二数量的搜索服务器分组作为第二搜索服务器组。
在一个实施例中,确定模块包括:确定子模块,用于采用预先 设定的公式,根据包括以下至少之一的因素而确定多个搜索服务器的性能:CPU性能、内存性能、磁盘性能、CPU利用率、可用内存容量、磁盘输入输出性能、预定时间内平均每秒钟返回的搜索结果的数量、所在集群的网络环境。
本发明通过预先根据各个搜索服务器的性能高低而确定第一搜索服务器组和第二搜索服务器组,并通过将搜索关键词分发至性能较高的第一搜索服务器组以便搜索,可以解决性能较低的搜索服务器所带来的先后搜索结果不一致以及存在搜索时间的长尾效应的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的搜索方法的流程图;以及
图2是根据本发明实施例的搜索装置的结构框图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
本发明提供了一种搜索方法。图1是根据本发明实施例的搜索方法的流程图,如图1所示,包括如下的步骤S102至步骤S106。
步骤S102,接收用户输入的搜索关键词。
步骤S104,将搜索关键词分发至预先确定的第一搜索服务器组,以便第一搜索服务器组中的每个搜索服务器在与其对应的全量索引库中对搜索关键词进行搜索,其中第一搜索服务器组的性能高于预先确定的第二搜索服务器组的性能。
步骤S106,对第一搜索服务器组返回的搜索结果进行展示。
相关技术中,实时搜索的先后搜索结果不一致以及存在搜索时间的长尾效应。本发明实施例中,通过预先根据各个搜索服务器的性能高低而确定第一搜索服务器组和第二搜索服务器组,并通过将搜索关键词分发至性能较高的第一搜索服务器组以便搜索,可以解决性能较低的搜索服务器所带来的先后搜索结果不一致以及存在搜索时间的长尾效应的问题。
在一个优选实施例中,在接收用户输入的搜索关键词之前,该方法还包括:确定多个搜索服务器的性能;按照性能从高到低的顺序,对多个搜索服务器进行排序;将排序在前的第一数量的搜索服务器分组作为第一搜索服务器组;以及将排序在后的第二数量的搜索服务器分组作为第二搜索服务器组。本优选实施例可以准确、快捷地确定该第一搜索服务器组。
在一个更加优选实施例中,在确定排序在前的第一数量的搜索服务器作为第一搜索服务器组之后,该方法还包括:每间隔预先确定的时间,对多个搜索服务器重复进行排序和分组。本优选实施例定时进行排序和分组,可以保证第一搜索服务器组的高性能。
在一个更加优选实施例中,在确定排序在前的第一数量的搜索服务器作为第一搜索服务器组之后,该方法还包括:确定第一搜索服务器组中的一个或多个搜索服务器失效;以及排除一个或多个搜索服务器而再次进行排序和分组。本优选实施例排除失效的搜索服务器,可以保证第一搜索服务器组的高性能。
在一个更加优选实施例中,在确定排序在前的第一数量的搜索服务器作为第一搜索服务器组之后,该方法还包括:确定存在搜索服务器新加入多个搜索服务器;以及增加该搜索服务器而再次进行排序和分组。本优选实施例增加更优的搜索服务器,可以保证第一搜索服务器组的高性能。
在一个优选实施例中,确定多个搜索服务器的性能包括:采用预先设定的公式,根据包括以下至少之一的因素而确定多个搜索服务器的性能:搜索服务器的硬件条件(CPU性能、内存性能、磁盘 性能)、搜索服务器的实时负载情况(CPU利用率、可用内存容量、磁盘输入输出性能)、搜索服务器的搜索性能(预定时间内平均每秒钟返回的搜索结果的数量)、搜索服务器的所在集群的网络环境。需要说明的是,上述因素仅仅作为举例,实际应用中,任何能够确定搜索服务器的性能的因素均应当纳入本发明的保护范围。
在一个更加优选实施例中,在确定多个搜索服务器的性能之后,该方法还包括:以自学习的方式来自适应调整该公式,从而使得该公式越来越准确。
本发明还提供了一种搜索装置。图2是根据本发明实施例的搜索装置的结构框图,如图2所示,包括:接收模块22、分发模块24和展示模块26,下面对其结构进行详细描述。
接收模块22,用于接收用户输入的搜索关键词;分发模块24,连接至接收模块22,用于将接收模块22接收的搜索关键词分发至预先确定的第一搜索服务器组,以便第一搜索服务器组中的每个搜索服务器在与其对应的全量索引库中对搜索关键词进行搜索,其中第一搜索服务器组的性能高于预先确定的第二搜索服务器组的性能;展示模块26,连接至分发模块24,用于对搜索关键词通过分发模块24分发至的第一搜索服务器组返回的搜索结果进行展示。
在一个优选实施例中,上述装置还包括:确定模块,用于确定多个搜索服务器的性能;排序模块,用于按照性能从高到低的顺序,对多个搜索服务器进行排序;第一分组模块,用于将排序在前的第一数量的搜索服务器分组作为第一搜索服务器组;第二分组模块,用于将排序在后的第二数量的搜索服务器分组作为第二搜索服务器组。
在一个优选实施例中,确定模块包括:确定子模块,用于采用预先设定的公式,根据包括以下至少之一的因素而确定多个搜索服务器的性能:CPU性能、内存性能、磁盘性能、CPU利用率、可用内存容量、磁盘输入输出性能、预定时间内平均每秒钟返回的搜索结果的数量、所在集群的网络环境。
综上所述,根据本发明的上述实施例,提供了一种搜索方法及装置。该方法包括:接收用户输入的搜索关键词;将搜索关键词分发至预先确定的第一搜索服务器组,以便第一搜索服务器组中的每个搜索服务器在与其对应的全量索引库中对搜索关键词进行搜索,其中第一搜索服务器组的性能高于预先确定的第二搜索服务器组的性能;以及对第一搜索服务器组返回的搜索结果进行展示。本发明可以解决相关技术中实时搜索的先后搜索结果不一致和搜索时间长尾效应的问题。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

搜索方法和装置.pdf_第1页
第1页 / 共8页
搜索方法和装置.pdf_第2页
第2页 / 共8页
搜索方法和装置.pdf_第3页
第3页 / 共8页
点击查看更多>>
资源描述

《搜索方法和装置.pdf》由会员分享,可在线阅读,更多相关《搜索方法和装置.pdf(8页珍藏版)》请在专利查询网上搜索。

本申请提供了一种搜索方法及装置,该方法包括:接收用户输入的搜索关键词;将搜索关键词分发至预先确定的第一搜索服务器组,以便第一搜索服务器组中的每个搜索服务器在与其对应的全量索引库中对搜索关键词进行搜索,其中第一搜索服务器组的性能高于预先确定的第二搜索服务器组的性能;以及对第一搜索服务器组返回的搜索结果进行展示。本发明可以解决相关技术中实时搜索的先后搜索结果不一致和搜索时间长尾效应的问题。 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1