《一种关联信息的检索方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种关联信息的检索方法及装置.pdf(26页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102955807 A(43)申请公布日 2013.03.06CN102955807A*CN102955807A*(21)申请号 201110248513.0(22)申请日 2011.08.26G06F 17/30(2006.01)(71)申请人华为软件技术有限公司地址 210000 江苏省南京市宁南大道11号花神国际大酒店(72)发明人方琦 钟杰萍 杜家春(74)专利代理机构北京三高永信知识产权代理有限责任公司 11138代理人刘映东(54) 发明名称一种关联信息的检索方法及装置(57) 摘要本发明实施例提供了一种关联信息的检索方法及装置,涉及通信领域,所述关联信息。
2、的检索方法包括:获取当前网页的源码,从所述源码中提取所述当前网页的正文;从所述正文中获取关键词集;获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述关键词的关联信息;所述关联信息的检索的装置包括:源码获取模块、正文提取模块、关键词集获取模块、类别获取模块、检索模块和关联信息获取模块。本发明实施例降低了网络传输量。(51)Int.Cl.权利要求书5页 说明书15页 附图5页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书 5 页 说明书 15 页 附图 5 页1/5页21.一种关。
3、联信息的检索方法,其特征在于,包括:获取当前网页的源码,从所述源码中提取所述当前网页的正文;从所述正文中获取关键词集;获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述关键词的关联信息。2.根据权利要求1所述的方法,其特征在于,所述获取当前网页的源码之前还包括:获取当前网页的基本信息,所述基本信息包括所述当前网页的统一资源定位符URL和/或更新时间;判断所述基本信息是否满足预置的网页分析条件;相应的,所述获取当前网页的源码具体为:当所述基本信息满足预置的网页分析条件时,获取所述当前网页的源码。3。
4、.根据权利要求2所述的方法,其特征在于,所述判断所述基本信息是否满足预置的网页分析条件包括:判断所述当前网页的URL是否满足网页URL范围和网页URL后缀的要求,和/或,判断所述当前网页的更新时间是否满足晚于第一时间的要求。4.根据权利要求1所述的方法,其特征在于,所述获取当前网页的源码包括:获取当前网页的URL,根据所述当前网页的URL获取所述当前网页的源码。5.根据权利要求1-4任一项所述的方法,其特征在于,所述从所述正文中获取关键词集包括:对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集;相应的,所述获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送。
5、所述关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述关键词的关联信息具体为:根据命名实体关键词与类别的对应关系,获取所述命名实体关键词集中的命名实体关键词对应的第一类别;其中,所述命名实体关键词与类别的对应关系以专有名词词典的形式存储;根据所述第一类别获取检索服务器的信息,发送所述命名实体关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述命名实体关键词的关联信息。6.根据权利要求5所述的方法,其特征在于,所述获取命名实体关键词集之后还包括:从所述正文中自动提取主题关键词,获取主题关键词集;将所述命名实体关键词集和所述主题关键词集进行交集运算,获取运算结。
6、果;将所述运算结果作为新的命名实体关键词集;相应的,所述根据命名实体关键词与类别的对应关系,获取所述命名实体关键词集中的命名实体关键词对应的第一类别具体为:根据命名实体关键词与类别的对应关系,获取所述新的命名实体关键词集中的命名实体关键词对应的第一类别。7.根据权利要求5或6所述的方法,其特征在于,当所述第一类别为多个时,所述根据权 利 要 求 书CN 102955807 A2/5页3所述第一类别获取检索服务器的信息之前还包括:对所述当前网页进行分类,获取所述当前网页的类别;根据所述第一类别与网页类别的对应关系,获取所述第一类别对应的网页类别;将所述第一类别对应的网页类别与所述当前网页的类别进。
7、行匹配,获取匹配后的第一类别对应的网页类别;将所述匹配后的网页类别对应的第一类别作为新的第一类别;相应的,所述根据所述第一类别获取检索服务器的信息具体为:根据所述新的第一类别获取检索服务器的信息。8.根据权利要求1-4任一项所述的方法,其特征在于,所述从所述正文中获取关键词集包括:从所述正文中自动提取主题关键词,获取主题关键词集;相应的,所述获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述关键词的关联信息具体为:判断所述主题关键词集中的主题关键词是否为命名实体关键词,如果是,根据所述主题关键词。
8、与类别的对应关系,获取所述主题关键词对应的第二类别;如果否,对所述当前网页进行分类,获取所述当前网页的类别,将所述当前网页的类别作为所述主题关键词对应的第二类别;根据所述第二类别获取检索服务器的信息,发送所述主题关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述主题关键词的关联信息。9.根据权利要求8所述的方法,其特征在于,所述获取主题关键词集之后还包括:对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集;将所述主题关键词集和所述命名实体关键词集进行交集运算,获取运算结果;将所述运算结果作为新的主题关键词集;相应的,所述判断所述主题关键词集中的主题关键词是否为命名。
9、实体关键词具体为:判断所述新的主题关键词集中的主题关键词是否为命名实体关键词。10.根据权利要求1-4任一项所述的方法,其特征在于,所述发送所述关键词至所述检索服务器进行检索之前还包括:根据所述类别设置检索条件;相应的,所述发送所述关键词至所述检索服务器具体为:发送所述关键词和所述检索条件至所述检索服务器进行检索。11.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述检索结果获取所述关键词的关联信息包括:对所述检索结果进行聚合与排序,形成新的检索结果,将所述新的检索结果作为所述关键词的关联信息。12.根据权利要求11所述的方法,其特征在于,所述对所述检索结果进行聚合与排序,形成新的。
10、检索结果包括:获取检索结果的前k条结果;权 利 要 求 书CN 102955807 A3/5页4按照公式计算所述前k条结果的得分,其中,ri是指第i个结果的得分,aj是第j个检索服务器的权重,aj由用户设置,是第i个结果在第j个检索服务器上的排序;按照所述前k条结果的得分从大到小进行排序;选择所述排序后的前n条结果作为新的检索结果;其中n和k为正整数,nk,n和k的数值由用户预先设置。13.一种关联信息的检索装置,其特征在于,包括:源码获取模块,用于获取当前网页的源码;正文提取模块,用于从所述源码中提取所述当前网页的正文;关键词集获取模块,用于从所述正文中获取关键词集;类别获取模块,用于获取所。
11、述关键词集中的关键词对应的类别;检索模块,用于根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;关联信息获取模块,用于根据所述检索结果获取所述关键词的关联信息。14.根据权利要求13所述的装置,其特征在于,还包括:网页信息获取模块,用于在所述获取当前网页的源码之前获取当前网页的基本信息,所述基本信息包括所述当前网页的统一资源定位符URL和/或更新时间;判断模块,用于判断所述基本信息是否满足预置的网页分析条件;相应的,所述源码获取模块包括:源码获取子模块,用于当所述基本信息满足预置的网页分析条件时,获取所述当前网页的源码。15.根据权利要求14所述的装置,其。
12、特征在于,所述判断模块包括:判断子模块,用于判断所述当前网页的URL是否满足网页URL范围和网页URL后缀的要求,和/或,判断所述当前网页的更新时间是否满足晚于第一时间的要求。16.根据权利要求13所述装置,其特征在于,所述源码获取子模块包括:源码获取单元,用于获取当前网页的URL,根据所述当前网页的URL获取所述当前网页的源码。17.根据权利要求13-16任一项所述的装置,其特征在于,所述关键词集获取模块包括:第一获取子模块,用于对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集;相应的,所述类别获取模块包括:第一类别获取子模块,用于根据命名实体关键词与类别的对应关系,获取所述命名。
13、实体关键词集中的命名实体关键词对应的第一类别;其中,所述命名实体关键词与类别的对应关系以专有名词词典的形式存储;所述检索模块包括:第一检索子模块,用于根据所述第一类别获取检索服务器的信息,发送所述命名实体关键词至所述检索服务器进行检索,获取检索结果;所述关联信息获取模块包括:权 利 要 求 书CN 102955807 A4/5页5第一关联信息获取子模块,用于根据所述检索结果获取所述命名实体关键词的关联信息。18.根据权利要求17所述的装置,其特征在于,所述关键词集获取模块还包括:第二获取子模块,用于在所述获取命名实体关键词集之后从所述正文中自动提取主题关键词,获取主题关键词集;第一运算子模块,。
14、用于将所述命名实体关键词集和所述主题关键词集进行交集运算,获取运算结果;第一设置子模块,用于将所述运算结果作为新的命名实体关键词集;相应的,所述第一类别获取子模块包括:第一类别获取单元,用于根据命名实体关键词与类别的对应关系,获取所述新的命名实体关键词集中的命名实体关键词对应的第一类别。19.根据权利要求17或18所述的装置,其特征在于,还包括:网页类别获取模块,用于当所述第一类别为多个时,所述根据所述第一类别获取检索服务器的信息之前对所述当前网页进行分类,获取所述当前网页的类别;对应类别获取模块,用于根据所述第一类别与网页类别的对应关系,获取所述第一类别对应的网页类别;匹配获取模块,用于将所。
15、述第一类别对应的网页类别与所述当前网页的类别进行匹配,获取匹配后的第一类别对应的网页类别;类别设置模块,用于将所述匹配后的网页类别对应的第一类别作为新的第一类别;相应的,所述第一检索子模块包括:第一获取单元,用于根据所述新的第一类别获取检索服务器的信息。20.根据权利要求13-16任一项所述的装置,其特征在于,所述关键词集获取模块包括:第三获取子模块,用于从所述正文中自动提取主题关键词,获取主题关键词集;相应的,所述类别获取模块包括:判断子模块,用于判断所述主题关键词集中的主题关键词是否为命名实体关键词,生成判断结果;第二类别获取子模块,用于当所述判断结果为是时,根据所述主题关键词和命名实体关。
16、键词与类别的对应关系,获取所述主题关键词对应的第二类别;当所述判断结果为否时,对所述当前网页进行分类,获取所述当前网页的类别,将所述当前网页的类别作为所述主题关键词对应的第二类别;所述检索模块包括:第二检索子模块,用于根据所述第二类别获取检索服务器的信息,发送所述主题关键词至所述检索服务器进行检索,获取检索结果;所述关联信息获取模块包括:第二关联信息获取子模块,用于根据所述检索结果获取所述主题关键词的关联信息。21.根据权利要求20所述的装置,其特征在于,所述关键词集获取模块还包括:第四获取子模块,用于对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集;权 利 要 求 书CN 102。
17、955807 A5/5页6第二运算子模块,用于将所述主题关键词集和所述命名实体关键词集进行交集运算,获取运算结果;第二设置子模块,用于将所述运算结果作为新的主题关键词集;相应的,所述判断子模块包括:判断单元,用于判断所述新的主题关键词集中的主题关键词是否为命名实体关键词。22.根据权利要求13-16任一项所述的装置,其特征在于,还包括:检索条件设置模块,用于在所述发送所述关键词至所述检索服务器之前根据所述类别设置检索条件;相应的,所述检索模块包括:发送子模块,用于发送所述关键词和所述检索条件至所述检索服务器进行检索。23.根据权利要求13-16任一项所述的装置,其特征在于,所述关联信息获取模块。
18、包括:聚合排序子模块,用于对所述检索结果进行聚合与排序,形成新的检索结果,将所述新的检索结果作为所述关键词的关联信息。24.根据权利要求23所述的装置,其特征在于,所述聚合排序子模块包括:第一获取单元,用于获取检索结果的前k条结果;计算单元,用于按照公式计算所述前k条结果的得分,其中,ri是指第i个结果的得分,aj是第j个检索服务器的权重,aj由用户设置,是第i个结果在第j个检索服务器上的排序;排序单元,用于按照所述前k条结果的得分从大到小进行排序;设置单元,用于选择所述排序后的前n条结果作为新的检索结果;其中n和k为正整数,nk,n和k的数值由用户预先设置。权 利 要 求 书CN 10295。
19、5807 A1/15页7一种关联信息的检索方法及装置技术领域0001 本发明涉及通信领域,特别涉及一种关联信息的检索方法及装置。背景技术0002 当今信息社会,信息的组织和获取至关重要。人们已经习惯通过电脑或手机访问互联网来获取信息。当人们在网上冲浪时,遇到感兴趣的网页或信息,往往希望能够获得更多的关联信息,以便对整个事件、事物或商品了解得更清楚。比如在浏览一篇关于某品牌手机的报道时,往往希望能够进一步看到关于该手机的图片、价格和应用软件等信息的介绍。0003 现有技术提供了一种对网页中的关键字进行即时检索的方法,包括:在向客户端加载网页的同时,启动关键字检索进程;实时监测并接收鼠标或键盘的操。
20、作;根据所述操作获取待查询的关键字;发送所述关键字到关键字检索服务器进行信息检索,将获得的检索结果传送到客户端;客户端即时显示所述检索结果。0004 现有技术在根据关键字进行检索时,没有考虑到当前网页的特征,使得检索的结果可能涵盖了很多与当前网页无关的页面,直接导致了信息的冗余,增大了网络传输量。发明内容0005 为了降低网络传输量,本发明实施例提供了一种关联信息的检索方法及装置。所述技术方案如下:0006 一种关联信息的检索方法,包括:0007 获取当前网页的源码,从所述源码中提取所述当前网页的正文;0008 从所述正文中获取关键词集;0009 获取所述关键词集中的关键词对应的类别,根据所述。
21、类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;0010 根据所述检索结果获取所述关键词的关联信息。0011 一种关联信息的检索装置,包括:0012 源码获取模块,用于获取当前网页的源码;0013 正文提取模块,用于从所述源码中提取所述当前网页的正文;0014 关键词集获取模块,用于从所述正文中获取关键词集;0015 类别获取模块,用于获取所述关键词集中的关键词对应的类别;0016 检索模块,用于根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;0017 关联信息获取模块,用于根据所述检索结果获取所述关键词的关联信息。001。
22、8 本发明实施例可使当用户浏览网页时对当前网页进行分析处理,获取关键词和关键词对应的类别,根据所述类别有针对性的选择合适的检索服务器进行检索并获得所述关键词的关联信息,相比较现有技术而言,本实施例参考了页面的特征信息,使得检索的结果更加贴合用户需求的信息,降低了信息冗余,降低了网络传输量。说 明 书CN 102955807 A2/15页8附图说明0019 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。002。
23、0 图1是本发明实施例1提供的一种关联信息的检索方法实施例的流程图;0021 图2是本发明实施例2提供的一种关联信息的检索方法实施例的流程图;0022 图3是本发明实施例3提供的一种关联信息的检索方法实施例的流程图;0023 图4是本发明实施例4提供的一种关联信息的检索装置实施例的结构示意图;0024 图5是本发明实施例5提供的一种关联信息的检索装置实施例的第一结构示意图;0025 图6是本发明实施例5提供的一种关联信息的检索装置实施例的第二结构示意图;0026 图7是本发明实施例提供的一种关联信息的检索装置实施例的第一结构示意图;0027 图8是本发明实施例提供的一种关联信息的检索装置实施例。
24、的第二结构示意图。具体实施方式0028 本发明实施例提供一种关联信息的检索方法及装置。0029 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。0030 实施例10031 参考图1,图1是本发明实施例1提供的一种关联信息的检索方法实施例的流程图;所述关联信息的检索方法包括:0032 S101:获取当前网页的源码,从所述源码中提取所述当前网页的正文。0033 S102:从所述正文中获取关键词集。0034 所述关键词集包括命名实体关键词集和/或主题关键词集,但是并不局限于此。其中,命名实体关键词具体为命名实体,即人名、机构名、地名以及其他所有以名称为标识。
25、的实体;所述主题关键词具体为能代表文章主题的关键词。0035 S103:获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果。0036 S104:根据所述检索结果获取所述关键词的关联信息。0037 本实施例中,当用户浏览网页时对当前网页进行分析处理,获取关键词和关键词对应的类别,根据所述类别有针对性的选择合适的检索服务器进行检索并获得所述关键词的关联信息,相比较现有技术而言,本实施例参考了页面的特征信息,使得检索的结果更加贴合用户需求的信息,降低了信息冗余,降低了网络传输量。0038 实施例20039 参考图2,图2是本发。
26、明实施例2提供的一种关联信息的检索方法实施例的流程图;所述关联信息的检索方法包括:说 明 书CN 102955807 A3/15页90040 S201:获取当前网页的基本信息,所述基本信息包括所述当前网页的统一资源定位符URL和/或更新时间。0041 实际应用中,当用户使用浏览器打开网页时,浏览器监控当前网页是否加载成功,如果是,获取所述当前网页的基本信息,例如:所述当前网页的URL(Uniform Resource Locator,统一资源定位符)和/或更新时间;如果否,结束。0042 实际应用中,根据不同的返回码来获取所述当前网页的加载状态;所述加载状态包括加载成功和加载失败,其中所述加载。
27、失败可以包括请求无效、禁止访问和内部服务器错误等;0043 所述返回码可以是HTTP(HyperText Transfer Protocol,超文本传输协议)响应状态码,但是并不局限于此。当所述返回码为HTTP200时,所述当前网页的加载状态为加载成功;当所述返回码为HTTP400时,所述当前网页的加载状态为请求无效,即加载失败;当所述返回码为HTTP403时,所述当前网页的加载状态为禁止访问,即加载失败;当返回码为HTTP500时,所述当前网页的加载状态为内部服务器错误,即加载失败;此处只是列举了几个HTTP响应状态码与加载状态之间的关系,但是并不局限于此。0044 本实施例中,所述返回码可。
28、以不是HTTP响应状态码,例如所述返回码包括000和001;当所述返回码为000时,所述当前网页的加载状态为加载正常,所述000对应上述HTTP200的情况;当所述返回码为001时,所述当前网页的加载状态为加载失败,所述001对应上述HTTP400、HTTP403和HTTP500的情况。0045 S202:判断所述基本信息是否满足预置的网页分析条件,如果是,执行S203。0046 所述网页分析条件可以由用户预先设置;所述网页分析条件包括网页URL范围和/或网页URL后缀和/或第一时间。0047 获取所述当前网页的URL和/或更新时间后,判断所述当前网页的URL是否满足网页URL范围和/或网页U。
29、RL后缀的要求,和/或,判断所述当前网页的更新时间是否满足晚于第一时间的要求。0048 优选地,判断所述当前网页的URL是否满足网页URL范围和网页URL后缀的要求,以及所述当前网页的更新时间是否满足晚于第一时间的要求;例如所述网页URL范围为“*”,其中*涵盖任意字符,所述网页URL后缀为“.html”,所述第一时间为“2010-05-01-00-00-00”,即2010年5月1日0时0分0秒,所述当前网页的URL为“http:/ 其中,所述网页分析条件中的网页URL范围、网页URL后缀和第一时间的个数可以为多个,并不局限于上述例子。当所述网页URL范围、网页URL后缀和第一时间的个数为多个。
30、时,对多个所述网页URL范围、多个所述网页URL后缀和多个所述第一时间分别预设优先级,在后续的处理过程中按照优先级顺序逐条进行判断;具体地,可以按照预设的第一优先说 明 书CN 102955807 A4/15页10级先判断所述当前网页的URL是否满足所述网页URL范围的要求,如果满足要求,然后再按照预设的第二优先级判断所述当前网页的URL是否满足网页URL后缀的要求,只有上述两个条件都满足了,再按照第三优先级判断所述当前网页的更新时间是否满足所述第一时间的要求,如果满足要求,说明所述当前网页的基本信息满足预置的网页分析条件,在分析范围内。此处只是列举了一种具体实现方式,但是并不局限于此,在此不。
31、再赘述。0050 如果所述基本信息不满足预置的网页分析条件,则直接结束。0051 S203:获取当前网页的源码,从所述源码中提取所述当前网页的正文。0052 如果所述基本信息满足预置的网页分析条件时,获取当前网页的源码。0053 具体地,可以直接从浏览器内核获取所述当前网页的源码;或者,根据所述当前网页的URL获取所述当前网页的源码。0054 所述当前网页的正文包括当前网页的标题和当前网页的正文内容。0055 实际应用中,对所述源码可以通过正则表达式来提取网页指定标签的内容,从而获取当前网页的标题和当前网页的正文内容;具体地,从所述源码的标签对中提取当前网页的标题,从所述源码的标签对中提取当前。
32、网页的正文内容。0056 优选地,还可以对所述当前网页的源码执行预定处理,以减轻后续的处理量;具体地,可以在所述当前网页的源码基础上截取标题Title和主体Body部分构成新的源码用于后续处理。0057 相应的,所述从所述源码中提取所述当前网页的正文,具体为:0058 从所述预定处理后的源码中提取所述当前网页的正文。0059 S204:从所述正文中获取命名实体关键词集。0060 实际应用中,对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集。0061 具体地,通过专有名词词典来对所述当前网页的正文进行命名实体的识别。对于所述专有名词词典中没有的专有名词,可以通过规则来进行命名实体的识。
33、别;所述规则可以使用各种命名实体的构成规则,例如中文人名构成规则:人名-;所述命名实体的识别是现有比较成熟的技术,具体可参照现有技术的相关描述,在此不再赘述。0062 从所述正文中获取的命名实体关键词的数目可能会很多,有些也许不能直接代表文章主题,优选地,本实施例在所述获取命名实体关键词集之后还包括:0063 从所述正文中自动提取主题关键词,获取主题关键词集;0064 具体地,从所述当前网页的标题和正文内容中自动提取能代表主题的主题关键词,从而获取主题关键词集。0065 具体地,可采用关键词提取算法从所述当前网页的标题和正文内容中自动提取能代表主题的主题关键词,所述关键词提取算法包括TFIDF(Term Frequency Inverse Document Frequency,词频逆向文件频率)算法、基于朴素贝叶斯模型的算法等,但并不局限于此。0066 将所述命名实体关键词集和所述主题关键词集进行交集运算,获取运算结果;0067 所述运算结果中的关键词既是命名实体关键词,又是主题关键词。0068 将所述运算结果作为新的命名实体关键词集。0069 S205:获取所述命名实体关键词集中的命名实体关键词对应的第一类别,根据所说 明 书CN 102955807 A10。