一种关联信息的检索方法及装置.pdf

上传人:1** 文档编号:1496378 上传时间:2018-06-18 格式:PDF 页数:26 大小:668.57KB
返回 下载 相关 举报
摘要
申请专利号:

CN201110248513.0

申请日:

2011.08.26

公开号:

CN102955807A

公开日:

2013.03.06

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20110826|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

华为软件技术有限公司

发明人:

方琦; 钟杰萍; 杜家春

地址:

210000 江苏省南京市宁南大道11号花神国际大酒店

优先权:

专利代理机构:

北京三高永信知识产权代理有限责任公司 11138

代理人:

刘映东

PDF下载: PDF下载
内容摘要

本发明实施例提供了一种关联信息的检索方法及装置,涉及通信领域,所述关联信息的检索方法包括:获取当前网页的源码,从所述源码中提取所述当前网页的正文;从所述正文中获取关键词集;获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述关键词的关联信息;所述关联信息的检索的装置包括:源码获取模块、正文提取模块、关键词集获取模块、类别获取模块、检索模块和关联信息获取模块。本发明实施例降低了网络传输量。

权利要求书

权利要求书一种关联信息的检索方法,其特征在于,包括:
获取当前网页的源码,从所述源码中提取所述当前网页的正文;
从所述正文中获取关键词集;
获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;
根据所述检索结果获取所述关键词的关联信息。
根据权利要求1所述的方法,其特征在于,所述获取当前网页的源码之前还包括:
获取当前网页的基本信息,所述基本信息包括所述当前网页的统一资源定位符URL和/或更新时间;
判断所述基本信息是否满足预置的网页分析条件;
相应的,所述获取当前网页的源码具体为:
当所述基本信息满足预置的网页分析条件时,获取所述当前网页的源码。
根据权利要求2所述的方法,其特征在于,所述判断所述基本信息是否满足预置的网页分析条件包括:
判断所述当前网页的URL是否满足网页URL范围和网页URL后缀的要求,和/或,判断所述当前网页的更新时间是否满足晚于第一时间的要求。
根据权利要求1所述的方法,其特征在于,所述获取当前网页的源码包括:
获取当前网页的URL,根据所述当前网页的URL获取所述当前网页的源码。
根据权利要求1‑4任一项所述的方法,其特征在于,所述从所述正文中获取关键词集包括:
对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集;
相应的,所述获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述关键词的关联信息具体为:
根据命名实体关键词与类别的对应关系,获取所述命名实体关键词集中的命名实体关键词对应的第一类别;其中,所述命名实体关键词与类别的对应关系以专有名词词典的形式存储;
根据所述第一类别获取检索服务器的信息,发送所述命名实体关键词至所述检索服务器进行检索,获取检索结果;
根据所述检索结果获取所述命名实体关键词的关联信息。
根据权利要求5所述的方法,其特征在于,所述获取命名实体关键词集之后还包括:
从所述正文中自动提取主题关键词,获取主题关键词集;
将所述命名实体关键词集和所述主题关键词集进行交集运算,获取运算结果;
将所述运算结果作为新的命名实体关键词集;
相应的,所述根据命名实体关键词与类别的对应关系,获取所述命名实体关键词集中的命名实体关键词对应的第一类别具体为:
根据命名实体关键词与类别的对应关系,获取所述新的命名实体关键词集中的命名实体关键词对应的第一类别。
根据权利要求5或6所述的方法,其特征在于,当所述第一类别为多个时,所述根据所述第一类别获取检索服务器的信息之前还包括:
对所述当前网页进行分类,获取所述当前网页的类别;
根据所述第一类别与网页类别的对应关系,获取所述第一类别对应的网页类别;
将所述第一类别对应的网页类别与所述当前网页的类别进行匹配,获取匹配后的第一类别对应的网页类别;
将所述匹配后的网页类别对应的第一类别作为新的第一类别;
相应的,所述根据所述第一类别获取检索服务器的信息具体为:
根据所述新的第一类别获取检索服务器的信息。
根据权利要求1‑4任一项所述的方法,其特征在于,所述从所述正文中获取关键词集包括:
从所述正文中自动提取主题关键词,获取主题关键词集;
相应的,所述获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述关键词的关联信息具体为:
判断所述主题关键词集中的主题关键词是否为命名实体关键词,如果是,根据所述主题关键词与类别的对应关系,获取所述主题关键词对应的第二类别;如果否,对所述当前网页进行分类,获取所述当前网页的类别,将所述当前网页的类别作为所述主题关键词对应的第二类别;根据所述第二类别获取检索服务器的信息,发送所述主题关键词至所述检索服务器进行检索,获取检索结果;
根据所述检索结果获取所述主题关键词的关联信息。
根据权利要求8所述的方法,其特征在于,所述获取主题关键词集之后还包括:
对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集;
将所述主题关键词集和所述命名实体关键词集进行交集运算,获取运算结果;
将所述运算结果作为新的主题关键词集;
相应的,所述判断所述主题关键词集中的主题关键词是否为命名实体关键词具体为:
判断所述新的主题关键词集中的主题关键词是否为命名实体关键词。
根据权利要求1‑4任一项所述的方法,其特征在于,所述发送所述关键词至所述检索服务器进行检索之前还包括:
根据所述类别设置检索条件;
相应的,所述发送所述关键词至所述检索服务器具体为:
发送所述关键词和所述检索条件至所述检索服务器进行检索。
根据权利要求1‑4任一项所述的方法,其特征在于,所述根据所述检索结果获取所述关键词的关联信息包括:
对所述检索结果进行聚合与排序,形成新的检索结果,将所述新的检索结果作为所述关键词的关联信息。
根据权利要求11所述的方法,其特征在于,所述对所述检索结果进行聚合与排序,形成新的检索结果包括:
获取检索结果的前k条结果;
按照公式计算所述前k条结果的得分,其中,ri是指第i个结果的得分,aj是第j个检索服务器的权重,aj由用户设置,是第i个结果在第j个检索服务器上的排序;
按照所述前k条结果的得分从大到小进行排序;
选择所述排序后的前n条结果作为新的检索结果;其中n和k为正整数,n≤k,n和k的数值由用户预先设置。
一种关联信息的检索装置,其特征在于,包括:
源码获取模块,用于获取当前网页的源码;
正文提取模块,用于从所述源码中提取所述当前网页的正文;
关键词集获取模块,用于从所述正文中获取关键词集;
类别获取模块,用于获取所述关键词集中的关键词对应的类别;
检索模块,用于根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;
关联信息获取模块,用于根据所述检索结果获取所述关键词的关联信息。
根据权利要求13所述的装置,其特征在于,还包括:
网页信息获取模块,用于在所述获取当前网页的源码之前获取当前网页的基本信息,所述基本信息包括所述当前网页的统一资源定位符URL和/或更新时间;
判断模块,用于判断所述基本信息是否满足预置的网页分析条件;
相应的,所述源码获取模块包括:
源码获取子模块,用于当所述基本信息满足预置的网页分析条件时,获取所述当前网页的源码。
根据权利要求14所述的装置,其特征在于,所述判断模块包括:
判断子模块,用于判断所述当前网页的URL是否满足网页URL范围和网页URL后缀的要求,和/或,判断所述当前网页的更新时间是否满足晚于第一时间的要求。
根据权利要求13所述装置,其特征在于,所述源码获取子模块包括:
源码获取单元,用于获取当前网页的URL,根据所述当前网页的URL获取所述当前网页的源码。
根据权利要求13‑16任一项所述的装置,其特征在于,所述关键词集获取模块包括:
第一获取子模块,用于对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集;
相应的,所述类别获取模块包括:
第一类别获取子模块,用于根据命名实体关键词与类别的对应关系,获取所述命名实体关键词集中的命名实体关键词对应的第一类别;其中,所述命名实体关键词与类别的对应关系以专有名词词典的形式存储;
所述检索模块包括:
第一检索子模块,用于根据所述第一类别获取检索服务器的信息,发送所述命名实体关键词至所述检索服务器进行检索,获取检索结果;
所述关联信息获取模块包括:
第一关联信息获取子模块,用于根据所述检索结果获取所述命名实体关键词的关联信息。
根据权利要求17所述的装置,其特征在于,所述关键词集获取模块还包括:
第二获取子模块,用于在所述获取命名实体关键词集之后从所述正文中自动提取主题关键词,获取主题关键词集;
第一运算子模块,用于将所述命名实体关键词集和所述主题关键词集进行交集运算,获取运算结果;
第一设置子模块,用于将所述运算结果作为新的命名实体关键词集;
相应的,所述第一类别获取子模块包括:
第一类别获取单元,用于根据命名实体关键词与类别的对应关系,获取所述新的命名实体关键词集中的命名实体关键词对应的第一类别。
根据权利要求17或18所述的装置,其特征在于,还包括:
网页类别获取模块,用于当所述第一类别为多个时,所述根据所述第一类别获取检索服务器的信息之前对所述当前网页进行分类,获取所述当前网页的类别;
对应类别获取模块,用于根据所述第一类别与网页类别的对应关系,获取所述第一类别对应的网页类别;
匹配获取模块,用于将所述第一类别对应的网页类别与所述当前网页的类别进行匹配,获取匹配后的第一类别对应的网页类别;
类别设置模块,用于将所述匹配后的网页类别对应的第一类别作为新的第一类别;
相应的,所述第一检索子模块包括:
第一获取单元,用于根据所述新的第一类别获取检索服务器的信息。
根据权利要求13‑16任一项所述的装置,其特征在于,所述关键词集获取模块包括:
第三获取子模块,用于从所述正文中自动提取主题关键词,获取主题关键词集;
相应的,所述类别获取模块包括:
判断子模块,用于判断所述主题关键词集中的主题关键词是否为命名实体关键词,生成判断结果;
第二类别获取子模块,用于当所述判断结果为是时,根据所述主题关键词和命名实体关键词与类别的对应关系,获取所述主题关键词对应的第二类别;当所述判断结果为否时,对所述当前网页进行分类,获取所述当前网页的类别,将所述当前网页的类别作为所述主题关键词对应的第二类别;
所述检索模块包括:
第二检索子模块,用于根据所述第二类别获取检索服务器的信息,发送所述主题关键词至所述检索服务器进行检索,获取检索结果;
所述关联信息获取模块包括:
第二关联信息获取子模块,用于根据所述检索结果获取所述主题关键词的关联信息。
根据权利要求20所述的装置,其特征在于,所述关键词集获取模块还包括:
第四获取子模块,用于对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集;
第二运算子模块,用于将所述主题关键词集和所述命名实体关键词集进行交集运算,获取运算结果;
第二设置子模块,用于将所述运算结果作为新的主题关键词集;
相应的,所述判断子模块包括:
判断单元,用于判断所述新的主题关键词集中的主题关键词是否为命名实体关键词。
根据权利要求13‑16任一项所述的装置,其特征在于,还包括:
检索条件设置模块,用于在所述发送所述关键词至所述检索服务器之前根据所述类别设置检索条件;
相应的,所述检索模块包括:
发送子模块,用于发送所述关键词和所述检索条件至所述检索服务器进行检索。
根据权利要求13‑16任一项所述的装置,其特征在于,所述关联信息获取模块包括:
聚合排序子模块,用于对所述检索结果进行聚合与排序,形成新的检索结果,将所述新的检索结果作为所述关键词的关联信息。
根据权利要求23所述的装置,其特征在于,所述聚合排序子模块包括:
第一获取单元,用于获取检索结果的前k条结果;
计算单元,用于按照公式计算所述前k条结果的得分,其中,ri是指第i个结果的得分,aj是第j个检索服务器的权重,aj由用户设置,是第i个结果在第j个检索服务器上的排序;
排序单元,用于按照所述前k条结果的得分从大到小进行排序;
设置单元,用于选择所述排序后的前n条结果作为新的检索结果;其中n和k为正整数,n≤k,n和k的数值由用户预先设置。

说明书

说明书一种关联信息的检索方法及装置
技术领域
本发明涉及通信领域,特别涉及一种关联信息的检索方法及装置。
背景技术
当今信息社会,信息的组织和获取至关重要。人们已经习惯通过电脑或手机访问互联网来获取信息。当人们在网上冲浪时,遇到感兴趣的网页或信息,往往希望能够获得更多的关联信息,以便对整个事件、事物或商品了解得更清楚。比如在浏览一篇关于某品牌手机的报道时,往往希望能够进一步看到关于该手机的图片、价格和应用软件等信息的介绍。
现有技术提供了一种对网页中的关键字进行即时检索的方法,包括:在向客户端加载网页的同时,启动关键字检索进程;实时监测并接收鼠标或键盘的操作;根据所述操作获取待查询的关键字;发送所述关键字到关键字检索服务器进行信息检索,将获得的检索结果传送到客户端;客户端即时显示所述检索结果。
现有技术在根据关键字进行检索时,没有考虑到当前网页的特征,使得检索的结果可能涵盖了很多与当前网页无关的页面,直接导致了信息的冗余,增大了网络传输量。
发明内容
为了降低网络传输量,本发明实施例提供了一种关联信息的检索方法及装置。所述技术方案如下:
一种关联信息的检索方法,包括:
获取当前网页的源码,从所述源码中提取所述当前网页的正文;
从所述正文中获取关键词集;
获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;
根据所述检索结果获取所述关键词的关联信息。
一种关联信息的检索装置,包括:
源码获取模块,用于获取当前网页的源码;
正文提取模块,用于从所述源码中提取所述当前网页的正文;
关键词集获取模块,用于从所述正文中获取关键词集;
类别获取模块,用于获取所述关键词集中的关键词对应的类别;
检索模块,用于根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;
关联信息获取模块,用于根据所述检索结果获取所述关键词的关联信息。
本发明实施例可使当用户浏览网页时对当前网页进行分析处理,获取关键词和关键词对应的类别,根据所述类别有针对性的选择合适的检索服务器进行检索并获得所述关键词的关联信息,相比较现有技术而言,本实施例参考了页面的特征信息,使得检索的结果更加贴合用户需求的信息,降低了信息冗余,降低了网络传输量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的一种关联信息的检索方法实施例的流程图;
图2是本发明实施例2提供的一种关联信息的检索方法实施例的流程图;
图3是本发明实施例3提供的一种关联信息的检索方法实施例的流程图;
图4是本发明实施例4提供的一种关联信息的检索装置实施例的结构示意图;
图5是本发明实施例5提供的一种关联信息的检索装置实施例的第一结构示意图;
图6是本发明实施例5提供的一种关联信息的检索装置实施例的第二结构示意图;
图7是本发明实施例提供的一种关联信息的检索装置实施例的第一结构示意图;
图8是本发明实施例提供的一种关联信息的检索装置实施例的第二结构示意图。
具体实施方式
本发明实施例提供一种关联信息的检索方法及装置。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
参考图1,图1是本发明实施例1提供的一种关联信息的检索方法实施例的流程图;所述关联信息的检索方法包括:
S101:获取当前网页的源码,从所述源码中提取所述当前网页的正文。
S102:从所述正文中获取关键词集。
所述关键词集包括命名实体关键词集和/或主题关键词集,但是并不局限于此。其中,命名实体关键词具体为命名实体,即人名、机构名、地名以及其他所有以名称为标识的实体;所述主题关键词具体为能代表文章主题的关键词。
S103:获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果。
S104:根据所述检索结果获取所述关键词的关联信息。
本实施例中,当用户浏览网页时对当前网页进行分析处理,获取关键词和关键词对应的类别,根据所述类别有针对性的选择合适的检索服务器进行检索并获得所述关键词的关联信息,相比较现有技术而言,本实施例参考了页面的特征信息,使得检索的结果更加贴合用户需求的信息,降低了信息冗余,降低了网络传输量。
实施例2
参考图2,图2是本发明实施例2提供的一种关联信息的检索方法实施例的流程图;所述关联信息的检索方法包括:
S201:获取当前网页的基本信息,所述基本信息包括所述当前网页的统一资源定位符URL和/或更新时间。
实际应用中,当用户使用浏览器打开网页时,浏览器监控当前网页是否加载成功,如果是,获取所述当前网页的基本信息,例如:所述当前网页的URL(Uniform Resource Locator,统一资源定位符)和/或更新时间;如果否,结束。
实际应用中,根据不同的返回码来获取所述当前网页的加载状态;所述加载状态包括加载成功和加载失败,其中所述加载失败可以包括请求无效、禁止访问和内部服务器错误等;
所述返回码可以是HTTP(HyperText Transfer Protocol,超文本传输协议)响应状态码,但是并不局限于此。当所述返回码为HTTP200时,所述当前网页的加载状态为加载成功;当所述返回码为HTTP400时,所述当前网页的加载状态为请求无效,即加载失败;当所述返回码为HTTP403时,所述当前网页的加载状态为禁止访问,即加载失败;当返回码为HTTP500时,所述当前网页的加载状态为内部服务器错误,即加载失败;此处只是列举了几个HTTP响应状态码与加载状态之间的关系,但是并不局限于此。
本实施例中,所述返回码可以不是HTTP响应状态码,例如所述返回码包括000和001;当所述返回码为000时,所述当前网页的加载状态为加载正常,所述000对应上述HTTP200的情况;当所述返回码为001时,所述当前网页的加载状态为加载失败,所述001对应上述HTTP400、HTTP403和HTTP500的情况。
S202:判断所述基本信息是否满足预置的网页分析条件,如果是,执行S203。
所述网页分析条件可以由用户预先设置;所述网页分析条件包括网页URL范围和/或网页URL后缀和/或第一时间。
获取所述当前网页的URL和/或更新时间后,判断所述当前网页的URL是否满足网页URL范围和/或网页URL后缀的要求,和/或,判断所述当前网页的更新时间是否满足晚于第一时间的要求。
优选地,判断所述当前网页的URL是否满足网页URL范围和网页URL后缀的要求,以及所述当前网页的更新时间是否满足晚于第一时间的要求;例如所述网页URL范围为“*.sina.com.cn”,其中*涵盖任意字符,所述网页URL后缀为“.html”,所述第一时间为“2010‑05‑01‑00‑00‑00”,即2010年5月1日0时0分0秒,所述当前网页的URL为“http://tech.sina.com.cn/it/2010‑07‑08/21154403865.html”,所述当前网页的更新时间为“2010‑06‑01‑00‑00‑00”,所述更新时间表示2010年6月1日0时0分0秒,所述更新时间可以通过所述当前网页的Document对象提取,此部分与现有技术类似,在此不再赘述;经分析:“tech.sina.com.cn”满足网页URL范围为“*.sina.com.cn”的要求,“.html”满足网页URL后缀为“.html”的要求,“2010‑06‑01‑00‑00‑00”满足晚于第一时间“2010‑05‑01‑00‑00‑00”的要求,因此所述当前网页的基本信息满足预置的网页分析条件,在分析范围内。
其中,所述网页分析条件中的网页URL范围、网页URL后缀和第一时间的个数可以为多个,并不局限于上述例子。当所述网页URL范围、网页URL后缀和第一时间的个数为多个时,对多个所述网页URL范围、多个所述网页URL后缀和多个所述第一时间分别预设优先级,在后续的处理过程中按照优先级顺序逐条进行判断;具体地,可以按照预设的第一优先级先判断所述当前网页的URL是否满足所述网页URL范围的要求,如果满足要求,然后再按照预设的第二优先级判断所述当前网页的URL是否满足网页URL后缀的要求,只有上述两个条件都满足了,再按照第三优先级判断所述当前网页的更新时间是否满足所述第一时间的要求,如果满足要求,说明所述当前网页的基本信息满足预置的网页分析条件,在分析范围内。此处只是列举了一种具体实现方式,但是并不局限于此,在此不再赘述。
如果所述基本信息不满足预置的网页分析条件,则直接结束。
S203:获取当前网页的源码,从所述源码中提取所述当前网页的正文。
如果所述基本信息满足预置的网页分析条件时,获取当前网页的源码。
具体地,可以直接从浏览器内核获取所述当前网页的源码;或者,根据所述当前网页的URL获取所述当前网页的源码。
所述当前网页的正文包括当前网页的标题和当前网页的正文内容。
实际应用中,对所述源码可以通过正则表达式来提取网页指定标签的内容,从而获取当前网页的标题和当前网页的正文内容;具体地,从所述源码的<title></title>标签对中提取当前网页的标题,从所述源码的<P></P>标签对中提取当前网页的正文内容。
优选地,还可以对所述当前网页的源码执行预定处理,以减轻后续的处理量;具体地,可以在所述当前网页的源码基础上截取标题Title和主体Body部分构成新的源码用于后续处理。
相应的,所述从所述源码中提取所述当前网页的正文,具体为:
从所述预定处理后的源码中提取所述当前网页的正文。
S204:从所述正文中获取命名实体关键词集。
实际应用中,对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集。
具体地,通过专有名词词典来对所述当前网页的正文进行命名实体的识别。对于所述专有名词词典中没有的专有名词,可以通过规则来进行命名实体的识别;所述规则可以使用各种命名实体的构成规则,例如中文人名构成规则:人名‑<姓氏><名字>;所述命名实体的识别是现有比较成熟的技术,具体可参照现有技术的相关描述,在此不再赘述。
从所述正文中获取的命名实体关键词的数目可能会很多,有些也许不能直接代表文章主题,优选地,本实施例在所述获取命名实体关键词集之后还包括:
从所述正文中自动提取主题关键词,获取主题关键词集;
具体地,从所述当前网页的标题和正文内容中自动提取能代表主题的主题关键词,从而获取主题关键词集。
具体地,可采用关键词提取算法从所述当前网页的标题和正文内容中自动提取能代表主题的主题关键词,所述关键词提取算法包括TFIDF(Term Frequency Inverse Document Frequency,词频逆向文件频率)算法、基于朴素贝叶斯模型的算法等,但并不局限于此。
将所述命名实体关键词集和所述主题关键词集进行交集运算,获取运算结果;
所述运算结果中的关键词既是命名实体关键词,又是主题关键词。
将所述运算结果作为新的命名实体关键词集。
S205:获取所述命名实体关键词集中的命名实体关键词对应的第一类别,根据所述第一类别获取检索服务器的信息,发送所述命名实体关键词至所述检索服务器进行检索,获取检索结果。
所述专有名词词典记录每个专有名词对应类型的哈希词表,所述命名实体关键词属于专有名词。所述专有名词词典中还保存专有名词与其对应的类别ID的对应关系,形如<key,type_ID>,如表1所示,其中key表示关键词,type_ID表示类别ID;此外,所述专有名词词典中还相应包括类别定义表,如表2所示,其中type_name表示专有名词对应的类别。
表1
key  type_ID苹果  1,2巴西  3华为  4E72  2、、、  、、、
表2
  type_ID  type_name  1  水果名  2  电子产品型号  3  国家名  4  企业名  5  歌曲名  、、、  、、、
无论本实施例的执行主体是位于客户端还是位于服务器端,所述专有名词词典可以存储于客户端或服务器端,具体地,可以由人工对客户端或服务器端的专有名词词典进行维护更新。
所述获取所述命名实体关键词集中的命名实体关键词对应的第一类别包括:
根据命名实体关键词与第一类别的对应关系,查询所述专有名词词典,获取所述命名实体关键词集中的命名实体关键词对应的第一类别;其中,所述命名实体关键词与第一类别的对应关系以专有名词词典的形式存储,且所述命名实体关键词与第一类别的对应关系通过表1和表2来实现,所述命名实体关键词对应key,所述第一类别对应type_name。
例如:所述命名实体关键词集包括苹果和E72两个命名实体关键词,那么根据所述专有名词词典的表1和表2,获取苹果对应的类别为水果名和电子产品型号,E72对应的类别为电子产品型号。
如果所述命名实体关键词集为与主题关键词集进行交集运算之后的新的命名实体关键词集的话,相应的,所述根据所述命名实体关键词集和命名实体关键词与类别的对应关系,获取所述命名实体关键词集中的命名实体关键词对应的第一类别具体为:
根据命名实体关键词与类别的对应关系,获取所述新的命名实体关键词集中的命名实体关键词对应的第一类别。
本实施例中,在获取所述命名实体关键词集中的命名实体关键词对应的第一类别后,根据第一类别与检索服务器的对应关系获取所述第一类别对应的检索服务器的信息,其中所述检索服务器的信息包括但不限于所述检索服务器的地址,根据所述检索服务器的信息可以直接获知其对应的检索服务器;所述第一类别与检索服务器的对应关系以映射关系表的形式存储,如表3所示;其中用户可以对所述映射关系表3进行增删查改操作。
表3
  第一类别  检索服务器  水果名  百度百科  电子产品型号  比价网  国家名  百度百科  企业名  企业百科  歌曲名  MP3检索  、、、  、、、
获取所述检索服务器后,将所述命名实体关键词作为检索请求发送至所述检索服务器进行检索,获取检索结果。
S206:根据所述检索结果获取所述命名实体关键词的关联信息。
实际应用中,所述根据所述检索结果获取所述命名实体关键词的关联信息包括:
对所述检索结果进行聚合与排序,形成新的检索结果,将所述新的检索结果作为所述关键词的关联信息。
具体地,所述对所述检索结果进行聚合与排序,形成新的检索结果包括:
获取检索结果的前k条结果;
按照公式计算所述前k条结果的得分,其中,ri是指第i个结果的得分,aj是第j个检索服务器的权重,aj由用户设置,是第i个结果在第j个检索服务器上的排序;
按照所述前k条结果的得分从大到小进行排序;
选择所述排序后的前n条结果作为新的检索结果;其中n和k为正整数,n≤k,n和k的数值由用户预先设置。
S207:向用户显示所述命名实体关键词的关联信息。
实际应用中,当用户请求显示关联信息时,将所述关键词的关联信息呈现在检索结果界面中供用户查看。
本实施例中,优选地,所述发送所述关键词至所述检索服务器进行检索之前还包括:
根据所述第一类别设置检索条件;
具体地,所述检索条件可以为与命名实体关键词直接相关的检索范围,例如:所述命名实体关键词是“体育”,所述检索条件可以是“site:sports.sina.com.cn”,但是并不局限于此。所述检索条件还可以是与更新时间相关的检索范围,例如所述检索条件可以是“晚于2011年5月1日19时00分00秒的网页”,更新时间的获取可以利用Document对象的方法“document.lastModified”方便地实现,属于本领域里的技术人员公知的技术手段,这里不再详述。需要提出的是,所述检索条件并不局限于此,在此不再赘述。
相应的,在所述发送所述命名实体关键词至所述检索服务器具体为:
发送所述命名实体关键词和所述检索条件至所述检索服务器进行检索。
具体地,还可以发送所述命名实体关键词和所述检索条件至谷歌、百度等通用检索服务器。用户可以对所述检索条件进行增删查改等操作。
此外,本实施例中,当所述第一类别为多个时,例如当命名实体关键词为“苹果”时,其对应的第一类别为“水果名”和“电子产品型号”;所述根据所述类别获取检索服务器之前还包括:
对所述当前网页进行分类,获取所述当前网页的类别;
具体地,所述当前网页的类别结构可以自定义,例如所述当前网页对应的类别包括体育、财经、科技、教育和军事等,在此不一一列举。定义了所述类别结构后,利用支持向量机或朴素贝叶斯方法学习得到一个分类器,采用所述分类器对所述当前网页进行分类,获取所述当前网页的类别;例如:当前网页的类别是“科技”。其中,所述采用所述分类器对所述当前网页进行分类的技术为现有技术,具体可参见现有技术描述,在此不再赘述。
根据所述第一类别与网页类别的对应关系,获取所述第一类别对应的网页类别;
本实施例中所述第一类别为命名实体类别,具体地,可以根据命名实体类别与网页类别的对应关系,获取所述第一类别对应的网页类别;所述命名实体类别与网页类别的对应关系一映射关系表的形式存储,如表4所示,其中用户可以对所述映射关系表4进行增删查改操作。
表4
  命名实体类别  网页类别  水果名  美食  电子产品型号  科技  书籍名  教育  舰艇名  军事  、、、  、、、
从表4可知,所述“水果名”对应的网页类别是“美食”,所述“电子产品型号”对应的网页类别是“科技”。
将所述第一类别对应的网页类别与所述当前网页的类别进行匹配,获取匹配后的第一类别对应的网页类别;
具体地,将“美食”和“科技”与当前网页的类别“科技”进行匹配,获取匹配后的第一类别对应的网页类别为“科技”。
将所述匹配后的网页类别对应的第一类别作为新的第一类别;
具体地,将所述“科技”对应的第一类别“电子产品型号”作为新的第一类别。
相应的,所述根据所述类别获取检索服务器具体为:
根据所述第一类别获取检索服务器的信息。
本实施例中,当用户浏览网页时对当前网页进行分析处理,获取命名实体关键词和其对应的类别,根据所述类别有针对性的选择合适的检索服务器进行检索并获得所述命名实体关键词的关联信息,相比较现有技术而言,本实施例参考了当前页面的命名实体关键词的类别信息,使得检索的结果更加贴合用户需求的信息,降低了信息冗余,降低了网络传输量。
命名实体关键词的指向性明确,因此根据所述命名实体关键词及其对应的类别获取的关联信息更加贴合用户的需求,使得用户的业务体验度提高。
此外,在主题关键词的提取时为自动提取,使得自动处理能力增强。
实施例3
参考图3,图3是本发明实施例3提供的一种关联信息的检索方法实施例的流程图;所述关联信息的检索方法包括:
S301:获取当前网页的基本信息,所述基本信息包括所述当前网页的统一资源定位符URL和/或更新时间。
本实施例中的S301与实施例2中的S201类似,在此不再赘述,具体可参照实施例2中S201的相关描述。
S302:判断所述基本信息是否满足预置的网页分析条件,如果是,执行S303。
本实施例中的S302与实施例2中的S202类似,在此不再赘述,具体可参照实施例2中S202的相关描述。
S303:获取当前网页的源码,从所述源码中提取所述当前网页的正文。
本实施例中的S303与实施例2中的S203类似,在此不再赘述,具体可参照实施例2中S203的相关描述。
S304:从所述正文中获取主题关键词集。
实际应用中,从所述当前网页的正文中自动提取主题关键词,获取主题关键词集;
具体地,对所述当前网页的正文可以采用关键词提取算法,如:TFIDF算法、基于朴素贝叶斯模型的方法等,但并不局限于此。
优选地,本实施例在获取主题关键词集之后还包括:
对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集;
具体地,通过专有名词词典来对所述当前网页的正文进行命名实体的识别;对于所述专有名词词典中没有的专有名词,可以通过规则来进行命名实体的识别。
将所述主题关键词集和所述命名实体关键词集进行交集运算,获取运算结果;
所述运算结果中的关键词既是主题关键词,又是命名实体关键词。
将所述运算结果作为新的主题关键词集;
S305:获取所述主题关键词集中的主题关键词对应的第二类别,根据所述第二类别获取检索服务器的信息,发送所述主题关键词至所述检索服务器进行检索,获取检索结果。
实际应用中,所述获取所述主题关键词集中的主题关键词对应的类别具体为:
判断所述主题关键词集中的主题关键词是否为命名实体关键词,如果是,根据所述主题关键词与类别的对应关系,获取所述主题关键词对应的第二类别;如果否,对所述当前网页进行分类,获取所述当前网页的类别,将所述当前网页的类别作为所述主题关键词对应的第二类别。
具体地,如果所述主题关键词是命名实体关键词,可以采用实施例2中S205中获取命名实体关键词对应的类别的方法实现,在此不再赘述,可参见实施例2的相关描述。其中,此时所述第二类别结构与命名实体关键词对应的类别结构相同,如第二类别包括水果名、国家名、电子产品型号等。
如果所述主题关键词不是命名实体关键词,对所述当前网页进行分类,获取所述当前网页的类别;具体地,所述当前网页对应的类别结构可以自定义,例如所述当前网页对应的类别包括体育、财经、科技、教育和军事等,在此不一一列举。定义了所述类别结构后,利用支持向量机或朴素贝叶斯方法学习得到一个分类器,采用所述分类器对所述当前网页进行分类,将所述当前网页的类别作为所述主题关键词对应的第二类别。具体地,将所述当前网页的文本内容作为所述分类器的输入,便可获取所述当前网页的类别。如将“姚明正式宣布退役巨人:离开球场不是离开篮球”的当前网页的文本内容输入所述分类器,便可获取所述当前网页的类别为体育,即所述主题关键词对应的第二类别为体育。其中,此时所述第二类别的结构为所述当前网页对应的的类别结构。
如果所述主题关键词集为与命名实体关键词集进行交集运算之后的新的主题关键词集的话,即所述新的主题关键词集也是命名实体关键词,因此,直接根据命名实体关键词与类别的对应关系,获取所述主题关键词对应的第二类别;
本实施例中,在获取所述主题关键词集中的主题关键词对应的第二类别后,根据所述第二类别与检索服务器的对应关系获取所述第二类别对应的检索服务器的信息,其中所述检索服务器的信息包括但不限于所述检索服务器的地址,根据所述检索服务器的信息可以直接获知其对应的检索服务器;所述第二类别与检索服务器的对应关系以映射关系表的形式存储,如表5所示;其中用户可以对所述映射关系表5进行增删查改操作。
表5
  第二类别  检索服务器  体育  www.baidu.com  财经  www.baidu.com  科技  www.baidu.com  教育  www.baidu.com  军事  www.google.com  、、、  、、、
获取所述检索服务器的信息后,将所述主题关键词作为检索请求发送至所述检索服务器进行检索,获取检索结果。
S306:根据所述检索结果获取所述主题关键词的关联信息。
所述获取所述主题关键词的关联信息的方法与实施例2中所述获取所述命名实体关键词的关联信息的方法类似,在此不再赘述,可参见实施例2的相关描述。
优选地,在所述发送所述主题关键词至所述检索服务器进行之前还包括:
根据所述第二类别设置检索条件;
具体地,例如所述第二类别为体育,所述检索条件可以设置为“site:sports.sina.com.cn”。
相应的,所述发送所述主题关键词至所述检索服务器进行检索具体为:
发送所述主题关键词和所述检索条件至所述检索服务器进行检索。
具体地,还可以发送所述主题关键词和所述检索条件至谷歌、百度等通用检索服务器。用户可以对所述检索条件进行增删查改等操作。
S307:向用户显示所述主题关键词的关联信息。
本实施例中S306与实施例2中S206类似,在此不再赘述,可参见实施例2的相关描述。
本实施例中,当用户浏览网页时对当前网页进行分析处理,获取主题关键词和其对应的类别,根据所述类别有针对性的选择合适的检索服务器进行检索并获得所述命名实体关键词的关联信息,相比较现有技术而言,本实施例参考了当前页面的主题关键词的类别信息,使得检索的结果更加贴合用户需求的信息,降低了信息冗余,降低了网络传输量。
此外,在主题关键词的提取时为自动提取,使得自动处理能力增强。本实施例中还设置了检索条件发送至检索服务器,是的获取的关联信息跟所述当前网页的领域更加相关,提高了用户的业务体验度。
实施例4
参考图4,图4是本发明实施例4提供的一种关联信息的检索装置实施例的结构示意图;所述关联信息的检索装置包括:
源码获取模块401,用于获取当前网页的源码。
正文提取模块402,用于从所述源码中提取所述当前网页的正文。
关键词集获取模块403,用于从所述正文中获取关键词集。
类别获取模块404,用于获取所述关键词集中的关键词对应的类别。
检索模块405,用于根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果。
关联信息获取模块406,用于根据所述检索结果获取所述关键词的关联信息。
本实施例中,所述关联信息的检索装置可以位于客户端的浏览器中,以浏览器插件的形式存储,也可以位于服务器端。
本实施例中,当用户浏览网页时对当前网页进行分析处理,获取关键词和其对应的类别,根据所述类别有针对性的选择合适的检索服务器进行检索并获得所述关键词的关联信息,相比较现有技术而言,本实施例参考了当前页面关键词的类别信息,使得检索的结果更加贴合用户需求的信息,降低了信息冗余,降低了网络传输量。
实施例5
参考图5,图5是本发明实施例5提供的一种关联信息的检索装置实施例的第一结构示意图;所述关联信息的检索装置包括:源码获取模块401、正文提取模块402、关键词集获取模块403、类别获取模块404、检索模块405和关联信息获取模块406;
所述正文提取模块402的功能与实施例4中所述正文提取模块402的功能类似,在此不再赘述,详见实施例4的相关描述。
所述关联信息的检索装置还包括:网页信息获取模块407和判断模块408;
所述网页信息获取模块407,用于在所述获取当前网页的源码之前获取当前网页的基本信息,所述基本信息包括所述当前网页的统一资源定位符URL和/或更新时间。
所述判断模块408,用于判断所述基本信息是否满足预置的网页分析条件。
其中所述判断模块408包括判断子模块4081;
所述判断子模块4081,用于判断所述当前网页的URL是否满足网页URL范围和网页URL后缀的要求,和/或,判断所述当前网页的更新时间是否满足晚于第一时间的要求。
相应的,所述源码获取模块401包括:
源码获取子模块4011,用于当所述基本信息满足预置的网页分析条件时,获取所述当前网页的源码。
所述源码获取子模块4011包括:源码获取单元,用于获取当前网页的URL,根据所述当前网页的URL获取所述当前网页的源码。
本实施例中,所述关联信息的检索装置可以位于客户端的浏览器中,以浏览器插件的形式存在,也可以位于服务器端,以独立的关联信息检索服务器的形式存在。
当所述关联信息的检索装置位于客户端的浏览器中时,获取所述当前网页的源码可以直接从浏览器的内核获取,也可以根据所述当前网页的URL获取所述当前网页的源码。当所述关联信息的检索装置位于服务器端时,主要根据所述当前网页的URL获取所述当前网页的源码;为了减少网络传输,优选地,在独立的服务器部署模式下,浏览器内核只传输所述当前网页的URL至所述关联信息的检索装置,所述关联信息的检索装置根据所述当前网页的URL获取所述当前网页的源码。
所述关键词集获取模块403包括:
第一获取子模块4031,用于对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集。
相应的,所述类别获取模块404包括:
第一类别获取子模块4041,用于根据命名实体关键词与类别的对应关系,获取所述命名实体关键词集中的命名实体关键词对应的第一类别;其中,所述命名实体关键词与类别的对应关系以专有名词词典的形式存储。
所述所述检索模块包括:
第一检索子模块,用于根据所述第一类别获取检索服务器的信息,发送所述命名实体关键词至所述检索服务器进行检索,获取检索结果;
所述关联信息获取模块包括:
第一关联信息获取子模块,用于根据所述检索结果获取所述命名实体关键词的关联信息。
进一步地,所述关键词集获取模块403还包括:第二获取子模块4032、第一运算子模块4033和第一设置子模块4034;相应的,所述第一类别获取子模块4041包括第一类别获取单元40411,如图6所示,图6是本发明实施例5提供的一种关联信息的检索装置实施例的第二结构示意图;
所述第二获取子模块4032,用于在所述获取命名实体关键词集之后从所述正文中自动提取主题关键词,获取主题关键词集。
所述第一运算子模块4033,用于将所述命名实体关键词集和所述主题关键词集进行交集运算,获取运算结果。
所述第一设置子模块4034,用于将所述运算结果作为新的命名实体关键词集。
所述第一类别获取单元40411,用于根据命名实体关键词与类别的对应关系,获取所述新的命名实体关键词集中的命名实体关键词对应的第一类别。
进一步地,所述关联信息的检索装置还包括:
网页类别获取模块,用于当所述第一类别为多个时,在所述根据所述第一类别获取检索服务器的信息之前对所述当前网页进行分类,获取所述当前网页的类别。
对应类别获取模块,用于根据所述第一类别与网页类别的对应关系,获取所述第一类别对应的网页类别。
匹配获取模块,用于将所述第一类别对应的网页类别与所述当前网页的类别进行匹配,获取匹配后的第一类别对应的网页类别。
类别设置模块,用于将所述匹配后的网页类别对应的第一类别作为新的第一类别。
相应的,所述第一检索子模块包括:
第一获取单元,用于根据所述新的第一类别获取检索服务器的信息。
进一步地,所述关联信息的检索装置还包括:
检索条件设置模块,用于在所述发送所述关键词至所述检索服务器进行检索之前根据所述类别设置检索条件。
相应的,所述检索模块405包括:
发送子模块,用于发送所述关键词和所述检索条件至所述检索服务器进行检索。
进一步地,所述关联信息获取模块406包括:聚合排序子模块4061;
所述聚合排序子模块4061,用于对所述检索结果进行聚合与排序,形成新的检索结果,将所述新的检索结果作为所述关键词的关联信息。
其中,所述聚合排序子模块4061包括:
第一获取单元,用于获取检索结果的前k条结果;
计算单元,用于按照公式计算所述前k条结果的得分,其中,ri是指第i个结果的得分,aj是第j个检索服务器的权重,aj由用户设置,是第i个结果在第j个检索服务器上的排序;
排序单元,用于按照所述前k条结果的得分从大到小进行排序;
设置单元,用于选择所述排序后的前n条结果作为新的检索结果;其中n和k为正整数,n≤k,n和k的数值由用户预先设置。
进一步地,所述关联信息的检索装置还包括显示模块409;
所述显示模块409,用于在所述获取所述关键词的关联信息之后向用户显示所述关键词的关联信息。
本实施例中,当用户浏览网页时对当前网页进行分析处理,获取命名实体关键词和其对应的类别,根据所述类别有针对性的选择合适的检索服务器进行检索并获得所述命名实体关键词的关联信息,相比较现有技术而言,本实施例参考了当前页面的命名实体关键词的类别信息,使得检索的结果更加贴合用户需求的信息,降低了信息冗余,降低了网络传输量。
命名实体关键词的指向性明确,因此根据所述命名实体关键词及其对应的类别获取的关联信息更加贴合用户的需求,使得用户的业务体验度提高。
此外,在主题关键词的提取时为自动提取,使得自动处理能力增强。
实施例6
参考图7,图7是本发明实施例提供的一种关联信息的检索装置实施例的第一结构示意图;所述关联信息的检索装置包括:源码获取模块401、正文提取模块402、关键词集获取模块403、类别获取模块404、检索模块405、关联信息获取模块406、网页信息获取模块407、判断模块408和显示模块409;所述源码获取模块401、正文提取模块402、网页信息获取模块407、判断模块408和显示模块409的功能与实施例5中所述源码获取模块401、正文提取模块402、网页信息获取模块407、判断模块408和显示模块409的功能类似,具体可参照实施例5的相关描述,在此不再赘述。
所述关键词集获取模块403包括:
第三获取子模块4035,用于从所述正文中自动提取主题关键词,获取主题关键词集;
相应的,所述类别获取模块404包括:
判断子模块4042,用于判断所述主题关键词集中的主题关键词是否为命名实体关键词,生成判断结果;
第二类别获取子模块4043,用于当所述判断结果为是时,根据所述主题关键词和命名实体关键词与类别的对应关系,获取所述主题关键词对应的第二类别;当所述判断结果为否时,对所述当前网页进行分类,获取所述当前网页的类别,将所述当前网页的类别作为所述主题关键词对应的第二类别。
所述检索模块405包括:
第二检索子模块,用于根据所述第二类别获取检索服务器的信息,发送所述主题关键词至所述检索服务器进行检索,获取检索结果。
所述关联信息获取模块406包括:
第二关联信息获取子模块,用于根据所述检索结果获取所述主题关键词的关联信息。
进一步地,所述关键词集获取模块403还包括:第四获取子模块4036、第二运算子模块4037和第二设置子模块4038,相应的,所述判断子模块4042包括判断单元,如图8所示,图8是本发明实施例提供的一种关联信息的检索装置实施例的第二结构示意图;
所述第四获取子模块4036,用于对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集。
所述第二运算子模块4037,用于将所述主题关键词集和所述命名实体关键词集进行交集运算,获取运算结果。
所述第二设置子模块4038,用于将所述运算结果作为新的主题关键词集。
所述判断单元,用于判断所述新的主题关键词集中的主题关键词是否为命名实体关键词。
进一步地,所述关联信息的检索装置还包括:
检索条件设置模块,用于在所述发送所述关键词至所述检索服务器进行检索之前根据所述类别设置检索条件。
相应的,所述检索模块405包括:
发送子模块,用于发送所述关键词和所述检索条件至所述检索服务器进行检索。
本实施例中,当用户浏览网页时对当前网页进行分析处理,获取主题关键词和其对应的类别,根据所述类别有针对性的选择合适的检索服务器进行检索并获得所述命名实体关键词的关联信息,相比较现有技术而言,本实施例参考了当前页面的主题关键词的类别信息,使得检索的结果更加贴合用户需求的信息,降低了信息冗余,降低了网络传输量。
此外,在主题关键词的提取时为自动提取,使得自动处理能力增强。本实施例中还设置了检索条件发送至检索服务器,是的获取的关联信息跟所述当前网页的领域更加相关,提高了用户的业务体验度。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

一种关联信息的检索方法及装置.pdf_第1页
第1页 / 共26页
一种关联信息的检索方法及装置.pdf_第2页
第2页 / 共26页
一种关联信息的检索方法及装置.pdf_第3页
第3页 / 共26页
点击查看更多>>
资源描述

《一种关联信息的检索方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种关联信息的检索方法及装置.pdf(26页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102955807 A(43)申请公布日 2013.03.06CN102955807A*CN102955807A*(21)申请号 201110248513.0(22)申请日 2011.08.26G06F 17/30(2006.01)(71)申请人华为软件技术有限公司地址 210000 江苏省南京市宁南大道11号花神国际大酒店(72)发明人方琦 钟杰萍 杜家春(74)专利代理机构北京三高永信知识产权代理有限责任公司 11138代理人刘映东(54) 发明名称一种关联信息的检索方法及装置(57) 摘要本发明实施例提供了一种关联信息的检索方法及装置,涉及通信领域,所述关联信息。

2、的检索方法包括:获取当前网页的源码,从所述源码中提取所述当前网页的正文;从所述正文中获取关键词集;获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述关键词的关联信息;所述关联信息的检索的装置包括:源码获取模块、正文提取模块、关键词集获取模块、类别获取模块、检索模块和关联信息获取模块。本发明实施例降低了网络传输量。(51)Int.Cl.权利要求书5页 说明书15页 附图5页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书 5 页 说明书 15 页 附图 5 页1/5页21.一种关。

3、联信息的检索方法,其特征在于,包括:获取当前网页的源码,从所述源码中提取所述当前网页的正文;从所述正文中获取关键词集;获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述关键词的关联信息。2.根据权利要求1所述的方法,其特征在于,所述获取当前网页的源码之前还包括:获取当前网页的基本信息,所述基本信息包括所述当前网页的统一资源定位符URL和/或更新时间;判断所述基本信息是否满足预置的网页分析条件;相应的,所述获取当前网页的源码具体为:当所述基本信息满足预置的网页分析条件时,获取所述当前网页的源码。3。

4、.根据权利要求2所述的方法,其特征在于,所述判断所述基本信息是否满足预置的网页分析条件包括:判断所述当前网页的URL是否满足网页URL范围和网页URL后缀的要求,和/或,判断所述当前网页的更新时间是否满足晚于第一时间的要求。4.根据权利要求1所述的方法,其特征在于,所述获取当前网页的源码包括:获取当前网页的URL,根据所述当前网页的URL获取所述当前网页的源码。5.根据权利要求1-4任一项所述的方法,其特征在于,所述从所述正文中获取关键词集包括:对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集;相应的,所述获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送。

5、所述关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述关键词的关联信息具体为:根据命名实体关键词与类别的对应关系,获取所述命名实体关键词集中的命名实体关键词对应的第一类别;其中,所述命名实体关键词与类别的对应关系以专有名词词典的形式存储;根据所述第一类别获取检索服务器的信息,发送所述命名实体关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述命名实体关键词的关联信息。6.根据权利要求5所述的方法,其特征在于,所述获取命名实体关键词集之后还包括:从所述正文中自动提取主题关键词,获取主题关键词集;将所述命名实体关键词集和所述主题关键词集进行交集运算,获取运算结。

6、果;将所述运算结果作为新的命名实体关键词集;相应的,所述根据命名实体关键词与类别的对应关系,获取所述命名实体关键词集中的命名实体关键词对应的第一类别具体为:根据命名实体关键词与类别的对应关系,获取所述新的命名实体关键词集中的命名实体关键词对应的第一类别。7.根据权利要求5或6所述的方法,其特征在于,当所述第一类别为多个时,所述根据权 利 要 求 书CN 102955807 A2/5页3所述第一类别获取检索服务器的信息之前还包括:对所述当前网页进行分类,获取所述当前网页的类别;根据所述第一类别与网页类别的对应关系,获取所述第一类别对应的网页类别;将所述第一类别对应的网页类别与所述当前网页的类别进。

7、行匹配,获取匹配后的第一类别对应的网页类别;将所述匹配后的网页类别对应的第一类别作为新的第一类别;相应的,所述根据所述第一类别获取检索服务器的信息具体为:根据所述新的第一类别获取检索服务器的信息。8.根据权利要求1-4任一项所述的方法,其特征在于,所述从所述正文中获取关键词集包括:从所述正文中自动提取主题关键词,获取主题关键词集;相应的,所述获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述关键词的关联信息具体为:判断所述主题关键词集中的主题关键词是否为命名实体关键词,如果是,根据所述主题关键词。

8、与类别的对应关系,获取所述主题关键词对应的第二类别;如果否,对所述当前网页进行分类,获取所述当前网页的类别,将所述当前网页的类别作为所述主题关键词对应的第二类别;根据所述第二类别获取检索服务器的信息,发送所述主题关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述主题关键词的关联信息。9.根据权利要求8所述的方法,其特征在于,所述获取主题关键词集之后还包括:对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集;将所述主题关键词集和所述命名实体关键词集进行交集运算,获取运算结果;将所述运算结果作为新的主题关键词集;相应的,所述判断所述主题关键词集中的主题关键词是否为命名。

9、实体关键词具体为:判断所述新的主题关键词集中的主题关键词是否为命名实体关键词。10.根据权利要求1-4任一项所述的方法,其特征在于,所述发送所述关键词至所述检索服务器进行检索之前还包括:根据所述类别设置检索条件;相应的,所述发送所述关键词至所述检索服务器具体为:发送所述关键词和所述检索条件至所述检索服务器进行检索。11.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述检索结果获取所述关键词的关联信息包括:对所述检索结果进行聚合与排序,形成新的检索结果,将所述新的检索结果作为所述关键词的关联信息。12.根据权利要求11所述的方法,其特征在于,所述对所述检索结果进行聚合与排序,形成新的。

10、检索结果包括:获取检索结果的前k条结果;权 利 要 求 书CN 102955807 A3/5页4按照公式计算所述前k条结果的得分,其中,ri是指第i个结果的得分,aj是第j个检索服务器的权重,aj由用户设置,是第i个结果在第j个检索服务器上的排序;按照所述前k条结果的得分从大到小进行排序;选择所述排序后的前n条结果作为新的检索结果;其中n和k为正整数,nk,n和k的数值由用户预先设置。13.一种关联信息的检索装置,其特征在于,包括:源码获取模块,用于获取当前网页的源码;正文提取模块,用于从所述源码中提取所述当前网页的正文;关键词集获取模块,用于从所述正文中获取关键词集;类别获取模块,用于获取所。

11、述关键词集中的关键词对应的类别;检索模块,用于根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;关联信息获取模块,用于根据所述检索结果获取所述关键词的关联信息。14.根据权利要求13所述的装置,其特征在于,还包括:网页信息获取模块,用于在所述获取当前网页的源码之前获取当前网页的基本信息,所述基本信息包括所述当前网页的统一资源定位符URL和/或更新时间;判断模块,用于判断所述基本信息是否满足预置的网页分析条件;相应的,所述源码获取模块包括:源码获取子模块,用于当所述基本信息满足预置的网页分析条件时,获取所述当前网页的源码。15.根据权利要求14所述的装置,其。

12、特征在于,所述判断模块包括:判断子模块,用于判断所述当前网页的URL是否满足网页URL范围和网页URL后缀的要求,和/或,判断所述当前网页的更新时间是否满足晚于第一时间的要求。16.根据权利要求13所述装置,其特征在于,所述源码获取子模块包括:源码获取单元,用于获取当前网页的URL,根据所述当前网页的URL获取所述当前网页的源码。17.根据权利要求13-16任一项所述的装置,其特征在于,所述关键词集获取模块包括:第一获取子模块,用于对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集;相应的,所述类别获取模块包括:第一类别获取子模块,用于根据命名实体关键词与类别的对应关系,获取所述命名。

13、实体关键词集中的命名实体关键词对应的第一类别;其中,所述命名实体关键词与类别的对应关系以专有名词词典的形式存储;所述检索模块包括:第一检索子模块,用于根据所述第一类别获取检索服务器的信息,发送所述命名实体关键词至所述检索服务器进行检索,获取检索结果;所述关联信息获取模块包括:权 利 要 求 书CN 102955807 A4/5页5第一关联信息获取子模块,用于根据所述检索结果获取所述命名实体关键词的关联信息。18.根据权利要求17所述的装置,其特征在于,所述关键词集获取模块还包括:第二获取子模块,用于在所述获取命名实体关键词集之后从所述正文中自动提取主题关键词,获取主题关键词集;第一运算子模块,。

14、用于将所述命名实体关键词集和所述主题关键词集进行交集运算,获取运算结果;第一设置子模块,用于将所述运算结果作为新的命名实体关键词集;相应的,所述第一类别获取子模块包括:第一类别获取单元,用于根据命名实体关键词与类别的对应关系,获取所述新的命名实体关键词集中的命名实体关键词对应的第一类别。19.根据权利要求17或18所述的装置,其特征在于,还包括:网页类别获取模块,用于当所述第一类别为多个时,所述根据所述第一类别获取检索服务器的信息之前对所述当前网页进行分类,获取所述当前网页的类别;对应类别获取模块,用于根据所述第一类别与网页类别的对应关系,获取所述第一类别对应的网页类别;匹配获取模块,用于将所。

15、述第一类别对应的网页类别与所述当前网页的类别进行匹配,获取匹配后的第一类别对应的网页类别;类别设置模块,用于将所述匹配后的网页类别对应的第一类别作为新的第一类别;相应的,所述第一检索子模块包括:第一获取单元,用于根据所述新的第一类别获取检索服务器的信息。20.根据权利要求13-16任一项所述的装置,其特征在于,所述关键词集获取模块包括:第三获取子模块,用于从所述正文中自动提取主题关键词,获取主题关键词集;相应的,所述类别获取模块包括:判断子模块,用于判断所述主题关键词集中的主题关键词是否为命名实体关键词,生成判断结果;第二类别获取子模块,用于当所述判断结果为是时,根据所述主题关键词和命名实体关。

16、键词与类别的对应关系,获取所述主题关键词对应的第二类别;当所述判断结果为否时,对所述当前网页进行分类,获取所述当前网页的类别,将所述当前网页的类别作为所述主题关键词对应的第二类别;所述检索模块包括:第二检索子模块,用于根据所述第二类别获取检索服务器的信息,发送所述主题关键词至所述检索服务器进行检索,获取检索结果;所述关联信息获取模块包括:第二关联信息获取子模块,用于根据所述检索结果获取所述主题关键词的关联信息。21.根据权利要求20所述的装置,其特征在于,所述关键词集获取模块还包括:第四获取子模块,用于对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集;权 利 要 求 书CN 102。

17、955807 A5/5页6第二运算子模块,用于将所述主题关键词集和所述命名实体关键词集进行交集运算,获取运算结果;第二设置子模块,用于将所述运算结果作为新的主题关键词集;相应的,所述判断子模块包括:判断单元,用于判断所述新的主题关键词集中的主题关键词是否为命名实体关键词。22.根据权利要求13-16任一项所述的装置,其特征在于,还包括:检索条件设置模块,用于在所述发送所述关键词至所述检索服务器之前根据所述类别设置检索条件;相应的,所述检索模块包括:发送子模块,用于发送所述关键词和所述检索条件至所述检索服务器进行检索。23.根据权利要求13-16任一项所述的装置,其特征在于,所述关联信息获取模块。

18、包括:聚合排序子模块,用于对所述检索结果进行聚合与排序,形成新的检索结果,将所述新的检索结果作为所述关键词的关联信息。24.根据权利要求23所述的装置,其特征在于,所述聚合排序子模块包括:第一获取单元,用于获取检索结果的前k条结果;计算单元,用于按照公式计算所述前k条结果的得分,其中,ri是指第i个结果的得分,aj是第j个检索服务器的权重,aj由用户设置,是第i个结果在第j个检索服务器上的排序;排序单元,用于按照所述前k条结果的得分从大到小进行排序;设置单元,用于选择所述排序后的前n条结果作为新的检索结果;其中n和k为正整数,nk,n和k的数值由用户预先设置。权 利 要 求 书CN 10295。

19、5807 A1/15页7一种关联信息的检索方法及装置技术领域0001 本发明涉及通信领域,特别涉及一种关联信息的检索方法及装置。背景技术0002 当今信息社会,信息的组织和获取至关重要。人们已经习惯通过电脑或手机访问互联网来获取信息。当人们在网上冲浪时,遇到感兴趣的网页或信息,往往希望能够获得更多的关联信息,以便对整个事件、事物或商品了解得更清楚。比如在浏览一篇关于某品牌手机的报道时,往往希望能够进一步看到关于该手机的图片、价格和应用软件等信息的介绍。0003 现有技术提供了一种对网页中的关键字进行即时检索的方法,包括:在向客户端加载网页的同时,启动关键字检索进程;实时监测并接收鼠标或键盘的操。

20、作;根据所述操作获取待查询的关键字;发送所述关键字到关键字检索服务器进行信息检索,将获得的检索结果传送到客户端;客户端即时显示所述检索结果。0004 现有技术在根据关键字进行检索时,没有考虑到当前网页的特征,使得检索的结果可能涵盖了很多与当前网页无关的页面,直接导致了信息的冗余,增大了网络传输量。发明内容0005 为了降低网络传输量,本发明实施例提供了一种关联信息的检索方法及装置。所述技术方案如下:0006 一种关联信息的检索方法,包括:0007 获取当前网页的源码,从所述源码中提取所述当前网页的正文;0008 从所述正文中获取关键词集;0009 获取所述关键词集中的关键词对应的类别,根据所述。

21、类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;0010 根据所述检索结果获取所述关键词的关联信息。0011 一种关联信息的检索装置,包括:0012 源码获取模块,用于获取当前网页的源码;0013 正文提取模块,用于从所述源码中提取所述当前网页的正文;0014 关键词集获取模块,用于从所述正文中获取关键词集;0015 类别获取模块,用于获取所述关键词集中的关键词对应的类别;0016 检索模块,用于根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;0017 关联信息获取模块,用于根据所述检索结果获取所述关键词的关联信息。001。

22、8 本发明实施例可使当用户浏览网页时对当前网页进行分析处理,获取关键词和关键词对应的类别,根据所述类别有针对性的选择合适的检索服务器进行检索并获得所述关键词的关联信息,相比较现有技术而言,本实施例参考了页面的特征信息,使得检索的结果更加贴合用户需求的信息,降低了信息冗余,降低了网络传输量。说 明 书CN 102955807 A2/15页8附图说明0019 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。002。

23、0 图1是本发明实施例1提供的一种关联信息的检索方法实施例的流程图;0021 图2是本发明实施例2提供的一种关联信息的检索方法实施例的流程图;0022 图3是本发明实施例3提供的一种关联信息的检索方法实施例的流程图;0023 图4是本发明实施例4提供的一种关联信息的检索装置实施例的结构示意图;0024 图5是本发明实施例5提供的一种关联信息的检索装置实施例的第一结构示意图;0025 图6是本发明实施例5提供的一种关联信息的检索装置实施例的第二结构示意图;0026 图7是本发明实施例提供的一种关联信息的检索装置实施例的第一结构示意图;0027 图8是本发明实施例提供的一种关联信息的检索装置实施例。

24、的第二结构示意图。具体实施方式0028 本发明实施例提供一种关联信息的检索方法及装置。0029 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。0030 实施例10031 参考图1,图1是本发明实施例1提供的一种关联信息的检索方法实施例的流程图;所述关联信息的检索方法包括:0032 S101:获取当前网页的源码,从所述源码中提取所述当前网页的正文。0033 S102:从所述正文中获取关键词集。0034 所述关键词集包括命名实体关键词集和/或主题关键词集,但是并不局限于此。其中,命名实体关键词具体为命名实体,即人名、机构名、地名以及其他所有以名称为标识。

25、的实体;所述主题关键词具体为能代表文章主题的关键词。0035 S103:获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果。0036 S104:根据所述检索结果获取所述关键词的关联信息。0037 本实施例中,当用户浏览网页时对当前网页进行分析处理,获取关键词和关键词对应的类别,根据所述类别有针对性的选择合适的检索服务器进行检索并获得所述关键词的关联信息,相比较现有技术而言,本实施例参考了页面的特征信息,使得检索的结果更加贴合用户需求的信息,降低了信息冗余,降低了网络传输量。0038 实施例20039 参考图2,图2是本发。

26、明实施例2提供的一种关联信息的检索方法实施例的流程图;所述关联信息的检索方法包括:说 明 书CN 102955807 A3/15页90040 S201:获取当前网页的基本信息,所述基本信息包括所述当前网页的统一资源定位符URL和/或更新时间。0041 实际应用中,当用户使用浏览器打开网页时,浏览器监控当前网页是否加载成功,如果是,获取所述当前网页的基本信息,例如:所述当前网页的URL(Uniform Resource Locator,统一资源定位符)和/或更新时间;如果否,结束。0042 实际应用中,根据不同的返回码来获取所述当前网页的加载状态;所述加载状态包括加载成功和加载失败,其中所述加载。

27、失败可以包括请求无效、禁止访问和内部服务器错误等;0043 所述返回码可以是HTTP(HyperText Transfer Protocol,超文本传输协议)响应状态码,但是并不局限于此。当所述返回码为HTTP200时,所述当前网页的加载状态为加载成功;当所述返回码为HTTP400时,所述当前网页的加载状态为请求无效,即加载失败;当所述返回码为HTTP403时,所述当前网页的加载状态为禁止访问,即加载失败;当返回码为HTTP500时,所述当前网页的加载状态为内部服务器错误,即加载失败;此处只是列举了几个HTTP响应状态码与加载状态之间的关系,但是并不局限于此。0044 本实施例中,所述返回码可。

28、以不是HTTP响应状态码,例如所述返回码包括000和001;当所述返回码为000时,所述当前网页的加载状态为加载正常,所述000对应上述HTTP200的情况;当所述返回码为001时,所述当前网页的加载状态为加载失败,所述001对应上述HTTP400、HTTP403和HTTP500的情况。0045 S202:判断所述基本信息是否满足预置的网页分析条件,如果是,执行S203。0046 所述网页分析条件可以由用户预先设置;所述网页分析条件包括网页URL范围和/或网页URL后缀和/或第一时间。0047 获取所述当前网页的URL和/或更新时间后,判断所述当前网页的URL是否满足网页URL范围和/或网页U。

29、RL后缀的要求,和/或,判断所述当前网页的更新时间是否满足晚于第一时间的要求。0048 优选地,判断所述当前网页的URL是否满足网页URL范围和网页URL后缀的要求,以及所述当前网页的更新时间是否满足晚于第一时间的要求;例如所述网页URL范围为“*”,其中*涵盖任意字符,所述网页URL后缀为“.html”,所述第一时间为“2010-05-01-00-00-00”,即2010年5月1日0时0分0秒,所述当前网页的URL为“http:/ 其中,所述网页分析条件中的网页URL范围、网页URL后缀和第一时间的个数可以为多个,并不局限于上述例子。当所述网页URL范围、网页URL后缀和第一时间的个数为多个。

30、时,对多个所述网页URL范围、多个所述网页URL后缀和多个所述第一时间分别预设优先级,在后续的处理过程中按照优先级顺序逐条进行判断;具体地,可以按照预设的第一优先说 明 书CN 102955807 A4/15页10级先判断所述当前网页的URL是否满足所述网页URL范围的要求,如果满足要求,然后再按照预设的第二优先级判断所述当前网页的URL是否满足网页URL后缀的要求,只有上述两个条件都满足了,再按照第三优先级判断所述当前网页的更新时间是否满足所述第一时间的要求,如果满足要求,说明所述当前网页的基本信息满足预置的网页分析条件,在分析范围内。此处只是列举了一种具体实现方式,但是并不局限于此,在此不。

31、再赘述。0050 如果所述基本信息不满足预置的网页分析条件,则直接结束。0051 S203:获取当前网页的源码,从所述源码中提取所述当前网页的正文。0052 如果所述基本信息满足预置的网页分析条件时,获取当前网页的源码。0053 具体地,可以直接从浏览器内核获取所述当前网页的源码;或者,根据所述当前网页的URL获取所述当前网页的源码。0054 所述当前网页的正文包括当前网页的标题和当前网页的正文内容。0055 实际应用中,对所述源码可以通过正则表达式来提取网页指定标签的内容,从而获取当前网页的标题和当前网页的正文内容;具体地,从所述源码的标签对中提取当前网页的标题,从所述源码的标签对中提取当前。

32、网页的正文内容。0056 优选地,还可以对所述当前网页的源码执行预定处理,以减轻后续的处理量;具体地,可以在所述当前网页的源码基础上截取标题Title和主体Body部分构成新的源码用于后续处理。0057 相应的,所述从所述源码中提取所述当前网页的正文,具体为:0058 从所述预定处理后的源码中提取所述当前网页的正文。0059 S204:从所述正文中获取命名实体关键词集。0060 实际应用中,对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集。0061 具体地,通过专有名词词典来对所述当前网页的正文进行命名实体的识别。对于所述专有名词词典中没有的专有名词,可以通过规则来进行命名实体的识。

33、别;所述规则可以使用各种命名实体的构成规则,例如中文人名构成规则:人名-;所述命名实体的识别是现有比较成熟的技术,具体可参照现有技术的相关描述,在此不再赘述。0062 从所述正文中获取的命名实体关键词的数目可能会很多,有些也许不能直接代表文章主题,优选地,本实施例在所述获取命名实体关键词集之后还包括:0063 从所述正文中自动提取主题关键词,获取主题关键词集;0064 具体地,从所述当前网页的标题和正文内容中自动提取能代表主题的主题关键词,从而获取主题关键词集。0065 具体地,可采用关键词提取算法从所述当前网页的标题和正文内容中自动提取能代表主题的主题关键词,所述关键词提取算法包括TFIDF(Term Frequency Inverse Document Frequency,词频逆向文件频率)算法、基于朴素贝叶斯模型的算法等,但并不局限于此。0066 将所述命名实体关键词集和所述主题关键词集进行交集运算,获取运算结果;0067 所述运算结果中的关键词既是命名实体关键词,又是主题关键词。0068 将所述运算结果作为新的命名实体关键词集。0069 S205:获取所述命名实体关键词集中的命名实体关键词对应的第一类别,根据所说 明 书CN 102955807 A10。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1