一种网络搜索方法和装置.pdf

上传人:a*** 文档编号:1639695 上传时间:2018-06-30 格式:PDF 页数:13 大小:904.68KB
返回 下载 相关 举报
摘要
申请专利号:

CN201310633696.7

申请日:

2013.11.29

公开号:

CN104679783A

公开日:

2015.06.03

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20131129|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

北京搜狗信息服务有限公司; 北京搜狗科技发展有限公司

发明人:

张友书; 余浩; 张阔

地址:

100084北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间

优先权:

专利代理机构:

北京润泽恒知识产权代理有限公司11319

代理人:

苏培华

PDF下载: PDF下载
内容摘要

本申请提供了一种网络搜索方法和装置,涉及网络搜索技术领域。其中的方法具体包括:搜索与输入的查询串相匹配的网页,得到网页结果;在知识库中检索得到所述查询串对应的实体结果;其中,所述知识库中存储全网中的实体对象;将所述实体结果分别在各网页结果对应的网页内容中进行分析匹配,筛选出每条网页结果对应的目标实体;将所述目标实体分别与匹配的网页结果进行对应展现。本申请将网页结果中与查询串相关的目标实体分别筛选出来,并简洁地、直观地展现给用户,无需用户点击查看即可判断当前网页结果对应的页面内容与查询串的相关性,进而判断当前网页结果中所包含的页面内容的可靠性,提高了信息查询的效率,能够提高信息查询的效率。

权利要求书

权利要求书
1.  一种网络搜索方法,其特征在于,包括:
搜索与输入的查询串相匹配的网页,得到网页结果;
在知识库中检索得到所述查询串对应的实体结果;其中,所述知识库中 存储全网中的实体对象;
将所述实体结果分别在各网页结果对应的网页内容中进行分析匹配,筛 选出每条网页结果对应的目标实体;
将所述目标实体分别与匹配的网页结果进行对应展现。

2.  如权利要求1所述的方法,其特征在于,所述筛选出每条网页结果 对应的目标实体的步骤,包括:在每条网页结果对应的网页内容中分别筛选 出与所述实体结果相匹配的目标内容,并将所述目标内容对应的实体结果作 为所述网页结果对应的目标实体。

3.  如权利要求2所述的方法,其特征在于,所述在每条网页结果对应 的网页内容中分别筛选出与所述实体结果相匹配的目标内容的步骤,包括:
对所述网页结果对应的网页正文进行分析;
依据网页正文对应的分析结果,提取所述网页正文中特征内容;所述特 征内容包括标题、子标题、表格、摘要和加粗文字中的一项或多项;
将提取到的文字分别与各实体结果进行匹配,得到所述网页结果中与各 实体结果相匹配的目标内容。

4.  如权利要求1、2或3所述的方法,其特征在于,所述方法还包括:
依据所述与所述实体结果相匹配的目标内容分别在各所述网页结果中 出现的频率和/或位置,以每条网页结果为单位对所述目标实体进行排序;
则所述将所述目标实体分别与匹配的网页结果进行对应展现的步骤为, 依据目标实体的排序结果分别对所述网页结果匹配的各目标实体的标记进 行对应展现。

5.  如权利要求1、2或3所述的方法,其特征在于,所述展现的目标实 体带有对应的超级链接,所述超级链接分别用于转至所匹配的网页结果;
则所述方法还包括:
在接收对所述目标实体的触发之后,分别将所述网页结果定位至与所述 目标实体对应匹配的位置,从而加载所述目标实体对应匹配的网页内容。

6.  如权利要求1所述的方法,其特征在于,所述在知识库中检索得到 所述查询串对应的实体结果的步骤,包括:
识别所述查询串中的实体词和实体属性词,并进行标签化;
对所述查询串进行文法分析,得到的文法分析结果中包括文法规则及符 合所述文法规则的、标签化的实体词;
将所述文法分析结果转换为机器语言描述的查询语句;
依据所述查询语句在知识库中检索得到相应的实体信息,作为实体结 果。

7.  如权利要求1所述的方法,其特征在于,所述方法还包括:
对所述查询串进行预处理操作,所述预处理操作包括纠错、去词和分词 操作中的一项或多项;
则所述搜索与输入的查询串相匹配的网页,得到网页结果的步骤为,在 全网中搜索与预处理后的查询串相匹配的网页文档,得到所述查询串对应的 网页结果;
所述在知识库中检索得到所述查询串对应的实体结果的步骤为,在知识 库中根据预处理后查询串对全网中的实体对象进行结构化查询,得到所述查 询串对应的实体结果。

8.  一种网络搜索装置,其特征在于,包括:
网页搜索单元,用于搜索与输入的查询串相匹配的网页,得到网页结果;
实体搜索单元,用于在知识库中检索得到所述查询串对应的实体结果; 其中,所述知识库中存储全网中的实体对象;
实体筛选单元,用于将所述实体结果分别在各网页结果对应的网页内容 中进行分析匹配,筛选出每条网页结果对应的目标实体;及
展现单元,用于将所述目标实体分别与匹配的网页结果进行对应展现。

9.  如权利要求8所述的装置,其特征在于,所述实体筛选单元,具体 用于在每条网页结果对应的网页内容中分别筛选出与所述实体结果相匹配 的目标内容,并将所述目标内容对应的实体结果作为所述网页结果对应的目 标实体。

10.  如权利要求9所述的装置,其特征在于,所述实体筛选单元包括:
网页分析模块,用于对所述网页结果对应的网页正文进行分析;
提取模块,用于依据网页正文对应的分析结果,提取所述网页正文中特 征内容;所述特征内容包括标题、子标题和加粗文字中的一项或多项;及
匹配模块,用于将提取到的文字分别与各实体结果进行匹配,得到所述 网页结果中与各实体结果相匹配的目标内容。

说明书

说明书一种网络搜索方法和装置
技术领域
本申请涉及网络搜索技术领域,特别是涉及一种网络搜索方法和装置。
背景技术
目前,数据搜索已经成为互联网最主要的应用之一。以典型的搜素引擎 为例,其通常利用服务器的搜索机器人蜘蛛(Spider)程序,自动搜索互联网 上大大小小的网站内容,按照网页相关性原理在每一个查询串和所有相关的 网页之间建立一个对应关系,储存在其网络服务器的网页数据库中;用户只 要输入查询串就可以找到符合该查询串特征的所有被搜索的网页,并且以超 级链接的方式对搜索结果进行展现,点击相应的链接就可以访问相应的网 页,从而找到所需信息。
现有的搜索结果中的结果项,通常仅简单地显示网页标题和文字摘要, 并在文字摘要部分用红色字体标记出了与查询串中的分词相匹配的文字,以 方便用户在浏览时快速定位。
然而,由于摘要的字数限制或者文本的结构特点,用户无法在搜索结果 中看到网页中与查询串相关的所有内容,还需点击进入相应的网页仔细查 看,因此,用户需要分别点击多个搜索结果的链接才能找到其想要搜索的信 息,降低了信息查询的效率。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够提 高信息查询的效率。
发明内容
本申请所要解决的技术问题是提供一种网络搜索方法和装置,能够提高 信息查询的效率。
为了解决上述问题,本申请公开了一种网络搜索方法,包括:
搜索与输入的查询串相匹配的网页,得到网页结果;
在知识库中检索得到所述查询串对应的实体结果;其中,所述知识库中 存储全网中的实体对象;
将所述实体结果分别在各网页结果对应的网页内容中进行分析匹配,筛 选出每条网页结果对应的目标实体;
将所述目标实体分别与匹配的网页结果进行对应展现。
优选的,所述筛选出每条网页结果对应的目标实体的步骤,包括:在每 条网页结果对应的网页内容中分别筛选出与所述实体结果相匹配的目标内 容,并将所述目标内容对应的实体结果作为所述网页结果对应的目标实体。
优选的,所述在每条网页结果对应的网页内容中分别筛选出与所述实体 结果相匹配的目标内容的步骤,包括:
对所述网页结果对应的网页正文进行分析;
依据网页正文对应的分析结果,提取所述网页正文中特征内容;所述特 征内容包括标题、子标题、表格、摘要和加粗文字中的一项或多项;
将提取到的文字分别与各实体结果进行匹配,得到所述网页结果中与各 实体结果相匹配的目标内容。
优选的,所述方法还包括:
依据所述与所述实体结果相匹配的目标内容分别在各所述网页结果中 出现的频率和/或位置,以每条网页结果为单位对所述目标实体进行排序;
则所述将所述目标实体分别与匹配的网页结果进行对应展现的步骤为, 依据目标实体的排序结果分别对所述网页结果匹配的各目标实体的标记进 行对应展现。
优选的,所述展现的目标实体带有对应的超级链接,所述超级链接分别 用于转至所匹配的网页结果;
则所述方法还包括:
在接收对所述目标实体的触发之后,分别将所述网页结果定位至与所述 目标实体对应匹配的位置,从而加载所述目标实体对应匹配的网页内容。
优选的,所述在知识库中检索得到所述查询串对应的实体结果的步骤, 包括:
识别所述查询串中的实体词和实体属性词,并进行标签化;
对所述查询串进行文法分析,得到的文法分析结果中包括文法规则及符 合所述文法规则的、标签化的实体词;
将所述文法分析结果转换为机器语言描述的查询语句;
依据所述查询语句在知识库中检索得到相应的实体信息,作为实体结 果。
优选的,所述方法还包括:
对所述查询串进行预处理操作,所述预处理操作包括纠错、去词和分词 操作中的一项或多项;
则所述搜索与输入的查询串相匹配的网页,得到网页结果的步骤为,在 全网中搜索与预处理后的查询串相匹配的网页文档,得到所述查询串对应的 网页结果;
所述在知识库中检索得到所述查询串对应的实体结果的步骤为,在知识 库中根据预处理后查询串对全网中的实体对象进行结构化查询,得到所述查 询串对应的实体结果。
另一方面,本申请还提供了一种网络搜索装置,包括:
网页搜索单元,用于搜索与输入的查询串相匹配的网页,得到网页结果;
实体搜索单元,用于在知识库中检索得到所述查询串对应的实体结果; 其中,所述知识库中存储全网中的实体对象;
实体筛选单元,用于将所述实体结果分别在各网页结果对应的网页内容 中进行分析匹配,筛选出每条网页结果对应的目标实体;及
展现单元,用于将所述目标实体分别与匹配的网页结果进行对应展现。
优选的,所述实体筛选单元,具体用于在每条网页结果对应的网页内容 中分别筛选出与所述实体结果相匹配的目标内容,并将所述目标内容对应的 实体结果作为所述网页结果对应的目标实体。
优选的,所述实体筛选单元包括:
网页分析模块,用于对所述网页结果对应的网页正文进行分析;
提取模块,用于依据网页正文对应的分析结果,提取所述网页正文中特 征内容;所述特征内容包括标题、子标题和加粗文字中的一项或多项;及
匹配模块,用于将提取到的文字分别与各实体结果进行匹配,得到所述 网页结果中与各实体结果相匹配的目标内容。
与现有技术相比,本申请具有以下优点:
本申请的网络搜索方法除了得到查询串对应的网页结果外,还通过知识 库中检索得到的实体结果对网页结果进行了筛选,得到每条网页结果分别对 应的目标实体,并将各目标实体分别与匹配的网页结果进行对应展现;
本申请中展现的各目标实体为网页结果中分别与查询串相关的结果,既 与查询串对应,又与网页结果相匹配,从而将网页结果中与查询串相关的目 标实体分别筛选出来,并简洁地、直观地展现给用户,无需用户点击查看即 可判断当前网页结果对应的页面内容与查询串的相关性,进而判断当前网页 结果中所包含的页面内容的可靠性,因此,本申请为网络搜索结果提供了更 为直观和丰富的信息,为用户筛选网页结果提供了更多的信息依据和便利, 提高了信息查询的效率。
附图说明
图1是本申请一种网络搜索方法实施例的流程图;
图2是本申请一种网络搜索装置实施例的结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图 和具体实施方式对本申请作进一步详细的说明。
现有的网络搜索方法依据网页数据库搜索得到网页结果,且在网页结果 的网页标题和文字摘要部分用红色字体标记出了与查询串中的分词相匹配 的文字,并展现给用户。
然而,由于摘要的字数限制或者文本的结构特点,用户无法在网页结果 中看到网页中与查询串相关的所有内容,还需点击进入相应的网页仔细查 看,因此,用户需要分别点击多个搜索结果的链接才能找到其想要搜索的信 息,降低了信息查询的效率。
本申请实施例的网络搜索方法除了依据网页数据库搜索得到查询串对 应的网页结果外,还通过知识库中检索得到的实体结果对网页结果进行了筛 选,得到每条网页结果分别对应的目标实体,并将各目标实体分别与匹配的 网页结果进行对应展现。
本技术领域中,知识库是知识工程中结构化、易操作、易利用、全面有 组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或 若干)知识表示方式结构化存储、组织、管理和使用的互相联系的知识片集 合。这些知识片具体可以包括与领域相关的理论知识、事实数据,由专家经 验得到的启发式知识,如某各领域内有关的定义、定理和运算法则以及常识 性知识等。
本申请实施例中,使用了资源描述框架(RDF,Resource Description  Frameword)的知识库,其中,RDF为一个数据模型,由“实体-属性-值”三 元组组成;实体可以看成一个对象,其可以是各领域中的实例名词,如电影、 电视剧、人物、机构、地点、作者、书籍、出版社、旅馆等。
本申请中展现的各目标实体为网页结果中分别与查询串相关的结果,既 与查询串对应,又与网页结果相匹配,从而将网页结果中与查询串相关的目 标实体分别筛选出来,并简洁地、直观地展现给用户,无需用户点击查看即 可判断当前网页结果对应的页面内容与查询串的相关性,进而判断当前网页 结果中所包含的页面内容的可靠性,因此,本申请为网络搜索结果提供了更 为直观和丰富的信息,为用户筛选网页结果提供了更多的信息依据和便利, 提高了信息查询的效率。
参照图1,示出了本申请一种网络搜索方法实施例的流程图,具体可以 包括:
步骤101、搜索与输入的查询串相匹配的网页,得到网页结果;
本申请可以应用于为用户提供搜索服务,将用户搜索相关的信息展示给 用户的各种应用场景,比如百度、谷歌、雅虎、搜狗等搜索引擎或者具有搜 索功能的其他场景,比如某些具有其他功能的输入框也可兼具搜索功能,因 此本申请对具体的搜索场景不加以限制。
以搜索引擎为例,搜索引擎可以应用公知技术获取搜索引擎服务器中与 查询串相应的内容;例如,可通过释放大量的抓取程序,获取互联网上的网 页,并按照网页相关性原理在每一个查询串和所有相关的网页之间建立一个 对应关系,储存在其搜索引擎服务器的数据库中。这样,在用户在搜索引擎 中输入查询串(例如“北京爬山好去处”)时,就可以在搜索引擎服务器中搜 索找到相匹配的网页结果。
在本申请的一种优选实施例中,在所述搜索与输入的查询串相匹配的网 页,得到网页结果的步骤之前,所述方法还可以包括:对所述查询串进行预 处理操作,所述预处理操作具体可以包括纠错、去词和分词操作中的一项或 多项;其中,纠错、去词、分词操作分别指将查询串中输入错误的词进行纠 正,将停用词(例如语气词,标点符号等)等进行删除,对查询串进行切分。
则所述搜索与所述查询串相匹配的网页,得到网页结果的步骤具体可以 为,在全网中搜索与预处理后的查询串相匹配的网页文档,得到所述查询串 对应的网页结果。
假设对查询串进行切分得到的分词为term,则在本申请的一种优选实施 例中,所述搜索与输入的查询串相匹配的网页,得到网页结果的步骤具体可 以包括:首先,将各个不同的term在网页倒排库中进行检索,然后将各个term 对应的网络文档列表进行求交集的操作,得到含有各term的网页的候选集 合,最后按照既定的排序方法将候选集合进行筛选排序,得到各网页结果。
其中,网页倒排库可以通过如下方式得到:预先对网页中的文字进行文 字分析,然后对每一个词建立倒排索引,存储到文件数据库中;网页倒排库 检索具有查询时间短,效率高,资源占用少等优点。此处的排序方法可以网 页与查询关键词之间的相关性参数为依据,本申请实施例对网页结果的具体 排序方法不加以限制。
步骤102、在知识库中检索得到所述查询串对应的实体结果;其中,所 述知识库中存储全网中的实体对象;
知识库的原理在前面已做介绍,在具体实现中,可以通过对互联网网页 的分析,提取出实体及其属性知识,并添加到知识库中的方式进行构建,例 如,可以从百科词条、豆瓣电影、美食杰的食物等提取实体及其属性知识, 本申请实施例对具体的知识库的构建方法及所覆盖的具体领域不加以限制。
在本申请的一种优选实施例中,在所述在知识库中检索得到所述查询串 对应的实体结果的步骤之前,所述方法还可以包括:对所述查询串进行预处 理操作,所述预处理操作具体可以包括纠错、去词和分词操作中的一项或多 项。
则所述在知识库中检索得到所述查询串对应的实体结果的步骤具体可 以为,在知识库中根据预处理后查询串对全网中的实体对象进行结构化查 询,得到所述查询串对应的实体结果。
在本申请的一种优选实施例中,所述在知识库中检索得到所述查询串对 应的实体结果的步骤,具体可以包括:
子步骤S101、识别所述查询串中的实体词和实体属性词,并进行标签 化;
在具体实现中,可以通过预先制作的知识库实体列表,将查询串中的实 体词识别出来,这些实体词通常包含各个领域里的实体实例,例如:电影, 电视剧,人物,机构,地点等。
子步骤S102、对所述查询串进行文法分析,得到的文法分析结果中包 括文法规则及符合所述文法规则的、标签化的实体词;
文法可用于表示描述语言语法结构的形式规则。此处的文法分析可用于 对查询串进行语义理解,弄清楚查询串的主谓宾结构。
在本申请的一种应用实施例中,可采用上下文无关方法进行查询串的文 法分析。上下文无关方法是形式语言理论中一种重要的变换文法,用来描述 上下文无关语言,在乔姆斯基分层中称为2型文法。是自己定义的一套文法, 可以用来进行句法分析,得到句子结构及各句子成分之间的依赖关系。
本申请实施例的上下无关文法的文法规则可基于知识库建立。例如,“刘 德华”是知识库中类别为“人”的实体对象,“配偶”是知识库中“人”的 属性,则“配偶”对应类别为“人”的是实体对象,那么就可以建立文法规 则:<实体_人><属性_人_配偶>——><实体_人>。
子步骤S103、将所述文法分析结果转换为机器语言描述的查询语句;
本申请实施例中,所述机器语言具体可以包括基于资源描述框架的各种 查询语言,如结构化查询语言(SQL,Structured Query Language)语言、 SPARQL(SPARQL Protocol and RDF Query Language)等等。
子步骤S104、依据所述查询语句在知识库中检索得到相应的实体信息, 作为实体结果。
以查询串"北京爬山好去处"为例,所述在知识库中检索得到所述查询串 对应的实体结果的步骤,具体可以包括:
子步骤S201、识别所述查询串中的实体词和实体属性词,并进行标签 化,得到:
北京<实体_城市><实体_专辑>
爬山好去处<属性_城市_周边山峰>;
子步骤S202、预先根据知识库建立文法规则:<实体_山峰><-<实体_ 城市><属性_城市_周边山峰>;
子步骤S203、根据文法规则检测第1步识别的标记是否合法,发现<实 体_专辑>无法与<属性_城市_周边山峰>形成文法规则,故丢弃,以及<实体_ 城市>与<属性_城市_周边山峰>可以组成文法规则,保留。
子步骤S204、得到符合用户查询意图的文法分析结果:<实体_城市>为 北京的<属性_城市_周边山峰>的值;
子步骤S205、将文法分析结果转换成SQL语句:
“SELECT<属性_城市_周边山峰>FROM<实体>=‘北京’”;
子步骤S206、解析SQL语句,优化查询逻辑,按照SQL语句指定的操 作从知识库中查询需要获得的实体和实体属性信息,并筛选出来作为对应的 实体结果。
步骤103、将所述实体结果分别在各网页结果对应的网页内容中进行分 析匹配,筛选出每条网页结果对应的目标实体;
步骤101中基于搜索得到的与查询词相匹配的网页结果通常数量众多, 至于某条网页结果对应网页内容具体是否与查询串相关,现有技术中,需要 用户点击进入该条网页结果查看网页内容才能确定。
而本申请实施例中,步骤102搜索得到的实体结果通常包括知识库中与 查询串相关的至少一个实体对象,其通常以词条或者图片等简洁、直观的形 式存在,且能够代表领域中的专业知识。本申请实施例将所述实体结果分别 在各网页结果对应的网页内容中进行分析匹配,分别筛选出每条网页结果对 应的目标实体,所述目标实体源自于各网页结果对应的网页内容,相对于现 有技术中网页标题和文字摘要部分能够提供更为丰富和直观的标识信息。各 目标实体为网页结果中分别与查询串相关的结果,既与查询串对应,又与网 页结果相匹配,从而将网页结果中与查询串相关的目标实体分别筛选出来, 并简洁地、直观地展现给用户,无需用户点击查看即可判断当前网页结果对 应的页面内容与查询串的相关性,进而判断当前网页结果中所包含的页面内 容的可靠性,因此,本申请为网络搜索结果提供了更为直观和丰富的信息, 为用户筛选网页结果提供了更多的信息依据和便利,提高了信息查询的效 率。
在本申请的一种优选实施例中,所述将所述实体结果分别在各网页结果 对应的网页内容中进行分析匹配,筛选出每条网页结果对应的目标实体的步 骤具体可以为,在每条网页结果对应的网页内容中分别筛选出与所述实体结 果相匹配的目标内容,并将所述目标内容对应的实体结果作为所述网页结果 对应的目标实体。
假设查询串为"北京爬山好去处",步骤102检索得到的实体结果具体可 以包括:“香山”、“雾灵山”、“箭扣长城”三个实体对象,很明显,根据常 识判断,“箭扣长城”过于险峻,为供专业登山人员进行野外探险的旅游景 点,并不适合普通大众进行爬山锻炼;
而依据步骤103的匹配结果,网页结果中,条目1对应匹配知识库中的实 体结果为“香山”,未匹配的实体结果为”百花山“,条目2分别对应匹配知 识库中的实体结果为“香山”和“雾灵山”,未匹配的实体结果为“八大处” 等,因此,本申请在每条网页结果对应的网页内容中分别筛选出与所述实体 结果相匹配的目标内容,筛选出网页结果中与查询串相关的目标实体,也即, 将“香山”作为条目1对应的目标实体,将“香山”和“雾灵山”分别作为 条目2对应的目标实体。
在本申请的一种优选实施例中,所述将所述实体结果分别在各网页结果 对应的网页内容中进行分析匹配,筛选出每条网页结果对应的目标实体的步 骤,具体可以包括:
子步骤S301、对所述网页结果对应的网页正文进行分析;
这里的网页正文具体可以包括去掉广告等多余信息的网页内容。
子步骤S302、依据网页正文对应的分析结果,提取所述网页正文中的 特征内容;所述特征内容具体可以包括:标题、子标题、表格、摘要和加粗 文字中的一项或多项;
网页正文的内容通常比较多,如果直接将所有网页正文的内容与各实体 结果进行匹配,则会花费较多的处理时间;为减少处理时间,提高处理效率, 本优选实施例提取出其中的特征内容与各实体结果进行匹配。当然,标题、 子标题、表格、摘要和加粗文字中的一项或多项只是作为特征内容的优选实 施例,实际上其它特征内容也是可行的,如首段内容、首句内容等等。
子步骤S303、将提取到的文字分别与各实体结果进行匹配,得到所述 网页结果中与各实体结果相匹配的目标内容。
在实际应用中,所述网页结果中与各实体结果相匹配的目标内容可以为 实体结果的正名或别名,对于目标内容为别名的情形,本申请可以将其纠正 为正名。
由于网页结果的条目较多,并不是所有的网页结果与查询串相关;而源 自知识库的实体结果的知识性较强,并不一定适用于普通大众;因此,所述 将所述实体结果分别在各网页结果对应的网页内容中进行分析匹配,筛选出 每条网页结果对应的目标实体的过程为对各网页结果与各实体结果进行相 互筛选的过程,其筛选出的所述网页结果匹配的目标实体,既与查询串相关 又且位于大众化的网页结果中,故其为网页结果中与查询串相关的大众化信 息。
步骤104、将所述目标实体分别与匹配的网页结果进行对应展现。
在本申请的一种优选实施例中,所述实体信息具体可以包括实体对象对 应的图片和/或实体名称;
则所述展现所述网页结果匹配的目标实体的步骤具体可以为,在某条网 页结果的周围区域以超级链接的方式对该条搜索结果匹配的目标实体进行 展现。
其中,所述周围区域可以是上下左右区域;用户点击以超级链接的方式 展现的所述目标实体,就可以进入以所述目标实体对应查询串的网络搜索结 果页面。
在本申请的一种优选实施例中,可以在每条网页结果的标题下方对应展 现每条网页结果的实体图片及实体名称;这样用户能够直接通过实体图片快 速定位到自己感兴趣的网页结果。
对应于上述示例,本申请可以分别在条目1的标题下方展现“香山”的 图片,以及,在条目2的标题下方展现“香山”和“雾灵山”的图片。用户 可以将图片和网页结果中的标题和摘要进行对照,以判断当前网页结果对应 网页内容是否与查询串相关。
在本申请的一种优选实施例中,在将所述目标实体分别与匹配的网页结 果进行对应展现的步骤之前,所述方法还可以包括:依据所述与所述实体结 果相匹配的目标内容分别在各所述网页结果中出现的频率和/或位置,以每条 网页结果为单位对所述目标实体进行排序;
则所述将所述目标实体分别与匹配的网页结果进行对应展现的步骤具 体可以为,依据目标实体的排序结果分别对所述网页结果匹配的各目标实体 的标记进行对应展现。
总之,本申请能够将网页结果中与查询串相关的目标实体分别筛选出 来,并简洁地、直观地展现给用户,无需用户点击查看即可判断当前网页结 果对应的页面内容与查询串的相关性,进而判断当前网页结果中所包含的页 面内容的可靠性,因此,本申请为网络搜索结果提供了更为直观和丰富的信 息,为用户筛选网页结果提供了更多的信息依据和便利,提高了信息查询的 效率。
在本发明的一种优选实施例中,所述展现的目标实体带有对应的超级链 接,所述超级链接分别用于转至所匹配的网页结果;
则所述方法还可以包括:在接收对所述目标实体的触发之后,分别将所 述网页结果定位至与所述目标实体对应匹配的位置,从而加载所述目标实体 对应匹配的网页内容。
对应于上述示例,假设本申请分别在网页结果中的条目1的标题下方展 现了“香山”的实体图片,以及,在条目2的标题下方展现了“香山”和“雾 灵山”的实体图片,并且展现的实体图片带有对应的超级链接,所述超级链 接分别用于转至所匹配的网页结果;
则在用户点击条目2下方的“雾灵山”实体图片之后,本优选实施例可 以加载条目2对应的网页页面,以及,对该网页页面进行分析后,对条目2 对应的网页页面中介绍“雾灵山”对应的位置进行确定,并将展现条目2对 应的网页页面的浏览器的滑动条自动滑动至确定的“雾灵山”位置附近,从 而方便用户直接查看触发的目标实体在该网页结果中直接对应的内容。
在将所述目标实体分别与匹配的网页结果进行对应展现的情况下,如果 用户点击某网页结果匹配的目标实体,则说明用户对该目标实体感兴趣,而 本优选实施例加载所述目标实体匹配的网页,并将该网页定位至与所述目标 实体匹配的内容位置,能够直接为用户呈现感兴趣的目标实体在所匹配的网 页结果中的对应内容,避免了用户再次滑动浏览器的滑动条以在目标实体所 匹配的网页页面中查找匹配的对应内容,从而进一步提高信息查询的效率。
在其他实施例中,在接收对所述目标实体的触发之后,也可以直接加载 所述目标实体在知识库中对应的实体内容,从而展示与网页结果匹配的目标 实体的详细信息,提高了信息查询的效率;或者,在其他实施例中,在接收 对所述目标实体的触发之后,也可以向用户提供以所述目标实体为查询串搜 索得到的搜索结果,等等,总之,本申请对所述展现的目标实体链接的具体 内容不加以限制。
与前述方法实施例相应,本申请还提供了一种网络搜索装置,参照图2 所示的结构图,具体可以包括:
网页搜索单元201,用于搜索与输入的查询串相匹配的网页,得到网页 结果;
实体搜索单元202,用于在知识库中检索得到所述查询串对应的实体结 果;其中,所述知识库中存储全网中的实体对象;
实体筛选单元203,用于将所述实体结果分别在各网页结果对应的网页 内容中进行分析匹配,筛选出每条网页结果对应的目标实体;及
展现单元204,用于将所述目标实体分别与匹配的网页结果进行对应展 现。
在本申请的一种优选实施例中,所述实体筛选单元203,可具体用于在 每条网页结果对应的网页内容中分别筛选出与所述实体结果相匹配的目标 内容,并将所述目标内容对应的实体结果作为所述网页结果对应的目标实 体。
在本申请的一种优选实施例中,所述实体搜索单元202具体可以包括:
识别标签化模块,用于识别所述查询串中的实体词和实体属性词,并进 行标签化;
文法分析模块,用于对所述查询串进行文法分析,得到的文法分析结果 中包括文法规则及符合所述文法规则的、标签化的实体词;
转换模块,用于将所述文法分析结果转换为机器语言描述的查询语句; 及
机器检索模块,用于依据所述查询语句在知识库中检索得到相应的实体 信息,作为实体结果。
在本申请的再一种优选实施例中,所述实体筛选单元203具体可以包括:
网页分析模块,用于对所述网页结果对应的网页正文进行分析;
提取模块,用于依据网页正文对应的分析结果,提取所述网页正文中特 征内容;所述特征内容具体可以包括标题、子标题、表格、摘要和加粗文字 中的一项或多项;及
匹配模块,用于将提取到的文字分别与各实体结果进行匹配,得到所述 网页结果中与各实体结果相匹配的目标内容。
在本申请实施例中,优选的是,所述装置还可以包括:用于在将所述目 标实体分别与匹配的网页结果进行对应展现的操作之前,依据所述与所述实 体结果相匹配的目标内容分别在各所述网页结果中出现的频率和/或位置,以 每条网页结果为单位对所述目标实体进行排序的实体排序单元;
则所述展现单元204可具体用于,依据目标实体的排序结果分别对所述 网页结果匹配的各目标实体的标记进行对应展现。
在本申请实施例中,优选的是,所述展现的目标实体带有对应的超级链 接,所述超级链接分别用于转至所匹配的网页结果;
则所述装置还可以包括:用于在接收对所述目标实体的触发之后,分别 将所述网页结果定位至与所述目标实体对应匹配的位置,从而加载所述目标 实体对应匹配的网页内容的加载单元。
在本申请实施例中,优选的是,所述装置还可以包括:用于对所述查询 串进行预处理操作的预处理单元,其中,所述预处理操作包括纠错、去词和 分词操作中的一项或多项;
则所述网页搜索单元201可具体用于,在全网中搜索与预处理后的查询 串相匹配的网页文档,得到所述查询串对应的网页结果;
所述实体搜索单元202可具体用于,在知识库中根据预处理后查询串对 全网中的实体对象进行结构化查询,得到所述查询串对应的实体结果。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明 的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见 即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比 较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请所提供的一种网络搜索方法和装置,进行了详细介绍,本 文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的 说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一 般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变 之处,综上所述,本说明书内容不应理解为对本申请的限制。

一种网络搜索方法和装置.pdf_第1页
第1页 / 共13页
一种网络搜索方法和装置.pdf_第2页
第2页 / 共13页
一种网络搜索方法和装置.pdf_第3页
第3页 / 共13页
点击查看更多>>
资源描述

《一种网络搜索方法和装置.pdf》由会员分享,可在线阅读,更多相关《一种网络搜索方法和装置.pdf(13页珍藏版)》请在专利查询网上搜索。

本申请提供了一种网络搜索方法和装置,涉及网络搜索技术领域。其中的方法具体包括:搜索与输入的查询串相匹配的网页,得到网页结果;在知识库中检索得到所述查询串对应的实体结果;其中,所述知识库中存储全网中的实体对象;将所述实体结果分别在各网页结果对应的网页内容中进行分析匹配,筛选出每条网页结果对应的目标实体;将所述目标实体分别与匹配的网页结果进行对应展现。本申请将网页结果中与查询串相关的目标实体分别筛选出。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1