一种基于界面返回的搜索方法和装置.pdf

上传人:a3 文档编号:1526200 上传时间:2018-06-22 格式:PDF 页数:18 大小:1.38MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310010321.5

申请日:

2013.01.11

公开号:

CN103092945A

公开日:

2013.05.08

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20130111|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

北京百度网讯科技有限公司

发明人:

贾晨辉

地址:

100085 北京市海淀区上地十街10号百度大厦2层

优先权:

专利代理机构:

北京鸿德海业知识产权代理事务所(普通合伙) 11412

代理人:

袁媛

PDF下载: PDF下载
内容摘要

本发明提供了一种基于界面返回的搜索方法和装置,其中方法包括:S101.获取网页信息,从所获取的网页信息中提取网页片段以及对应的描述并存入网页片段库中;S102.在网页片段库中检索与用户输入的查询词匹配的网页片段的描述,并返回对应的网页片段。本发明能够在用户搜索某一查询词时,直接返回相关网页的界面,能够更加迅速地响应用户的需求、节约用户的时间。

权利要求书

权利要求书一种基于界面返回的搜索方法,其特征在于,从预先获取的网页信息中提取网页片段以及对应的描述并存入网页片段库;该方法包括:
接收到用户在检索页面输入的查询词时,在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段,并在所述检索页面返回检索到的网页片段。
根据权利要求1所述的方法,其特征在于,从预先获取的网页信息中提取的网页片段包括:
导航网页片段、浏览性网页片段或功能性网页片段。
根据权利要求2所述的方法,其特征在于,所述导航网页片段的提取包括:提取同一站点下不同页面中编码结构以及内容相同的部分作为导航网页片段;
所述功能性网页片段的提取包括:根据网页源代码中的交互标签,提取网页中对应的交互片段作为功能性网页片段;
所述浏览性网页片段的提取包括:根据网页的DOM树的结构以及内容,提取网页中对应的浏览性网页片段。
根据权利要求2或3所述的方法,其特征在于,当所述导航网页片段中有指向某功能性网页片段或者浏览性网页片段的选项时,在所述网页片段库中保存该选项的URL与所述某功能性网页片段或者浏览性网页片段的对应关系;
当用户在导航网页片段中选择所述指向某功能性网页片段或者浏览性网页片段的选项时,在所述网页片段库中检索并返回与该选项的URL对应的功能性网页片段或者浏览性网页片段。
根据权利要求2或3所述的方法,其特征在于,当所述功能性网页片段或者浏览性网页片段中有返回某导航网页片段的选项时,在所述网页片段库中保存该选项的URL与所述某导航网页片段的对应关系;
当用户在功能性网页片段或者浏览性网页片段中选择返回某导航网页片段的选项时,在所述网页片段库中检索并返回与该选项的URL对应的导航网页片段。
根据权利要求1所述的方法,其特征在于,在将提取的网页片段以及对应的描述存入网页片段库之后,还包括:
根据所述网页片段库中所保存的网页片段的描述之间的相似度,对所保存的网页片段进行去重处理。
根据权利要求1所述的方法,其特征在于,在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段具体包括:
从所述网页片段库中检索出一个或多个权重值高于预设阈值的网页片段,其中,描述与所述用户输入的查询词匹配程度越高的网页片段的权重值越高。
根据权利要求7所述的方法,其特征在于,所述网页片段的权重值还结合网页片段所属网页的实时热度和历史热度来获取。
根据权利要求1、7或8所述的方法,其特征在于,在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段时,采用与所述用户输入的查询词的长度所对应的检索策略在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段。
根据权利要求1所述的方法,其特征在于,在所述检索页面返回检索到的网页片段的同时,还返回所述用户输入的查询词在搜索引擎中的搜索结果。
一种基于界面返回的搜索装置,其特征在于,该装置包括:
建库单元,用于从预先获取的网页信息中提取网页片段以及对应的描述并存入网页片段库;
检索单元,用于接收到用户在检索页面输入的查询词时,在所述网页片段库中检索与用户输入的查询词匹配的描述所对应的网页片段,并在所述检索页面返回检索到的网页片段。
根据权利要求11所述的装置,其特征在于,所述建库单元从预先获取的网页信息中提取的网页片段包括:
导航网页片段、浏览性网页片段或功能性网页片段。
根据权利要求12所述的装置,其特征在于,所述建库单元在提取导航网页片段时,具体执行:提取同一站点下不同页面中编码结构以及内容相同的部分作为导航网页片段;
所述建库单元在提取功能性网页片段时,具体执行:根据网页源代码中的交互标签,提取网页中对应的交互片段作为功能性网页片段;
所述建库单元在提取浏览性网页片段时,具体执行:根据网页的DOM树的结构以及内容,提取网页中对应的浏览性网页片段。
根据权利要求12或13所述的装置,其特征在于,当所述导航网页片段中有指向某功能性网页片段或者浏览性网页片段的选项时,所述建库单元在所述网页片段库中保存该选项的URL与所述某功能性网页片段或者浏览性网页片段的对应关系;
当用户在导航网页片段中选择所述指向某功能性网页片段或者浏览性网页片段的选项时,所述检索单元在所述网页片段库中检索并返回与该选项的URL对应的功能性网页片段或者浏览性网页片段。
根据权利要求12或13所述的装置,其特征在于,当所述功能性网页片段或者浏览性网页片段中有返回某导航网页片段的选项时,所述建库单元在所述网页片段库中保存该选项的URL与所述某导航网页片段的对应关系;
当用户在功能性网页片段或者浏览性网页片段中选择返回某导航网页片段的选项时,所述检索单元在所述网页片段库中检索并返回与该选项的URL对应的导航网页片段。
根据权利要求11所述的装置,其特征在于,所述建库单元在将提取的网页片段以及对应的描述存入网页片段库之后,还执行:
根据所述网页片段库中所保存的网页片段的描述之间的相似度,对所保存的网页片段进行去重处理。
根据权利要求11所述的装置,其特征在于,所述检索单元在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段具体执行:
从所述网页片段库中检索出一个或多个权重值高于预设阈值的网页片段,其中,描述与所述用户输入的查询词匹配程度越高的网页片段的权重值越高。
根据权利要求17所述的装置,其特征在于,所述网页片段的权重值还结合网页片段所属网页的实时热度和历史热度来获取。
根据权利要求11、17或18中任一项所述的装置,其特征在于,所述检索单元在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段时,采用与所述用户输入的查询词的长度所对应的检索策略在所述网页片段库中检索与所述查询词匹配的所对应的网页片段。
根据权利要求11所述的装置,其特征在于,所述检索单元在所述检索页面返回检索到的网页片段的同时,还返回所述用户输入的查询词在搜索引擎中的搜索结果。

说明书

说明书一种基于界面返回的搜索方法和装置
【技术领域】
本发明涉及搜索引擎技术,尤其涉及一种基于界面返回的搜索方法和装置。
【背景技术】
搜索引擎已经成为当今互联网领域中不可缺少的核心技术,如今,大量的用户都习惯于利用搜索引擎来查询所需求的信息或访问相关的页面。搜索引擎的技术从诞生至今已经过了许多改进和发展,其中,如何准确便捷的满足用户需求、改善用户体验一直是各个搜索引擎网站探索的重点。
目前网页搜索引擎提供的服务通常是,先由用户输入查询词后确认搜索,之后根据该查询词的搜索结果,向用户返回相关页面的链接以及摘要等,用户根据需求点击某一链接来访问对应的网页。分析用户的上网行为后可以发现,许多用户会通过某一查询词搜索到相关网页后,访问该网页来使用该网页的一些固定功能,或者通过某一查询词来搜索相关新闻,例如,用户会搜索快递公司的主页,来查询快递单的情况。如果直接在用户输入查询词时向用户返回相关网页的界面,并能让用户在该界面执行相应操作,或者,在用户输入查询词时向用户返回相关信息的浏览界面,便可以更加迅速地响应用户的需求,能够节约用户的时间。
【发明内容】
本发明提供了一种基于界面返回的搜索方法和装置,能够在用户搜索某一查询词时,直接返回相关网页的界面。
具体技术方案如下:
一种基于界面返回的搜索方法,从预先获取的网页信息中提取网页片段以及对应的描述并存入网页片段库;该方法包括:
接收到用户在检索页面输入的查询词时,在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段,并在所述检索页面返回检索到的网页片段。
根据本发明一优选实施例,从预先获取的网页信息中提取的网页片段包括:
导航网页片段、浏览性网页片段或功能性网页片段。
根据本发明一优选实施例,所述导航网页片段的提取包括:提取同一站点下不同页面中编码结构以及内容相同的部分作为导航网页片段;
所述功能性网页片段的提取包括:根据网页源代码中的交互标签,提取网页中对应的交互片段作为功能性网页片段;
所述浏览性网页片段的提取包括:根据网页的DOM树的结构以及内容,提取网页中对应的浏览性网页片段。
根据本发明一优选实施例,当所述导航网页片段中有指向某功能性网页片段或者浏览性网页片段的选项时,在所述网页片段库中保存该选项的URL与所述某功能性网页片段或者浏览性网页片段的对应关系;
当用户在导航网页片段中选择所述指向某功能性网页片段或者浏览性网页片段的选项时,在所述网页片段库中检索并返回与该选项的URL对应的功能性网页片段或者浏览性网页片段。
根据本发明一优选实施例,当所述功能性网页片段或者浏览性网页片段中有返回某导航网页片段的选项时,在所述网页片段库中保存该选项的URL与所述某导航网页片段的对应关系;
当用户在功能性网页片段或者浏览性网页片段中选择返回某导航网页片段的选项时,在所述网页片段库中检索并返回与该选项的URL对应的导航网页片段。
根据本发明一优选实施例,在将提取的网页片段以及对应的描述存入网页片段库之后,还包括:
根据所述网页片段库中所保存的网页片段的描述之间的相似度,对所保存的网页片段进行去重处理。
根据本发明一优选实施例,在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段具体包括:
从所述网页片段库中检索出一个或多个权重值高于预设阈值的网页片段,其中,描述与所述用户输入的查询词匹配程度越高的网页片段的权重值越高。
根据本发明一优选实施例,所述网页片段的权重值还结合网页片段所属网页的实时热度和历史热度来获取。
根据本发明一优选实施例,在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段时,采用与所述用户输入的查询词的长度所对应的检索策略在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段。
根据本发明一优选实施例,在所述检索页面返回检索到的网页片段的同时,还返回所述用户输入的查询词在搜索引擎中的搜索结果。
一种基于界面返回的搜索装置,该装置包括:
建库单元,用于从预先获取的网页信息中提取网页片段以及对应的描述并存入网页片段库;
检索单元,用于接收到用户在检索页面输入的查询词时,在所述网页片段库中检索与用户输入的查询词匹配的描述所对应的网页片段,并在所述检索页面返回检索到的网页片段。
根据本发明一优选实施例,所述建库单元从预先获取的网页信息中提取的网页片段包括:
导航网页片段、浏览性网页片段或功能性网页片段。
根据本发明一优选实施例,所述建库单元在提取导航网页片段时,具体执行:提取同一站点下不同页面中编码结构以及内容相同的部分作为导航网页片段;
所述建库单元在提取功能性网页片段时,具体执行:根据网页源代码中的交互标签,提取网页中对应的交互片段作为功能性网页片段;
所述建库单元在提取浏览性网页片段时,具体执行:根据网页的DOM树的结构以及内容,提取网页中对应的浏览性网页片段。
根据本发明一优选实施例,当所述导航网页片段中有指向某功能性网页片段或者浏览性网页片段的选项时,所述建库单元在所述网页片段库中保存该选项的URL与所述某功能性网页片段或者浏览性网页片段的对应关系;
当用户在导航网页片段中选择所述指向某功能性网页片段或者浏览性网页片段的选项时,所述检索单元在所述网页片段库中检索并返回与该选项的URL对应的功能性网页片段或者浏览性网页片段。
根据本发明一优选实施例,当所述功能性网页片段或者浏览性网页片段中有返回某导航网页片段的选项时,所述建库单元在所述网页片段库中保存该选项的URL与所述某导航网页片段的对应关系;
当用户在功能性网页片段或者浏览性网页片段中选择返回某导航网页片段的选项时,所述检索单元在所述网页片段库中检索并返回与该选项的URL对应的导航网页片段。
根据本发明一优选实施例,所述建库单元在将提取的网页片段以及对应的描述存入网页片段库之后,还执行:
根据所述网页片段库中所保存的网页片段的描述之间的相似度,对所保存的网页片段进行去重处理。
根据本发明一优选实施例,所述检索单元在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段具体执行:
从所述网页片段库中检索出一个或多个权重值高于预设阈值的网页片段,其中,描述与所述用户输入的查询词匹配程度越高的网页片段的权重值越高。
根据本发明一优选实施例,所述网页片段的权重值还结合网页片段所属网页的实时热度和历史热度来获取。
根据本发明一优选实施例,所述检索单元在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段时,采用与所述用户输入的查询词的长度所对应的检索策略在所述网页片段库中检索与所述查询词匹配的所对应的网页片段。
根据本发明一优选实施例,所述检索单元在所述检索页面返回检索到的网页片段的同时,还返回所述用户输入的查询词在搜索引擎中的搜索结果。
由以上技术方案可以看出,本发明通过建立网页片段库来保存所抓取到的各个网页的片段以及对应描述,能够在用户输入查询词时获取匹配的网页片段并以界面形式返回。本发明使得用户在输入查询词时,能够实时获取到相应的网页片段界面,并能直接在网页片段界面中执行相应操作或者浏览相关信息,可见,本发明能够更加迅速地响应用户的需求,节约用户的时间。
【附图说明】
图1为本发明实施例一所提供的基于界面返回的搜索方法流程图;
图2为本发明实施例一所提供的建立网页片段库的方法流程图;
图3为本发明实施例一所提供的导航网页片段示例图;
图4为本发明实施例一所提供的功能性网页片段示例图;
图5为本发明实施例二所提供的基于界面返回的搜索装置示意图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明主要包括建库和检索两部分内容,建库即指预先获取各个网页的信息,并提取网页片段以及对应的描述来建立网页片段库;检索即指根据用户输入的查询词向用户返回匹配的网页片段。下面将通过实施例对本发明的具体内容进行详细阐述。
实施例一
图1为本发明实施例一所提供的基于界面返回的搜索方法流程图,如图1所示,该方法包括:
S101、获取网页信息,从所获取的网页信息中提取网页片段以及对应的描述并存入网页片段库中。
为了能够在用户搜索关键词时直接以界面形式向用户返回对应的网页片段,需要先建立一个保存有各个网页片段的网页片段库。网页片段库可以包括:各个网页导航或者菜单信息的网页片段,以及各个网页的功能性网页片段和浏览性网页片段,其中,某一网页的导航(或者菜单信息)的网页片段中的导航或者菜单选项可以对应该网页相应的功能性网页片段或者浏览性网页片段。
在获取各个网页片段的同时,可以提取出网页片段的描述,以便于后续步骤能根据用户输入的查询词与网页片段的描述的匹配度获取符合用户需求的网页片段。
如图2所示,建立网页片段库具体可以通过下述步骤来实现:
S1011、预先获取各个网页信息,根据预先设定的规则提取网页的导航网页片段,并提取对应的描述,存入网页片段库中。
网页信息可以利用网络爬虫来获取,之后,对所获取的网页的源代码进行预处理,通过编码转换,将所获取的源代码统一为UTF‑8编码,过滤其中的边框广告等无关内容。之后,比较同一个站点下的不同页面的编码结构和内容以及树结构,认为其中不同页面下的编码结构以及内容相同的部分为该站点的导航(或者菜单信息),提取该部分的网页代码作为导航网页片段代码,并分析该站点的站点名、标题等信息,从中提取关键词作为与所提取的该站点的导航或者菜单信息网页片段对应的描述,将所提取的导航网页片段代码与描述形成对应关系后存入网页片段库。
S1012、根据预先设定的规则,提取网页的浏览性网页片段和功能性网页片段以及对应的描述,存入网页片段库中。
针对提取了导航网页片段后的网页的剩余片段或者没有导航网页片段的网页,根据网页代码中的标签来判断该网页中的片段属于浏览性还是功能性。浏览性网页片段即指向用户提供特定信息浏览服务(如新闻)的网页片段,功能性网页片段即指向用户提供特定功能服务(如查询快递订单)的网页片段。
通常,向用户提供特定的功能服务都需要与网站后台进行交互,即,功能性网页片段通常需要与网站后台进行交互,因此,可以根据网页的源代码中是否存在涉及到与后台进行交互的标签来判断网页片段属于浏览性还是功能性,若网页的源代码中存在涉及到与后台进行交互的标签,则该网页的片段为功能性网页片段,若网页的源代码中不存在涉及到与后台进行交互的标签,则该网页的片段为浏览性网页片段。涉及到与后台进行交互的标签可以依据在代码语法规则中各个标签的作用来确定,例如,form标签即为HTML语言中常用的与后台进行交互的标签,此外,input、checkbox、ext、radio、password、button等也均为涉及到与后台进行交互的标签。
针对功能性网页片段,根据网页源代码中的from标签等涉及到提交的标签,提取网页中对应的交互片段的代码作为功能性网页片段代码,并提取相关的文字信息或者关键词作为该交互片段对应的描述,将所提取的功能性网页片段代码与描述形成对应关系后存入网页片段库。
针对浏览性网页片段,根据网页的DOM树的结构以及内容,提取网页中对应的浏览信息片段代码,并提取相关的文字信息或者关键词作为该浏览信息片段对应的描述,将所提取的浏览性网页片段代码与描述形成对应关系后存入网页片段库。
其中,所提取的功能性网页片段或者浏览性网页片段对应的描述可以来自下述内容:所提取的网页代码中的title标签对应的内容;或者,所提取的网页代码中的meta元素的内容;或者,分析DOM树后得到的功能性网页片段或者浏览性网页片段对应的父节点的内容;或者,功能性网页片段或者浏览性网页片段对应的面包屑路径的内容(面包屑路径为网页层级属性链接组成的线性链接标示)。
更进一步地,当所提取的导航网页片段中的导航或者菜单选项指向某一对应的功能性网页片段或者浏览性网页片段时,获取导航网页片段中的指向该功能性网页片段或者浏览性网页片段的选项的URL,并将该URL与该功能性网页片段或者浏览性网页片段形成对应关系后保存至网页片段库。通过在网页片段库中保存功能性网页片段或者浏览性网页片段与导航或者菜单选项URL的对应关系,能够使得用户在返回的导航网页片段中选择某一选项时,能够根据URL在网页片段库中检索对应的功能性网页片段或者浏览性网页片段并返回给用户。
更进一步地,当所提取的功能性网页片段或者浏览性网页片段中存在返回导航界面(或返回主页)的选项时,获取功能性网页片段或者浏览性网页片段中返回导航界面选项的URL,并在网页片段库中保存该URL与相应的导航网页片段的对应关系。
通过上述步骤S1011‑S1012能够建立保存有导航网页片段、浏览性网页片段和功能性网页片段以及对应的描述的网页片段库,网页片段库中还可以进一步包括浏览性网页片段或功能性网页片段与导航网页片段中相应选项的URL的对应关系,以及导航网页片段与浏览性网页片段或功能性网页片段中相应选项的URL的对应关系。
更进一步地,为了能够更为准确地向用户返回网页片段,上述建立网页片段库的方法还可以包括步骤S1013。
S1013、根据网页片段库中的网页片段对应的描述的相似度,对已保存的网页片段进行去重处理。
比较网页片段库中所保存的各个网页片段对应的描述,对其中相似度高于预先设定范围的网页片段进行去重处理,可以根据实际需要保留其中与描述契合度最高的网页片段或者保留其中更为热门的网页。相似度即的各个网页片段对应的描述中的文字信息的相似度。
通过上述步骤S101能够建立网页片段库,为了保证向用户返回结果的准确性,可以通过人工对所保存的网页片段进行进一步审核,同时,也可以通过人工将系统未能准确抓取的热门网页片段添加到网页片段库中。
S102、在网页片段库中检索与用户输入的查询词匹配的网页片段的描述,并返回对应的网页片段。
根据用户输入的查询词在所建立的网页片段库中保存的记录里检索与之匹配的网页片段的描述,并返回对应的网页片段,可以为每个网页片段设定权重,若某个网页片段的描述与查询词的匹配程度越高,那么该网页片段的权重值也越高,最后以界面形式向用户返回一个或多个权重值高于预设阈值的网页片段。
更进一步地,由于用户输入的查询词与网页片段的描述匹配的准确度通常与查询词的长度有关,即,查询词的长度越长,就越能准确分析用户的查询需求,同时与网页片段描述的匹配也越精确,因此,可以根据用户输入查询词的长度来设定不同的返回策略。可以以下述情况为例设定返回策略:
1、当用户输入的查询词长度小于预设的第一长度阈值时。
当用户输入的查询词长度较短(小于预设的第一长度阈值时)时,无法准确分析用户需求,因此可以以界面形式向用户返回与查询词匹配的导航网页片段,由用户从导航网页片段中选择其需要的功能或者浏览选项,具体可以是:若存在与用户输入的查询词一个或多个权重值大于预设的第一权重阈值的导航网页片段,则以界面形式向用户返回该一个或多个导航网页片段。
2、当用户输入的查询词长度大于预设的第一长度阈值且小于预设的第二长度阈值时。
当用户输入的查询词长度大于预设的第一长度阈值且小于预设的第二长度阈值时,可以初步分析用户的需求属于浏览性还是功能性,具体可以根据用户输入的查询词来判定,若存在与用户输入的查询词匹配的一个或多个权重值大于预设的第二权重阈值的浏览性网页片段,则抽取该一个或多个浏览性网页片段的前N个字段以界面形式返回给用户,其中N为预设的正整数;若存在与用户输入的查询词匹配的一个或多个权重值大于预设的第二权重阈值的功能性网页片段,则抽取该一个或多个功能性网页片段的交互片段并以界面形式返回给用户。
3、当用户输入的查询词长度大于预设的第三长度阈值时。
当用户输入的查询词较长(大于预设的第三长度阈值时)时,可以准确分析用户的查询需求,若存在与用户输入的查询词匹配的一个或多个权重值大于预设的第三权重阈值的浏览性网页片段时,则以界面形式向用户返回该一个或多个浏览性网页片段;若存在与用户输入的查询词匹配的一个或多个权重值大于预设的第三权重阈值的功能性网页片段时,则以界面形式向用户返回该一个或多个功能性网页片段。
上述为结合用户输入的查询词的长度向用户返回匹配的网页片段的策略示例,在实际应用中可以根据需要指定不同的策略,本发明对此不做限制。
需要说明的是,由于网页片段库保存的网页片段均为代码的形式,在向用户返回时,需要对网页片段进行重新渲染才能将其以界面形式展现,渲染可以通过按照W3C规则对网页片段进行重写来实现,可以在向用户返回结果的过程中实时渲染,也可以对返回频次较高的网页片段结果进行渲染后缓存,需要时直接返回缓存的结果。
更进一步地,在根据用户输入的查询词向用户以界面形式返回网页片段的同时,还可以以界面形式向用户返回该查询词的搜索结果,即,可以将该检索词通过搜索引擎搜索后得到的前N个结果以界面形式返回给用户,其中N为预设的正整数。可以将前N个搜索结果的超链接、摘要以及URL按照W3C规则包装为HTML片段后以界面形式返回给用户,之后用户可以直接点击其中的超链接来访问对应的网页。
更进一步地,在获取与用户输入的查询词匹配的网页片段的过程中,可以结合网页片段所在网页在搜索引擎中的实时热度和历史热度来生成网页片段的权值Weight,例如,可以利用Weight=a×Sim+b×History(page)+c×Now(page)来得到网页片段的权值,其中,Sim为网页片段的描述与用户输入查询词的相似度,History(page)为网页片段所在网页的历史热度,Now(page)为网页片段所在网页的实时热度,a、b、c为预设的系数。
同时,还可以进一步在用户输入查询词时,返回相关的联想词,这部分为现有技术,在此不过多赘述。
本发明可以当用户在搜索框内输入查询词时,实时向用户以界面形式返回网页片段,当用户开始输入查询词时,可以在网页片段库中检索匹配的导航网页片段并以界面形式在搜索框下返回给用户,之后用户可以选择导航网页中的导航或者菜单选项,根据用户的选择,在网页片段库中检索对应的功能性网页片段或者浏览性网页片段并以界面形式在搜索框下返回给用户,同时,可以将用户在搜索框中输入的查询词自动变换成与所返回的功能性网页片段或者浏览性网页片段的描述所对应的查询词。
例如,如图3所示示例,用户在搜索框中输入“汇通”,则可以以界面形式在搜索框下向用户返回“汇通快运”主页的导航网页片段,之后若用户选择了导航选项中的“网点分布”这一选项,则可以以界面形式在搜索框下向用户返回汇通快运的“网点分布”功能性网页片段,同时,搜索框中的查询词也自动由“汇通”变换为“汇通网点分布”。用户也可以从“网点分布”的网页片段中选择返回主页,此时将重新向用户返回汇通快运主页的导航网页片段,同时,搜索框中的查询词也自动由汇通“汇通网点分布”变换为“汇通”。
用户也可以进一步丰富查询词的内容来获得较为精确的功能性网页片段或者浏览性网页片段。例如,如图4所示示例,用户可以直接输入“汇通查询”,则可以直接以界面形式在搜索框下向用户返回汇通快运的“查快递单“的功能性网页片段。
用户可以通过修改查询词来切换所返回的网页片段,例如,用户输入“汇通”时,向用户返回的是“汇通快运”主页的导航网页片段,用户可以进一步输入“汇通查询”,此时,向用户返回的是汇通快运的“查快递单”功能性网页片段,若用户删除所输入查询词“汇通查询”中的“查询”,则将重新向用户返回“汇通快运”主页的导航网页片段。
实施例二
图5为本发明实施例二所提供的基于界面返回的搜索装置示意图,如图5所示,该装置包括:建库单元10和检索单元20。
建库单元10,用于从预先获取的网页信息中提取网页片段以及对应的描述并存入网页片段库。
为了能够在用户搜索关键词时直接以界面形式向用户返回对应的网页片段,需要建库单元10先建立一个保存有各个网页片段的网页片段库。网页片段库可以包括:各个网页导航或者菜单信息的网页片段,以及各个网页的功能性网页片段和浏览性网页片段,其中,某一网页的导航(或者菜单信息)的网页片段中的导航或者菜单选项可以对应该网页相应的功能性网页片段或者浏览性网页片段。
在获取各个网页片段的同时,建库单元10可以提取出网页片段的描述,以便于后续步骤能根据用户输入的查询词与网页片段的描述的匹配度获取符合用户需求的网页片段。
建库单元10具体可以执行下述操作来建立网页片段库:
S2011、预先获取各个网页信息,根据预先设定的规则提取网页的导航网页片段,并提取对应的描述,存入网页片段库中。
网页信息可以利用网络爬虫来获取,之后,对所获取的网页的源代码进行预处理,通过编码转换,将所获取的源代码统一为UTF‑8编码,过滤其中的边框广告等无关内容。之后,比较同一个站点下的不同页面的编码结构和内容以及树结构,认为其中不同页面下的编码结构以及内容相同的部分为该站点的导航(或者菜单信息),提取该部分的网页代码作为导航网页片段代码,并分析该站点的站点名、标题等信息,从中提取关键词作为与所提取的该站点的导航或者菜单信息网页片段对应的描述,将所提取的导航网页片段代码与描述形成对应关系后存入网页片段库。
S2012、根据预先设定的规则,提取网页的浏览性网页片段和功能性网页片段以及对应的描述,存入网页片段库中。
针对提取了导航网页片段后的网页的剩余片段或者没有导航网页片段的网页,根据网页代码中的标签来判断该网页中的片段属于浏览性还是功能性。浏览性网页片段即指向用户提供特定信息浏览服务(如新闻)的网页片段,功能性网页片段即指向用户提供特定功能服务(如查询快递订单)的网页片段。
通常,向用户提供特定的功能服务都需要与网站后台进行交互,即,功能性网页片段通常需要与网站后台进行交互,因此,可以根据网页的源代码中是否存在涉及到与后台进行交互的标签来判断网页片段属于浏览性还是功能性,若网页的源代码中存在涉及到与后台进行交互的标签,则该网页的片段为功能性网页片段,若网页的源代码中不存在涉及到与后台进行交互的标签,则该网页的片段为浏览性网页片段。涉及到与后台进行交互的标签可以依据在代码语法规则中各个标签的作用来确定,例如,form标签即为HTML语言中常用的与后台进行交互的标签,此外,input、checkbox、ext、radio、password、button等也均为涉及到与后台进行交互的标签。
针对功能性网页片段,根据网页源代码中的from标签等涉及到提交的标签,提取网页中对应的交互片段的代码作为功能性网页片段代码,并提取相关的文字信息或者关键词作为该交互片段对应的描述,将所提取的功能性网页片段代码与描述形成对应关系后存入网页片段库。
针对浏览性网页片段,根据网页的DOM树的结构以及内容,提取网页中对应的浏览信息片段代码,并提取相关的文字信息或者关键词作为该浏览信息片段对应的描述,将所提取的浏览性网页片段代码与描述形成对应关系后存入网页片段库。
其中,所提取的功能性网页片段或者浏览性网页片段对应的描述可以是来自下述内容:所提取的网页代码中的title标签对应的内容;或者,所提取的网页代码中的meta元素的内容;或者,分析DOM树后得到的功能性网页片段或者浏览性网页片段对应的父节点的内容;或者,功能性网页片段或者浏览性网页片段对应的面包屑路径的内容(面包屑路径为网页层级属性链接组成的线性链接标示)。
更进一步地,当所提取的导航网页片段中的导航或者菜单选项指向某一对应的功能性网页片段或者浏览性网页片段时,获取导航网页片段中的指向该功能性网页片段或者浏览性网页片段的选项的URL,并将该URL与该功能性网页片段或者浏览性网页片段形成对应关系后保存至网页片段库。通过在网页片段库中保存功能性网页片段或者浏览性网页片段与导航或者菜单选项URL的对应关系,能够使得用户在返回的导航网页片段中选择某一选项时,能够根据URL在网页片段库中检索对应的功能性网页片段或者浏览性网页片段并返回给用户。
更进一步地,当所提取的功能性网页片段或者浏览性网页片段中存在返回导航界面(或返回主页)的选项时,获取功能性网页片段或者浏览性网页片段中返回导航界面选项的URL,并在网页片段库中保存该URL与相应的导航网页片段的对应关系。
通过执行上述操作S2011‑S2012,建库单元10能够建立保存有导航网页片段、浏览性网页片段和功能性网页片段以及对应的描述的网页片段库,网页片段库中还可以进一步包括浏览性网页片段或功能性网页片段与导航网页片段中相应选项的URL的对应关系,以及导航网页片段与浏览性网页片段或功能性网页片段中相应选项的URL的对应关系。
更进一步地,为了能够更为准确地向用户返回网页片段,建库单元10还可以执行操作S2013。
S2013、根据网页片段库中的网页片段对应的描述的相似度,对已保存的网页片段进行去重处理。
比较网页片段库中所保存的各个网页片段对应的描述,对其中相似度高于预先设定范围的网页片段进行去重处理,可以根据实际需要保留其中与描述契合度最高的网页片段或者保留其中更为热门的网页。相似度即的各个网页片段对应的描述中的文字信息的相似度。
通过执行上述操作,建库单元10能够建立网页片段库,为了保证向用户返回结果的准确性,可以通过人工对所保存的网页片段进行进一步审核,同时,也可以通过人工将系统未能准确抓取的热门网页片段添加到网页片段库中。
检索单元20,用于在所述网页片段库中检索与用户输入的查询词匹配的描述,并以界面形式返回对应的网页片段。
检索单元20根据用户输入的查询词在所建立的网页片段库中保存的记录里检索与之匹配的网页片段的描述,并返回对应的网页片段,检索单元20可以为每个网页片段设定权重,若某个网页片段的描述与查询词的匹配程度越高,那么该网页片段的权重值也越高,最后以界面形式向用户返回一个或多个权重值高于预设阈值的网页片段。
更进一步地,由于用户输入的查询词与网页片段的描述匹配的准确度通常与查询词的长度有关,即,查询词的长度越长,就越能准确分析用户的查询需求,同时与网页片段描述的匹配也越精确,因此,检索单元20可以根据用户输入查询词的长度来设定不同的返回策略。可以以下述情况为例设定返回策略:
1、当用户输入的查询词长度小于预设的第一长度阈值时。
当用户输入的查询词长度较短(小于预设的第一长度阈值时)时,无法准确分析用户需求,因此可以以界面形式向用户返回与查询词匹配的导航网页片段,由用户从导航网页片段中选择其需要的功能或者浏览选项,具体可以是:若存在与用户输入的查询词一个或多个权重值大于预设的第一权重阈值的导航网页片段,则以界面形式向用户返回该一个或多个导航网页片段。
2、当用户输入的查询词长度大于预设的第一长度阈值且小于预设的第二长度阈值时。
当用户输入的查询词长度大于预设的第一长度阈值且小于预设的第二长度阈值时,可以初步分析用户的需求属于浏览性还是功能性,具体可以根据用户输入的查询词来判定,若存在与用户输入的查询词匹配的一个或多个权重值大于预设的第二权重阈值的浏览性网页片段,则抽取该一个或多个浏览性网页片段的前N个字段以界面形式返回给用户,其中N为预设的正整数;若存在与用户输入的查询词匹配的一个或多个权重值大于预设的第二权重阈值的功能性网页片段,则抽取该一个或多个功能性网页片段的交互片段并以界面形式返回给用户。
3、当用户输入的查询词长度大于预设的第三长度阈值时。
当用户输入的查询词较长(大于预设的第三长度阈值时)时,可以准确分析用户的查询需求,若存在与用户输入的查询词匹配的一个或多个权重值大于预设的第三权重阈值的浏览性网页片段时,则以界面形式向用户返回该一个或多个浏览性网页片段;若存在与用户输入的查询词匹配的一个或多个权重值大于预设的第三权重阈值的功能性网页片段时,则以界面形式向用户返回该一个或多个功能性网页片段。
上述为结合用户输入的查询词的长度向用户返回匹配的网页片段的策略示例,在实际应用中可以根据需要指定不同的策略,本发明对此不做限制。
需要说明的是,由于网页片段库保存的网页片段均为代码的形式,在向用户返回时,检索单元20需要对网页片段进行重新渲染才能将其以界面形式展现,渲染可以通过按照W3C规则对网页片段进行重写来实现,可以在向用户返回结果的过程中实时渲染,也可以对返回频次较高的网页片段结果进行渲染后缓存,需要时直接返回缓存的结果。
更进一步地,在根据用户输入的查询词向用户以界面形式返回网页片段的同时,检索单元20还可以以界面形式向用户返回该查询词的搜索结果,即,可以将该检索词通过搜索引擎搜索后得到的前N个结果以界面形式返回给用户,其中N为预设的正整数。可以将前N个搜索结果的超链接、摘要以及URL按照W3C规则包装为HTML片段后以界面形式返回给用户,之后用户可以直接点击其中的超链接来访问对应的网页。
更进一步地,在获取与用户输入的查询词匹配的网页片段的过程中,检索单元20可以结合网页片段所在网页在搜索引擎中的实时热度和历史热度来生成网页片段的权值Weight,例如,可以利用Weight=a×Sim+b×History(page)+c×Now(page)来得到网页片段的权值,其中,Sim为网页片段的描述与用户输入查询词的相似度,History(page)为网页片段所在网页的历史热度,Now(page)为网页片段所在网页的实时热度,a、b、c为预设的系数。
同时,检索单元20还可以进一步在用户输入查询词时,返回相关的联想词,这部分为现有技术,在此不过多赘述。
本发明可以当用户在搜索框内输入查询词时,实时向用户以界面形式返回网页片段,当用户开始输入查询词时,可以在网页片段库中检索匹配的导航网页片段并以界面形式在搜索框下返回给用户,之后用户可以选择导航网页中的导航或者菜单选项,根据用户的选择,在网页片段库中检索对应的功能性网页片段或者浏览性网页片段并以界面形式在搜索框下返回给用户,同时,可以将用户在搜索框中输入的查询词自动变换成与所返回的功能性网页片段或者浏览性网页片段的描述所对应的查询词。
例如,用户在搜索框中输入“汇通”,则以界面形式在搜索框下向用户返回“汇通快运”主页的导航网页片段,之后若用户选择了导航选项中的“网点分布”这一选项,则以界面形式在搜索框下向用户返回汇通快运的“网点分布”功能性网页片段,同时,搜索框中的查询词也自动由“汇通”变换为“汇通网点分布”,用户也可以从“网点分布”的网页片段中选择返回主页,此时将重新向用户返回汇通快运主页的导航网页片段,同时,搜索框中的查询词也自动由汇通“汇通网点分布”变换为“汇通”。
用户也可以进一步丰富查询词的内容,随着用户所输入的查询词的内容越来越多,可以向用户返回较为精确的功能性网页片段或者浏览性网页片段。例如,用户可以直接输入“汇通网点分布”,则可以直接以界面形式在搜索框下向用户返回汇通快运的“网点分布”功能性网页片段。用户可以通过修改查询词来切换所返回的网页片段,例如,用户输入“汇通”时,向用户返回的是“汇通快运”主页的导航网页片段,用户可以进一步输入“汇通网点分布”,此时,向用户返回的是汇通快运的“网点分布”功能性网页片段,若用户删除“汇通网点分布”中的“网点分布”,则将重新向用户返回“汇通快运”主页的导航网页片段。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

一种基于界面返回的搜索方法和装置.pdf_第1页
第1页 / 共18页
一种基于界面返回的搜索方法和装置.pdf_第2页
第2页 / 共18页
一种基于界面返回的搜索方法和装置.pdf_第3页
第3页 / 共18页
点击查看更多>>
资源描述

《一种基于界面返回的搜索方法和装置.pdf》由会员分享,可在线阅读,更多相关《一种基于界面返回的搜索方法和装置.pdf(18页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103092945 A(43)申请公布日 2013.05.08CN103092945A*CN103092945A*(21)申请号 201310010321.5(22)申请日 2013.01.11G06F 17/30(2006.01)(71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层(72)发明人贾晨辉(74)专利代理机构北京鸿德海业知识产权代理事务所(普通合伙) 11412代理人袁媛(54) 发明名称一种基于界面返回的搜索方法和装置(57) 摘要本发明提供了一种基于界面返回的搜索方法和装置,其中方法包括:S101.获取网页。

2、信息,从所获取的网页信息中提取网页片段以及对应的描述并存入网页片段库中;S102.在网页片段库中检索与用户输入的查询词匹配的网页片段的描述,并返回对应的网页片段。本发明能够在用户搜索某一查询词时,直接返回相关网页的界面,能够更加迅速地响应用户的需求、节约用户的时间。(51)Int.Cl.权利要求书3页 说明书11页 附图3页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书3页 说明书11页 附图3页(10)申请公布号 CN 103092945 ACN 103092945 A1/3页21.一种基于界面返回的搜索方法,其特征在于,从预先获取的网页信息中提取网页片段以及对应的描述并。

3、存入网页片段库;该方法包括:接收到用户在检索页面输入的查询词时,在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段,并在所述检索页面返回检索到的网页片段。2.根据权利要求1所述的方法,其特征在于,从预先获取的网页信息中提取的网页片段包括:导航网页片段、浏览性网页片段或功能性网页片段。3.根据权利要求2所述的方法,其特征在于,所述导航网页片段的提取包括:提取同一站点下不同页面中编码结构以及内容相同的部分作为导航网页片段;所述功能性网页片段的提取包括:根据网页源代码中的交互标签,提取网页中对应的交互片段作为功能性网页片段;所述浏览性网页片段的提取包括:根据网页的DOM树的结构以及内容,提。

4、取网页中对应的浏览性网页片段。4.根据权利要求2或3所述的方法,其特征在于,当所述导航网页片段中有指向某功能性网页片段或者浏览性网页片段的选项时,在所述网页片段库中保存该选项的URL与所述某功能性网页片段或者浏览性网页片段的对应关系;当用户在导航网页片段中选择所述指向某功能性网页片段或者浏览性网页片段的选项时,在所述网页片段库中检索并返回与该选项的URL对应的功能性网页片段或者浏览性网页片段。5.根据权利要求2或3所述的方法,其特征在于,当所述功能性网页片段或者浏览性网页片段中有返回某导航网页片段的选项时,在所述网页片段库中保存该选项的URL与所述某导航网页片段的对应关系;当用户在功能性网页片。

5、段或者浏览性网页片段中选择返回某导航网页片段的选项时,在所述网页片段库中检索并返回与该选项的URL对应的导航网页片段。6.根据权利要求1所述的方法,其特征在于,在将提取的网页片段以及对应的描述存入网页片段库之后,还包括:根据所述网页片段库中所保存的网页片段的描述之间的相似度,对所保存的网页片段进行去重处理。7.根据权利要求1所述的方法,其特征在于,在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段具体包括:从所述网页片段库中检索出一个或多个权重值高于预设阈值的网页片段,其中,描述与所述用户输入的查询词匹配程度越高的网页片段的权重值越高。8.根据权利要求7所述的方法,其特征在于,所述网。

6、页片段的权重值还结合网页片段所属网页的实时热度和历史热度来获取。9.根据权利要求1、7或8所述的方法,其特征在于,在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段时,采用与所述用户输入的查询词的长度所对应的检索策略在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段。10.根据权利要求1所述的方法,其特征在于,在所述检索页面返回检索到的网页片段的同时,还返回所述用户输入的查询词在搜索引擎中的搜索结果。权 利 要 求 书CN 103092945 A2/3页311.一种基于界面返回的搜索装置,其特征在于,该装置包括:建库单元,用于从预先获取的网页信息中提取网页片段以及对应的描述。

7、并存入网页片段库;检索单元,用于接收到用户在检索页面输入的查询词时,在所述网页片段库中检索与用户输入的查询词匹配的描述所对应的网页片段,并在所述检索页面返回检索到的网页片段。12.根据权利要求11所述的装置,其特征在于,所述建库单元从预先获取的网页信息中提取的网页片段包括:导航网页片段、浏览性网页片段或功能性网页片段。13.根据权利要求12所述的装置,其特征在于,所述建库单元在提取导航网页片段时,具体执行:提取同一站点下不同页面中编码结构以及内容相同的部分作为导航网页片段;所述建库单元在提取功能性网页片段时,具体执行:根据网页源代码中的交互标签,提取网页中对应的交互片段作为功能性网页片段;所述。

8、建库单元在提取浏览性网页片段时,具体执行:根据网页的DOM树的结构以及内容,提取网页中对应的浏览性网页片段。14.根据权利要求12或13所述的装置,其特征在于,当所述导航网页片段中有指向某功能性网页片段或者浏览性网页片段的选项时,所述建库单元在所述网页片段库中保存该选项的URL与所述某功能性网页片段或者浏览性网页片段的对应关系;当用户在导航网页片段中选择所述指向某功能性网页片段或者浏览性网页片段的选项时,所述检索单元在所述网页片段库中检索并返回与该选项的URL对应的功能性网页片段或者浏览性网页片段。15.根据权利要求12或13所述的装置,其特征在于,当所述功能性网页片段或者浏览性网页片段中有返。

9、回某导航网页片段的选项时,所述建库单元在所述网页片段库中保存该选项的URL与所述某导航网页片段的对应关系;当用户在功能性网页片段或者浏览性网页片段中选择返回某导航网页片段的选项时,所述检索单元在所述网页片段库中检索并返回与该选项的URL对应的导航网页片段。16.根据权利要求11所述的装置,其特征在于,所述建库单元在将提取的网页片段以及对应的描述存入网页片段库之后,还执行:根据所述网页片段库中所保存的网页片段的描述之间的相似度,对所保存的网页片段进行去重处理。17.根据权利要求11所述的装置,其特征在于,所述检索单元在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段具体执行:从所述网页。

10、片段库中检索出一个或多个权重值高于预设阈值的网页片段,其中,描述与所述用户输入的查询词匹配程度越高的网页片段的权重值越高。18.根据权利要求17所述的装置,其特征在于,所述网页片段的权重值还结合网页片段所属网页的实时热度和历史热度来获取。19.根据权利要求11、17或18中任一项所述的装置,其特征在于,所述检索单元在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段时,采用与所述用户输入的查询词的长度所对应的检索策略在所述网页片段库中检索与所述查询词匹配的所对应的权 利 要 求 书CN 103092945 A3/3页4网页片段。20.根据权利要求11所述的装置,其特征在于,所述检索单元。

11、在所述检索页面返回检索到的网页片段的同时,还返回所述用户输入的查询词在搜索引擎中的搜索结果。权 利 要 求 书CN 103092945 A1/11页5一种基于界面返回的搜索方法和装置【 技术领域 】0001 本发明涉及搜索引擎技术,尤其涉及一种基于界面返回的搜索方法和装置。【 背景技术 】0002 搜索引擎已经成为当今互联网领域中不可缺少的核心技术,如今,大量的用户都习惯于利用搜索引擎来查询所需求的信息或访问相关的页面。搜索引擎的技术从诞生至今已经过了许多改进和发展,其中,如何准确便捷的满足用户需求、改善用户体验一直是各个搜索引擎网站探索的重点。0003 目前网页搜索引擎提供的服务通常是,先由。

12、用户输入查询词后确认搜索,之后根据该查询词的搜索结果,向用户返回相关页面的链接以及摘要等,用户根据需求点击某一链接来访问对应的网页。分析用户的上网行为后可以发现,许多用户会通过某一查询词搜索到相关网页后,访问该网页来使用该网页的一些固定功能,或者通过某一查询词来搜索相关新闻,例如,用户会搜索快递公司的主页,来查询快递单的情况。如果直接在用户输入查询词时向用户返回相关网页的界面,并能让用户在该界面执行相应操作,或者,在用户输入查询词时向用户返回相关信息的浏览界面,便可以更加迅速地响应用户的需求,能够节约用户的时间。【 发明内容 】0004 本发明提供了一种基于界面返回的搜索方法和装置,能够在用户。

13、搜索某一查询词时,直接返回相关网页的界面。0005 具体技术方案如下:0006 一种基于界面返回的搜索方法,从预先获取的网页信息中提取网页片段以及对应的描述并存入网页片段库;该方法包括:0007 接收到用户在检索页面输入的查询词时,在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段,并在所述检索页面返回检索到的网页片段。0008 根据本发明一优选实施例,从预先获取的网页信息中提取的网页片段包括:0009 导航网页片段、浏览性网页片段或功能性网页片段。0010 根据本发明一优选实施例,所述导航网页片段的提取包括:提取同一站点下不同页面中编码结构以及内容相同的部分作为导航网页片段;001。

14、1 所述功能性网页片段的提取包括:根据网页源代码中的交互标签,提取网页中对应的交互片段作为功能性网页片段;0012 所述浏览性网页片段的提取包括:根据网页的DOM树的结构以及内容,提取网页中对应的浏览性网页片段。0013 根据本发明一优选实施例,当所述导航网页片段中有指向某功能性网页片段或者浏览性网页片段的选项时,在所述网页片段库中保存该选项的URL与所述某功能性网页片段或者浏览性网页片段的对应关系;说 明 书CN 103092945 A2/11页60014 当用户在导航网页片段中选择所述指向某功能性网页片段或者浏览性网页片段的选项时,在所述网页片段库中检索并返回与该选项的URL对应的功能性网。

15、页片段或者浏览性网页片段。0015 根据本发明一优选实施例,当所述功能性网页片段或者浏览性网页片段中有返回某导航网页片段的选项时,在所述网页片段库中保存该选项的URL与所述某导航网页片段的对应关系;0016 当用户在功能性网页片段或者浏览性网页片段中选择返回某导航网页片段的选项时,在所述网页片段库中检索并返回与该选项的URL对应的导航网页片段。0017 根据本发明一优选实施例,在将提取的网页片段以及对应的描述存入网页片段库之后,还包括:0018 根据所述网页片段库中所保存的网页片段的描述之间的相似度,对所保存的网页片段进行去重处理。0019 根据本发明一优选实施例,在所述网页片段库中检索与所述。

16、查询词匹配的描述所对应的网页片段具体包括:0020 从所述网页片段库中检索出一个或多个权重值高于预设阈值的网页片段,其中,描述与所述用户输入的查询词匹配程度越高的网页片段的权重值越高。0021 根据本发明一优选实施例,所述网页片段的权重值还结合网页片段所属网页的实时热度和历史热度来获取。0022 根据本发明一优选实施例,在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段时,采用与所述用户输入的查询词的长度所对应的检索策略在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段。0023 根据本发明一优选实施例,在所述检索页面返回检索到的网页片段的同时,还返回所述用户输入的查询词在。

17、搜索引擎中的搜索结果。0024 一种基于界面返回的搜索装置,该装置包括:0025 建库单元,用于从预先获取的网页信息中提取网页片段以及对应的描述并存入网页片段库;0026 检索单元,用于接收到用户在检索页面输入的查询词时,在所述网页片段库中检索与用户输入的查询词匹配的描述所对应的网页片段,并在所述检索页面返回检索到的网页片段。0027 根据本发明一优选实施例,所述建库单元从预先获取的网页信息中提取的网页片段包括:0028 导航网页片段、浏览性网页片段或功能性网页片段。0029 根据本发明一优选实施例,所述建库单元在提取导航网页片段时,具体执行:提取同一站点下不同页面中编码结构以及内容相同的部分。

18、作为导航网页片段;0030 所述建库单元在提取功能性网页片段时,具体执行:根据网页源代码中的交互标签,提取网页中对应的交互片段作为功能性网页片段;0031 所述建库单元在提取浏览性网页片段时,具体执行:根据网页的DOM树的结构以及内容,提取网页中对应的浏览性网页片段。0032 根据本发明一优选实施例,当所述导航网页片段中有指向某功能性网页片段或者说 明 书CN 103092945 A3/11页7浏览性网页片段的选项时,所述建库单元在所述网页片段库中保存该选项的URL与所述某功能性网页片段或者浏览性网页片段的对应关系;0033 当用户在导航网页片段中选择所述指向某功能性网页片段或者浏览性网页片段。

19、的选项时,所述检索单元在所述网页片段库中检索并返回与该选项的URL对应的功能性网页片段或者浏览性网页片段。0034 根据本发明一优选实施例,当所述功能性网页片段或者浏览性网页片段中有返回某导航网页片段的选项时,所述建库单元在所述网页片段库中保存该选项的URL与所述某导航网页片段的对应关系;0035 当用户在功能性网页片段或者浏览性网页片段中选择返回某导航网页片段的选项时,所述检索单元在所述网页片段库中检索并返回与该选项的URL对应的导航网页片段。0036 根据本发明一优选实施例,所述建库单元在将提取的网页片段以及对应的描述存入网页片段库之后,还执行:0037 根据所述网页片段库中所保存的网页片。

20、段的描述之间的相似度,对所保存的网页片段进行去重处理。0038 根据本发明一优选实施例,所述检索单元在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段具体执行:0039 从所述网页片段库中检索出一个或多个权重值高于预设阈值的网页片段,其中,描述与所述用户输入的查询词匹配程度越高的网页片段的权重值越高。0040 根据本发明一优选实施例,所述网页片段的权重值还结合网页片段所属网页的实时热度和历史热度来获取。0041 根据本发明一优选实施例,所述检索单元在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段时,采用与所述用户输入的查询词的长度所对应的检索策略在所述网页片段库中检索与所。

21、述查询词匹配的所对应的网页片段。0042 根据本发明一优选实施例,所述检索单元在所述检索页面返回检索到的网页片段的同时,还返回所述用户输入的查询词在搜索引擎中的搜索结果。0043 由以上技术方案可以看出,本发明通过建立网页片段库来保存所抓取到的各个网页的片段以及对应描述,能够在用户输入查询词时获取匹配的网页片段并以界面形式返回。本发明使得用户在输入查询词时,能够实时获取到相应的网页片段界面,并能直接在网页片段界面中执行相应操作或者浏览相关信息,可见,本发明能够更加迅速地响应用户的需求,节约用户的时间。【 附图说明 】0044 图1为本发明实施例一所提供的基于界面返回的搜索方法流程图;0045 。

22、图2为本发明实施例一所提供的建立网页片段库的方法流程图;0046 图3为本发明实施例一所提供的导航网页片段示例图;0047 图4为本发明实施例一所提供的功能性网页片段示例图;0048 图5为本发明实施例二所提供的基于界面返回的搜索装置示意图。说 明 书CN 103092945 A4/11页8【 具体实施方式 】0049 为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。0050 本发明主要包括建库和检索两部分内容,建库即指预先获取各个网页的信息,并提取网页片段以及对应的描述来建立网页片段库;检索即指根据用户输入的查询词向用户返回匹配的网页片段。下面将通过。

23、实施例对本发明的具体内容进行详细阐述。0051 实施例一0052 图1为本发明实施例一所提供的基于界面返回的搜索方法流程图,如图1所示,该方法包括:0053 S101、获取网页信息,从所获取的网页信息中提取网页片段以及对应的描述并存入网页片段库中。0054 为了能够在用户搜索关键词时直接以界面形式向用户返回对应的网页片段,需要先建立一个保存有各个网页片段的网页片段库。网页片段库可以包括:各个网页导航或者菜单信息的网页片段,以及各个网页的功能性网页片段和浏览性网页片段,其中,某一网页的导航(或者菜单信息)的网页片段中的导航或者菜单选项可以对应该网页相应的功能性网页片段或者浏览性网页片段。0055。

24、 在获取各个网页片段的同时,可以提取出网页片段的描述,以便于后续步骤能根据用户输入的查询词与网页片段的描述的匹配度获取符合用户需求的网页片段。0056 如图2所示,建立网页片段库具体可以通过下述步骤来实现:0057 S1011、预先获取各个网页信息,根据预先设定的规则提取网页的导航网页片段,并提取对应的描述,存入网页片段库中。0058 网页信息可以利用网络爬虫来获取,之后,对所获取的网页的源代码进行预处理,通过编码转换,将所获取的源代码统一为UTF-8编码,过滤其中的边框广告等无关内容。之后,比较同一个站点下的不同页面的编码结构和内容以及树结构,认为其中不同页面下的编码结构以及内容相同的部分为。

25、该站点的导航(或者菜单信息),提取该部分的网页代码作为导航网页片段代码,并分析该站点的站点名、标题等信息,从中提取关键词作为与所提取的该站点的导航或者菜单信息网页片段对应的描述,将所提取的导航网页片段代码与描述形成对应关系后存入网页片段库。0059 S1012、根据预先设定的规则,提取网页的浏览性网页片段和功能性网页片段以及对应的描述,存入网页片段库中。0060 针对提取了导航网页片段后的网页的剩余片段或者没有导航网页片段的网页,根据网页代码中的标签来判断该网页中的片段属于浏览性还是功能性。浏览性网页片段即指向用户提供特定信息浏览服务(如新闻)的网页片段,功能性网页片段即指向用户提供特定功能服。

26、务(如查询快递订单)的网页片段。0061 通常,向用户提供特定的功能服务都需要与网站后台进行交互,即,功能性网页片段通常需要与网站后台进行交互,因此,可以根据网页的源代码中是否存在涉及到与后台进行交互的标签来判断网页片段属于浏览性还是功能性,若网页的源代码中存在涉及到与后台进行交互的标签,则该网页的片段为功能性网页片段,若网页的源代码中不存在涉及到与后台进行交互的标签,则该网页的片段为浏览性网页片段。涉及到与后台进行交互的说 明 书CN 103092945 A5/11页9标签可以依据在代码语法规则中各个标签的作用来确定,例如,form标签即为HTML语言中常用的与后台进行交互的标签,此外,in。

27、put、checkbox、ext、radio、password、button等也均为涉及到与后台进行交互的标签。0062 针对功能性网页片段,根据网页源代码中的from标签等涉及到提交的标签,提取网页中对应的交互片段的代码作为功能性网页片段代码,并提取相关的文字信息或者关键词作为该交互片段对应的描述,将所提取的功能性网页片段代码与描述形成对应关系后存入网页片段库。0063 针对浏览性网页片段,根据网页的DOM树的结构以及内容,提取网页中对应的浏览信息片段代码,并提取相关的文字信息或者关键词作为该浏览信息片段对应的描述,将所提取的浏览性网页片段代码与描述形成对应关系后存入网页片段库。0064 其。

28、中,所提取的功能性网页片段或者浏览性网页片段对应的描述可以来自下述内容:所提取的网页代码中的title标签对应的内容;或者,所提取的网页代码中的meta元素的内容;或者,分析DOM树后得到的功能性网页片段或者浏览性网页片段对应的父节点的内容;或者,功能性网页片段或者浏览性网页片段对应的面包屑路径的内容(面包屑路径为网页层级属性链接组成的线性链接标示)。0065 更进一步地,当所提取的导航网页片段中的导航或者菜单选项指向某一对应的功能性网页片段或者浏览性网页片段时,获取导航网页片段中的指向该功能性网页片段或者浏览性网页片段的选项的URL,并将该URL与该功能性网页片段或者浏览性网页片段形成对应关。

29、系后保存至网页片段库。通过在网页片段库中保存功能性网页片段或者浏览性网页片段与导航或者菜单选项URL的对应关系,能够使得用户在返回的导航网页片段中选择某一选项时,能够根据URL在网页片段库中检索对应的功能性网页片段或者浏览性网页片段并返回给用户。0066 更进一步地,当所提取的功能性网页片段或者浏览性网页片段中存在返回导航界面(或返回主页)的选项时,获取功能性网页片段或者浏览性网页片段中返回导航界面选项的URL,并在网页片段库中保存该URL与相应的导航网页片段的对应关系。0067 通过上述步骤S1011-S1012能够建立保存有导航网页片段、浏览性网页片段和功能性网页片段以及对应的描述的网页片。

30、段库,网页片段库中还可以进一步包括浏览性网页片段或功能性网页片段与导航网页片段中相应选项的URL的对应关系,以及导航网页片段与浏览性网页片段或功能性网页片段中相应选项的URL的对应关系。0068 更进一步地,为了能够更为准确地向用户返回网页片段,上述建立网页片段库的方法还可以包括步骤S1013。0069 S1013、根据网页片段库中的网页片段对应的描述的相似度,对已保存的网页片段进行去重处理。0070 比较网页片段库中所保存的各个网页片段对应的描述,对其中相似度高于预先设定范围的网页片段进行去重处理,可以根据实际需要保留其中与描述契合度最高的网页片段或者保留其中更为热门的网页。相似度即的各个网。

31、页片段对应的描述中的文字信息的相似度。0071 通过上述步骤S101能够建立网页片段库,为了保证向用户返回结果的准确性,可以通过人工对所保存的网页片段进行进一步审核,同时,也可以通过人工将系统未能准确说 明 书CN 103092945 A6/11页10抓取的热门网页片段添加到网页片段库中。0072 S102、在网页片段库中检索与用户输入的查询词匹配的网页片段的描述,并返回对应的网页片段。0073 根据用户输入的查询词在所建立的网页片段库中保存的记录里检索与之匹配的网页片段的描述,并返回对应的网页片段,可以为每个网页片段设定权重,若某个网页片段的描述与查询词的匹配程度越高,那么该网页片段的权重值。

32、也越高,最后以界面形式向用户返回一个或多个权重值高于预设阈值的网页片段。0074 更进一步地,由于用户输入的查询词与网页片段的描述匹配的准确度通常与查询词的长度有关,即,查询词的长度越长,就越能准确分析用户的查询需求,同时与网页片段描述的匹配也越精确,因此,可以根据用户输入查询词的长度来设定不同的返回策略。可以以下述情况为例设定返回策略:0075 1、当用户输入的查询词长度小于预设的第一长度阈值时。0076 当用户输入的查询词长度较短(小于预设的第一长度阈值时)时,无法准确分析用户需求,因此可以以界面形式向用户返回与查询词匹配的导航网页片段,由用户从导航网页片段中选择其需要的功能或者浏览选项,。

33、具体可以是:若存在与用户输入的查询词一个或多个权重值大于预设的第一权重阈值的导航网页片段,则以界面形式向用户返回该一个或多个导航网页片段。0077 2、当用户输入的查询词长度大于预设的第一长度阈值且小于预设的第二长度阈值时。0078 当用户输入的查询词长度大于预设的第一长度阈值且小于预设的第二长度阈值时,可以初步分析用户的需求属于浏览性还是功能性,具体可以根据用户输入的查询词来判定,若存在与用户输入的查询词匹配的一个或多个权重值大于预设的第二权重阈值的浏览性网页片段,则抽取该一个或多个浏览性网页片段的前N个字段以界面形式返回给用户,其中N为预设的正整数;若存在与用户输入的查询词匹配的一个或多个。

34、权重值大于预设的第二权重阈值的功能性网页片段,则抽取该一个或多个功能性网页片段的交互片段并以界面形式返回给用户。0079 3、当用户输入的查询词长度大于预设的第三长度阈值时。0080 当用户输入的查询词较长(大于预设的第三长度阈值时)时,可以准确分析用户的查询需求,若存在与用户输入的查询词匹配的一个或多个权重值大于预设的第三权重阈值的浏览性网页片段时,则以界面形式向用户返回该一个或多个浏览性网页片段;若存在与用户输入的查询词匹配的一个或多个权重值大于预设的第三权重阈值的功能性网页片段时,则以界面形式向用户返回该一个或多个功能性网页片段。0081 上述为结合用户输入的查询词的长度向用户返回匹配的网页片段的策略示例,在实际应用中可以根据需要指定不同的策略,本发明对此不做限制。0082 需要说明的是,由于网页片段库保存的网页片段均为代码的形式,在向用户返回时,需要对网页片段进行重新渲染才能将其以界面形式展现,渲染可以通过按照W3C规则对网页片段进行重写来实现,可以在向用户返回结果的过程中实时渲染,也可以对返回频次较高的网页片段结果进行渲染后缓存,需要时直接返回缓存的结果。0083 更进一步地,在根据用户输入的查询词向用户以界面形式返回网页片段的同时,说 明 书CN 103092945 A10。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1