《垂直搜索引擎的实现方法.pdf》由会员分享,可在线阅读,更多相关《垂直搜索引擎的实现方法.pdf(16页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102880721 A (43)申请公布日 2013.01.16 C N 1 0 2 8 8 0 7 2 1 A *CN102880721A* (21)申请号 201210390588.7 (22)申请日 2012.10.15 G06F 17/30(2006.01) (71)申请人瑞庭网络技术(上海)有限公司 地址 200120 上海市浦东新区陆家嘴环路 166号未来资产大厦10楼 (72)发明人黄水清 张尔宁 梁山 (74)专利代理机构上海浦一知识产权代理有限 公司 31211 代理人殷晓雪 (54) 发明名称 垂直搜索引擎的实现方法 (57) 摘要 本申请公开了一。
2、种垂直搜索引擎的实现方 法,首先建立地理词数据库、特征词数据库、地址 检索训练库。然后由网页抓取程序搜集网页信息。 接着由索引程序为所搜集的网页建立坐标值索 引、特征码索引和关键词索引中的一个或多个。最 后由检索程序响应用户的查询内容。检索程序判 断查询内容是否属于按地址检索;如果属于,则 以坐标值、特征码、关键词单独或组合检索。如果 不属于,则以特征码、关键词单独或组合检索。检 索结果展示给用户。本申请采用朴素贝叶斯分类 算法判断检索意图,并构建了网页的三类索引库, 以这三类索引库相组合进行检索,由此可得到更 符合用户需求、更为精准的检索结果。 (51)Int.Cl. 权利要求书3页 说明书。
3、8页 附图4页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 3 页 说明书 8 页 附图 4 页 1/3页 2 1.一种垂直搜索引擎的实现方法,其特征是,所述方法为: 第一步,建立地理词数据库、特征词数据库、地址检索训练库; 所述地理词数据库包括多个地理词; 所述特征词数据库包括多个特征词及其相应的互不重复的特征码; 所述地址检索训练库包括多段话、它们均已由人工分类为“具有按地址检索的意图”或 “不具有按地址检索的意图”这两个类别之一;所述两个类别出现的概率值、每段话中的每 个词汇对于所述两个类别的条件概率也已统计计算出; 第二步,由网页抓取程序搜集网页信息; 第三。
4、步,由索引程序为所搜集的网页建立坐标值索引、特征码索引和关键词索引中的 一个或多个; 第四步,由检索程序响应用户的查询内容;检索程序判断查询内容是否属于按地址检 索;如果属于,则从查询内容中提取出地理词的坐标值、特征词的特征码,剩下的作为关键 词,作为在坐标值索引库、特征码索引库、关键词索引库中单独或组合检索的条件;如果不 属于,则从查询内容中提取出特征词的特征码,剩下的作为关键词,作为在特征码索引库、 关键词索引库中单独组合检索的条件;检索结果展示给用户。 2.根据权利要求1所述的垂直搜索引擎的实现方法,其特征是,所述方法第一步中,所 述地址检索训练库包括由多段话组成的训练样本集,每段话就是。
5、一个训练样本;每段话由 一个或多个词汇组成,每个词汇就是一个特征属性;每段话已确定了是属于“具有按地址检 索的意图”类别或“不具有按地址检索的意图”类别,即每个训练样本已确定了类别; 在建立了地址检索意图训练库之后,还以其为基础统计出上述两个类别各自的发生概 率,以及每个词汇分别与上述两个类别同时发生的概率;基于这两个统计值就可以计算出 上述两个类别的条件下每个词汇的概率,即每个词汇对上述两个类别的条件概率。 3.根据权利要求1所述的垂直搜索引擎的实现方法,其特征是,所述方法第三步中,建 立坐标值索引包括如下步骤: 第3a步,索引程序根据网页结构查找描述地址信息的字段; 如果网页结构中不存在“。
6、地址”字段、或者虽存在“地址”字段但其内容为空,则不为该 网页建立坐标值索引; 如果网页结构中存在“地址”字段且其内容不为空,则进入第3b步; 第3b步,索引程序判断“地址”字段中的内容是否包含所述地理词数据库中的任意地 理词; 如果仅包含一个地理词,则根据所述地理词数据库查询该地理词所对应的坐标值,并 将该坐标值作为该网页的坐标值索引; 如果包含多个地理词,则根据所述地理词数据库查询其中首次出现的地理词所对应的 坐标值,并将该坐标值作为该网页的坐标值索引; 如果未包含任意地理词,则进入第3c步; 第3c步,将“地址”字段的内容在第三方网站查询; 如果第三方网站仍无法得到坐标值,则不为该网页建。
7、立坐标值索引; 如果第三方网站可以得到坐标值,则将该坐标值作为该网页的坐标值索引,同时将“地 址”字段的内容及其坐标值加入到坐标值数据库中。 权 利 要 求 书CN 102880721 A 2/3页 3 4.根据权利要求1所述的垂直搜索引擎的实现方法,其特征是,所述方法第三步中,建 立特征码索引包括如下步骤: 第4a步,索引程序根据网页结构查找各个非空字段,并从中排除掉描述地址信息的字 段; 如果网页结构中不存在任何字段、或者仅存在“地址”字段、或者虽存在除“地址”字段 以外的字段但内容均为空,则不为该网页建立特征码索引; 如果网页结构中存在内容不为空的、除“地址”字段以外的字段,则进入第4b。
8、步; 第4b步,索引程序判断这些不为空的、除“地址”字段以外的字段中的内容是否包含所 述特征词数据库中的任意特征词; 如果包含一个或多个特征词,则根据所述特征词数据库查询这些特征词所对应的特征 码,并将这些特征码作为该网页的特征码索引; 如果未包含任意特征词,则不为该网页建立特征码索引。 5.根据权利要求1所述的垂直搜索引擎的实现方法,其特征是,所述方法第三步中,建 立关键词索引的方法为:对于所搜集的网页,排除掉地理词和特征词以外的内容均作为该 网页的关键词索引。 6.根据权利要求1所述的垂直搜索引擎的实现方法,其特征是,所述方法第三步中,索 引程序仅对具有规范的网页结构的网页建立索引。 7.。
9、根据权利要求1所述的垂直搜索引擎的实现方法,其特征是,所述方法第四步具体 包括: 第5a步,检索程序判断用户输入的查询内容是否属于按地址检索,即采用朴素贝叶斯 分类算法基于所述地址检索训练库对用户输入的查询内容进行“具有按地址检索的意图” 和“不具有按地址检索的意图”这两个类别的分类; 如果判断出用户输入的查询内容属于按地址检索,则进入第5b步; 如果判断出用户输入的查询内容不属于按地址检索,则进入第5d步; 第5b步,检索程序判断所述查询内容中是否包含所述地理词数据库中的任意地理词; 如果包含一个或多个地理词,则根据所述地理词数据库查询这些地理词所对应的坐标 值,并记录这些坐标值,然后进入第。
10、5d步; 如果未包含任意地理词,则进入第5c步; 第5c步,检索程序将所述查询内容在第三方网站进行坐标查询; 如果第三方网站可以得到坐标值,则将所述查询内容及其坐标值加入到坐标值数据库 中,并进入第5c步; 如果第三方网站仍无法得到坐标值,则进入第5d步; 第5d步,检索程序判断所述查询内容中是否包含所述特征词数据库中的任意特征词; 如果包含一个或多个特征词,则根据所述特征词数据库查询这些特征词所对应的特征 码,并记录这些特征码,然后进入第5e步; 如果未包含任意特征词,则进入第5e步; 第5e步,如果所述查询内容排除掉地理词、特征词之后还具有剩余内容,则将这些剩 余内容作为关键词,然后进入第。
11、5f步; 如果所述查询内容排除掉地理词、特征词之后没有剩余内容,则进入第5f步; 权 利 要 求 书CN 102880721 A 3/3页 4 第5f步,当所述查询内容具有地理词时,将从所述查询内容中得到的坐标值的一定距 离范围内作为在坐标值索引库中的检索条件; 当所述查询内容具有特征词时,将从所述查询内容中得到的特征码在特征码索引库中 进行检索; 当所述查询内容具有关键词时,将所述关键词在关键词索引库中进行检索; 以上述三种检索方式的一种、或多种相组合所获得的检索结果的交集,呈现给用户。 8.根据权利要求7所述的垂直搜索引擎的实现方法,其特征是,第5f步中, 如果所述查询内容中未包含地理词、。
12、未包含特征词、包含关键词,则检索程序将关键词 在关键词索引库中进行检索; 如果所述查询内容中未包含地理词、包含特征词、未包含关键词,则检索程序将特征码 在特征码索引库中进行检索; 如果所述查询内容中未包含地理词、包含特征词、包含关键词,则检索程序将从特征码 在特征码索引库中进行检索;或者,检索程序将特征码在特征码索引库中进行检索,同时以 关键词在关键词索引库中进行检索; 如果所述查询内容中包含地理词、未包含特征词、未包含关键词,则检索程序将坐标值 的一定距离范围内作为在坐标值索引库中的检索条件; 如果所述查询内容中包含地理词、未包含特征词、包含关键词,则检索程序将坐标值的 一定距离范围内作为在。
13、坐标值索引库中的检索条件;或者,检索程序将坐标值的一定距离 范围内作为在坐标值索引库中的检索条件,同时以关键词在关键词索引库中进行检索; 如果所述查询内容中包含地理词、包含特征词、未包含关键词,则检索程序将坐标值的 一定距离范围内作为在坐标值索引库中的检索条件,同时将特征码在特征码索引库中进行 检索; 如果所述查询内容中包含地理词、包含特征词、包含关键词,则检索程序将坐标值的一 定距离范围内作为在坐标值索引库中的检索条件,同时将特征码在特征码索引库中进行检 索;或者,检索程序将坐标值的一定距离范围内作为在坐标值索引库中的检索条件,同时将 特征码在特征码索引库中进行检索,同时以关键词在关键词索引。
14、库中进行检索; 当在多个索引库中同时进行检索,取各自检索结果的交集呈现给用户。 9.根据权利要求7所述的垂直搜索引擎的实现方法,其特征是,第5f步中,当用户输 入的查询内容同时包含有地理词和表示位置的特征词的时候,则忽略坐标值的检索条件。 权 利 要 求 书CN 102880721 A 1/8页 5 垂直搜索引擎的实现方法 技术领域 0001 本申请涉及一种互联网领域的垂直搜索引擎。 背景技术 0002 搜索引擎是指搜集大量的网页信息,对这些网页信息进行整理,并为用户提供 检索服务的计算机系统。搜索引擎按其工作方式主要可分为三种:全文搜索引擎(Full TextSearch Engine)、垂。
15、直搜索引擎(Vertical Search Engine)和元搜索引擎(Meta SearchEngine)。 0003 全文搜索引擎是从互联网上广泛抓取各种网页,为各个网页建立索引,根据用户 的查询条件在索引库中查找相匹配的记录,然后按一定的排列顺序将结果返回给用户。全 文搜索引擎的典型代表为Google、百度,其检索范围广泛,但也有查询不准确、深度不够的 特点。 0004 垂直搜索引擎是针对某一个行业的专业搜索引擎,其通过针对某一特定领域、某 一特定人群或某一特定需求而提供检索服务。垂直搜索引擎的应用领域包括求职招聘类、 房屋房产类、交通出行类、购物比价类、软件及影音资源类等,其检索范围局。
16、限在特定的应 用领域,但具有在该应用领域内的检索结果专业、精确、深入的特点。 0005 元搜索引擎是将用户的查询请求同时在多个其他搜索引擎上进行检索,并将全部 结果返回给用户。 0006 搜索引擎通常都包括网页抓取程序、索引程序、检索程序等。现有的垂直搜索引擎 的实现方法如下: 0007 首先,由网页抓取程序搜集网页内容。由于每个垂直搜索引擎都具有特定的应用 领域,因而网页抓取程序重点搜集该特定的应用领域内的网页信息,兼顾互联网上的其他 网页信息。 0008 其次,由索引程序为所搜集的网页内容建立索引。索引程序将所搜集的网页中与 应用领域相关的文本内容提取作为关键词索引,所有网页的关键词索引就。
17、形成了关键词索 引库。 0009 最后,由检索程序响应用户的查询请求。检索程序在关键词索引库中检索出与用 户的查询内容相匹配的记录,并对输出结果进行排序(通常是按照匹配程度、重要性等方式 排序)后展示出来。 0010 现有的垂直搜索引擎的实现方法具有如下缺点: 0011 其一,检索程序对用户输入的查询内容与关键词索引库之间进行的是文本匹配工 作,导致检索结果不够精准。 0012 其二,用户输入的查询内容有时包含一段准确(或者疑似)地址信息,这表明了按 该地址进行检索的意图。但是检索程序仍然只是按照关键词匹配,因而无法给出合理的检 索结果。 说 明 书CN 102880721 A 2/8页 6 。
18、发明内容 0013 本申请所要解决的技术问题是提供一种垂直搜索引擎的实现方法。 0014 为解决上述技术问题,本申请垂直搜索引擎的实现方法为: 0015 第一步,建立地理词数据库、特征词数据库、地址检索训练库; 0016 所述地理词数据库包括多个地理词; 0017 所述特征词数据库包括多个特征词及其相应的互不重复的特征码; 0018 所述地址检索训练库包括多段话、它们均已由人工分类为“具有按地址检索的意 图”或“不具有按地址检索的意图”这两个类别之一;所述两个类别出现的概率值、每段话中 的每个词汇对于所述两个类别的条件概率也已统计计算出; 0019 第二步,由网页抓取程序搜集网页信息; 002。
19、0 第三步,由索引程序为所搜集的网页建立坐标值索引、特征码索引和关键词索引 中的一个或多个; 0021 第四步,由检索程序响应用户的查询内容;检索程序判断查询内容是否属于按地 址检索;如果属于,则从查询内容中提取出地理词的坐标值、特征词的特征码,剩下的作为 关键词,作为在坐标值索引库、特征码索引库、关键词索引库中单独或组合检索的条件;如 果不属于,则从查询内容中提取出特征词的特征码,剩下的作为关键词,作为在特征码索引 库、关键词索引库中单独组合检索的条件;检索结果展示给用户。 0022 与现有的垂直搜索引擎相比,本申请的垂直搜索引擎的实现方法采用朴素贝叶斯 分类算法对用户输入的查询内容进行检索。
20、意图的判断,为此预先建立了训练库,这可以显 著增强检索结果的准确性。本申请还构建了网页的三类索引库,其中的坐标值索引库可用 于按地址检索,特征码索引库可对网页进行精确描述,关键词索引库可进行关键词检索,以 这三类索引库相组合可得到更为精准的检索结果。 附图说明 0023 图1是本申请垂直搜索引擎的实现方法的总流程图; 0024 图2是朴素贝叶斯分类算法的实现流程图; 0025 图3是本申请垂直搜索引擎的实现方法中建立地理词索引的流程图; 0026 图4是本申请垂直搜索引擎的实现方法中建立特征词索引的流程图; 0027 图5是本申请垂直搜索引擎的实现方法中相应用户查询的流程图。 具体实施方式 0。
21、028 下面以一个应用在房屋房产领域、主要用于搜索出租出售的房源信息的垂直搜索 引擎为例,对本申请的技术方案进行详细说明。 0029 请参阅图1,本申请垂直搜索引擎的实现方法包括如下步骤: 0030 第一步,建立地理词数据库、特征词数据库、地址检索训练库。 0031 所述地理词数据库包括多个地理词。地理词就是可以确定具体坐标的词汇、短语 等,包括地名、地址、地标建筑名称(楼宇、企业、商业、工厂、交通设施名称等)。优选地,所述 地理词数据库还包括部分或全部的地理词所对应的坐标值,坐标值优选为经度和纬度,也 可以是邮政编码等。 说 明 书CN 102880721 A 3/8页 7 0032 所述特。
22、征词数据库包括多个特征词,这些特征词分别对应着互不重复的特征码。 在本实施例中,特征词分为多个类别,每个类别具体包括多个特征词。特征词的类别例如 有区域、板块、小区名称、类型(住宅、商业等)、户型、面积、价格、周边资源(教育资源、医疗 资源、交通资源、商业资源等)。“户型”这个类别的特征词具体包括有一室户、两室户、三室 户、一室一厅、两室一厅、三室一厅、一室两厅、两室两厅、三室两厅、。每 个特征词都有一个独立无二的特征码。特征码可以任意设置,从节省存储空间和便于检索 的角度,优选为一串数字、英文字母与数字的组合等。 0033 在这里简单地介绍一下朴素贝叶斯分类算法(Naive Bayes Cl。
23、assifier)。设x a1,a2,am为一个待分类项,每个ai(i1,2,m)为x的一个特征属性。y1, y2,yn是所有可能出现的类别。目的是判断x到底属于哪一个yj(j1,2, n)。朴素贝叶斯分类算法的核心思想是:计算在该待分类项x出现的条件下各个类别yj出 现的概率P(yj|x)。如果其中P(yk|x)maxP(yj|x),即在该待分类项x已经发生的前 提下类别yk的发生概率最大,k为1,2,n之一。则认为该待分类项x属于类别yk。 0034 P(A|B)表示事件B已经发生的前提下事件A发生的概率,叫做事件B条件下事件 A的概率。P(A|B)P(AB)/P(B),其中P(AB)表示。
24、事件A和事件B同时发生的概率, P(B)表示事件B发生的概率。有时,P(A|B)很容易直接得出,而P(B|A)则很难直接得出。 贝叶斯定理就可以解决该问题:P(B|A)P(A|B)P(B)/P(A)。 0035 根据贝叶斯定理,计算待分类项x出现的条件下各个类别yj出现的概率P(yj|x) 的方法为: 0036 (1)找到一个已知分类的多个待分类项组成的集合,每个待分类项的特征属性也 已划分,这个集合叫做训练样本集。a1,a2,am是所有特征属性的集合。y1,y2, yn是所有类别的集合。 0037 (2)统计得到各类别条件下各个特征属性的概率P(ai|yj),这可以通过计算P (aiyj)/。
25、P(yj)得到,而P(aiyj)和P(yj)都是可以通过统计得到的。 0038 (3)根据贝叶斯定理可知:P(yj|x)P(x|yj)P(yj)/P(x)。因为分母相同,因此 只要判断哪个分子最大即可。朴素贝叶斯分类算法假定各个特征属性ai是条件独立的,所 以有:P(x|yj)P(yj)P(a1|yj)P(a2|yj)P(am|yj)P(yj)。 0039 请参阅图2,综合上述说明,采用朴素贝叶斯分类算法实现分类包括如下步骤: 0040 第1a步,建立训练样本集合。具体而言,是形成多个训练样本,每个训练样本具有 一个或多个特征属性,对每个训练样本人工分类。这是朴素贝叶斯分类算法中唯一需要人 工。
26、处理的阶段。 0041 第1b步,训练分类器。具体而言,是以训练样本集合为基础统计出每个类别的出 现频率、以及每个特征属性对每个类别的条件概率。这一阶段可由程序自动计算完成。 0042 第1c步,分类器应用。具体而言,是根据所述训练样本集合和训练时统计计算的 概率值,采用朴素贝叶斯算法对训练样本集合以外的待分类项进行分类,判断其属于哪个 类别。这一阶段也可由程序自动完成。 0043 所述地址检索训练库就是本申请应用朴素贝叶斯分类算法建立的。所述地址检索 意图训练库包括由多段话组成的训练样本集,每段话就是一个训练样本。每段话由一个或 多个词汇组成,每个词汇就是一个特征属性。每段话已确定了是属于“。
27、具有按地址检索的意 说 明 书CN 102880721 A 4/8页 8 图”类别或“不具有按地址检索的意图”类别,即每个训练样本已确定了类别。 0044 在建立了地址检索意图训练库之后,还以其为基础统计出上述两个类别各自的发 生概率,以及每个词汇分别与上述两个类别同时发生的概率。基于这两个统计值就可以计 算出上述两个类别的条件下每个词汇的概率(即每个词汇对上述两个类别的条件概率)。 0045 第二步,由网页抓取程序搜集网页信息。例如可根据网页之间的超链接关系、网站 的各网页层级关系等连续地抓取网页内容。垂直搜索引擎具有很强的行业性、专业性,而每 个行业、每个专业都具有数量有限的重点网站,其中。
28、汇集有该行业、该专业的大量富有价值 的网页信息。本申请的网页抓取程序对这些重点网站特别频繁、全面地搜集网页信息。 0046 第三步,由索引程序为所搜集的网页建立坐标值索引、特征码索引和关键词索引 中的一个或多个。 0047 房屋房产类的网站在发布出售出租的房源信息时通常采用规范的网页结构,表现 为网页内容大致呈现表格化,表格中的各栏就是名称、含义、位置相对固定的各个字段,例 如包括“板块”、“地址”、“户型”等字段。 0048 请参阅图3,本申请的垂直搜索引擎的索引程序为所搜集的网页建立坐标值索引 包括如下步骤: 0049 第3a步,索引程序根据网页结构查找描述地址信息的字段,例如称其为“地址。
29、”字 段,不同的网页也可采用其他的字段名称。 0050 如果网页结构中不存在“地址”字段、或者虽存在“地址”字段但其内容为空,则不 为该网页建立坐标值索引。 0051 如果网页结构中存在“地址”字段且其内容不为空,则进入第3b步。 0052 第3b步,索引程序判断“地址”字段中的内容是否包含所述地理词数据库中的任 意地理词。 0053 如果仅包含一个地理词,则根据所述地理词数据库查询该地理词所对应的坐标 值,并将该坐标值作为该网页的坐标值索引。 0054 如果包含多个地理词,则根据所述地理词数据库查询其中首次出现的地理词所对 应的坐标值,并将该坐标值作为该网页的坐标值索引。 0055 如果未包。
30、含任意地理词,则进入第3c步。 0056 第3c步,将“地址”字段的内容在第三方网站(例如地图、测绘类网站,只要其可以 根据地址查询坐标即可)查询。 0057 如果第三方网站仍无法得到坐标值,则不为该网页建立坐标值索引。 0058 如果第三方网站可以得到坐标值,则将该坐标值作为该网页的坐标值索引,同时 将“地址”字段的内容及其坐标值加入到坐标值数据库中。 0059 第3b步中的“包含”一词不应简单地理解为完全匹配的情况,而应理解为搜索引 擎通常采用的文本匹配方式,即具有一定的容错性。例如“浦东”与“普东”之间仍属于“包 含”情况,只不过匹配度100%。 0060 优选地,在第3b步中,索引程序。
31、判断“地址”字段中的内容包含所述地理词数据 库中的多个地理词时,将其中匹配度最大的地理词所对应的坐标值作为该网页的坐标值索 引。如果匹配度最大的地理词具有多个,则将首次出现的、匹配度最大的地理词所对应的坐 标值作为该网页的坐标值索引。 说 明 书CN 102880721 A 5/8页 9 0061 优选地,在第3c步中,如果第三方网站可以根据“地址”字段的内容得到坐标值, 并且第三方网站能够给出该坐标值所对应的详细地址信息时,索引程序判断“地址”字段的 内容与该详细地址信息之间的匹配程度是否大于某一阈值,如果大于,则将两者的共同部 分与该坐标值加入到坐标值数据库中。如果第三方网站未给出坐标值所。
32、对应的详细地址信 息,则取该坐标值(如果有多个,则取第一个)和“地址”字段的内容加入到坐标值数据库中。 0062 请参阅图4,本申请的垂直搜索引擎的索引程序为所搜集的网页建立特征码索引 包括如下步骤: 0063 第4a步,索引程序根据网页结构查找各个非空字段,并从中排除掉描述地址信息 的字段(例如称其为“地址”字段,不同的网页也可采用其他的字段名称)。 0064 如果网页结构中不存在任何字段、或者仅存在“地址”字段、或者虽存在除“地址” 字段以外的字段但内容均为空,则不为该网页建立特征码索引。 0065 如果网页结构中存在内容不为空的、除“地址”字段以外的字段,则进入第4b步。 0066 第4。
33、b步,索引程序判断这些不为空的、除“地址”字段以外的字段中的内容是否包 含所述特征词数据库中的任意特征词。 0067 如果包含一个或多个特征词,则根据所述特征词数据库查询这些特征词所对应的 特征码,并将这些特征码作为该网页的特征码索引。 0068 如果未包含任意特征词,则不为该网页建立特征码索引。 0069 第4b步中的“包含”一词也不应简单地理解为完全匹配的情况,而应理解为搜索 引擎通常采用的文本匹配方式,即具有一定的容错性。 0070 本申请的垂直搜索引擎的索引程序为所搜集的网页建立关键词索引的方法为:对 于所搜集的网页,排除掉地理词和特征词以外的内容,包括文本内容、多媒体内容的名称、 描。
34、述、评论等,均作为该网页的关键词索引。 0071 优选地,本申请的垂直搜索引擎的网页抓取程序仅搜集具有规范的网页结构的网 页,那么索引程序也只对这些具有表格化特征的网页内容建立索引。或者,不论网页抓取程 序如何搜集网页,索引程序都只对具有规范的网页结构的网页建立索引。 0072 这种根据网页结构的各个字段提取地理词和特征词的方法,与现有的索引程序的 全文索引方式相比,能够更为直接地提取出有价值的信息,从而更为精确地描述、概括网页 的特征。 0073 例如,某个网页在“板块”字段后填写“陆家嘴”,“地址”字段后填写“浦城路366 弄”,在“详细信息描述”字段后则是一长段话,其中包括有“人民广场、。
35、陆家嘴等区域的小户 型一直供不应求”。那么现有的索引程序会将“人民广场”也作为关键词索引,并且只根据 关键词索引进行检索操作。而本申请则根据“板块”字段将“陆家嘴”作为特征词,将其对 应的特征码建立为特征码索引;还根据“地址”字段将“浦城路366弄”作为地理词,将其对 应的“(纬度31.227622974921,经度121.5126108750701)”作为坐标值索引;将除各字段 以外的其余内容才作为关键词索引。在检索时,本申请同时在特征码索引、坐标值索引和关 键词索引中进行检索,并且特征码索引与坐标值索引具有比关键词索引更高的优先级。 0074 所有搜集的网页的坐标值索引、特征码索引、关键词。
36、索引就分别形成了坐标值索 引库、特征码索引库、关键词索引库。 0075 第四步,由检索程序响应用户的查询内容,具体检索流程如图5所示。 说 明 书CN 102880721 A 6/8页 10 0076 第5a步,检索程序判断用户输入的查询内容是否属于按地址检索,即采用朴素贝 叶斯分类算法基于所述地址检索训练库对用户输入的查询内容进行分类。 0077 具体实现时,先计算出所述查询内容属于“具有按地址检索的意图”这个类别的概 率值。如果计算出的概率值大于或等于某个阈值,则判断用户输入的查询内容属于按地址 检索;否则判断用户输入的查询内容不属于按地址检索。所述阈值例如为80%。 0078 如果判断出。
37、用户输入的查询内容属于按地址检索,则进入第5b步。 0079 如果判断出用户输入的查询内容不属于按地址检索,则进入第5d步。 0080 第5b步,检索程序判断所述查询内容中是否包含所述地理词数据库中的任意地 理词。 0081 如果包含一个或多个地理词,则根据所述地理词数据库查询这些地理词所对应的 坐标值,并记录这些坐标值,然后进入第5d步。 0082 如果未包含任意地理词,则进入第5c步。 0083 第5c步,检索程序将所述查询内容在第三方网站进行坐标查询。 0084 如果第三方网站可以得到坐标值,则将所述查询内容及其坐标值加入到坐标值数 据库中,并进入第5c步。 0085 如果第三方网站仍无。
38、法得到坐标值,则进入第5d步。 0086 第5d步,检索程序判断所述查询内容中是否包含所述特征词数据库中的任意特 征词。 0087 如果包含一个或多个特征词,则根据所述特征词数据库查询这些特征词所对应的 特征码,并记录这些特征码,然后进入第5e步。 0088 如果未包含任意特征词,则进入第5e步。 0089 第5e步,如果所述查询内容排除掉地理词、特征词之后还具有剩余内容,则将这 些剩余内容作为关键词,然后进入第5f步。 0090 如果所述查询内容排除掉地理词、特征词之后没有剩余内容,则进入第5f步。 0091 第5f步,当所述查询内容具有地理词时,将从所述查询内容中得到的坐标值的一 定距离范。
39、围内作为在坐标值索引库中的检索条件; 0092 当所述查询内容具有特征词时,将从所述查询内容中得到的特征码在特征码索引 库中进行检索; 0093 当所述查询内容具有关键词时,将所述关键词在关键词索引库中进行检索; 0094 以上述三种检索方式的一种、或多种相组合所获得的检索结果的交集,呈现给用 户。 0095 第5a步或第5b步中,检索程序通常还对用户输入的查询内容进行分词、去符号、 去停用词等操作。所述分词即将所述查询内容分解为多个词汇。所述去符号就是将所述查 询内容中的非中文符号去除掉。所述去停用词就是将所述查询内容中的无意义词汇去除 掉,例如介词“的”、“地”、“得”;感叹词“啊”、“吧。
40、”、“呀”等。 0096 第5b步、第5d步中的“包含”一词也不应简单地理解为完全匹配的情况,而应理 解为搜索引擎通常采用的文本匹配方式,即具有一定的容错性。 0097 优选地,在第5c步中,如果第三方网站可以根据查询内容得到坐标值,并且第三 方网站能够给出该坐标值所对应的详细地址信息时,检索程序判断查询内容与该详细地址 说 明 书CN 102880721 A 10 7/8页 11 信息之间的匹配程度是否大于某一阈值,如果大于,则将两者的共同部分与该坐标值加入 到坐标值数据库中。如果第三方网站未给出坐标值所对应的详细地址信息,则取该坐标值 (如果有多个,则取第一个)和查询内容加入到坐标值数据库。
41、中。 0098 第5e步设定的七种情况如下表所示: 0099 查询内容 用于检索的索引库 无地理词、无特征词、无关键词 (这种情况不可能发生) 无地理词、无特征词、有关键词 关键词索引库 无地理词、有特征词、无关键词 特征码索引库 无地理词、有特征词、有关键词 特征码索引库、关键词索引库(可选) 有地理词、无特征词、无关键词 坐标值索引库 有地理词、无特征词、有关键词 坐标值索引库、关键词索引库(可选) 有地理词、有特征词、无关键词 坐标值索引库、特征码索引库、 有地理词、有特征词、有关键词 坐标值索引库、特征码索引库、关键词索引库(可选) 0100 如果所述查询内容中未包含地理词、也未包含特。
42、征词、但包含关键词,则检索程序 将所述关键词在关键词索引库中进行检索; 0101 如果所述查询内容中未包含地理词、但包含特征词、也未包含关键词,则检索程序 将从所述查询内容中得到的特征码在特征码索引库中进行检索; 0102 如果所述查询内容中未包含地理词、但包含特征词、也包含关键词,则检索程序将 从所述查询内容中得到的特征码在特征码索引库中进行检索,同时可选地以关键词在关键 词索引库中进行检索; 0103 如果所述查询内容中包含地理词、但未包含特征词、也未包含关键词,则检索程 序将从所述查询内容中得到的坐标值的一定距离范围内作为在坐标值索引库中的检索条 件; 0104 如果所述查询内容中包含地。
43、理词、但未包含特征词、包含关键词,则检索程序将从 所述查询内容中得到的坐标值的一定距离范围内作为在坐标值索引库中的检索条件,同时 可选地以关键词在关键词索引库中进行检索; 0105 如果所述查询内容中包含地理词、也包含特征词、但未包含关键词,则检索程序将 所述查询内容中得到的坐标值的一定距离范围内作为在坐标值索引库中的检索条件,同时 将从所述查询内容中得到的特征码在特征码索引库中进行检索; 0106 如果所述查询内容中包含地理词、也包含特征词、也包含关键词,则检索程序将所 述查询内容中得到的坐标值的一定距离范围内作为在坐标值索引库中的检索条件,同时将 从所述查询内容中得到的特征码在特征码索引库。
44、中进行检索,同时可选地以关键词在关键 词索引库中进行检索; 说 明 书CN 102880721 A 11 8/8页 12 0107 如果在多个索引库中同时进行检索,则取各自检索结果的交集呈现给用户。 0108 所述坐标值的一定范围内例如是某个经纬度坐标的500米范围内、1000米范围 内、2000米范围内等;或者是同一个邮政编码区域、相邻邮政编码区域等。如果所述查询内 容中包括多个地理词,则以这些地理词的坐标值的一定范围的并集作为坐标值检索条件。 0109 在三种可选地以关键词在关键词索引库中进行检索的情况中,如果将关键词检索 条件作为组合检索条件之一得到零结果或很少的检索结果,则忽略该关键词。
45、检索条件。 0110 第5e步具有一个特殊情况。当用户输入的查询内容同时包含有地理词和表示位 置的特征词的时候,则忽略坐标值的检索条件。这是由于基于地理词的检索条件与基于“区 域”、“板块”、“小区名称”等类别的表示位置的特征词检索条件相比,后者更符合用户的检 索意图且地理定位更为精确。 0111 以上列举的是一个房屋房产类的垂直搜索引擎,如果改为消费购物类的垂直搜索 引擎,那么只需要修改特征码数据库即可。此时的特征词类别例如改为:品牌、类型(餐饮、 电影院、卡拉OK、)、人均消费金额、用户评价等。“品牌”这个类别的特征词例如包括 全聚德、肯德基等。除此以外,其余方案则完全相同。 0112 与。
46、现有的垂直搜索引擎相比,本申请的垂直搜索引擎的实现方法具有如下优点: 0113 其一,对网页进行索引时,创新性地引入坐标值索引和特征码索引,大大增加了对 网页特征捕捉的准确性。 0114 其二,对网页进行检索时,将原本一维的检索纬度(仅在关键词索引库中检索)扩 展为最多具有多维的检索纬度(在坐标值索引库、特征码索引库和关键词索引库中组合检 索),使得检索结果更为精准,也更符合用户的检索需求。 0115 其三,采用朴素贝叶斯分类算法判断用户的查询内容是否具有按地址查询的意 图,从而有针对性地启用坐标值的检索条件。 0116 以上仅为本申请的优选实施例,并不用于限定本申请。对于本领域的技术人员来 说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同 替换、改进等,均应包含在本申请的保护范围之内。 说 明 书CN 102880721 A 12 1/4页 13 图1 图2 说 明 书 附 图CN 102880721 A 13 2/4页 14 图3 说 明 书 附 图CN 102880721 A 14 3/4页 15 图4 说 明 书 附 图CN 102880721 A 15 4/4页 16 图5 说 明 书 附 图CN 102880721 A 16 。