用于位置搜索查询的地理编码.pdf

上传人:r7 文档编号:1037609 上传时间:2018-03-27 格式:PDF 页数:28 大小:908.71KB
返回 下载 相关 举报
摘要
申请专利号:

CN201110276324.4

申请日:

2007.01.26

公开号:

CN102354312A

公开日:

2012.02.15

当前法律状态:

授权

有效性:

有权

法律详情:

专利权人的姓名或者名称、地址的变更IPC(主分类):G06F 17/30变更事项:专利权人变更前:谷歌公司变更后:谷歌有限责任公司变更事项:地址变更前:美国加利福尼亚州变更后:美国加利福尼亚州|||授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20070126|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

谷歌公司

发明人:

弗洛里安·米歇尔·布龙; 拉梅什·巴拉科利什南; 詹姆斯·克里斯托弗·诺利斯; 詹姆斯·罗伯特·穆勒; 泰·陈; 拉尔斯·埃尔斯特鲁普·拉斯穆森

地址:

美国加利福尼亚州

优先权:

2006.01.27 US 60/763,168; 2006.12.11 US 60/869,549

专利代理机构:

中原信达知识产权代理有限责任公司 11219

代理人:

周亚荣;安翔

PDF下载: PDF下载
内容摘要

本申请涉及用于位置搜索查询的地理编码。一种用于执行位置搜索的方法,包括接收位置搜索查询、确定与位置搜索查询相对应的关键词、识别与在位置搜索查询中的关键词相对应的一个或多个文档、以及向客户端系统提供识别与一个或多个文档相对应的至少一个位置的信息。

权利要求书

1: 一种用于执行位置搜索的方法, 包括 : 接收位置搜索查询 ; 识别满足所述位置搜索查询的地理特征文档, 其中所述地理特征文档中的每一个与地 理特征相对应 ; 以及 根据分值对所识别的地理特征文档进行排名以产生一组已排名的地理特征文档, 所述 分值至少部分地基于与所识别的地理特征文档相对应的所述地理特征到客户端系统的地 理视口区域的接近性 ; 以及 根据所述已排名的地理特征文档提供结果, 所述结果识别与所述已排名的地理特征文 档的至少一个相对应的至少一个地理特征。
2: 如权利要求 1 所述的方法, 其中所述地理视口区域与在所述客户端系统上显示的地 理区域相对应。
3: 如权利要求 1 所述的方法, 其中所述地理视口区域与响应于在先位置搜索查询而在 所述客户端系统上显示的地理区域相对应。
4: 如权利要求 1 所述的方法, 其中所述地理视口区域包括包围在所述客户端系统上显 示的矩形地理区域的圆形地理区域。
5: 如权利要求 4 所述的方法, 其中所述地理视口区域具有与在所述客户端系统上显示 的所述矩形地理区域的大小相对应的大小。
6: 如权利要求 1 所述的方法, 包括确定与所述位置搜索查询相对应的关键词、 以及识 别与在所述位置搜索查询中的所述关键词相匹配的地理特征文档 ; 其中确定所述关键词包括从所述位置搜索查询中移除标点符号和非位置词语。
7: 如权利要求 1 所述的方法, 包括确定与所述位置搜索查询相对应的关键词、 以及识 别与在所述位置搜索查询中的所述关键词相匹配的地理特征文档 ; 其中所述关键词包括在所述位置搜索查询中的一个或多个词语的一个或多个同义词。
8: 如权利要求 1 所述的方法, 包括确定与所述位置搜索查询相对应的关键词、 以及识 别与在所述位置搜索查询中的所述关键词相匹配的地理特征文档 ; 其中识别所述地理特征文档包括确定与所述关键词相对应的典范式。
9: 如权利要求 1 所述的方法, 其中所述地理特征文档是在包括与地理特征相对应的多 个地理特征文档的索引中。
10: 如权利要求 9 所述的方法, 其中所述多个地理特征文档包括与所述地理特征相对 应的参考坐标。
11: 如权利要求 1 所述的方法, 其中识别所述地理特征文档包括为所述地理特征文档 的每一个确定分值。
12: 如权利要求 11 所述的方法, 其中提供结果包括 : 如果在所识别的地理特征文档的 前 N 个排名中, 相应的地理特征文档的最佳分值大于下一个地理特征文档的次最佳分值的 预定倍数, 则提供单个地理特征或位置。
13: 如权利要求 1 所述的方法, 其中所述提供包括提供与至少所述一个地理特征相对 应的地图图像。
14: 一种搜索引擎系统, 包括 : 用于接收位置搜索查询的装置 ; 2 用于识别满足所述位置搜索查询的地理特征文档的装置, 其中所述地理特征文档中的 每一个与地理特征相对应 ; 以及 用于根据分值对所识别的地理特征文档进行排名以产生一组已排名的地理特征文档 的装置, 所述分值至少部分地基于与所识别的地理特征文档相对应的所述地理特征到客户 端系统的地理视口区域的接近性 ; 以及 用于根据所述已排名的地理特征文档提供结果的装置, 所述结果识别与所述已排名的 地理特征文档的至少一个相对应的至少一个地理特征。
15: 一种用于执行位置搜索的方法, 包括 : 接收位置搜索查询 ; 识别满足所述位置搜索查询的地理特征 ; 根据分值对所识别的地理特征进行排名以产生一组已排名的地理特征, 所述分值至少 部分地基于所述地理特征到客户端系统的地理视口区域的接近性 ; 以及 根据所述已排名的地理特征提供结果。
16: 如权利要求 15 所述的方法, 其中所述地理视口区域与在所述客户端系统上显示的 地理区域相对应。
17: 如权利要求 15 所述的方法, 其中所述地理视口区域与响应于在先位置搜索查询而 在所述客户端系统上显示的地理区域相对应。
18: 如权利要求 15 所述的方法, 其中所述地理视口区域包括包围在所述客户端系统上 显示的矩形地理区域的圆形地理区域。
19: 如权利要求 18 所述的方法, 其中所述地理视口区域具有与在所述客户端系统上显 示的所述矩形地理区域的大小相对应的大小。
20: 如权利要求 15 所述的方法, 包括 确定与所述位置搜索查询相对应的关键词 ; 以及 识别与在所述位置搜索查询中的所述关键词相匹配的地理特征。
21: 如权利要求 20 所述的方法, 其中确定所述关键词包括从所述位置搜索查询中移除 标点符号和非位置词语。
22: 如权利要求 20 所述的方法, 其中所述关键词包括在所述位置搜索查询中的一个或 多个词语的一个或多个同义词。
23: 一种搜索引擎系统, 包括 : 用于接收位置搜索查询的装置 ; 用于识别满足所述位置搜索查询的地理特征的装置 ; 用于根据分值对所识别的地理特征进行排名以产生一组已排名的地理特征的装置, 所 述分值至少部分地基于所述地理特征到客户端系统的地理视口区域的接近性 ; 以及 用于根据所述已排名的地理特征提供结果的装置。

说明书


用于位置搜索查询的地理编码

    相关申请
     本申请属于申请日为 2007 年 1 月 26 日的中国专利申请 200780010615.0 的分案申 请。本申请要求于 2006 年 1 月 27 日提交的、 “Geographic Coding for Location Search Queries( 用于位置搜索查询的地理编码 )” 的美国临时专利申请 60/763, 168 的优先权, 所 述临时专利申请以引用的方式并入本文。
     技术领域
     搜索引擎提供强大的工具来定位在大型文档数据库中的文档 ( 诸如因特网或万 维网 (WWW) 上的文档、 和 / 或存储在内联网的计算机上的文档 ) 中的内容。响应于搜索查 询使用文档的索引来定位文档, 所述搜索查询由用户提交的一个或多个词、 词语、 关键词和 / 或短语 ( 此后称为词语 ) 组成。可以将在文档的索引中的文档与搜索查询中的一个或多 个词语相匹配以确定分值。基于分值, 将相关文档或文档位置的排名的列表提供给用户。 搜索查询可能具有各种目的和格式。一种种类的格式与位置搜索相对应。传统的 位置搜索通常使用诸如模板的固定的格式。 现有的模板通常是固定的或可能仅允许有限数 量的变化。例如, 在现有的位置搜索查询中的词或词语可能具有预定的次序 ( 街道名称、 州、 邮政编码 ) 和 / 或预定的拼写。因此, ( 在传统的位置搜索中 ) 提供包括拼写错误的宽 泛的拼写、 用于位置的可选的名称以及诸如在不同的国家创建的可选的地址格式是困难的 或不可能的。
     响应于位置搜索查询, 许多现有的搜索引擎通常返回单个结果。结合对位置搜索 查询的格式灵活性的缺乏, 这使得适应在位置搜索查询和 / 或返回用户的结果中的不确定 性或含混性是困难的。
     在现有的位置搜索查询中的灵活性的缺乏也通常损害搜索引擎性能, 因为通常以 单一数据结构来处理现有的位置搜索查询。 无法调整数据结构并且将该数据结构分发到整 个搜索引擎可以导致对位置搜索查询的处理较慢。 克服这样的瓶颈可能导致额外的搜索引 擎复杂度及费用。
     因此需要用于处理位置搜索查询的改进的格式和技术。另外, 也需要改进向用户 报告位置搜索查询的结果。
     发明内容
     通过所公开的过程和搜索引擎的实施例减少或消除了上述不足以及与位置搜索 查询相关联的其它问题。
     在一些实施例中, 用于执行位置搜索的方法包括 : 接收位置搜索查询 ; 确定与位 置搜索查询相对应的关键词 ; 识别与位置搜索查询中的关键词相对应的一个或多个文档 ; 以及向客户端系统提供识别与一个或多个文档相对应的至少一个位置的信息。
     确定关键词可以包括从位置搜索查询中移除标点符号和非位置词语。 关键词可以 包括位置搜索查询中的一个或多个词语的一个或多个同义词。 关键词可以包括与一个或多个词语相对应的预定的缩略词。
     识 别 一 个 或 多 个 文 档 可 以 包 括 确 定 与 关 键 词 相 对 应 的 典 范 式 (canonical expression)。识别一个或多个文档可以包括确定一个或多个文档中的每一个的分值。各 个分值可以依据关键词在多个文档中的词频、 在各个文档中的一个或多个词与一个或多个 关键词之间的匹配以及与关键词相对应的地理特征的大小。 识别一个或多个文档可以独立 于关键词的次序。
     一个或多个文档可以被存储在包括与地理特征相对应的多个文档的索引中。 多个 文档可以包括与地理特征相对应的参考坐标。
     提供识别与一个或多个文档相对应的至少一个位置的信息可以包括 : 如果在一个 或多个文档的前 N 个排名中, 相应的文档的最佳分值大于下一个文档的次 (next) 最佳分值 的预定倍数, 则提供识别一个位置的信息。提供操作可以包括识别出与一个或多个文档相 对应的前 N 个最高排名的位置, 其中最高排名的文档具有在预定范围内的分值。在一些实 施例中, 在前 N 个排名中的每一个位置包括位置标识符。在一些实施例中, 在前 N 个排名中 的每一个位置包括指向地图图像的相应的链接。
     提供操作可以包括提供与至少一个位置相对应的地图图像。 地图图像可以以至少 一个位置为中心, 并且可以包括小于在至少一个位置周围的预定大小的区域。在一些实施 例中, 至少一个位置可以包括其相应的文档具有所有共同的关键词的两个或多个不同的位 置。地图图像可以包括与两个或多个位置相对应的标记。
     在另一个实施例中, 存储在存储器中的数据结构可以被用于执行位置搜索查询。 数据结构可以包括与地理特征相对应的多个文档或记录 ( 在下文中称为文档 )。在多个文 档中的各个文档可以包括位置信息和补充信息。 位置信息可以包括与一个或多个位置相对 应的关键词或标志 (token)、 与一个或多个位置相关联的一个或多个区域以及关键词的同 义词。补充信息可以包括与一个或多个位置相对应的参考坐标。
     参考坐标可以包括一个或多个位置的纬度和经度。 参考坐标可以包括围绕一个或 多个位置的区域。区域可以小于预定的大小。
     数据结构可以与超文本标记语言 (HTML) 相兼容。
     在各个文档中的位置信息可以对位置搜索查询中的词语的次序不敏感。
     在另一个实施例中, 图形用户界面包括响应于位置搜索查询而提供的区域的地图 图像。 地图图像包括与区域中的具有与位置搜索查询相关联的所有共同的词语的两个或多 个不同的位置相对应的两个或多个标记。
     在另一个实施例中, 图形用户界面包括响应于位置搜索查询而提供的区域的地图 图像。地图图像以位置为中心。地图图像是独立于与位置搜索查询相关联的词语的次序来 提供的。
     上述的方法、 数据结构和图形用户界面可以被包括在具有一个或多个中央处理单 元的搜索引擎系统、 在一个或多个计算机中的存储器、 以及存储在存储器中并且由一个或 多个中央处理器执行的一个或多个程序中和 / 或由它们执行。 附图说明
     为了更好地理解本发明的上述实施例以及其另外的实施例, 应当结合附图来参考下面的实施例的描述, 其中在所有附图中相同的参考数字指代对应的部分。
     图 1 是示出了位置搜索过程的实施例的流程图。
     图 2 是示出了处理位置搜索查询的实施例的框图。
     图 3 是示出了将地理特征文档分布到多个索引上的实施例的框图。
     图 4 是示出了地理特征文档的实施例的框图。
     图 5A 是示出了地图图像的实施例的框图。
     图 5B 是示出了地图图像的实施例的框图。
     图 6 是示出了响应于位置搜索查询而返回的结果的实施例的框图。
     图 7 是示出了搜索引擎系统的实施例的框图。
     图 8 是示出了搜索引擎的实施例的框图。
     图 9 是示出了客户端系统的实施例的框图。
     图 10 是示出了地理特征文档数据结构的实施例的框图。
     图 11 描述了关于当前显示窗口的一组地理区域。
     图 12 和图 13 示出了如何以标准化的 (normalized) 角距离来测量在地球的表面 上的距离和区域, 并且也示出了如何将在视口 (viewport) 边缘 (skirt) 区域中的地理特征 的位置转换为比值。 图 14 描述了用于根据视口区域的半径确定边缘区域的半径的函数的图。
     图 15 描述了用于根据相对于当前视口区域和边缘区域的地理特征的位置来分配 分值衰减因子的函数的图。
     具体实施方式
     现将详细参考实施例, 在附图中示出了实施例的示例。 在下面的详细描述中, 阐述 了大量的特定细节, 以提供对本发明的全面理解。然而, 对于本领域普通技术人员明显地, 没有这些特定的细节也可以实现本发明。 在其它的实例中, 没有详细描述众所周知的方法、 过程、 组件以及电路, 以免不必要地模糊本发明的各个方面。
     描述了用于执行位置搜索查询并且向用户提供相应的结果的系统和方法的实施 例。该处理有时被称为地理编码 (geocoding)。可以使用耦接到诸如因特网 ( 也被称为万 维网或 WWW) 和 / 或一个或多个内联网的网络的搜索引擎来从用户接收诸如城市中的街道 地址的位置搜索查询。对位置搜索查询进行处理以确定典范式或布尔表达式。处理可以包 括确定在各个位置搜索查询中的一个或多个关键词、 从各个位置搜索查询移除标点符号和 非位置词语 ( 诸如物品 )、 以及确定在各个位置搜索查询中的一个或多个词语的一个或多 个同义词。 同义词可以包括用于在各个位置搜索查询中的一个或多个词语的预定的缩略词 和 / 或在各个位置搜索查询中的一个或多个词语的预定的错拼词。典范式可以独立于关键 词的次序, 即对关键词的次序不敏感。
     可以将典范式与搜索引擎中的地理特征文档的索引进行比较。 每个地理特征文档 具有与地理特征相对应的一组标志, 其可以是位置 ( 例如街道、 城市、 乡村、 州, 国家 ) 或地 理实体 ( 例如湖泊、 河流、 山脉、 陆地、 海洋等等 )。虽然单个地理特征可以与诸如一组街道 地址的一组位置相对应, 但是在识别与位置搜索查询最匹配的位置或地理特征的环境中, 可以将与地理特征相关联的所有位置视作 “一个位置” 。在本文档的至少某些部分中, 同义地使用词语 “地理特征” 和 “位置” 。
     可以将地理特征文档的索引分布在搜索引擎中的多个计算机上。 索引可以包括位 置信息和补充信息。 位置信息可以包括关键词、 关键词的同义词以及多个位置的邻近物体。 补充信息可以包括位置的参考坐标, 诸如纬度和经度和 / 或范围或街道号码。
     可以通过计算机返回与各个典范式紧密匹配的地理特征文档的子集的分值。 可以 确定前 N 个地理特征文档的排名。如果最佳分值大于次最佳分值的预定倍数, 则可以将与 最佳分值相对应的位置随同相应位置的地图图像一起提供给用户。 地图图像可以以相应的 位置为中心并且可以调整大小以包括环绕相应位置的预定的边界框、 区域或窗口。 可选地, 如果最佳分值小于预定倍数, 则可以将与分值的范围相对应的几个位置提供给用户。可以 提供诸如位置标识符 ( 城市、 州、 邮政编码和 / 或国家 ) 和 / 或指向相应的地图图像的链接 的附加信息。
     因此, 实施例可以适应 (accommodate) 广泛的多种格式、 允许在位置搜索查询中 和 / 或在结果中的含混性 (ambiguity)、 以及可以使用并行处理以提供位置搜索查询 ( 有时 称为位置搜索 ) 的高速处理。因此, 实施例可以提供位置搜索查询的改进的处理。
     现在将注意力转向位置搜索过程。图 1 是示出了位置搜索过程 100 的实施例的流 程图。虽然在下面描述的位置搜索过程 100 包括看起来按照特定的次序出现的许多操作, 但是明显地, 过程 100 可以包括可以 ( 例如使用并行处理器或多线程环境 ) 串行或并行执 行的更多或更少的操作, 可以改变两个或更多个操作的次序和 / 或可以将两个或更多个操 作组合为单个操作。 可以接收位置搜索查询 (110)。可以确定关键词 (112)。可以将位置搜索查询转 换为典范式形式 (114)。这可以包括从位置搜索查询中移除一个或多个非位置或噪声词或 词语、 标点符号、 变音符 ( 即添加到字母上以指示特殊发音的符号 ) 和 / 或街道号码。可以 生成布尔表达式 (116)。布尔表达式可以包含位置搜索查询中的一个或多个词或词语的同 义词。将搜索查询转换为典范式形式也可以包括扩展一个或多个缩略词, 诸如将 “st.” 或 “st” 扩展为 “street” 。 在一些实施例中, 通过用包括相应正确拼写的词的用于错拼词的 “同 义词” 来补充查询, 可以 “校正” 在位置搜索查询中的错拼词或词语 ( 例如查询处理过程确 定很可能是错拼的词语 )。确定关键词 (112) 可以使结果查询独立于关键词的次序。可以 从地理特征文档数据库识别 N( 例如 10) 个最佳匹配的地理特征文档 (118)。 可以提供与所 识别的文档相对应的至少一个地理特征或位置 (120)。 可选地, 在一些情形中向发出请求的 用户提供零个文档。例如在一些实施例中, 如果所有 N 个最佳匹配的地理特征文档具有小 于第一阈值的分值 ( 在下面描述分值 ), 则没有地理特征或位置被识别。在另一个示例中, 过滤 N 个最佳匹配的地理特征文档的列表, 以移除 (A) 分值小于第一阈值的文档, 以及 (B) SAF( 在下面描述 ) 小于第二阈值并且分值小于第三阈值 ( 例如第三阈值通常将高于 ( 即更 多限制的 ) 第二阈值 ) 的文档。后面的 “过滤” 将超过第一阈值但是远在当前视口 ( 如在 下面所定义的 ) 之外的低质量匹配移除, 从而允许将在当前视口内或更接近当前视口的另 一个地理特征或位置识别为最佳匹配。
     识别 N 个最佳匹配文档 118 需要多个计算操作。首先, 识别满足搜索查询的地理 特征文档 118A。例如, 这可以通过以下完成 : 检索具有与查询词语的每一个匹配的标志的 文档的列表并且然后对所检索的列表执行布尔与 (AND) 运算以产生具有与所有查询词语
     匹配的标志的文档 ( 如果有 ) 的列表。在该环境中, 每个标志是与地理特征相关联的词、 符号或词和 / 或符号的组合。为了弥补人为错误, 文档的标志可以包括描述与文档相关联 的地理特征的各种词语的各种错拼, 并且可以包括邻近的或附近的地理特征的名称 ( 以及 其错拼 )( 例如万一用户的搜索查询不正确地指定了邻近的城市或类似物但却精确地列出 了与地理特征相关联的词语 )。在另一个示例中, 在识别满足搜索查询的文档之前, 首先通 过移除任何非位置的词语和任何标点来 “重写” 搜索查询。可选地, 在搜索查询中的各个 单个词语可以被包括该词语和一个或多个同义词的布尔或 (OR) 表达式替换。在一些实施 例中, 对于已经为其预定义了一组同义词的查询中的每一个词语, 将同义词添加到搜索查 询。被添加到搜索查询作为布尔或 (OR) 表达式的一部分的 “同义词” 也可以包括复合词语 的单个组分的 “类属同义词” 。例如, 街道名称 “N Rengstorff” 的第一组分的类属同义词 是 “directional_keyword( 方向关键词 )” , 其与包括 N、 S、 E、 W、 North( 北 )、 South( 南 )、 East( 东 ) 以及 West( 西 ) 的任何方向关键词相匹配。 类属同义词的另一个示例是 “affix_ keyword( 词缀关键词 )” , 其与诸如 ave.、 avenue( 大街 )、 blvd.、 boulevard( 大道 )、 ln、 lane( 巷 )、 rd、 road( 路 )、 st、 street( 街道 )、 rue( 街 ) 等等的词 ( 或标志 ) 相匹配。类 似的类属同义词也作为标志被包括在文档数据库中, 在与相应的 “正确的” 关键词相同的地 址组分位置。 在重写的搜索查询中的类属同义词和文档之间的匹配比在搜索查询中的非同 义词的关键词和文档中的非同义词的标志之间的匹配产生低得多的分值。可选地, 可以根 据预定义的规则对搜索查询进行其它的修改, 以便提高搜索结果的质量。 然后, 为所识别的匹配的文档计算分值 118B。在下面较详细地讨论了用于为每个 匹配的文档生成分值的示范性过程。通常, 与搜索查询有高质量匹配的文档比与搜索查询 有更低质量匹配的文档被赋值更高的分值。诸如与匹配的文档相对应的地理特征的位置、 相对于在其中显示了地图或图像的当前视口、 以及这些地理特征的相对重要性的其它因子 也可以是在计算分值中的因子。然后基于所计算的分值将匹配的文档进行排名 118C, 并且 识别 N 个最高排名的文档 118D。在一些实施例中, 将文档的排名和选择 N 个最高排名的文 档组合成单个操作 ( 例如通过在分值上运行前 N 个过滤 )。 在一些实施例中, 不对具有比前 N 个文档低的排名的文档进行排名。
     图 2 是示出了处理位置搜索查询的实施例 200 的框图。 将诸如 “155Abe Ave.Great Neck NY” 的位置搜索查询 210 用作说明性示例。在操作 114 期间可以将街道号码 155 和句 点移除导致 Abe Ave Great Neck NY。在操作 116 中, 可以将位置搜索查询转换为布尔表 达式, 包括扩展缩略词 ( 诸如 Ave) 和同义词。由此产生的布尔表达式是 Abe AND(Ave OR Avenue OR Street OR Lane OR Court OR...)AND(Great Neck)AND(NY OR(NEW YORK))。 该 布尔表达式独立于在位置搜索查询 210 中的原始词或词语次序, 即对在位置搜索查询 210 中的原始词或词语次序不敏感。这样, 其可以适应关于位置搜索查询 210 的广泛的各种格 式。 这样的布尔表达式具有可以在使用分布式地理特征文档数据库的搜索引擎中处理的形 式。这将在下面进一步讨论。
     现在将注意力转向地理特征文档数据库的实施例。图 3 是示出了将地理特征文档 分布到多个索引上的实施例 300 的框图, 所述索引可以被存储在搜索引擎中的多个计算机 上。地理特征文档 310 可以包括多个地理特征文档 312。诸如文档 312-1 的各个地理特征 文档可以包括特征类型 ( 诸如街道、 路、 路线、 城市、 国家、 十字路口等等 )、 特征名称 ( 即位
     置的名称 )、 主要的词语或标志 ( 诸如与特征相关联的特定关键词 )、 附近的特征词语或标 志 ( 诸如相邻的或邻近的地标或感兴趣的位置 ) 以及补充信息 ( 诸如特征的纬度和经度 )。 补充信息可以由地图或多级 (tile) 服务器使用, 以展现与在各个地理特征文档中的位置 相对应的地图图像。这将在下面参考图 5 和 7 进一步描述。
     分区器 (partitioner)314 可以经由一个或多个索引器 316 将地理特征文档 310 的子集分布到在多个索引 320 中的各个索引, 诸如索引 320-1。索引 320-1 可以与索引 320( 其可以被集体视作整个地理特征文档数据库的反向索引 ) 的一个分区或子分区相对 应。索引 320 可以被存储在搜索引擎中的一个或多个计算机上。子集可以被这样分布 : 每 个索引 320 处理与各个位置搜索查询相关联的等价的处理部分或近似等价的处理部分。例 如, 可以将文档 312-1 随机地或伪随机地分布在索引 320 上。例如, 可以使用散列函数和取 模函数来将地理特征文档分布到 M 个索引器上, 其中 M 是索引 ( 有时称为索引分区或索引 子分区 ) 的数量。在该示例中, 将散列函数应用于每个地理特征文档 ( 或应用于文档的预 定义的部分 ) 以产生散列值, 然后将 “取模 M” 函数应用于散列值以产生在 0 和 M-1 之间的 选择值。选择值确定 M 个索引器 316 中的哪一个接收文档用于索引。
     当处理各个搜索查询时, 索引 320 的每一个可以提供在与各个查询匹配的文档的 子集中的一组前 N 个 ( 诸如前 10 个 ) 文档。如在下面进一步讨论的, 前 N 个文档可以是基 于分值的排名。具体地, 可以为匹配搜索查询的每个文档确定分值。分值可以基于各个位 置搜索查询的典范式和 / 或布尔表达式。参考图 7, 由各个服务器 730 来处理索引 320 的每 个子分区的查询处理, 所述服务器返回识别匹配查询的最高排名文档中的 N 个的信息。可 以被称为聚合器或分区级别查询执行管理器的服务器 726 例如通过从由服务器 730 返回的 结果之中选择 N 个最佳搜索结果将来自服务器 730 的搜索结果相组合。在层级中的下一个 较高级别的查询执行管理器 720, 通过从由聚合器 720 返回的结果之中选择 N 个最佳搜索结 果将来自所有聚合器 726 的搜索结果相组合。更一般地, 在分布式层级中的每一个级别选 择最佳搜索结果的预定义的数量并且将其传递到下一个级别。例如, 如果在给定的级别接 收了 10 组前 10 个文档, 则可以确定前 10 个文档并且将其传递。以这种方式, 使用分布式 实现可以确定和 / 或识别在文档 312 中的前 N 个文档。该方法可以提高搜索引擎的性能并 且可以减少系统费用和 / 或复杂度。
     图 4 是示出了诸如文档 312-1 的地理特征文档 400 的实施例的框图。文档 400 可 以与超文本标记语言 (HTML) 和 / 或可扩展标记语言 (XML) 兼容。文档 400 可以包括与诸 如位置 ( 例如街道、 十字路口、 城市、 感兴趣地点等等 ) 的地理特征相对应的信息。一些文 档 400 可以包括用于多于一个位置 ( 例如街道、 城市的多个分区或类似物 ) 的信息。这样 的位置信息可以包括与一个或多个位置相对应的关键词、 与一个或多个位置相关联的一个 或多个区域以及一个或多个关键词的同义词。
     如在实施例 400 中所示, 在 HTML 标记 之后的文本可以指示位置的类型, 在该 情况中是 route( 路线 )。在 HTML 标记 之后的文本可以指示位置的明确的名称, 在 该情况中是 Victoria Street( 维多利亚街 )。在 HTML 标记 之后的文本可以指示与 位置相对应的关键词, 诸如 Westminster( 威斯敏斯特 )、 London( 伦敦 ) 和 England( 英格 兰 )。在 HTML 标记 之后的文本可以指示关键词和 / 或位置的明确名称的同义词, 诸如 Angleterre、 United Kingdom( 联合王国 ) 和 Verenigd Koninkrijk。同义词可以包括来自外语 ( 即与关键词的语言不同的语言 ) 的词。在一些实施例中, 同义词可以包括在一个或 多个关键词中和 / 或在位置的明确名称中的缩略词和 / 或普通错拼。在 HTML 标记 之 后的文本可以指示在该位置附近的或邻近该位置的其它位置或区域。在该示例中, 附近的 位置或区域是 Islington、 West End( 伦敦西区 ) 和 Covent Garden( 考文特花园 )。
     可以将在文档 400 中的标记的文本或信息项称为信息项或文本项或标志。由索引 器 316( 图 3) 来处理信息项或文本项以产生索引 320。
     文档 400 可以包括包含更少或额外标记的更少信息或额外信息。 例如, 文档 400 可 以包括诸如与地理特征相对应的参考坐标的补充信息, 其可以被地图或多级服务器使用。 在示范性实施例中, 参考坐标可以包括一个或多个位置的纬度和经度和 / 或将一个或多个 位置包括在内的街道号码的范围。在其它的实施例中, 可以改变在文档 400 中的信息的次 序。可以将文档 400 中的两个或更多个项组成单个项。
     在文档 400 中的补充信息的一个特定的示例是用于街道或其它路线的补充信息。 在该示例中, 补充信息包括一个或多个段, 每一个对应于街道或路线的一部分。 每个段指定 与该段的第一和第二端点相对应的起始和结束街道号码, 并且也指定该段的每个端点的纬 度和经度。当包括街道号码的位置搜索查询与文档 400 相匹配时, 将指定的街道号码用来 识别在文档的补充信息中的最佳匹配的段。 如果指定的街道号码处于最佳匹配的段的起始 和结束街道号码之间, 使用线性插值来确定由位置搜索查询所指定的位置的纬度和经度。 可选地, 如果指定的街道号码与最佳匹配的段的起始或结束街道号码相匹配, 则将相应的 纬度和经度用于由位置搜索查询所指定的位置的位置。 如先前所提及, 当将与各个位置搜索查询相对应的典范式和 / 或布尔表达式与在 地理特征文档 310( 图 3) 中的文档 312( 图 3) 相比较时, 可以确定指示匹配的程度的分值。 这些分值可以指示文档 212 以及因而相应的位置与位置搜索查询的相关性。这样, 响应于 位置搜索查询, 搜索引擎可以使用分值来确定最佳结果 ( 即最佳位置 ), 或前 N 个结果的列 表 ( 即前 N 个位置 )。
     在一些实施例中, 可以仅为文档 312( 图 3) 的子集确定分值, 即搜索引擎可以确定 可以与位置搜索查询相对应的文档的候选组。在示范性实施例中, 包含在文档的该候选组 中的标准可以包括如下要求 : 关键词中的至少一个与特征的明确名称 ( 在图 4 中的 标记之后的文本 ) 相匹配以及在典范式和 / 或布尔表达式中的元素或词语的每一个在文档 中出现。
     在示范性实施例中, 可以使用来确定分值, 其中 IRi 是与典范式和 / 或布尔表达式中的各个词语或元素 “i” 相对应的查询匹配分值 ( 关于特定的候选文 档 ), FR 是指示特征或位置的重要性的 “特征排名” , E 是标准值 (normalization value) 以 及 Q 是可选的因子。 Q 可以与在查询和候选文档之间的匹配的质量相对应、 或其可以与可以 被用来提高搜索结果的质量的任何其它度量相对应。Q 因子的示例是在下面参考图 11-15 描述的 SAF 因子。在另一个示例中, 将 Q 设置为等于 SAF*Product(Pj), 其中 SAF 是在下面 描述的分值衰减因子, 每个 Pj 是惩罚因子, 以及 Product(Pj) 是所有惩罚因子的乘积 ( 即乘 法积 )。 惩罚因子的每一个具有 1.0 的默认值, 并且如果相应的惩罚可应用于所述的文档将 较低的值 ( 例如 0.7 或类似值 ) 赋值给惩罚因子。惩罚因子的示例是 : A) 当文档既不在用户的国家也不在其当前视口 ( 如在下面所定义的 ) 时应用的惩罚因子 ; B) 当在文档和查询 之间的匹配是非精确匹配 ( 例如, 因为查询包含外来的或错误的词语或符号, 并且在错误 的词语或符号和文档之间的唯一匹配是具有 “类属同义词” 标志 ( 参见上述关于 “类属同义 词” 的解释 ) 的匹配 ) 时应用的惩罚因子 ; 以及 C) 当在查询和文档之间的匹配缺少关键元 素 ( 例如, 当查询与文档的街道名称标志和国家标志、 而不是城市标志相匹配时 ) 时应用的 惩罚因子。在其它的实施例中可以使用其它的惩罚因子。通常, 惩罚因子与指示在地理特 征文档和搜索查询之间的潜在低劣质量匹配的情况相关联。在其它的实施例中, 没有使用 Q, 或等价地将 Q 设置为等于 1。
     在一些实施例中, 标准值 E 是完美匹配的 IRi 分值的总和的最大值、 或等价地是搜 索查询中的关键词的标志量的总和。IRi 值的总和可以被称为候选文档的总匹配分值或 IR 分值。在搜索查询中的特定关键词的 IRi 的值可以包括权重的乘积。权重可以包括在典范 式和 / 或布尔表达式中的相应元素或词语的标志量、 相关性分值以及元素量。标志量可以 与词语的类型相对应, 其中词语的类型可以包括停用词 (stop word)、 街道词缀关键词 ( 例 如诸如法语中的 “rue” 的街道前缀词或诸如英语中的 “street” 、 “avenue” 、 “road” 以及 “place” 的街道后缀词 )、 号码、 同义词以及其它关键词, 词语的每个预定义的类型被赋予预 定义的标志量。预定义的标志量值可以具有预定义的范围, 诸如 0 到 1、 或 0 到 8 或类似范 围。在一些实施例中, 默认的标志量 ( 用于 “其它的关键词” ) 是 1, 而诸如同义词、 街道词 缀关键词以及停用词的标志类型都被赋予较低的标志量值。在一些实施例中, 同义词比街 道词缀词被赋予更大的标志量。 相关性分值可以基于文本匹配的程度而改变, 对于在查询关键词和文档的信息元 素之间的完全文本匹配具有预定义的最大值。 当查询关键词与文档的信息元素的最佳匹配 仅是部分匹配 ( 例如, 查询关键词仅与多词元素的一个词相匹配 ) 时, 相关性分值小于预定 义的最大值, 并且反映文本匹配的程度。
     元素量可以作为与匹配查询关键词的信息项 ( 在候选文档中 ) 相关联的地理特 征的大小或类型的函数而改变。例如, 作为国家名称的信息项比作为地点名称 ( 诸如城市 名称 ) 的信息项可以被给予更高的元素量, 后者进而比作为街道名称的信息被给予更高的 值。 元素量也可以反映与查询关键词匹配的信息项的类型。 例如, 包含地理特征的明确名称 的信息项可以被赋予最高的元素量, 作为 “环境” 项 ( 例如街道所位于的城市或国家 ) 的信 息项可以被赋予下一个最高的元素量, 以及包含附近城市的名称、 区域或其它地理特征的 信息项可以被赋予最低的元素量。在一些实施例中, 用于候选文档中的信息项的元素量等 于两个元素量因子的乘积, 其中一个基于通过信息项命名的地理特征的大小或类型并且其 中第二个基于与查询关键词相匹配的信息项 ( 明确的名称、 环境或附近的特征 ) 的类型。 在 一些其它的实施例中, 用于候选文档中的信息项的元素量等于这两个元素量因子的总和。
     用于候选文档的特征排名 FR 可以基于文档频率 ( 在图 3 的数据库 310 中的文档 312 中提及的特征的次数 ), 或其可以基于地理特征的大小, 较大的特征 ( 即地理广度 ) 被 给予较高的特征排名值。在其它的实施例中, 特征排名可以基于 ( 至少部分地 ) 与候选文 档相对应的地理特征的重要性或普及性。例如, 通过对地理特征的名称的万维网搜索或其 它的数据库搜索可以确定与候选文档相对应的地理特征的重要性或普及性。
     当查询关键词具有一个或多个同义词时, 为同义词的每一个以及查询关键词计算
     IR 分值 ( 关于候选文档 ), 然后当为候选文档计算组合的 IR 分值时选择并且使用这些 IR 分值中的最佳值。
     在一些实施例中, 修改了在上面示出的评分函数, 以增加一个或多个因子相对于 其它因子的重要性。例如可以将评分函数变为
     其 中 指 数 M 是 大 于 1 的 值 ( 例 如 2、 2.5 或 3), 并且其典型地在 2 和 5 之间 (2 ≤ M ≤ 5), 以便在评分函数中给予规范化总匹配分值比特征排名 FR 和 Q 因子更多的重 要性。 在一些实施例中, 修改了上述的评分函数, 以相对于其名称与相同的词语相匹配但具 有不同的次序的文档更偏向于其名称具有按照与在搜索查询中放置的词语相同的次序的 词语的文档。例如, 可以用成对 (pair-wise) 匹配分值补充 ( 例如, 总匹配分值 + 成对匹配 分值 ) 总匹配分值 ( 例如, 总匹配分值 + 成对匹配分值 ), 所述成对匹配分值基于与文档名 称中的排序的词语对相匹配的在搜索查询中的排序的词语对 ( 排序的、 邻近的词语 ) 的数 量。现在将注意力转向用于响应于位置搜索查询向用户提供一个或多个位置结果的 过程的实施例。如果在前 N 个排名中第一文档的最佳分值大于第二文档的次最佳分值的预 定倍数 ( 例如次最佳分值小于最佳分值的 70% ) 中, 可以将与第一文档相对应的位置提供 给用户。使用与文档一起存储的补充信息, 地图或多级服务器可以将以该位置为中心的区 域的地图图像提供给用户。例如, 如果补充信息包括括入 (bracket) 该位置的街道地址, 则 可以使用线性插值来确定地图图像的中心。 图 5A 是示出了提供给用户的地图图像 500 的实 施例的框图。将与位置相对应的位置标记 512-1 置于边界框 510 的中心。调整边界框 510 的大小, 以使得可以提供围绕该位置的区域 514。 可以基于地理特征或位置的大小来确定边 界框 510 的大小。不同大小的特征 ( 诸如城市或国家 ) 可以具有不同大小的边界框。
     在一些情况中, 在区域中多于一个的不同位置 ( 即在空间上彼此分离 ) 可以具有 相同或几乎相同的分值。例如, 多于一个的位置可以与对应于位置搜索查询的典范式和 / 或布尔表达式中的所有关键词相匹配。在这样的情况中, 可以将这些结果提供给用户。这 在图 5B 中示出, 所述图 5B 是示出了地图图像 550 的实施例的框图。将边界框 510 定义为 包括满足预定义的选择标准的所有位置。与不同位置相对应的位置标记 512 被包括在边界 框 510 中。在一些实施例中, 标记是链接。通过在标记中的一个上点击, 用户可以选择相应 的位置。可以将该位置与诸如地图图像 500( 图 5A) 的地图图像一起展现给用户。在一些 其它的实施例中, 挨着地图 550 列出了最佳匹配位置的列表 520。 在列表中的每一项可以包 括指向与该位置相对应的地图的链接。可以由来自相应的地理特征文档的典范名称 ( 在图 4 中的示例中通过 CNA 标记识别 ) 和环境文本 ( 在图 4 中的示例中通过 CA 标记识别 ) 表示 在列表 520 中的每一项。
     如果最佳分值不大于次最佳分值的预定倍数, 则可以提供与前 N 个排名中的范围 相对应的位置。例如, 可以提供具有大于或等于最佳分值的 50%的分值的位置 ( 来自前 N 个结果之中 )。可以将各种信息与位置一起提供。在图 6 中示出了用于显示响应于位置搜 索查询而返回的多个搜索结果的示范性图形用户界面。在一个区域 610 或列中, 列出了最
     佳匹配地理特征或位置, 并且在图形用户界面的另一个区域中示出了单个小地图 620, 每一 个用于在区域 610 中列出的最佳匹配地理特征或位置中的每一个。在该示例中, 位置搜索 查询是 “San Antonio( 圣安东尼奥 )” , 其产生了多个可能相关的回答。所述回答可以与诸 如城市、 州、 邮政编码和 / 或国家的一个或多个位置标识符一起提供。在一些实施例中, 小 地图 620 每一个都包括指向相应的、 更大的地图的链接。类似地, 在一些实施例中, 在区域 610 中的所列出的最佳匹配位置的每一个包括指向相应的更大的地图的链接。在回答或小 地图中的一个上点击可以允许将该位置与诸如地图图像 500( 图 5A) 的地图图像一起展现 给用户。
     现在将注意力转向用于实现先前所描述的方法、 地理特征文档和图形用户界面的 搜索引擎、 客户端计算机和数据结构的实施例。图 7 是示出了搜索引擎系统 700 的框图, 该 搜索引擎系统响应于从一个或多个客户端 710( 在本文也称为客户端装置或客户端系统 ) ( 诸如客户端系统或装置 900( 图 9)) 接收的位置搜索查询而生成位置搜索查询结果。 每一 个客户端 710 可以具有诸如搜索助手模块 930( 图 9) 的搜索助手。应当理解, 如在图 7 中 所示的搜索引擎系统 700 的布局仅是示范性的并且可以采用任何其它适当的布局或配置。 因此, 搜索引擎系统 700 可以包括更少或额外的组件或模块, 可以以硬件和 / 或软件实现, 并且可以改变位置或一个或多个组件或模块。搜索引擎系统 700 被用于搜索诸如地理特征 文档 310( 图 3) 的文档的索引。
     搜 索 引 擎 系 统 700 可 以 包 括 使 用 通 信 网 络 712 与 客 户 端 710 通 信 的 制 图 (mapping) 应用服务器 714。通信网络 712 可以是因特网和 / 或内联网。制图应用服务器 714 可以将位置搜索查询转发到查询服务器 716, 并且从查询服务器 716 接收位置结果。制 图应用服务器 714 可以使用位置结果中的补充信息来从多级服务器 718 访问适当的地图图 像, 并且将这样的地图图像与位置结果一起提供给客户端 710。
     查询服务器 716 可以确定位置搜索查询中的关键词, 包括将位置搜索查询转换为 典范形式和 / 或生成布尔表达式。可以将典范式和 / 或布尔表达式转发到查询执行管理器 720 用于处理。查询执行管理器 720 可以将典范式和 / 或布尔表达式提供给地理特征文档 数据库 722 中的多个分区 724。在诸如分区 724-K 的每一个分区 724 中, 分区级别查询执 行管理器 726 可以将典范式和 / 或布尔表达式分布到用于一个分区的服务器 730。服务器 730 可以存储索引 320( 图 3)。如先前所讨论的, 在地理特征文档数据库 722 中的服务器可 以以分级的方式确定与位置搜索查询相对应的前 N 个文档。
     在接收了前 N 个文档后, 查询执行管理器 720 可以访问在文档服务器 734 中的诸 如补充信息的相应的地理或位置信息。在一些实施例中, 地理或位置信息可以被包括在地 理特征文档数据库 722 中。
     可以将诸如查询服务器 716 的在搜索引擎系统 700 中的元素分散在一组服务器 上, 以提供位置搜索查询的非常快速的处理。在一些实施例中, 系统 700 可以在多个数据中 心 ( 例如位于不同的洲和 / 或在一个或多个国家内的不同位置 ) 中在多个位置包括查询服 务器、 查询执行管理器、 多级服务器以及地理特征文档数据库的复本 (replica)。使用域名 系统 (DNS) 基于数据中心的每一个的当前负载、 地理地点和 / 或操作状态将在客户端 710 之一的用户向搜索引擎系统 700 提交的位置搜索查询路由到适当的数据中心。
     每一个后端优选地包括连接到通信网络 712 的多个查询服务器, 诸如查询服务器716。通信网络 712 可以是因特网, 但是也可以是任意的局域网 (LAN) 和 / 或广域网 (WAN)。 在一些实施例中, 每一个查询服务器 716 是经由 HTTP、 XML 或类似的协议以网页的形式接收 位置搜索查询请求并且递送搜索位置结果的服务器。 可选地, 如果查询服务器 716 用在 LAN 内, 即内部地而不被公众使用, 其可以是内联网服务器。诸如查询服务器 716 的查询服务器 被配置以控制搜索过程, 包括搜索文档索引、 分析和格式化搜索结果。在一些实施例中, 后 端包括连接到诸如查询服务器 716 的多个查询服务器的多个查询执行管理器 720。
     图 8 是示出了搜索引擎 800 的实施例的框图。搜索引擎 800 可以包括至少一个数 据处理器或中央处理单元 (CPU)810、 用于与其它计算机、 服务器和 / 或客户端通信的通信 或网络接口 820、 存储器 822 以及用于将这些组件相互连接的一个或多个信号线 812。一个 或多个信号线 812 可以组成一个或多个通信总线。
     存储器 822 可以包括高速随机存取存储器和 / 或非易失性存储器, 诸如一个或多 个磁盘存储装置。存储器 822 可以存储包括用于处理基本系统服务和用于执行依赖硬件的 任务的程序的操作系统 ( 或一组指令 )824, 诸如 LINUX、 UNIX 或 WINDOWS。存储器 822 也可 以将通信程序 ( 或一组指令 ) 存储在网络通信模块 826 中。通信程序被用于与诸如客户端 710( 图 7) 的客户端、 以及与搜索引擎系统 700( 图 7) 中的其它服务器和计算机通信。
     存储器 822 也可以存储与查询服务器 716( 图 7) 相对应的查询服务器模块 ( 或一 组指令 )、 地理特征文档数据库 722、 文档 832 以及所选择的结果 836。查询服务器模块 716 可以包括可以如上所述重写所接收的搜索查询的关键词处理器 828。地理特征文档数据库 722 可以包括多个索引 830。文档 832 可以包括包含地理或位置信息的多个文档 834。所选 择的结果 836 可以包括一个或多个位置搜索查询的结果 838。
     虽然图 8( 类似于图 7) 将搜索引擎 800 示出为多个分离的项, 但是更多地意在把 图 8 作为可以在搜索引擎系统中存在的各种特征的功能描述而不是作为在此所述的实施 例的结构性示意。实际上, 如本领域普通技术人员所认识到的, 搜索引擎 800 的功能可以分 布在大量的服务器或计算机上, 所述服务器的各种群组执行这些功能的特定子集。在图 8 中分离示出的项可以被组合并且一些项可以被分离。 例如, 可以在单个服务器上实现在图 8 中分离示出的一些项, 并且可以由一个或多个服务器来实现单个项。在搜索引擎系统中的 服务器的实际数量以及特征在它们中如何分配因实现的不同而不同, 并且可以部分地基于 系统所存储的信息量和 / 或系统在高峰使用期间以及平均使用期间必须处理的数据流量。
     图 9 是示出了客户端计算机、 装置或系统 900 的实施例的框图。 客户端系统 900 可 以是台式计算机、 膝上型计算机、 个人数字助理 (PDA)、 蜂窝电话、 个人导航装置或类似物。 客户端系统 900 通常包括一个或多个处理单元 (CPU)910、 用户接口 914、 一个或多个网络或 其它通信接口 912、 存储器 922 以及用于连接这些组件的一个或多个通信总线 920。用户接 口 914 可以包括一个或多个键盘 918、 一个或多个显示器 916、 和 / 或诸如鼠标的一个或多 个指示器 ( 未示出 )。存储器 922 可以包括诸如 DRAM、 SRAM、 DDR RAM 或其它随机存取固态 存储装置的随机存取存储器 ; 以及可以包括诸如一个或多个磁盘存储装置、 光盘存储装置、 闪存装置或其它非易失性固态存储装置的非易失性存储器。通信总线 920 可以包括互连并 且控制系统组件之间的通信的电路 ( 有时称为芯片集 )。存储器 922 可以包括位于远离中 央处理单元 910 的大容量存储器。
     在一些实施例中, 存储器 922 可以包括操作系统 ( 或一组指令 )924、 网络通信模块 ( 或一组指令 )926、 浏览器 / 工具模块 928 和 / 或搜索助手模块 ( 或一组指令 )930。搜 索助手模块 930 可以包括输入和选择监控模块 ( 或一组指令 )932、 传输模块 ( 或一组指 令 )934、 搜索结果接收模块 ( 或一组指令 )936 和 / 或显示模块 ( 或一组指令 )936。
     诸如 LINUX、 UNIX 或 WINDOWS 的操作系统 924 可以包括用于处理各种基本系统服 务和用于执行依赖硬件的任务的程序 ( 或指令集 )。可以使用网络通信模块 926 来经由一 个或多个通信网络接口 912 和诸如因特网、 其它广域网、 局域网、 城域网等等的一个或多个 通信网络将客户端系统 900 连接到其它计算机 ( 例如其它客户端计算机和 / 或搜索引擎 )。
     浏览器 / 工具模块 928 可以是客户端系统 900 的用户可以使用来与在一个或多个 通信网络上的一个或多个主机 ( 诸如一个或多个网站和 / 或网页 ) 通信和 / 或交换信息的 web 浏览器。例如, 用户可以使用浏览器 / 工具模块 928 在因特网上冲浪 ( 例如显示网页和 / 或网站 )。
     用户可以使用搜索助手模块 930( 例如浏览器扩展、 浏览器工具栏或嵌在搜索引 擎网页中的指令 ) 来利用搜索引擎执行诸如位置搜索查询的一个或多个搜索查询, 并且接 收相应的搜索结果, 包括一个或多个位置、 一个或多个地图图像、 一个或多个 URL 和 / 或超 链接。具体地, 输入和选择监控模块 932 可以监控用户输入, 传输模块 934 可以将搜索查询 发送到搜索引擎, 搜索结果接收模块 936 可以从搜索引擎接收搜索结果, 以及显示模块 938 可以显示搜索结果 ( 或可以帮助呈现用于被浏览器模块 928 显示的搜索结果 ), 诸如一个或 多个文档的排名和 / 或包含与搜索查询相对应的所识别的内容的文档位置。用户可以使用 用户接口 914 和浏览器 / 工具模块 928 来访问或选择搜索结果中的文档和 / 或文档位置中 的一个或多个。例如, 用户可以使用指示器 ( 未示出 ) 来点击超链接。 在客户端系统 900 耦接到本地服务器计算机的实施例中, 可以将存储器 922 中的 模块和 / 或应用中的一个或多个存储在服务器计算机上, 所述服务器计算机典型地位于与 客户端系统 900 不同的位置。上述所识别的模块和应用中的每一个与用于执行上述的一个 或多个功能的一组指令相对应。不需要将这些模块 ( 即指令集 ) 实现为分离的软件程序、 程序或模块。可以将各种模块和子模块重新排列和 / 或组合。存储器 922 可以包括额外的 模块和 / 或子模块、 或更少的模块和 / 或子模块。例如, 可以将搜索助手模块 930 集成在浏 览器 / 工具模块 928 中。因此, 存储器 922 可以包括上述所识别的模块和 / 或子模块的子 集或超集。
     图 10 是示出了地理特征文档数据结构 1000 的实施例的框图。地理特征文档数据 结构 1000 可以包括地理特征文档 722。 地理特征文档 722 可以包括被分布在多个计算机的 多个分区上的多个记录 1010。每个记录 1010 可以与各个地理特征文档相对应。如上述所 说明的, 地理特征文档可以与地理特征或位置相对应。 记录可以包括关键词 1012、 一个或多 个关键词的同义词 1014、 关联词 1016( 诸如位置出现的城市 ) 和 / 或近似对象 1018。地理 特征文档数据结构 1000 可以包括更少或额外的元素, 可以将两个或更多个元素相组合并 且可以改变一个或多个元素的位置。例如, 各个记录 1010 可以进一步包括补充信息 1018, 所述补充信息包括一个或多个位置的纬度和经度信息或与记录 1010 所表示的地理特征相 关联的边界框。
     来自位置搜索查询的结果的相对于视口的评分
     当用户例如使用在线制图程序或服务来执行一系列位置搜索时, 用户通常搜索地
     理特征 ( 例如城市、 街道、 特定地址或类似物 ), 所述地理特征靠近在紧邻的在先位置搜索 中出现的地理特征。 例如, 在搜索特定城市中的第一地理特征后, 用户将通常搜索在同一城 市中或在邻近或附近城市中的第二地理特征。 为了便于讨论, 有时将地理特征称为 “位置” , 但是应当理解, 诸如街道 ( 与特定街道地址相对 ) 的一些地理特征对应于大量位置。
     在以下的讨论中, 参考图 11, “视口” 或 “当前视口” 与当前在用户的客户端装置或 系统上显示的地理区域相对应。例如, 视口可以是响应于紧邻的在前位置搜索而 ( 例如由 在线制图程序或服务 ) 产生的显示窗口, 或其可以是界定在用户的客户端系统上显示的视 口矩形的圆形区域。从而, 视口在形状上可以是矩形的或圆形的。在该讨论的剩余部分中, 将视口假设为在形状上是圆形的并且围绕并包括在用户的客户端系统上显示的视口矩形。 另外, 视口可以由将视口改变为用户指定的区域的用户行为 ( 例如平移 (pan) 和 / 或缩放 命令或行为 ) 产生的结果。
     当用户提交了导致多于一个结果的位置查询时, 可以将结果进行评分, 以偏向在 当前视口内的结果 ( 即位置 ) 胜于在视口外的位置, 并且比起更远离视口的位置而偏向靠 近视口的位置 ( 例如在围绕视口的边缘区域内, 本文称为 “视口边缘区域” )。在一个实施 例中, 修改上述用于对 “文档” ( 有时称为位置描述文档或位置描述数据库条目 ) 进行评分 的评分函数, 以包括分值衰减因子 (SAF), SAF 倾向于将分值偏向与当前视口相交的结果, 并且偏向与围绕视口的视口边缘区域相交的结果胜于既不与视口区域也不与视口边缘区 域相交的结果 ( 即其在视口边缘区域外 )。在该环境中, 术语 “相交” 意为由搜索结果识别 的地理特征的至少一部分在特定区域内。 如在图 12 和 13 中所示, 可以根据 “角距离” 测量在地球的表面上的区域和距离的 大小, “角距离” 是由那些区域或距离对向的地球表面上的弧的角大小。可以以弧度或度数 为单位来测量角距离。标准化的角距除以诸如 2π 的标准化因子, 以使得最大的角距离是 1( 或任何其它预定义的值 ) 并且最小的角距离是 0。在图 12 和 13 中, X1 表示基于视口区 域的半径 R1 的角距离的视口区域的标准化大小。 X2 是基于视口边缘区域的半径 R2 的角距 离的视口边缘区域的标准化大小。X2-X1 表示视口边缘区域的宽度。X3 表示在地理特征和 视口区域的最近边界 (edge) 之间的标准化角距离, 或更一般地是在地理特征和视口区域 之间的距离。 X 表示 (A) 在地理特征和视口区域之间的距离, 与 (B) 视口边缘区域的宽度的 比值。
     在一个实施例中, 视口边缘区域的大小取决于视口区域的大小。具体地, 当视 口区域的半径较小 ( 例如小于几公里 ) 时, 视口边缘区域的半径是视口区域的半径的 1+SkirtFactor 倍之大, 其中 SkirtFactor( 边缘因子 ) 是可配置的参数。当视口区域的半 径较大 ( 例如大于几百公里 ) 时, 视口边缘区域的半径与视口区域的半径近似相同。在示 范性实施例中, 将视口边缘区域的半径定义为 :
     SkirtRegionRadius = ViewportRadius×(1+SkirtFactor×EV)
     EV = A+B×e-M×X1
     其中选择 A 和 B 使得 : 当 X1 等于 0 时 ( 即当视口区域非常小时 ), EV 等于其最大 值 1, 并且当 X1 等于其最大值 1( 对应于覆盖整个地球的视口区域 ) 时, EV 等于其最小值 0。 SkirtFactor 是可配置的比例 (scaling) 因子。SkirtFactor 的示范性值是 10 ; 在其它的 实施例中, SkirtFactor 等于在 4 和 20 之间的值。M 是可配置的指数率因子。M 的示范性
     值是 50 ; 在其它的实施例中, M 等于在 10 和 200 之间的值。另外, M 的值取决于角距离 X1 的比例。根据上述约束分解 (solve)A 和 B, EV 的等式变为 :
     当 M = 50 时, e-M 非常接近 0(e-50 ≈ 1.9*10-22), 并且 EV 近似等于 e-M*X1。 在示范性实施例中, 可以根据以下评分函数来确定分值其中 IRi 是与典范式和 / 或布尔表达式中的各个词语或元素 “i” 相对应的查询匹 配分值 ( 关于特定候选文档 ), FR 是指示特征或位置的重要性的 “特征排名” , E 是标准化 值, 以及 SAF 是上述的评分衰减因子。在上面更详细地讨论了 IR、 FR 和 E 参数, 并且该讨论 同样地可应用于在此所讨论的评分函数。注意到, 特定候选文档 ( 或地理特征 ) 的 IRi 值 的总和可以被视作该候选文档的信息检索分值或查询匹配分值, 并且评分函数的所有其它 参数用于根据额外的因子比例、 提升或衰减分值以改善如何对搜索结果进行排名 ( 即, 使 得排名最高的搜索结果是最有可能与由用户所查找的地理特征相对应的搜索结果 )。
     在示范实施例中, 根据以下函数来确定用于特定地理特征的 SAF -K×X
     SAF = C+D×e
     其中 K 是指数比例因子、 以及 X 是 (A) 在地理特征和视口区域 ( 即视口区域的最近 边界 ) 之间的距离, 与 (B) 视口边缘区域的宽度的比值, 如在上面参考图 13 所说明的。在 上述等式中, C 和 D 是这样的值, 其被选择使得 : 当 X 等于 1 时 ( 即当地理特征在边缘区域 的最外面部分时 ), SAF 等于其最小值 MinScore, 并且当 X 等于 0 时 ( 即当地理特征与在视 口区域和视口边缘区域之间的线或分界线相交或邻近时 ), SAF 等于其最大值 1。根据上述 约束分解 C 和 D, SAF 的等式变为 :
     当 K = 3 时, e-K 近似等于 0.5, 以及 1-e-K 近似等于 0.95。当 MinScore = 0.2 并 且 K = 3 时, 对于与视口边缘区域相交 ( 但是不与视口区域相交 ) 的地理特征, SAF 近似等 -3X 于 0.158+0.842*e 。注意到, 当 X = 0 时根据该等式 SAF 等于 1.0, 并且当 X = 1 时 SAF 近 似等于 0.2。如上述注意到的, 对于与视口区域相交的地理特征, SAF 等于 1, 以及对于既不 与视口区域也不与视口边缘区域相交的地理特征, SAF 等于 MinScore( 例如 0.2)。在其它 的实施例中, MinScore 是在 0.1 和 0.5 之间的值, 并且 K 是在 2 和 10 之间的值。
     为了说明和描述的目的而提供了本发明的特定实施例的上述描述。 其并不意在穷 举或将本发明限制在所公开的精确形式。 相反地, 应理解, 鉴于上述教导可以做出许多修改 和变化。选择并且描述了这些实施例是为了最好地说明本发明的原理和其实际应用, 从而 使本领域技术人员能够最好地利用本发明和具有适合于特定用户预期的各种修改的各种 实施例。
    

用于位置搜索查询的地理编码.pdf_第1页
第1页 / 共28页
用于位置搜索查询的地理编码.pdf_第2页
第2页 / 共28页
用于位置搜索查询的地理编码.pdf_第3页
第3页 / 共28页
点击查看更多>>
资源描述

《用于位置搜索查询的地理编码.pdf》由会员分享,可在线阅读,更多相关《用于位置搜索查询的地理编码.pdf(28页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN102354312A43申请公布日20120215CN102354312ACN102354312A21申请号201110276324422申请日2007012660/763,16820060127US60/869,54920061211US200780010615020070126G06F17/3020060171申请人谷歌公司地址美国加利福尼亚州72发明人弗洛里安米歇尔布龙拉梅什巴拉科利什南詹姆斯克里斯托弗诺利斯詹姆斯罗伯特穆勒泰陈拉尔斯埃尔斯特鲁普拉斯穆森74专利代理机构中原信达知识产权代理有限责任公司11219代理人周亚荣安翔54发明名称用于位置搜索查询的地理编码57摘。

2、要本申请涉及用于位置搜索查询的地理编码。一种用于执行位置搜索的方法,包括接收位置搜索查询、确定与位置搜索查询相对应的关键词、识别与在位置搜索查询中的关键词相对应的一个或多个文档、以及向客户端系统提供识别与一个或多个文档相对应的至少一个位置的信息。30优先权数据62分案原申请数据51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书14页附图11页CN102354321A1/2页21一种用于执行位置搜索的方法,包括接收位置搜索查询;识别满足所述位置搜索查询的地理特征文档,其中所述地理特征文档中的每一个与地理特征相对应;以及根据分值对所识别的地理特征文档进行排名以产生一。

3、组已排名的地理特征文档,所述分值至少部分地基于与所识别的地理特征文档相对应的所述地理特征到客户端系统的地理视口区域的接近性;以及根据所述已排名的地理特征文档提供结果,所述结果识别与所述已排名的地理特征文档的至少一个相对应的至少一个地理特征。2如权利要求1所述的方法,其中所述地理视口区域与在所述客户端系统上显示的地理区域相对应。3如权利要求1所述的方法,其中所述地理视口区域与响应于在先位置搜索查询而在所述客户端系统上显示的地理区域相对应。4如权利要求1所述的方法,其中所述地理视口区域包括包围在所述客户端系统上显示的矩形地理区域的圆形地理区域。5如权利要求4所述的方法,其中所述地理视口区域具有与在。

4、所述客户端系统上显示的所述矩形地理区域的大小相对应的大小。6如权利要求1所述的方法,包括确定与所述位置搜索查询相对应的关键词、以及识别与在所述位置搜索查询中的所述关键词相匹配的地理特征文档;其中确定所述关键词包括从所述位置搜索查询中移除标点符号和非位置词语。7如权利要求1所述的方法,包括确定与所述位置搜索查询相对应的关键词、以及识别与在所述位置搜索查询中的所述关键词相匹配的地理特征文档;其中所述关键词包括在所述位置搜索查询中的一个或多个词语的一个或多个同义词。8如权利要求1所述的方法,包括确定与所述位置搜索查询相对应的关键词、以及识别与在所述位置搜索查询中的所述关键词相匹配的地理特征文档;其中。

5、识别所述地理特征文档包括确定与所述关键词相对应的典范式。9如权利要求1所述的方法,其中所述地理特征文档是在包括与地理特征相对应的多个地理特征文档的索引中。10如权利要求9所述的方法,其中所述多个地理特征文档包括与所述地理特征相对应的参考坐标。11如权利要求1所述的方法,其中识别所述地理特征文档包括为所述地理特征文档的每一个确定分值。12如权利要求11所述的方法,其中提供结果包括如果在所识别的地理特征文档的前N个排名中,相应的地理特征文档的最佳分值大于下一个地理特征文档的次最佳分值的预定倍数,则提供单个地理特征或位置。13如权利要求1所述的方法,其中所述提供包括提供与至少所述一个地理特征相对应的。

6、地图图像。14一种搜索引擎系统,包括用于接收位置搜索查询的装置;权利要求书CN102354312ACN102354321A2/2页3用于识别满足所述位置搜索查询的地理特征文档的装置,其中所述地理特征文档中的每一个与地理特征相对应;以及用于根据分值对所识别的地理特征文档进行排名以产生一组已排名的地理特征文档的装置,所述分值至少部分地基于与所识别的地理特征文档相对应的所述地理特征到客户端系统的地理视口区域的接近性;以及用于根据所述已排名的地理特征文档提供结果的装置,所述结果识别与所述已排名的地理特征文档的至少一个相对应的至少一个地理特征。15一种用于执行位置搜索的方法,包括接收位置搜索查询;识别满。

7、足所述位置搜索查询的地理特征;根据分值对所识别的地理特征进行排名以产生一组已排名的地理特征,所述分值至少部分地基于所述地理特征到客户端系统的地理视口区域的接近性;以及根据所述已排名的地理特征提供结果。16如权利要求15所述的方法,其中所述地理视口区域与在所述客户端系统上显示的地理区域相对应。17如权利要求15所述的方法,其中所述地理视口区域与响应于在先位置搜索查询而在所述客户端系统上显示的地理区域相对应。18如权利要求15所述的方法,其中所述地理视口区域包括包围在所述客户端系统上显示的矩形地理区域的圆形地理区域。19如权利要求18所述的方法,其中所述地理视口区域具有与在所述客户端系统上显示的所。

8、述矩形地理区域的大小相对应的大小。20如权利要求15所述的方法,包括确定与所述位置搜索查询相对应的关键词;以及识别与在所述位置搜索查询中的所述关键词相匹配的地理特征。21如权利要求20所述的方法,其中确定所述关键词包括从所述位置搜索查询中移除标点符号和非位置词语。22如权利要求20所述的方法,其中所述关键词包括在所述位置搜索查询中的一个或多个词语的一个或多个同义词。23一种搜索引擎系统,包括用于接收位置搜索查询的装置;用于识别满足所述位置搜索查询的地理特征的装置;用于根据分值对所识别的地理特征进行排名以产生一组已排名的地理特征的装置,所述分值至少部分地基于所述地理特征到客户端系统的地理视口区域。

9、的接近性;以及用于根据所述已排名的地理特征提供结果的装置。权利要求书CN102354312ACN102354321A1/14页4用于位置搜索查询的地理编码0001相关申请0002本申请属于申请日为2007年1月26日的中国专利申请2007800106150的分案申请。本申请要求于2006年1月27日提交的、“GEOGRAPHICCODINGFORLOCATIONSEARCHQUERIES用于位置搜索查询的地理编码”的美国临时专利申请60/763,168的优先权,所述临时专利申请以引用的方式并入本文。技术领域0003搜索引擎提供强大的工具来定位在大型文档数据库中的文档诸如因特网或万维网WWW上的。

10、文档、和/或存储在内联网的计算机上的文档中的内容。响应于搜索查询使用文档的索引来定位文档,所述搜索查询由用户提交的一个或多个词、词语、关键词和/或短语此后称为词语组成。可以将在文档的索引中的文档与搜索查询中的一个或多个词语相匹配以确定分值。基于分值,将相关文档或文档位置的排名的列表提供给用户。0004搜索查询可能具有各种目的和格式。一种种类的格式与位置搜索相对应。传统的位置搜索通常使用诸如模板的固定的格式。现有的模板通常是固定的或可能仅允许有限数量的变化。例如,在现有的位置搜索查询中的词或词语可能具有预定的次序街道名称、州、邮政编码和/或预定的拼写。因此,在传统的位置搜索中提供包括拼写错误的宽。

11、泛的拼写、用于位置的可选的名称以及诸如在不同的国家创建的可选的地址格式是困难的或不可能的。0005响应于位置搜索查询,许多现有的搜索引擎通常返回单个结果。结合对位置搜索查询的格式灵活性的缺乏,这使得适应在位置搜索查询和/或返回用户的结果中的不确定性或含混性是困难的。0006在现有的位置搜索查询中的灵活性的缺乏也通常损害搜索引擎性能,因为通常以单一数据结构来处理现有的位置搜索查询。无法调整数据结构并且将该数据结构分发到整个搜索引擎可以导致对位置搜索查询的处理较慢。克服这样的瓶颈可能导致额外的搜索引擎复杂度及费用。0007因此需要用于处理位置搜索查询的改进的格式和技术。另外,也需要改进向用户报告位。

12、置搜索查询的结果。发明内容0008通过所公开的过程和搜索引擎的实施例减少或消除了上述不足以及与位置搜索查询相关联的其它问题。0009在一些实施例中,用于执行位置搜索的方法包括接收位置搜索查询;确定与位置搜索查询相对应的关键词;识别与位置搜索查询中的关键词相对应的一个或多个文档;以及向客户端系统提供识别与一个或多个文档相对应的至少一个位置的信息。0010确定关键词可以包括从位置搜索查询中移除标点符号和非位置词语。关键词可以包括位置搜索查询中的一个或多个词语的一个或多个同义词。关键词可以包括与一个或多说明书CN102354312ACN102354321A2/14页5个词语相对应的预定的缩略词。00。

13、11识别一个或多个文档可以包括确定与关键词相对应的典范式CANONICALEXPRESSION。识别一个或多个文档可以包括确定一个或多个文档中的每一个的分值。各个分值可以依据关键词在多个文档中的词频、在各个文档中的一个或多个词与一个或多个关键词之间的匹配以及与关键词相对应的地理特征的大小。识别一个或多个文档可以独立于关键词的次序。0012一个或多个文档可以被存储在包括与地理特征相对应的多个文档的索引中。多个文档可以包括与地理特征相对应的参考坐标。0013提供识别与一个或多个文档相对应的至少一个位置的信息可以包括如果在一个或多个文档的前N个排名中,相应的文档的最佳分值大于下一个文档的次NEXT最。

14、佳分值的预定倍数,则提供识别一个位置的信息。提供操作可以包括识别出与一个或多个文档相对应的前N个最高排名的位置,其中最高排名的文档具有在预定范围内的分值。在一些实施例中,在前N个排名中的每一个位置包括位置标识符。在一些实施例中,在前N个排名中的每一个位置包括指向地图图像的相应的链接。0014提供操作可以包括提供与至少一个位置相对应的地图图像。地图图像可以以至少一个位置为中心,并且可以包括小于在至少一个位置周围的预定大小的区域。在一些实施例中,至少一个位置可以包括其相应的文档具有所有共同的关键词的两个或多个不同的位置。地图图像可以包括与两个或多个位置相对应的标记。0015在另一个实施例中,存储在。

15、存储器中的数据结构可以被用于执行位置搜索查询。数据结构可以包括与地理特征相对应的多个文档或记录在下文中称为文档。在多个文档中的各个文档可以包括位置信息和补充信息。位置信息可以包括与一个或多个位置相对应的关键词或标志TOKEN、与一个或多个位置相关联的一个或多个区域以及关键词的同义词。补充信息可以包括与一个或多个位置相对应的参考坐标。0016参考坐标可以包括一个或多个位置的纬度和经度。参考坐标可以包括围绕一个或多个位置的区域。区域可以小于预定的大小。0017数据结构可以与超文本标记语言HTML相兼容。0018在各个文档中的位置信息可以对位置搜索查询中的词语的次序不敏感。0019在另一个实施例中,。

16、图形用户界面包括响应于位置搜索查询而提供的区域的地图图像。地图图像包括与区域中的具有与位置搜索查询相关联的所有共同的词语的两个或多个不同的位置相对应的两个或多个标记。0020在另一个实施例中,图形用户界面包括响应于位置搜索查询而提供的区域的地图图像。地图图像以位置为中心。地图图像是独立于与位置搜索查询相关联的词语的次序来提供的。0021上述的方法、数据结构和图形用户界面可以被包括在具有一个或多个中央处理单元的搜索引擎系统、在一个或多个计算机中的存储器、以及存储在存储器中并且由一个或多个中央处理器执行的一个或多个程序中和/或由它们执行。附图说明0022为了更好地理解本发明的上述实施例以及其另外的。

17、实施例,应当结合附图来参考说明书CN102354312ACN102354321A3/14页6下面的实施例的描述,其中在所有附图中相同的参考数字指代对应的部分。0023图1是示出了位置搜索过程的实施例的流程图。0024图2是示出了处理位置搜索查询的实施例的框图。0025图3是示出了将地理特征文档分布到多个索引上的实施例的框图。0026图4是示出了地理特征文档的实施例的框图。0027图5A是示出了地图图像的实施例的框图。0028图5B是示出了地图图像的实施例的框图。0029图6是示出了响应于位置搜索查询而返回的结果的实施例的框图。0030图7是示出了搜索引擎系统的实施例的框图。0031图8是示出了。

18、搜索引擎的实施例的框图。0032图9是示出了客户端系统的实施例的框图。0033图10是示出了地理特征文档数据结构的实施例的框图。0034图11描述了关于当前显示窗口的一组地理区域。0035图12和图13示出了如何以标准化的NORMALIZED角距离来测量在地球的表面上的距离和区域,并且也示出了如何将在视口VIEWPORT边缘SKIRT区域中的地理特征的位置转换为比值。0036图14描述了用于根据视口区域的半径确定边缘区域的半径的函数的图。0037图15描述了用于根据相对于当前视口区域和边缘区域的地理特征的位置来分配分值衰减因子的函数的图。具体实施方式0038现将详细参考实施例,在附图中示出了实。

19、施例的示例。在下面的详细描述中,阐述了大量的特定细节,以提供对本发明的全面理解。然而,对于本领域普通技术人员明显地,没有这些特定的细节也可以实现本发明。在其它的实例中,没有详细描述众所周知的方法、过程、组件以及电路,以免不必要地模糊本发明的各个方面。0039描述了用于执行位置搜索查询并且向用户提供相应的结果的系统和方法的实施例。该处理有时被称为地理编码GEOCODING。可以使用耦接到诸如因特网也被称为万维网或WWW和/或一个或多个内联网的网络的搜索引擎来从用户接收诸如城市中的街道地址的位置搜索查询。对位置搜索查询进行处理以确定典范式或布尔表达式。处理可以包括确定在各个位置搜索查询中的一个或多。

20、个关键词、从各个位置搜索查询移除标点符号和非位置词语诸如物品、以及确定在各个位置搜索查询中的一个或多个词语的一个或多个同义词。同义词可以包括用于在各个位置搜索查询中的一个或多个词语的预定的缩略词和/或在各个位置搜索查询中的一个或多个词语的预定的错拼词。典范式可以独立于关键词的次序,即对关键词的次序不敏感。0040可以将典范式与搜索引擎中的地理特征文档的索引进行比较。每个地理特征文档具有与地理特征相对应的一组标志,其可以是位置例如街道、城市、乡村、州,国家或地理实体例如湖泊、河流、山脉、陆地、海洋等等。虽然单个地理特征可以与诸如一组街道地址的一组位置相对应,但是在识别与位置搜索查询最匹配的位置或。

21、地理特征的环境中,可以将与地理特征相关联的所有位置视作“一个位置”。在本文档的至少某些部分中,同义说明书CN102354312ACN102354321A4/14页7地使用词语“地理特征”和“位置”。0041可以将地理特征文档的索引分布在搜索引擎中的多个计算机上。索引可以包括位置信息和补充信息。位置信息可以包括关键词、关键词的同义词以及多个位置的邻近物体。补充信息可以包括位置的参考坐标,诸如纬度和经度和/或范围或街道号码。0042可以通过计算机返回与各个典范式紧密匹配的地理特征文档的子集的分值。可以确定前N个地理特征文档的排名。如果最佳分值大于次最佳分值的预定倍数,则可以将与最佳分值相对应的位置。

22、随同相应位置的地图图像一起提供给用户。地图图像可以以相应的位置为中心并且可以调整大小以包括环绕相应位置的预定的边界框、区域或窗口。可选地,如果最佳分值小于预定倍数,则可以将与分值的范围相对应的几个位置提供给用户。可以提供诸如位置标识符城市、州、邮政编码和/或国家和/或指向相应的地图图像的链接的附加信息。0043因此,实施例可以适应ACCOMMODATE广泛的多种格式、允许在位置搜索查询中和/或在结果中的含混性AMBIGUITY、以及可以使用并行处理以提供位置搜索查询有时称为位置搜索的高速处理。因此,实施例可以提供位置搜索查询的改进的处理。0044现在将注意力转向位置搜索过程。图1是示出了位置搜。

23、索过程100的实施例的流程图。虽然在下面描述的位置搜索过程100包括看起来按照特定的次序出现的许多操作,但是明显地,过程100可以包括可以例如使用并行处理器或多线程环境串行或并行执行的更多或更少的操作,可以改变两个或更多个操作的次序和/或可以将两个或更多个操作组合为单个操作。0045可以接收位置搜索查询110。可以确定关键词112。可以将位置搜索查询转换为典范式形式114。这可以包括从位置搜索查询中移除一个或多个非位置或噪声词或词语、标点符号、变音符即添加到字母上以指示特殊发音的符号和/或街道号码。可以生成布尔表达式116。布尔表达式可以包含位置搜索查询中的一个或多个词或词语的同义词。将搜索查。

24、询转换为典范式形式也可以包括扩展一个或多个缩略词,诸如将“ST”或“ST”扩展为“STREET”。在一些实施例中,通过用包括相应正确拼写的词的用于错拼词的“同义词”来补充查询,可以“校正”在位置搜索查询中的错拼词或词语例如查询处理过程确定很可能是错拼的词语。确定关键词112可以使结果查询独立于关键词的次序。可以从地理特征文档数据库识别N例如10个最佳匹配的地理特征文档118。可以提供与所识别的文档相对应的至少一个地理特征或位置120。可选地,在一些情形中向发出请求的用户提供零个文档。例如在一些实施例中,如果所有N个最佳匹配的地理特征文档具有小于第一阈值的分值在下面描述分值,则没有地理特征或位置。

25、被识别。在另一个示例中,过滤N个最佳匹配的地理特征文档的列表,以移除A分值小于第一阈值的文档,以及BSAF在下面描述小于第二阈值并且分值小于第三阈值例如第三阈值通常将高于即更多限制的第二阈值的文档。后面的“过滤”将超过第一阈值但是远在当前视口如在下面所定义的之外的低质量匹配移除,从而允许将在当前视口内或更接近当前视口的另一个地理特征或位置识别为最佳匹配。0046识别N个最佳匹配文档118需要多个计算操作。首先,识别满足搜索查询的地理特征文档118A。例如,这可以通过以下完成检索具有与查询词语的每一个匹配的标志的文档的列表并且然后对所检索的列表执行布尔与AND运算以产生具有与所有查询词语说明书C。

26、N102354312ACN102354321A5/14页8匹配的标志的文档如果有的列表。在该环境中,每个标志是与地理特征相关联的词、符号或词和/或符号的组合。为了弥补人为错误,文档的标志可以包括描述与文档相关联的地理特征的各种词语的各种错拼,并且可以包括邻近的或附近的地理特征的名称以及其错拼例如万一用户的搜索查询不正确地指定了邻近的城市或类似物但却精确地列出了与地理特征相关联的词语。在另一个示例中,在识别满足搜索查询的文档之前,首先通过移除任何非位置的词语和任何标点来“重写”搜索查询。可选地,在搜索查询中的各个单个词语可以被包括该词语和一个或多个同义词的布尔或OR表达式替换。在一些实施例中,对。

27、于已经为其预定义了一组同义词的查询中的每一个词语,将同义词添加到搜索查询。被添加到搜索查询作为布尔或OR表达式的一部分的“同义词”也可以包括复合词语的单个组分的“类属同义词”。例如,街道名称“NRENGSTORFF”的第一组分的类属同义词是“DIRECTIONAL_KEYWORD方向关键词”,其与包括N、S、E、W、NORTH北、SOUTH南、EAST东以及WEST西的任何方向关键词相匹配。类属同义词的另一个示例是“AFFIX_KEYWORD词缀关键词”,其与诸如AVE、AVENUE大街、BLVD、BOULEVARD大道、LN、LANE巷、RD、ROAD路、ST、STREET街道、RUE街等等。

28、的词或标志相匹配。类似的类属同义词也作为标志被包括在文档数据库中,在与相应的“正确的”关键词相同的地址组分位置。在重写的搜索查询中的类属同义词和文档之间的匹配比在搜索查询中的非同义词的关键词和文档中的非同义词的标志之间的匹配产生低得多的分值。可选地,可以根据预定义的规则对搜索查询进行其它的修改,以便提高搜索结果的质量。0047然后,为所识别的匹配的文档计算分值118B。在下面较详细地讨论了用于为每个匹配的文档生成分值的示范性过程。通常,与搜索查询有高质量匹配的文档比与搜索查询有更低质量匹配的文档被赋值更高的分值。诸如与匹配的文档相对应的地理特征的位置、相对于在其中显示了地图或图像的当前视口、以。

29、及这些地理特征的相对重要性的其它因子也可以是在计算分值中的因子。然后基于所计算的分值将匹配的文档进行排名118C,并且识别N个最高排名的文档118D。在一些实施例中,将文档的排名和选择N个最高排名的文档组合成单个操作例如通过在分值上运行前N个过滤。在一些实施例中,不对具有比前N个文档低的排名的文档进行排名。0048图2是示出了处理位置搜索查询的实施例200的框图。将诸如“155ABEAVEGREATNECKNY”的位置搜索查询210用作说明性示例。在操作114期间可以将街道号码155和句点移除导致ABEAVEGREATNECKNY。在操作116中,可以将位置搜索查询转换为布尔表达式,包括扩展缩。

30、略词诸如AVE和同义词。由此产生的布尔表达式是ABEANDAVEORAVENUEORSTREETORLANEORCOURTORANDGREATNECKANDNYORNEWYORK。该布尔表达式独立于在位置搜索查询210中的原始词或词语次序,即对在位置搜索查询210中的原始词或词语次序不敏感。这样,其可以适应关于位置搜索查询210的广泛的各种格式。这样的布尔表达式具有可以在使用分布式地理特征文档数据库的搜索引擎中处理的形式。这将在下面进一步讨论。0049现在将注意力转向地理特征文档数据库的实施例。图3是示出了将地理特征文档分布到多个索引上的实施例300的框图,所述索引可以被存储在搜索引擎中的多个。

31、计算机上。地理特征文档310可以包括多个地理特征文档312。诸如文档3121的各个地理特征文档可以包括特征类型诸如街道、路、路线、城市、国家、十字路口等等、特征名称即位说明书CN102354312ACN102354321A6/14页9置的名称、主要的词语或标志诸如与特征相关联的特定关键词、附近的特征词语或标志诸如相邻的或邻近的地标或感兴趣的位置以及补充信息诸如特征的纬度和经度。补充信息可以由地图或多级TILE服务器使用,以展现与在各个地理特征文档中的位置相对应的地图图像。这将在下面参考图5和7进一步描述。0050分区器PARTITIONER314可以经由一个或多个索引器316将地理特征文档31。

32、0的子集分布到在多个索引320中的各个索引,诸如索引3201。索引3201可以与索引320其可以被集体视作整个地理特征文档数据库的反向索引的一个分区或子分区相对应。索引320可以被存储在搜索引擎中的一个或多个计算机上。子集可以被这样分布每个索引320处理与各个位置搜索查询相关联的等价的处理部分或近似等价的处理部分。例如,可以将文档3121随机地或伪随机地分布在索引320上。例如,可以使用散列函数和取模函数来将地理特征文档分布到M个索引器上,其中M是索引有时称为索引分区或索引子分区的数量。在该示例中,将散列函数应用于每个地理特征文档或应用于文档的预定义的部分以产生散列值,然后将“取模M”函数应用。

33、于散列值以产生在0和M1之间的选择值。选择值确定M个索引器316中的哪一个接收文档用于索引。0051当处理各个搜索查询时,索引320的每一个可以提供在与各个查询匹配的文档的子集中的一组前N个诸如前10个文档。如在下面进一步讨论的,前N个文档可以是基于分值的排名。具体地,可以为匹配搜索查询的每个文档确定分值。分值可以基于各个位置搜索查询的典范式和/或布尔表达式。参考图7,由各个服务器730来处理索引320的每个子分区的查询处理,所述服务器返回识别匹配查询的最高排名文档中的N个的信息。可以被称为聚合器或分区级别查询执行管理器的服务器726例如通过从由服务器730返回的结果之中选择N个最佳搜索结果将。

34、来自服务器730的搜索结果相组合。在层级中的下一个较高级别的查询执行管理器720,通过从由聚合器720返回的结果之中选择N个最佳搜索结果将来自所有聚合器726的搜索结果相组合。更一般地,在分布式层级中的每一个级别选择最佳搜索结果的预定义的数量并且将其传递到下一个级别。例如,如果在给定的级别接收了10组前10个文档,则可以确定前10个文档并且将其传递。以这种方式,使用分布式实现可以确定和/或识别在文档312中的前N个文档。该方法可以提高搜索引擎的性能并且可以减少系统费用和/或复杂度。0052图4是示出了诸如文档3121的地理特征文档400的实施例的框图。文档400可以与超文本标记语言HTML和/。

35、或可扩展标记语言XML兼容。文档400可以包括与诸如位置例如街道、十字路口、城市、感兴趣地点等等的地理特征相对应的信息。一些文档400可以包括用于多于一个位置例如街道、城市的多个分区或类似物的信息。这样的位置信息可以包括与一个或多个位置相对应的关键词、与一个或多个位置相关联的一个或多个区域以及一个或多个关键词的同义词。0053如在实施例400中所示,在HTML标记之后的文本可以指示位置的类型,在该情况中是ROUTE路线。在HTML标记之后的文本可以指示位置的明确的名称,在该情况中是VICTORIASTREET维多利亚街。在HTML标记之后的文本可以指示与位置相对应的关键词,诸如WESTMINS。

36、TER威斯敏斯特、LONDON伦敦和ENGLAND英格兰。在HTML标记之后的文本可以指示关键词和/或位置的明确名称的同义词,诸如ANGLETERRE、UNITEDKINGDOM联合王国和VERENIGDKONINKRIJK。同义词可以包括来自说明书CN102354312ACN102354321A7/14页10外语即与关键词的语言不同的语言的词。在一些实施例中,同义词可以包括在一个或多个关键词中和/或在位置的明确名称中的缩略词和/或普通错拼。在HTML标记之后的文本可以指示在该位置附近的或邻近该位置的其它位置或区域。在该示例中,附近的位置或区域是ISLINGTON、WESTEND伦敦西区和CO。

37、VENTGARDEN考文特花园。0054可以将在文档400中的标记的文本或信息项称为信息项或文本项或标志。由索引器316图3来处理信息项或文本项以产生索引320。0055文档400可以包括包含更少或额外标记的更少信息或额外信息。例如,文档400可以包括诸如与地理特征相对应的参考坐标的补充信息,其可以被地图或多级服务器使用。在示范性实施例中,参考坐标可以包括一个或多个位置的纬度和经度和/或将一个或多个位置包括在内的街道号码的范围。在其它的实施例中,可以改变在文档400中的信息的次序。可以将文档400中的两个或更多个项组成单个项。0056在文档400中的补充信息的一个特定的示例是用于街道或其它路线。

38、的补充信息。在该示例中,补充信息包括一个或多个段,每一个对应于街道或路线的一部分。每个段指定与该段的第一和第二端点相对应的起始和结束街道号码,并且也指定该段的每个端点的纬度和经度。当包括街道号码的位置搜索查询与文档400相匹配时,将指定的街道号码用来识别在文档的补充信息中的最佳匹配的段。如果指定的街道号码处于最佳匹配的段的起始和结束街道号码之间,使用线性插值来确定由位置搜索查询所指定的位置的纬度和经度。可选地,如果指定的街道号码与最佳匹配的段的起始或结束街道号码相匹配,则将相应的纬度和经度用于由位置搜索查询所指定的位置的位置。0057如先前所提及,当将与各个位置搜索查询相对应的典范式和/或布尔。

39、表达式与在地理特征文档310图3中的文档312图3相比较时,可以确定指示匹配的程度的分值。这些分值可以指示文档212以及因而相应的位置与位置搜索查询的相关性。这样,响应于位置搜索查询,搜索引擎可以使用分值来确定最佳结果即最佳位置,或前N个结果的列表即前N个位置。0058在一些实施例中,可以仅为文档312图3的子集确定分值,即搜索引擎可以确定可以与位置搜索查询相对应的文档的候选组。在示范性实施例中,包含在文档的该候选组中的标准可以包括如下要求关键词中的至少一个与特征的明确名称在图4中的标记之后的文本相匹配以及在典范式和/或布尔表达式中的元素或词语的每一个在文档中出现。0059在示范性实施例中,可。

40、以使用来确定分值,其中IRI是与典范式和/或布尔表达式中的各个词语或元素“I”相对应的查询匹配分值关于特定的候选文档,FR是指示特征或位置的重要性的“特征排名”,E是标准值NORMALIZATIONVALUE以及Q是可选的因子。Q可以与在查询和候选文档之间的匹配的质量相对应、或其可以与可以被用来提高搜索结果的质量的任何其它度量相对应。Q因子的示例是在下面参考图1115描述的SAF因子。在另一个示例中,将Q设置为等于SAFPRODUCTPJ,其中SAF是在下面描述的分值衰减因子,每个PJ是惩罚因子,以及PRODUCTPJ是所有惩罚因子的乘积即乘法积。惩罚因子的每一个具有10的默认值,并且如果相应。

41、的惩罚可应用于所述的文档将较低的值例如07或类似值赋值给惩罚因子。惩罚因子的示例是A当文档既不在用说明书CN102354312ACN102354321A8/14页11户的国家也不在其当前视口如在下面所定义的时应用的惩罚因子;B当在文档和查询之间的匹配是非精确匹配例如,因为查询包含外来的或错误的词语或符号,并且在错误的词语或符号和文档之间的唯一匹配是具有“类属同义词”标志参见上述关于“类属同义词”的解释的匹配时应用的惩罚因子;以及C当在查询和文档之间的匹配缺少关键元素例如,当查询与文档的街道名称标志和国家标志、而不是城市标志相匹配时时应用的惩罚因子。在其它的实施例中可以使用其它的惩罚因子。通常,。

42、惩罚因子与指示在地理特征文档和搜索查询之间的潜在低劣质量匹配的情况相关联。在其它的实施例中,没有使用Q,或等价地将Q设置为等于1。0060在一些实施例中,标准值E是完美匹配的IRI分值的总和的最大值、或等价地是搜索查询中的关键词的标志量的总和。IRI值的总和可以被称为候选文档的总匹配分值或IR分值。在搜索查询中的特定关键词的IRI的值可以包括权重的乘积。权重可以包括在典范式和/或布尔表达式中的相应元素或词语的标志量、相关性分值以及元素量。标志量可以与词语的类型相对应,其中词语的类型可以包括停用词STOPWORD、街道词缀关键词例如诸如法语中的“RUE”的街道前缀词或诸如英语中的“STREET”。

43、、“AVENUE”、“ROAD”以及“PLACE”的街道后缀词、号码、同义词以及其它关键词,词语的每个预定义的类型被赋予预定义的标志量。预定义的标志量值可以具有预定义的范围,诸如0到1、或0到8或类似范围。在一些实施例中,默认的标志量用于“其它的关键词”是1,而诸如同义词、街道词缀关键词以及停用词的标志类型都被赋予较低的标志量值。在一些实施例中,同义词比街道词缀词被赋予更大的标志量。0061相关性分值可以基于文本匹配的程度而改变,对于在查询关键词和文档的信息元素之间的完全文本匹配具有预定义的最大值。当查询关键词与文档的信息元素的最佳匹配仅是部分匹配例如,查询关键词仅与多词元素的一个词相匹配时,。

44、相关性分值小于预定义的最大值,并且反映文本匹配的程度。0062元素量可以作为与匹配查询关键词的信息项在候选文档中相关联的地理特征的大小或类型的函数而改变。例如,作为国家名称的信息项比作为地点名称诸如城市名称的信息项可以被给予更高的元素量,后者进而比作为街道名称的信息被给予更高的值。元素量也可以反映与查询关键词匹配的信息项的类型。例如,包含地理特征的明确名称的信息项可以被赋予最高的元素量,作为“环境”项例如街道所位于的城市或国家的信息项可以被赋予下一个最高的元素量,以及包含附近城市的名称、区域或其它地理特征的信息项可以被赋予最低的元素量。在一些实施例中,用于候选文档中的信息项的元素量等于两个元素。

45、量因子的乘积,其中一个基于通过信息项命名的地理特征的大小或类型并且其中第二个基于与查询关键词相匹配的信息项明确的名称、环境或附近的特征的类型。在一些其它的实施例中,用于候选文档中的信息项的元素量等于这两个元素量因子的总和。0063用于候选文档的特征排名FR可以基于文档频率在图3的数据库310中的文档312中提及的特征的次数,或其可以基于地理特征的大小,较大的特征即地理广度被给予较高的特征排名值。在其它的实施例中,特征排名可以基于至少部分地与候选文档相对应的地理特征的重要性或普及性。例如,通过对地理特征的名称的万维网搜索或其它的数据库搜索可以确定与候选文档相对应的地理特征的重要性或普及性。006。

46、4当查询关键词具有一个或多个同义词时,为同义词的每一个以及查询关键词计算说明书CN102354312ACN102354321A9/14页12IR分值关于候选文档,然后当为候选文档计算组合的IR分值时选择并且使用这些IR分值中的最佳值。0065在一些实施例中,修改了在上面示出的评分函数,以增加一个或多个因子相对于其它因子的重要性。例如可以将评分函数变为00660067其中指数M是大于1的值例如2、25或3,并且其典型地在2和5之间2M5,以便在评分函数中给予规范化总匹配分值比特征排名FR和Q因子更多的重要性。在一些实施例中,修改了上述的评分函数,以相对于其名称与相同的词语相匹配但具有不同的次序的。

47、文档更偏向于其名称具有按照与在搜索查询中放置的词语相同的次序的词语的文档。例如,可以用成对PAIRWISE匹配分值补充例如,总匹配分值成对匹配分值总匹配分值例如,总匹配分值成对匹配分值,所述成对匹配分值基于与文档名称中的排序的词语对相匹配的在搜索查询中的排序的词语对排序的、邻近的词语的数量。0068现在将注意力转向用于响应于位置搜索查询向用户提供一个或多个位置结果的过程的实施例。如果在前N个排名中第一文档的最佳分值大于第二文档的次最佳分值的预定倍数例如次最佳分值小于最佳分值的70中,可以将与第一文档相对应的位置提供给用户。使用与文档一起存储的补充信息,地图或多级服务器可以将以该位置为中心的区域。

48、的地图图像提供给用户。例如,如果补充信息包括括入BRACKET该位置的街道地址,则可以使用线性插值来确定地图图像的中心。图5A是示出了提供给用户的地图图像500的实施例的框图。将与位置相对应的位置标记5121置于边界框510的中心。调整边界框510的大小,以使得可以提供围绕该位置的区域514。可以基于地理特征或位置的大小来确定边界框510的大小。不同大小的特征诸如城市或国家可以具有不同大小的边界框。0069在一些情况中,在区域中多于一个的不同位置即在空间上彼此分离可以具有相同或几乎相同的分值。例如,多于一个的位置可以与对应于位置搜索查询的典范式和/或布尔表达式中的所有关键词相匹配。在这样的情况。

49、中,可以将这些结果提供给用户。这在图5B中示出,所述图5B是示出了地图图像550的实施例的框图。将边界框510定义为包括满足预定义的选择标准的所有位置。与不同位置相对应的位置标记512被包括在边界框510中。在一些实施例中,标记是链接。通过在标记中的一个上点击,用户可以选择相应的位置。可以将该位置与诸如地图图像500图5A的地图图像一起展现给用户。在一些其它的实施例中,挨着地图550列出了最佳匹配位置的列表520。在列表中的每一项可以包括指向与该位置相对应的地图的链接。可以由来自相应的地理特征文档的典范名称在图4中的示例中通过CNA标记识别和环境文本在图4中的示例中通过CA标记识别表示在列表520中的每一项。0070如果最佳分值不大于次最佳分值的预定倍数,则可以提供与前N个排名中的范围相对应的位置。例如,可以提供具有大于或等于最佳分值的50的分值的位置来自前N个结果之中。可以将各种信息与位置一起提供。在图6中示出了用于显示响应于位置搜索查询而返回的多个搜索结果的示范性图形用户界面。在一个区域610或列中,列出了最说明书CN102354312ACN102354321A10/14页13佳匹配地理特征或位置,并且在图形用户界面的另一个区域中示出了单个小地图620,每一个用于在区域610中列出的最佳匹配地理特征或位置中的每一个。在该示例中,位置搜索查询是“SANANTONIO圣安东。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1