《用于位置搜索查询的地理编码.pdf》由会员分享,可在线阅读,更多相关《用于位置搜索查询的地理编码.pdf(28页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN102354312A43申请公布日20120215CN102354312ACN102354312A21申请号201110276324422申请日2007012660/763,16820060127US60/869,54920061211US200780010615020070126G06F17/3020060171申请人谷歌公司地址美国加利福尼亚州72发明人弗洛里安米歇尔布龙拉梅什巴拉科利什南詹姆斯克里斯托弗诺利斯詹姆斯罗伯特穆勒泰陈拉尔斯埃尔斯特鲁普拉斯穆森74专利代理机构中原信达知识产权代理有限责任公司11219代理人周亚荣安翔54发明名称用于位置搜索查询的地理编码57摘。
2、要本申请涉及用于位置搜索查询的地理编码。一种用于执行位置搜索的方法,包括接收位置搜索查询、确定与位置搜索查询相对应的关键词、识别与在位置搜索查询中的关键词相对应的一个或多个文档、以及向客户端系统提供识别与一个或多个文档相对应的至少一个位置的信息。30优先权数据62分案原申请数据51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书14页附图11页CN102354321A1/2页21一种用于执行位置搜索的方法,包括接收位置搜索查询;识别满足所述位置搜索查询的地理特征文档,其中所述地理特征文档中的每一个与地理特征相对应;以及根据分值对所识别的地理特征文档进行排名以产生一。
3、组已排名的地理特征文档,所述分值至少部分地基于与所识别的地理特征文档相对应的所述地理特征到客户端系统的地理视口区域的接近性;以及根据所述已排名的地理特征文档提供结果,所述结果识别与所述已排名的地理特征文档的至少一个相对应的至少一个地理特征。2如权利要求1所述的方法,其中所述地理视口区域与在所述客户端系统上显示的地理区域相对应。3如权利要求1所述的方法,其中所述地理视口区域与响应于在先位置搜索查询而在所述客户端系统上显示的地理区域相对应。4如权利要求1所述的方法,其中所述地理视口区域包括包围在所述客户端系统上显示的矩形地理区域的圆形地理区域。5如权利要求4所述的方法,其中所述地理视口区域具有与在。
4、所述客户端系统上显示的所述矩形地理区域的大小相对应的大小。6如权利要求1所述的方法,包括确定与所述位置搜索查询相对应的关键词、以及识别与在所述位置搜索查询中的所述关键词相匹配的地理特征文档;其中确定所述关键词包括从所述位置搜索查询中移除标点符号和非位置词语。7如权利要求1所述的方法,包括确定与所述位置搜索查询相对应的关键词、以及识别与在所述位置搜索查询中的所述关键词相匹配的地理特征文档;其中所述关键词包括在所述位置搜索查询中的一个或多个词语的一个或多个同义词。8如权利要求1所述的方法,包括确定与所述位置搜索查询相对应的关键词、以及识别与在所述位置搜索查询中的所述关键词相匹配的地理特征文档;其中。
5、识别所述地理特征文档包括确定与所述关键词相对应的典范式。9如权利要求1所述的方法,其中所述地理特征文档是在包括与地理特征相对应的多个地理特征文档的索引中。10如权利要求9所述的方法,其中所述多个地理特征文档包括与所述地理特征相对应的参考坐标。11如权利要求1所述的方法,其中识别所述地理特征文档包括为所述地理特征文档的每一个确定分值。12如权利要求11所述的方法,其中提供结果包括如果在所识别的地理特征文档的前N个排名中,相应的地理特征文档的最佳分值大于下一个地理特征文档的次最佳分值的预定倍数,则提供单个地理特征或位置。13如权利要求1所述的方法,其中所述提供包括提供与至少所述一个地理特征相对应的。
6、地图图像。14一种搜索引擎系统,包括用于接收位置搜索查询的装置;权利要求书CN102354312ACN102354321A2/2页3用于识别满足所述位置搜索查询的地理特征文档的装置,其中所述地理特征文档中的每一个与地理特征相对应;以及用于根据分值对所识别的地理特征文档进行排名以产生一组已排名的地理特征文档的装置,所述分值至少部分地基于与所识别的地理特征文档相对应的所述地理特征到客户端系统的地理视口区域的接近性;以及用于根据所述已排名的地理特征文档提供结果的装置,所述结果识别与所述已排名的地理特征文档的至少一个相对应的至少一个地理特征。15一种用于执行位置搜索的方法,包括接收位置搜索查询;识别满。
7、足所述位置搜索查询的地理特征;根据分值对所识别的地理特征进行排名以产生一组已排名的地理特征,所述分值至少部分地基于所述地理特征到客户端系统的地理视口区域的接近性;以及根据所述已排名的地理特征提供结果。16如权利要求15所述的方法,其中所述地理视口区域与在所述客户端系统上显示的地理区域相对应。17如权利要求15所述的方法,其中所述地理视口区域与响应于在先位置搜索查询而在所述客户端系统上显示的地理区域相对应。18如权利要求15所述的方法,其中所述地理视口区域包括包围在所述客户端系统上显示的矩形地理区域的圆形地理区域。19如权利要求18所述的方法,其中所述地理视口区域具有与在所述客户端系统上显示的所。
8、述矩形地理区域的大小相对应的大小。20如权利要求15所述的方法,包括确定与所述位置搜索查询相对应的关键词;以及识别与在所述位置搜索查询中的所述关键词相匹配的地理特征。21如权利要求20所述的方法,其中确定所述关键词包括从所述位置搜索查询中移除标点符号和非位置词语。22如权利要求20所述的方法,其中所述关键词包括在所述位置搜索查询中的一个或多个词语的一个或多个同义词。23一种搜索引擎系统,包括用于接收位置搜索查询的装置;用于识别满足所述位置搜索查询的地理特征的装置;用于根据分值对所识别的地理特征进行排名以产生一组已排名的地理特征的装置,所述分值至少部分地基于所述地理特征到客户端系统的地理视口区域。
9、的接近性;以及用于根据所述已排名的地理特征提供结果的装置。权利要求书CN102354312ACN102354321A1/14页4用于位置搜索查询的地理编码0001相关申请0002本申请属于申请日为2007年1月26日的中国专利申请2007800106150的分案申请。本申请要求于2006年1月27日提交的、“GEOGRAPHICCODINGFORLOCATIONSEARCHQUERIES用于位置搜索查询的地理编码”的美国临时专利申请60/763,168的优先权,所述临时专利申请以引用的方式并入本文。技术领域0003搜索引擎提供强大的工具来定位在大型文档数据库中的文档诸如因特网或万维网WWW上的。
10、文档、和/或存储在内联网的计算机上的文档中的内容。响应于搜索查询使用文档的索引来定位文档,所述搜索查询由用户提交的一个或多个词、词语、关键词和/或短语此后称为词语组成。可以将在文档的索引中的文档与搜索查询中的一个或多个词语相匹配以确定分值。基于分值,将相关文档或文档位置的排名的列表提供给用户。0004搜索查询可能具有各种目的和格式。一种种类的格式与位置搜索相对应。传统的位置搜索通常使用诸如模板的固定的格式。现有的模板通常是固定的或可能仅允许有限数量的变化。例如,在现有的位置搜索查询中的词或词语可能具有预定的次序街道名称、州、邮政编码和/或预定的拼写。因此,在传统的位置搜索中提供包括拼写错误的宽。
11、泛的拼写、用于位置的可选的名称以及诸如在不同的国家创建的可选的地址格式是困难的或不可能的。0005响应于位置搜索查询,许多现有的搜索引擎通常返回单个结果。结合对位置搜索查询的格式灵活性的缺乏,这使得适应在位置搜索查询和/或返回用户的结果中的不确定性或含混性是困难的。0006在现有的位置搜索查询中的灵活性的缺乏也通常损害搜索引擎性能,因为通常以单一数据结构来处理现有的位置搜索查询。无法调整数据结构并且将该数据结构分发到整个搜索引擎可以导致对位置搜索查询的处理较慢。克服这样的瓶颈可能导致额外的搜索引擎复杂度及费用。0007因此需要用于处理位置搜索查询的改进的格式和技术。另外,也需要改进向用户报告位。
12、置搜索查询的结果。发明内容0008通过所公开的过程和搜索引擎的实施例减少或消除了上述不足以及与位置搜索查询相关联的其它问题。0009在一些实施例中,用于执行位置搜索的方法包括接收位置搜索查询;确定与位置搜索查询相对应的关键词;识别与位置搜索查询中的关键词相对应的一个或多个文档;以及向客户端系统提供识别与一个或多个文档相对应的至少一个位置的信息。0010确定关键词可以包括从位置搜索查询中移除标点符号和非位置词语。关键词可以包括位置搜索查询中的一个或多个词语的一个或多个同义词。关键词可以包括与一个或多说明书CN102354312ACN102354321A2/14页5个词语相对应的预定的缩略词。00。
13、11识别一个或多个文档可以包括确定与关键词相对应的典范式CANONICALEXPRESSION。识别一个或多个文档可以包括确定一个或多个文档中的每一个的分值。各个分值可以依据关键词在多个文档中的词频、在各个文档中的一个或多个词与一个或多个关键词之间的匹配以及与关键词相对应的地理特征的大小。识别一个或多个文档可以独立于关键词的次序。0012一个或多个文档可以被存储在包括与地理特征相对应的多个文档的索引中。多个文档可以包括与地理特征相对应的参考坐标。0013提供识别与一个或多个文档相对应的至少一个位置的信息可以包括如果在一个或多个文档的前N个排名中,相应的文档的最佳分值大于下一个文档的次NEXT最。
14、佳分值的预定倍数,则提供识别一个位置的信息。提供操作可以包括识别出与一个或多个文档相对应的前N个最高排名的位置,其中最高排名的文档具有在预定范围内的分值。在一些实施例中,在前N个排名中的每一个位置包括位置标识符。在一些实施例中,在前N个排名中的每一个位置包括指向地图图像的相应的链接。0014提供操作可以包括提供与至少一个位置相对应的地图图像。地图图像可以以至少一个位置为中心,并且可以包括小于在至少一个位置周围的预定大小的区域。在一些实施例中,至少一个位置可以包括其相应的文档具有所有共同的关键词的两个或多个不同的位置。地图图像可以包括与两个或多个位置相对应的标记。0015在另一个实施例中,存储在。
15、存储器中的数据结构可以被用于执行位置搜索查询。数据结构可以包括与地理特征相对应的多个文档或记录在下文中称为文档。在多个文档中的各个文档可以包括位置信息和补充信息。位置信息可以包括与一个或多个位置相对应的关键词或标志TOKEN、与一个或多个位置相关联的一个或多个区域以及关键词的同义词。补充信息可以包括与一个或多个位置相对应的参考坐标。0016参考坐标可以包括一个或多个位置的纬度和经度。参考坐标可以包括围绕一个或多个位置的区域。区域可以小于预定的大小。0017数据结构可以与超文本标记语言HTML相兼容。0018在各个文档中的位置信息可以对位置搜索查询中的词语的次序不敏感。0019在另一个实施例中,。
16、图形用户界面包括响应于位置搜索查询而提供的区域的地图图像。地图图像包括与区域中的具有与位置搜索查询相关联的所有共同的词语的两个或多个不同的位置相对应的两个或多个标记。0020在另一个实施例中,图形用户界面包括响应于位置搜索查询而提供的区域的地图图像。地图图像以位置为中心。地图图像是独立于与位置搜索查询相关联的词语的次序来提供的。0021上述的方法、数据结构和图形用户界面可以被包括在具有一个或多个中央处理单元的搜索引擎系统、在一个或多个计算机中的存储器、以及存储在存储器中并且由一个或多个中央处理器执行的一个或多个程序中和/或由它们执行。附图说明0022为了更好地理解本发明的上述实施例以及其另外的。
17、实施例,应当结合附图来参考说明书CN102354312ACN102354321A3/14页6下面的实施例的描述,其中在所有附图中相同的参考数字指代对应的部分。0023图1是示出了位置搜索过程的实施例的流程图。0024图2是示出了处理位置搜索查询的实施例的框图。0025图3是示出了将地理特征文档分布到多个索引上的实施例的框图。0026图4是示出了地理特征文档的实施例的框图。0027图5A是示出了地图图像的实施例的框图。0028图5B是示出了地图图像的实施例的框图。0029图6是示出了响应于位置搜索查询而返回的结果的实施例的框图。0030图7是示出了搜索引擎系统的实施例的框图。0031图8是示出了。
18、搜索引擎的实施例的框图。0032图9是示出了客户端系统的实施例的框图。0033图10是示出了地理特征文档数据结构的实施例的框图。0034图11描述了关于当前显示窗口的一组地理区域。0035图12和图13示出了如何以标准化的NORMALIZED角距离来测量在地球的表面上的距离和区域,并且也示出了如何将在视口VIEWPORT边缘SKIRT区域中的地理特征的位置转换为比值。0036图14描述了用于根据视口区域的半径确定边缘区域的半径的函数的图。0037图15描述了用于根据相对于当前视口区域和边缘区域的地理特征的位置来分配分值衰减因子的函数的图。具体实施方式0038现将详细参考实施例,在附图中示出了实。
19、施例的示例。在下面的详细描述中,阐述了大量的特定细节,以提供对本发明的全面理解。然而,对于本领域普通技术人员明显地,没有这些特定的细节也可以实现本发明。在其它的实例中,没有详细描述众所周知的方法、过程、组件以及电路,以免不必要地模糊本发明的各个方面。0039描述了用于执行位置搜索查询并且向用户提供相应的结果的系统和方法的实施例。该处理有时被称为地理编码GEOCODING。可以使用耦接到诸如因特网也被称为万维网或WWW和/或一个或多个内联网的网络的搜索引擎来从用户接收诸如城市中的街道地址的位置搜索查询。对位置搜索查询进行处理以确定典范式或布尔表达式。处理可以包括确定在各个位置搜索查询中的一个或多。
20、个关键词、从各个位置搜索查询移除标点符号和非位置词语诸如物品、以及确定在各个位置搜索查询中的一个或多个词语的一个或多个同义词。同义词可以包括用于在各个位置搜索查询中的一个或多个词语的预定的缩略词和/或在各个位置搜索查询中的一个或多个词语的预定的错拼词。典范式可以独立于关键词的次序,即对关键词的次序不敏感。0040可以将典范式与搜索引擎中的地理特征文档的索引进行比较。每个地理特征文档具有与地理特征相对应的一组标志,其可以是位置例如街道、城市、乡村、州,国家或地理实体例如湖泊、河流、山脉、陆地、海洋等等。虽然单个地理特征可以与诸如一组街道地址的一组位置相对应,但是在识别与位置搜索查询最匹配的位置或。
21、地理特征的环境中,可以将与地理特征相关联的所有位置视作“一个位置”。在本文档的至少某些部分中,同义说明书CN102354312ACN102354321A4/14页7地使用词语“地理特征”和“位置”。0041可以将地理特征文档的索引分布在搜索引擎中的多个计算机上。索引可以包括位置信息和补充信息。位置信息可以包括关键词、关键词的同义词以及多个位置的邻近物体。补充信息可以包括位置的参考坐标,诸如纬度和经度和/或范围或街道号码。0042可以通过计算机返回与各个典范式紧密匹配的地理特征文档的子集的分值。可以确定前N个地理特征文档的排名。如果最佳分值大于次最佳分值的预定倍数,则可以将与最佳分值相对应的位置。
22、随同相应位置的地图图像一起提供给用户。地图图像可以以相应的位置为中心并且可以调整大小以包括环绕相应位置的预定的边界框、区域或窗口。可选地,如果最佳分值小于预定倍数,则可以将与分值的范围相对应的几个位置提供给用户。可以提供诸如位置标识符城市、州、邮政编码和/或国家和/或指向相应的地图图像的链接的附加信息。0043因此,实施例可以适应ACCOMMODATE广泛的多种格式、允许在位置搜索查询中和/或在结果中的含混性AMBIGUITY、以及可以使用并行处理以提供位置搜索查询有时称为位置搜索的高速处理。因此,实施例可以提供位置搜索查询的改进的处理。0044现在将注意力转向位置搜索过程。图1是示出了位置搜。
23、索过程100的实施例的流程图。虽然在下面描述的位置搜索过程100包括看起来按照特定的次序出现的许多操作,但是明显地,过程100可以包括可以例如使用并行处理器或多线程环境串行或并行执行的更多或更少的操作,可以改变两个或更多个操作的次序和/或可以将两个或更多个操作组合为单个操作。0045可以接收位置搜索查询110。可以确定关键词112。可以将位置搜索查询转换为典范式形式114。这可以包括从位置搜索查询中移除一个或多个非位置或噪声词或词语、标点符号、变音符即添加到字母上以指示特殊发音的符号和/或街道号码。可以生成布尔表达式116。布尔表达式可以包含位置搜索查询中的一个或多个词或词语的同义词。将搜索查。
24、询转换为典范式形式也可以包括扩展一个或多个缩略词,诸如将“ST”或“ST”扩展为“STREET”。在一些实施例中,通过用包括相应正确拼写的词的用于错拼词的“同义词”来补充查询,可以“校正”在位置搜索查询中的错拼词或词语例如查询处理过程确定很可能是错拼的词语。确定关键词112可以使结果查询独立于关键词的次序。可以从地理特征文档数据库识别N例如10个最佳匹配的地理特征文档118。可以提供与所识别的文档相对应的至少一个地理特征或位置120。可选地,在一些情形中向发出请求的用户提供零个文档。例如在一些实施例中,如果所有N个最佳匹配的地理特征文档具有小于第一阈值的分值在下面描述分值,则没有地理特征或位置。
25、被识别。在另一个示例中,过滤N个最佳匹配的地理特征文档的列表,以移除A分值小于第一阈值的文档,以及BSAF在下面描述小于第二阈值并且分值小于第三阈值例如第三阈值通常将高于即更多限制的第二阈值的文档。后面的“过滤”将超过第一阈值但是远在当前视口如在下面所定义的之外的低质量匹配移除,从而允许将在当前视口内或更接近当前视口的另一个地理特征或位置识别为最佳匹配。0046识别N个最佳匹配文档118需要多个计算操作。首先,识别满足搜索查询的地理特征文档118A。例如,这可以通过以下完成检索具有与查询词语的每一个匹配的标志的文档的列表并且然后对所检索的列表执行布尔与AND运算以产生具有与所有查询词语说明书C。
26、N102354312ACN102354321A5/14页8匹配的标志的文档如果有的列表。在该环境中,每个标志是与地理特征相关联的词、符号或词和/或符号的组合。为了弥补人为错误,文档的标志可以包括描述与文档相关联的地理特征的各种词语的各种错拼,并且可以包括邻近的或附近的地理特征的名称以及其错拼例如万一用户的搜索查询不正确地指定了邻近的城市或类似物但却精确地列出了与地理特征相关联的词语。在另一个示例中,在识别满足搜索查询的文档之前,首先通过移除任何非位置的词语和任何标点来“重写”搜索查询。可选地,在搜索查询中的各个单个词语可以被包括该词语和一个或多个同义词的布尔或OR表达式替换。在一些实施例中,对。
27、于已经为其预定义了一组同义词的查询中的每一个词语,将同义词添加到搜索查询。被添加到搜索查询作为布尔或OR表达式的一部分的“同义词”也可以包括复合词语的单个组分的“类属同义词”。例如,街道名称“NRENGSTORFF”的第一组分的类属同义词是“DIRECTIONAL_KEYWORD方向关键词”,其与包括N、S、E、W、NORTH北、SOUTH南、EAST东以及WEST西的任何方向关键词相匹配。类属同义词的另一个示例是“AFFIX_KEYWORD词缀关键词”,其与诸如AVE、AVENUE大街、BLVD、BOULEVARD大道、LN、LANE巷、RD、ROAD路、ST、STREET街道、RUE街等等。
28、的词或标志相匹配。类似的类属同义词也作为标志被包括在文档数据库中,在与相应的“正确的”关键词相同的地址组分位置。在重写的搜索查询中的类属同义词和文档之间的匹配比在搜索查询中的非同义词的关键词和文档中的非同义词的标志之间的匹配产生低得多的分值。可选地,可以根据预定义的规则对搜索查询进行其它的修改,以便提高搜索结果的质量。0047然后,为所识别的匹配的文档计算分值118B。在下面较详细地讨论了用于为每个匹配的文档生成分值的示范性过程。通常,与搜索查询有高质量匹配的文档比与搜索查询有更低质量匹配的文档被赋值更高的分值。诸如与匹配的文档相对应的地理特征的位置、相对于在其中显示了地图或图像的当前视口、以。
29、及这些地理特征的相对重要性的其它因子也可以是在计算分值中的因子。然后基于所计算的分值将匹配的文档进行排名118C,并且识别N个最高排名的文档118D。在一些实施例中,将文档的排名和选择N个最高排名的文档组合成单个操作例如通过在分值上运行前N个过滤。在一些实施例中,不对具有比前N个文档低的排名的文档进行排名。0048图2是示出了处理位置搜索查询的实施例200的框图。将诸如“155ABEAVEGREATNECKNY”的位置搜索查询210用作说明性示例。在操作114期间可以将街道号码155和句点移除导致ABEAVEGREATNECKNY。在操作116中,可以将位置搜索查询转换为布尔表达式,包括扩展缩。
30、略词诸如AVE和同义词。由此产生的布尔表达式是ABEANDAVEORAVENUEORSTREETORLANEORCOURTORANDGREATNECKANDNYORNEWYORK。该布尔表达式独立于在位置搜索查询210中的原始词或词语次序,即对在位置搜索查询210中的原始词或词语次序不敏感。这样,其可以适应关于位置搜索查询210的广泛的各种格式。这样的布尔表达式具有可以在使用分布式地理特征文档数据库的搜索引擎中处理的形式。这将在下面进一步讨论。0049现在将注意力转向地理特征文档数据库的实施例。图3是示出了将地理特征文档分布到多个索引上的实施例300的框图,所述索引可以被存储在搜索引擎中的多个。
31、计算机上。地理特征文档310可以包括多个地理特征文档312。诸如文档3121的各个地理特征文档可以包括特征类型诸如街道、路、路线、城市、国家、十字路口等等、特征名称即位说明书CN102354312ACN102354321A6/14页9置的名称、主要的词语或标志诸如与特征相关联的特定关键词、附近的特征词语或标志诸如相邻的或邻近的地标或感兴趣的位置以及补充信息诸如特征的纬度和经度。补充信息可以由地图或多级TILE服务器使用,以展现与在各个地理特征文档中的位置相对应的地图图像。这将在下面参考图5和7进一步描述。0050分区器PARTITIONER314可以经由一个或多个索引器316将地理特征文档31。
32、0的子集分布到在多个索引320中的各个索引,诸如索引3201。索引3201可以与索引320其可以被集体视作整个地理特征文档数据库的反向索引的一个分区或子分区相对应。索引320可以被存储在搜索引擎中的一个或多个计算机上。子集可以被这样分布每个索引320处理与各个位置搜索查询相关联的等价的处理部分或近似等价的处理部分。例如,可以将文档3121随机地或伪随机地分布在索引320上。例如,可以使用散列函数和取模函数来将地理特征文档分布到M个索引器上,其中M是索引有时称为索引分区或索引子分区的数量。在该示例中,将散列函数应用于每个地理特征文档或应用于文档的预定义的部分以产生散列值,然后将“取模M”函数应用。
33、于散列值以产生在0和M1之间的选择值。选择值确定M个索引器316中的哪一个接收文档用于索引。0051当处理各个搜索查询时,索引320的每一个可以提供在与各个查询匹配的文档的子集中的一组前N个诸如前10个文档。如在下面进一步讨论的,前N个文档可以是基于分值的排名。具体地,可以为匹配搜索查询的每个文档确定分值。分值可以基于各个位置搜索查询的典范式和/或布尔表达式。参考图7,由各个服务器730来处理索引320的每个子分区的查询处理,所述服务器返回识别匹配查询的最高排名文档中的N个的信息。可以被称为聚合器或分区级别查询执行管理器的服务器726例如通过从由服务器730返回的结果之中选择N个最佳搜索结果将。
34、来自服务器730的搜索结果相组合。在层级中的下一个较高级别的查询执行管理器720,通过从由聚合器720返回的结果之中选择N个最佳搜索结果将来自所有聚合器726的搜索结果相组合。更一般地,在分布式层级中的每一个级别选择最佳搜索结果的预定义的数量并且将其传递到下一个级别。例如,如果在给定的级别接收了10组前10个文档,则可以确定前10个文档并且将其传递。以这种方式,使用分布式实现可以确定和/或识别在文档312中的前N个文档。该方法可以提高搜索引擎的性能并且可以减少系统费用和/或复杂度。0052图4是示出了诸如文档3121的地理特征文档400的实施例的框图。文档400可以与超文本标记语言HTML和/。
35、或可扩展标记语言XML兼容。文档400可以包括与诸如位置例如街道、十字路口、城市、感兴趣地点等等的地理特征相对应的信息。一些文档400可以包括用于多于一个位置例如街道、城市的多个分区或类似物的信息。这样的位置信息可以包括与一个或多个位置相对应的关键词、与一个或多个位置相关联的一个或多个区域以及一个或多个关键词的同义词。0053如在实施例400中所示,在HTML标记之后的文本可以指示位置的类型,在该情况中是ROUTE路线。在HTML标记之后的文本可以指示位置的明确的名称,在该情况中是VICTORIASTREET维多利亚街。在HTML标记之后的文本可以指示与位置相对应的关键词,诸如WESTMINS。
36、TER威斯敏斯特、LONDON伦敦和ENGLAND英格兰。在HTML标记之后的文本可以指示关键词和/或位置的明确名称的同义词,诸如ANGLETERRE、UNITEDKINGDOM联合王国和VERENIGDKONINKRIJK。同义词可以包括来自说明书CN102354312ACN102354321A7/14页10外语即与关键词的语言不同的语言的词。在一些实施例中,同义词可以包括在一个或多个关键词中和/或在位置的明确名称中的缩略词和/或普通错拼。在HTML标记之后的文本可以指示在该位置附近的或邻近该位置的其它位置或区域。在该示例中,附近的位置或区域是ISLINGTON、WESTEND伦敦西区和CO。
37、VENTGARDEN考文特花园。0054可以将在文档400中的标记的文本或信息项称为信息项或文本项或标志。由索引器316图3来处理信息项或文本项以产生索引320。0055文档400可以包括包含更少或额外标记的更少信息或额外信息。例如,文档400可以包括诸如与地理特征相对应的参考坐标的补充信息,其可以被地图或多级服务器使用。在示范性实施例中,参考坐标可以包括一个或多个位置的纬度和经度和/或将一个或多个位置包括在内的街道号码的范围。在其它的实施例中,可以改变在文档400中的信息的次序。可以将文档400中的两个或更多个项组成单个项。0056在文档400中的补充信息的一个特定的示例是用于街道或其它路线。
38、的补充信息。在该示例中,补充信息包括一个或多个段,每一个对应于街道或路线的一部分。每个段指定与该段的第一和第二端点相对应的起始和结束街道号码,并且也指定该段的每个端点的纬度和经度。当包括街道号码的位置搜索查询与文档400相匹配时,将指定的街道号码用来识别在文档的补充信息中的最佳匹配的段。如果指定的街道号码处于最佳匹配的段的起始和结束街道号码之间,使用线性插值来确定由位置搜索查询所指定的位置的纬度和经度。可选地,如果指定的街道号码与最佳匹配的段的起始或结束街道号码相匹配,则将相应的纬度和经度用于由位置搜索查询所指定的位置的位置。0057如先前所提及,当将与各个位置搜索查询相对应的典范式和/或布尔。
39、表达式与在地理特征文档310图3中的文档312图3相比较时,可以确定指示匹配的程度的分值。这些分值可以指示文档212以及因而相应的位置与位置搜索查询的相关性。这样,响应于位置搜索查询,搜索引擎可以使用分值来确定最佳结果即最佳位置,或前N个结果的列表即前N个位置。0058在一些实施例中,可以仅为文档312图3的子集确定分值,即搜索引擎可以确定可以与位置搜索查询相对应的文档的候选组。在示范性实施例中,包含在文档的该候选组中的标准可以包括如下要求关键词中的至少一个与特征的明确名称在图4中的标记之后的文本相匹配以及在典范式和/或布尔表达式中的元素或词语的每一个在文档中出现。0059在示范性实施例中,可。
40、以使用来确定分值,其中IRI是与典范式和/或布尔表达式中的各个词语或元素“I”相对应的查询匹配分值关于特定的候选文档,FR是指示特征或位置的重要性的“特征排名”,E是标准值NORMALIZATIONVALUE以及Q是可选的因子。Q可以与在查询和候选文档之间的匹配的质量相对应、或其可以与可以被用来提高搜索结果的质量的任何其它度量相对应。Q因子的示例是在下面参考图1115描述的SAF因子。在另一个示例中,将Q设置为等于SAFPRODUCTPJ,其中SAF是在下面描述的分值衰减因子,每个PJ是惩罚因子,以及PRODUCTPJ是所有惩罚因子的乘积即乘法积。惩罚因子的每一个具有10的默认值,并且如果相应。
41、的惩罚可应用于所述的文档将较低的值例如07或类似值赋值给惩罚因子。惩罚因子的示例是A当文档既不在用说明书CN102354312ACN102354321A8/14页11户的国家也不在其当前视口如在下面所定义的时应用的惩罚因子;B当在文档和查询之间的匹配是非精确匹配例如,因为查询包含外来的或错误的词语或符号,并且在错误的词语或符号和文档之间的唯一匹配是具有“类属同义词”标志参见上述关于“类属同义词”的解释的匹配时应用的惩罚因子;以及C当在查询和文档之间的匹配缺少关键元素例如,当查询与文档的街道名称标志和国家标志、而不是城市标志相匹配时时应用的惩罚因子。在其它的实施例中可以使用其它的惩罚因子。通常,。
42、惩罚因子与指示在地理特征文档和搜索查询之间的潜在低劣质量匹配的情况相关联。在其它的实施例中,没有使用Q,或等价地将Q设置为等于1。0060在一些实施例中,标准值E是完美匹配的IRI分值的总和的最大值、或等价地是搜索查询中的关键词的标志量的总和。IRI值的总和可以被称为候选文档的总匹配分值或IR分值。在搜索查询中的特定关键词的IRI的值可以包括权重的乘积。权重可以包括在典范式和/或布尔表达式中的相应元素或词语的标志量、相关性分值以及元素量。标志量可以与词语的类型相对应,其中词语的类型可以包括停用词STOPWORD、街道词缀关键词例如诸如法语中的“RUE”的街道前缀词或诸如英语中的“STREET”。
43、、“AVENUE”、“ROAD”以及“PLACE”的街道后缀词、号码、同义词以及其它关键词,词语的每个预定义的类型被赋予预定义的标志量。预定义的标志量值可以具有预定义的范围,诸如0到1、或0到8或类似范围。在一些实施例中,默认的标志量用于“其它的关键词”是1,而诸如同义词、街道词缀关键词以及停用词的标志类型都被赋予较低的标志量值。在一些实施例中,同义词比街道词缀词被赋予更大的标志量。0061相关性分值可以基于文本匹配的程度而改变,对于在查询关键词和文档的信息元素之间的完全文本匹配具有预定义的最大值。当查询关键词与文档的信息元素的最佳匹配仅是部分匹配例如,查询关键词仅与多词元素的一个词相匹配时,。
44、相关性分值小于预定义的最大值,并且反映文本匹配的程度。0062元素量可以作为与匹配查询关键词的信息项在候选文档中相关联的地理特征的大小或类型的函数而改变。例如,作为国家名称的信息项比作为地点名称诸如城市名称的信息项可以被给予更高的元素量,后者进而比作为街道名称的信息被给予更高的值。元素量也可以反映与查询关键词匹配的信息项的类型。例如,包含地理特征的明确名称的信息项可以被赋予最高的元素量,作为“环境”项例如街道所位于的城市或国家的信息项可以被赋予下一个最高的元素量,以及包含附近城市的名称、区域或其它地理特征的信息项可以被赋予最低的元素量。在一些实施例中,用于候选文档中的信息项的元素量等于两个元素。
45、量因子的乘积,其中一个基于通过信息项命名的地理特征的大小或类型并且其中第二个基于与查询关键词相匹配的信息项明确的名称、环境或附近的特征的类型。在一些其它的实施例中,用于候选文档中的信息项的元素量等于这两个元素量因子的总和。0063用于候选文档的特征排名FR可以基于文档频率在图3的数据库310中的文档312中提及的特征的次数,或其可以基于地理特征的大小,较大的特征即地理广度被给予较高的特征排名值。在其它的实施例中,特征排名可以基于至少部分地与候选文档相对应的地理特征的重要性或普及性。例如,通过对地理特征的名称的万维网搜索或其它的数据库搜索可以确定与候选文档相对应的地理特征的重要性或普及性。006。
46、4当查询关键词具有一个或多个同义词时,为同义词的每一个以及查询关键词计算说明书CN102354312ACN102354321A9/14页12IR分值关于候选文档,然后当为候选文档计算组合的IR分值时选择并且使用这些IR分值中的最佳值。0065在一些实施例中,修改了在上面示出的评分函数,以增加一个或多个因子相对于其它因子的重要性。例如可以将评分函数变为00660067其中指数M是大于1的值例如2、25或3,并且其典型地在2和5之间2M5,以便在评分函数中给予规范化总匹配分值比特征排名FR和Q因子更多的重要性。在一些实施例中,修改了上述的评分函数,以相对于其名称与相同的词语相匹配但具有不同的次序的。
47、文档更偏向于其名称具有按照与在搜索查询中放置的词语相同的次序的词语的文档。例如,可以用成对PAIRWISE匹配分值补充例如,总匹配分值成对匹配分值总匹配分值例如,总匹配分值成对匹配分值,所述成对匹配分值基于与文档名称中的排序的词语对相匹配的在搜索查询中的排序的词语对排序的、邻近的词语的数量。0068现在将注意力转向用于响应于位置搜索查询向用户提供一个或多个位置结果的过程的实施例。如果在前N个排名中第一文档的最佳分值大于第二文档的次最佳分值的预定倍数例如次最佳分值小于最佳分值的70中,可以将与第一文档相对应的位置提供给用户。使用与文档一起存储的补充信息,地图或多级服务器可以将以该位置为中心的区域。
48、的地图图像提供给用户。例如,如果补充信息包括括入BRACKET该位置的街道地址,则可以使用线性插值来确定地图图像的中心。图5A是示出了提供给用户的地图图像500的实施例的框图。将与位置相对应的位置标记5121置于边界框510的中心。调整边界框510的大小,以使得可以提供围绕该位置的区域514。可以基于地理特征或位置的大小来确定边界框510的大小。不同大小的特征诸如城市或国家可以具有不同大小的边界框。0069在一些情况中,在区域中多于一个的不同位置即在空间上彼此分离可以具有相同或几乎相同的分值。例如,多于一个的位置可以与对应于位置搜索查询的典范式和/或布尔表达式中的所有关键词相匹配。在这样的情况。
49、中,可以将这些结果提供给用户。这在图5B中示出,所述图5B是示出了地图图像550的实施例的框图。将边界框510定义为包括满足预定义的选择标准的所有位置。与不同位置相对应的位置标记512被包括在边界框510中。在一些实施例中,标记是链接。通过在标记中的一个上点击,用户可以选择相应的位置。可以将该位置与诸如地图图像500图5A的地图图像一起展现给用户。在一些其它的实施例中,挨着地图550列出了最佳匹配位置的列表520。在列表中的每一项可以包括指向与该位置相对应的地图的链接。可以由来自相应的地理特征文档的典范名称在图4中的示例中通过CNA标记识别和环境文本在图4中的示例中通过CA标记识别表示在列表520中的每一项。0070如果最佳分值不大于次最佳分值的预定倍数,则可以提供与前N个排名中的范围相对应的位置。例如,可以提供具有大于或等于最佳分值的50的分值的位置来自前N个结果之中。可以将各种信息与位置一起提供。在图6中示出了用于显示响应于位置搜索查询而返回的多个搜索结果的示范性图形用户界面。在一个区域610或列中,列出了最说明书CN102354312ACN102354321A10/14页13佳匹配地理特征或位置,并且在图形用户界面的另一个区域中示出了单个小地图620,每一个用于在区域610中列出的最佳匹配地理特征或位置中的每一个。在该示例中,位置搜索查询是“SANANTONIO圣安东。