《一种基于路网反空间关键字查询的最佳选址方法.pdf》由会员分享,可在线阅读,更多相关《一种基于路网反空间关键字查询的最佳选址方法.pdf(8页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 104346444 A(43)申请公布日 2015.02.11CN104346444A(21)申请号 201410568900.6(22)申请日 2014.10.23G06F 17/30(2006.01)(71)申请人浙江大学地址 310027 浙江省杭州市西湖区浙大路38号(72)发明人高云君 秦旭 赵靖文(74)专利代理机构杭州天正专利事务所有限公司 33201代理人王兵 黄美娟(54) 发明名称一种基于路网反空间关键字查询的最佳选址方法(57) 摘要一种基于路网反空间关键字查询的最佳选址方法,对于数据集采用基于连接聚簇的索引结构存储,并利用类迪杰斯特拉搜索方法来。
2、遍历索引;在遍历索引时本发明首先计算得到查询商家的潜在竞争商家的候选结果;接着利用提出的相关规则进行验证,判断其是否为真正的竞争商家。本发明结合了空间数据库的现有技术和反空间关键字算法,并且整个查询过程不需要遍历整个数据集,从而提供了最佳性能。(51)Int.Cl.权利要求书2页 说明书4页 附图1页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书4页 附图1页(10)申请公布号 CN 104346444 ACN 104346444 A1/2页21.一种基于路网反空间关键字查询的最佳选址方法:其特征在于该方法的步骤如下:步骤(1):收集已有商家信息,对其建立索引,。
3、收集查询商家备选地址信息和文本信息;步骤(2):对于每一个查询商家备选地址,通过类迪杰斯特拉方法,并利用查询文本信息,找到与查询商家有潜在竞争关系的商家;步骤(3):利用判断规则对步骤(2)中得到的每一个查询商家备选地址的潜在竞争商家进行验证;步骤(4):利用步骤(3)中的结果找到查询商家的最优备选地址。2.根据权利要求1所述的一种基于路网反空间关键字查询的最佳选址方法,其特征在于:所述的步骤(1)中每一个商家的信息包括地址信息和文本信息,其中地址信息是通过一个地理坐标表示,文本信息是由一组或多组关键字构成;所有商家信息是通过基于连接聚簇的索引模型对其建立索引,索引文件包含了所有的商家地理位置。
4、信息以及文本信息,其中地理信息存储于连接表文件,文本信息存放于数据点文件;查询商家的所有信息都存储于文本文件。3.根据权利要求1所述的一种基于路网反空间关键字查询的最佳选址方法,其特征在于:所述的步骤(2)中对于每一个查询商家备选地址,通过类迪杰斯特拉方法,并利用查询文本信息,找到与查询商家有潜在竞争关系的商家,是通过判断关键字包含性以及路网距离实现的,计算得到的数据点集合也就是对查询商家可能构成竞争关系的商家;在计算的过程中,需要维护一个存放路网节点以及该节点到查询商家地址距离的优先队列,在该优先队列的队首总是当前距离查询点最近的路网节点;通过迪杰斯特拉方法扩展路网来获取数据点的过程中,还需。
5、要维护对应于当前路网节点的计数树用于保存关键字计数信息;计数树由2n-1个节点构成,每个节点包含三个计数值分别为c1,c2以及c3,其中c1表示查询节点到当前节点中关键字等于当前关键字的数据点个数,c2表示查询节点到当前节点中关键字包含当前关键字的数据点个数,c3表示查询节点到当前节点中邻接边上关键字包含当前关键字的数据点个数;若所有边界节点计数树的c1或c2数值都达到了给定的k值,则路网扩展结束,因为扩展的路网区域内不可能存在潜在的竞争商家;其中,在判断数据点是否是潜在竞争商家的过程中,分三种情况考虑:2.1)该数据点的关键字集合被查询商家的关键字集合全部包含,这种状况下根据其当前路网节点的。
6、计数树中对应关键字的数值分为两种情况分别做出不同处理:a)该数据点关键字集合所对应的当前路网节点的计数树的计数值小于给定的k值,则将当前数据点添加至候选集合并更新当前节点的计数树对应数值;b)该数据点关键字集合所对应的当前路网节点的计数树的计数值大于或等于给定的k值,更新当前节点的计数树对应数值;2.2)该数据点的关键字集合被查询商家的关键字集合部分包含,这种状况下需要更新当前节点的计数树对应数值,不将数据点加入候选集合中;2.3)该数据点的关键字集合完全不被查询商家的关键字集合包含,这种状况下不需要对数据点以及计数树做任何处理。4.根据权利要求1所述的一种基于路网反空间关键字查询的最佳选址方。
7、法,其特征在于:所述的步骤(3)中利用判断规则对步骤(2)中得到的每一个查询商家备选地址的潜在权 利 要 求 书CN 104346444 A2/2页3竞争商家进行验证,是通过验证潜在竞争商家的k个包含其关键字集合的最近商家是否包含查询商家来实现的;对于每一个待验证的潜在竞争商家,首先要在索引中定位该商家的地理位置以及关键字集合,再根据潜在竞争商家到查询商家的距离范围内,关键字集合包含潜在竞争商家的关键字集合的所有商家数量来判断;在判断时,需考虑两种情况:3.1)在潜在竞争商家到查询商家的距离范围内,如果存在多于或等于k个商家,其关键字集合包含潜在竞争商家的关键字集合,那么该潜在竞争商家不是查询。
8、商家的真正竞争商家;3.2)在潜在竞争商家到查询商家的距离范围内,存在小于k个商家,其关键字集合包含潜在竞争商家的关键字集合,那么该潜在竞争商家是查询商家的真正竞争商家。5.根据权利要求1所述的一种基于路网反空间关键字查询的最佳选址方法,其特征在于:所述的步骤(4)中利用步骤(3)中的结果找到查询商家的最优备选地址,是根据每一个备选地址所具有的真正竞争商家数量来实现的,所具有的真正竞争商家数量最少的备选地址即是查询商家的最优备选地址。权 利 要 求 书CN 104346444 A1/4页4一种基于路网反空间关键字查询的最佳选址方法技术领域0001 本发明涉及数据库的索引与查询技术,特别是一种基。
9、于路网反空间关键字查询的最佳选址方法。背景技术0002 空间数据库是作为一种应用技术而诞生和发展起来的,其目的是为了存储、管理和检索各种地理空间数据(包括空间数据和非空间数据)。目前,空间数据库被广泛地应用于地理信息系统、计算机辅助设计、多媒体信息系统以及数据仓库,为以上系统提供数据存储和查询解决方案。路网空间数据库作为空间数据库的重要组成部分,由于其广泛的应用得到了越来越多的关注。0003 为了快速、有效的访问路网空间数据,专家学者们提出了大量的空间索引方式。迄今为止,影响最大、应用最广泛的基于路网空间的索引是基于连接聚簇的索引方法。它利用了现有的路网的邻接信息,其构建思想是对任意路网节点的。
10、邻接节点以及路网上得数据点分别聚类存储,再用B树进行索引,从而达到最小化存取代价的目的。0004 在此基础上,专家学者们提出了各种各具特色的基于路网的查询及解决方法,如最近邻查询、连续最近邻查询、反向最近邻查询。其中基于路网的反最近邻查询是最近提出的一种新颖的查询。它主要从商家的角度进行查询,向商家返回基于路网距离影响用户最多的地址,从而向帮助商家进行选址推荐。0005 目前,针对路网反最近邻查询已有成熟的解决方案。但是在某些情况下,路网反最近邻查询不仅仅需要考虑空间信息,文本描述信息作为数据点的重要组成部分,在已有的方法中却没有得到有效利用。为了更好的帮助商家做出最佳选址决策,这就要求系统能。
11、够处理路网环境下带有文本信息的反最近邻查询结果。但是现有的方法都不能有效的解决。发明内容0006 本发明要克服现有技术不能有效利用文本描述信息的缺点,提供一种基于路网反空间关键字查询的最佳选址方法。0007 本发明解决其技术问题所采用的技术方案步骤如下:0008 步骤(1):收集已有商家信息,对其建立索引,收集查询商家备选地址信息和文本信息;0009 步骤(2):对于每一个查询商家备选地址,通过类迪杰斯特拉方法,并利用查询文本信息,找到与查询商家有潜在竞争关系的商家;0010 步骤(3):利用判断规则对步骤(2)中得到的每一个查询商家备选地址的潜在竞争商家进行验证;0011 步骤(4):利用步。
12、骤(3)中的结果找到查询商家的最优备选地址。0012 所述的步骤(1)中每一个商家的信息包括地址信息和文本信息,其中地址信息是通过一个地理坐标表示的,文本信息是由一组或多组关键字表示的;所有商家信息是通过说 明 书CN 104346444 A2/4页5基于连接聚簇的索引模型对其建立索引的,索引文件包含了所有的商家地理位置信息以及文本信息,其中地理信息存储于连接表文件中,文本信息存放于数据点文件中;查询商家的所有信息都存储于文本文件中。0013 所述的步骤(2)中对于每一个查询商家备选地址,通过类迪杰斯特拉方法,并利用查询文本信息,找到与查询商家有潜在竞争关系的商家,是通过判断关键字包含性以及路。
13、网距离实现的,计算得到的数据点集合也就是对查询商家可能构成竞争关系的商家;在计算的过程中,需要维护一个存放路网节点以及该节点到查询商家地址距离的优先队列,在该优先队列的队首总是当前距离查询点最近的路网节点;通过迪杰斯特拉方法扩展路网的获取数据点的过程中,还需要维护对应于当前路网节点的计数树用于保存关键字计数信息;计数树由2n-1个节点构成,每个节点包含三个计数值分别为c1,c2以及c3,其中c1表示查询节点到当前节点中关键字等于当前关键字的数据点个数,c2表示查询节点到当前节点中关键字包含当前关键字的数据点个数,c3表示查询节点到当前节点中邻接边上关键字包含当前关键字的数据点个数;若所有边界节。
14、点计数树的c1或c2数值都达到了给定的k值,则路网扩展结束,因为扩展的路网区域内不可能存在潜在的竞争商家;其中,在判断数据点是否是潜在竞争商家的过程中,分三种情况考虑:0014 2.1)该数据点的关键字集合被查询商家的关键字集合全部包含,这种状况下根据其当前路网节点的计数树中对应关键字的数值分为两种情况分别做出不同处理:0015 a)该数据点关键字集合所对应的当前路网节点的计数树的计数值小于给定的k值,则将当前数据点添加至候选集合并更新当前节点的计数树对应数值;0016 b)该数据点关键字集合所对应的当前路网节点的计数树的计数值大于或等于给定的k值,更新当前节点的计数树对应数值;0017 2.。
15、2)该数据点的关键字集合被查询商家的关键字集合部分包含,这种状况下需要更新当前节点的计数树对应数值,不将数据点加入候选集合中;0018 2.3)该数据点的关键字集合完全不被查询商家的关键字集合包含,这种状况下不需要对数据点以及计数树做任何处理。0019 所述的步骤(3)中利用判断规则对步骤(2)中得到的每一个查询商家备选地址的潜在竞争商家进行验证,是通过验证潜在竞争商家的k个包含其关键字集合的最近商家是否包含查询商家来实现的;对于每一个待验证的潜在竞争商家,首先要在索引中定位该商家的地理位置以及关键字集合,再根据潜在竞争商家到查询商家的距离范围内,关键字集合包含潜在竞争商家的关键字集合的所有商。
16、家数量来判断;在判断时,需考虑两种情况:0020 3.1)在潜在竞争商家到查询商家的距离范围内,如果存在多于或等于k个商家,其关键字集合包含潜在竞争商家的关键字集合,那么该潜在竞争商家不是查询商家的真正竞争商家;0021 3.2)在潜在竞争商家到查询商家的距离范围内,存在小于k个商家,其关键字集合包含潜在竞争商家的关键字集合,那么该潜在竞争商家是查询商家的真正竞争商家。0022 所述的步骤(4)中利用步骤(3)中的结果找到查询商家的最优备选地址,是根据每一个备选地址所具有的真正竞争商家数量来实现的,所具有的真正竞争商家数量最少的备选地址即是查询商家的最优备选地址。0023 本发明具有的有益效果。
17、是:说 明 书CN 104346444 A3/4页60024 本发明充分利用了空间数据库中现有索引技术,反最近邻查询以及带有关键字查询技术,通过只遍历部分路网范围的商家信息便能得到查询结果,大大降低了I/O时间和CPU时间,提供了最佳性能。附图说明0025 图1是本发明的实施步骤流程图。0026 图2为基于路网反空间关键字查询的最佳选址方法的工作原理示意图。0027 图3为查询示意图。具体实施方式0028 现结合附图和具体实施对本发明的技术方案作进一步说明:0029 如图1,图2所示,本发明具体实施过程和工作原理如下:0030 步骤(1):收集已有商家信息,对其建立索引,收集查询商家备选地址信。
18、息和文本信息;0031 步骤(2):对于每一个查询商家备选地址,通过类迪杰斯特拉方法,并利用查询文本信息,找到与查询商家有潜在竞争关系的商家;0032 步骤(3):利用判断规则对步骤(2)中得到的每一个查询商家备选地址的潜在竞争商家进行验证;0033 步骤(4):利用步骤(3)中的结果找到查询商家的最优备选地址。0034 步骤(1)中每一个商家的信息包括地址信息和文本信息,其中地址信息是通过一个地理坐标表示的,文本信息是由一组或多组关键字表示的;所有商家信息是通过基于连接聚簇的索引模型对其建立索引的,索引文件包含了所有的商家地理位置信息以及文本信息,其中地理信息存储于连接表文件中,文本信息存放。
19、于数据点文件中;查询商家的所有信息都存储于文本文件中。具体如图2中的索引模块所示。0035 步骤(2)中对于每一个查询商家备选地址,通过类迪杰斯特拉方法,并利用查询文本信息,找到与查询商家有潜在竞争关系的商家,是通过判断关键字包含性以及路网距离实现的,计算得到的数据点集合也就是对查询商家可能构成竞争关系的商家;在计算的过程中,需要维护一个存放路网节点以及该节点到查询商家地址距离的优先队列,在该优先队列的队首总是当前距离查询点最近的路网节点;通过迪杰斯特拉方法扩展路网的获取数据点的过程中,还需要维护对应于当前路网节点的计数树用于保存关键字计数信息;计数树由2n-1个节点构成,每个节点包含三个计数。
20、值分别为c1,c2以及c3,其中c1表示查询节点到当前节点中关键字等于当前关键字的数据点个数,c2表示查询节点到当前节点中关键字包含当前关键字的数据点个数,c3表示查询节点到当前节点中邻接边上关键字包含当前关键字的数据点个数;若所有边界节点计数树的c1或c2数值都达到了给定的k值,则路网扩展结束,因为扩展的路网区域内不可能存在潜在的竞争商家。该步骤具体是由图2中的潜在竞争商家计算引擎求得。其中,在判断数据点是否是潜在竞争商家的过程中,分三种情况考虑:0036 2.1)该数据点的关键字集合被查询商家的关键字集合全部包含,这种状况下根据其当前路网节点的计数树中对应关键字的数值分为两种情况分别做出不。
21、同处理:说 明 书CN 104346444 A4/4页70037 a)该数据点关键字集合所对应的当前路网节点的计数树的计数值小于给定的k值,则将当前数据点添加至候选集合并更新当前节点的计数树对应数值;0038 b)该数据点关键字集合所对应的当前路网节点的计数树的计数值大于或等于给定的k值,更新当前节点的计数树对应数值;0039 2.2)该数据点的关键字集合被查询商家的关键字集合部分包含,这种状况下需要更新当前节点的计数树对应数值,不将数据点加入候选集合中;0040 2.3)该数据点的关键字集合完全不被查询商家的关键字集合包含,这种状况下不需要对数据点以及计数树做任何处理。0041 以图3中查询。
22、点q为例,我们可以看到,p4,p6,p7以及p8为舍弃掉的点,故不需要对这些点进行进一步验证。0042 步骤(3)中利用判断规则对步骤(2)中得到的每一个查询商家备选地址的潜在竞争商家进行验证,是通过验证潜在竞争商家的k个包含其关键字集合的最近商家是否包含查询商家来实现的;对于每一个待验证的潜在竞争商家,首先要在索引中定位该商家的地理位置以及关键字集合,再根据潜在竞争商家到查询商家的距离范围内,关键字集合包含潜在竞争商家的关键字集合的所有商家数量来判断。具体由图2中潜在竞争商家过滤引擎计算求得,在判断时,需考虑两种情况:0043 3.1)在潜在竞争商家到查询商家的距离范围内,如果存在多于或等于。
23、k个商家,其关键字集合包含潜在竞争商家的关键字集合,那么该潜在竞争商家不是查询商家的真正竞争商家;0044 3.2)在潜在竞争商家到查询商家的距离范围内,存在小于k个商家,其关键字集合包含潜在竞争商家的关键字集合,那么该潜在竞争商家是查询商家的真正竞争商家。0045 步骤(4)中利用步骤(3)中的结果找到查询商家的最优备选地址,是根据每一个备选地址所具有的真正竞争商家数量来实现的,所具有的真正竞争商家数量最少的备选地址即是查询商家的最优备选地址,具体由图2中真正竞争商家计算引擎计算求得。0046 本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。说 明 书CN 104346444 A1/1页8图1图2图3说 明 书 附 图CN 104346444 A。