《POI数据处理方法及其装置、POI检索方法及其装置.pdf》由会员分享,可在线阅读,更多相关《POI数据处理方法及其装置、POI检索方法及其装置.pdf(26页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN103514199A43申请公布日20140115CN103514199A21申请号201210214208422申请日20120625G06F17/3020060171申请人高德软件有限公司地址102200北京市昌平区科技园区昌盛路8号B1座15层72发明人董克钦54发明名称POI数据处理方法及其装置、POI检索方法及其装置57摘要本发明公开了一种POI数据处理方法及其装置、POI查询方法及其装置,以为从不同来源网站的POI数据提供更合理、高效的数据处理方式。数据处理方法包括从来源网站获取源POI数据;按照预设的标准POI属性字段,对所述源POI数据的属性字段进行标准化处理。
2、,得到待关联的标准POI数据,并将所述待关联的标准POI数据存储至数据库中;从所述数据库存储的标准POI数据中,确定与所述待关联的标准POI数据描述同一POI的标准POI数据;将所述待关联的标准POI数据和确定的与所述待关联POI数据描述同一POI的标准POI数据的数据库ID的对应关系存储至所述数据库中。51INTCL权利要求书5页说明书11页附图9页19中华人民共和国国家知识产权局12发明专利申请权利要求书5页说明书11页附图9页10申请公布号CN103514199ACN103514199A1/5页21一种兴趣点POI数据处理方法,其特征在于,包括从来源网站获取源POI数据;按照预设的标准P。
3、OI属性字段,对所述源POI数据的属性字段进行标准化处理,得到待关联的标准POI数据,并将所述待关联的标准POI数据存储至数据库中;从所述数据库存储的标准POI数据中,确定与所述待关联的标准POI数据描述同一POI的标准POI数据;将所述待关联的标准POI数据和确定的与所述待关联POI数据描述同一POI的标准POI数据的数据库ID的对应关系存储至所述数据库中。2根据权利要求1所述的方法,其特征在于,所述预设的标准化POI属性字段,至少包括以下字段信息POI数据标识字段、ATTR字段、META字段和POI数据修改时间字段,其中ATTR字段至少包括POI名称字段、POI经度字段和POI纬度字段,M。
4、ETA字段包括POI数据来源网站域名字段和地图版本字段。3根据权利要求2所述的方法,其特征在于,所述ATTR字段还包括以下字段信息POI地址字段,和/或POI电话字段,和或POI所在城市的城市名字段,和/或POI类型字段。4根据权利要求2所述的方法,其特征在于,存储的标准POI数据中,确定与所述待关联的标准POI数据描述同一POI的标准POI数据,具体包括从数据库中,确定出预选标准POI数据,所述预选标准POI数据描述的POI与所述待关联的标准POI数据描述的POI之间的球面距离低于设定距离阈值;确定预选标准POI数据描述的POI与所述待关联的标准POI数据的描述的POI的相似度,若相似度大于。
5、或等于设定相似度阈值,则确定所述预选标准POI数据为与所述待关联的标准POI数据描述同一POI的标准POI数据。5根据权利要求4所述的方法,其特征在于,确定预选标准POI数据描述的POI与所述待关联标准POI数据描述的POI的相似度,具体包括计算所述预选标准POI数据中的POI名称与所述待关联标准POI数据中的POI名称的名称相似度;计算所述预选标准POI数据中的POI坐标与所述待关联的标准POI数据中的POI坐标的坐标相似度;对所述名称相似度与所述坐标相似度进行加权归一化处理,得到预选标准POI数据描述的POI与所述待关联的标准POI数据描述的POI的相似度。6根据权利要求5所述的方法,其特。
6、征在于,计算所述预选标准POI数据中的POI名称与所述待关联的标准POI数据中的POI名称的名称相似度,具体包括对所述预选标准POI数据中的POI名称进行分词处理,得到第一名称片段集合;对所述待关联的标准POI数据中的POI名称进行分词处理,得到第二名称片段集合;确定出所述第一名称片段集合与所述第二名称片段集合中的重叠的名称片段;将重叠名称片段的长度与预选标准POI数据中的POI名称的字符串长度的比值,确定为第一名称子相似度;将重叠名称片段的长度与所述待关联的标准POI数据中的POI名称的字符串长度的比值,确定为第二名称子相似度;将所述第一名称子相似度和第二名称子相似度代入下列公式,得到所述名。
7、称相似度权利要求书CN103514199A2/5页3式中,PROB_NAMEPOI1,POI2表示名称相似度,SIMILARITY_POI1表示第一名称子相似度,SIMILARITY_POI2表示第二名称子相似度。7根据权利要求5所述的方法,其特征在于,计算所述预选标准POI数据中的POI坐标与所述待关联的标准POI数据中的POI坐标的坐标相似度,具体包括根据所述预选标准POI数据中的POI坐标与所述待关联的标准POI数据中的POI坐标,计算出两个坐标点的球面距离;根据下式,确定出所述坐标相似度PROB_LAT_LONGPOI1,POI2EDISTX1,Y1,X2,Y2/5298式中,PROB。
8、_LAT_LONGPOI1,POI2表示坐标相似度,DISTX1,Y1,X2,Y2表示预选标准POI数据描述的PO1的坐标点(X1,Y1)与所述待关联的标准POI数据描述的POI2的坐标点(X2,Y2)的球面距离。8根据权利要求1所述的方法,其特征在于,描述同一POI的标准POI数据的ID对应关系存储在所述数据库的一个关联簇中,则将所述待关联的标准POI数据和确定的与所述待关联POI数据描述同一POI的标准POI数据的数据库ID的对应关系存储至所述数据库中,具体包括当所述数据库中关联簇包含所述确定出的标准POI数据的ID但是不包含所述待关联的标准POI数据的ID时,将所述待关联的标准POI数据。
9、的ID添加到所述关联簇中;当所述数据库中关联簇中不包含所述待关联的标准POI数据的ID和所述确定出的标准POI数据的ID时,建立新关联簇,并为该新关联簇分配唯一簇ID,将所述待关联的标准POI数据的ID与所述确定出的标准POI数据的ID存储到所述新关联簇中。9根据权利要求8所述的方法,其特征在于,还包括建立所述待关联的标准POI数据的ID与其所在关联簇的簇ID的对应关系,并将该对应关系作为一条记录存储到预设的关联簇表中。10一种兴趣点POI检索方法,其特征在于,包括接收用户输入的POI检索请求,所述POI检索请求中包含POI检索关键词;从数据库中检索与所述POI检索关键词相关的标准POI数据,。
10、所述标准POI数据是按照预设的标准POI属性字段,对来源网站获取的源POI数据的属性字段进行标准化处理得到的;根据数据库中存储的相关对应关系,从所述数据库中获取与所述检索到的标准POI数据描述同一POI的其他标准POI数据,并将获取到的标准POI数据与所述检索到的标准POI数据中的部分或全部展示给所述用户。11根据权利要求10所述的方法,其特征在于,所述相关对应关系为描述同一POI的所有标准POI数据的数据库ID的对应关系;或者,所述相关对应关系为标准POI数据的数据库ID与该标准POI数据所在关联簇的簇ID的对应关系,所述关联簇中包含所述标准POI数据的数据库ID、所有与所述标准POI数据描。
11、述同一POI的其他标准POI数据的数据库ID。12根据权利要求10或11所述的方法,其特征在于,所述POI检索请求中还包含检索权利要求书CN103514199A3/5页4结果展示指令;将获取到的标准POI数据与所述检索到的标准POI数据中的部分或全部展示给所述用户,具体包括当根据所述检索结果展示指令确定展示获取到的部分标准POI数据时,从获取到的标准POI数据与检索到的标准POI中选取部分标准POI数据展示给用户;当根据所述检索结果展示指令确定展示获取到的所有标准POI数据时,将获取到的所有标准POI数据与检索到的标准POI数据展示给用户。13一种兴趣点POI数据处理装置,其特征在于,包括PO。
12、I数据获取单元,用于从来源网站获取源POI数据;数据处理单元,用于按照预设的标准POI属性字段,对所述源POI数据的属性字段进行标准化处理,得到待关联的标准POI数据,并将所述待关联的标准POI数据存储至数据库中;确定单元,用于从所述数据库存储的标准POI数据中,确定与所述待关联的标准POI数据描述同一POI的标准POI数据;关联建立单元,用于将所述待关联的标准POI数据和确定的与所述待关联POI数据描述同一POI的标准POI数据的数据库ID的对应关系存储至所述数据库中。14根据权利要求13所述的装置,其特征在于,所述确定单元,具体用于从数据库中,确定出预选标准POI数据,所述预选标准POI数。
13、据描述的POI与所述待关联的标准POI数据描述的POI之间的球面距离低于设定距离阈值;确定预选标准POI数据描述的POI与所述待关联的标准POI数据的描述的POI的相似度,若相似度大于或等于设定相似度阈值,则确定所述预选标准POI数据为与所述待关联的标准POI数据描述同一POI的标准POI数据。15根据权利要求14所述的装置,其特征在于,所述确定单元确定预选标准POI数据描述的POI与所述待关联标准POI数据描述的POI的相似度,具体用于计算所述预选标准POI数据中的POI名称与所述待关联标准POI数据中的POI名称的名称相似度;计算所述预选标准POI数据中的POI坐标与所述待关联的标准POI。
14、数据中的POI坐标的坐标相似度;对所述名称相似度与所述坐标相似度进行加权归一化处理,得到预选标准POI数据描述的POI与所述待关联的标准POI数据描述的POI的相似度。16根据权利要求15所述的装置,其特征在于,所述确定单元,计算所述预选标准POI数据中的POI名称与所述待关联的标准POI数据中的POI名称的名称相似度,具体用于对所述预选标准POI数据中的POI名称进行分词处理,得到第一名称片段集合;对所述待关联的标准POI数据中的POI名称进行分词处理,得到第二名称片段集合;确定出所述第一名称片段集合与所述第二名称片段集合中的重叠的名称片段;将重叠名称片段的长度与预选标准POI数据中的POI。
15、名称的字符串长度的比值,确定为第一名称子相似度;将重叠名称片段的长度与所述待关联的标准POI数据中的POI名称的字符串长度的比值,确定为第二名称子相似度;权利要求书CN103514199A4/5页5将所述第一名称子相似度和第二名称子相似度代入下列公式,得到所述名称相似度式中,PROB_NAMEPOI1,POI2表示名称相似度,SIMILARITY_POI1表示第一名称子相似度,SIMILARITY_POI2表示第二名称子相似度。17根据权利要求16所述的装置,其特征在于,所述确定单元计算所述预选标准POI数据中的POI坐标与所述待关联的标准POI数据中的POI坐标的坐标相似度,具体用于根据所述。
16、预选标准POI数据中的POI坐标与所述待关联的标准POI数据中的POI坐标,计算出两个坐标点的球面距离;根据下式,确定出所述坐标相似度PROB_LAT_LONGPOI1,POI2EDISTX1,Y1,X2,Y2/5298式中,PROB_LAT_LONGPOI1,POI2表示坐标相似度,DISTX1,Y1,X2,Y2表示预选标准POI数据描述的POI1的坐标点(X1,Y1)与所述待关联的标准POI数据描述的POI2的坐标点(X2,Y2)的球面距离。18根据权利要求14所述的装置,其特征在于,描述同一POI的标准POI数据的ID对应关系存储在所述数据库的一个关联簇中;所述关联建立单元,具体用于当所。
17、述数据库中关联簇包含所述确定出的标准POI数据的ID但是不包含所述待关联的标准POI数据的ID时,将所述待关联的标准POI数据的ID添加到所述关联簇中;以及,当所述数据库中关联簇中不包含所述待关联的标准POI数据的ID和所述确定出的标准POI数据的ID时,建立新关联簇,并为该新关联簇分配唯一簇ID,将所述待关联的标准POI数据的ID与所述确定出的标准POI数据的ID存储到所述新关联簇中。19根据权利要求18所述的装置,其特征在于,还包括记录单元,用于建立所述待关联的标准POI数据的ID与其所在关联簇的簇ID的对应关系,并将该对应关系作为一条记录存储到预设的关联簇表中。20一种兴趣点POI检索装。
18、置,其特征在于,包括接收单元,用于接收用户输入的POI检索请求,所述POI检索请求中包含POI检索关键词;检索单元,用于从数据库中检索与所述POI检索关键词相关的标准POI数据,所述标准POI数据是按照预设的标准POI属性字段,对来源网站获取的源POI数据的属性字段进行标准化处理得到;检索结果展示单元,用于根据数据库中存储的相关对应关系,从所述数据库中获取与所述检索到的标准POI数据描述同一POI的其他标准POI数据,并将获取到的标准POI数据与所述检索到的标准POI数据中的部分或全部展示给所述用户。21根据权利要求20所述的装置,其特征在于,所述相关对应关系为描述同一POI的所有标准POI数。
19、据的数据库ID的对应关系;或者,所述相关对应关系为标准POI数据的数据库ID与该标准POI数据所在关联簇的簇ID的对应关系,所述关联簇中包含所述标准POI数据的数据库ID、所有与所述标准POI数据描述同一POI的其他标准POI数据的数据库ID。权利要求书CN103514199A5/5页622根据权利要求20或21所述的装置,其特征在于,所述POI检索请求中还包含检索结果展示指令;所述检索结果展示单元,具体用于当根据所述检索结果展示指令确定展示获取到的部分标准POI数据时,从获取到的标准POI数据与检索到的标准POI中选取部分标准POI数据展示给用户;当根据所述检索结果展示指令确定展示获取到的所。
20、有标准POI数据时,将获取到的所有标准POI数据与检索到的标准POI数据展示给用户。权利要求书CN103514199A1/11页7POI数据处理方法及其装置、POI检索方法及其装置技术领域0001本发明涉及电子地图技术领域,尤其涉及一种POI(POINTOFINTEREST,兴趣点)数据处理方法及其装置、POI检索方法及其装置。背景技术0002目前,越来越多的用户在电子地图中查询POI,数据库中存储的POI数据为POI查询提供数据支撑。目前,对数据库中的POI数据进行更新主要通过两种方式实现一种方式是进行数据实采,根据实采得到的数据对数据库中存储的POI数据进行更新,但是数据实采耗费的时间较长。
21、、效率较低;另一种方式是从互联网上的各个生活类信息网站(后续称为来源网站)上获取POI数据,只要获取的数据包括POI的名称和地址,即可将该条数据确定为一条POI数据,该种方式虽然效率较高,但是从不同来源网站获取的POI数据中,有可能存在重复性数据,即多条POI数据实际描述的是同一POI,如针对望京方恒的肯德基店,在网站A上的POI数据为“肯德基望京方恒店”,在网站B上的POI数据为“望京方恒大厦肯德基”,在网站C上的POI数据为“望京华堂商场对面肯德基电话12345678”,这三个网站的三条POI数据实际描述的是同一家肯德基店,但是描述方式、属性不同。目前,对从各来源网站上获取的重复性POI数。
22、据进行处理的方式主要包括以下两种0003方式1、识别出从不同来源网站上获取的多条重复性POI数据(即该多条POI数据实际是对同一POI进行描述),从该多条重复性POI数据中保留一条质量相对较好的POI数据(如属性信息较全、地理位置描述较准确的POI数据),将其余的POI数据删除。方式1,对重复性POI数据进行处理较为简单,且效率较高,但是保留的POI数据并不一定包含POI的所有属性描述,其他的POI数据描述的部分属性在该保留的POI数据中并没有包含,因此,单纯的保留一条相对较好的POI数据,会造成POI的其他有用的属性信息丢失。0004方式2、将从多个来源网站获取的多条重复性POI数据进行融合。
23、处理,融合成一条POI数据。方式2相对于方式1而言,虽然保留了多条POI数据的属性信息,但是由于不同来源网站的POI数据对字段属性进行描述的方式可能不一致,即使多条POI数据都包含同一字段属性,但是由于每条POI数据对该字段属性的描述方式不一致,因此,将多条不同来源网站的重复性POI数据融合成一条POI数据难度较大、耗时太长、效率较低,尤其是随着POI数据量的快速增长,其缺点显得尤为明显。发明内容0005本发明实施例提供一种POI数据处理方法及其装置、POI检索方法及其装置,针对从不同来源网站的POI数据提供更合理、高效的数据处理方式,既保全了POI的属性信息,又建立了描述同一POI的多条PO。
24、I数据的关联性,为后续展示POI数据提供更灵活的方式。0006一种兴趣点POI数据处理方法,包括0007从来源网站获取源POI数据;0008按照预设的标准POI属性字段,对所述源POI数据的属性字段进行标准化处理,得说明书CN103514199A2/11页8到待关联的标准POI数据,并将所述待关联的标准POI数据存储至数据库中;0009从所述数据库存储的标准POI数据中,确定与所述待关联的标准POI数据描述同一POI的标准POI数据;0010将所述待关联的标准POI数据和确定的与所述待关联POI数据描述同一POI的标准POI数据的数据库ID的对应关系存储至所述数据库中。0011本发明实施例,基。
25、于前述兴趣点POI数据处理方法,还提供一种兴趣点POI数据处理装置,该装置包括0012POI数据获取单元,用于从来源网站获取源POI数据;0013数据处理单元,用于按照预设的标准POI属性字段,对所述源POI数据的属性字段进行标准化处理,得到待关联的标准POI数据,并将所述待关联的标准POI数据存储至数据库中;0014确定单元,用于从所述数据库存储的标准POI数据中,确定与所述待关联的标准POI数据描述同一POI的标准POI数据;0015关联建立单元,用于将所述待关联的标准POI数据和确定的与所述待关联POI数据描述同一POI的标准POI数据的数据库ID的对应关系存储至所述数据库中。0016本。
26、发明实施例提供的POI数据处理方法,首先,在从来源网站获取到源POI数据时,按照预设的标准POI属性字段,对所述源POI数据的属性字段进行标准化处理,得到待关联的标准POI数据;其次,从所述数据库存储的标准POI数据中,确定与所述待关联的标准POI数据描述同一POI的标准POI数据;最后,将所述待关联的标准POI数据和确定的与所述待关联POI数据描述同一POI的标准POI数据的数据库ID的对应关系存储至所述数据库中。采用本发明技术方案,针对描述同一POI的重复性POI数据分别进行了保留,从而保全该POI的所有属性信息,另外,还对重复性POI数据建立关联性,因此当后续用户检索POI时,可以根据用。
27、户的需求,只展示该POI对应的多条POI数据中的一条,也可以展示多条相互关联的POI数据,提高展示POI数据的灵活性。0017一种兴趣点POI检索方法,包括0018接收用户输入的POI检索请求,所述POI检索请求中包含POI检索关键词;0019从数据库中检索与所述POI检索关键词相关的标准POI数据,所述标准POI数据是按照预设的标准POI属性字段,对来源网站获取的源POI数据的属性字段进行标准化处理得到的;0020根据数据库中存储的相关对应关系,从所述数据库中获取与所述检索到的标准POI数据描述同一POI的其他标准POI数据,并将获取到的标准POI数据与所述检索到的标准POI数据中的部分或全。
28、部展示给所述用户。0021基于前述兴趣点POI检索方法,本发明实施例还提供一种兴趣点POI检索装置,该装置包括0022接收单元,用于接收用户输入的POI检索请求,所述POI检索请求中包含POI检索关键词;0023检索单元,用于从数据库中检索与所述POI检索关键词相关的标准POI数据,所述标准POI数据是按照预设的标准POI属性字段,对来源网站获取的源POI数据的属性字段进行标准化处理得到的;说明书CN103514199A3/11页90024检索结果展示单元,用于根据数据库中存储的相关对应关系,从所述数据库中获取与所述检索到的标准POI数据描述同一POI的其他标准POI数据,并将获取到的标准PO。
29、I数据与所述检索到的标准POI数据中的部分或全部展示给所述用户。本发明实施例提供的POI检索方法,在接收到用户输入的POI检索关键词时,一方面,直接从数据库中存储的标准POI数据中查找与POI检索关键词对应的多条关联的标准POI数据,由于数据库中存储的标准POI数据是直接对从来源网站上获取的原始数据进行处理得到的数据,因此包含POI的属性信息较为全面,检索成功率较高;再一方面,针对根据POI检索关键词检索到的标准POI数据,从数据库中获取与该标准POI数据相关联的关联POI数据,并根据用户的需求展示关联POI数据中的一条或多条,从而提高展示POI数据的灵活性。附图说明0025图1为本发明实施例。
30、中处理从不同来源网站获取的POI数据的方法流程图;0026图2为本发明实施例中建立标准POI数据之间关联关系的方法流程图;0027图3为本发明实施例中获取描述的POI与当前POI数据所描述的POI之间的球面距离低于距离阈值的POI的方法流程图;0028图4为本发明实施例中列举的具体实例来描述在数据库中建立POI数据之间的关联关系之一;0029图5为本发明实施例中建立的关联簇表;0030图6为本发明实施例中列举的具体实例来描述在数据库中建立POI数据之间的关联关系之二;0031图7为本发明实施例中,在图5所示的关联簇表中添加新记录后的关联簇表;0032图8为本发明实施例中对图7所示的关联簇表进行。
31、去重处理后所得到的关联簇表;0033图9为本发明实施例中检索POI的方法流程图;0034图10为本发明实施例中处理POI数据的装置的结构示意图之一;0035图11为本发明实施例中处理POI数据的装置的结构示意图之二;0036图12为本发明实施例中检索POI的装置的结构示意图。具体实施方式0037针对现有技术存在的技术问题,本发明实施例提供一种兴趣点POI数据处理方法和兴趣点POI检索方法,针对从不同来源网站的POI数据提供更合理、高效的数据处理方式,既保全了POI的属性信息,又将描述同一POI的多条POI数据关联起来,为后续展示POI数据提供更灵活的方式。0038下面结合说明书附图对本发明技术。
32、方案进行详细的描述。0039参见图1,为本发明实施例中处理从不同来源网站获取的POI数据的方法流程图,该方法包括0040步骤101、从来源网站获取源POI数据。0041步骤102、按照预设的标准POI属性字段,对所述源POI数据的属性字段进行标准化处理,得到待关联的标准POI数据,并将所述待关联的标准POI数据存储至数据库中。说明书CN103514199A4/11页100042步骤103、从所述数据库存储的标准POI数据中,确定与所述待关联的标准POI数据描述同一POI的标准POI数据。0043步骤104、将所述待关联的标准POI数据和确定的与所述待关联POI数据描述同一POI的标准POI数据。
33、的数据库ID的对应关系存储至所述数据库中。0044本发明实施例中,在数据库中针对不同的来源网站配置对应的数据文件,对从该来源网站得到源POI数据进行处理得到的标准POI数据,将该标准POI数据存储至该来源网站对应的数据文件中,因此,上述方法流程的步骤101中,将所述标准POI数据存储至数据库中,具体是指将该标准POI数据存储到数据库中与该标准POI数据的来源网站所对应的数据文件中。本发明实施例中,数据文件的结构为JSONLINE,数据文件中的每条标准POI数据的格式采用JSON,每个数据文件转换成每行一个JSON数据的JSONLINE的格式。0045由于多来源网站获取的POI数据类型、数据格式。
34、多样,包含的属性字段、数据组织格式等也不一致,所以需要为每一个来源网站的POI数据配置相应的数据适配器,通过配置的数据适配器对相应来源网站获取的源POI数据的数据格式进行解析,并按照预设的标准POI属性字段,对解析出的源POI数据的属性字段进行标准化处理,得到待关联的标准POI数据。本发明实施例中,统一数据格式可以至少包括以下四个属性字段信息POI数据标识字段、ATTR字段、META字段和POI数据修改时间字段,其中ATTR字段至少包括POI名称字段、POI经度字段和POI纬度字段,META字段包括POI数据来源网站域名字段和地图版本字段。优选地,为更进一步的对POI数据的属性进行完善,上述A。
35、TTR字段还包括以下一个或多个属性字段信息POI地址字段、POI电话字段、POI的城市名字段和POI类型字段。本发明实施例中,预设的标准POI数据可如下表1所示,但并不仅限于表1所示的一种,在此不一一列举0046说明书CN103514199A105/11页110047表1中,META字段里的MAPVERSION字段用来描述当前该条POI数据的ATTR字段中的所有KEY的属性描述。来源网站版本号(MAPVERSION)会实时或定时更新,当来源网站版本号更新时删除了该POI数据时,保留数据库该POI数据;当版本更新前从来源网站获取的POI数据的属性在版本更新后的来源网站上得到更新,则根据更新后的P。
36、OI数据的属性修改数据库中相应POI数据的属性信息;当版本更新后的来源网站相对版本更新前增加了新的POI数据时,对该新增POI数据进行标准化处理,并将标准化处理得到的标准POI数据添加到数据库中。MAPVERSION的格式可以为主版本号子版本号;当只增加了POI数据的新属性字段时,主版本号不变,增加相应的子版本号即可,该子版本号具有继承性。针对同一主版本号的多个版本号,保留版本号最高的MAPVERSION,不同的主版本号可共存。0048在确定标准POI数据之间的关联性时,本发明实施例可采用周边搜索策略(所谓的周边搜索是指,给定坐标点(X,Y)和POI检索关键词,即可检索在坐标点(X,Y)附近所。
37、有与POI检索关键词相关的POI),可针对每条标准POI数据,根据该标准POI数据描述的POI的POI名称建立检索关键词索引,根据POI坐标的属性建立空间索引;当需要确定出与当前标准POI数据(后续称为待关联标准POI数据)相关联的其他标准POI数据时,遍历数据库中的所有标准POI数据,确定出描述的POI与当前标准POI数据描述的POI的球面距离小于或等于设定的距离阈值的标准POI数据(该确定出的标准POI数据后续称为预选标准POI数据),再计算出预选标准POI数据与当前标准POI数据的相似度,根据相似度来确定当前标准POI数据与预选标准POI数据是否关联,如相似度大于或等于设定的相似度阈值时。
38、确定相关联。上述方法流程的步骤103中,从所述数据库存储的标准POI数据中,确定与所述待关联的标准POI数据描述同一POI的标准POI数据,具体实现可如下首先,从数据库中,确定出预选标准POI数据,所述预选标准POI数据描述的POI与所述待关联的标准POI数据描述的POI之间的球面距离低于设定距离阈值;其次,确定预选标准POI数据描述的POI与所述待关联的标准POI数据的描述的POI的相似度,若相似度大于或等于设定相似度阈值,则确定所述预选标准POI数据为与所述待关联的标准POI数据描述同一POI的标准POI数据。依此,确定出与所述待关联的标准POI数据相关联的所有其他标准POI数据。0049。
39、本发明实施例中,确定预选标准POI数据与待关联的标准POI数据之间的相似度,可根据下式(1)得到0050PROBPOI1,POI2A1PROB_LAT_LONGPOI1,POI2A2PROB_NAMEPOI1,POI2式(1);0051式(1)中,POI1表示预选标准POI数据,POI2表示待关联的标准POI数据,PROBPOI1,POI2表示预选标准POI数据与待关联标准POI数据之间的相似度,PROB_LAT_LONGPOI1,POI2表示预选标准POI数据与待关联标准POI数据的坐标相似度,PROB_NAMEPOI1,POI2表示预选标准POI数据与标准POI数据的名称相似度,A1为坐标。
40、相似度的权重值,A2为名称相似度的权重值,且A1A21。本发明实施例中,PROBPOI1,POI2的取值范围为0,1;A1为取经验值为03,A2取经验值为07,相似度阈值可取经验值为065。0052本发明实施例中,计算名称相似度,可以根据下式(2)得到0053式(2);0054式(2)中,PROB_NAMEPOI1,POI2表示名称相似度,SIMILARITY_POI1表示第一名说明书CN103514199A116/11页12称子相似度,SIMILARITY_POI2表示第二名称子相似度,其中第一名称子相似度与第二名称子相似度可通过以下方式得到对所述预选标准POI数据中的POI名称进行分词处理。
41、,得到第一名称片段集合;对所述待关联的标准POI数据中的POI名称进行分词处理,得到第二名称片段集合;确定出所述第一名称片段集合与所述第二名称片段集合中的重叠的名称片段;将重叠名称片段的长度与预选标准POI数据中的POI名称的字符串长度的比值,确定为第一名称子相似度;将重叠名称片段的长度与所述待关联的标准POI数据中的POI名称的字符串长度的比值,确定为第二名称子相似度。0055优选地,本发明实施例中的POI名称的字符串长度并不是通过简单的计算该字符串的字符数和值,而是对该POI名称进行分词之后得到多个词片段,并对该多个词片段长度分别进行修正之后求和值得到,具体可根据下式(3)得到0056式(。
42、3);0057其中,式(3)中,LEN表示POI名称的字符串长度,N表示对POI名称进行分词处理得到的词片段的总数量,STRLENPHRASEI表示第I个词片段的长度,MODIF_VALUEPHRASEI表示对地I个词片段的长度进行修正的修正值。0058本发明实施例中计算MODIF_VALUEPHRASEI,可根据下式(4)得到0059式(4);0060式(4)中,P1表示POI名称的频度,P2表示该POI名称分词得到的第I个词片段的频度。0061本发明实施例中,计算坐标相似度,可根据下式(5)得到0062PROB_LAT_LONGPOI1,POI2EDISTX1,Y1,X2,Y2/5298式。
43、(5);0063式(5)中,PROB_LAT_LONGPOI1,POI2表示坐标相似度,DISTX1,Y1,X2,Y2表示预选标准POI数据描述的POI1的坐标点(X1,Y1)与所述待关联的标准POI数据描述的POI2的坐标点(X2,Y2)的球面距离。0064本发明实施例中,当数据库中还没有针对待关联的标准POI数据建立关联关系时,若某一段时间从不同的来源网站获取到多条源POI数据,且对该多条源POI数据的属性字段进行标准化处理得到多条标准POI数据之后,可通过如图2所述的方法流程来建立各标准POI数据之间的关联关系,该方法中,针对不同来源网站建立对应的数据文件,该数据文件中存储有相应来源网站。
44、的标准POI数据,包括以下步骤0065步骤201、读取第I个数据文件,该数据文件中包含的标准POI数据均是对相应来源网站获取的源POI数据的属性字段进行标准化处理所所得到的POI数据。0066步骤202、将该第I个数据文件更新到数据库中。0067步骤203、读取该第I文件中第K条标准POI数据,后续称为POIK。0068步骤204、在其他数据文件中查找出与POIK的球面距离低于距离阈值的所有POI数据,并将查找出的所有POI数据插入到集合S中。0069步骤205、确定出POIK与集合S中的第M条POI数据(即POIM)的相似度。0070步骤206、判断步骤205确定出的相似度是否小于设定的相似。
45、度阈值,若是则执行步骤212,否则执行步骤207。说明书CN103514199A127/11页130071步骤207、确定该POIM与POIK相关联,并将该POIM插入到集合R中。0072步骤208、判断POIM是否为集合S中最后一条POI数据,即判断集合S中是否所有的POI数据都已经判断过,若是则执行209,否则对集合S中的下一条POI数据(即第M1条POI数据)重复上述步骤205。0073步骤209、建立POIK的ID与集合R中所有POI数据的ID的对应关系。0074步骤210、判断第I个文件中的所有POI数据是否已读取,若否则读取第I数据文件中的第(K1)条POI数据,重复执行步骤203。
46、,若是则执行步骤211。0075步骤211、判断是否所有的数据文件都已读取,若是则结束流程,否则对下一个数据文件(即第I1个数据文件)重复执行步骤201。0076上述方法流程中的步骤204,具体实现可参见图3所示的方法流程,该方法中,可预先设置距离阈值M(可取经验值为1000米)、集合S的数量为N(可取经验值为200条),包括0077步骤301、根据距离排序查找规则,依次返回描述的POI与POIK所描述的POI的球面距离最近的POI数据,该POI数据用POIN表示;0078步骤302、判断POIK与POIN的球面距离是否小于或等于距离阈值,若是则执行步骤303,若否则执行步骤304。0079步。
47、骤303、将POIN加入集合S中,判断集合S中的POI数据的条数是否达到N,若是则执行步骤304,否则继续返回描述的POI与POIK描述的POI的球面距离最近的下一条POI数据。0080步骤304、返回集合R,并结束流程。0081上述方法流程的步骤104中,将将所述待关联的标准POI数据和确定的与所述待关联POI数据描述同一POI的标准POI数据的数据库ID的对应关系存储至所述数据库中的某一关联簇中,该关联簇具有唯一标识该关联簇的簇ID,具体可通过以下方式实现当所述数据库中关联簇包含所述确定出的标准POI数据的ID但是不包含所述待关联的标准POI数据的ID时,将所述待关联的标准POI数据的ID。
48、添加到所述关联簇中;当所述数据库中关联簇中不包含所述待关联的标准POI数据的ID和所述确定出的标准POI数据的ID时,建立新关联簇,并为该新关联簇分配唯一簇ID,将所述待关联的标准POI数据的ID与所述确定出的标准POI数据的ID存储到所述新关联簇中。0082为更清楚、详细的上述步骤104进行描述,下面以一具体的实例来进行详细的描述。该实例中,假设数据库中包括以下四个关联簇,该四个关联簇的簇号分别用CD1、CD2、CD3和CD4表示,其中,关联簇CD1为A1,B1,C1,D1,关联簇CD2为A2,B2,C2,F1,关联簇CD3为E1,E2,C3,关联簇CD4为F2,G1,H1;若当前POIK的。
49、ID为M,该POIK对应的集合R中包含的关联POI数据的ID分别为M2、F1、和C2。采用以下图4所示的方法流程进行描述,该方法包括以下步骤0083步骤401、读入POIK及其关联POI数据。0084步骤402、依次判断POIK及其关联POI数据的ID是否在数据库中的四个关联簇中,即依次判断M、M2、F1、C2是否出现在簇号为CD1、CD2、CD3和CD4的关联簇中。0085步骤403、判断F1出现在簇号为CD2的关联簇中时,则将关联簇CD2确定为已存关联簇。说明书CN103514199A138/11页140086步骤404、将M、M2、F1、C2添加到关联簇CD2中,得到更新后的关联簇CD2为A2,B2,C2,F1,M,M2,F1,C2。0087步骤405,对关联簇CD2进行去重处理,得到去重后的关联簇CD2为A2,B2,C2,F1,M,M2。0088优选地,本发明实施例还建立有关联簇表,该关联簇表中包含所有标准POI数据的ID及其所在关联簇的簇号的对应关系,如当前在关联簇中新增加了待关联的标准POI数据的ID之后,将所述待关联的标准POI数据的ID与其所在关联簇的簇ID的对应关系,并将该对应关系作为一条记录存储到预设的关联簇表中。以前述例子为例,可得到如图5所示的关联簇表。在上述图6所示的方法流程是在图4的方法流程中还可包括以下步骤406步骤4070089步骤406、分。