1、10申请公布号CN104252528A43申请公布日20141231CN104252528A21申请号201410449359722申请日20140904G06F17/3020060171申请人国家电网公司地址250002山东省济南市市中区望岳路2000号申请人国网山东省电力公司电力科学研究院72发明人马艳郭志红陈玉峰74专利代理机构济南圣达知识产权代理有限公司37221代理人张勇54发明名称基于标识符空间映射的大数据二级索引构建方法57摘要本发明提出了一种基于标识符空间映射的大数据二级索引构建方法,包括根据查询属性生成索引条目,利用BATON协议组织索引节点及索引条目,建立BATON索引组织
2、;数据处理节点在查询非ROWKEY属性时,将查询所需数据请求发送给索引节点,索引节点通过BATON路由协议将数据检索请求发送到需检索索引条目所在的索引节点,所述索引节点通过物理地址获取所需数据,并发送给相应的数据处理节点。本发明有益效果二级索引构建技术改进了HBASE不支持索引构建与使用的缺点;利用云计算资源管理大量的属性索引,满足大量数据分析处理的二级索引需求;数据的检索与获得由索引节点完成,减轻了数据处理节点的负担,提高数据处理的效率。51INTCL权利要求书2页说明书4页附图2页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书4页附图2页10申请公布号CN104252
3、528ACN104252528A1/2页21一种基于标识符空间映射的大数据二级索引构建方法,其特征是,包括以下步骤1根据查询属性生成索引条目,利用BATON协议组织索引节点及索引条目,建立BATON索引组织;2查询操作数据处理节点在查询非ROWKEY属性时,将查询所需数据请求发送给索引节点,索引节点通过BATON路由协议将数据检索请求发送到需检索索引条目所在的索引节点,所述索引节点通过物理地址获取所需数据,并发送给相应的数据处理节点。2如权利要求1所述的一种基于标识符空间映射的大数据二级索引构建方法,其特征是,所述步骤1中建立索引组织的方法包括A对所有的属性索引统一编号;每一个属性索引都由若干
4、索引条目组成,设EJ为索引条目,II为属性索引,则IIEJ;其中,I为属性索引的编号,J为索引条目编号;B每个索引条目EJ都通过映射函数映射到标识符空间D的某个位置;所述标识符空间D为映射函数的值域范围;C利用BATON组织索引节点,每个索引节点负责管理部分标识符空间,所有索引节点组成一个关于标识符空间D的覆盖网络,各索引节点基于BATON组成一个树型结构;D确定各索引节点负责管理的索引条目,每个索引节点利用B树存储自己所负责的索引条目;E每个索引条目指向数据存储物理地址。3如权利要求1所述的一种基于标识符空间映射的大数据二级索引构建方法,其特征是,所述BATON协议为一种利用树形结构组织对等
5、网络的协议,所述BATON协议能够替换为其他类型的网络结构。4如权利要求1所述的一种基于标识符空间映射的大数据二级索引构建方法,其特征是,所述索引条目EJ由属性值AJ与存储位置PJ组成,即EJ,存储位置PJ指向存储数据记录的HFILE标号及逻辑偏移量。5如权利要求1所述的一种基于标识符空间映射的大数据二级索引构建方法,其特征是,所述索引条目EJ通过映射函数映射到标识符空间D的某个位置的方法为1将标识符空间D分割为N个等大小的属性索引区,属性索引区表示为B;将每个属性索引对应存储到一个B中;2对于属性索引II的任意索引条目EJ,计算EJ在D的位置的方法为LJBIBMINAJ/MAXMIN1其中,
6、LJ是EJ映射到标识符空间D中的位置,I为属性索引的编号,MAX与MIN分别为属性值AJ可取值的最大值与最小值。6如权利要求1所述的一种基于标识符空间映射的大数据二级索引构建方法,其特征是,所述步骤2的具体方法为对于一个查询命令Q,数据处理节点解析查询命令Q要使用的属性索引II及索引条目EJ;选择任意一个索引节点作为入口查询节点;计算索引条目EJ在D的位置,根据BATON路由协议将查询命令Q发送到负责索引条目EJ的索引节点;IV所述索引节点根据索引条目EJ指向的物理地址,获得数据记录;所述索引节点可权利要求书CN104252528A2/2页3进行并行查询;V索引节点将数据记录返回给数据处理节点
7、;VI数据处理节点获得数据,进行查询处理。权利要求书CN104252528A1/4页4基于标识符空间映射的大数据二级索引构建方法技术领域0001本发明涉及大数据处理领域,尤其涉及一种大数据二级索引构建方法。背景技术0002在企业信息化与智能化过程中,数据量快速增长,业务数据种类也呈现多样化趋势。建立高效的企业智能决策支持系统,需要一种大数据管理系统,将各类业务数据统一存储,并提供正确、快速数据分析处理能力。HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,为大数据存储与分析处理提供较为完备的解决方案。0003然而,HBASE不支持二级索引,当需要查询非ROWKEY属性时只能通过
8、全表扫描方式,数据分析效率严重降低。为大数据建立索引,需要管理大量的索引条目,这需要利用云计算资源完成。而且,HBASE的存储单位为HFILE,HFILE是一种分布式存储,不同于传统的磁盘存储,所以原有的磁盘索引不再适用。因此,结合大数据特征,本文给出一种HBASE二级索引构建方法。发明内容0004本发明的目的就是为了支持大数据在HBASE的高效数据分析处理,提出了一种基于标识符空间映射的大数据二级索引构建方法,该方法能够满足以下需求1可管理多种业务数据的索引及大量的索引条目;2索引查询操作时间高效;3适应HBASE的分布式存储结构;4利用云计算资源管理二级索引,并保证负载均衡。0005为了解
9、决上述问题,本发明采用如下技术方案0006一种基于标识符空间映射的大数据二级索引构建方法,包括以下步骤00071根据查询属性生成索引条目,利用BATON协议组织索引节点及索引条目,建立BATON索引组织;00082查询操作数据处理节点在查询非ROWKEY属性时,将查询所需数据请求发送给索引节点,索引节点通过BATON路由协议将数据检索请求发送到需检索索引条目所在的索引节点,所述索引节点通过物理地址获取所需数据,并发送给相应的数据处理节点。0009所述步骤1中建立索引组织的方法包括0010A对所有的属性索引统一编号;每一个属性索引都由若干索引条目组成,设EJ为索引条目,II为属性索引,则IIEJ
10、;其中,I为属性索引的编号,J为索引条目编号;0011B每个索引条目EJ都通过映射函数映射到标识符空间D的某个位置;所述标识符空间D为映射函数的值域范围;0012C利用BATON组织索引节点,每个索引节点负责管理部分标识符空间,所有索引节点组成一个关于标识符空间D的覆盖网络,各索引节点基于BATON组成一个树型结构;0013D确定各索引节点负责管理的索引条目,每个索引节点利用B树存储自己所负责的索引条目;0014E每个索引条目指向数据存储物理地址。说明书CN104252528A2/4页50015所述BATON协议为一种利用树形结构组织对等网络的协议,所述BATON协议能够替换为其他类型的网络结
11、构。0016所述索引条目EJ由属性值AJ与存储位置PJ组成,即EJ,存储位置PJ指向存储数据记录的HFILE标号及逻辑偏移量。0017所述索引条目EJ通过映射函数映射到标识符空间D的某个位置的方法为00181将标识符空间D分割为N个等大小的属性索引区,属性索引区表示为B;将每个属性索引对应存储到一个B中;00192对于属性索引II的任意索引条目EJ,计算EJ在D的位置的方法为0020LJBIBMINAJ/MAXMIN10021其中,LJ是EJ映射到标识符空间D中的位置,I为属性索引的编号,MAX与MIN分别为属性值AJ可取值的最大值与最小值。0022所述步骤2的具体方法为0023对于一个查询命
12、令Q,数据处理节点解析查询命令Q要使用的属性索引II及索引条目EJ;0024选择任意一个索引节点作为入口查询节点;0025计算索引条目EJ在D的位置,根据BATON路由协议将查询命令Q发送到负责索引条目EJ的索引节点;0026IV所述索引节点根据索引条目EJ指向的物理地址,获得数据记录;所述索引节点可进行并行查询;0027V索引节点将数据记录返回给数据处理节点;0028VI数据处理节点获得数据,进行查询处理。0029本发明有益效果00301二级索引构建技术改进了HBASE不支持索引构建与使用的缺点,提高了分析时常用属性的数据处理效率。00312可利用云计算资源管理大量的属性索引,满足大量数据分
13、析处理的二级索引需求。00323数据的检索与获得由索引节点完成,减轻了数据处理节点的负担,提高数据处理的效率。00334索引条目直接指向记录的HFILE标号及逻辑偏移量,适应HBASE分布式存储系统。00345基于BATON协议可动态地均衡负载,节省节点资源。附图说明0035图1为本发明索引框架图;0036图2为本发明索引建立与查询示意图;0037图3为本发明索引建立流程图;0038图4为本发明索引查询流程图。具体实施方式说明书CN104252528A3/4页60039下面结合附图与具体实施例对本发明做进一步说明0040为提高大数据分析处理的效率,提出一种基于标识符空间映射的大数据二级索引构建
14、方法。针对数据分析人员常用的查询属性,建立二级索引。索引框架如图1所示,主要思想为00411HBASE索引机制部署在由N个索引节点INDEXSERVER组成的对等网络,节点间利用BATON协议组织。00422索引节点INDEXSERVER存储二级索引,每个索引指向数据存储的HFILE标号及逻辑偏移量。HFILE是数据存储节点DATANODE的文件存储单元。00433数据处理节点REGIONSERVER在查询非ROWKEY属性时,将查询所需数据请求发送给索引机制。索引机制中拥有所需索引条目的索引节点通过物理地址取得数据,并发送到REGIONSERVER。REGIONSERVER负责处理数据。00
15、44为方便描述,给出所需的术语定义。0045定义1属性索引为提高查询效率,在TABLE某个属性建立的键值与存储位置对应关系的集合称为属性索引,表示为II,I为属性索引的编号。所有TABLE的属性索引统一编号,因此每个属性索引在系统中有唯一的编号。一个属性索引是由若干索引条目组成的,设EJ为索引条目,则IIEJ,J为索引条目编号。索引条目是由属性值A与存储位置P组成的,即EJ。存储位置PJ指向存储数据记录的HFILE及偏移量。0046定义2标识符空间所有索引条目通过一致性哈希映射的值域范围称为标识符空间,用D表示。每个EJ都通过映射函数映射到D的某个位置,每个索引节点都负责部分空间范围并组成一个
16、关于D的覆盖网络。因此EJ一定会被某个索引节点所管理。0047定义3索引节点负责管理索引条目的节点称为索引节点。每个索引节点负责一部分标识符空间,通过映射函数落入该部分的索引条目都被此节点管理与存储。0048索引方法中二级索引建立如图2及图3所示,查询的过程如图2及图4所示。0049索引建立步骤为0050A对所有属性索引统一编号。0051B确定每个索引条目EJ在标识符空间D的位置。对于属性索引II的EJ,利用公式1映射到D。0052C利用BATON组织索引节点及索引条目。一个索引节点负责管理一定范围的D,各索引节点组成一个树型结构。每个索引节点利用B树管理自己所负责的索引条目。0053在实施中
17、,可设置D的大小为2128,B的大小为296,则可建立232个属性索引。若I0的E0的属性值A01,且其MAX与MIN值分别为0与296。那么利用公式1计算其在D中的值为1;若索引节点A负责标识符空间范围为0,2120,那么E0被索引节点A所管理与存储。E0以映射后的值加入A的B树。0054索引查询步骤为0055A对于一个查询Q,REGIONSERVER解析Q要使用的属性索引及索引条目EJ。0056B选择任意一个索引节点作为入口查询节点。0057C利用函数1计算EJ在D位置,通过BATON路由协议将Q发送到负责EJ的节点。0058D索引节点根据索引条目EJ指向的物理地址,获得数据记录。由于BA
18、TON支持范说明书CN104252528A4/4页7围查询,所以索引节点可以并行的查询。0059E索引节点将数据记录返回给REGIONSERVER。0060FREGIONSERVER获得数据,进行查询处理。0061例如,一个REGIONSERVER需查询I0中属性值A01的数据,则通过公式1计算要检索的索引条目在D中的值为1;若索引节点A管理标识符空间范围包含1,可根据BATON路由协议将查询指令发送到索引节点A;A节点在HFILE中获得数据,并将数据返回给REGIONSERVER,REGIONSERVER再处理数据。0062提出的二级索引方法利用索引节点并行提取数据,再将数据传输回REGIONSERVER进行处理,有效提高了查询效率。由于是对等网络结构,索引机制可无限扩展,并且在查询与更新时可并行处理数据。0063上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。说明书CN104252528A1/2页8图1图2说明书附图CN104252528A2/2页9图3图4说明书附图CN104252528A
copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1