MONETDB分布式计算存储方法.pdf

摘要
申请专利号：	CN201410751853.9	申请日：	2014.12.10
公开号：	CN104536988A	公开日：	2015.04.22
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20141210\|\|\|公开
IPC分类号：	G06F17/30; G06F9/50; H04L29/08	主分类号：	G06F17/30
申请人：	杭州斯凯网络科技有限公司
发明人：	周正中
地址：	310013浙江省杭州市西湖区紫荆花路2号联合大厦10楼
优先权：
专利代理机构：	杭州杭诚专利事务所有限公司33109	代理人：	尉伟敏
PDF下载：	PDF下载

内容摘要

本发明涉及一种MonetDB分布式计算存储方法。解决了不能实现MonetDB分布式计算存储，也无法解决数据路由算法和可用的问题，技术方案为：包括基于P2P通讯的glusterfs节点以及HA的部署步骤、monetdbd节点以及HA部署步骤、m-funnel节点以及HA部署步骤和分布式计算存储的部署步骤。本发明同样可以应用在负载均衡场景和数据复制场景，还可以应用在大数据分布式存储的场景，并行计算场景，利用路由选择算法，将数据分布存储，实现线性的性能提升。

权利要求书

权利要求书
1.  一种MonetDB分布式计算存储方法，其特征在于：包括基于P2P通讯的glusterfs节点以及HA的部署步骤、monetdbd节点以及HA部署步骤、 m-funnel节点以及HA部署步骤和分布式计算存储的部署步骤，
所述glusterfs节点以及HA的部署步骤包括以下子步骤：
glusterfs节点子步骤一，分布式系统添加glusterfs节点peer，
glusterfs节点子步骤二：创建文件系统，创建目录用作brick，所有节点的 brick组成大的存储池，
glusterfs节点子步骤三：设置glusterfs的复制份数、条带和权限，
glusterfs节点子步骤四：挑选2个或2个以上的glusterfs节点作为nfs的服务端节点，完成HA布置
glusterfs节点子步骤五：配置这几个节点的虚拟IP，并配置虚拟IP的 failover，确定主节点和备节点，
glusterfs节点子步骤六：monetdbd节点使用这些虚拟IP存储HA，挂载 glusterfsnfs存储；
所述monetdbd节点以及HA部署步骤包括以下子步骤：
monetdbd节点子步骤一：monetdbd节点使用glusterfs的虚拟IP挂载 glusterfsnfs存储，
monetdbd节点子步骤二：在nfs上初始化数据库集群，
monetdbd节点子步骤三：主节点启动数据库集群，并创建数据库，
monetdbd节点子步骤四：配置discovery，sharedtag；
monetdbd节点子步骤五：配置HA，多台主机共享数据库集群文件，在同一时间点，只有主节点启动monetdbd进程和虚拟IP，当主节点故障时，切换到备节点，由备节点启动monetdbd进程，并启动虚拟IP，
monetdbd节点子步骤六：虚拟IP被用于m-funnel连接；
所述m-funnel节点以及HA部署步骤包括以下子步骤：
m-funnel节点子步骤一：初始化数据库集群
m-funnel节点子步骤二：启动数据库集群，创建m-funnel代理数据库
m-funnel节点子步骤三：配置HA，在若干台主机上创建对应的若干个 m-funnel代理数据库，
m-funnel节点子步骤四：配置haproxy，代理客户端请求，将客户端分发到各个m-funnel节点，
m-funnel节点子步骤五：配置haproxy的后端探测，当m-funnel节点探测失败时，不与这个节点建立新的会话，知道m-funnel节点重新探测成功才允许继续向这个节点建立会话，配置负载均衡算法，
m-funnel节点子步骤六：配置haproxyHA，当haproxy主节点故障时，虚拟 IP切换到haproxy备节点；
所述分布式计算存储的实现步骤包括以下步骤：
分布式计算存储子步骤一：在所有的monetdbd节点创建元数据表，插入元数据，元数据包含当前节点号，节点列表，节点个数，节点列表和节点个数一致，
分布式计算存储子步骤二：在所有的monetdbd节点创建动态接口函数，动态接口函数由人工设定，
分布式计算存储子步骤三：在所有的monetdbd节点创建静态接口函数，静态接口函数由人工设定，
分布式计算存储子步骤四：客户端连接到haproxy代理端口，测试接口函数。

2.  根据权利要求1所述的MonetDB分布式计算存储方法，其特征在于：在 glusterfs节点子步骤一中，分布式系统添加glusterfs节点peer后，为了提高IOPS能力，使用flashcache或bcache技术，将SSD设备作为读写缓存设备。

3.  根据权利要求1所述的MonetDB分布式计算存储方法，其特征在于：所述配置负载均衡算法为随机算法和权重算法。

4.  根据权利要求1或2或3所述的MonetDB分布式计算存储方法，其特征在于：所述元数据表中必须选择一个静态字段作为哈希函数接收的变量。

5.  根据权利要求1或2或3所述的MonetDB分布式计算存储方法，其特征在于：所述monetdbd的路由功能主要包含以下组件：
组件一：哈希函数，用于接收一个变量，输出一个哈希值，
组件二：节点选择函数，用于接收哈希值，计算并返回节点号，
组件三：动态接口函数，用于接收用户传入值，负责具体的逻辑，并返回用户传入值，此组件的用户传入值包含节点选择函数名、节点选择函数变量和其他设定的变量，
组件四：静态接口函数，用于接收用户传入值，负责具体的逻辑，
组件五：元数据表、存储当前节点号、节点列表和节点个数。

说明书

说明书MonetDB分布式计算存储方法
技术领域
本发明是一种数据存储方法，特别是涉及一种MonetDB分布式计算存储方法。
背景技术
MonetDB是一种专用于数据统计分析的开源数据库，支持 multi-funnel，用于代理客户端的请求，代理的请求转发到底层的数据节点执行，但是代理功能非常单一，使用场景受限，并且存在如下缺点：1. 限于将数据转发到所有的底层数据节点执行并返回所有节点运行的结果。也即是没有路由选择算法，选择哪个节点运行，因此目前的技术只能用作负载均衡和数据复制场景。2.-funnel节点和monetdbd节点没有HA机制。存在单点故障。如果能解决现有技术的问题，在MonetDB中实现数据节点的选择，则可以实现分布式计算存储，增强MonetDB的功能。在实现MonetDB 分布式计算存储的同时，除了需要解决数据路由算法的问题，还需要解决高可用的问题。
对比技术：CN102591978A，开日期2012年7月18日，公开内容：本发明属于电子文本拷贝检测技术领域，具体为一种针对大规模文档集中两两文档间进行拷贝检测的分布式索引建立以及分发方法和一种分布式文本拷贝检测系统。所述方法是将整个文档集上的拷贝检测分割成个若干的子任务，每个子任务中只用到单个计算机节点中保存的文档和整个文档集所有文档集的一部分文档组成的索引，从而使得每个子任务可以在单独的节点上运行，减小了网络开销。系统基于Map-Reduce技术，使用Apache的开源软件项目Hadoop提供的分布式计算存储框架，具有良好的可扩展性，适合处理大规模文本集上的拷贝检测，电子文本数据集通过磁盘等介质作为输入进入到拷贝检测系统，系统由多台计算机组成的集群对电子文本数据进行处理，将互为拷贝的文档对结果以文件形式输出到磁盘上。此技术方案不能实现MonetDB分布式计算存储，也无法解决数据路由算法和可用的问题。
发明内容
本发明的目的是为解决目前的技术方案存在不能实现MonetDB分布式计算存储，也无法解决数据路由算法和可用的问题，提供一种MonetDB分布式计算存储方法。
本发明解决其技术问题所采用的技术方案是：一种MonetDB分布式计算存储方法，其特征在于：包括基于P2P通讯的glusterfs节点以及HA的部署步骤、monetdbd节点以及HA部署步骤、m-funnel节点以及HA部署步骤和分布式计算存储的部署步骤，
所述glusterfs节点以及HA的部署步骤包括以下子步骤：
glusterfs节点子步骤一，分布式系统添加glusterfs节点peer，
glusterfs节点子步骤二：创建文件系统，创建目录用作brick，所有节点的 brick组成大的存储池，
glusterfs节点子步骤三：设置glusterfs的复制份数、条带和权限，
glusterfs节点子步骤四：挑选2个或2个以上的glusterfs节点作为nfs的服务端节点，完成HA布置
glusterfs节点子步骤五：配置这几个节点的虚拟IP，并配置虚拟IP的 failover，确定主节点和备节点，
glusterfs节点子步骤六：monetdbd节点使用这些虚拟IP存储HA，挂载 glusterfsnfs存储；
所述monetdbd节点以及HA部署步骤包括以下子步骤：
monetdbd节点子步骤一：monetdbd节点使用glusterfs的虚拟IP挂载 glusterfsnfs存储，
monetdbd节点子步骤二：在nfs上初始化数据库集群，
monetdbd节点子步骤三：主节点启动数据库集群，并创建数据库，
monetdbd节点子步骤四：配置discovery，sharedtag；
monetdbd节点子步骤五：配置HA，多台主机共享数据库集群文件，在同一时间点，只有主节点启动monetdbd进程和虚拟IP，当主节点故障时，切换到备节点，由备节点启动monetdbd进程，并启动虚拟IP，
monetdbd节点子步骤六：虚拟IP被用于m-funnel连接；
所述m-funnel节点以及HA部署步骤包括以下子步骤：
m-funnel节点子步骤一：初始化数据库集群
m-funnel节点子步骤二：启动数据库集群，创建m-funnel代理数据库
m-funnel节点子步骤三：配置HA，在若干台主机上创建对应的若干个 m-funnel代理数据库，
m-funnel节点子步骤四：配置haproxy，代理客户端请求，将客户端分发到各个m-funnel节点，
m-funnel节点子步骤五：配置haproxy的后端探测，当m-funnel节点探测失败时，不与这个节点建立新的会话，知道m-funnel节点重新探测成功才允许继续向这个节点建立会话，配置负载均衡算法，
m-funnel节点子步骤六：配置haproxyHA，当haproxy主节点故障时，虚拟 IP切换到haproxy备节点；
所述分布式计算存储的实现步骤包括以下步骤：
分布式计算存储子步骤一：在所有的monetdbd节点创建元数据表，插入元数据，元数据包含当前节点号，节点列表，节点个数，节点列表和节点个数一致，
分布式计算存储子步骤二：在所有的monetdbd节点创建动态接口函数，动态接口函数由人工设定，
分布式计算存储子步骤三：在所有的monetdbd节点创建静态接口函数，静态接口函数由人工设定，
分布式计算存储子步骤四：客户端连接到haproxy代理端口，测试接口函数。
本发明主要的创新点为1.在MonetDB的数据节点实现数据选择路由算法，让MonetDB支持分布式计算存储，2.路由算法支持静态选择和动态选择，可用支持更多的应用场景，静态路由算法指用户在调用接口函数时指定运行节点，动态路由算法指根据传入的变量值和路由选择函数决定运行的节点，3.为了提高MonetDB分布式计算存储系统的可用性，为各个组件提供 HA功能，解决了MonetDB分布式计算存储系统单点故障的问题，与传统的MonetDBm-funnel相比带来的效果为传统的m-funnel技术，只能实现所有数据节点执行，不能选择数据节点执行，应用场景比较单一，只能应用于例如负载均衡和数据复制的场景，不能用于大数据场景，本发明解决了数据节点路由选择的问题，扩展了m-funnel的应用场景。
作为优选，在glusterfs节点子步骤一中，分布式系统添加glusterfs节点peer后，为了提高IOPS能力，使用flashcache或bcache技术，将SSD 设备作为读写缓存设备。
作为优选，所述配置负载均衡算法为随机算法和权重算法。
作为优选，所述元数据表中必须选择一个静态字段作为哈希函数接收的变量。
作为优选，所述monetdbd的路由功能主要包含以下组件：
组件一：哈希函数，用于接收一个变量，输出一个哈希值，
组件二：节点选择函数，用于接收哈希值，计算并返回节点号，
组件三：动态接口函数，用于接收用户传入值，负责具体的逻辑，并返回用户传入值，此组件的用户传入值包含节点选择函数名、节点选择函数变量和其他设定的变量，
组件四：静态接口函数，用于接收用户传入值，负责具体的逻辑，
组件五：元数据表、存储当前节点号、节点列表和节点个数。
本发明的实质性效果是：1.同样可以应用在负载均衡场景和数据复制场景，2.还可以应用在大数据分布式存储的场景，并行计算场景，3.利用路由选择算法，将数据分布存储，实现线性的性能提升。
附图说明
图1为本发明中的整体架构图；
图2为本发明中的MonetDB HA架构图；
图3为本发明中动态接口函数逻辑图；
图4为本发明中静态接口函数逻辑图；
图5为本发明中哈希函数输入输出图；
图6为本发明中节点选择函数输入输出图。
具体实施方式
下面通过具体实施例，并结合附图，对本发明的技术方案作进一步的具体说明。
实施例：
一种MonetDB分布式计算存储方法(参见附图1、附图2附图3和附图4、图5、图6)，包括基于P2P通讯的glusterfs节点以及HA的部署步骤、monetdbd节点以及HA部署步骤、m-funnel节点以及HA部署步骤和分布式计算存储的部署步骤，
所述glusterfs节点以及HA的部署步骤包括以下子步骤：
glusterfs节点子步骤一，分布式系统添加glusterfs节点peer，
glusterfs节点子步骤二：创建文件系统，创建目录用作brick，所有节点的 brick组成大的存储池，
glusterfs节点子步骤三：设置glusterfs的复制份数、条带和权限，
glusterfs节点子步骤四：挑选2个或2个以上的glusterfs节点作为nfs的服务端节点，完成HA布置
glusterfs节点子步骤五：配置这几个节点的虚拟IP，并配置虚拟IP的 failover，确定主节点和备节点，
glusterfs节点子步骤六：monetdbd节点使用这些虚拟IP存储HA，挂载 glusterfsnfs存储；
所述monetdbd节点以及HA部署步骤包括以下子步骤：
monetdbd节点子步骤一：monetdbd节点使用glusterfs的虚拟IP挂载 glusterfsnfs存储，
monetdbd节点子步骤二：在nfs上初始化数据库集群，
monetdbd节点子步骤三：主节点启动数据库集群，并创建数据库，
monetdbd节点子步骤四：配置discovery，sharedtag；
monetdbd节点子步骤五：配置HA，多台主机共享数据库集群文件，在同一时间点，只有主节点启动monetdbd进程和虚拟IP，当主节点故障时，切换到备节点，由备节点启动monetdbd进程，并启动虚拟IP，
monetdbd节点子步骤六：虚拟IP被用于m-funnel连接；
所述m-funnel节点以及HA部署步骤包括以下子步骤：
m-funnel节点子步骤一：初始化数据库集群
m-funnel节点子步骤二：启动数据库集群，创建m-funnel代理数据库
m-funnel节点子步骤三：配置HA，在若干台主机上创建对应的若干个 m-funnel代理数据库，
m-funnel节点子步骤四：配置haproxy，代理客户端请求，将客户端分发到各个m-funnel节点，
m-funnel节点子步骤五：配置haproxy的后端探测，当m-funnel节点探测失败时，不与这个节点建立新的会话，知道m-funnel节点重新探测成功才允许继续向这个节点建立会话，配置负载均衡算法，
m-funnel节点子步骤六：配置haproxyHA，当haproxy主节点故障时，虚拟 IP切换到haproxy备节点；
所述分布式计算存储的实现步骤包括以下步骤：
分布式计算存储子步骤一：在所有的monetdbd节点创建元数据表，插入元数据，元数据包含当前节点号，节点列表，节点个数，节点列表和节点个数一致，
分布式计算存储子步骤二：在所有的monetdbd节点创建动态接口函数，动态接口函数由人工设定，
分布式计算存储子步骤三：在所有的monetdbd节点创建静态接口函数，静态接口函数由人工设定，
分布式计算存储子步骤四：客户端连接到haproxy代理端口，测试接口函数。
在glusterfs节点子步骤一中，分布式系统添加glusterfs节点peer后，为了提高IOPS能力，使用flashcache或bcache技术，将SSD设备作为读写缓存设备。
所述配置负载均衡算法为随机算法和权重算法。
所述元数据表中必须选择一个静态字段作为哈希函数接收的变量。
所述monetdbd的路由功能主要包含以下组件：
组件一：哈希函数，用于接收一个变量，输出一个哈希值，
组件二：节点选择函数，用于接收哈希值，计算并返回节点号，
组件三：动态接口函数，用于接收用户传入值，负责具体的逻辑，并返回用户传入值，此组件的用户传入值包含节点选择函数名、节点选择函数变量和其他设定的变量，
组件四：静态接口函数，用于接收用户传入值，负责具体的逻辑，
组件五：元数据表、存储当前节点号、节点列表和节点个数。
本实施例中haproxy为专用的软件，用于m-funnel层的HA以及负载均衡，检测后端服务。m-funnel用于代理用户请求发送给monetdbd节点，并接收 monetdbd节点的结果返回给客户端。monetdbd为实际存储数据和路由算法的节点,用于接收并返回来自m-funnel节点的请求。
以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。