基于索引的异地云数据同步方法.pdf

上传人:大师****2 文档编号:4306243 上传时间:2018-09-13 格式:PDF 页数:8 大小:498.75KB
返回 下载 相关 举报
摘要
申请专利号:

CN201210119138.4

申请日:

2012.04.23

公开号:

CN102624932A

公开日:

2012.08.01

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):H04L 29/08申请公布日:20120801|||实质审查的生效IPC(主分类):H04L 29/08申请日:20120423|||公开

IPC分类号:

H04L29/08

主分类号:

H04L29/08

申请人:

网经科技(苏州)有限公司

发明人:

孙朝晖; 刘继明; 林恩峰; 董正凯; 周磊; 谢炜

地址:

215000 江苏省苏州市工业园区国际科技园一期1630单元

优先权:

专利代理机构:

南京苏科专利代理有限责任公司 32102

代理人:

王玉国;陈忠辉

PDF下载: PDF下载
内容摘要

本发明涉及基于索引的异地云数据同步方法,占用空间比较大数据随机存放在云系统中的少数服务器上,所有数据的概述信息的索引则在每台服务器上都有相应的备份,用户通过检索索引来判断是否系统存储有用户感兴趣的云数据概述信息,当用户需要下载云存储系统中的资源时,与用户连接的服务器首先到云系统中存储着该资源的服务器上发送同步请求,同步完成后,用户再从该服务器下载资源。实现各个地方的用户更快捷的下载云存储系统中的云数据,避免云存储系统盲目地进行资源同步,大量减少云存储中服务器的数量,降低系统建设成本,减少系统中由服务器造成单点故障和性能瓶颈,减少数据传输环节,提高系统性能和效率,保证整个系统高效稳定运行。

权利要求书

1.基于索引的异地云数据同步方法,其特征在于:占用空间比较大数据随机存放在云系统中的少数服务器上,所有数据的概述信息的索引则在每台服务器上都有相应的备份,用户通过检索索引来判断是否系统存储有用户感兴趣的云数据概述信息,当用户需要下载云存储系统中的资源时,与用户连接的服务器首先到云系统中存储着该资源的服务器上发送同步请求,同步完成后,用户再从该服务器下载资源。2.根据权利要求1所述的基于索引的异地云数据同步方法,其特征在于:所述占用空间比较大的数据包括图片文件、视频文件以及文本文件。3.根据权利要求1所述的基于索引的异地云数据同步方法,其特征在于:当用户需要下载云存储系统中的资源存在于与用户连接的服务器时,用户直接从该服务器下载资源。

说明书

基于索引的异地云数据同步方法

技术领域

本发明涉及云存储系统中数据同步策略,尤其涉及基于索引的异地云数据同步方法,属于云计算领域中的数据存储和管理技术领域。

背景技术

随着Internet的高速发展,网络应用越来越多,进入Internet后就可以利用其中各个网络和各种计算机上无穷无尽的资源。

如果资源服务器连接到Internet,那么在世界范围内的任何地点的用户都可以利用相关协议下载该服务器上的资源。然而当用户离资源服务器距离很远时,网络上的传送耗时就会非常长。

云存储是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作。这种新型的云状结构的存储系统由多个存储设备组成,通过集群功能、分布式文件系统或类似网格计算等功能联合起来协同工作,并通过一定的应用软件或应用接口,对用户提供一定类型的存储服务和访问服务。

云存储的分布式文件系统有多个云存储服务器组成,在其中一部分服务器上存放云数据的备份,这样用户便可以通过云存储系统应用接口从离自己最近的节点上下载资源,这样就可以让世界各地的用户更快、更便捷地下载异地云数据。

如图1所示,云存储系统,假设该云存储系统有三台云存储服务器,即第一云存储服务器1、第二云存储服务器2和第三云存储服务器3,实现数据共享的步骤主要有以下三步:1)管理员A上传数据至第二云存储服务器2;2)云存储系统同步数据至第一云存储服务器1以及第三云存储服务器3;3)用户B向云存储系统发送数据下载请求,离用户最近的第一云存储服务器1相应请求与用户建立连接,用户开始下载数据。

在上述模型中第一云存储服务器1附近的用户要想能快捷地下载资源的前提条件是该服务器上存储着资源的备份,期望达到全世界各地的用户最高效地访问云存储系统并下载数据,就需要在云存储系统的多个节点上储存着的资源的备份。这样的系统架构有缺点即:系统的资源分布式存储不够合理,例如云数据1在第一云存储服务器1和第二云存储服务器2上存储着备份,云数据2在第二云存储服务器2和第三云存储服务器3上存储着备份,如果第一云存储服务器1附近的用户需要下载云数据2就需要到第二云存储服务器2或第三云存储服务器3上下载,同样第二云存储服务器2附近的用户需要下载云数据1时,就需要到第一云存储服务器1或者第二云存储服务器2上下载。该系统资源利用率低下,没有达到用户群最大的下载效率。

发明内容

本发明的目的是针对云存储系统中资源利用率、用户下载效率低下的问题,提供一种更高效的基于索引的异地云数据同步方法。

本发明的目的通过以下技术方案来实现:

基于索引的异地云数据同步方法,特点是:占用空间比较大数据随机存放在云系统中的少数服务器上,所有数据的概述信息的索引则在每台服务器上都有相应的备份,用户通过检索索引来判断是否系统存储有用户感兴趣的云数据概述信息,当用户需要下载云存储系统中的资源时,与用户连接的服务器首先到云系统中存储着该资源的服务器上发送同步请求,同步完成后,用户再从该服务器下载资源。

进一步地,上述的基于索引的异地云数据同步方法,其中,占用空间比较大的数据包括图片文件、视频文件以及文本文件。

更进一步地,上述的基于索引的异地云数据同步方法,其中,当用户需要下载云存储系统中的资源存在于与用户连接的服务器时,用户直接从该服务器下载资源。

本发明技术方案突出的实质性特点和显著的进步主要体现在:

本发明全新的云数据同步方法,基于索引即用户根据索引的检索结果信息来决定是否下载该云数据;其次,云数据在异地之间根据下载需要进行同步。该方法实现各个地方的用户更快捷的下载云存储系统中的云数据,同时也避免了云存储系统盲目地进行资源同步,大量减少云存储中服务器的数量,从而降低系统建设成本,减少系统中由服务器造成单点故障和性能瓶颈,减少数据传输环节,提高系统性能和效率,保证整个系统的高效稳定运行。

附图说明

下面结合附图对本发明技术方案作进一步说明:

图1:云存储系统示意图;

图2:云存储系统资源上传与索引同步示意图;

图3:云存储系统基于索引的异地云数据下载示意图。

具体实施方式

如图2、图3所示,构建云存储系统,假设系统拥有三台云存储服务器:第一云存储服务器1、第二云存储服务器2和第三云存储服务器3。管理员A上传云数据至某台云服务器(第二云存储服务器2)的同时,需要将该云数据的概述信息的索引一并上传至第二云存储服务器2,由于索引信息的同步的开销并不大,所以可以同步到云存储系统中的所有服务器(第一云存储服务器1、第三云存储服务器3)上,这样无论用户来自哪里,都可以从最近的云存储服务器上查询获得云数据的相关概述信息。当第一云存储服务器1附近的用户B根据概述信息的索引检索到感兴趣的资源时,如果第一云存储服务器1没有该云数据,第一云存储服务器1就向第二云存储服务器2发送同步该云数据的请求,第二云存储服务器2响应第一云存储服务器1的请求,开始同步该云数据;当同步完成时,用户开始从第一云存储服务器1上下载该云数据。如果第一云存储服务器1已经存在该云数据,用户直接下载该数据。

用户通过检索索引来判断是否系统存储着用户感兴趣的云数据概述信息。当用户需要下载云存储器中的资源时,与用户连接的服务器首先去云系统中存储着该资源的服务器上发送同步请求,同步完成后,用户就可以开始从该服务器下载资源。

基于索引的异地云数据同步方法在第一次下载不在第一云存储服务器1上的云数据这种情况时,效率并没有比直接从第二云存储服务器2上下载高,但是当第一云存储服务器1附近的用户再次下载的时候,效率将明显提升。这是一种全新的云数据同步方法,该方法首先是基于索引的,即用户根据索引的检索结果信息来决定是否下载该云数据。其次,云数据在异地之间根据下载需要进行同步。该方法可实现各个地方的用户更快捷的下载云存储系统中的云数据,同时也避免了云存储系统盲目地进行资源同步,大量减少云存储中服务器的数量,从而降低系统建设成本,减少系统中由服务器造成单点故障和性能瓶颈,减少数据传输环节,提高系统性能和效率,保证整个系统的高效稳定运行。

基于本发明方法开发的OfficeTen SOC(安全操作中心)为例。系统用于监控人员从云存储系统中检索和查看用户的相关上网行为信息,以及下载邮件中、即时通讯中用户发送的附件。

OfficeTen SOC使用分布式系统Hadoop的分布式文件系统HDFS来架构云存储系统。Hadoop 有许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),存储 Hadoop 集群中所有存储节点上的文件。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。

OfficeTen SOC中的HDFS模块一般情况下由一个NameNode以及数十个DataNode组成。NameNode 在单独机器上运行,负责管理文件系统名称空间和控制外部客户机的访问,NameNode 决定是否将文件映射到 DataNode 上的复制块上,DataNode 也是一个在 HDFS中的单独机器上运行的软件,通常以机架的形式组织,机架通过一个交换机将所有系统连接起来,DataNode 响应来自 HDFS 客户机的读写请求,还响应创建、删除和复制来自 NameNode 的块的命令,NameNode 依赖来自每个 DataNode 的定期心跳(heartbeat)消息。每条消息都包含一个块报告,NameNode 可以根据这个报告验证块映射和其他文件系统元数据,如果 DataNode 不能发送心跳消息,NameNode 将采取修复措施,重新复制在该节点上丢失的块。

OfficeTen SOC使用最常见的3个复制块方式,即第一个复制块存储在同一机架的不同节点上,最后一个复制块存储在不同机架的某个节点上,当大量数据上传到OfficeTen SOC 的HDFS时,占用空间比较大的数据,如各种附件,只存储在满足上述要求的随机的三台DataNode节点上,而这些数据的索引信息则定期同步至所有的DataNode节点上。

当OfficeTen SOC全国各地的操作员通过检索,发现需要下载某一附件数据时,客户端Client向系统发送下载数据请求,SOC判断客户端所在的位置匹配出与其交互通讯代价最小的DataNode,如果数据在该节点上存在备份,则该DataNode主动与Client发起连接,并通知Client可以开始下载数据。如果该DataNode上没有用户期望的数据,则NameNode通知存在该数据的三个节点之一同步内容到该DataNode节点上。同步完成后Client就可以就近下载附件数据。这样实现了基于索引的异地云数据同步,也就是按下载需要同步异地的数据。

需要理解到的是:以上所述仅是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

基于索引的异地云数据同步方法.pdf_第1页
第1页 / 共8页
基于索引的异地云数据同步方法.pdf_第2页
第2页 / 共8页
基于索引的异地云数据同步方法.pdf_第3页
第3页 / 共8页
点击查看更多>>
资源描述

《基于索引的异地云数据同步方法.pdf》由会员分享,可在线阅读,更多相关《基于索引的异地云数据同步方法.pdf(8页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102624932 A (43)申请公布日 2012.08.01 C N 1 0 2 6 2 4 9 3 2 A *CN102624932A* (21)申请号 201210119138.4 (22)申请日 2012.04.23 H04L 29/08(2006.01) (71)申请人网经科技(苏州)有限公司 地址 215000 江苏省苏州市工业园区国际科 技园一期1630单元 (72)发明人孙朝晖 刘继明 林恩峰 董正凯 周磊 谢炜 (74)专利代理机构南京苏科专利代理有限责任 公司 32102 代理人王玉国 陈忠辉 (54) 发明名称 基于索引的异地云数据同步方法 (。

2、57) 摘要 本发明涉及基于索引的异地云数据同步方 法,占用空间比较大数据随机存放在云系统中的 少数服务器上,所有数据的概述信息的索引则在 每台服务器上都有相应的备份,用户通过检索索 引来判断是否系统存储有用户感兴趣的云数据概 述信息,当用户需要下载云存储系统中的资源时, 与用户连接的服务器首先到云系统中存储着该资 源的服务器上发送同步请求,同步完成后,用户再 从该服务器下载资源。实现各个地方的用户更快 捷的下载云存储系统中的云数据,避免云存储系 统盲目地进行资源同步,大量减少云存储中服务 器的数量,降低系统建设成本,减少系统中由服务 器造成单点故障和性能瓶颈,减少数据传输环节, 提高系统性能。

3、和效率,保证整个系统高效稳定运 行。 (51)Int.Cl. 权利要求书1页 说明书3页 附图3页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 1 页 说明书 3 页 附图 3 页 1/1页 2 1.基于索引的异地云数据同步方法,其特征在于:占用空间比较大数据随机存放在云 系统中的少数服务器上,所有数据的概述信息的索引则在每台服务器上都有相应的备份, 用户通过检索索引来判断是否系统存储有用户感兴趣的云数据概述信息,当用户需要下载 云存储系统中的资源时,与用户连接的服务器首先到云系统中存储着该资源的服务器上发 送同步请求,同步完成后,用户再从该服务器下载资源。 2.根。

4、据权利要求1所述的基于索引的异地云数据同步方法,其特征在于:所述占用空 间比较大的数据包括图片文件、视频文件以及文本文件。 3.根据权利要求1所述的基于索引的异地云数据同步方法,其特征在于:当用户需要 下载云存储系统中的资源存在于与用户连接的服务器时,用户直接从该服务器下载资源。 权 利 要 求 书CN 102624932 A 1/3页 3 基于索引的异地云数据同步方法 技术领域 0001 本发明涉及云存储系统中数据同步策略,尤其涉及基于索引的异地云数据同步方 法,属于云计算领域中的数据存储和管理技术领域。 背景技术 0002 随着Internet的高速发展,网络应用越来越多,进入Intern。

5、et后就可以利用其中 各个网络和各种计算机上无穷无尽的资源。 0003 如果资源服务器连接到Internet,那么在世界范围内的任何地点的用户都可以利 用相关协议下载该服务器上的资源。然而当用户离资源服务器距离很远时,网络上的传送 耗时就会非常长。 0004 云存储是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各 种不同类型的存储设备通过应用软件集合起来协同工作。这种新型的云状结构的存储系统 由多个存储设备组成,通过集群功能、分布式文件系统或类似网格计算等功能联合起来协 同工作,并通过一定的应用软件或应用接口,对用户提供一定类型的存储服务和访问服务。 0005 云存储的分布式文。

6、件系统有多个云存储服务器组成,在其中一部分服务器上存放 云数据的备份,这样用户便可以通过云存储系统应用接口从离自己最近的节点上下载资 源,这样就可以让世界各地的用户更快、更便捷地下载异地云数据。 0006 如图1所示,云存储系统,假设该云存储系统有三台云存储服务器,即第一云存储 服务器1、第二云存储服务器2和第三云存储服务器3,实现数据共享的步骤主要有以下三 步:1)管理员A上传数据至第二云存储服务器2;2)云存储系统同步数据至第一云存储服 务器1以及第三云存储服务器3;3)用户B向云存储系统发送数据下载请求,离用户最近的 第一云存储服务器1相应请求与用户建立连接,用户开始下载数据。 0007。

7、 在上述模型中第一云存储服务器1附近的用户要想能快捷地下载资源的前提条 件是该服务器上存储着资源的备份,期望达到全世界各地的用户最高效地访问云存储系统 并下载数据,就需要在云存储系统的多个节点上储存着的资源的备份。这样的系统架构有 缺点即:系统的资源分布式存储不够合理,例如云数据1在第一云存储服务器1和第二云存 储服务器2上存储着备份,云数据2在第二云存储服务器2和第三云存储服务器3上存储 着备份,如果第一云存储服务器1附近的用户需要下载云数据2就需要到第二云存储服务 器2或第三云存储服务器3上下载,同样第二云存储服务器2附近的用户需要下载云数据1 时,就需要到第一云存储服务器1或者第二云存储。

8、服务器2上下载。该系统资源利用率低 下,没有达到用户群最大的下载效率。 发明内容 0008 本发明的目的是针对云存储系统中资源利用率、用户下载效率低下的问题,提供 一种更高效的基于索引的异地云数据同步方法。 0009 本发明的目的通过以下技术方案来实现: 说 明 书CN 102624932 A 2/3页 4 基于索引的异地云数据同步方法,特点是:占用空间比较大数据随机存放在云系统中 的少数服务器上,所有数据的概述信息的索引则在每台服务器上都有相应的备份,用户通 过检索索引来判断是否系统存储有用户感兴趣的云数据概述信息,当用户需要下载云存储 系统中的资源时,与用户连接的服务器首先到云系统中存储着。

9、该资源的服务器上发送同步 请求,同步完成后,用户再从该服务器下载资源。 0010 进一步地,上述的基于索引的异地云数据同步方法,其中,占用空间比较大的数据 包括图片文件、视频文件以及文本文件。 0011 更进一步地,上述的基于索引的异地云数据同步方法,其中,当用户需要下载云存 储系统中的资源存在于与用户连接的服务器时,用户直接从该服务器下载资源。 0012 本发明技术方案突出的实质性特点和显著的进步主要体现在: 本发明全新的云数据同步方法,基于索引即用户根据索引的检索结果信息来决定是 否下载该云数据;其次,云数据在异地之间根据下载需要进行同步。该方法实现各个地方 的用户更快捷的下载云存储系统中。

10、的云数据,同时也避免了云存储系统盲目地进行资源同 步,大量减少云存储中服务器的数量,从而降低系统建设成本,减少系统中由服务器造成单 点故障和性能瓶颈,减少数据传输环节,提高系统性能和效率,保证整个系统的高效稳定运 行。 附图说明 0013 下面结合附图对本发明技术方案作进一步说明: 图1:云存储系统示意图; 图2:云存储系统资源上传与索引同步示意图; 图3:云存储系统基于索引的异地云数据下载示意图。 具体实施方式 0014 如图2、图3所示,构建云存储系统,假设系统拥有三台云存储服务器:第一云存储 服务器1、第二云存储服务器2和第三云存储服务器3。管理员A上传云数据至某台云服务 器(第二云存储。

11、服务器2)的同时,需要将该云数据的概述信息的索引一并上传至第二云存 储服务器2,由于索引信息的同步的开销并不大,所以可以同步到云存储系统中的所有服务 器(第一云存储服务器1、第三云存储服务器3)上,这样无论用户来自哪里,都可以从最近 的云存储服务器上查询获得云数据的相关概述信息。当第一云存储服务器1附近的用户B 根据概述信息的索引检索到感兴趣的资源时,如果第一云存储服务器1没有该云数据,第 一云存储服务器1就向第二云存储服务器2发送同步该云数据的请求,第二云存储服务器 2响应第一云存储服务器1的请求,开始同步该云数据;当同步完成时,用户开始从第一云 存储服务器1上下载该云数据。如果第一云存储服。

12、务器1已经存在该云数据,用户直接下 载该数据。 0015 用户通过检索索引来判断是否系统存储着用户感兴趣的云数据概述信息。当用户 需要下载云存储器中的资源时,与用户连接的服务器首先去云系统中存储着该资源的服务 器上发送同步请求,同步完成后,用户就可以开始从该服务器下载资源。 0016 基于索引的异地云数据同步方法在第一次下载不在第一云存储服务器1上的云 说 明 书CN 102624932 A 3/3页 5 数据这种情况时,效率并没有比直接从第二云存储服务器2上下载高,但是当第一云存储 服务器1附近的用户再次下载的时候,效率将明显提升。这是一种全新的云数据同步方法, 该方法首先是基于索引的,即用。

13、户根据索引的检索结果信息来决定是否下载该云数据。其 次,云数据在异地之间根据下载需要进行同步。该方法可实现各个地方的用户更快捷的下 载云存储系统中的云数据,同时也避免了云存储系统盲目地进行资源同步,大量减少云存 储中服务器的数量,从而降低系统建设成本,减少系统中由服务器造成单点故障和性能瓶 颈,减少数据传输环节,提高系统性能和效率,保证整个系统的高效稳定运行。 0017 基于本发明方法开发的OfficeTen SOC(安全操作中心)为例。系统用于监控人 员从云存储系统中检索和查看用户的相关上网行为信息,以及下载邮件中、即时通讯中用 户发送的附件。 0018 OfficeTen SOC使用分布式。

14、系统Hadoop的分布式文件系统HDFS来架构云存储系 统。Hadoop 有许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),存 储 Hadoop 集群中所有存储节点上的文件。HDFS有着高容错性的特点,并且设计用来部署 在低廉的硬件上。而且提供高传输率来访问应用程序的数据,适合那些有着超大数据集的 应用程序。 0019 OfficeTen SOC中的HDFS模块一般情况下由一个NameNode以及数十个DataNode 组成。NameNode 在单独机器上运行,负责管理文件系统名称空间和控制外部客户机的访 问,NameNode 决定是否将文件。

15、映射到 DataNode 上的复制块上,DataNode 也是一个在 HDFS中的单独机器上运行的软件,通常以机架的形式组织,机架通过一个交换机将所有系 统连接起来,DataNode 响应来自 HDFS 客户机的读写请求,还响应创建、删除和复制来自 NameNode 的块的命令,NameNode 依赖来自每个 DataNode 的定期心跳(heartbeat)消息。 每条消息都包含一个块报告,NameNode 可以根据这个报告验证块映射和其他文件系统元 数据,如果 DataNode 不能发送心跳消息,NameNode 将采取修复措施,重新复制在该节点 上丢失的块。 0020 OfficeTen。

16、 SOC使用最常见的3个复制块方式,即第一个复制块存储在同一 机架的不同节点上,最后一个复制块存储在不同机架的某个节点上,当大量数据上传到 OfficeTen SOC 的HDFS时,占用空间比较大的数据,如各种附件,只存储在满足上述要求的 随机的三台DataNode节点上,而这些数据的索引信息则定期同步至所有的DataNode节点 上。 0021 当OfficeTen SOC全国各地的操作员通过检索,发现需要下载某一附件数据时, 客户端Client向系统发送下载数据请求,SOC判断客户端所在的位置匹配出与其交互通 讯代价最小的DataNode,如果数据在该节点上存在备份,则该DataNode主。

17、动与Client发 起连接,并通知Client可以开始下载数据。如果该DataNode上没有用户期望的数据,则 NameNode通知存在该数据的三个节点之一同步内容到该DataNode节点上。同步完成后 Client就可以就近下载附件数据。这样实现了基于索引的异地云数据同步,也就是按下载 需要同步异地的数据。 0022 需要理解到的是:以上所述仅是本发明的优选实施方式,对于本技术领域的普通 技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润 饰也应视为本发明的保护范围。 说 明 书CN 102624932 A 1/3页 6 图1 说 明 书 附 图CN 102624932 A 2/3页 7 图2 说 明 书 附 图CN 102624932 A 3/3页 8 图3 说 明 书 附 图CN 102624932 A 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 电学 > 电通信技术


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1