基于集中式存储连续数据保护方法.pdf

摘要
申请专利号：	CN201010011489.4	申请日：	2010.01.19
公开号：	CN101751474A	公开日：	2010.06.23
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20100623\|\|\|专利申请权的转移IPC(主分类):G06F 17/30变更事项:申请人变更前权利人:山东浪潮汇彩投资控股有限公司变更后权利人:浪潮电子信息产业股份有限公司变更事项:地址变更前权利人:250101 山东省济南市高新区新泺大街1768号齐鲁软件大厦B座3层变更后权利人:250101 山东省济南市高新区舜雅路1036号登记生效日:20130724\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20100119\|\|\|专利申请权的转移IPC(主分类):G06F 17/30变更事项:申请人变更前权利人:山东高效能服务器和存储研究院变更后权利人:山东浪潮汇彩投资控股有限公司变更事项:地址变更前权利人:250014 山东省济南市历下区山大路224号变更后权利人:250101 山东省济南市高新区新泺大街1768号齐鲁软件大厦B座3层登记生效日:20120925\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	山东高效能服务器和存储研究院
发明人：	刘正伟
地址：	250014 山东省济南市历下区山大路224号
优先权：
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

本发明提供一种基于集中式存储连续数据保护方法，是在数据传输上使用差量算法对文件进行差异传输，存储上使用镜像与差量结合的方式记录文件的变化，该系统运行在Linux操作系统之上，用户保护的数据及元数据信息直接保存于服务器的文件系统上，系统为每个用户建立元数据目录、存储保护实例列表和用户信息内容，并包含一个指向实际数据存储空间的软连接，时间数据存储空间为不同用户组分配一个单独的目录、逻辑卷或分区，其下为每个用户建立相应的目录，用户目录下每个保护实例建立一个目录，保存该保护实例的所有版本差量数据，本发明是项目组块级和文件级连续数据保护系统的一个重要组成部分，在部分企业关键数据保护业务中，取得良好的效益。

权利要求书

1. 基于集中式存储连续数据保护方法，其特征在于，步骤如下：在数据传输上使用差量算法对文件进行差异传输，存储上使用镜像与差量结合的方式记录文件的变化，该系统运行在Linux操作系统之上，用户保护的数据及元数据信息直接保存于服务器的文件系统上，系统为每个用户建立元数据目录、存储保护实例列表和用户信息内容，并包含一个指向实际数据存储空间的软连接，时间数据存储空间为不同用户组分配一个单独的目录、逻辑卷或分区，其下为每个用户建立相应的目录，用户目录下每个保护实例建立一个目录，保存该保护实例的所有版本差量数据，其中：
1)监控保护实例的变化，维护任务队列和数据差量同步；
2)保护实例的变化在Windows系统中通过FileSystemWatcher类实现；
3)系统通过监控保护实例的OnChanged和OnClosed事件；
4)在保护实例发生变化并关闭后，监控模块向任务队列中插入一个新版本任务；
5)在产生新版本时，系统首先将客户端的最新版本同步至服务器，再由服务器比较两个版本的差异计算出文件差量，Rsync算法是一种有效地比较两个类似文件之间差异的算法，它通过对两个主机上的文件进行一次扫描，准确找到它们之间的差异部分；
6)每次保存最新版本的完整副本，而对较旧版本的数据采用差量方式保存，每次产生新版本时均只需进行一次数据比较即能计算差量，在差量算法上，采用rdiff算法计算出保护实例的不同版本的差量数据，恢复历史版本时，首先要根据各个版本差量计算出所指定的镜像，再将该镜像同步到客户端。
7)服务器针对每个保护实例在服务器上需分配三块存储空间，即历史版本数据区、新版本缓冲区、恢复版本缓冲区，新版本缓冲区保存一份指向当前最新版本镜像文件的硬连接，新版本区和历史版本缓存区在物理上是同一空间，不需要额外的存储空间。

说明书

基于集中式存储连续数据保护方法
技术领域
本发明涉及一种基于文件的连续数据保护系统，此系统可以实时捕获单个文件的变化，提供任意时间点的文件恢复。在数据的传输上使用的差量算法对文件进行差异传输，存储上使用镜像与差量结合的方式记录文件的变化。该方法有效的利用网络带宽，节约了存储资源。
背景技术
对一个企业来说，数据的安全极为重要。一旦重要的数据被破坏或丢失，就会对企业的日常生成造成重大影响，甚至是难以弥补的损失。企业在进行数据保护时大多采用传统的数据备份技术，如备份、RAID、远程镜像、快照等。这几种方法具有各自的用途，大企业的数据保护一般需要整合这几种方法。然而，传统的数据保护解决方案专注于数据的周期性备份上，因此一直伴随有备份窗口以及对生产系统的影响等问题，很难保证灵活的目标恢复点(Recovery pointobjectives，RPO)及更快的目标恢复时间(Recovery time objectives，RTO)，而RPO和RTO已经成了衡量容灾体系应急能力和数据保护能力的关键性指标。
为了满足用户对数据进行连续保护，以便在灾难发生后能以最快的速度恢复到距故障点最近时刻的需求，连续数据保护(continuous data protection，CDP)技术应运而生。连续数据保护是一种连续捕获和保存数据变化，并将变化后的数据独立与初始数据进行保存的技术，该技术可以实现过去任意一个时间点的数据恢复。
根据实现的层次的不同，连续数据保护技术可以分为如下几类：基于应用的、基于文件的和基于数据块大的连续数据保护三类。其中基于文件的连续数据保护功能作用在文件系统上，它可以捕捉文件系统数据或者元数据的变化事件(例如创建、修改、删除等)，并及时记录文件的变化信息，以便来实现任意时间点的文件恢复。相对基于数据块的连续数据保护系统，文件级实现简单，与特定的文件系统紧耦合。
因此如何提供一种方法，在数据传输上使用差量算法对文件进行差异传输，存储上使用快速有效的记录方式来记录文件的变化，并有效的利用网络带宽节约存储资源是目前数据急剧增加面临的挑战。
发明内容
本发明提供一种基于文件的连续数据保护系统，此系统可以实时捕获单个文件的变化，提供任意时间点的文件恢复。
步骤如下：在数据传输上使用差量算法对文件进行差异传输，存储上使用镜像与差量结合的方式记录文件的变化，该系统运行在Linux操作系统之上，用户保护的数据及元数据信息直接保存于服务器的文件系统上，系统为每个用户建立元数据目录、存储保护实例列表和用户信息内容，并包含一个指向实际数据存储空间的软连接，时间数据存储空间为不同用户组分配一个单独的目录、逻辑卷或分区，其下为每个用户建立相应的目录，用户目录下每个保护实例建立一个目录，保存该保护实例的所有版本差量数据，其中：
1)监控保护实例的变化，维护任务队列和数据差量同步；
2)保护实例的变化在Windows系统中通过FileSystemWatcher类实现；
3)系统通过监控保护实例的OnChanged和OnClosed事件；
4)在保护实例发生变化并关闭后，监控模块向任务队列中插入一个新版本任务；
5)在产生新版本时，系统首先将客户端的最新版本同步至服务器，再由服务器比较两个版本的差异计算出文件差量，Rsync算法是一种有效地比较两个类似文件之间差异的算法，它通过对两个主机上的文件进行一次扫描，准确找到它们之间的差异部分；
6)每次保存最新版本的完整副本，而对较旧版本的数据采用差量方式保存，每次产生新版本时均只需进行一次数据比较即能计算差量，在差量算法上，采用rdiff算法计算出保护实例的不同版本的差量数据，恢复历史版本时，首先要根据各个版本差量计算出所指定的镜像，再将该镜像同步到客户端。
7)服务器针对每个保护实例在服务器上需分配三块存储空间，即历史版本数据区、新版本缓冲区、恢复版本缓冲区，新版本缓冲区保存一份指向当前最新版本镜像文件的硬连接，新版本区和历史版本缓存区在物理上是同一空间，不需要额外的存储空间。
本发明的优异效果是：此系统可以实时捕获单个文件的变化，提供任意时间点的文件恢复。
(1)不增加客户端的存储空间，对本地保护实例不会在磁盘上的另外一个物理位置保存一份历史数据备份。(2)尽量减少本地计算资源。在传送差量时，由于本地监控模块能监控到具体的变化文件，在传输差量时只传输变化文件的差量部分。(3)引入了队列管理，能处理多任务请求，同时能在没有连接网络的时候，依然可以很好记录变化内容，在网络恢复时继续执行任务。连续数据保护技术是对传统数据保护技术的一个重大突破，是数据保护技术的发展趋势。本设计对局域网内的连续数据保护系统方案实现基于文件的连续数据保护系统。该系统是项目组块级和文件级连续数据保护系统的一个重要组成部分，在部分企业关键数据保护业务中，取得良好的效益。
附图说明
附图1是系统部署图；
附图2是客户端提交数据存储图；
附图3是提交新版本数据流程。
具体实施方式
下面参照附图，对本发明的内容以一个具体实例来描述实现这一体系结构的过程。本系统可以实时捕获单个文件的变化，提供任意时间点的文件恢复。
具体步骤如下：
在数据传输上使用差量算法对文件进行差异传输，存储上使用镜像与差量结合的方式记录文件的变化，该系统运行在Linux操作系统之上，用户保护的数据及元数据信息直接保存于服务器的文件系统上，系统为每个用户建立元数据目录，存储保护实例列表、用户信息等内容，并包含一个指向实际数据存储空间的软连接。时间数据存储空间可以为不同用户组分配一个单独的目录、逻辑卷或分区，其下为每个用户建立相应的目录，用户目录下每个保护实例建立一个目录，保存该保护实例的所有版本差量数据。
在本系统中有下面三个特征
(1)不增加客户端的存储空间，对本地保护实例不会在磁盘上的另外一个物理位置保存一份历史数据备份。
(2)尽量减少本地计算资源。在传送差量时，由于本地监控模块能监控到具体的变化文件，在传输差量时只传输变化文件的差量部分。
(3)引入了队列管理，能处理多任务请求，同时能在没有连接网络的时候，依然可以很好记录变化内容，在网络恢复时继续执行任务。
客户端设计的关键是监控保护实例的变化，维护任务队列和数据差量同步。保护实例的变化在Windows系统中通过FileSystemWatcher类实现，本系统通过监控保护实例的OnChanged和OnClosed事件。在保护实例发生变化并关闭后，监控模块想任务队列中插入一个新版本任务。
在产生新版本时，系统首先将客户端的最新版本同步至服务器，再由服务器比较两个版本的差异计算出文件差量。Rsync算法是一种有效地比较两个类似文件之间差异的算法，它通过对两个主机上的文件进行一次扫描，即可准确找到它们之间的差异部分。
每次保存最新版本的完整副本，而对较旧版本的数据采用差量方式保存。这样设计可以在每次产生新版本时均只需进行一次数据比较即可计算差量。在差量算法上，采用rdiff算法计算出保护实例的不同版本的差量数据。恢复历史版本时，首先要根据各个版本差量计算出所指定的镜像，再将该镜像同步到客户端。
服务器针对每个保护实例在服务器上需分配三块存储空间，即历史版本数据区、新版本缓冲区、恢复版本缓冲区。新版本缓冲区保存一份指向当前最新版本镜像文件的硬连接，新版本区和历史版本缓存区在物理上是同一空间，不需要额外的存储空间。