《一种基于混合结构的数字图书馆云存储系统.pdf》由会员分享,可在线阅读,更多相关《一种基于混合结构的数字图书馆云存储系统.pdf(14页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410539761.4(22)申请日 2014.10.13G06F 17/30(2006.01)H04L 29/08(2006.01)(71)申请人 南京邮电大学地址 210003 江苏省南京市鼓楼区新模范马路66号(72)发明人 邹志强 颜斌 姚毅 赵培志(74)专利代理机构 南京经纬专利商标代理有限公司 32200代理人 奚幼坚(54) 发明名称一种基于混合结构的数字图书馆云存储系统(57) 摘要一种基于混合结构的数字图书馆云存储系统,基于Hadoop技术的混合结构,同时支持HBase数据库技术和传统关系数据库 SQL Serv。
2、er 技术,系统以 Hadoop 分布式文件系统集群作为后台云存储框架,设有 CSSDL_HS 登录模块、CSSDL_HS 用户管理模块、CSSDL_HS 文件管理模块、CSSDL_HS文件夹管理模块以及 CSSDL_HS 服务器管理模块,并在 CSSDL_HS 文件管理模块中增设了智能文件预处理模块,根据用户设定的阈值智能地对文件进行预处理。本发明能够解决数字图书馆场景中文件的分布式存储问题,可以提高文件存储的速度和可靠性,减少可能带来的人工误操作,达到在网络环境下高效管理数字图书馆中各种文件的目的。(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页。
3、 说明书7页 附图4页(10)申请公布号 CN 104462185 A(43)申请公布日 2015.03.25CN 104462185 A1/2 页21.一种基于混合结构的数字图书馆云存储系统,其特征是 :针对数字图书馆中存在的多种不同类型和不同大小的文件,为数字图书馆文件的分布式存储设计了基于 Hadoop 技术的混合结构,该混合结构同时支持 HBase 数据库技术和传统关系数据库 SQL Server 技术,所述混合结构包括以下部分 :1) 数字图书馆的用户,该用户包括了支持读写功能的数字图书馆的 Web 端用户和支持写功能的数字图书馆的 PC 端用户 ;2) 云存储服务器,用于提供基于 。
4、Tomcat 的数字图书馆的 Web 端用户的可视化操作界面,支持读写功能 ;3) 应用服务器,用于提供基于写队列的数字图书馆的 PC 端用户实现写功能 ;4) 混合结构中的核心控制模块,用于在云存储服务器和应用服务器之间提供一个信息交互的桥梁,从而实现对混合结构中的 HBase 和 MySQL 进行控制 ;5) 混合结构中的 HBase 部分,是建立在 HDFS 基础之上的列数据库 ;6) 混合结构中的 HDFS 部分,具体包括 NameNode 和 DataNode ;7) 混合结构中的 MySQL 部分,具体包括用户元信息和文件元信息 ;基于上述混合结构的数字图书馆云存储系统,利用Had。
5、oop技术,以HDFS集群作为后台云存储框架,构造了五个模块 :(1)CSSDL_HS 登录模块 :提供 CSSDL_HS 的新用户注册、注册用户登录和 CSSDL_HS 的用户注销,用户按要求填入用户名、密码,进行登陆验证 ;如果用户信息验证成功,则可以登陆系统 ;否则进入等待状态,等待用户重现输入 ;该模块通过数字图书馆的用户来进行展现 ;(2)CSSDL_HS 用户管理模块 :提供查看和修改 CSSDL_HS 用户信息,依次通过数字图书馆的用户、数字图书馆的 PC 端用户、应用服务器、混合结构中的 MySQL 部分,并最终在混合结构中的 MySQL 部分存储用户的元信息 ;(3)CSSD。
6、L_HS 文件管理模块 :提供 CSSDL_HS 文件的智能预处理、上传文件、下载文件、重命名文件和删除文件 ;CSSDL_HS 文件管理模块是 CSSDL_HS 中的一个核心模块,它首先分别经过数字图书馆的 PC 端用户和数字图书馆的 Web 端用户把信息分别传递给权云存储服务器和应用服务器,接着经过混合结构中的核心控制模块,实现云存储服务器和应用服务器之间的信息交互,其中数字图书馆的数据文件由混合结构中的 HBase 完成分布式文件存储,而数字图书馆的文件元信息由混合结构中的 MySQL 完成集中式存储 ;(4)CSSDL_HS 文件夹管理模块 :提供 CSSDL_HS 的新建文件夹、重命。
7、名文件夹和删除文件夹 ;当用户注册系统时,CSSDL_HS 为该用户新建一个文件夹,作为该用户的根目录,之后用户所有的文件或文件夹操作包括新建、重命名和删除,都在该根目录下进行 ;通过数字图书馆的用户,完成 MySQL 的操作 ;(5)CSSDL_HS 服务器管理模块:用于提供查看 CSSDL_HS 服务器信息,依次通过数字图书馆的用户、数字图书馆的 PC 端用户,把信息分别传递给云存储服务器,接着通过调用Hadoop的JMX接口,实时获取HDFS服务器运行参数,这些使用JMX的Rest形式的参数经加工汉化后,显示到网页上供 CSSDL_HS 管理员进行监控和系统维护。2.根据权利要求 1 所。
8、述的所述的基于混合结构的数字图书馆云存储系统,其特征是 :CSSDL_HS 文件管理模块中所述的 CSSDL_HS 文件的智能预处理,是通过增设的一个判断上传文件的大小的智能文件预处理模块实现的,根据用户设定的阈值智能地对文件进行预处权 利 要 求 书CN 104462185 A2/2 页3理,设定两个阈值,阈值 1 为 16MB,阈值 2 为 64MB,智能文件预处理模块将多个小文件合并成大文件并建立索引,以便进行快速存取和访问,具体如下 :(1)PC 端用户上传文件 ;(2) 文件类型判断,当上传文件大于或者等于阈值 2,直接送入 HDFS 处理 ;(3)当上传文件小于阈值2并且大于或者等。
9、于阈值1,先送入HBASE,再送入HDFS处理 ;(4) 当上传文件小于阈值 1 时,送入小文件合并队列,当该队列中文件大小之和大于阈值2时,采用MapFile技术进行文件合并,然后将合并之后的大文件送入HDFS处理 ;否则返回小文件合并队列。权 利 要 求 书CN 104462185 A1/7 页4一种基于混合结构的数字图书馆云存储系统技术领域0001 本发明涉云存储技术,尤其涉及一种基于混合结构的数字图书馆云存储系统 ( 简称CSSDL_HS),属于数字图书馆文件的分布式存储的技术领域。本系统能够解决数字图书馆场景中文件的分布式存储问题,可以提高文件存储的速度,减少可能带来的人工误操作,使。
10、得在网络环境下数字图书馆中各种文件存储具有更好的可靠性和无故障性。背景技术0002 Hadoop 分布式文件系统 (Hadoop Distributed File System,简称 HDFS) 是一个高度容错的文件系统,支持分布式文件的存取,具有较高的安全性、稳定性。HDFS 是一种 Master/Slave 架构,一台服务器作为 NameNode 节点,其余服务器是 DataNode 数据节点。NameNode 负责管理文件的命名空间、数据复制和客户端对文件的访问。DataNode 在NameNode的管理下负责将文件中的数据保存在本地文件系统上。在基于混合结构的数字图书馆云存储应用方面,。
11、HDFS 具有如下特点 :(1) 硬件错误是常态而不是异态。HDFS 对需要存储的每一个数据块都保存多份 ( 用户可以通过修改配置文件更改副本数量,本发明中默认为三份 ) 并保存在不同的 DataNode 上,一旦某一个 DataNode 结点失效,NameNode 就会将该数据块复制到其他活跃的 DataNode 上,保证任何时候系统中的任一数据块的正常数量比例不低于阈值。(2) 流式数据访问。HDFS 系统的设计是数据批处理方式,而不是用户交互处理。考虑更多的是提高数据访问的吞吐量。(3) 大规模数据集。因为一个 HDFS 集群里可以扩展到数百个结点,所以 HDFS 能提供整体较高的数据传。
12、输带宽,从而更适于数字图书馆场景下各种大文件的网络存储。(4) 简单的一致性模型。HDFS 系统中的文件采取一次写入多次读取的策略,方便了数据的访问,也保证了数据的一致性。(5)可移植性,只要机器上安装有 Linux 系统和 Java 虚拟机就可以部署 HDFS。因此 HDFS 也继承了 Java 的高度可移植性。0003 在当今网络技术快速的发展情况下,信息技术不断发展,以印刷型书刊资料为主要收藏载体的传统图书馆难以适应这些新技术带来的新需求,也使得数字图书馆走上了历史舞台,数字资源的使用者和数字资源的种类、数量迅速增长,促进了数字图书馆的快速发展。然而数字图书馆现在所使用的存储技术都在不同。
13、程度上存在技术缺陷。目前数字资源的主要存储设备是磁带和主要采用 SATA 接口的磁盘,系统存储容量扩充难度大,存储在系统中的数据安全性较低,难以保证数据存储的可靠性、无故障性。资金投入量较大,使得现有的存储系统难以满足新服务的发展带来的日益增长的服务需求,也没有统一而可行的存 储技术标准指导数字图书馆资源的存储系统建设,严重地阻碍了应用服务器与存储系统之间的高速数据传输,整个系统极度缺乏快速数据备份和故障恢复能力,系统的运行也不稳定。0004 以云存储为基础的存储系统有四大决定性优势 :0005 1) 无限扩充。云存储系统采用了网格技术、P2P 技术和集群技术,支持大规模的数据存储,数字图书馆。
14、用户可以动态添加和管理存储结点和存储设备。说 明 书CN 104462185 A2/7 页50006 2) 实时数据迁移和快速备份。在云存储中,所有的存储设备和存储结点对于服务对象都是一个整体,采用虚拟化技术对所有的存储设备进行逻辑上的划分,形成一个个逻辑分区,新数据一旦被传入,系统会进行快速备份。0007 3) 投入资金量小。不需要高档的中小型计算机,可以由低廉的一般计算机组成。0008 4) 高安全性。数据和文件被保存在不同的存储结点上,并留有文件存储位置的索引,若某文件无法被访问,操作指令将被存储系统自动的发送到另一台存储有此文件存储结点上,使文件的访问正常进行。0009 综上所述,云存。
15、储技术非常适合存储数字图书馆资源,为图书馆节省了庞大的存储设施,不仅减少了经费开支、也提高了数字图书馆资源存储的安全性,从而加速了数字图书馆的发展。0010 Java Management eXtensions 技术,简称 JMX 技术,在标准 Java 技术基础上扩展的,定义管理系统和资源之间交互标准的管理规范,是管理系统和资源之间的一个接口。在Hadoop 技术的支持下,JMX 提供了获取 NameNode、DataNode 以及 JobTracker 运行的接口,并可以通过 Web 的形式展现出来。发明内容0011 本发明基于上述的技术,提出并实现了一种基于混合结构的数字图书馆云存储系统。
16、,能够解决数字图书馆场景中文件的分布式存储问题,可以提高文件存储的速度和可靠性,减少可能带来的人工误操作,达到在网络环境下高效管理数字图书馆中各种文件的目的。0012 本发明采用的技术方案如下 :0013 一种基于混合结构的数字图书馆云存储系统,其特征是 :针对数字图书馆中存在的多种不同类型和不同大小的文件,为数字图书馆文件的分布式存储设计了基于 Hadoop技术的混合结构,该混合结构同时支持HBase数据库技术和传统关系数据库SQL Server技术,所述混合结构包括以下部分 :0014 1) 数字图书馆的用户,该用户包括了支持读写功能的数字图书馆的 Web 端用户和支 持写功能的数字图书馆。
17、的 PC 端用户 ;0015 2)云存储服务器,用于提供基于Tomcat的数字图书馆的Web端用户的可视化操作界面,支持读写功能 ;0016 3) 应用服务器,用于提供基于写队列的数字图书馆的 PC 端用户实现写功能 ;0017 4) 混合结构中的核心控制模块,用于在云存储服务器和应用服务器之间提供一个信息交互的桥梁,从而实现对混合结构中的 HBase 和 MySQL 进行控制 ;0018 5) 混合结构中的 HBase 部分,是建立在 HDFS 基础之上的列数据库 ;0019 6) 混合结构中的 HDFS 部分,具体包括 NameNode 和 DataNode ;0020 7) 混合结构中的。
18、 MySQL 部分,具体包括用户元信息和文件元信息。0021 基于上述混合结构的数字图书馆云存储系统,利用Hadoop技术,以HDFS集群作为后台云存储框架,构造了五个模块 :0022 (1)CSSDL_HS 登录模块 :提供 CSSDL_HS 的新用户注册、注册用户登录和 CSSDL_HS的用户注销,用户按要求填入用户名、密码,进行登陆验证 ;如果用户信息验证成功,则可以说 明 书CN 104462185 A3/7 页6登陆系统 ;否则进入等待状态,等待用户重现输入 ;该模块通过数字图书馆的用户来进行展现 ;0023 (2)CSSDL_HS 用户管理模块 :提供查看和修改 CSSDL_HS 。
19、用户信息,依次通过数字图书馆的用户、数字图书馆的 PC 端用户、应用服务器、混合结构中的 MySQL 部分,并最终在混合结构中的 MySQL 部分存储用户的元信息 ;0024 (3)CSSDL_HS 文件管理模块 :提供 CSSDL_HS 文件的智能预处理、上传文件、下载文件、重命名文件和删除文件 ;CSSDL_HS 文件管理模块是 CSSDL_HS 中的一个核心模块,它首先分别经过数字图书馆的 PC 端用户和数字图书馆的 Web 端用户把信息分别传递给权云存储服务器和应用服务器,接着经过混合结构中的核心控制模块,实现云存储服务器和应用服务器之间的信息交互,其中数字图书馆的数据文件由混合结构中。
20、的 HBase 完成分布式文件存储,而数字图书馆的文件元信息由混合结构中的 MySQL 完成集中式存储 ;0025 (4)CSSDL_HS 文件夹管理模块 :提供 CSSDL_HS 的新建文件夹、重命名文件夹和删除文件夹 ;当用户注册系统时,CSSDL_HS 为该用户新建一个文件夹,作为该用户的根目录,之后用户所有的文件或文件夹操作 ( 新建、重命名和删除 ),都在该根目录下进行 ;通过数字图书馆的用户,完成 MySQL 的操作 ;0026 (5)CSSDL_HS 服务器管理模块 :用于提供查看 CSSDL_HS 服务器信息,依次通过 数字图书馆的用户、数字图书馆的 PC 端用户,把信息分别传。
21、递给云存储服务器,接着通过调用 Hadoop 的 JMX 接口,实时获取 HDFS 服务器运行参数 ( 使用 JMX 的 Rest 形式 ),这些参数经加工汉化后,显示到网页上供 CSSDL_HS 管理员进行监控和系统维护。0027 本发明的优点及显着效果 :本发明提供的基于混合结构的数字图书馆云存储系统(CSSDL_HS) 能够解决数字图书馆场景中文件的分布式存储问题,可以提高文件存储的速度和可靠性,减少可能带来的人工误操作,达到在网络环境下高效管理数字图书馆中各种文件的目的。附图说明0028 图 1 为数字图书馆云存储中的混合结构 ;0029 图 2 为基于混合结构的数字图书馆云存储系统的。
22、结构 ;0030 图 3 为 CSSDL_HS 中的智能文件预处理模块 ;0031 图 4 为 CSSDL_HS 总体框架 ;0032 图 5 为 CSSDL_HS 登录模块 ;0033 图 6 为 CSSDL_HS 中的下载文件模块 ;0034 图 7 为 CSSDL_HS 中的删除文件模块 ;图 8 为南京图书馆资源云存储系统中 CSSDL_HS 文件管理模块的具体实施例。具体实施方式0035 为了实现基于混合结构的数字图书馆云存储方案CSSDL_HS,本发明利用了Hadoop技术。下面结合附图对本发明中基于混合结构的数字图书馆云存储方案的具体实施方式,进行详细说明,应理解这些实施仅用于说。
23、明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利说 明 书CN 104462185 A4/7 页7要求所限定的范围。0036 如图 1,所述的数字图书馆云存储中的混合结构,主要包括 :0037 1) 数字图书馆的用户,该用户包括了支持读写功能的数字图书馆的 Web 端用户和支持写功能的数字图书馆的 PC 端用户 ;0038 2)云存储服务器,用于提供基于Tomcat的数字图书馆的Web端用户的可视化操作界面,支持读写功能 ;0039 3) 应用服务器,用于提供基于写队列的数字图书馆的 PC 端用户实现写功能 ;0040 4) 。
24、混合结构中的核心控制模块,用于在云存储服务器和应用服务器之间提供一个交互的桥梁,从而实现对混合结构中的 HBase 和 MySQL 进行控制 ;0041 5) 混合结构中的 HBase 部分,即建立在 HDFS 基础之上的列数据库 ;0042 6) 混合结构中的 HDFS 部分,具体包括 NameNode 和 DataNode ;0043 7) 混合结构中的 MySQL 部分,具体包括用户元信息和文件元信息。0044 如图 2,所述的基于混合结构的数字图书馆云存储系统的结构,包括五个功能模块:0045 1)CSSDL_HS 登录模块 :提供 CSSDL_HS 的新用户注册、注册用户登录和 CS。
25、SDL_HS的用户注销,用户按要求填入用户名、密码,进行登陆验证 ;如果用户信息验证成功,则可以登陆系统 ;否则进入等待状态,等待用户重现输入 ;该模块通过数字图书馆的用户来进行展现 ;0046 2)CSSDL_HS 用户管理模块 :提供查看和修改 CSSDL_HS 用户信息,依次通过数字图书馆的用户、数字图书馆的 PC 端用户、应用服务器、混合结构中的 MySQL 部分,并最终在混合结构中的 MySQL 部分存储用户的元信息 ;0047 3)CSSDL_HS 文件管理模块 :提供 CSSDL_HS 文件的智能预处理、上传文件、下载文件、重命名文件和删除文件 ;CSSDL_HS 文件管理模块是。
26、 CSSDL_HS 中的一个核心模块,它首先分别经过数字图书馆的 PC 端用户和数字图书馆的 Web 端用户把信息分别传递给权云存储服务器和应用服务器,接着经过混合结构中的核心控制模块,实现云存储服务器和应用服务器之间的信息交互,其中数字图书馆的数据文件由混合结构中的 HBase 完成分布式文件存储,而数字图书馆的文件元信息由混合结构中的 MySQL 完成集中式存储 ;0048 上述 CSSDL_HS 文件管理模块是基于 Hadoop 技术来实现的 , 以 HDFS 系统作为后台云存储框架。但是 HDFS 的架构是基于一组特定的结点构建的,文件被分块 ( 大小和数量在由 CSSDL_HS 用户。
27、在创建文件时决定 ) 复制到多个 DataNode 中。数字图书馆用户通过NameNode控制所有文件操作,同时NameNode负责将文件分块并分配到各个DataNode ;而具体的数据存储工作 ( 即存储划分好的各个分块 ) 则由 DataNode 负责。虽然这种架构简化了 HDFS 的整体结构,但由于所有文件不论大小均占用一个块存储,使得系统所能处理的文件数量受到 NameNode( 负责存储文件元数据 ) 的内存容量的限制,从而导致小文件存储效率较低,以至于目前的硬件能力无法满足需求。0049 因此,本发明在实现传统数字图书馆云存储系统的功能的基础上增加了一个判断上传文件的大小的智能文件。
28、预处理模块,若小于阈值则交给智能文件预处理模块进行预处理。若大于或者等于阈值直接上传HDFS系统。智能文件预处理模块将多个小文件合并成大文件并建立索引,以便进行快速存取和访问。CSSDL_HS文件管理模块中的智能预处理模块,说 明 书CN 104462185 A5/7 页8它可以根据用户设定的阈值智能地对文件进行预处理,本发明中的阈值 1 设定为 16MB,阈值 2 设定为 64MB,如图 3 所示,具体包括 :0050 (1)PC 端用户上传文件 ;0051 (2) 文件类型判断,当上传文件大于或者等于阈值 2,直接送入 HDFS 处理 ;0052 (3) 当上传文件小于阈值 2 并且大于或。
29、者等于阈值 1,先送入 HBASE,再送入 HDFS处理 ;0053 (4)当上传文件小于阈值1时,送入小文件合并队列。当该队列中文件大小之和大于阈值2时,采用MapFile技术进行文件合并,然后将合并之后的大文件送入HDFS处理 ;否则返回小文件合并队列。0054 4)CSSDL_HS 文件夹管理模块 :提供 CSSDL_HS 的新建文件夹、重命名文件夹和删除文件夹 ;当用户注册系统时,CSSDL_HS 为该用户新建一个文件夹,作为该用户的根目录,之后用户所有的文件或文件夹操作 ( 新建、重命名和删除 ),都在该根目录下进行 ;通过数字图书馆的用户,完成 MySQL 的操作 ;0055 5)。
30、CSSDL_HS 服务器管理模块 :用于提供查看 CSSDL_HS 服务器信息,依次通过数字图书馆的用户、数字图书馆的 PC 端用户,把信息分别传递给云存储服务器,接着通过调用Hadoop 的 JMX 接口,实时获取 HDFS 服务器运行参数 ( 使用 JMX 的 Rest 形式 ),这些参数经加工汉化后,显示到网页上供 CSSDL_HS 管理员进行监控和系统维护。0056 如图 4,描述了图 2 所述的各个功能之间相关的关系。0057 图 4 还说明了 CSSDL_HS 的管理员界面和普通用户界面的区别,CSSDL_HS 管理员可以通过管理员界面进行所有操作 :服务器管理、用户管理、用户修改。
31、信息、文件夹管理和文件管理的操作 ;而 CSSDL_HS 普通用户仅可以进行用户修改信息、文件夹管理和文件管理的操作。0058 图 4 还说明了所述的 CSSDL_HS 文件管理模块的具体实现内容,CSSDL_HS 的普通用户可以进入文件管理模块查看其所有文件和文件夹信息 ( 包括文件名、大小、创建时间等 ),并进行智能预处理、上传文件、重命名文件、下载文件和删除文件 ;而 CSSDL_HS 管理员除以上操作外,还可以在CSSDL_HS用户管理模块查看所有CSSDL_HS用户文件,点击用户名将进入该 CSSDL_HS 用户的文件管理界面。所述的上传文件,具体的实现流程如下 :系统首先将文件上传。
32、至本地缓存,然后由智能文件预处理模块进行预处理,若文件大小大于或者等于阈值则直接上传至 HDFS 系统 ;若文件大小小于阈值则先将文件写入合并队列,当队列中文件总容量到达阈值时再打包上传至HDFS系统 ;最后删除本地缓存文件。所述的文件重命名是指 CSSDL_HS 用户可以在系统中对文件进行重命名。0059 图 4 所述的 CSSDL_HS 文件夹管理模块,具体的实现流程如下 :CSSDL_HS 新用户注册后系统会自动新建一个根目录并记录其 ID,CSSDL_HS 用户的所有文件操作 ( 包括新建、重命名以及删除文件夹 ) 都将在该根目录下进行。当 CSSDL_HS 用户删除文件夹时,系统会在。
33、 MySQL 数据库中遍历所有属于该文件夹的文件和文件夹并标记删除。0060 图4所述的CSSDL_HS服务器管理模块,模块具体的内容是 :用于实时获取HDFS服务器运行参数 ( 使用 JMX 的 Rest 形式 ),这些参数经加工汉化后,显示到网页上供 CSSDL_HS 管理员进行监控和系统维护。0061 如图 5,所述的 CSSDL_HS 登录模块,该模块的工作流程如图 5 所示,首次使用系统说 明 书CN 104462185 A6/7 页9的用户填入必需的个人信息后即可注册成为 CSSDL_HS 普通用户,注册后须等待 CSSDL_HS管理员审核信息,否则无法登录。已注册的 CSSDL_。
34、HS 用户输入用户名和密码,待登录模块验证成功后则可以登录系统。否则需重新输入信息。0062 如图 6,所述的 CSSDL_HS 中的下载文件模块,具体实施方式如下 :系统首先会在本地缓存查找该文件是否存在。如果文件存在则直接返回缓存中的文件。否则系统将从HDFS服务器下载该文件至本地缓存,再返回给 CSSDL_HS 用户。0063 如图7,所述的CSSDL_HS中的删除文件模块,具体实施方式如下 :CSSDL_HS用户删除文件时,系统会在 MySQL 数据库中标记该文件已被删除,并由图 3 所述的 CSSDL_HS 智能文件预处理模块进行预处理,若文件大小大于或者等于阈值则直接在 HDFS 。
35、系统中删除该文件。若文件大小小于阈值则暂不处理,待系统再次启动时后台清理程序会定期清理已经被 CSSDL_HS 用户删除的小文件。0064 下面我们以南京图书馆为例,进一步说明本专利所述的基于混合结构的数字图书馆云存储方案的具体实施方式。0065 作为江苏省省级公共图书馆,南京图书馆馆藏数字资源目前包括 110 万种电子图书、46 个商业数据库以及自建特色数字资源共 100TB。随着古籍保护和民国文献全文数字化、自建特色数据库和自主版权视频资源的数字化,南京图书馆的数字资源呈现爆发式增涨。0066 一般云平台的资源管理方法可以解决图书馆传统存储在容量扩展方面的弊病。但是,由于数字图书馆中文件的。
36、类型包含当前所有的数字类型 ;且文件的大小,从几个字节的小文件到几百 GB 大小的大文件不等。上述文件类型和文件大小方面的特殊性导致一般云平台的资源管理方法不能高效运行。为此,我们根据所述的基于混合结构的数字图书馆云存储方案,进行了相应的原型系统开发和实现。测试结果表明 :本专利所述的混合结构是可行和有效的 ;基于本专利所述的这种混合结构,本专利所述的五个功能模块和智能文件预 处理模块是可以实现的。原型系统的具体测试环境如下 :0067 对应图 1 中的 NameNode 为 1# 电脑,其配置如表 10068 表 1 1# 电脑的配置0069 支撑环境 具体配置 CPU I7 内存 8G 硬。
37、盘 1T 操作系统版本 CentOS6.4 JDK 版本 JDK7 0070 对应图 1 中的 DataNode 为 2 台电脑 (2# 电脑和 3# 电脑 ),其中 2# 电脑的配置同表 1,3# 电脑的配置如表 2。0071 表 2 3# 电脑的配置0072 项目 具体配置 CPU 1 颗 Xeon3600 双核 内存 4G 硬盘 1T 操作系统版本 CentOS6.4 说 明 书CN 104462185 A7/7 页10JDK 版本 JDK7 0073 基于本专利所述的方案,我们实现了南京图书馆资源云存储系统,其中所述的CSSDL_HS 文件管理模块的具体实现的屏幕拷贝,如图 8 所示。说 明 书CN 104462185 A。