一种数字图书馆管理系统技术领域
本发明涉及数字图书馆领域,具体涉及一种数字图书馆管理系统。
背景技术
目前,大多数数字图书馆是采用简单的包库方式销售,并通过IP地址控制认证合
法用户。数字图书馆的这种管理模式存在以下弊端:不能明确地控制和管理服务对象,常常
导致恶意的或过度的全文下载现象,并且,只能关闭对该IP范围内的所有用户的服务以避
免恶意的或过度的全文下载造成更大的损失,这给数字图书馆服务商及其服务对象都造成
了损失。
发明内容
针对上述问题,本发明旨在提供一种数字图书馆管理系统。
本发明的目的采用以下技术方案来实现:
提供了一种数字图书馆管理系统,包括认证模块、授权模块和资源访问模块,所述
资源访问模块包括数据采集模块、数据分类模块、分类检测模块和检测融合模块,认证模
块,用于用户向图书馆服务器申请访问资源后,图书馆服务器验证用户和终端接口;授权模
块,用于验证成功后,图书馆服务器将授权码写入用户的终端接口,并链接到资源商服务
器;资源访问模块,用于资源商服务器对身份认证信息和授权访问请求的双重认证后,允许
用户访问、使用资源。
本发明的有益效果为:提高了访问安全性。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限
制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得
其它的附图。
图1是本发明的结构连接示意图。
附图标记:
认证模块1、授权模块2、资源访问模块3。
具体实施方式
结合以下实施例对本发明作进一步描述。
参见图1,本实施例的一种数字图书馆管理系统,包括认证模块1、授权模块2和资
源访问模块3,所述资源访问模块3包括数据采集模块、数据分类模块、分类检测模块和检测
融合模块,认证模块1,用于用户向图书馆服务器申请访问资源后,图书馆服务器验证用户
和终端接口;授权模块2,用于验证成功后,图书馆服务器将授权码写入用户的终端接口,并
链接到资源商服务器;资源访问模块3,用于资源商服务器对身份认证信息和授权访问请求
的双重认证后,允许用户访问、使用资源,所述数据采集模块用于采集需要进行检测的数
据;所述数据分类模块用于将由数据采集模块输出的数据划分为图像数据和文本数据,并
对分类后的数据进行过滤处理;所述分类检测模块用于对分类后的数据进行分析检测;所
述检测融合模块用于根据检测需求筛选所需的图像数据和文本数据。
优选地,用户和终端接口预先向图书馆服务器进行注册,以在图书馆服务器中预
存所述用户和终端接口标识信息。
本优选实施例便于控制和管理服务对象。
优选地,图书馆服务器向资源商服务器注册,获得图书馆服务器代码,并将图书馆
服务器中用户和终端接口注册信息传送到资源商服务器。
本优选实施例便于资源商服务器对图书馆进行管理。
优选的,所述采集需要进行检测的数据,包括:
(1)采集一定时间段内需要进行检测的数据,按设定的过滤规则对该数据进行初
步过滤处理,所述设定的过滤规则包括删除包含特殊字符、推广相关的特殊汉字和网页链
接的内容的数据;
(2)设所述一定时间段的时间范围为[XB,XE],将[XB,XE]按照时间顺序平均分为n
个子时间段,对每个子时间段内的数据进行重要度评估,评估公式定义为:
式中,Ui为第i个子时间段的重要程度,UTi为设定的第i个子时间段的重要
程度值,Gi为第i个子时间段的数据的数量,G为在[XB,XE]内的数据的数量;将各重要度按照
由小到大进行排序,按照重要度的排列顺序,将数据依次发送至数据分类模块。
本优选实施例通过设定过滤规则,将不需要进行检测的数据进行删除,减少了检
测后续处理的数据量;通过对各子时间段的数据进行重要度评估,并按照重要度的排列顺
序,将数据依次发送至数据分类模块,使后续的模块能够预先处理重要程度高的数据,提高
了检测的速度。
优选的,所述对分类后的数据进行过滤处理,包括:
a、提取文本数据,对该文本数据进行聚类处理,形成多个类别的文本数据集;
b、计算每个类别的文本数据集中的数据的数量,按照数量由少到大的顺序对多个
文本数据集进行排序;删除前27%的文本数据集,将剩余的文本数据集以及图像数据发送
至分类检测模块。
本优选实施例进一步对文本数据进行聚类处理,过滤掉数量较少的文本数据集,
减少了后续检测的数据量,从而进一步提高了检测的速度。
优选的,所述对该文本数据进行聚类处理,包括:
a、确定聚簇的个数K,包括:对该文本数据采用等距法设定k-means聚类算法的初
始中心,得到聚类中心;在得到聚类中心后将相邻的聚类中心的中点作为分类的划分点,将
各个对象加入到距离最近的类中,从而确定聚簇的个数K;
b、将该文本数据划分为n个样本,对n个样本进行向量化,通过夹角余弦函数计算
所有样本两两之间的相似度,得到相似度矩阵SIM:
SIM=[sim(ei,ej)]n×n,i,j=1,…,n
c、计算每一个样本与其它所有样本的相似度之和,求和公式为:
式中,为样本ei与其它所有样本的相似度之和,sim(ei,ej)表示样本ei,ej间的相似度,
i,j=1,…,n;
d、按降序排列设按从大到小排列的前4个值对应的样本为
emax,emax-1,emax-2,emax-3,根据下列公式确定第一个初始的聚簇中心mi:
其中,ωmax-μ表示emax-μ的重要度权值;
e、对中的最大值对应的矩阵中行向量的元素进行升序排列,假设前k-1个最
小的元素为SIMpq,q=1,…,k-1,选择前k-1个最小的元素SIMpq相对应的样本作为剩余的k-
1个初始的聚簇中心;
f、计算剩余样本与各初始的聚簇中心之间的相似度,将剩余样本分发到相似度最
高的聚簇中,形成变化后的k个聚簇;计算变化后的聚簇中各样本的均值,将其作为更新后
的聚簇中心代替更新前的聚簇中心;若更新前的聚簇中心与更新后的聚簇中心相同,或者
目标函数达到了最小值,停止更新,所述目标函数为:
其中,Cl表示k个聚簇中的第l个聚簇,ex为第l个聚簇中的样本,为第l个聚簇的
中心。
本优选实施例有效避免单一采取随机抽样方法所带来的偶然性,解决对该文本数
据进行聚类处理时在选取k值以及初始化聚类中心时所存在的问题,提高了聚类稳定性,进
一步提高了对文本数据进行过滤处理的精度。
优选的,所述分类检测模块包括图像数据检测单元和文本数据检测单元;所述图
像数据检测单元基于语义特征对图像数据进行检测,具体为:采用小波变换的方法对图像
进行分割,对区域低层特征进行提取,构造特征矩阵,再应用非负矩阵分解训练算法构造语
义空间,将图像投影到该空间以获取图像语义特征;所述文本数据检测单元包括文本数据
建模子单元、文本数据分类子单元、检测子单元,具体为:
(1)文本数据建模子单元,用于使用构成文档的词项来表达文档的语义,其将n篇
文档t1,t2,…,tn的每篇文档表示成m维特征向量v1,v2,…,vm,构成n×m的文档-特征矩阵:
其中,m为构成文档的词项的数量;
其中,h(ti,vj)表示词项vj在文档ti中所占权重,f(ti,vj)表示词项vj在文档ti中出
现的次数,f(vj)表示词项vj在所有文档中出现的次数总和;
(2)文本数据分类子单元,用于对建模后的文本文档进行分类,具体包括:
a、将文本集中的文档随机映射到一个二维平面网格空间,每个网格中只能投影一
篇文档,同时,在二维平面上放置一定数量的蚂蚁;
b、每只蚂蚁随机在二维网格空间移动,选择一个文档捡起,并携带它在二维网格
空间随机移动,每移动一次,蚂蚁计算它所携带文档或者所在网格中的文档与周围环境的
群体相似度,决定是否捡起或者放下该文档,将每个网格作为二维网格空间离散值,设蚂蚁
所在位置为p,它所在环境的群体相似度定义为:
式中,ti∈p(a×a)表示文档ti在位置p的边长a×a的邻域,r(ti,tj)表示两篇文档之间的文
本距离,σ表示相似度因子,σ的取值范围是[1,2],式
中,m表示文档中词项数量;
c、捡起和放下,如果蚂蚁没有携带任何文档移动,那么它将捡起与周围环境群体
相似度较低的文档;如果蚂蚁正在携带一篇文档移动,那么当蚂蚁处于空网格,并且这篇文
档与周围环境的群体相似度较高时,它将放下这篇文档,捡起概率Pj(ti)和放下概率Pf(ti)
定义为:式中,T1和T2为常数阈值,
T1=0.14,T2=0.16;
d、返回执行b和c,经过一段时间,相似性高的文档将被聚集在同一区域。
本优选实施例对数据进行分类检测,能够充分利用不同类型数据特点,采用对应
的方法进行检测,提高了检测的针对性;对文档进行建模,将非结构化的文本数据转换成可
计算的结构化数据,同时便于后续对文档进行分类;文本数据分类子单元提高了检测效率,
节约了检测时间。
本发明数字图书管管理系统数据检测结果如下表所示:
数字图书书目
数据检测速度
数据检侧准确率
5万本
0.22s
96%
6万本
0.26s
94%
7万本
0.28s
93%
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保
护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应
当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实
质和范围。