一种基于知识发现技术的古籍文献管理系统及方法.pdf

摘要
申请专利号：	CN201610982528.2	申请日：	2016.11.09
公开号：	CN106503247A	公开日：	2017.03.15
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 17/30申请日:20161109\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	天津赛因哲信息技术有限公司
发明人：	杨存耿; 谢术清; 杨晓强
地址：	300000 天津市滨海新区滨海高新区华苑产业区华天道3号综合楼A区516单元（入驻创新服务公司）
优先权：
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

本发明提供了一种基于知识发现技术的古籍文献管理系统及方法，包括古籍文献处理数据库、古籍文献导入模块、数据库内容管理单元、文献信息分类管理单元和检索部分，检索部分包括全文检索单元和知识发现功能检索单元。本发明所述的一种基于知识发现技术的古籍文献管理系统及方法，通过自动化表音、智能提取技术，解决了词典分词技术的难题，综合采用逆向最大匹配法、基于词的频度统计的分词方法和基于知识理解的分词方法三种方式，实现估计文本的分词处理，速度快，错误率低，从古籍文献数据中提炼出有意义的、简洁的知识，将数据转换为合适的格式，从数据中找到模式，评价解释发现结果，且知识发现有深度有准度，能为使用者提供实际性参考意义。

权利要求书

1.一种基于知识发现技术的古籍文献管理系统，其特征在于：包括古籍文献处理数据
库(1)、古籍文献导入模块(2)、数据库内容管理单元(3)、文献信息分类管理单元(4)和检索
部分(5)，检索部分(5)包括全文检索单元(6)和知识发现功能检索单元(7)，古籍文献导入
模块(2)可将收集的古籍文献导入古籍文献处理数据库(1)形成原始数据库(8)，数据库内
容管理单元(3)可对原始数据库(8)内的内容进行进一步分类管理，文献信息分类管理单元
(4)可根据分类对文献进行检索页面设计，并生成检索页面，供使用者进行检索，检索部分
(5)可对文献进行全文检索或知识发现检索。
2.根据权利要求1所述的一种基于知识发现技术的古籍文献管理系统，其特征在于：数
据库内容管理单元(3)包括依次连接的原始数据库(8)、关系索引文献库(9)和逻辑学习文
献库(10)；
原始数据库(8)由古籍文献导入模块(2)将收集到的文献导入形成，可存储庞大的文献
数据信息；
关系索引数据库(9)由原始数据库(8)通过自动分词技术形成以词为检索单元的古籍
文献，并应用进化计算、神经网络和模糊逻辑方法和基于词频、词构模式、词构年代和地域
特征的词分析方法建立专有名词库形成；
逻辑学习文献库(10)由对关系索引数据库(9)的索引结果进行进一步的分类应用和人
为调整形成。
3.一种基于知识发现技术的古籍文献管理方法，其特征在于：该方法包括以下步骤：
步骤一：建立原始数据库(8)，并将文献信息导入原始数据库(8)；
步骤二：对原始数据库(8)进行处理，形成关系索引文献库(9)；
步骤三：对关系索引文献库(9)进行处理，形成逻辑学习文献库(10)，并最终分为方法
知识库、基础知识库和动态知识库；
步骤四：建立知识目录，并设置数据库家检索页面；
步骤五：建立人工交互机制，允许用户管理知识库，包括重设知识目录，新增、删除每个
知识要点的相关信息；
步骤六：对数据库进行检索，包括全文检索功能和知识发现功能：
1)全文检索功能，包括字、词检索的基本功能，逻辑检索与、或、非等；启用/停用关联字
词检索等功能；
2)知识发现功能，包括知识智能匹配和知识关联分析；知识智能匹配包括资源个性化
推荐和用户行为分析；知识关联分析包括只是关联亚军和知识可视化。
4.根据权利要求3所述的一种基于知识发现技术的古籍文献管理方法，其特征在于：所
述知识发现功能检索单元(7)可利用知识发现技术对数据库进行检索，最终得出有用的知
识，知识发现技术在应用过程中基于以下步骤：
步骤一：特征提取，从与专有名词相关的一组数据中提取出关于这些数据的特征式；
步骤二：分类，根据专有名词的不同特征式，基于决策树方法，神经网络方法将其划分
为不同的数据类；
步骤三：聚类，分类结束后，每类中的数据由唯一的标志进行表示，类中的数据的共同
特征也被提取出来用于对该类的特征描述；
步骤四：相关性分析，应用回归分析，新年网络等技术，发现特征之间或数据之间的相
互依赖关系；
步骤五：偏差分析，寻找观察结果与参照量之间的有意义的差别。
5.根据权利要求3所述的一种基于知识发现技术的古籍文献管理方法，其特征在于：古
籍文献导入模块(2)将文献导入数原始据库(8)的途径包括：
1)通过数字版权购买、网络资源收集将文献导入原始数据库(8)；
2)通过图书档案馆互利联营将文献导入原始数据库(8)；
3)通过自主收集整理扫描识别将文献导入原始数据库(8)。

说明书

一种基于知识发现技术的古籍文献管理系统及方法

技术领域

本发明属于电子信息管理方法技术领域，尤其是涉及一种基于知识发现技术的古
籍文献管理系统及方法。

背景技术

自从20世纪80年代以来，通过二十多年来的古籍数字化建设我国已经在古籍文献
管理已经取得了实质性的进展，但在发展和实际使用的过程中依然存在着很多的问题，例
如：1、古籍数字化标引检索技术亟待完善，其中“古汉语词典切分技术”目前尚未解决，影响
了古籍自动标引、名称主体检索及专有名词检索的实现；2、知识发现技术有待进一步提高，
此项技术目前仍处于起步阶段，还有很多研究难题有待解决，如数据的巨量性、动态性、噪
声性、缺值和稀疏性，发现模式的可理解性、兴趣或价值性，应用系统的集成，用户的交互操
作，知识的更新管理，复杂数据库的处理，挖掘性能问题和挖掘的数据类型的多样性等问
题；3、古籍缺乏整体规划，重复建设和遗弃严重；4、文献购置和设备购置成为制约古籍数字
化的两大难题。为了进一步完善古籍文献管理方法，对上述问题的解决是在必行。

发明内容

有鉴于此，本发明旨在提出一种基于知识发现技术的古籍文献管理系统及方法，
以全面形成智能化的古籍文献，更加便于使用者对于文献进行查找。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于知识发现技术的古籍文献管理系统，包括古籍文献处理数据库、古籍文
献导入模块、数据库内容管理单元、文献信息分类管理单元和检索部分，检索部分包括全文
检索单元和知识发现功能检索单元，古籍文献导入模块可将收集的古籍文献导入古籍文献
处理数据库形成原始数据库，数据库内容管理单元可对原始数据库内的内容进行进一步分
类管理，文献信息分类管理单元可根据分类对文献进行检索页面设计，并生成检索页面，供
使用者进行检索，检索部分可对文献进行全文检索或知识发现检索。

进一步的，数据库内容管理单元包括依次连接的原始数据库、关系索引文献库和
逻辑学习文献库；

原始数据库由古籍文献导入模块将收集到的文献导入形成，可存储庞大的文献数
据信息；

关系索引数据库由原始数据库通过自动分词技术形成以词为检索单元的古籍文
献，并应用进化计算、神经网络和模糊逻辑方法和基于词频、词构模式、词构年代和地域特
征的词分析方法建立专有名词库形成；

逻辑学习文献库由对关系索引数据库的索引结果进行进一步的分类应用和人为
调整形成。

一种基于知识发现技术的古籍文献管理方法，该方法包括以下步骤：

步骤一：建立原始数据库，并将文献信息导入原始数据库；

步骤二：对原始数据库进行处理，形成关系索引文献库；

步骤三：对关系索引文献库进行处理，形成逻辑学习文献库，并最终分为方法知识
库、基础知识库和动态知识库；

步骤四：建立知识目录，并设置数据库家检索页面；

步骤五：建立人工交互机制，允许用户管理知识库，包括重设知识目录，新增、删除
每个知识要点的相关信息；

步骤六：对数据库进行检索，包括全文检索功能和知识发现功能：

1)全文检索功能，包括字、词检索的基本功能，逻辑检索与、或、非等；启用/停用关
联字词检索等功能；

2)知识发现功能，包括知识智能匹配和知识关联分析；知识智能匹配包括资源个
性化推荐和用户行为分析；知识关联分析包括知识关联挖掘和知识可视化。

进一步的，所述知识发现功能检索单元可利用知识发现技术对数据库进行检索，
最终得出有用的知识，知识发现技术在应用过程中基于以下步骤：

步骤一：特征提取，从与专有名词相关的一组数据中提取出关于这些数据的特征
式；

步骤二：分类，根据专有名词的不同特征式，基于决策树方法，神经网络方法将其
划分为不同的数据类；

步骤三：聚类，分类结束后，每类中的数据由唯一的标志进行表示，类中的数据的
共同特征也被提取出来用于对该类的特征描述；

步骤四：相关性分析，应用回归分析，新年网络等技术，发现特征之间或数据之间
的相互依赖关系；

步骤五：偏差分析，寻找观察结果与参照量之间的有意义的差别；

进一步的，古籍文献导入模块将文献导入数原始据库的途径包括：

1)通过数字版权购买、网络资源收集将文献导入原始数据库；

2)通过图书档案馆互利联营将文献导入原始数据库；

3)通过自主收集整理扫描识别将文献导入原始数据库。

相对于现有技术，本发明所述的一种基于知识发现技术的古籍文献管理系统及方
法具有以下优势：

本发明所述的一种基于知识发现技术的古籍文献管理系统及方法，通过自动化表
音、智能提取技术，解决了词典分词技术的难题，综合采用逆向最大匹配法、基于词的频度
统计的分词方法和基于知识理解的分词方法三种方式，实现估计文本的分词处理，速度快，
错误率低，从古籍文献数据中提炼出有意义的、简洁的知识，直接向使用者报告，选择重要
的数据项，缩减、预处理和浓缩数据组，将数据转换为合适的格式，从数据中找到模式，评价
解释发现结果，且知识发现有深度有准度，能为使用者提供实际性参考意义。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实
施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的一种基于知识发现技术的古籍文献管理系统及方法的
整体结构示意图；

图2为本发明实施例所述的一种基于知识发现技术的古籍文献管理系统及方法的
数据库内容管理结构示意图；

图3为本发明实施例所述的一种基于知识发现技术的古籍文献管理系统及方法的
知识发现技术处理过程。

附图标记说明：

1-古籍文献信息数据库，2-古籍文献导入模块，3-数据库内容管理单元，4-文献信
息分类管理单元，5-检索部分，6-全文检索单元，7-知识发现功能检索单元，8-原始数据库，
9-关系索引文献库，10-逻辑学习文献库。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相
互组合。

下面将参考附图并结合实施例来详细说明本发明。

如图1所示，一种基于知识发现技术的古籍文献管理系统，包括古籍文献处理数据
库1、古籍文献导入模块2、数据库内容管理单元3、文献信息分类管理单元4和检索部分5，检
索部分5包括全文检索单元6和知识发现功能检索单元7，古籍文献导入模块2可将收集的古
籍文献导入古籍文献处理数据库1形成原始数据库8，数据库内容管理单元3可对原始数据
库8内的内容进行进一步分类管理，文献信息分类管理单元4可根据分类对文献进行检索页
面设计，并生成检索页面，供使用者进行检索，检索部分5可对文献进行全文检索或知识发
现检索。

图如图2所示，数据库内容管理单元3包括依次连接的原始数据库8、关系索引文献
库9和逻辑学习文献库10；

原始数据库8由古籍文献导入模块2将收集到的文献导入形成，可存储庞大的文献
数据信息；

关系索引数据库9由原始数据库8通过自动分词技术形成以词为检索单元的古籍
文献，并应用进化计算、神经网络和模糊逻辑方法和基于词频、词构模式、词构年代和地域
特征的词分析方法建立专有名词库形成；

逻辑学习文献库10由对关系索引数据库9的索引结果进行进一步的分类应用和人
为调整形成。

一种基于知识发现技术的古籍文献管理方法，该方法包括以下步骤：

步骤一：建立原始数据库8，并将文献信息导入原始数据库8；

步骤二：对原始数据库8进行处理，形成关系索引文献库9；

步骤三：对关系索引文献库9进行处理，形成逻辑学习文献库10，并最终分为方法
知识库、基础知识库和动态知识库；

步骤四：建立知识目录，并设置数据库家检索页面；

步骤五：建立人工交互机制，允许用户管理知识库，包括重设知识目录，新增、删除
每个知识要点的相关信息；

步骤六：对数据库进行检索，包括全文检索功能和知识发现功能：

1)全文检索功能，包括字、词检索的基本功能，逻辑检索与、或、非等；启用/停用关
联字词检索等功能；

2)知识发现功能，包括知识智能匹配和知识关联分析；知识智能匹配包括资源个
性化推荐和用户行为分析；知识关联分析包括只是关联亚军和知识可视化。

如图3所示，所述知识发现功能检索单元7可利用知识发现技术对数据库进行检
索，最终得出有用的知识，知识发现技术在应用过程中基于以下步骤：

步骤一：特征提取，从与专有名词相关的一组数据中提取出关于这些数据的特征
式；

步骤二：分类，根据专有名词的不同特征式，基于决策树方法，神经网络方法将其
划分为不同的数据类；

步骤三：聚类，分类结束后，每类中的数据由唯一的标志进行表示，类中的数据的
共同特征也被提取出来用于对该类的特征描述；

步骤四：相关性分析，应用回归分析，新年网络等技术，发现特征之间或数据之间
的相互依赖关系；

步骤五：偏差分析，寻找观察结果与参照量之间的有意义的差别。

古籍文献导入模块2将文献导入数原始据库8的途径包括：

1)通过数字版权购买、网络资源收集将文献导入原始数据库8；

2)通过图书档案馆互利联营将文献导入原始数据库8；

3)通过自主收集整理扫描识别将文献导入原始数据库8

将文献导入原始数据库8后，系统会对文本数据进行自动分词、自动分类、自动标
引、相关性建立相应的知识库，从大量的数据样例中进行提取知识，利用模糊逻辑，决策树
分类等数据挖掘方法来找出有用的人名、地名、事件等有用的信息，实现专有名词全方位立
体关系检索，同时生成检索页面，实现人机交互，允许用户管理知识库，包括重设知识目录，
新增、删除每个知识要点的相关信息，通过全文检索或知识发现功能进行检索。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精
神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。