一种古籍智能数字化文献库的建立方法技术领域
本发明属于古籍知识发现领域领域,涉及一种文献库的建立方法,尤其是涉及一
种古籍智能数字化文献库的建立方法。
背景技术
自从20世纪80年代以来,通过二十多年的古籍数字化建设,我国已经在项目建设
和理论研究方面取得了实质性的进展,但在其发展和实现的过程中,有着自身和外在不可
逾越,或者说是在一定时期内无法逾越的问题,主要表现在以下几个方面:1.古籍数字化的
标引检索技术亟待完善;2.知识发现技术有待进一步提高;3.古籍缺乏整体规划,重复建设
和遗弃严重;4.文献购置和设备购置成为制约古籍数字化的两大难题。
由于在古籍整理和数字化方面,我国乃至世界范围内,缺乏一个整体的领导和规
划,使得古籍数字化工作存在着重复建设的问题,如文渊阁《四库全书》的数字化就存在着
上海人民出版社、迪志文化出版有限公司和武汉大学出版社的三个版本。另外,古籍整理技
术成果不能得到充分利用,千百年来我国的古籍整理先人所形成的成果,尤其是二次文献
成果(如30年代的哈佛燕京学社的索引)在现今似已被遗弃,失去了其存在的价值。
图书馆的古籍文献状态分为“物理拥有”(拥有模式是指提供给读者的服务是通过
物理存在概念上的本馆占有文献来实现的模式。)和“获取”(获取模式是一种不占有物理馆
藏而通过网络等技术为传播媒介,取得的能够满足读者(用户)需求的信息的模式。)两种。
对于古籍文献资料较多的图书馆来说,虽他们拥有丰富的文献资料和文献处理经验,但在
经费一定的情况下,因为经费过多用于古籍的采购,无法购置必需的设备和软件,也缺乏足
够的人力和相关的计算机技术人才,不少已经规划好的项目无法开展。而对于以获取方式
取得古籍的图书馆来说,古籍电子出版物和网络获取成本太高,利润太少,投资大,市场小,
且盗版严重。以上的现状,使得建立一个数字化、智能化古籍检索的数据库成为古籍数字化
工作的重中之重。
发明内容
为解决现有古籍数字化工作缺少智能文献库的缺陷,本发明提供一种古籍智能数
字化文献库的建立方法,提供智能的知识相关检索,帮助客户更快捷更方便地找到其所想
要的文献资料。
本发明为解决上述问题采用如下的技术方案:
一种古籍智能数字化文献库的建立方法,包括以下步骤:
S1:应用自动分词技术,建立以词为单位的数字化古籍档案库;
S2:应用计算智能技术,通过聚类方法对专有名词进行自动分类;
S3:依次建立原始数据化文献库、关系索引文献库、逻辑学习文献库三个层次的智
能化数据库。
进一步的,S3中,建立所述原始数据化文献库,包括以下步骤:
M1:通过数字版权购买、网络资源收集、图书档案馆互利联营和自主收集整理扫描
识别的途径,建立原始数字文献库;
M2:以古籍的年代、标题、作者、来源、长度、简介、版本、章节、页码作为索引项目,
提取古籍部分或全部内容。
进一步的,S3中,建立所述关系索引文献库,包括以下步骤:
N1:应用自动分词技术实现智能古籍文献的第一步智能化,即以词为检索单元的
古籍文献;
N2:基于词频、词构模式、词构年代和地域特征的词分析方法,对文学、历史、科技
各方面的文献,建立专有名词库;
N3:进行专有名词的提取和识别,并对名词之间的关联进行智能分析,让每一个关
键字词都有环境词组关联,由此建立进一步智能化的关系索引文献库。
进一步的,S3中,建立所述逻辑学习文献库,包括以下步骤:
P1:所述关系索引文献库检索之后,对于检索结果的进一步分类应用和人为调整;
P2:来自智能终端用户的选择和辨别解析,这些用户输入被作为搜索算法的持续
学习训练过程,存入文献库,形成所述逻辑学习文献库。
进一步的,S2中,所述计算智能技术包括进化算法、神经网络和模糊逻辑。
进一步的,S2中,在聚类方法中,当无法提前确定分类标准时,采用模糊逻辑和群
体智能方法,摸索出合理的类别模板。
本发明的有益效果在于:
(1)提供一种古籍智能数字化文献库的建立方法,建立基础知识库,包括人名、字、
号等专有名词相关的数据库,从大量的数据样例中进行提取知识,利用模糊逻辑,决策树分
类等数据挖掘方法来找出有用的人名、地名、事件等有用信息,依次建立原始数据化文献
库、关系索引文献库、逻辑学习文献库三个层次的智能化数据库,以便实现全方位立体关系
检索。
(2)关系索引文献库的建立使我们的检索不再是同一字词相似度的检索,而是具
有特征量,区分量,相关量,分类量,关联量,趋势量,偏离量的全方位的立体关系检索,相互
关联索引的词汇网络为分析研究词汇丰富的人文和社会内涵及其与文化经济活动的联系,
为进行知识发现工作、建立丰富的古籍文献的专家知识库,奠定了基础。
(3)自智能终端用户的选择和辨别解析,这些用户输入将被作为搜索算法的持续
学习训练过程存入关联第三层文献库,即逻辑学习文献库。词汇检索成为与现代人语境关
联、智能识别用户体验、推送综合关联信息的智能文献检索。
具体实施方式
本发明提供一种古籍智能数字化文献库的建立方法,包括以下步骤:
S1:应用自动分词技术,建立以词为单位的数字化古籍档案库;
S2:应用计算智能技术,通过聚类方法对专有名词进行自动分类;
S3:依次建立原始数据化文献库、关系索引文献库、逻辑学习文献库三个层次的智
能化数据库;
(1)建立所述原始数据化文献库,包括以下步骤:
M1:通过数字版权购买、网络资源收集、图书档案馆互利联营和自主收集整理扫描
识别的途径,建立原始数字文献库;
M2:以古籍的年代、标题、作者、来源、长度、简介、版本、章节、页码作为索引项目,
提取古籍部分或全部内容。
(2)建立所述关系索引文献库,包括以下步骤:
N1:应用自动分词技术实现智能古籍文献的第一步智能化,即以词为检索单元的
古籍文献;
N2:基于词频、词构模式、词构年代和地域特征的词分析方法,对文学、历史、科技
各方面的文献,建立专有名词库;
N3:进行专有名词的提取和识别,并对名词之间的关联进行智能分析,让每一个关
键字词都有环境词组关联,由此建立进一步智能化的关系索引文献库。
(3)建立所述逻辑学习文献库,包括以下步骤:
P1:所述关系索引文献库检索之后,对于检索结果的进一步分类应用和人为调整;
P2:来自智能终端用户的选择和辨别解析,这些用户输入被作为搜索算法的持续
学习训练过程,存入文献库,形成所述逻辑学习文献库。
需要指出的是,S2中,所述计算智能技术包括进化算法、神经网络和模糊逻辑;在
聚类方法中,当无法提前确定分类标准时,采用模糊逻辑和群体智能方法,摸索出合理的类
别模板。
本发明在原有古籍数字化的基础上,应用自动分词技术,建立以词为单位的数字
化古籍档案库,再应用进化算法、神经网络和模糊逻辑等计算智能技术,通过聚类方法对专
有名词进行自动分类,对文本数据库进行智能化文献整理,建立三个层次的智能数字化文
献库,同时可以通过专家知识信息平台对文献数据进行自动标引、检索、增删、修改和扩充
等。在聚类方法中,当无法提前确定分类标准时,采用模糊逻辑和群体智能方法,可以摸索
出合理的类别模板。
实现三个层次数字化文献库的主要技术方案如下:
一是原始数据化文献库。通过数字版权购买、网络资源收集、图书档案馆互利联营
和自主收集整理扫描识别等途径,建立原始数字文献库。古籍的年代、标题、作者、来源、长
度、简介、版本、章节、页码等作为索引项目,可以提取古籍部分或全部内容。这是整个项目
的基石,总体技术成熟,存储、数据库、手机整理等,是整体项目中需要资金支持最大的部
分。
二是关系索引文献库。在完成上述原始数据化文献系统功能外,应用自动分词技
术实现智能古籍文献的第一步智能化,即以词为检索单元的古籍文献。应用进化计算、神经
网络和模糊逻辑等方法,和基于词频、词构模式、词构年代和地域特征的词分析方法,对文
学、历史、科技等各方面的文献,建立专有名词库,进行专有名词的提取和识别,并对名词之
间的关联进行智能分析,让每一个关键字词都有环境词组关联,由此建立进一步智能化的
关系索引文献库。相互关联索引的词汇网络为分析研究词汇丰富的人文和社会内涵及其与
文化经济活动的联系,为进行知识发现工作、建立丰富的古籍文献的专家知识库,奠定了基
础。
三是逻辑学习文献库。关系索引文献库的建立使我们的检索不再是同一字词相似
度的检索,而是具有特征量,区分量,相关量,分类量,关联量,趋势量,偏离量的全方位的立
体关系检索。对于检索结果的进一步分类应用和人为调整,在很大规模上来自智能终端用
户的选择和辨别解析,这些用户输入将被作为搜索算法的持续学习训练过程存入关联第三
层文献库,即逻辑学习文献库。词汇检索成为与现代人语境关联、智能识别用户体验、推送
综合关联信息的智能文献检索。
以上通过实施例对本发明的进行了详细说明,但所述内容仅为本发明的较佳实施
例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进
等,均应仍归属于本发明的专利涵盖范围之内。