一种对电子图书进行快速语义标注的方法和系统 技术领域 本发明涉及电子图书数字出版技术领域, 特别是涉及一种对电子图书进行快速语 义标注的方法和系统。
背景技术 数字出版的核心竞争力是对数字内容的快速检索与方便查阅, 而快速检索与方便 查阅的核心是语义检索, 因此, 基于语义检索的语义标注技术是数字出版的核心技术。 实现 语义标注的技术不同, 造成的语义标注的加工效率与成本也不同。目前已有的技术对语义 标注的加工效率很低, 成本很高。
要解决好效率与成本的问题, 就要在技术上解决, 技术手段主要与两个技术问题 有关, 一个是电子书的拆分结构如何设计, 各种排版软件编排的图书 ( 或期刊 ) 具有不同的 版式特点, 数字加工需要把这些图书拆分为不同粒度的单元, 目前所有的拆分方法都面临 着低效率的问题, 需要过多的人工干预。另一个就是语义标注如何设计。不同的设计方案 产生不同的应用效果与加工成本。
最严格的技术方案是可以对电子图书的每一个细节 ( 比如, 像词这样的细节 ) 进 行语义的标注, 这种技术方案的特点是应用范围广, 缺点是加工成本不容易降得很低。 但是 实际情况是, 有一部分应用并不需要对词、 段这种细节进行语义标注, 可能对节以上单元进 行标注就可以满足市场需要了。
本发明方案就是针对这类应用而设计的, 可以进一步提高加工效率, 降低成本。
发明内容 鉴于现有技术的缺陷, 本发明提供一种对电子图书进行快速语义标注的方法, 其 特征在于包括如下步骤 : (1) 以独立于电子图书的方式建立用于描述电子图书的结构的目 录结构文件, 把电子图书的章节目录提取出来, 并建立树状结构层次关系, 同时每个章节元 素含有页码信息的属性 ; (2) 在目录结构文件的基础上对目录元素进行语义标注 ; (3) 对电 子图书按页进行分割成多个页文件, 每个页文件是电子图书的一页内容 ; (4) 将所述目录 结构文件与图书 CIP 数据、 版权声明以及所述多个页文件一起打包, 形成一个完整的电子 图书。
根据本发明所述的对电子图书进行快速语义标注的方法, 其特征在于所述目录结 构文件以 XML 形式存在, 其内容形式采用电子图书的传统目录形式, 并可以被第三方工具 识别出。
根据本发明所述的对电子图书进行快速语义标注的方法, 其特征在于每一个 XML 目录元素具有结构属性, 分别为标题内容与页码范围。
根据本发明所述的对电子图书进行快速语义标注的方法, 其特征在于所述目录结 构文件的生成包括如下步骤 : (11) 制订电子书稿在排版过程中对段落样式的命名的规范 ; (12) 根据段落样式命名规范, 把电子图书中标题部分提取出来, 形成一个没有层次关系的
XML 文件, 每一个 XML 元素是一个标题内容, 该元素具有一个页码属性用来存放该标题所在 页码的信息 ; (13) 把无层次关系的 XML 文件按前缀大小关系重组建立新的章节元素, 该元 素有一个子元素是标题元素, 有两个属性存放该元素的页码范围。
根据本发明所述的对电子图书进行快速语义标注的方法, 其特征在于对所述目录 元素进行语义标注的方法采用多元数组法或者知识点法, 并且均通过手工填加。
根据本发明所述的对电子图书进行快速语义标注的方法, 其特征在于还包括如下 步骤 : (5) 建立一个数据库, 把所述目录结构文件和所述多个页文件保存于数据库中 ; (6) 通过语义检索在目录结构文件中对目录元素进行检索, 根据所检索到的目录元素所指向的 页码在所述数据库中检索页文件。
此外, 本发明还提供了一种与上述对电子图书进行快速语义标注方法相对应的系 统。
本发明章节目录是基于 XML 技术来实现, XML 的结构性强、 易于计算机程序读写, 所以在拆分、 形成结构、 检索等环节是可以通过计算机程序处理。 此外由于语义描述是采取 了多维阵列的方式, 每一维陈列反映了该章节的一个完整语义, 因此可以从多个角度来概 括一个章节的内容。借助计算机程序实现对电子图书进行自动拆分处理, 全面提高了对电 子图书进行拆分的效率, 同时也不影响到检索效果。 同时配合上述拆分方法, 设计出一种通 过对电子图书的目录结构进行简单的语义标注, 提高了语义标注的效率。 附图说明
图 1 是本发明对电子图书进行快速语义标注的方法的数据处理流程图。 具体实施方式
为使本发明的上述目的、 特征和优点更加明显易懂, 下面结合附图和具体实施方 式对本发明作进一步详细的说明。
图 1 是本发明对电子图书进行快速语义标注的方法的数据处理流程图, 其具体包 括如下步骤 :
(1) 以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件, 把 电子图书的章节目录提取出来, 并建立树状结构层次关系, 同时每个章节元素含有页码信 息的属性 ;
现有技术中都是在电子图书内部进行结构描述, 电子书中即有内容又有结构信 息。而本发明则完全放弃在电子图书内容部分中描述结构, 而是采用另外建立目录文件的 形式, 通过一个外部的目录文件来反映出了电子图书的基本结构从而以独立于电子图书的 方式以目录结构文件的方法来描述图书的结构。可以通过各种方法建立一个目录结构文 件, 这个目录结构文件是以 XML 形式存在, 内容形式可以采用电子图书 ( 或期刊 ) 的传统目 录形式。
与一般意义的目录不同的地方是以下几个特点 :
I 本目录是有结构的, 是可以被第三方工具识别出结构信息的。此目录文件中的 XML 元素分为章、 节、 小节、 三级节……, 并依次向下嵌套。
II 每一个目录元素具有结构属性, 分别为标题内容与页码范围。III 每一个目录文件还具有该图书的版权内容, 内容应用都柏林标准。
优选地, 本发明目录结构文件生成通过如下方式进行 :
(11) 制订电子书稿在排版过程中对段落样式的命名的规范 ;
要求在排版图书时, 把书稿中同一级的标题均使用同样的段落样式名前缀, 所有 章节标题的段落样式的前缀按自然数 N, 依次排列。如, 1-, 2-, 3-,…… ;
所有章标题的段落样式名均使用 1- 作为样式名的前缀, 形如 1-XXXX ;
所有节标题的段落样式名均使用 2- 作为样式名的前缀, 形如 2-XXXX ;
所有小节标题的段落样式名均使用 3- 作为样式名的前缀, 形如 3-XXXX ;
依次类推。
(12) 根据段落样式命名规范, 把电子图书中标题部分提取出来, 形成一个没有层 次关系的 XML 文件, 每一个 XML 元素是一个标题内容, 该元素具有一个页码属性用来存放该 标题所在页码的信息 ; 该步骤可以通过开发一个目录文件提取的计算机程序来实现,
通过计算机程序, 根据段落样式前缀特点, 把电子图书中标题部分提取出来, 形成 一个没有层次关系的 XML 文件, 每一个 XML 元素是一个标题内容, 该元素具有一个页码属性 用来存放该标题所在有页码信息。 (13) 把无层次关系的 XML 文件按前缀大小关系重组建立新的章节元素, 该元素有 一个子元素是标题元素, 有两个属性存放该元素的页码范围。这样一个与图书页码信息有 关的目录文件就形成了。
(2) 在目录结构文件的基础上对目录元素进行语义标注 ;
本发明对目录结构进行语义描述的方法在目录结构文件的基础上对目录元素进 行标注, 不再进入到图书的具体内容中进行语义标注, 即, 在电子图书外部进行标注, 由于 图书的每一个章节反映了不同粒度的, 相对完整的内容, 因此可以对章节进行语义内容的 概括。这一步必须是手工填加, 实现对目录内容的概括过程。
具体实现可以采用如下方法 “
1、 多元数组法
每一个目录元素的语义标注方法为 : 对于元素 S, 用 DD 描述语义特征 .
DD =∪ {OP i}, OP i = (O i, A i, AK i, C i)
即, 用多个属性组合 (OP i) 从其用途、 意义、 内容概括、 相关问题等多方面来描述 片断 (S) 的。
其中, DD 为功能语义描述集合 ; 它由若干功能的语义描述组成。功能语义描述 OP i 是一个四元组。 其中 O i 表示语义的本体 ; A i 为语义的谓体 ; AK i 为 A i 的补充关键字 ; C i 为约束条件, 可以是一个多元组 : {C’ 1 i, C’ 2 i, C’ 3 i,…… }
2、 知识点法
为了可以快速进行语义标注, 可以在某一些领域建立相应的知识点语义系统, 把 较固定的知识点语义用多个相互关联的词组成相对完整、 固定的词组合。如 : ( 办公应用 OFFICE WORD 文件建立 ), ( 办公应用 OFFICE WORD 文件删除 ), 这些词之间顺序固定, 是树 的逻辑结构, 整个知识点语义构成一个完整的树结构。本发明把一些教材的知识体系分解 为一个个词组合, 以树形式表现出来, 使标注知识点更加方便快捷。
(3) 对电子图书按页进行分割成多个页文件, 每个页文件是电子图书的一页内
容; 常用的用于出版纸质图书的电子文件是按页来组织的, 因此它可以按每一页来分 离。图书的每一个章节都有起始页码, 因此可以计算出每一个章节所包含的页的起与止页 码。
通过各种方法, 本发明采用计算机程序对原图书按页进行分割成 N( 图书页数 ) 个 文件, 每个文件是原图书的一页内容, 文件格式可以是图片或 PDF 或 FLASH, 文件的属性中 体现出页码。
建立一个数据库, 把这些 “页文件” 保存于数据库。并可以通过其属性检索到该文 件。
(4) 将所述目录结构文件与图书 CIP 数据、 版权声明以及所述多个页文件一起打 包, 形成一个完整的电子图书文件包。
开发一个语义图书的导出程序, 实现对填加语义属性的 XML 目录文件语法检查、 与 CIP 数据、 版权的声明, 包文件结构等其它文件一起打包, 形成一个完整的电子图书。
或者 : 存放到数据库中, 与各类图书管理系统联结。
本发明由于电子图书内容与语义标注是分离在两个文件中, 那么查询语义的方法 就与一般的语义查询方法不同。如果可以快速检索到该章节, 那么就可进一步检索到该章 节包含的所有页。 因此, 通过章节目录可以检索出页的内容。 ( 这种页内容是不可直接检索 到的图片, 或者其它不可检索的格式 )。因此, 本发明可以实现对电子图书进行如下应用 :
1、 文件检索 : 把页文件与目录结构文件合并为一个包文件, 必要时把图书 CIP 信 息、 文件结构信息等其它文件放入该文件包。
当用户提出查询语义的内容时, 通过语义检索在电子图书文件包中的目录结构文 件中对目录元素进行检索, 根据所检索到的目录元素所指向的页码在电子图书文件包中检 索页文件。
2、 数据库检索 : 把页文件及目录文件放入数据库, 应用系统通过检索目录文件来 检索语义, 然后根据该元素所指向的页码内容及自身的版权内容, 向 “页文件” 的数据库检 索该页内容 ( 或多页内容 ), 最终从数据库中取得页文件返回。
此方法的优点是加工效率高, 检索效果满足大部分常用需求。
本发明章节目录是基于 XML 技术来实现, XML 的结构性强、 易于计算机程序读写, 所以在拆分、 形成结构、 检索等环节是可以通过计算机程序处理。 此外由于语义描述是采取 了多维阵列的方式, 每一维陈列反映了该章节的一个完整语义, 因此可以从多个角度来概 括一个章节的内容。借助计算机程序实现对电子图书进行自动拆分处理, 全面提高了对电 子图书进行拆分的效率, 同时也不影响到检索效果。 同时配合上述拆分方法, 设计出一种通 过对电子图书的目录结构进行简单的语义标注, 提高了语义标注的效率。
下面通过实际操作过程, 对本发明实施方式进行举例说明, 以进一步理解本发明 的工作过程。
第一步, 数据输入 :
取自任意一本电子图书, 格式可以是 DOC、 INDD 等图书排版文件。
启动 《希望自动拆分工具》 运行在服务器上, 然后向服务器上传电子图书文件。
第二步, 目录文件生成与页文件拆分
服务器实时监控, 发现有新文件上传执行目录生成进程, 产生一个具有层次树状 结构的 XML 文件, 该文件中包含有每个元素的页码信息。
同时对电子图书文件进行拆分为每一个页文件, 可以各种图片文件、 PDF、 FLASH 等
最后打包发送到结果池中, 供下一环节下载使用。
第三步, 数据的语义处理
运行 《希望语义标注系统》 , 导入上一环节输出的 XML 文件与压缩包文件
运行 “浏览 XML” 功能, 在浏览窗口中查看 XML 文件, 这时的 XML 文件是具有先后顺 序及层次关系的, 进一步浏览并检查是否有错误, 如果有, 可以用鼠标拖动方式调整位置关 系。
对 XML 目录文件进行语义标注, 可以采用多元数组方法标注, 也可采用知识点标 注方法标注, 其中知识点标注方法会在界面上呈现出知识点的树状结构, 便于操作。
标注过程中, 可以即时查阅该章节所对应的原版图书内容。
第四步, 数据输出
运行 “输出语义图书” 功能, 系统即可在现有的 XML 文件中, 加入相应的 CIP、 结构、 版权等内容。 如果不输出电子图书, 那么这些所有信息均保存在数据库中。对这些图书书的调 用检索均通过 WEBSERVICE 向外发布, 其它图书管理系统可直接调用。
在 “保存文件” 的提示下, 输出一个具有结构及语义的电子图书的包文件。
最后应当说明的是 : 以上实施例仅用以说明本发明的技术方案而非对其限制 ; 尽 管参照较佳实施例对本发明进行了详细的说明, 所属领域的普通技术人员应当理解 : 依然 可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换 ; 而不脱离本发 明技术方案的精神, 其均应涵盖在本发明请求保护的技术方案范围当中。