一种对电子图书进行快速语义标注的方法和系统.pdf

摘要
申请专利号：	CN201110289165.1	申请日：	2011.09.27
公开号：	CN102332023A	公开日：	2012.01.25
当前法律状态：	驳回	有效性：	无权
法律详情：	发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20120125\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20110927\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	北京中科希望软件股份有限公司
发明人：	张训军
地址：	100190 北京市海淀区中关村大街22号中科大厦10层
优先权：
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

一种对电子图书进行快速语义标注的方法和系统，其特征在于包括如下步骤：(1)以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件，把电子图书的章节目录提取出来，并建立树状结构层次关系，同时每个章节元素含有页码信息的属性；(2)在目录结构文件的基础上对目录元素进行语义标注；(3)对电子图书按页进行分割成多个页文件，每个页文件是电子图书的一页内容；(4)将所述目录结构文件与图书CIP数据、版权声明以及所述多个页文件一起打包，形成一个完整的电子图书文件包。

权利要求书

1：一种对电子图书进行快速语义标注的方法，其特征在于包括如下步骤： (1) 以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件，把电子图书的章节目录提取出来，并建立树状结构层次关系，同时每个章节元素含有页码信息的属性； (2) 在目录结构文件的基础上对目录元素进行语义标注； (3) 对电子图书按页进行分割成多个页文件，每个页文件是电子图书的一页内容； (4) 将所述目录结构文件与图书 CIP 数据、版权声明以及所述多个页文件一起打包，形成一个完整的电子图书文件包。
2：根据权利要求 1 所述的对电子图书进行快速语义标注的方法，其特征在于所述目录结构文件以 XML 形式存在，其内容形式采用电子图书的传统目录形式，并可以被第三方工具识别出。
3：根据权利要求 2 所述的对电子图书进行快速语义标注的方法，其特征在于每一个 XML 目录元素具有结构属性，分别为标题内容与页码范围。
4：根据权利要求 1 所述的对电子图书进行快速语义标注的方法，其特征在于所述目录结构文件的生成包括如下步骤： (11) 制订电子书稿在排版过程中对段落样式的命名的规范； (12) 根据段落样式命名规范，把电子图书中标题部分提取出来，形成一个没有层次关系的 XML 文件，每一个 XML 元素是一个标题内容，该元素具有一个页码属性用来存放该标题所在页码的信息； (13) 把无层次关系的 XML 文件按前缀大小关系重组建立新的章节元素，该元素有一个子元素是标题元素，有两个属性存放该元素的页码范围。
5：根据权利要求 1 所述的对电子图书进行快速语义标注的方法，其特征在于对所述目录元素进行语义标注的方法采用多元数组法或者知识点法，并且均通过手工填加。
6：根据权利要求 1 所述的对电子图书进行快速语义标注的方法，其特征在于还包括如下步骤： (5) 建立一个数据库，把所述目录结构文件和所述多个页文件保存于数据库中； (6) 通过语义检索在目录结构文件中对目录元素进行检索，根据所检索到的目录元素所指向的页码在所述数据库中检索页文件。
7：根据权利要求 1 所述的对电子图书进行快速语义标注的方法，其特征在于通过语义检索在电子图书文件包中的目录结构文件中对目录元素进行检索，根据所检索到的目录元素所指向的页码在电子图书文件包中检索页文件。
8：一种对电子图书进行快速语义标注的系统，其特征在于包括如下装置：用于以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件，把电子图书的章节目录提取出来，并建立树状结构层次关系，同时在每个章节元素中填加有页码信息的装置；用于在目录结构文件的基础上对目录元素进行语义标注的装置；用于对电子图书按页进行分割成多个页文件的装置，每个页文件是电子图书的一页内容；用于将所述目录结构文件与图书 CIP 数据、版权声明以及所述多个页文件一起打包， 2 形成一个完整的电子图书的装置。
9：根据权利要求 8 所述的对电子图书进行快速语义标注的系统，其特征在于所述目录结构文件以 XML 形式存在，其内容形式采用电子图书的传统目录形式，并可以被第三方工具识别出。
10：根据权利要求 9 所述的对电子图书进行快速语义标注的系统，其特征在于每一个 XML 目录元素具有结构属性，分别为标题内容与页码范围。
11：根据权利要求 8 所述的对电子图书进行快速语义标注的系统，其特征在于用于生成所述目录结构文件的装置包括如下装置：用于制订电子书稿在排版过程中对段落样式的命名的规范的装置；用于根据段落样式命名规范，把电子图书中标题部分提取出来，形成一个没有层次关系的 XML 文件的装置，每一个 XML 元素是一个标题内容，该元素具有一个页码属性用来存放该标题所在页码的信息；用于把无层次关系的 XML 文件按前缀大小关系重组建立新的章节元素的装置，该元素有一个子元素是标题元素，有两个属性存放该元素的页码范围。
12：根据权利要求 8 所述的对电子图书进行快速语义标注的系统，其特征在于采用多元数组法或者知识点法对所述目录元素进行语义标注，并且均通过手工填加。
13：根据权利要求 8 所述的对电子图书进行快速语义标注的系统，其特征在于还包括如下装置：用于建立一个数据库，并把所述目录结构文件和所述多个页文件保存于数据库中的装置；用于通过语义检索在目录结构文件中对目录元素进行检索，根据所检索到的目录元素所指向的页码在所述数据库中检索页文件的装置。
14：根据权利要求 1 所述的对电子图书进行快速语义标注的系统，其特征在于通过语义检索在电子图书文件包中的目录结构文件中对目录元素进行检索，根据所检索到的目录元素所指向的页码在电子图书文件包中检索页文件。

说明书

一种对电子图书进行快速语义标注的方法和系统
    技术领域本发明涉及电子图书数字出版技术领域，特别是涉及一种对电子图书进行快速语义标注的方法和系统。
     背景技术数字出版的核心竞争力是对数字内容的快速检索与方便查阅，而快速检索与方便查阅的核心是语义检索，因此，基于语义检索的语义标注技术是数字出版的核心技术。实现语义标注的技术不同，造成的语义标注的加工效率与成本也不同。目前已有的技术对语义标注的加工效率很低，成本很高。
     要解决好效率与成本的问题，就要在技术上解决，技术手段主要与两个技术问题有关，一个是电子书的拆分结构如何设计，各种排版软件编排的图书 ( 或期刊 ) 具有不同的版式特点，数字加工需要把这些图书拆分为不同粒度的单元，目前所有的拆分方法都面临着低效率的问题，需要过多的人工干预。另一个就是语义标注如何设计。不同的设计方案产生不同的应用效果与加工成本。
     最严格的技术方案是可以对电子图书的每一个细节 ( 比如，像词这样的细节 ) 进行语义的标注，这种技术方案的特点是应用范围广，缺点是加工成本不容易降得很低。但是实际情况是，有一部分应用并不需要对词、段这种细节进行语义标注，可能对节以上单元进行标注就可以满足市场需要了。
     本发明方案就是针对这类应用而设计的，可以进一步提高加工效率，降低成本。
     发明内容鉴于现有技术的缺陷，本发明提供一种对电子图书进行快速语义标注的方法，其特征在于包括如下步骤： (1) 以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件，把电子图书的章节目录提取出来，并建立树状结构层次关系，同时每个章节元素含有页码信息的属性； (2) 在目录结构文件的基础上对目录元素进行语义标注； (3) 对电子图书按页进行分割成多个页文件，每个页文件是电子图书的一页内容； (4) 将所述目录结构文件与图书 CIP 数据、版权声明以及所述多个页文件一起打包，形成一个完整的电子图书。
     根据本发明所述的对电子图书进行快速语义标注的方法，其特征在于所述目录结构文件以 XML 形式存在，其内容形式采用电子图书的传统目录形式，并可以被第三方工具识别出。
     根据本发明所述的对电子图书进行快速语义标注的方法，其特征在于每一个 XML 目录元素具有结构属性，分别为标题内容与页码范围。
     根据本发明所述的对电子图书进行快速语义标注的方法，其特征在于所述目录结构文件的生成包括如下步骤： (11) 制订电子书稿在排版过程中对段落样式的命名的规范； (12) 根据段落样式命名规范，把电子图书中标题部分提取出来，形成一个没有层次关系的
     XML 文件，每一个 XML 元素是一个标题内容，该元素具有一个页码属性用来存放该标题所在页码的信息； (13) 把无层次关系的 XML 文件按前缀大小关系重组建立新的章节元素，该元素有一个子元素是标题元素，有两个属性存放该元素的页码范围。
     根据本发明所述的对电子图书进行快速语义标注的方法，其特征在于对所述目录元素进行语义标注的方法采用多元数组法或者知识点法，并且均通过手工填加。
     根据本发明所述的对电子图书进行快速语义标注的方法，其特征在于还包括如下步骤： (5) 建立一个数据库，把所述目录结构文件和所述多个页文件保存于数据库中； (6) 通过语义检索在目录结构文件中对目录元素进行检索，根据所检索到的目录元素所指向的页码在所述数据库中检索页文件。
     此外，本发明还提供了一种与上述对电子图书进行快速语义标注方法相对应的系统。
     本发明章节目录是基于 XML 技术来实现， XML 的结构性强、易于计算机程序读写，所以在拆分、形成结构、检索等环节是可以通过计算机程序处理。此外由于语义描述是采取了多维阵列的方式，每一维陈列反映了该章节的一个完整语义，因此可以从多个角度来概括一个章节的内容。借助计算机程序实现对电子图书进行自动拆分处理，全面提高了对电子图书进行拆分的效率，同时也不影响到检索效果。同时配合上述拆分方法，设计出一种通过对电子图书的目录结构进行简单的语义标注，提高了语义标注的效率。附图说明
     图 1 是本发明对电子图书进行快速语义标注的方法的数据处理流程图。具体实施方式
     为使本发明的上述目的、特征和优点更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
     图 1 是本发明对电子图书进行快速语义标注的方法的数据处理流程图，其具体包括如下步骤：
     (1) 以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件，把电子图书的章节目录提取出来，并建立树状结构层次关系，同时每个章节元素含有页码信息的属性；
     现有技术中都是在电子图书内部进行结构描述，电子书中即有内容又有结构信息。而本发明则完全放弃在电子图书内容部分中描述结构，而是采用另外建立目录文件的形式，通过一个外部的目录文件来反映出了电子图书的基本结构从而以独立于电子图书的方式以目录结构文件的方法来描述图书的结构。可以通过各种方法建立一个目录结构文件，这个目录结构文件是以 XML 形式存在，内容形式可以采用电子图书 ( 或期刊 ) 的传统目录形式。
     与一般意义的目录不同的地方是以下几个特点：
     I 本目录是有结构的，是可以被第三方工具识别出结构信息的。此目录文件中的 XML 元素分为章、节、小节、三级节……，并依次向下嵌套。
     II 每一个目录元素具有结构属性，分别为标题内容与页码范围。III 每一个目录文件还具有该图书的版权内容，内容应用都柏林标准。
     优选地，本发明目录结构文件生成通过如下方式进行：
     (11) 制订电子书稿在排版过程中对段落样式的命名的规范；
     要求在排版图书时，把书稿中同一级的标题均使用同样的段落样式名前缀，所有章节标题的段落样式的前缀按自然数 N，依次排列。如， 1-， 2-， 3-，…… ；
     所有章标题的段落样式名均使用 1- 作为样式名的前缀，形如 1-XXXX ；
     所有节标题的段落样式名均使用 2- 作为样式名的前缀，形如 2-XXXX ；
     所有小节标题的段落样式名均使用 3- 作为样式名的前缀，形如 3-XXXX ；
     依次类推。
     (12) 根据段落样式命名规范，把电子图书中标题部分提取出来，形成一个没有层次关系的 XML 文件，每一个 XML 元素是一个标题内容，该元素具有一个页码属性用来存放该标题所在页码的信息；该步骤可以通过开发一个目录文件提取的计算机程序来实现，
     通过计算机程序，根据段落样式前缀特点，把电子图书中标题部分提取出来，形成一个没有层次关系的 XML 文件，每一个 XML 元素是一个标题内容，该元素具有一个页码属性用来存放该标题所在有页码信息。 (13) 把无层次关系的 XML 文件按前缀大小关系重组建立新的章节元素，该元素有一个子元素是标题元素，有两个属性存放该元素的页码范围。这样一个与图书页码信息有关的目录文件就形成了。
     (2) 在目录结构文件的基础上对目录元素进行语义标注；
     本发明对目录结构进行语义描述的方法在目录结构文件的基础上对目录元素进行标注，不再进入到图书的具体内容中进行语义标注，即，在电子图书外部进行标注，由于图书的每一个章节反映了不同粒度的，相对完整的内容，因此可以对章节进行语义内容的概括。这一步必须是手工填加，实现对目录内容的概括过程。
     具体实现可以采用如下方法 “
     1、多元数组法
     每一个目录元素的语义标注方法为：对于元素 S，用 DD 描述语义特征 .
     DD ＝∪ {OP i}， OP i ＝ (O i， A i， AK i， C i)
     即，用多个属性组合 (OP i) 从其用途、意义、内容概括、相关问题等多方面来描述片断 (S) 的。
     其中， DD 为功能语义描述集合；它由若干功能的语义描述组成。功能语义描述 OP i 是一个四元组。其中 O i 表示语义的本体； A i 为语义的谓体； AK i 为 A i 的补充关键字； C i 为约束条件，可以是一个多元组： {C’ 1 i， C’ 2 i， C’ 3 i，…… }
     2、知识点法
     为了可以快速进行语义标注，可以在某一些领域建立相应的知识点语义系统，把较固定的知识点语义用多个相互关联的词组成相对完整、固定的词组合。如： ( 办公应用 OFFICE WORD 文件建立 )， ( 办公应用 OFFICE WORD 文件删除 )，这些词之间顺序固定，是树的逻辑结构，整个知识点语义构成一个完整的树结构。本发明把一些教材的知识体系分解为一个个词组合，以树形式表现出来，使标注知识点更加方便快捷。
     (3) 对电子图书按页进行分割成多个页文件，每个页文件是电子图书的一页内
     容；常用的用于出版纸质图书的电子文件是按页来组织的，因此它可以按每一页来分离。图书的每一个章节都有起始页码，因此可以计算出每一个章节所包含的页的起与止页码。
     通过各种方法，本发明采用计算机程序对原图书按页进行分割成 N( 图书页数 ) 个文件，每个文件是原图书的一页内容，文件格式可以是图片或 PDF 或 FLASH，文件的属性中体现出页码。
     建立一个数据库，把这些 “页文件” 保存于数据库。并可以通过其属性检索到该文件。
     (4) 将所述目录结构文件与图书 CIP 数据、版权声明以及所述多个页文件一起打包，形成一个完整的电子图书文件包。
     开发一个语义图书的导出程序，实现对填加语义属性的 XML 目录文件语法检查、与 CIP 数据、版权的声明，包文件结构等其它文件一起打包，形成一个完整的电子图书。
     或者：存放到数据库中，与各类图书管理系统联结。
     本发明由于电子图书内容与语义标注是分离在两个文件中，那么查询语义的方法就与一般的语义查询方法不同。如果可以快速检索到该章节，那么就可进一步检索到该章节包含的所有页。因此，通过章节目录可以检索出页的内容。 ( 这种页内容是不可直接检索到的图片，或者其它不可检索的格式 )。因此，本发明可以实现对电子图书进行如下应用：
     1、文件检索：把页文件与目录结构文件合并为一个包文件，必要时把图书 CIP 信息、文件结构信息等其它文件放入该文件包。
     当用户提出查询语义的内容时，通过语义检索在电子图书文件包中的目录结构文件中对目录元素进行检索，根据所检索到的目录元素所指向的页码在电子图书文件包中检索页文件。
     2、数据库检索：把页文件及目录文件放入数据库，应用系统通过检索目录文件来检索语义，然后根据该元素所指向的页码内容及自身的版权内容，向 “页文件” 的数据库检索该页内容 ( 或多页内容 )，最终从数据库中取得页文件返回。
     此方法的优点是加工效率高，检索效果满足大部分常用需求。
     本发明章节目录是基于 XML 技术来实现， XML 的结构性强、易于计算机程序读写，所以在拆分、形成结构、检索等环节是可以通过计算机程序处理。此外由于语义描述是采取了多维阵列的方式，每一维陈列反映了该章节的一个完整语义，因此可以从多个角度来概括一个章节的内容。借助计算机程序实现对电子图书进行自动拆分处理，全面提高了对电子图书进行拆分的效率，同时也不影响到检索效果。同时配合上述拆分方法，设计出一种通过对电子图书的目录结构进行简单的语义标注，提高了语义标注的效率。
     下面通过实际操作过程，对本发明实施方式进行举例说明，以进一步理解本发明的工作过程。
     第一步，数据输入：
     取自任意一本电子图书，格式可以是 DOC、 INDD 等图书排版文件。
     启动《希望自动拆分工具》运行在服务器上，然后向服务器上传电子图书文件。
     第二步，目录文件生成与页文件拆分
     服务器实时监控，发现有新文件上传执行目录生成进程，产生一个具有层次树状结构的 XML 文件，该文件中包含有每个元素的页码信息。
     同时对电子图书文件进行拆分为每一个页文件，可以各种图片文件、 PDF、 FLASH 等
     最后打包发送到结果池中，供下一环节下载使用。
     第三步，数据的语义处理
     运行《希望语义标注系统》，导入上一环节输出的 XML 文件与压缩包文件
     运行 “浏览 XML” 功能，在浏览窗口中查看 XML 文件，这时的 XML 文件是具有先后顺序及层次关系的，进一步浏览并检查是否有错误，如果有，可以用鼠标拖动方式调整位置关系。
     对 XML 目录文件进行语义标注，可以采用多元数组方法标注，也可采用知识点标注方法标注，其中知识点标注方法会在界面上呈现出知识点的树状结构，便于操作。
     标注过程中，可以即时查阅该章节所对应的原版图书内容。
     第四步，数据输出
     运行 “输出语义图书” 功能，系统即可在现有的 XML 文件中，加入相应的 CIP、结构、版权等内容。如果不输出电子图书，那么这些所有信息均保存在数据库中。对这些图书书的调用检索均通过 WEBSERVICE 向外发布，其它图书管理系统可直接调用。
     在 “保存文件” 的提示下，输出一个具有结构及语义的电子图书的包文件。
     最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

资源描述

《一种对电子图书进行快速语义标注的方法和系统.pdf》由会员分享，可在线阅读，更多相关《一种对电子图书进行快速语义标注的方法和系统.pdf（9页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN102332023A43申请公布日20120125CN102332023ACN102332023A21申请号201110289165122申请日20110927G06F17/3020060171申请人北京中科希望软件股份有限公司地址100190北京市海淀区中关村大街22号中科大厦10层72发明人张训军54发明名称一种对电子图书进行快速语义标注的方法和系统57摘要一种对电子图书进行快速语义标注的方法和系统，其特征在于包括如下步骤1以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件，把电子图书的章节目录提取出来，并建立树状结构层次关系，同时每个章节元素含有页码信息的属。

2、性；2在目录结构文件的基础上对目录元素进行语义标注；3对电子图书按页进行分割成多个页文件，每个页文件是电子图书的一页内容；4将所述目录结构文件与图书CIP数据、版权声明以及所述多个页文件一起打包，形成一个完整的电子图书文件包。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书5页附图1页CN102332036A1/2页21一种对电子图书进行快速语义标注的方法，其特征在于包括如下步骤1以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件，把电子图书的章节目录提取出来，并建立树状结构层次关系，同时每个章节元素含有页码信息的属性；2在目录结构文件的基础上对目。

3、录元素进行语义标注；3对电子图书按页进行分割成多个页文件，每个页文件是电子图书的一页内容；4将所述目录结构文件与图书CIP数据、版权声明以及所述多个页文件一起打包，形成一个完整的电子图书文件包。2根据权利要求1所述的对电子图书进行快速语义标注的方法，其特征在于所述目录结构文件以XML形式存在，其内容形式采用电子图书的传统目录形式，并可以被第三方工具识别出。3根据权利要求2所述的对电子图书进行快速语义标注的方法，其特征在于每一个XML目录元素具有结构属性，分别为标题内容与页码范围。4根据权利要求1所述的对电子图书进行快速语义标注的方法，其特征在于所述目录结构文件的生成包括如下步骤11制订电子书稿。

4、在排版过程中对段落样式的命名的规范；12根据段落样式命名规范，把电子图书中标题部分提取出来，形成一个没有层次关系的XML文件，每一个XML元素是一个标题内容，该元素具有一个页码属性用来存放该标题所在页码的信息；13把无层次关系的XML文件按前缀大小关系重组建立新的章节元素，该元素有一个子元素是标题元素，有两个属性存放该元素的页码范围。5根据权利要求1所述的对电子图书进行快速语义标注的方法，其特征在于对所述目录元素进行语义标注的方法采用多元数组法或者知识点法，并且均通过手工填加。6根据权利要求1所述的对电子图书进行快速语义标注的方法，其特征在于还包括如下步骤5建立一个数据库，把所述目录结构文件和。

5、所述多个页文件保存于数据库中；6通过语义检索在目录结构文件中对目录元素进行检索，根据所检索到的目录元素所指向的页码在所述数据库中检索页文件。7根据权利要求1所述的对电子图书进行快速语义标注的方法，其特征在于通过语义检索在电子图书文件包中的目录结构文件中对目录元素进行检索，根据所检索到的目录元素所指向的页码在电子图书文件包中检索页文件。8一种对电子图书进行快速语义标注的系统，其特征在于包括如下装置用于以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件，把电子图书的章节目录提取出来，并建立树状结构层次关系，同时在每个章节元素中填加有页码信息的装置；用于在目录结构文件的基础上对目录元素进。

6、行语义标注的装置；用于对电子图书按页进行分割成多个页文件的装置，每个页文件是电子图书的一页内容；用于将所述目录结构文件与图书CIP数据、版权声明以及所述多个页文件一起打包，权利要求书CN102332023ACN102332036A2/2页3形成一个完整的电子图书的装置。9根据权利要求8所述的对电子图书进行快速语义标注的系统，其特征在于所述目录结构文件以XML形式存在，其内容形式采用电子图书的传统目录形式，并可以被第三方工具识别出。10根据权利要求9所述的对电子图书进行快速语义标注的系统，其特征在于每一个XML目录元素具有结构属性，分别为标题内容与页码范围。11根据权利要求8所述的对电子图书进行。

7、快速语义标注的系统，其特征在于用于生成所述目录结构文件的装置包括如下装置用于制订电子书稿在排版过程中对段落样式的命名的规范的装置；用于根据段落样式命名规范，把电子图书中标题部分提取出来，形成一个没有层次关系的XML文件的装置，每一个XML元素是一个标题内容，该元素具有一个页码属性用来存放该标题所在页码的信息；用于把无层次关系的XML文件按前缀大小关系重组建立新的章节元素的装置，该元素有一个子元素是标题元素，有两个属性存放该元素的页码范围。12根据权利要求8所述的对电子图书进行快速语义标注的系统，其特征在于采用多元数组法或者知识点法对所述目录元素进行语义标注，并且均通过手工填加。13根据权利要求。

8、8所述的对电子图书进行快速语义标注的系统，其特征在于还包括如下装置用于建立一个数据库，并把所述目录结构文件和所述多个页文件保存于数据库中的装置；用于通过语义检索在目录结构文件中对目录元素进行检索，根据所检索到的目录元素所指向的页码在所述数据库中检索页文件的装置。14根据权利要求1所述的对电子图书进行快速语义标注的系统，其特征在于通过语义检索在电子图书文件包中的目录结构文件中对目录元素进行检索，根据所检索到的目录元素所指向的页码在电子图书文件包中检索页文件。权利要求书CN102332023ACN102332036A1/5页4一种对电子图书进行快速语义标注的方法和系统技术领域0001本发明涉及电子。

9、图书数字出版技术领域，特别是涉及一种对电子图书进行快速语义标注的方法和系统。背景技术0002数字出版的核心竞争力是对数字内容的快速检索与方便查阅，而快速检索与方便查阅的核心是语义检索，因此，基于语义检索的语义标注技术是数字出版的核心技术。实现语义标注的技术不同，造成的语义标注的加工效率与成本也不同。目前已有的技术对语义标注的加工效率很低，成本很高。0003要解决好效率与成本的问题，就要在技术上解决，技术手段主要与两个技术问题有关，一个是电子书的拆分结构如何设计，各种排版软件编排的图书或期刊具有不同的版式特点，数字加工需要把这些图书拆分为不同粒度的单元，目前所有的拆分方法都面临着低效率的问题，需。

10、要过多的人工干预。另一个就是语义标注如何设计。不同的设计方案产生不同的应用效果与加工成本。0004最严格的技术方案是可以对电子图书的每一个细节比如，像词这样的细节进行语义的标注，这种技术方案的特点是应用范围广，缺点是加工成本不容易降得很低。但是实际情况是，有一部分应用并不需要对词、段这种细节进行语义标注，可能对节以上单元进行标注就可以满足市场需要了。0005本发明方案就是针对这类应用而设计的，可以进一步提高加工效率，降低成本。发明内容0006鉴于现有技术的缺陷，本发明提供一种对电子图书进行快速语义标注的方法，其特征在于包括如下步骤1以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件。

11、，把电子图书的章节目录提取出来，并建立树状结构层次关系，同时每个章节元素含有页码信息的属性；2在目录结构文件的基础上对目录元素进行语义标注；3对电子图书按页进行分割成多个页文件，每个页文件是电子图书的一页内容；4将所述目录结构文件与图书CIP数据、版权声明以及所述多个页文件一起打包，形成一个完整的电子图书。0007根据本发明所述的对电子图书进行快速语义标注的方法，其特征在于所述目录结构文件以XML形式存在，其内容形式采用电子图书的传统目录形式，并可以被第三方工具识别出。0008根据本发明所述的对电子图书进行快速语义标注的方法，其特征在于每一个XML目录元素具有结构属性，分别为标题内容与页码范围。

12、。0009根据本发明所述的对电子图书进行快速语义标注的方法，其特征在于所述目录结构文件的生成包括如下步骤11制订电子书稿在排版过程中对段落样式的命名的规范；12根据段落样式命名规范，把电子图书中标题部分提取出来，形成一个没有层次关系的说明书CN102332023ACN102332036A2/5页5XML文件，每一个XML元素是一个标题内容，该元素具有一个页码属性用来存放该标题所在页码的信息；13把无层次关系的XML文件按前缀大小关系重组建立新的章节元素，该元素有一个子元素是标题元素，有两个属性存放该元素的页码范围。0010根据本发明所述的对电子图书进行快速语义标注的方法，其特征在于对所述目录元。

13、素进行语义标注的方法采用多元数组法或者知识点法，并且均通过手工填加。0011根据本发明所述的对电子图书进行快速语义标注的方法，其特征在于还包括如下步骤5建立一个数据库，把所述目录结构文件和所述多个页文件保存于数据库中；6通过语义检索在目录结构文件中对目录元素进行检索，根据所检索到的目录元素所指向的页码在所述数据库中检索页文件。0012此外，本发明还提供了一种与上述对电子图书进行快速语义标注方法相对应的系统。0013本发明章节目录是基于XML技术来实现，XML的结构性强、易于计算机程序读写，所以在拆分、形成结构、检索等环节是可以通过计算机程序处理。此外由于语义描述是采取了多维阵列的方式，每一维陈。

14、列反映了该章节的一个完整语义，因此可以从多个角度来概括一个章节的内容。借助计算机程序实现对电子图书进行自动拆分处理，全面提高了对电子图书进行拆分的效率，同时也不影响到检索效果。同时配合上述拆分方法，设计出一种通过对电子图书的目录结构进行简单的语义标注，提高了语义标注的效率。附图说明0014图1是本发明对电子图书进行快速语义标注的方法的数据处理流程图。具体实施方式0015为使本发明的上述目的、特征和优点更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。0016图1是本发明对电子图书进行快速语义标注的方法的数据处理流程图，其具体包括如下步骤00171以独立于电子图书的方式建立用于。

15、描述电子图书的结构的目录结构文件，把电子图书的章节目录提取出来，并建立树状结构层次关系，同时每个章节元素含有页码信息的属性；0018现有技术中都是在电子图书内部进行结构描述，电子书中即有内容又有结构信息。而本发明则完全放弃在电子图书内容部分中描述结构，而是采用另外建立目录文件的形式，通过一个外部的目录文件来反映出了电子图书的基本结构从而以独立于电子图书的方式以目录结构文件的方法来描述图书的结构。可以通过各种方法建立一个目录结构文件，这个目录结构文件是以XML形式存在，内容形式可以采用电子图书或期刊的传统目录形式。0019与一般意义的目录不同的地方是以下几个特点0020I本目录是有结构的，是可以。

16、被第三方工具识别出结构信息的。此目录文件中的XML元素分为章、节、小节、三级节，并依次向下嵌套。0021II每一个目录元素具有结构属性，分别为标题内容与页码范围。说明书CN102332023ACN102332036A3/5页60022III每一个目录文件还具有该图书的版权内容，内容应用都柏林标准。0023优选地，本发明目录结构文件生成通过如下方式进行002411制订电子书稿在排版过程中对段落样式的命名的规范；0025要求在排版图书时，把书稿中同一级的标题均使用同样的段落样式名前缀，所有章节标题的段落样式的前缀按自然数N，依次排列。如，1，2，3，；0026所有章标题的段落样式名均使用1作为样式。

17、名的前缀，形如1XXXX；0027所有节标题的段落样式名均使用2作为样式名的前缀，形如2XXXX；0028所有小节标题的段落样式名均使用3作为样式名的前缀，形如3XXXX；0029依次类推。003012根据段落样式命名规范，把电子图书中标题部分提取出来，形成一个没有层次关系的XML文件，每一个XML元素是一个标题内容，该元素具有一个页码属性用来存放该标题所在页码的信息；该步骤可以通过开发一个目录文件提取的计算机程序来实现，0031通过计算机程序，根据段落样式前缀特点，把电子图书中标题部分提取出来，形成一个没有层次关系的XML文件，每一个XML元素是一个标题内容，该元素具有一个页码属性用来存放该。

18、标题所在有页码信息。003213把无层次关系的XML文件按前缀大小关系重组建立新的章节元素，该元素有一个子元素是标题元素，有两个属性存放该元素的页码范围。这样一个与图书页码信息有关的目录文件就形成了。00332在目录结构文件的基础上对目录元素进行语义标注；0034本发明对目录结构进行语义描述的方法在目录结构文件的基础上对目录元素进行标注，不再进入到图书的具体内容中进行语义标注，即，在电子图书外部进行标注，由于图书的每一个章节反映了不同粒度的，相对完整的内容，因此可以对章节进行语义内容的概括。这一步必须是手工填加，实现对目录内容的概括过程。0035具体实现可以采用如下方法“00361、多元数组法。

19、0037每一个目录元素的语义标注方法为对于元素S，用DD描述语义特征0038DDOPI，OPIOI，AI，AKI，CI0039即，用多个属性组合OPI从其用途、意义、内容概括、相关问题等多方面来描述片断S的。0040其中，DD为功能语义描述集合；它由若干功能的语义描述组成。功能语义描述OPI是一个四元组。其中OI表示语义的本体；AI为语义的谓体；AKI为AI的补充关键字；CI为约束条件，可以是一个多元组C1I，C2I，C3I，00412、知识点法0042为了可以快速进行语义标注，可以在某一些领域建立相应的知识点语义系统，把较固定的知识点语义用多个相互关联的词组成相对完整、固定的词组合。如办公应。

20、用OFFICEWORD文件建立，办公应用OFFICEWORD文件删除，这些词之间顺序固定，是树的逻辑结构，整个知识点语义构成一个完整的树结构。本发明把一些教材的知识体系分解为一个个词组合，以树形式表现出来，使标注知识点更加方便快捷。00433对电子图书按页进行分割成多个页文件，每个页文件是电子图书的一页内说明书CN102332023ACN102332036A4/5页7容；0044常用的用于出版纸质图书的电子文件是按页来组织的，因此它可以按每一页来分离。图书的每一个章节都有起始页码，因此可以计算出每一个章节所包含的页的起与止页码。0045通过各种方法，本发明采用计算机程序对原图书按页进行分割成N。

21、图书页数个文件，每个文件是原图书的一页内容，文件格式可以是图片或PDF或FLASH，文件的属性中体现出页码。0046建立一个数据库，把这些“页文件”保存于数据库。并可以通过其属性检索到该文件。00474将所述目录结构文件与图书CIP数据、版权声明以及所述多个页文件一起打包，形成一个完整的电子图书文件包。0048开发一个语义图书的导出程序，实现对填加语义属性的XML目录文件语法检查、与CIP数据、版权的声明，包文件结构等其它文件一起打包，形成一个完整的电子图书。0049或者存放到数据库中，与各类图书管理系统联结。0050本发明由于电子图书内容与语义标注是分离在两个文件中，那么查询语义的方法就与一。

22、般的语义查询方法不同。如果可以快速检索到该章节，那么就可进一步检索到该章节包含的所有页。因此，通过章节目录可以检索出页的内容。这种页内容是不可直接检索到的图片，或者其它不可检索的格式。因此，本发明可以实现对电子图书进行如下应用00511、文件检索把页文件与目录结构文件合并为一个包文件，必要时把图书CIP信息、文件结构信息等其它文件放入该文件包。0052当用户提出查询语义的内容时，通过语义检索在电子图书文件包中的目录结构文件中对目录元素进行检索，根据所检索到的目录元素所指向的页码在电子图书文件包中检索页文件。00532、数据库检索把页文件及目录文件放入数据库，应用系统通过检索目录文件来检索语义，。

23、然后根据该元素所指向的页码内容及自身的版权内容，向“页文件”的数据库检索该页内容或多页内容，最终从数据库中取得页文件返回。0054此方法的优点是加工效率高，检索效果满足大部分常用需求。0055本发明章节目录是基于XML技术来实现，XML的结构性强、易于计算机程序读写，所以在拆分、形成结构、检索等环节是可以通过计算机程序处理。此外由于语义描述是采取了多维阵列的方式，每一维陈列反映了该章节的一个完整语义，因此可以从多个角度来概括一个章节的内容。借助计算机程序实现对电子图书进行自动拆分处理，全面提高了对电子图书进行拆分的效率，同时也不影响到检索效果。同时配合上述拆分方法，设计出一种通过对电子图书的目。

24、录结构进行简单的语义标注，提高了语义标注的效率。0056下面通过实际操作过程，对本发明实施方式进行举例说明，以进一步理解本发明的工作过程。0057第一步，数据输入0058取自任意一本电子图书，格式可以是DOC、INDD等图书排版文件。0059启动希望自动拆分工具运行在服务器上，然后向服务器上传电子图书文件。0060第二步，目录文件生成与页文件拆分说明书CN102332023ACN102332036A5/5页80061服务器实时监控，发现有新文件上传执行目录生成进程，产生一个具有层次树状结构的XML文件，该文件中包含有每个元素的页码信息。0062同时对电子图书文件进行拆分为每一个页文件，可以各种。

25、图片文件、PDF、FLASH等0063最后打包发送到结果池中，供下一环节下载使用。0064第三步，数据的语义处理0065运行希望语义标注系统，导入上一环节输出的XML文件与压缩包文件0066运行“浏览XML”功能，在浏览窗口中查看XML文件，这时的XML文件是具有先后顺序及层次关系的，进一步浏览并检查是否有错误，如果有，可以用鼠标拖动方式调整位置关系。0067对XML目录文件进行语义标注，可以采用多元数组方法标注，也可采用知识点标注方法标注，其中知识点标注方法会在界面上呈现出知识点的树状结构，便于操作。0068标注过程中，可以即时查阅该章节所对应的原版图书内容。0069第四步，数据输出0070。

26、运行“输出语义图书”功能，系统即可在现有的XML文件中，加入相应的CIP、结构、版权等内容。0071如果不输出电子图书，那么这些所有信息均保存在数据库中。对这些图书书的调用检索均通过WEBSERVICE向外发布，其它图书管理系统可直接调用。0072在“保存文件”的提示下，输出一个具有结构及语义的电子图书的包文件。0073最后应当说明的是以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。说明书CN102332023ACN102332036A1/1页9图1说明书附图CN102332023A。

展开阅读全文