《提取方法、提取程序、提取装置、以及提取系统.pdf》由会员分享,可在线阅读,更多相关《提取方法、提取程序、提取装置、以及提取系统.pdf(116页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103797480 A (43)申请公布日 2014.05.14 CN 103797480 A (21)申请号 201180073519.7 (22)申请日 2011.09.14 G06F 17/30(2006.01) (71)申请人 富士通株式会社 地址 日本神奈川县 (72)发明人 片冈正弘 松村量 (74)专利代理机构 北京集佳知识产权代理有限 公司 11227 代理人 舒艳君 李洋 (54) 发明名称 提取方法、 提取程序、 提取装置、 以及提取系 统 (57) 摘要 本发明提供提取方法、 提取程序、 提取装置、 以及提取系统。对段 (sg2 (1) ) 进行。
2、字符信息 “人” 的压缩符号 (P(人) ) 的汇集出现映射、 字符信息 “形” 的压缩符号 (P (形) ) 的汇集出现映射、 以及汇 集删除映射的 AND 运算。AND 结果为 “1100” , 可知 在段 (sg1 (1) ) 、(sg1 (2) ) 中有可能存在字符信息 “人” 和 “形” 。由于根据该 AND 结果指定了段 (sg1 (1) ) 、(sg1 (2) ) , 因此执行 AND 运算。由此指定段 (sg0(1) ) 、 段 (sg0(5) ) , 执行 AND 运算。由此从 段 (sg0(1) ) 指定文件编号 3, 从段 (sg0(5) ) 指 定文件编号19。 因此可。
3、知在压缩文件 (f3) 、(f19) 存在字符信息 “人” 和 “形” 这双方。 (85)PCT国际申请进入国家阶段日 2014.03.14 (86)PCT国际申请的申请数据 PCT/JP2011/071028 2011.09.14 (87)PCT国际申请的公布数据 WO2013/038527 JA 2013.03.21 (51)Int.Cl. 权利要求书 3 页 说明书 45 页 附图 67 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书45页 附图67页 (10)申请公布号 CN 103797480 A CN 103797480 A 1/3 页 2 。
4、1. 一种提取方法, 其特征在于, 使计算机执行以下步骤 : 在存储单元中存储表示针对多个文件的每一个是否包含规定的字符信息的第 1 信息、 和表示所述多个文件的至少任意一个是否包含所述规定的字符信息的第 2 信息 ; 和 在接收到针对所述规定的字符信息的检索请求时, 若检测出所述第 2 信息表示包含 所述规定的字符信息这一意思, 则基于所述第 1 信息来提取包含所述规定的字符信息的文 件。 2. 根据权利要求 1 所述的提取方法, 其特征在于, 还使所述计算机执行以下步骤 : 在接收到所述检索请求时, 若检测出所述第 2 信息不表示包含所述规定的字符信息这 一意思, 则判定为所述多个文件不包。
5、含所述规定的字符信息。 3. 根据权利要求 1 或 2 所述的提取方法, 其特征在于, 所述第 1 信息是基于位的位串, 该位表示针对所述多个文件的每一个是否包含所述规 定的字符信息, 所述第 2 信息是通过运算所述位串所包含的各位而得到的位。 4. 根据权利要求 1 3 的任意一项所述的提取方法, 其特征在于, 使所述计算机执行以下步骤 : 在所述存储单元中还存储表示针对所述多个文件的每一个是否为检索对象的第 3 信 息 ; 和 在接收到所述检索请求时, 若检测出所述第 2 信息表示包含所述规定的字符信息这一 意思, 则基于所述第 1 信息以及所述第 3 信息来提取检索对象且是包含所述规定的。
6、字符信 息的文件。 5. 根据权利要求 1 3 的任意一项所述的提取方法, 其特征在于, 使所述计算机执行以下步骤 : 在所述存储单元中还存储表示所述多个文件的至少任意一个是否为检索对象的第 4 信息 ; 和 在接收到所述检索请求时, 若检测出所述第 2 信息表示包含所述规定的字符信息这一 意思, 且所述第 4 信息表示所述多个文件的至少任意一个为检索对象这一意思, 则基于所 述第 1 信息来提取包含所述规定的字符信息的文件。 6. 一种提取方法, 其特征在于, 使计算机执行以下步骤 : 在存储单元中存储表示针对多个文件的每一个是否包含规定的字符信息的第 1 信息、 和针对所述多个文件中的一部。
7、分文件, 表示所述一部分文件的至少任意一个是否包含所述 规定的字符信息的第 2 信息 ; 在接收到针对所述规定的字符信息的检索请求时, 若检测出所述第 2 信息表示包含所 述规定的字符信息这一意思, 则基于所述第 1 信息来从所述多个文件提取包含所述规定的 字符信息的文件 ; 以及 在接收到针对所述规定的字符信息的检索请求时, 若检测出所述第 2 信息不表示包含 所述规定的字符信息这一意思, 则基于所述第 1 信息来从不包含在所述多个文件中的所述 权 利 要 求 书 CN 103797480 A 2 2/3 页 3 一部分文件的文件提取包含所述规定的字符信息的文件。 7. 一种提取程序, 其特。
8、征在于, 使计算机执行以下步骤 : 在存储单元中存储表示针对多个文件的每一个是否包含规定的字符信息的第 1 信息、 和表示所述多个文件的至少任意一个是否包含所述规定的字符信息的第 2 信息 ; 和 在接收到针对所述规定的字符信息的检索请求时, 若检测出所述第 2 信息表示包含 所述规定的字符信息这一意思, 则基于所述第 1 信息来提取包含所述规定的字符信息的文 件。 8. 一种提取程序, 其特征在于, 使计算机执行以下步骤 : 在存储单元中存储表示针对多个文件的每一个是否包含规定的字符信息的第 1 信息、 和针对所述多个文件中的一部分文件, 表示所述一部分文件的至少任意一个是否包含所述 规定的。
9、字符信息的第 2 信息 ; 在接收到针对所述规定的字符信息的检索请求时, 若检测出所述第 2 信息表示包含所 述规定的字符信息这一意思, 则基于所述第 1 信息来从所述多个文件提取包含所述规定的 字符信息的文件 ; 以及 在接收到针对所述规定的字符信息的检索请求时, 若检测出所述第 2 信息不表示包含 所述规定的字符信息这一意思, 则基于所述第 1 信息来从不包含在所述多个文件中的所述 一部分文件的文件提取包含所述规定的字符信息的文件。 9. 一种提取装置, 其特征在于, 具备 : 存储单元, 其存储表示针对多个文件的每一个是否包含规定的字符信息的第 1 信息、 和表示所述多个文件的至少任意一。
10、个是否包含所述规定的字符信息的第 2 信息 ; 和 提取单元, 在接收到针对所述规定的字符信息的检索请求时, 若检测出所述第 2 信息 表示包含所述规定的字符信息这一意思, 则该提取单元基于所述第 1 信息来提取包含所述 规定的字符信息的文件。 10. 一种提取装置, 其特征在于, 具备 : 存储单元, 其存储表示针对多个文件的每一个是否包含规定的字符信息的第 1 信息、 和针对所述多个文件中的一部分文件, 表示所述一部分文件的至少任意一个是否包含所述 规定的字符信息的第 2 信息 ; 和 提取单元, 在接收到针对所述规定的字符信息的检索请求时, 若检测出所述第 2 信息 表示包含所述规定的字。
11、符信息这一意思, 则该提取单元基于所述第 1 信息来从所述多个文 件提取包含所述规定的字符信息的文件, 在接收到针对所述规定的字符信息的检索请求 时, 若检测出所述第 2 信息不表示包含所述规定的字符信息这一意思, 则该提取单元基于 所述第 1 信息来从不包含在所述多个文件中的所述一部分文件的文件提取包含所述规定 的字符信息的文件。 11. 一种提取系统, 包含多个计算机和分配装置, 其特征在于, 所述分配装置包含 : 保持单元, 其保持针对分割多个文件而得到的多个文件组的每一个, 表示各个文件组 所包含的至少一个文件是否包含规定的字符信息的信息 ; 和 权 利 要 求 书 CN 103797。
12、480 A 3 3/3 页 4 分配单元, 在接收到针对所述规定的字符信息的检索请求时, 该分配单元根据保持在 所述保持单元的信息中表示包含所述规定的字符信息的文件为至少一个这一意思的文件 组的数量, 来将所述多个文件组分别分配给所述多个计算机, 所述多个计算机分别包含 : 存储单元, 其存储针对所述多个文件组的每一个, 表示各个文件组所包含的哪个文件 包含规定的字符信息的索引信息 ; 和 提取单元, 其基于在针对各个存储在所述存储单元中的所述多个文件组的索引信息之 中针对被分配给所述分配装置的文件组的所述索引信息来提取包含所述规定的字符信息 的文件。 权 利 要 求 书 CN 1037974。
13、80 A 4 1/45 页 5 提取方法、 提取程序、 提取装置、 以及提取系统 技术领域 0001 本发明涉及提取信息的提取方法、 提取程序、 提取装置、 以及提取系统。 背景技术 0002 以往, 存在如下技术 : 在输入有包含规定的字符信息的检索字符串的情况下, 参照 表示检索对象的多个文件的哪一个包含规定的字符信息的索引信息, 来筛选检索对象的文 件中的包含规定的字符信息的文件。 0003 专利文献 1: 专利第 2986865 号公报 发明内容 0004 然而, 若检索对象的文件数增加, 则与此相应地索引信息的大小也增加。 通过索引 信息的大小增加, 参照索引信息的处理所需要的时间增。
14、加, 因此作为结果存在检索处理的 时间增加这样的问题。 0005 本发明的目的在于, 为了消除上述的现有技术的问题点而提供能够抑制与文件数 增加对应的检索处理时间的增加的提取方法、 提取程序、 提取装置、 以及提取系统。 0006 为了解决上述技术问题而达到目的, 根据本发明的一个方面, 提出在存储单元存 储表示针对多个文件的每一个是否包含规定的字符信息的第 1 信息、 和表示上述多个文件 的至少任意一个是否包含上述规定的字符信息的第 2 信息, 并在接收到对上述规定的字符 信息的检索请求时, 若检测出上述第 2 信息表示包含上述规定的字符信息这一意思, 则基 于上述第 1 信息来提取包含上述。
15、规定的字符信息的文件的提取方法、 提取程序、 提取装置、 以及提取系统。 0007 根据本发明的一个方面, 实现能够抑制与文件数增加对应的检索处理时间的增加 这样的效果。 附图说明 0008 图 1 是表示本实施方式所涉及的压缩符号映射的分散化的说明图。 0009 图 2 是表示存储有段组的服务器的说明图。 0010 图 3 是表示追加了对象文件的情况下的压缩符号映射的追加例的说明图。 0011 图 4 是表示出现映射的阶层化的说明图。 0012 图 5 是表示删除映射的阶层化的说明图。 0013 图 6 是详细表示被阶层化的段组的说明图。 0014 图 7 是表示安装有图 6 所示的阶层结构。
16、段组的计算机系统的构成例的说明图。 0015 图 8 是表示使用了阶层结构段组的压缩文件的筛选例的说明图。 0016 图 9 是表示实施方式所涉及的计算机的硬件构成例的框图。 0017 图 10 是表示本实施方式所涉及的系统构成例的说明图。 0018 图11是表示本实施方式所涉及的计算机或者计算机系统的功能构成例1的框图。 说 明 书 CN 103797480 A 5 2/45 页 6 0019 图 12 是表示图 11 所示的计算机的合计部第 2 压缩部的处理流程的说明图。 0020 图13是表示由合计部进行的合计以及由作成部进行的压缩符号映射Ms的作成例 的说明图。 0021 图 14 是。
17、详细表示 (1) 出现次数的合计的说明图。 0022 图 15 是详细表示图 13 的 (2) 计算压缩符号长 (N 11) 的说明图。 0023 图 16 是详细表示图 13 的 (3) 确定叶子数 (5) 生成叶子的结构体 (N 11) 的说 明图。 0024 图 17 是表示每个字符信息的校正结果的说明图。 0025 图 18 是详细表示图 13 的 (6) 生成叶子的指针 (N 11) 的说明图。 0026 图 19 是详细表示图 13 的 (7) 2N分枝无节点哈夫曼树 H 的构建 (N 11) 的说明 图。 0027 图 20 是表示叶子的结构体的说明图。 0028 图 21 是表。
18、示特定单一字符的结构体的说明图。 0029 图 22 是表示分割字符码的结构体的说明图。 0030 图 23 是表示基础词汇的结构体的说明图。 0031 图 24 是表示压缩符号映射的生成例的说明图。 0032 图 25 是表示由作成部进行的压缩符号映射作成处理步骤例的流程图。 0033 图 26 是表示图 25 所示的合计处理 (步骤 S2501) 的详细处理步骤例的流程图。 0034 图 27 是表示图 26 所示的对象文件的合计处理 (步骤 S2603) 的详细处理步骤例的 流程图。 0035 图 28 是表示字符出现频度合计表的说明图。 0036 图 29 是表示图 27 所示的基础词。
19、汇合计处理 (步骤 S2702) 的详细处理步骤例的流 程图。 0037 图 30 是表示基础词汇出现频度合计表的说明图。 0038 图 31 是表示图 29 所示的最长一致检索处理 (步骤 S2901) 的详细处理步骤的流程 图。 0039 图 32 是表示图 25 所示的映射分配数决定处理 (步骤 S2502) 的详细处理步骤例的 流程图。 0040 图 33 是表示图 25 所示的再合计处理 (步骤 S2503) 的详细处理步骤例的流程图。 0041 图 34 是表示对象文件的再合计处理 (步骤 S3303) 的详细处理步骤例的流程图。 0042 图 35 是表示上位分割字符码出现频度合。
20、计表的说明图。 0043 图 36 是表示下位分割字符码出现频度合计表的说明图。 0044 图 37 是表示图 34 中所示的二元词串 (2-gram) 字符串确定处理 (步骤 S3406) 的 详细处理步骤的流程图。 0045 图 38 是表示二元词串 (2-gram) 字符串出现频度合计表的说明图。 0046 图 39 是表示图 25 所示的哈夫曼树生成处理 (步骤 S2504) 的详细处理步骤例的流 程图。 0047 图40是表示图39所示的枝数确定处理 (步骤S3904) 的详细处理步骤例的流程图。 0048 图 41 是表示图 39 所示的构建处理 (步骤 S3905) 的详细处理步。
21、骤的流程图。 说 明 书 CN 103797480 A 6 3/45 页 7 0049 图 42 是表示图 41 所示的指向叶子的指针生成处理 (步骤 S4103) 的详细处理步骤 的流程图。 0050 图43是表示图25所示的映射作成处理 (步骤S2505) 的详细处理步骤例的流程图。 0051 图 44 是表示图 43 所示的对象文件的映射作成处理 (步骤 S4303) 的详细处理步骤 的流程图。 0052 图 45 是表示图 44 中所示的基础词汇出现映射作成处理 (步骤 S4402) 的详细处理 步骤例的流程图。 0053 图 46 是表示图 44 中所示的特定单一字符出现映射作成处理。
22、 (步骤 S4403) 的详细 处理步骤例的流程图。 0054 图 47 是表示图 46 中所示的分割字符码出现映射作成处理 (步骤 S4603) 的详细处 理步骤例的流程图。 0055 图 48 是表示图 44 所示的二元词串 (2-gram) 字符串映射作成处理 (步骤 S4404) 的 详细处理步骤例的流程图。 0056 图 49 是表示二元词串 (2-gram) 字符串出现映射生成处理 (步骤 S4803) 的详细处 理步骤例的流程图。 0057 图 50 是表示使用了 2N分枝无节点哈夫曼树 H 的压缩处理的具体例的说明图。 0058 图 51 是表示由第 1 压缩部进行的使用了 2。
23、N分枝无节点哈夫曼树 H 的对象文件组 的压缩处理步骤例的流程图。 0059 图 52 是表示图 51 所示的压缩处理 (步骤 S5103) 的详细处理步骤的流程图 (其 1) 。 0060 图 53 是表示图 51 所示的压缩处理 (步骤 S5103) 的详细处理步骤的流程图 (其 2) 。 0061 图 54 是表示图 51 所示的压缩处理 (步骤 S5103) 的详细处理步骤的流程图 (其 3) 。 0062 图 55 是表示出现率与出现率区域的关系的说明图。 0063 图 56 是表示除出现率区域外还具有压缩模式的压缩模式表的说明图。 0064 图 57 是表示 B 区域以及 B 区域。
24、的情况下的压缩模式的说明图。 0065 图 58 是表示 C 区域以及 C 区域的情况下的压缩模式的说明图。 0066 图 59 是表示 D 区域以及 D 区域的情况下的压缩模式的说明图。 0067 图 60 是表示 E 区域以及 E 区域的情况下的压缩模式的说明图。 0068 图 61 是表示压缩符号映射压缩处理步骤的流程图。 0069 图62是表示本实施方式所涉及的计算机或者计算机系统的功能构成例2的框图。 0070 图 63 是表示文件解压例的说明图。 0071 图 64 是表示图 63 中的解压处理的具体例的说明图 (其 1) 。 0072 图 65 是表示图 63 中的解压处理的具体。
25、例的说明图 (其 2) 。 0073 图 66 是表示文件追加处理的具体例的说明图。 0074 图 67 是表示段追加处理的详细处理步骤的流程图。 0075 图 68 是表示基于图 67 所示的追加文件的映射更新处理 (步骤 S6709) 的详细处理 步骤的流程图 (前半) 。 0076 图 69 是表示基于图 67 所示的追加文件的映射更新处理 (步骤 S6709) 的详细处理 步骤的流程图 (后半) 。 0077 图 70 是表示段阶层化处理的详细处理步骤的流程图。 说 明 书 CN 103797480 A 7 4/45 页 8 0078 图 71 是表示图 70 所示的选择出现映射汇集处。
26、理 (步骤 S7004) 的详细处理步骤的 流程图。 0079 图 72 是表示图 70 所示的删除映射汇集处理 (步骤 S7005) 的详细处理步骤的流程 图。 0080 图 73 是表示本实施方式所涉及的检索处理步骤的流程图。 0081 图74是表示图73所示的指针确定处理 (步骤S7302) 的详细处理步骤的流程图 (其 1) 。 0082 图75是表示图73所示的指针确定处理 (步骤S7302) 的详细处理步骤的流程图 (其 2) 。 0083 图 76 是表示图 73 所示的文件筛选处理 (步骤 S7303) 的详细处理步骤的流程图。 0084 图 77 是表示图 73 所示的使用了。
27、 2N分枝无节点哈夫曼树 H 的解压处理 (步骤 S7304) 的详细处理步骤例的流程图 (其 1) 。 0085 图 78 是表示图 73 所示的使用了 2N分枝无节点哈夫曼树 H 的解压处理 (步骤 S7304) 的详细处理步骤例的流程图 (其 2) 。 具体实施方式 0086 以下参照附图, 对本发明的实施方式详细地进行说明。 另外, 在本说明书中,“字符 信息” 是指, 构成文本数据的单一字符、 基础词汇、 分割字符码等。 对象文件组例如是文档文 件、 网页、 电子邮件等电子数据, 例如是文本形式、 HTML(HyperText Markup Language : 超 文本标记语言) 。
28、形式、 XML(Extensible Markup Language : 可延伸标记语言) 形式的电子数 据。 0087 此外,“单一字符” 是指, 由 1 个字符码表现的字符。单一字符的字符码长根据字符 码种类而不同。 0088 例如, 在 UTF(Unicode Transformation Format : 统一码变换格式) 16 的情况下 是 16 位码, 在 ASCII(American Standard Code for Information Interchange : 美国标 准信息交组) 码的情况下是 8 位码, 在移位 JIS(Japanese Industrial Sta。
29、ndard : 日本工 业标准) 码的情况下是 8 位码。在通过移位 JIS 码表现日语字符的情况下, 成为组合两个 8 位码。 0089 此外,“基础词汇” 是指, 在小中学校学习的基本词汇, 或以特定的字符串表现的保 留字。若以 “This is a.” 的英文为例, 则是 “This” 、“is” 、“a” 等词汇, 其被分类成 千词级、 两千词级、 数千词级, 在英日辞典中, 赋予 “” 、“” 、“” 标记。此外, 保留 字是指事先决定的字符串, 例如列举出 HTML 的标签 (例如 br ) 。 0090 此外,“分割字符码” 是指, 将单一字符分割成上位码和下位码的各个码。在本实。
30、施 方式中, 如后述那样, 存在将单一字符分割成上位码和下位码的情况。例如,“芝” 这一单一 字符的字符码在 UTF16 的情况下, 以 “9D82” 表现, 被分割成上位分割字符码 “0x9D” 和下位 分割字符码 “0x82” 。 0091 此外,“词串 (gram) ” 是指字符单位。例如, 对于单一字符, 其一个字符为一元词串 (1-gram) 。对于分割字符码, 分割字符码单独为一元词串。因此, 单一字符 “芝” 为二元词 串 (2-gram) 。另外, 在本实施方式中, 作为字符码, 以 UTF16 举例进行说明。 说 明 书 CN 103797480 A 8 5/45 页 9 0。
31、092 此外, 在本说明书中, 以在设为 “位有效” 的情况下该位值为 “1” , 在设为 “位失效” 的情况下该位值为 “0” 进行说明。另外, 也可以在设为 “位有效” 的情况下该位值为 “0” , 在 设为 “位失效” 的情况下该位值为 “1” 。 0093 “出现映射” 是指用于全文检索的索引, 是连结了指定字符信息的指针和表示字符 信息在各对象文件中的有无的位串而得的位串。在检索处理时, 能够将该位串用作根据位 的有效 / 失效而表示是否包含检索对象的字符信息的索引。作为指定字符信息的指针, 例 如, 采用字符信息的压缩符号。指定字符信息的指针例如也可以使用字符信息本身。 “压缩 符。
32、号映射” 是指, 将每个由压缩符号的指针表示的字符信息的出现映射集中起来的位映射。 对于二元词串 (2-gram) 字符串的压缩符号映射, 为组合了第 1 词串的压缩符号和第 2 词串 的压缩符号的压缩符号串。 0094 “二元词串 (2-gram) 字符串” 是指一元词串 (1-gram) 的字符码连接的字符串。例 如, 在 “人形芝居” 这样的字符串中, 包含有 2 连接字符 “人形” 、“形芝” 、“芝居” 。2 连接字符 “人形” 的 “人” 、“形” 分别为未被分割的单一字符, 因此 2 连接字符 “人形” 保持原样地为二 元词串 (2-gram) 字符串。 0095 由于 “芝” 。
33、如上述那样被分割, 因此单一字符 “形” 和 “芝” 的上位分割字符码 “0x9D” 的组合为二元词串 (2-gram)字符串。此外, 上位分割字符码 “0x9D”和下位分割字符码 “0x82” 的组合也为二元词串 (2-gram) 字符串。另外, 下位分割字符码 “0x82” 和未被分割 的单一字符 “居” 的组合也为二元词串 (2-gram) 字符串。 0096 根据基础词汇, 在对象文件组被压缩的情况下, 能够在压缩符号映射的生成时、 检 索时通过一个路径进行访问。 另外, 在未压缩对象文件组的情况下, 作为指定字符信息的指 针, 也可以保持原样地采用字符信息的字符码。 0097 此外,。
34、“删除映射” 是指, 以位串表示对象文件的存在或者删除的索引。另外, 在删 除映射中, 与符合有效 ( 1) 的位对应的文件编号的对象文件意味着存在。另一方面, 若 为失效 ( 0) , 则该对象文件意味着已被删除。由此, 在使用压缩符号映射进行检索的情况 下, 即使不删除对象文件本身, 只要通过使与对象文件对应的删除映射为失效, 就能够从检 索对象中除去对象文件。 0098 图 1 是表示本实施方式所涉及的压缩符号映射的分散化的说明图。压缩符号映射 以规定的文件数 n 为单位 (例如 n 256) 被分割。将被分割的每一个称作段。 0099 段 sg0(1) 是具有压缩文件 f1 fn 的压。
35、缩符号映射的段, 段 sg0(2) 是具有压 缩文件 f(n 1) f(2n) 的压缩符号映射的段, 段 sg0(3) 是具有压缩文件 f(2n 1) f(3n) 的压缩符号映射的段。 0100 段在初始状态下, 仅存在段 sg0 (1) , 若由于文件追加而使文件数超过 n, 则生成段 sg0(2) , 若文件数超过 2n, 则生成段 sg0(3) 。这样, 通过文件数增加, 最末尾的段 sg0(K) 成为具有压缩文件 f( (K-1) n 1) f(Kn) 的压缩符号映射的段 (其中, K 表示当前的段 数。K 是 1 以上的整数。 ) 。 0101 各段具有管理区域 A1 AK (管理区。
36、域组 As) 。在管理区域 A1 AK 中存放有 : 指 向在先段的指针、 指向后续段的指针、 指向构成该段内的压缩符号映射的各出现映射的指 针、 指向该段内的删除映射的指针、 以及指向该段内的各压缩文件的指针。 0102 对于前头段 sg0(1) , 由于没有在先段, 所以作为指向在先段的指针, 例如存放 说 明 书 CN 103797480 A 9 6/45 页 10 “00000000h” 。地址 “00000000h” 是指定前头段 sg0(1) 的逻辑地址。同样地, 对于最末尾 的段 sg0(K) , 由于没有后续段, 所以作为指向后续段的指针, 例如存放 “0FFFFFFFh” 。。
37、若进 行还原, 则作为指向后续段的指针, 存放有 “0FFFFFFFh” 的段是最末尾段。 0103 在 K 1 的情况下, 即, 在仅存在段 sg0(1) 的情况下, 段 sg0(1) 的指向在先段 的指针是 “00000000h” , 指向后续段的指针是 “0FFFFFFFh” 。若通过文件追加而使 K 2, 则 段 sg0(1) 的指向后续段的指针从 “0FFFFFFFh” 变更为 “指向段 sg0(2) 的指针” 。 0104 此外, 在段 sg0(2) 的指向在先段的指针存放有 “指向段 sg0(1) 的指针 (段 sg0 (1) 的地址 “00000000h” ) ” 。此外, 在。
38、段 sg0(2) 的指向后续段的指针存放有 “0FFFFFFFh” 。 这样, 通过按每个段预先建立在先段以及后续段的关联, 能够联合进行以段为单位的检索。 0105 各段的压缩符号映射 M1 MK(压缩符号映射 Ms) 虽然具有字符信息相同的出现 映射, 但是负责的文件编号不同。在各段的压缩符号映射 M1 MK 中负责的文件编号为该 段保持的压缩文件的文件编号。例如, 在段 sg0(K) 的压缩符号映射 MK 中, 对于各字符信 息的出现映射, 具有表示文件编号 (K-1) n Kn 的有无的位串。 0106 对于各段的删除映射 D1 DK(删除映射 Ds) , 也与压缩符号映射组 Ms 同。
39、样, 负责 的文件编号不同。在各删除映射 D1 DK 中负责的文件编号为该段保持的压缩文件的文件 编号。例如, 在段 sg0(K) 的删除映射 DK 中, 对于各字符信息的出现映射, 具有表示针对文 件编号 (K-1) n Kn 的存在或者删除的位串。 0107 图 2 是表示存储有段组的服务器的说明图。服务器 200 具有数据库 201。在数据 库 201 中存放有存档文件 202。存档文件 202 具有批处理部 211 和追加部 212。在批处理 部 211 默认地存放有 c 个段 sg0(1) sg0(c) 。在追加部 212 中存放有被追加的段 sg0 (c 1) sg0(K) 。另外。
40、, 当在追加部 212 没有闲置区域的情况下, 存放在能够经由网络 而与服务器 200 通信的其他服务器。 0108 图 3 是表示追加了对象文件的情况下的压缩符号映射的追加例的说明图。在 (A) 中, 已登记有段 sg0(1) 、 sg0(2) , 在针对字符信息 LT1 LTz 的压缩符号 P(LT1) P (LTz) 的出现映射中, 存放有文件编号 1 2n 的索引信息。 0109 (B) 表示从 (A) 的状态对出现映射组进行了压缩的状态。对压缩方法之后再叙述, 作为进行压缩的时刻, 例如, 在成为 1 段的文件数 n 的倍数时进行压缩。在该情况下, 由于 文件数是n的倍数2n, 所以。
41、按每个出现映射来压缩作为索引信息的位串。 此外, 在确认字符 信息 LT1 LTz 的有无时进行解压。对解压方法也之后再叙述。这样, 通常预先进行压缩 保存, 仅在需要时解压, 由此能够实现节省存储空间化。 0110 (C) 表示从 (B) 的状态追加了新压缩文件 f(2n 1) 的状态。由于在作为 (B) 的 最末尾段的段 sg0(2) 中无法存放压缩文件 f(2n 1) , 所以新设定段 sg0(3) 来保存压 缩文件 f(2n 1) 。此外, 在段 sg0(3) 的压缩符号映射中, 按每个压缩符号设定有针对压 缩文件 f(2n 1) 的位。在 (C) 的例子中, 对字符信息 LT1、 L。
42、T2 设定有 “1” , 对 LTz 设定有 “0” 。 0111 (D) 表示从 (C) 的状态在段 sg0(3) 中追加了 n 个压缩文件 f(2n 1) f(3n) 的状态。 0112 (E) 表示在 (D) 的状态下在段 sg0(3) 中追加了 n 个压缩文件 f(2n 1) f (3n) , 因此按每个压缩符号对段 sg0(1) sg0(3) 的索引信息进行了压缩的状态。这样, 说 明 书 CN 103797480 A 10 7/45 页 11 当以段为单位积存了 n 个压缩文件时, 进行出现映射的压缩。 0113 图 4 是表示出现映射的阶层化的说明图。若增加段数, 则按每个压缩符。
43、号而成为 索引信息的位串变得冗余化。在冗余化的情况下, 需要按每个压缩符号, 即按每个字符信 息, 针对全文件数来确认表示有无的位的有效失效, 但是对不存在之处进行确认作业是 不必要的, 这成为检索时间增加的原因。因此, 若按每个压缩符号, 即按每个字符信息生成 m 1 个段, 则以 m 个为单位汇集索引信息。 0114 在图 4 中, 作为例子, 以将字符信息 LTx 的压缩符号 P(LTx) 的索引信息汇集在上 位阶层的情况举例来进行说明。另外,“sgX(Y) ” 的 X 表示阶层编号, Y 表示段编号。因此, 在 sgX(Y) 的情况下, 为第 X 阶层的第 Y 个段。此外, 当前为止所。
44、说明的段 sg0(1) sg0 (K) 为第 0 阶层的段。 0115 首先, 对从作为基本阶层的第 0 阶层向作为上位阶层的第 1 阶层的汇集例进行说 明。 作为汇集的规则, 在作为对象阶层的段的索引信息的位串全部为0, 即, 在该段内的对象 文件组不存在字符信息 LTx 的情况下, 汇集成 “0” 来作为上位阶层的索引。另一方面, 在即 使一个作为对象阶层的段的索引信息的位串存在 “1” 的情况下, 即在该段内的对象文件组 的至少一个存在字符信息 LTx 的情况下, 汇集成 “1” 来作为上位阶层的索引。 0116 例如, 对于段 sg0(1) , 由于存在 “1” , 因此对上位阶层的段。
45、 sg1(1) 设定 “1” 。同 样地, 对于段 sg0(m) , 由于全部为 0, 因此对上位阶层的段 sg1(1) 设定 “0” 。该上位阶层 的段 sg1(1) 的位的位置表示下位的段 sg0(1) sg0(m) 的位置。这样, 能够通过上位 阶层的段的位值来确定下位段的索引信息的状态。 0117 此外, 这种汇集并不只在第0阶层与第1阶层之间进行, 若最上位阶层的段数成为 m 个, 则新生成上位阶层的段。例如, 若在第 1 阶层中段形成到段 sg1 (m) , 则如上述那样生 成第 2 阶层的段 sg2 (1) 。另外, 在图 4 中, 表示了到第 2 阶层为止的例子, 但是随着被追。
46、加 的压缩文件数增加, 汇集成第 3 阶层以上的阶层。 0118 图 5 是表示删除映射的阶层化的说明图。对于删除映射, 也和图 4 相同地以段为 单位汇集成上位阶层。 0119 图 6 是详细表示被阶层化的段组的说明图。在图 6 的阶层结构段组中, 在第 0 阶 层生成有如图 1 所示那样的 m2个段 sg0(1) sg0(m2) 。此外, 针对上位阶层也生成有相 同的数据结构的段 sg1(1) sg1(m) 。例如, 在第 1 阶层的段 sg1(1) sg1(m) 中, 按 每个压缩符号而存放有在第 0 阶层中汇集而成的出现映射 (汇集出现映射) 。同样地, 按每 个压缩符号而存放有在第 。
47、0 阶层中汇集而成的删除映射 (汇集删除映射) 。 0120 此外, 与第 0 阶层相同, 在每个管理区域设定有指向在先段的指针和指向后续段 的指针。此外, 也存放指向该段内的汇集出现映射的指针和指向汇集删除映射的指针。此 外, 在管理区域中分别存放有指向下位阶层的段 (下位段) 的指针。例如, 在段 sg1(1) 中, 存放有指向下位阶层的段 sg0(1) 的指针指向段 sg0(m) 的指针, 能够指定段 sg0(1) 段 sg0(m) 。另外, 在第 1 阶层以上的段不存放压缩文件。 0121 图 7 是表示安装了图 6 所示的阶层结构段组 SG 的计算机系统的构成例的说明图。 在图 7 。
48、的阶层结构段组 SG 中, 将 m 个段作为 1 个存档文件。另外,“AX(Y) ” 是存档文件的 符号, X 表示阶层编号, Y 表示存档编号。因此, 在 AX(Y) 的情况下, 为第 X 阶层的第 Y 个存 档文件。例如, 存档文件 A0(1) 是第 0 阶层的段 sg0(1) sg0(m) 的集合。 说 明 书 CN 103797480 A 11 8/45 页 12 0122 在图 7 的例子中, 主服务器 MS 存放第 1 阶层以上的存档文件。此外, 从属服务器 S1、 S2、 S(2m 1) 、存放有由主服务器 MS 分配的 1 个存档文件。图 7 的存档文件 的分配为 1 个例子, 主服务器 MS 不需要负责全部的第 1 阶层以上的存档文件, 可以使它们 分散到其他服务器。此外, 对于从属服务器 S1、 S2、 S(2m 1) 、也不只是负责 1 个 存档文件, 也可以负责多个存档文件。 0123 图 8 是表示使用了阶层结构段组 SG 的压缩文件的筛选例的说明图。在图 8 中, 为 了使说明简单化, 将第 0 阶层的段的文件数 n 设为 n 4, 并设 m 4。因此, 虽然第 0 阶层 段存在 sg0(1) sg0。