《索引生成程序以及检索程序.pdf》由会员分享,可在线阅读,更多相关《索引生成程序以及检索程序.pdf(31页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201280073480.3(22)申请日 2012.05.31G06F 17/30(2006.01)(71)申请人富士通株式会社地址日本神奈川县(72)发明人片冈正弘 村田孝宏 大田贵文(74)专利代理机构北京集佳知识产权代理有限公司 11227代理人舒艳君 李洋(54) 发明名称索引生成程序以及检索程序(57) 摘要本发明的目的在于在一个方面抑制针对文档数据对的字符串检索的对象锁定中的锁定噪声。根据一方式,计算机根据文档文件中是否存在具有规定数以上的子要素的文档要素,进行如下的切换:即,是按照上述子要素的层级的每个文档要素进行在多个块。
2、中的哪个包括上述文档文件内的数据的控制,或者还是按照每个上述文档要素或者比上述文档要素上位的要素的层级的每个文档要素进行在多个块中的哪个包括上述文档文件内的数据的控制,通过与上述切换对应的上述控制,将上述文档文件分割为上述多个块,按照分割而得到的每个数据,生成表示各数据是否包括规定的字符信息的索引信息。(85)PCT国际申请进入国家阶段日2014.11.26(86)PCT国际申请的申请数据PCT/JP2012/003592 2012.05.31(87)PCT国际申请的公布数据WO2013/179348 JA 2013.12.05(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)。
3、发明专利申请权利要求书2页 说明书14页 附图14页(10)申请公布号 CN 104380286 A(43)申请公布日 2015.02.25CN 104380286 A1/2页21.一种生成程序,其特征在于,使计算机执行如下的处理:根据文档文件中是否存在具有规定数以上的子要素的文档要素,进行如下的切换:即,是按照所述子要素的层级的每个文档要素进行在多个块中的哪个包括所述文档文件内的数据的控制,或者还是按照每个所述文档要素或比所述文档要素上位的要素的层级的每个文档要素进行在多个块中的哪个包括所述文档文件内的数据的控制的切换,通过与所述切换对应的所述控制,将所述文档文件分割为所述多个块,按照分割而。
4、得到的每个块,生成表示各块是否包括规定的字符信息的索引信息。2.根据权利要求1所述的生成程序,其特征在于,使所述计算机执行如下的处理:在所述文档要素或比所述文档要素上位的文档要素的层级的文档要素的数据尺寸比规定值大的情况下,进一步按照下位1层级的每个文档要素执行所述控制。3.根据权利要求1或者2所述的生成程序,其特征在于,所述文档文件所包含的各文档要素是包含在从所述文档文件所包含的标签的开始标签到结束标签的范围内的字符信息组。4.一种生成方法,其特征在于,使计算机执行如下的处理:根据文档文件中是否存在具有规定数以上的子要素的文档要素,进行如下的切换:即,是按照所述子要素的层级的每个文档要素进行。
5、在多个块中的哪个包括所述文档文件内的数据的控制,或者还是按照每个所述文档要素或比所述文档要素上位的要素的层级的每个文档要素进行在多个块中的哪个包括所述文档文件内的数据的控制的切换,通过与所述切换对应的所述控制,将所述文档文件分割为所述多个块,按照分割而得到的每个块,生成表示各块是否包括规定的字符信息的索引信息。5.一种生成装置,其特征在于,包括:分割部,其根据文档文件中是否存在具有规定数以上的子要素的文档要素,进行如下的切换:即,是按照所述子要素的层级的每个文档要素进行在多个块中的哪个包括所述文档文件内的数据的控制,或者还是按照每个所述文档要素或者比所述文档要素上位的要素的层级的每个文档要素进。
6、行在多个块中的哪个包括所述文档文件内的数据的控制的切换,并通过与所述切换对应的所述控制,将所述文档文件分割为所述多个块;以及生成部,其按照分割而得到的每个块,生成表示各块是否包括规定的字符信息的索引信息。6.一种检索程序,其特征在于,使计算机执行如下的处理:若受理检索字符串,则基于所述检索字符串所包含的字符信息,来参照将通过分割而得到的各块与所述各块是否包括所述字符信息建立对应的索引信息,该分割通过根据文档文件中是否存在具有规定数以上的子要素的文档要素,以如下方式切换而进行,即,是按照所述子要素的层级的每个文档要素进行在多个块中的哪个包括所述文档文件内的数据的控制,或者还是按照每个所述文档要素。
7、或比所述文档要素上位的要素的层级的每个文档要素进行在多个块中的哪个包括所述文档文件内的数据的控制的切换,权 利 要 求 书CN 104380286 A2/2页3通过所述索引信息的参照,来确定所述索引信息中表示包括所述字符信息这一意思的块,对确定出的所述块进行基于所述检索字符串的字符串检索。7.一种检索方法,其特征在于,使计算机执行如下的处理:若受理检索字符串,则基于所述检索字符串所包含的字符信息,来参照将通过分割而得到的各块与所述各块是否包括所述字符信息建立对应的索引信息,该分割通过根据文档文件中是否存在具有规定数以上的子要素的文档要素,以如下方式切换而进行,即,是按照所述子要素的层级的每个文。
8、档要素进行在多个块中的哪个包括所述文档文件内的数据的控制,或者还是按照每个所述文档要素或比所述文档要素上位的要素的层级的每个文档要素进行在多个块中的哪个包括所述文档文件内的数据的控制的切换,通过所述索引信息的参照,来确定所述索引信息中表示包括所述字符信息这一意思的块,对确定出的所述块进行基于所述检索字符串的字符串检索。8.一种检索装置,其特征在于,包括:受理部,其受理检索字符串;存储部,其基于所述受理部受理的所述检索字符串所包含的字符信息,来存储将通过分割而得到的各块与所述各块是否包括所述字符信息建立对应的索引信息,该分割通过根据文档文件中是否存在具有规定数以上的子要素的文档要素,以如下方式切。
9、换而进行,即,是按照所述子要素的层级的每个文档要素进行在多个块中的哪个包括所述文档文件内的数据的控制,或者还是按照每个所述文档要素或比所述文档要素上位的要素的层级的每个文档要素进行在多个块中的哪个包括所述文档文件内的数据的控制的切换;锁定部,其通过存储在所述存储部中的所述索引信息的参照,来确定所述索引信息中表示包括所述字符信息这一意思的块;以及检索部,其对确定出的所述块进行基于所述检索字符串的字符串检索。权 利 要 求 书CN 104380286 A1/14页4索引生成程序以及检索程序技术领域0001 本发明涉及文档数据的检索技术。背景技术0002 小说、学术书、辞典等多个类型的书籍以电子保存。
10、信息而成的电子书籍的形态被销售。在进行针对多个文档数据的检索的情况下,存在使用索引信息的技术,该索引信息按照每个字符信息的种类表示字符信息包含于多个文档数据中的哪个的对应关系。例如,一方面利用预先生成的索引信息,将表示包括检索字符串中的某个字符信息C的文档数据作为基于检索字符串的字符串检索的检索对象,另一方面进行从字符串检索的对象删除其它文档数据的控制。这是因为在索引信息中示出其它文档数据中不包括前述的字符信息C,所以即使不进行检索字符串的字符串检索,也清楚在其它文档数据中不包括检索字符串。0003 另外,已知一种将索引信息作为按文档要素单位分配了表示字符信息存在于文件中的哪个文档要素(章、节。
11、、项等单位)的位而成的位序列的技术(例如专利文献1)。0004 专利文献1:日本特开平8314966号公报0005 例如用HTML(Hyper Text Markup Language:超文本标记语言)等标记语言描述小说、学术书、辞典等电子书籍。用HTML描述的文档数据被文档数据内的标签信息等划分为构成文档的文档要素。例如对于某个标签,从开始标签到结束标签的数据是一个文档要素。对于某个文档要素,该文档要素内所包含的从其它开始标签到结束标签的数据成为前述的某个文档要素的子要素。这样,根据由开始标签和结束标签构成的组所示的范围的包含关系来表示文档要素间的层级关系。0006 即使按照文件内所包含的某。
12、个层级的每个文档要素对文档数据的文件进行块分割,分割所获得的各块彼此数据尺寸未必相同。若在各块中数据尺寸不同,则各个块所包含的字符信息的种类的数量也有不同的趋势。例如,在分章节的学术书中,只某章较长的情况下,有时只与该章对应的块的字符信息的种类变多。在这种情况下,索引信息中示出特定的块显著多的种类的字符信息的存在。0007 另外,存在使用被压缩的索引信息的技术,但通过索引信息的压缩,对于表示多个种类的字符信息的存在的块,在使用了索引信息的字符串检索的对象的锁定中容易产生噪声。所谓被压缩的索引信息是对多个字符信息重叠表示字符信息包含于多个文档数据中的哪个的对应关系的信息而成的索引信息。即,在被压。
13、缩的索引信息中,将表示是否包括多个字符信息中的任意一个的信息与各块建立对应。于是,由于针对多个字符信息的是否存在信息被重叠,所以抑制索引信息本身的数据尺寸。另一方面,由于在文件锁定中也从索引信息中提取出在索引信息被重叠的其它字符信息的存在,所以产生锁定噪声。存在若提高压缩率(增多重叠的字符信息的数量),则噪声的产生概率变高(容易产生锁定噪声)这种关系。然而,由于对于块彼此,块内所包含的字符信息的种类的数量不同,所以即使在各块中压缩率共同,噪声的产生概率也根据块而各种各样。于是,字符信息的种类较多的块容易产生锁定噪声。说 明 书CN 104380286 A2/14页50008 如前述那样,即使在。
14、特定的层级的文档要素的分界线将文件内的数据分割成块,也起因于各个文档要素的数据尺寸不同,而使各个块中的锁定噪声的产生容易度不同。0009 然而,若单纯地以使块的数据尺寸一样的方式分割文档数据的文件,则有时在文档要素的分界线以外,或下位的文档要素(部、章、节、条和分章节的文档的条等)的分界线被分割。0010 例如,将相当于第1章的文件分割为包括第1节和第2节的一部分的第1块、和包括第2节的一部分和第3节的第2块。例如,在学术书中,包含于相同的节的项彼此大多包括相关的内容。因此,第2节内的各项中特征性用语所包含的字符信息有时存在于第1块和第2块双方。在这种情况下,若在节单位中的分界线进行块分割(例。
15、如在第1节、第2节以及第3节中,分别为第1块、第2块以及第3块),则第2节中特征性用语所包含的字符信息可能仅存在于第2块(该特征性用语不存在于第1节以及第3节双方的情况下)。0011 在学术书等具有层级结构的文档中,往往存在章内的各节共同使用的用语、节内的各项共同使用的用语、项内的各条共同使用的用语等。0012 另一方面,在辞典中,由于各项目中内容独立,所以相同的节所包含的项彼此很少包含相关的内容。因此,有时虽然在第2节的某个项中是特征性用语,但在第2节内的其它项中未被使用。于是,即使分割成包括第1节和第2节的一部分的第1块、和包括第2节的一部分和第3节的第2块,在前述的第2节的某项中特征性用。
16、语所包含的字符信息有时只包含在第1块或者第2块中的任意一个。0013 可预料如上述,通过像学术书那样使包含于相同的上位要素、且内容相关的子要素彼此包含于相同的块,从而抑制字符串检索对象的锁定噪声。另一方面,也存在即使如辞典那样使相同的上位要素(例如章等)的子要素包含于相同的块也很难抑制锁定噪声的情况。在这种情况下,可预料也有时通过使各块的数据尺寸平均化来抑制锁定噪声。发明内容0014 在本公开的一方面,目的在于抑制针对文档数据的字符串检索的对象锁定中的锁定噪声。0015 根据一方式,生成程序使计算机执行如下的处理:根据文档文件中是否存在具有规定数以上的子要素的文档要素,进行如下的切换:即,是按。
17、照上述子要素的层级的每个文档要素进行在多个块中的哪个包括上述文档文件内的数据的控制,或者还是按照每个上述文档要素或比上述文档要素上位的要素的层级的每个文档要素进行在多个块中的哪个包括上述文档文件内的数据的控制的切换,通过与上述切换对应的上述控制,将上述文档文件分割为上述多个块,按照分割而得到的每个块,生成表示各块是否包括规定的字符信息的索引信息。0016 根据一方式,使用使计算机执行如下的处理的生成方法,即,根据文档文件中是否存在具有规定数以上的子要素的文档要素,进行如下的切换:即,是按照上述子要素的层级的每个文档要素进行在多个块中的哪个包括上述文档文件内的数据的控制,或者还是按照每个上述文档。
18、要素或比上述文档要素上位的要素的层级的每个文档要素进行在多个块中的哪个包括上述文档文件内的数据的控制的切换,通过与上述切换对应的上述控制,将上述文档文件分割为上述多个块,按照分割而得到的每个块,生成表示各块是否包括规定的说 明 书CN 104380286 A3/14页6字符信息的索引信息。0017 根据一方式,生成装置的特征在于,包括:分割部,其根据文档文件中是否存在具有规定数以上的子要素的文档要素,进行如下的切换:即,是按照上述子要素的层级的每个文档要素进行在多个块中的哪个包括上述文档文件内的数据的控制,或者还是按照每个上述文档要素或比上述文档要素上位的要素的层级的每个文档要素进行在多个块中。
19、的哪个包括上述文档文件内的数据的控制的切换,并通过与上述切换对应的上述控制,将上述文档文件分割为上述多个块;以及生成部,其按照分割而得到的每个块,生成表示各块是否包括规定的字符信息的索引信息。0018 根据一方式,检索程序使计算机执行如下的处理:若受理检索字符串,则基于上述检索字符串所包含的字符信息来参照将通过分割而得到的各块与上述各块是否包括上述字符信息建立对应的索引信息,该分割通过根据文档文件中是否存在具有规定数以上的子要素的文档要素,以如下方式切换而进行,即,是按照上述子要素的层级的每个文档要素进行在多个块中的哪个包括上述文档文件内的数据的控制,或者还是按照每个上述文档要素或比上述文档要。
20、素上位的要素的层级的每个文档要素进行在多个块中的哪个包括上述文档文件内的数据的控制的切换,通过上述索引信息的参照,来确定上述索引信息中表示包括上述字符信息这一意思的块,对确定出的上述块进行基于上述检索字符串的字符串检索。0019 根据一方式,使用使计算机执行如下处理的检索方法,即,若受理检索字符串,则基于上述检索字符串所包含的字符信息来参照将通过分割而得到的各块与上述各块是否包括上述字符信息建立对应的索引信息,该分割通过根据文档文件中是否存在具有规定数以上的子要素的文档要素,以如下方式切换而进行,即,是按照上述子要素的层级的每个文档要素进行多个块中的哪个包括上述文档文件内的数据的控制,或者还是。
21、按照每个上述文档要素或比上述文档要素上位的要素的层级的每个文档要素进行多个块中的哪个包括上述文档文件内的数据的控制的切换,通过上述索引信息的参照,来确定上述索引信息中表示包括上述字符信息这一意思的块,对确定出的上述块进行基于上述检索字符串的字符串检索。0020 根据一方式,检索装置包括:受理部,其受理检索字符串;存储部,其基于上述受理部受理的上述检索字符串所包含的字符信息,来存储将通过分割而得到的各块与上述各块是否包括上述字符信息建立对应的索引信息,该分割通过根据文档文件中是否存在具有规定数以上的子要素的文档要素,以如下方式切换而进行,即,是按照上述子要素的层级的每个文档要素进行在多个块中的哪。
22、个包括上述文档文件内的数据的控制,或者还是按照每个上述文档要素或比上述文档要素上位的要素的层级的每个文档要素进行在多个块中的哪个包括上述文档文件内的数据的控制的切换;锁定部,其通过存储在上述存储部中的上述索引信息的参照,来确定上述索引信息中表示包括上述字符信息这一意思的块;以及检索部,其对确定出的上述块进行基于上述检索字符串的字符串检索。0021 根据本发明的一个方面,能够抑制针对文档数据的字符串检索的对象锁定中的锁定噪声附图说明说 明 书CN 104380286 A4/14页70022 图1A以及B是表示索引信息的例子、和基于索引信息而生成的位序列的例子。0023 图2A表示文档数据的层级结。
23、构例子。0024 图2B表示文档数据的层级结构例子。0025 图3表示计算机1的功能模块的例子。0026 图4表示生成部13的功能模块的例子。0027 图5表示块编号和块读出位置的对应关系。0028 图6表示锁定部15的功能模块的例子。0029 图7表示计算机1的硬件构成的例子。0030 图8表示在计算机1中进行动作的软件的构成例子。0031 图9表示索引生成的处理步骤例子。0032 图10A表示文档结构解析处理的处理步骤例子。0033 图10B表示文档结构解析处理的处理步骤例子。0034 图11表示文档结构表的例子。0035 图12A表示文件分割处理的处理步骤例子。0036 图12B表示文件。
24、分割处理的处理步骤例子。0037 图13表示全文检索处理的处理步骤例子。0038 图14表示索引参照处理的处理步骤。0039 图15表示储存检索结果的表的例子。具体实施方式0040 在说明详细前,先对使用了索引信息的字符串检索的对象文件的锁定进行说明。0041 图1A表示基于检索对象的文件组F1Fn的索引信息I1。索引信息I1的最上段所示的文件编号是分别与检索对象的文件组F1Fn对应的编号。在索引信息中字符信息组C1Cm被分别同与文件组F1Fn中的是否存在有关的位序列建立对应。0042 字符信息组C1Cm所包含的字符信息Cj例如是1个字符或多个字符的组合的字符串。或者字符信息Cj可以是与字符信。
25、息对应的二进制代码的一部分。字符信息组C1Cm也可以是假定使用的字符(例如分配有JIS码的字符)的所有组合。例如假设文件组F1Fn中的某个文件Fi(文件编号为i)是包括“人生見悲劇見喜劇(人生以放大镜来看是悲剧,以望远镜来看是喜剧)”这种字符串的文件。该情况下,文件Fi是包括“人”、“生”、“”、“劇”这种字符信息的文件,也是包括“人生”、“生”、“”、“喜劇”这种字符信息的文件。在本实施方式中,例示字符信息组C1Cm的每一个是2个字符的字符信息的情况。0043 通过针对1n的各个数i,在同字符信息Cj和文件Fi对应的存储区域中存储与文件Fi是否包括字符信息Cj有关的信息来表示字符信息Cj包含。
26、于文件组F1Fn中的哪个。例如在索引信息I1中,与文件Fi中是否包括字符信息Cj有关的是否存在信息的储存目的地通过将与字符信息Cj对应的二进制代码代入散列函数而获得的地址Pj、和文件编号i来表示。所谓与字符信息对应的二进制代码例如如果是与字符信息“喜劇”对应的二进制代码(基于JIS的字符码),则是0x346E3760(0x意味是16进制表记)。0044 在对一个字符信息Cj分配一个地址Pj的情况下,对于字符信息Cj的是否存在信说 明 书CN 104380286 A5/14页8息,如果在文件Fi存在字符信息Cj则以“1”值的位来表示,如果在文件Fi中不存在字符信息Cj则以“0”值的位来表示。另一。
27、方面,也存在多个字符信息(例如,字符信息Cj和字符信息Ck)被分配给一个地址Pj的情况。该情况下,对于是否存在信息,如果在文件Fi中存在字符信息Cj以及字符信息Ck中的至少一个则以“1”值的位来表示,如果在文件Fi中字符信息Cj以及字符信息Ck均不存在则以“0”值的位来表示。顺便说明,如何表示是否存在信息可以适当地变更,也可以是值为“1”表示不存在,值为“0”表示存在。而且,也可以通过多个位来表示是否存在。在图1A所示的索引信息中,包括字符信息这一意思以“1”值的位来表示。0045 例如,在与地址Pj对应的字符信息仅是“喜劇”的情况下,通过索引信息I1的地址Pj所示的位序列可清楚“喜劇”包含于。
28、文件编号2、3、i的文件的每一个。另外,例如在“劇王”和“見”双方与一个地址Pk对应的情况下,索引信息I1的地址Pk所示的位序列表示对于文件组F1Fn的每一个,是包括“劇王”和“見”中的至少一方、还是“劇王”和“見”都不包括中的任意一个。例如,文件编号i、n1的文件表示包括“劇王”和“見”中的至少一方,文件编号1、2、3、j、k等的文件表示“劇王”和“見”都不包括。0046 如图1A所示,由于文件Fi也包括“喜劇”以外的字符信息,所以不光“喜劇”,与“人生”、“生”、等检索字符串中的其它字符信息对应的位置的位也表示“1”值。另外,虽然图1A中省略,但对于文件组F1Fn的每一个,与各文件所包含的。
29、字符信息对应的位置的位也表示“1”值。0047 在对文件组F1Fn进行检索的情况下,使用图1A所示的索引信息I1来进行字符串检索对象的文件的锁定。假设受理例如包括“喜劇王”这个检索字符串的检索请求。在检索字符串的“喜劇王”中包括“喜劇”这个字符信息和“劇王”这个字符信息。该情况下,成为字符串检索对象的文件例如通过基于“喜劇”所计算的地址(图1A中为Pj)所示的位序列、和基于“劇王”所计算的地址(图1A中为Pk)所示的位序列来锁定。例如,与地址Pj对应的位序列、和与地址Pk对应的位序列的逻辑积运算结果即,位序列A1如图1B所示。0048 在图1B所示的位序列A1中,与成为“1”的位对应的文件(图。
30、1B中,文件编号i的文件)成为字符串检索对象的文件。在图1A的例子中,多个字符信息(例如,“見”以及“劇王”)与地址Pk对应。文件Fi不包括“劇王”但包括“見”。因此,对应于与“見”以及“劇王”对应的指针Pk的位序列中的、文件Fi的位也为“1”。若使用这样的索引信息I1以字符信息“喜劇”以及“劇王”来锁定检索对象的文件,则不管文件Fi是否不包括“劇王”,都判断为包括“喜劇”和“劇王”双方的文件,成为检索对象的文件。0049 在使用半角字符的情况下也相同。假设例如文件Fi包括“Life is a tragedy when seen in closeup,but a comedy in longs。
31、hot.”这种字符串。于是,例如,在索引信息中,基于字符信息“come”而计算出的地址Pj、和文件编号i所示的位置的位表示“1”。另外,例如基于字符信息“medy”而计算出的地址Pk、和文件编号i所示的位置的位表示“1”。若检索字符串为“comedian”,则例如检索对象的文件基于索引信息锁定为包括“come”以及“dian”双方的文件。此时,若偶尔基于字符信息“dian”而计算出的地址与基于字符信息“medy”而计算出的地址Pk相同,则不管文件Fi是否不包括“dian”,都成为“comedian”的检索对象的文件。0050 如上述那样,因与不同的多个字符信息对应的地址重复,在文件锁定中可能产。
32、生说 明 书CN 104380286 A6/14页9噪声。这是因为在文件Fi不包括的字符信息(“劇王”、“dian”等)、和文件Fi所包括的字符信息(“見”、“medy”等)中,表示是否存在信息的储存位置的指针重复。由于文件Fi所包括的字符信息(“見”、“medy”等)的存在,位变为“1”的状态,所以在索引信息中并无示出文件Fi不包括的字符信息(“劇王”、“dian”等)不存在。顺便说明,由于在不包括对应的指针重复的多个字符信息双方的情况下,位变为“0”的状态,所以可知相对于索引信息、多个字符信息中的哪个都不存在。0051 换句话说,越是文件内所包含的字符信息的指针与文件内不包含的字符信息的指。
33、针容易重复的文件,越容易产生锁定噪声。若以学术书等电子书籍为例进行例举,与本篇的文件相比,索引、目录等的文件容易包较多字符种类、即使是相同的电子书籍内的文件,文件所包含的字符信息的种类数也存在差别。另外,即使是本篇的文件彼此,在数据尺寸较大的文件和较小的文件中,文件所包含的字符信息的种类容易出现差别。在文件内所包含的字符信息的种类的数量不同的文件彼此中,一方文件(文件内的字符种类较多)与另一方的文件(文件内的字符种类的数量较少)相比,因地址的重复,容易产生未示出字符信息的不存在的情况。这不光是学术书,在新书等中也具有同样的特征。0052 根据上述的理由,若文件组F1Fn的索引信息整体上变为稀疏。
34、的行列,则在包括多数种类的字符信息的文件中容易产生因字符信息彼此的指针重复所引起的锁定噪声。如前述,作为包括较多字符种类的文件的一个例子,例举文件尺寸比其它文件大的文件。若文件尺寸较大的文件变为锁定噪声,则与其它文件相比不必要的字符串检索的处理量变大。0053 对于索引信息而言,可以不是文件单位,而将与是否包括字符信息有关的信息与文件分割而得的每个块建立对应。因此,抑制成为锁定噪声而进行字符串检索时读出的数据量。0054 然而,有时文档结构根据文档数据而较大地不同。例如,辞典等具有罗列特定的层级的文档要素(例如,与节、项等对应的文档要素)的文档结构。该情况下,文档要素的每一个具有独立的意思内容。
35、,例如相邻的文档要素彼此大多不包括共同的用语(较多地包括不是共同的用语)。另一方面,学术书等是文档要素彼此具有层级关系的文档结构,具有共同的母要素的子要素彼此容易使用共同的用语。并且,小说等例如处于仅1个层级且文档要素的数量较少的趋势。在小说中容易使用贯穿本篇共同的用语。0055 如前述,在辞典等中常常包含特定的文档要素的罗列。所谓文档要素的罗列,大多使用于以某些共同的形式表现针对独立的别个现象的信息的情况。例如,如果是辞典的形式,则对各项目对应单词,列举的各项目以单词、和与该单词有关的信息(意思、用法等)这一共同的形式表现。该情况下,例如,将以“”为前端的字符即单词组作为母要素的子要素是“”。
36、或“足柄山”等。0056 假设例如将与是否包括字符信息有关的信息与分割文件而得的每个块建立对应来生成索引信息。如前述,在辞典等包括文档要素的罗列的文档结构中,子要素彼此未必包括共同的用语。0057 图2A表示通过HTML(Hyper Text Markup Language)等标记语言所描述的文档数据的层级结构的例子。若假设某个文件的body标签与h1标签、h2标签等标题标签的关系如图2A,则包括多个将以h1标签识别的要素作为共同的母要素的子要素。该情况下,如前述,可以认为将第一个h1标签作为母要素的子要素(以h2标说 明 书CN 104380286 A7/14页10签识别的要素)彼此使用的用。
37、语的共同性薄弱。因此,虽然不尝试按照以h1标签识别的母要素单位的分割,但进行按照以h2标签识别的子要素单位的分割即可。例如如图2A所示的(A),如块AA1和块AA2那样地分割也可以。0058 另一方面,学术书等如前述,具有共同的母要素的子要素彼此容易包括共同的用语。若假设例如有叙述与卓别林有关的考察的文档,则当然遍及整个文档,包括“电影”、“喜剧”等单词。另一方面,在叙述电影的特征的位置(章、节、项等)中常常使用“出演”、“作品的风格”、“故事”等单词、表现思想的单词,在对生涯进行叙述的位置中常常使用“结婚”、“移居”等单词。在叙述电影的特征的位置例如也细分为对角色的类型进行叙述的位置、叙述音。
38、乐的特征的位置。另外,对于对生涯进行叙述的位置也细分为例如对成长进行叙述的位置、对丑闻进行叙述的位置。0059 例如,通过块分割,获得包括叙述电影的特征的位置(母要素1)中的叙述音乐特征的位置(子要素12)、和对生涯进行叙述的位置(母要素2)的块。于是,在该块中,子要素12常常包括“出演”、“作品的风格”、“故事”、表现思想的单词等母要素1的特征性单词、和“结婚”、“移居”等母要素2的特征性单词双方。例如如基于与这样分割而成的块对应的索引信息来进行字符串检索的对象文件的锁定,则对于“作品的风格”这种检索字符串,不管母要素1还是母要素2都被锁定。0060 另一方面,在母要素1为1块、在母要素2为。
39、1块的情况下,母要素1的块也许不包括“结婚”、“移居”等母要素2的特征性单词,母要素2的块也许不包括“出演”、“作品的风格”、“故事”等母要素1的特征性单词。如果母要素的2的块不包括母要素1的特征性单词,那么若用“作品的风格”等检索字符串锁定字符串检索的对象,则连母要素2的块也不锁定就结束。0061 图2B表示文档数据的层级结构的例子。图2B所示的(A)、(B)、(C)分别表示文件的块分割例子。在分割例(A)中,以与h1标签对应的层级的要素分割,得到块BA1以及块BA2。在另一分割例(B)中,以与h3标签对应的层级的要素分割,得到块BB1以及块BB2。在另一分割例(C)中,以与h3标签对应的层。
40、级的要素分割,得到块BC1以及块BC2。在如分割例(B)那样分割的情况下,若在h1标签识别的要素中的第一个要素中特征性用语包含于检索字符串,则该要素的一部分子要素包含于块BB2,所以块BB2也变为字符串检索的对象。同样地,若如分割例(C)那样进行分割,则在h1标签识别的要素中的第一个要素中特征性用语包含于检索字符串的情况下,块BC1也成为字符串检索的对象。0062 如上述,在索引信息生成中进行块分割的情况下,不包括数据尺寸较大的块、和对于具有一部分文档结构的文档数据,与上位层级的单位一并进行分割有助于字符串检索的对象的高效锁定。即,通过根据文档结构来决定块分割位置的判断基准的优先度的控制,来抑制由生成的索引信息所引起的文件锁定的噪声。0063 顺便说明,可以认为在只有一个包括多个子要素的母要素等的、小说等文档结构中,虽然进行块分割,但分割而成的块彼此使用共同的单词。然而,通过预先进行块分割,在块彼此进行不是共同的单词的检索的情况下,也抑制字符串检索的读出量。0064 作为在一个要素存在规定数以上的子要素的例子,使用了图2A所示的文档数据的层级结构。例如,在广辞苑第五版(1998)中,首字符为“”的单词数是15921,首字符说 明 书CN 104380286 A10。