《一种确定检索词在文档中的位置信息的方法以及装置.pdf》由会员分享,可在线阅读,更多相关《一种确定检索词在文档中的位置信息的方法以及装置.pdf(19页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103176978 A(43)申请公布日 2013.06.26CN103176978A*CN103176978A*(21)申请号 201110430651.0(22)申请日 2011.12.20G06F 17/30(2006.01)(71)申请人北大方正集团有限公司地址 100871 北京市海淀区成府路298号方正大厦9层申请人北京方正阿帕比技术有限公司(72)发明人童征宇 徐剑波 闫进兵(74)专利代理机构北京同达信恒知识产权代理有限公司 11291代理人郭润湘(54) 发明名称一种确定检索词在文档中的位置信息的方法以及装置(57) 摘要本发明公开了一种确定检索词在。
2、文档中的位置信息的方法以及装置,包括:针对检索词被划分得到的每个词项,分别执行:确定该词项在每个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,其中,所述初步命中文档中包括所述检索词被划分得到的每个词项。根据本技术方案,减少了对词项在非初步命中文档中的位置信息的读取过程,从而减少了信息的读取量,提高了确定检索词在文档中的位置信息的效率,进而提高了检索效率。(51)Int.Cl.权利要求书2页 说明书11页 附图5页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书11页 附图5页(10)申请公布号 CN 10。
3、3176978 ACN 103176978 A1/2页21.一种确定检索词在文档中的位置信息的方法,其特征在于,包括:针对检索词被划分得到的每个词项,分别执行:确定该词项在每个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,其中,所述初步命中文档中包括所述检索词被划分得到的每个词项。2.如权利要求1所述的方法,其特征在于,确定该词项在每个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,包括:根据预先确定的初步命中文档的顺序,确定该词项在第一个初步命中文档中的位置信息的存储位置,并。
4、根据确定出的所述存储位置,读取该词项在所述第一个初步命中文档中的位置信息;选择下一个初步命中文档,并读取该词项在该初步命中文档中的位置信息,直到读取该词项在所有初步命中文档中的位置信息;或确定该词项在所有初步命中文档中的位置信息的存储位置,并根据确定出各存储位置,依次读取该词项在各初步命中文档中的位置信息。3.如权利要求1所述的方法,其特征在于,确定该词项在初步命中文档中的位置信息的存储位置,包括:确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置;根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,包括:根据确定出的所述各位置信息被保存时分别对应的第一起。
5、始存储位置,读取该词项在所述初步命中文档中的各位置信息。4.如权利要求3所述的方法,其特征在于,确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置,包括:确定保存的与该词项对应的第二起始存储位置,所述第二起始存储位置为该词项在包括该词项的各文档中的各位置信息被保存时的起始存储位置;并确定所述第二起始存储位置分别与该词项在初步命中文档中的第一个位置信息被保存时的起始存储位置之间的差值;根据确定出的所述第二起始存储位置以及所述差值,分别确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置。5.如权利要求4所述的方法,其特征在于,确定所述第二起始存储位置分别。
6、与该词项在初步命中文档中的第一位置信息被保存时的各起始存储位置之间的差值,包括:确定保存的与该词项对应的第三起始存储位置,所述第三起始存储位置为用于保存与包括该词项的各文档中分别对应的所述差值的存储位置的起始存储位置;并根据该初步命中文档在包括该词项的各文档中对应的顺序以及用于保存每个文档对应的所述差值的存储空间,确定用于保存在该初步命中文档之前的文档对应的所述差值的总存储空间;将确定出的所述第三起始存储位置与所述总存储空间之和,确定为差值的起始存储位置,并根据确定出的所述起始存储位置读取所述差值。6.一种确定检索词在文档中位置信息的装置,其特征在于,包括:权 利 要 求 书CN 103176。
7、978 A2/2页3检索词划分单元,用于将检索词划分为多个词项;位置信息读取单元,用于针对所述检索词划分单元对检索词进行划分得到的每个词项,分别执行:确定该词项在每个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,其中,所述初步命中文档中包括所述检索词被划分得到的每个词项。7.如权利要求6所述的装置,其特征在于,所述位置信息读取单元,具体用于:根据预先确定的初步命中文档的顺序,确定该词项在第一个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述第一个初步命中文档中的位置信息;选择下一个初步命中文档,并读取该。
8、词项在该初步命中文档中的位置信息,直到读取该词项在所有初步命中文档中的位置信息;或,确定该词项在所有初步命中文档中的位置信息的存储位置,并根据确定出各存储位置,依次读取该词项在各初步命中文档中的位置信息。8.如权利要求6所述的装置,其特征在于,所述位置信息读取单元,具体用于:确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置;根据确定出的所述各位置信息被保存时分别对应的第一起始存储位置,读取该词项在所述初步命中文档中的各位置信息。9.如权利要求8所述的装置,其特征在于,所述位置信息读取单元,具体用于:确定保存的与该词项对应的第二起始存储位置,所述第二起始存储位置为该词项在。
9、包括该词项的各文档中的各位置信息被保存时的起始存储位置;并确定所述第二起始存储位置分别与该词项在初步命中文档中的第一个位置信息被保存时的起始存储位置之间的差值;根据确定出的所述第二起始存储位置以及所述差值,分别确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置。10.如权利要求9所述的装置,其特征在于,所述位置信息读取单元,具体用于:确定保存的与该词项对应的第三起始存储位置,所述第三起始存储位置为用于保存与包括该词项的各文档中分别对应的所述差值的存储位置的起始存储位置;并根据该初步命中文档在包括该词项的各文档中对应的顺序以及用于保存每个文档对应的所述差值的存储空间,确定用。
10、于保存在该初步命中文档之前的文档对应的所述差值的总存储空间;将确定出的所述第三起始存储位置与所述总存储空间之和,确定为差值的起始存储位置,并根据确定出的所述起始存储位置读取所述差值。权 利 要 求 书CN 103176978 A1/11页4一种确定检索词在文档中的位置信息的方法以及装置技术领域0001 本发明涉及信息检索技术领域,尤其涉及一种确定检索词在文档中的位置信息的方法以及装置。背景技术0002 全文检索系统是目前应用非常普及的一种检索系统,该检索系统主要根据预先建立的倒排索引文件确定出与用户终端提交的检索词匹配的文档,该文档一般为包括用户终端提交的各检索词的文档。0003 目前,全文检。
11、索系统建立倒排索引文件的过程包括:通过索引程序扫描文档中的每一个词项,并分别对每一个词项建立一个索引项,该索引项用于标识所对应词项在该文档中出现的位置信息,并根据为文档中的每一个词项分别建立的索引项创建倒排索引文件。在建立倒排索引文件后,全文检索系统在进行检索时,首先通过读取该倒排索引文件确定出包含用户提交的词项的文档集合(该集合中包括的文档可以以文档列表的形式存在),以及该词项在每个文档中分别出现的位置信息(该位置信息可以以列表的形式存在),然后返回检索命中结果。一般情况下,用户终端提交的检索词可以为词组,也可以为短句,因此,在应用全文检索系统进行检索时,一般将检索请求中的检索词对应的词组或。
12、短句划分为多个词项在索引文件中进行查找,并将同时包含所有划分得到的词项的文档确定为初步命中的文档,然后读取检索词在初步命中的每个文档中分别出现的位置信息,并将确定出的位置信息满足设定位置关系的文档确定为最终的命中的文档返回给该用户终端。具体地,确定位置信息满足设定位置关系的文档,即在确定出检索词在文档中出现的位置信息后,根据检索词在文档中的上述位置信息进行位置关系计算。在进行位置关系计算时需要读取检索词包括的各词项分别在初步命中的文档中分别出现的位置信息,下面将以读取下表1中初步命中的文档包括的检索词在文档中的位置信息为示例进行说明:0004 表1:0005 检索词 数字 信息 处理 加速 的。
13、 方法文档1 100 50 60 0 1000 20文档2 40 20 400 20 1200 0文档3 0 90 100 80 3200 400文档4 200 100 300 120 2000 100文档5 210 130 0 140 2300 140文档6 310 0 320 150 2300 140说 明 书CN 103176978 A2/11页5文档7 50 410 210 150 3000 1400006 上表1中为对检索词“数字信息处理加速的方法”划分为词项“数字”、“信息”、“处理”、“加速”、“的”以及“方法”后进行检索,获取的包括至少一个上述词项的7个文档,其中文档4以及文档。
14、7包括检索词被划分后得到的全部词项,该文档4以及文档7为初步命中文档。在确定出初步命中文档后,需要读取各个词项分别在所初步命中的文档4和文档7中出现的位置信息,以用于计算各词项在该文档4以及文档7中的位置关系。以读取词项“数字”在文档4中出现的位置信息为例,图1示出了该读取过程的流程示意图,读取词项“数字”在文档4中的位置信息,主要包括如下步骤:0007 步骤101、确定“数字”在文档4中的位置信息的存储位置的位置序号3。0008 该步骤101中,以表1给出的信息为例,能够确定所述位置序号为3,具体地,根据表1能够确定包括“数字”的文档中分别为文档1、文档2、文档4、文档5、文档6、文档7,一。
15、般保存“数字”在文档中的位置信息时是将“数字”在各文档中的位置信息以文档为单位依次保存,此处,以表1列举出的各文档顺序为示例,则“数字”在文档4中的位置信息的存储位置在“数字”在文档1以及文档2中的位置信息的存储位置之后。0009 步骤102、根据获取的位置序号3,需要先读取“数字”在文档1以及文档2中的位置信息。0010 步骤103、读取“数字”在文档4中的位置信息。0011 至此,读取“数字”在文档4中的位置信息的流程结束。0012 图1所示流程中,需要在读取“数字”在文档1以及文档2中的位置信息后,才能读取到“数字”在文档4中的位置信息。同理,在读取“数字”在文档7中的位置信息的前,需要。
16、先读取“数字”在文档1、文档2以及文档4至文档6中的位置信息,才能够读取到“数字”在文档7中的位置信息。0013 根据表1记载的信息以及图1对应的流程,可以获知全文检索需要读取的信息量非常大,对应的,需要读取的信息被保存在存储介质中也会占取大量的保存空间。目前,为了减少保存索引文件占取的存储介质的存储空间,提高存储介质的信息存储效率,一般将索引文件进行压缩存储以减少索引文件占取的存储空间,在压缩过程中,为了减小索引文件的所占取的存储空间,会将根据设定存储空间保存的信息保存在较小的存储空间中,例如,将保存在8字节中的词项压缩为保存在4字节中的词项,也可能在被压缩后保存在更小的字节中,从而导致不能。
17、通过保存每个词项的字节的长度以及词项的数量确定词项的存储位置。0014 针对上述问题,现有技术提出了一种采用步进数据项进行位置信息读取的方法,该方法在索引数据中增加了步进数据项,该步进数据项的值可以根据需要进行设置。具体地,以读取“数字”在初步命中文档7中的位置信息为示例进行说明,表1中在文档7之前包括“数字”的文档为文档1、文档2以及文档4至文档6,设定步进数据项的值3,则在读取“数字”在文档7中的位置前只需读取“数字”在文档5以及文档6中的位置信息,不需要从“数字”在文档1中的位置信息的存储位置开始依次读取“数字”分别在文档1、文档2以及文档4至文档6中的位置信息。0015 根据上述对检索。
18、词划分得到的词项进行全文检索的过程,能够获知,即使目前采说 明 书CN 103176978 A3/11页6用了步进数据项辅助读取词项在初步命中文档中的位置信息,也需要从最接近的步进数据项开始,依次读取词项在排列在初步命中文档前的包括所述词项的每个文档中的位置信息,才能定位并读取到词项在初步命中文档中的位置信息。可见,现有的全文检索系统在对检索词进行检索的过程中读取了大量不需要的位置信息。0016 综上所述,现有的全文检索系统在检索时,需要依次读取词项在包括检索词被划分得到的至少一个词项的文档中的位置信息,才能读取词项在初步命中文档中的位置信息,因此,存在由于读取冗余或无效信息而导致确定检索词分。
19、别在初步命中的文档中的位置信息的效率低的问题,从而影响了检索效率。发明内容0017 有鉴于此,本发明实施例提供一种确定检索词在文档中的位置信息的方法以及装置,采用该技术方案,能够提高检索效率。0018 本发明实施例通过如下技术方案实现:0019 根据本发明实施例的一个方面,提供了一种确定检索词在文档中的位置信息的方法,包括:0020 针对检索词被划分得到的每个词项,分别执行:0021 确定该词项在每个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,其中,所述初步命中文档中包括所述检索词被划分得到的每个词项。0022 根据本发明实施例的另。
20、一个方面,还提供了一种确定检索词在文档中位置信息的装置,包括:0023 检索词划分单元,用于将检索词划分为多个词项;0024 位置信息读取单元,用于针对所述检索词划分单元对检索词进行划分得到的每个词项,分别执行:确定该词项在每个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,其中,所述初步命中文档中包括所述检索词被划分得到的每个词项。0025 通过本发明实施例提供的上述至少一个技术方案,在检索过程中,首先针对检索词被划分得到的每个词项,分别执行:确定该词项在初步命中文档中的位置信息的存储位置,其中,初步命中文档中包括该检索词被划分得到的。
21、每个词项,然后根据确定出的存储位置,读取该词项在该初步命中文档中的位置信息。该技术方案与现有技术相比较,能够直接确定出词项在初步命中文档中的位置信息的存储位置,进而根据该存储位置读取词项在初步命中文档中的位置信息,而现有技术中需要依次读取词项在包括检索词被划分得到的至少一个词项的文档中的位置信息,显然,本发明技术方案减少了对于词项在非初步命中文档中的位置信息的读取过程,从而减少了信息的读取量,提高了确定检索词在文档中的位置信息的效率,进而提高了检索效率。0026 本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可。
22、通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。说 明 书CN 103176978 A4/11页7附图说明0027 附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:0028 图1为现有技术提供的一种读取词项“数字”在文档4中的位置信息的流程示意图;0029 图2为本发明实施例一提供的一种确定词项在初步命中文档中的位置信息的流程示意图;0030 图3为本发明实施例一提供的一种读取该词项在初步命中文档中的位置信息的流程示意图;0031 图4为本发明实施例一提供的又一种读取词项在初步命中文档中的位置。
23、信息的流程示意图;0032 图5为本发明实施例一提供的确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置的流程示意图;0033 图6为本发明实施例一提供的确定差值的流程示意图;0034 图7为本发明实施例二提供的确定词项“数字”在文档4中的位置信息的流程示意图;0035 图8为本发明实施例三提供的一种确定检索词在文档中位置信息的装置的结构示意图。具体实施方式0036 为了给出提高确定检索词分别在初步命中的文档中的位置信息的效率的实现方案,本发明实施例提供了一种确定检索词在文档中的位置信息的方法以及装置,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的。
24、优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。0037 在全文检索系统中,检索词可能为单独的一个词项,也可能为包括多个词项的词组或者短句,在检索时,一般将检索请求中的检索词对应的词组或短句划分为多个词项在索引文件中进行查找,并将包括被划分后得到的每个词项的文档确定为初步命中文档,然后读取各个词项在初步命中文档中的位置信息,以用于确定最终的命中文档。以下,本申请将优选的采用确定检索词被划分后得到的词项在文档中的位置信息的方法进行描述。0038 实施例一0039 本发明实施例一提供了一种确定检索词在文档中的位置信息的方法,。
25、该方法能够应用在全文检索系统中,通过在全文检索系统中实施该方法,能够解决现有技术中由于确定检索词分别在初步命中的文档中的位置信息的效率低而影响检索效率的问题。0040 图2示出了本发明实施例一提供的一种确定检索词在文档中的位置信息的流程示意图,具体地,本实施例一将针对确定检索词被划分得到的词项在初步命中文档中的位置信息进行描述,并以确定被划分得到的词项中的一个词项在初步命中文档中的位置信息为例进行具体说明,如图2所示,该确定词项在初步命中文档中的位置信息的过程,主要包括以下步骤:说 明 书CN 103176978 A5/11页80041 步骤201、确定词项在初步命中文档中的位置信息的存储位置。
26、。0042 该步骤201中,在实际应用中,可以将保存词项在文档中的各位置信息的存储空间称为位置列表文件,具体地,可以将位置列表文件中的各位置信息的存储位置称为PrxPosition。0043 步骤202、根据确定出的存储位置,读取该词项在初步命中文档中的位置信息。0044 该步骤202中,具体实施过程中,可以以上述步骤201的示例为基础,根据PrxPosition读取该词项在初步命中文档中的位置信息。0045 至此,确定词项在文档中的位置信息的流程结束。0046 图1对应的流程中,在检索过程中,能够根据确定出的词项在初步命中文档中的位置信息的存储位置,读取词项在初步命中文档中的位置信息。本技术。
27、方案与现有技术相比较,能够直接确定出词项在初步命中文档中的位置信息的存储位置,进而根据该存储位置读取词项在初步命中文档中的位置信息,而现有技术中需要依次读取词项在包括检索词被划分得到的至少一个词项的文档中的位置信息,显然,本发明技术方案减少了对于词项在非初步命中文档中的位置信息的读取过程,从而减少了信息的读取量,提高了确定检索词在文档中的位置信息的效率,进而提高了检索效率。0047 在图2对应的流程中,根据确定出的词项在每个初步命中文档中的位置信息的存储位置,读取该词项在初步命中文档中的位置信息时,可以根据预先设定方式读取该词项在初步命中文档中的位置信息,具体地,例如,根据预先确定的初步命中文。
28、档的顺序,确定该词项在第一个初步命中文档中的位置信息的存储位置,并根据确定出的该存储位置读取词项在第一个初步命中文档中的位置信息,然后选择下一个初步命中文档,并读取词项在该下一个初步命中文档中的位置信息,直到读取完词项在所有初步命中文档中的位置信息;或者,在确定该词项在所有初步命中文档中的位置信息的存储位置后,直接根据确定出各存储位置,依次读取该词项在各初步命中文档中的位置信息。0048 在图2对应流程包括的步骤201中,即确定词项在初步命中文档中的位置信息的存储位置,本申请提供了确定词项在初步命中文档中的位置信息的存储位置的优选实施方式,并对应的提供了读取该词项在初步命中文档中的位置信息的优。
29、选实施方式,具体地,如图3所示,该读取词项在初步命中文档中的位置信息的过程,主要包括以下步骤:0049 步骤301、确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置。0050 该步骤301中,第一起始存储位置可以为保存上述位置信息的存储空间的开始位置,例如,若存储词项的位置信息的字节长度为4字节,则第一起始存储位置可以为该4字节的前2个字节的位置所在,此外,若存储词项的位置信息的字节长度为2字节,则第一起始存储位置即为2个字节的位置所在。具体地,在实际应用中可以根据具体情况灵活设定,此处仅为示例。0051 步骤302、根据确定出的各位置信息被保存时分别对应的第一起始存储。
30、位置,读取该词项在初步命中文档中的各位置信息。0052 该步骤302中,若第一起始存储位置为该4字节的前2个字节的位置所在,则可以在读取前2个字节的信息后,继续读取后2个字节的信息,将读取的信息组合起来确定为该词项在初步命中文档中的位置信息,或者,若第一起始存储位置对应存储词项的位置信息说 明 书CN 103176978 A6/11页9的2字节的存储位置,则直接读取该2个字节的信息,并将该信息确定为该词项在初步命中文档中的位置信息。0053 至此,读取词项在初步命中文档中的位置信息的流程结束。0054 在图3对应的流程包括的步骤301中,本技术方案提供了一种确定该词项在初步命中文档中的位置信息。
31、的存储位置的优选实施方式,即确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置。实际应用中,也可以以该词项对应的初步命中文档为单位进行第一起始位置的确定,具体地,即仅确定该词项在各初步命中文档中的各位置信息对应各初步命中文档被保存时,对应各初步命中文档保存的该词项在各初步命中文档中的各位置信息的第一个存储位置的起始存储位置,然后在步骤302中,则采取相应的方式读取该词项在各初步命中文档中的位置信息,具体地,如图4所示,读取词项在初步命中文档中的位置信息的步骤,主要包括以下步骤:0055 步骤401、确定该词项在各初步命中文档中的位置信息被保存时,对应各初步命中文档保存的该。
32、词项在各初步命中文档中的位置信息的第一个存储位置为第一起始存储位置。0056 该步骤401中,所述第一起始存储位置也可以理解为上述图3中的第一起始存储位置,该步骤401中的第一起始存储位置仅为上述图3中的第一起始存储位置的一种情况,具体地,以实际应用为例,若初步命中文档A中存在4个“检索”,在针对该4个“检索”在初步命中文档A中的4个位置信息进行依次保存时,将保存上述4个位置信息的第一个存储位置确定为第一起始存储位置,其他3个位置信息的存储位置依次排在该第一起始存储位置的后面(图3对应的流程还确定出该3个位置信息的存储位置分别对应的第一起始存储位置),进一步,可以针对每个初步命中文档,分别确定。
33、出对应各初步命中文档保存的该词项在各初步命中文档中的位置信息的第一个存储位置为第一起始存储位置。0057 步骤402、从确定出的第一起始存储位置开始,依次读取该词项在初步命中文档中的位置信息。0058 该步骤402中,初步命中文档为确定出的第一起始存储位置对应的初步命中文档,根据上述步骤401给出的示例,本步骤402中可以从“检索”在初步命中文档中A的4个位置信息的存储位置的第一起始存储位置开始,依次读取第1个位置信息、第2个位置信息、第3个位置信息以及第4个位置信息,进一步,根据步骤401确定出与各初步命中文档对应的第一起始存储位置后,都可以通过执行该步骤402读取到该词项在各初步命中文档中。
34、的位置信息。0059 至此,读取词项在初步命中文档中的位置信息的流程结束。0060 根据上述图3以及图4对应的流程,本技术方案提供了直接读取词项在初步命中文档中的位置信息的方式,即根据确定出的位置信息的第一起始存储位置能够直接读取到该词项在初步命中文档中的位置信息,或者仅是确定出该词项在各初步命中文档中的位置信息被保存时,对应各初步命中文档保存的该词项在各初步命中文档中的各位置信息的第一个存储位置为第一起始存储位置,然后从该第一起始存储位置开始依次读取该词项在初步命中文档中的位置信息。对应上述第一起始存储位置,本技术方案还提供了确定第一起始存储位置的优选实施方式,具体地,图5示出了一种确定该词。
35、项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置,如图5所示,确定该词项在初步命中文说 明 书CN 103176978 A7/11页10档中的各位置信息被保存时分别对应的第一起始存储位置的过程,主要包括以下步骤:0061 步骤501、确定保存的与该词项对应的第二起始存储位置。0062 该步骤501中,第二起始存储位置为该词项在包括该词项的各文档中的各位置信息被保存时的起始存储位置。0063 步骤502、确定第二起始存储位置分别与该词项在初步命中文档中的第一个位置信息被保存时的起始存储位置之间的差值。0064 该步骤502中,所述差值为第二起始存储位置与上述图4中的第一起始保存位。
36、置的差值,实际应用中,也可以保存第二起始存储位置分别与该词项在初步命中文档中的各位置信息被保存时的起始存储位置之间的差值。此处,可以将第二起始存储位置称为PrxPointer,将差值称为PrxValue。0065 步骤503、根据确定出的第二起始存储位置以及差值,分别确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置。0066 该步骤503中,根据确定出的第二起始存储位置以及差值,能够首先确定出上述图4中所述的第一起始存储位置,即将PrxValue与PrxPointer的和确定为第一起始存储位置,之后,可以依据保存该词项的位置信息的字节长度依次确定出该词项在此初步命中文档。
37、中的其他位置信息对应的第一起始保存位置,或者根据设定的步进数据项确定该词项在此初步命中文档中的其他位置信息对应的第一起始保存位置。此外,对应步骤502中的示例,若所述差值为第二起始存储位置分别与该词项在初步命中文档中的各位置信息被保存时的起始存储位置之间的差值,则能够直接确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置。具体应用时,可以参考本技术方案例举的上述优选实施方式,也可以根据具体情况进行其他设置,此处不再一一例举。0067 至此,确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置的流程结束。0068 图5对应的流程包括的步骤502中,即确定。
38、第二起始存储位置分别与该词项在初步命中文档中的第一个位置信息被保存时的起始存储位置之间的差值,针对该差值的确定方法,本技术方案提供了相应的优选实施方式,具体地,如图6所示,确定第二起始存储位置分别与该词项在初步命中文档中的第一个位置信息被保存时的起始存储位置之间的差值的过程,主要包括以下步骤:0069 步骤601、确定保存的与该词项对应的第三起始存储位置。0070 该步骤601中,第三起始存储位置为用于保存与包括该词项的各文档中分别对应的差值的存储位置的起始存储位置。实际应用中,可以将保存该差值的存储空间称为位置列表索引文件,即根据该位置列表索引文件,可以采取设定算法确定出保存位置信息的位置列表文件中指定的位置信息的存储位置。其中,可以将针对一个词项在各文档中的位置信息建立的位置列表索引文件中保存差值的第一个存储位置称为第三起始存储位置DpPointer。0071 步骤602、根据该初步命中文档在包括该词项的各文档中对应的顺序以及用于保存每个文档对应的差值的存储空间,确定用于保存在该初步命中文档之前的文档对应的差值的总存储空间。0072 该步骤602中,初步命中文档在包括该词项的各文档中对应的顺序,在建立位置说 明 书CN 103176978 A10。