一种确定检索词在文档中的位置信息的方法以及装置.pdf

上传人:Y0****01 文档编号:1570216 上传时间:2018-06-25 格式:PDF 页数:19 大小:560.12KB
返回 下载 相关 举报
摘要
申请专利号:

CN201110430651.0

申请日:

2011.12.20

公开号:

CN103176978A

公开日:

2013.06.26

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20111220|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

北大方正集团有限公司; 北京方正阿帕比技术有限公司

发明人:

童征宇; 徐剑波; 闫进兵

地址:

100871 北京市海淀区成府路298号方正大厦9层

优先权:

专利代理机构:

北京同达信恒知识产权代理有限公司 11291

代理人:

郭润湘

PDF下载: PDF下载
内容摘要

本发明公开了一种确定检索词在文档中的位置信息的方法以及装置,包括:针对检索词被划分得到的每个词项,分别执行:确定该词项在每个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,其中,所述初步命中文档中包括所述检索词被划分得到的每个词项。根据本技术方案,减少了对词项在非初步命中文档中的位置信息的读取过程,从而减少了信息的读取量,提高了确定检索词在文档中的位置信息的效率,进而提高了检索效率。

权利要求书

权利要求书
1.   一种确定检索词在文档中的位置信息的方法,其特征在于,包括:
针对检索词被划分得到的每个词项,分别执行:
确定该词项在每个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,其中,所述初步命中文档中包括所述检索词被划分得到的每个词项。

2.   如权利要求1所述的方法,其特征在于,确定该词项在每个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,包括:
根据预先确定的初步命中文档的顺序,确定该词项在第一个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述第一个初步命中文档中的位置信息;选择下一个初步命中文档,并读取该词项在该初步命中文档中的位置信息,直到读取该词项在所有初步命中文档中的位置信息;或
确定该词项在所有初步命中文档中的位置信息的存储位置,并根据确定出各存储位置,依次读取该词项在各初步命中文档中的位置信息。

3.   如权利要求1所述的方法,其特征在于,确定该词项在初步命中文档中的位置信息的存储位置,包括:
确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置;
根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,包括:
根据确定出的所述各位置信息被保存时分别对应的第一起始存储位置,读取该词项在所述初步命中文档中的各位置信息。

4.   如权利要求3所述的方法,其特征在于,确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置,包括:
确定保存的与该词项对应的第二起始存储位置,所述第二起始存储位置为该词项在包括该词项的各文档中的各位置信息被保存时的起始存储位置;并
确定所述第二起始存储位置分别与该词项在初步命中文档中的第一个位置信息被保存时的起始存储位置之间的差值;
根据确定出的所述第二起始存储位置以及所述差值,分别确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置。

5.   如权利要求4所述的方法,其特征在于,确定所述第二起始存储位置分别与该词项在初步命中文档中的第一位置信息被保存时的各起始存储位置之间的差值,包括:
确定保存的与该词项对应的第三起始存储位置,所述第三起始存储位置为用于保存与包括该词项的各文档中分别对应的所述差值的存储位置的起始存储位置;并
根据该初步命中文档在包括该词项的各文档中对应的顺序以及用于保存每个文档对应的所述差值的存储空间,确定用于保存在该初步命中文档之前的文档对应的所述差值的总存储空间;
将确定出的所述第三起始存储位置与所述总存储空间之和,确定为差值的起始存储位置,并根据确定出的所述起始存储位置读取所述差值。

6.   一种确定检索词在文档中位置信息的装置,其特征在于,包括:
检索词划分单元,用于将检索词划分为多个词项;
位置信息读取单元,用于针对所述检索词划分单元对检索词进行划分得到的每个词项,分别执行:确定该词项在每个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,其中,所述初步命中文档中包括所述检索词被划分得到的每个词项。

7.   如权利要求6所述的装置,其特征在于,所述位置信息读取单元,具体用于:
根据预先确定的初步命中文档的顺序,确定该词项在第一个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述第一个初步命中文档中的位置信息;选择下一个初步命中文档,并读取该词项在该初步命中文档中的位置信息,直到读取该词项在所有初步命中文档中的位置信息;或,
确定该词项在所有初步命中文档中的位置信息的存储位置,并根据确定出各存储位置,依次读取该词项在各初步命中文档中的位置信息。

8.   如权利要求6所述的装置,其特征在于,所述位置信息读取单元,具体用于:
确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置;
根据确定出的所述各位置信息被保存时分别对应的第一起始存储位置,读取该词项在所述初步命中文档中的各位置信息。

9.   如权利要求8所述的装置,其特征在于,所述位置信息读取单元,具体用于:
确定保存的与该词项对应的第二起始存储位置,所述第二起始存储位置为该词项在包括该词项的各文档中的各位置信息被保存时的起始存储位置;并
确定所述第二起始存储位置分别与该词项在初步命中文档中的第一个位置信息被保存时的起始存储位置之间的差值;
根据确定出的所述第二起始存储位置以及所述差值,分别确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置。

10.   如权利要求9所述的装置,其特征在于,所述位置信息读取单元,具体用于:
确定保存的与该词项对应的第三起始存储位置,所述第三起始存储位置为用于保存与包括该词项的各文档中分别对应的所述差值的存储位置的起始存储位置;并
根据该初步命中文档在包括该词项的各文档中对应的顺序以及用于保存每个文档对应的所述差值的存储空间,确定用于保存在该初步命中文档之前的文档对应的所述差值的总存储空间;
将确定出的所述第三起始存储位置与所述总存储空间之和,确定为差值的起始存储位置,并根据确定出的所述起始存储位置读取所述差值。

说明书

说明书一种确定检索词在文档中的位置信息的方法以及装置
技术领域
本发明涉及信息检索技术领域,尤其涉及一种确定检索词在文档中的位置信息的方法以及装置。
背景技术
全文检索系统是目前应用非常普及的一种检索系统,该检索系统主要根据预先建立的倒排索引文件确定出与用户终端提交的检索词匹配的文档,该文档一般为包括用户终端提交的各检索词的文档。
目前,全文检索系统建立倒排索引文件的过程包括:通过索引程序扫描文档中的每一个词项,并分别对每一个词项建立一个索引项,该索引项用于标识所对应词项在该文档中出现的位置信息,并根据为文档中的每一个词项分别建立的索引项创建倒排索引文件。在建立倒排索引文件后,全文检索系统在进行检索时,首先通过读取该倒排索引文件确定出包含用户提交的词项的文档集合(该集合中包括的文档可以以文档列表的形式存在),以及该词项在每个文档中分别出现的位置信息(该位置信息可以以列表的形式存在),然后返回检索命中结果。一般情况下,用户终端提交的检索词可以为词组,也可以为短句,因此,在应用全文检索系统进行检索时,一般将检索请求中的检索词对应的词组或短句划分为多个词项在索引文件中进行查找,并将同时包含所有划分得到的词项的文档确定为初步命中的文档,然后读取检索词在初步命中的每个文档中分别出现的位置信息,并将确定出的位置信息满足设定位置关系的文档确定为最终的命中的文档返回给该用户终端。具体地,确定位置信息满足设定位置关系的文档,即在确定出检索词在文档中出现的位置信息后,根据检索词在文档中的上述位置信息进行位置关系计算。在进行位置关系计算时需要读取检索词包括的各词项分别在初步命中的文档中分别出现的位置信息,下面将以读取下表1中初步命中的文档包括的检索词在文档中的位置信息为示例进行说明:
表1:
  检索词  数字  信息  处理  加速  的  方法  文档1  100  50  60  0  1000  20  文档2  40  20  400  20  1200  0  文档3  0  90  100  80  3200  400  文档4  200  100  300  120  2000  100  文档5  210  130  0  140  2300  140  文档6  310  0  320  150  2300  140  文档7  50  410  210  150  3000  140
上表1中为对检索词“数字信息处理加速的方法”划分为词项“数字”、“信息”、“处理”、“加速”、“的”以及“方法”后进行检索,获取的包括至少一个上述词项的7个文档,其中文档4以及文档7包括检索词被划分后得到的全部词项,该文档4以及文档7为初步命中文档。在确定出初步命中文档后,需要读取各个词项分别在所初步命中的文档4和文档7中出现的位置信息,以用于计算各词项在该文档4以及文档7中的位置关系。以读取词项“数字”在文档4中出现的位置信息为例,图1示出了该读取过程的流程示意图,读取词项“数字”在文档4中的位置信息,主要包括如下步骤:
步骤101、确定“数字”在文档4中的位置信息的存储位置的位置序号3。
该步骤101中,以表1给出的信息为例,能够确定所述位置序号为3,具体地,根据表1能够确定包括“数字”的文档中分别为文档1、文档2、文档4、文档5、文档6、文档7,一般保存“数字”在文档中的位置信息时是将“数字”在各文档中的位置信息以文档为单位依次保存,此处,以表1列举出的各文档顺序为示例,则“数字”在文档4中的位置信息的存储位置在“数字”在文档1以及文档2中的位置信息的存储位置之后。
步骤102、根据获取的位置序号3,需要先读取“数字”在文档1以及文档2中的位置信息。
步骤103、读取“数字”在文档4中的位置信息。
至此,读取“数字”在文档4中的位置信息的流程结束。
图1所示流程中,需要在读取“数字”在文档1以及文档2中的位置信息后,才能读取到“数字”在文档4中的位置信息。同理,在读取“数字”在文档7中的位置信息的前,需要先读取“数字”在文档1、文档2以及文档4至文档6中的位置信息,才能够读取到“数字”在文档7中的位置信息。
根据表1记载的信息以及图1对应的流程,可以获知全文检索需要读取的信息量非常大,对应的,需要读取的信息被保存在存储介质中也会占取大量的保存空间。目前,为了减少保存索引文件占取的存储介质的存储空间,提高存储介质的信息存储效率,一般将索引文件进行压缩存储以减少索引文件占取的存储空间,在压缩过程中,为了减小索引文件的所占取的存储空间,会将根据设定存储空间保存的信息保存在较小的存储空间中,例如,将保存在8字节中的词项压缩为保存在4字节中的词项,也可能在被压缩后保存在更小的字节中,从而导致不能通过保存每个词项的字节的长度以及词项的数量确定词项的存储位置。
针对上述问题,现有技术提出了一种采用步进数据项进行位置信息读取的方法,该方法在索引数据中增加了步进数据项,该步进数据项的值可以根据需要进行设置。具体地,以读取“数字”在初步命中文档7中的位置信息为示例进行说明,表1中在文档7之前包括“数字”的文档为文档1、文档2以及文档4至文档6,设定步进数据项的值3,则在读取“数字”在文档7中的位置前只需读取“数字”在文档5以及文档6中的位置信息,不需要从“数字”在文档1中的位置信息的存储位置开始依次读取“数字”分别在文档1、文档2以及文档4至文档6中的位置信息。
根据上述对检索词划分得到的词项进行全文检索的过程,能够获知,即使目前采用了步进数据项辅助读取词项在初步命中文档中的位置信息,也需要从最接近的步进数据项开始,依次读取词项在排列在初步命中文档前的包括所述词项的每个文档中的位置信息,才能定位并读取到词项在初步命中文档中的位置信息。可见,现有的全文检索系统在对检索词进行检索的过程中读取了大量不需要的位置信息。
综上所述,现有的全文检索系统在检索时,需要依次读取词项在包括检索词被划分得到的至少一个词项的文档中的位置信息,才能读取词项在初步命中文档中的位置信息,因此,存在由于读取冗余或无效信息而导致确定检索词分别在初步命中的文档中的位置信息的效率低的问题,从而影响了检索效率。
发明内容
有鉴于此,本发明实施例提供一种确定检索词在文档中的位置信息的方法以及装置,采用该技术方案,能够提高检索效率。
本发明实施例通过如下技术方案实现:
根据本发明实施例的一个方面,提供了一种确定检索词在文档中的位置信息的方法,包括:
针对检索词被划分得到的每个词项,分别执行:
确定该词项在每个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,其中,所述初步命中文档中包括所述检索词被划分得到的每个词项。
根据本发明实施例的另一个方面,还提供了一种确定检索词在文档中位置信息的装置,包括:
检索词划分单元,用于将检索词划分为多个词项;
位置信息读取单元,用于针对所述检索词划分单元对检索词进行划分得到的每个词项,分别执行:确定该词项在每个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,其中,所述初步命中文档中包括所述检索词被划分得到的每个词项。
通过本发明实施例提供的上述至少一个技术方案,在检索过程中,首先针对检索词被划分得到的每个词项,分别执行:确定该词项在初步命中文档中的位置信息的存储位置,其中,初步命中文档中包括该检索词被划分得到的每个词项,然后根据确定出的存储位置,读取该词项在该初步命中文档中的位置信息。该技术方案与现有技术相比较,能够直接确定出词项在初步命中文档中的位置信息的存储位置,进而根据该存储位置读取词项在初步命中文档中的位置信息,而现有技术中需要依次读取词项在包括检索词被划分得到的至少一个词项的文档中的位置信息,显然,本发明技术方案减少了对于词项在非初步命中文档中的位置信息的读取过程,从而减少了信息的读取量,提高了确定检索词在文档中的位置信息的效率,进而提高了检索效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为现有技术提供的一种读取词项“数字”在文档4中的位置信息的流程示意图;
图2为本发明实施例一提供的一种确定词项在初步命中文档中的位置信息的流程示意图;
图3为本发明实施例一提供的一种读取该词项在初步命中文档中的位置信息的流程示意图;
图4为本发明实施例一提供的又一种读取词项在初步命中文档中的位置信息的流程示意图;
图5为本发明实施例一提供的确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置的流程示意图;
图6为本发明实施例一提供的确定差值的流程示意图;
图7为本发明实施例二提供的确定词项“数字”在文档4中的位置信息的流程示意图;
图8为本发明实施例三提供的一种确定检索词在文档中位置信息的装置的结构示意图。
具体实施方式
为了给出提高确定检索词分别在初步命中的文档中的位置信息的效率的实现方案,本发明实施例提供了一种确定检索词在文档中的位置信息的方法以及装置,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在全文检索系统中,检索词可能为单独的一个词项,也可能为包括多个词项的词组或者短句,在检索时,一般将检索请求中的检索词对应的词组或短句划分为多个词项在索引文件中进行查找,并将包括被划分后得到的每个词项的文档确定为初步命中文档,然后读取各个词项在初步命中文档中的位置信息,以用于确定最终的命中文档。以下,本申请将优选的采用确定检索词被划分后得到的词项在文档中的位置信息的方法进行描述。
实施例一
本发明实施例一提供了一种确定检索词在文档中的位置信息的方法,该方法能够应用在全文检索系统中,通过在全文检索系统中实施该方法,能够解决现有技术中由于确定检索词分别在初步命中的文档中的位置信息的效率低而影响检索效率的问题。
图2示出了本发明实施例一提供的一种确定检索词在文档中的位置信息的流程示意图,具体地,本实施例一将针对确定检索词被划分得到的词项在初步命中文档中的位置信息进行描述,并以确定被划分得到的词项中的一个词项在初步命中文档中的位置信息为例进行具体说明,如图2所示,该确定词项在初步命中文档中的位置信息的过程,主要包括以下步骤:
步骤201、确定词项在初步命中文档中的位置信息的存储位置。
该步骤201中,在实际应用中,可以将保存词项在文档中的各位置信息的存储空间称为位置列表文件,具体地,可以将位置列表文件中的各位置信息的存储位置称为PrxPosition。
步骤202、根据确定出的存储位置,读取该词项在初步命中文档中的位置信息。
该步骤202中,具体实施过程中,可以以上述步骤201的示例为基础,根据PrxPosition读取该词项在初步命中文档中的位置信息。
至此,确定词项在文档中的位置信息的流程结束。
图1对应的流程中,在检索过程中,能够根据确定出的词项在初步命中文档中的位置信息的存储位置,读取词项在初步命中文档中的位置信息。本技术方案与现有技术相比较,能够直接确定出词项在初步命中文档中的位置信息的存储位置,进而根据该存储位置读取词项在初步命中文档中的位置信息,而现有技术中需要依次读取词项在包括检索词被划分得到的至少一个词项的文档中的位置信息,显然,本发明技术方案减少了对于词项在非初步命中文档中的位置信息的读取过程,从而减少了信息的读取量,提高了确定检索词在文档中的位置信息的效率,进而提高了检索效率。
在图2对应的流程中,根据确定出的词项在每个初步命中文档中的位置信息的存储位置,读取该词项在初步命中文档中的位置信息时,可以根据预先设定方式读取该词项在初步命中文档中的位置信息,具体地,例如,根据预先确定的初步命中文档的顺序,确定该词项在第一个初步命中文档中的位置信息的存储位置,并根据确定出的该存储位置读取词项在第一个初步命中文档中的位置信息,然后选择下一个初步命中文档,并读取词项在该下一个初步命中文档中的位置信息,直到读取完词项在所有初步命中文档中的位置信息;或者,在确定该词项在所有初步命中文档中的位置信息的存储位置后,直接根据确定出各存储位置,依次读取该词项在各初步命中文档中的位置信息。
在图2对应流程包括的步骤201中,即确定词项在初步命中文档中的位置信息的存储位置,本申请提供了确定词项在初步命中文档中的位置信息的存储位置的优选实施方式,并对应的提供了读取该词项在初步命中文档中的位置信息的优选实施方式,具体地,如图3所示,该读取词项在初步命中文档中的位置信息的过程,主要包括以下步骤:
步骤301、确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置。
该步骤301中,第一起始存储位置可以为保存上述位置信息的存储空间的开始位置,例如,若存储词项的位置信息的字节长度为4字节,则第一起始存储位置可以为该4字节的前2个字节的位置所在,此外,若存储词项的位置信息的字节长度为2字节,则第一起始存储位置即为2个字节的位置所在。具体地,在实际应用中可以根据具体情况灵活设定,此处仅为示例。
步骤302、根据确定出的各位置信息被保存时分别对应的第一起始存储位置,读取该词项在初步命中文档中的各位置信息。
该步骤302中,若第一起始存储位置为该4字节的前2个字节的位置所在,则可以在读取前2个字节的信息后,继续读取后2个字节的信息,将读取的信息组合起来确定为该词项在初步命中文档中的位置信息,或者,若第一起始存储位置对应存储词项的位置信息的2字节的存储位置,则直接读取该2个字节的信息,并将该信息确定为该词项在初步命中文档中的位置信息。
至此,读取词项在初步命中文档中的位置信息的流程结束。
在图3对应的流程包括的步骤301中,本技术方案提供了一种确定该词项在初步命中文档中的位置信息的存储位置的优选实施方式,即确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置。实际应用中,也可以以该词项对应的初步命中文档为单位进行第一起始位置的确定,具体地,即仅确定该词项在各初步命中文档中的各位置信息对应各初步命中文档被保存时,对应各初步命中文档保存的该词项在各初步命中文档中的各位置信息的第一个存储位置的起始存储位置,然后在步骤302中,则采取相应的方式读取该词项在各初步命中文档中的位置信息,具体地,如图4所示,读取词项在初步命中文档中的位置信息的步骤,主要包括以下步骤:
步骤401、确定该词项在各初步命中文档中的位置信息被保存时,对应各初步命中文档保存的该词项在各初步命中文档中的位置信息的第一个存储位置为第一起始存储位置。
该步骤401中,所述第一起始存储位置也可以理解为上述图3中的第一起始存储位置,该步骤401中的第一起始存储位置仅为上述图3中的第一起始存储位置的一种情况,具体地,以实际应用为例,若初步命中文档A中存在4个“检索”,在针对该4个“检索”在初步命中文档A中的4个位置信息进行依次保存时,将保存上述4个位置信息的第一个存储位置确定为第一起始存储位置,其他3个位置信息的存储位置依次排在该第一起始存储位置的后面(图3对应的流程还确定出该3个位置信息的存储位置分别对应的第一起始存储位置),进一步,可以针对每个初步命中文档,分别确定出对应各初步命中文档保存的该词项在各初步命中文档中的位置信息的第一个存储位置为第一起始存储位置。
步骤402、从确定出的第一起始存储位置开始,依次读取该词项在初步命中文档中的位置信息。
该步骤402中,初步命中文档为确定出的第一起始存储位置对应的初步命中文档,根据上述步骤401给出的示例,本步骤402中可以从“检索”在初步命中文档中A的4个位置信息的存储位置的第一起始存储位置开始,依次读取第1个位置信息、第2个位置信息、第3个位置信息以及第4个位置信息,进一步,根据步骤401确定出与各初步命中文档对应的第一起始存储位置后,都可以通过执行该步骤402读取到该词项在各初步命中文档中的位置信息。
至此,读取词项在初步命中文档中的位置信息的流程结束。
根据上述图3以及图4对应的流程,本技术方案提供了直接读取词项在初步命中文档中的位置信息的方式,即根据确定出的位置信息的第一起始存储位置能够直接读取到该词项在初步命中文档中的位置信息,或者仅是确定出该词项在各初步命中文档中的位置信息被保存时,对应各初步命中文档保存的该词项在各初步命中文档中的各位置信息的第一个存储位置为第一起始存储位置,然后从该第一起始存储位置开始依次读取该词项在初步命中文档中的位置信息。对应上述第一起始存储位置,本技术方案还提供了确定第一起始存储位置的优选实施方式,具体地,图5示出了一种确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置,如图5所示,确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置的过程,主要包括以下步骤:
步骤501、确定保存的与该词项对应的第二起始存储位置。
该步骤501中,第二起始存储位置为该词项在包括该词项的各文档中的各位置信息被保存时的起始存储位置。
步骤502、确定第二起始存储位置分别与该词项在初步命中文档中的第一个位置信息被保存时的起始存储位置之间的差值。
该步骤502中,所述差值为第二起始存储位置与上述图4中的第一起始保存位置的差值,实际应用中,也可以保存第二起始存储位置分别与该词项在初步命中文档中的各位置信息被保存时的起始存储位置之间的差值。此处,可以将第二起始存储位置称为PrxPointer,将差值称为PrxValue。
步骤503、根据确定出的第二起始存储位置以及差值,分别确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置。
该步骤503中,根据确定出的第二起始存储位置以及差值,能够首先确定出上述图4中所述的第一起始存储位置,即将PrxValue与PrxPointer的和确定为第一起始存储位置,之后,可以依据保存该词项的位置信息的字节长度依次确定出该词项在此初步命中文档中的其他位置信息对应的第一起始保存位置,或者根据设定的步进数据项确定该词项在此初步命中文档中的其他位置信息对应的第一起始保存位置。此外,对应步骤502中的示例,若所述差值为第二起始存储位置分别与该词项在初步命中文档中的各位置信息被保存时的起始存储位置之间的差值,则能够直接确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置。具体应用时,可以参考本技术方案例举的上述优选实施方式,也可以根据具体情况进行其他设置,此处不再一一例举。
至此,确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置的流程结束。
图5对应的流程包括的步骤502中,即确定第二起始存储位置分别与该词项在初步命中文档中的第一个位置信息被保存时的起始存储位置之间的差值,针对该差值的确定方法,本技术方案提供了相应的优选实施方式,具体地,如图6所示,确定第二起始存储位置分别与该词项在初步命中文档中的第一个位置信息被保存时的起始存储位置之间的差值的过程,主要包括以下步骤:
步骤601、确定保存的与该词项对应的第三起始存储位置。
该步骤601中,第三起始存储位置为用于保存与包括该词项的各文档中分别对应的差值的存储位置的起始存储位置。实际应用中,可以将保存该差值的存储空间称为位置列表索引文件,即根据该位置列表索引文件,可以采取设定算法确定出保存位置信息的位置列表文件中指定的位置信息的存储位置。其中,可以将针对一个词项在各文档中的位置信息建立的位置列表索引文件中保存差值的第一个存储位置称为第三起始存储位置DpPointer。
步骤602、根据该初步命中文档在包括该词项的各文档中对应的顺序以及用于保存每个文档对应的差值的存储空间,确定用于保存在该初步命中文档之前的文档对应的差值的总存储空间。
该步骤602中,初步命中文档在包括该词项的各文档中对应的顺序,在建立位置列表索引文件之前已经确定,可以将该各文档对应的顺序称为文档标识,实际应用中还可以以其他方式标记各文档以区分各文档,此处不再一一例举。在位置列表索引文件中可以将包括该词项的文档的文档标识对应所述差值保存,并且将保存差值的字节长度设定为固定值,从而能够根据初步命中文档的文档标识以及固定的字节长度确定出初步命中文档之前的文档对应的差值的总存储空间,例如,保存差值的字节的长度为4个字节,初步命中文档的文档标识为DOC4,则该初步命中文档之前的文档分别为DOC1、DOC2以及DOC3对应的文档,则保存该前三个文档分别对应的差值的存储空间为12字节对应的存储空间。
步骤603、将确定出的第三起始存储位置与总存储空间之和,确定出差值的起始存储位置。
该步骤603中,根据上述步骤601以及步骤602的示例,可以确定差值的起始存储位置为DpPointer加上12字节对应的存储空间之和指向的存储空间的下一个存储差值的存储空间,实际应用中,可以在确定出DpPointer加上12字节对应的存储空间之和后,自动将指向DOC3对应的差值的起始存储位置的指针指向DOC4对应的差值的起始存储位置,进一步,本技术方案还可以通过上述算法将指针直接指向DOC4对应的差值的起始存储位置,例如,将DpPointer加上16字节对应的存储空间的和直接确定为保存DOC4对应的差值的起始存储位置,并将指针直接定位到该DOC4对应的差值的起始存储位置。以上仅为本技术方案的优选实施方式,实际应用中可以进行灵活设定。
步骤604、根据确定出的起始存储位置读取差值。
至此,确定第二起始存储位置分别与该词项在初步命中文档中的第一个位置信息被保存时的起始存储位置之间的差值的流程结束。
根据本技术方案提供的确定检索词在文档中位置信息的方法确定出检索词包括的各词项在初步命中文档中的位置信息后,全文检索系统即能够根据设定的算法对读取的各词项的位置信息进行计算以确定出最终的命中文档,例如,结合各词项在初步命中文档中出现的次数以及出现的位置信息计算出各词项的相关度分值以确定包括各词项的初步命中文档是否为最终的命中文档,或者,根据各词项在初步命中文档中的位置信息确定各词项间的位置关系是否满足设定的关系,若满足,则确定为最终的命中文档,具体地,以“数字信息处理加速的方法”为检索词,若词项“数字”、“信息”、“处理”、“加速”、“的”以及“方法”在初步命中文档中的位置信息存在依次相邻的情况,则可以确定该初步命中文档为最终的命中文档。以上仅为本技术方案提供的优选实施方式,实际应用中,可以对根据本技术方案提供的确定检索词在文档中位置信息的方法确定出的各词项的位置信息,根据具体情况进行灵活的应用,此处不再赘述。
实施例二
该实施例二提供了一种确定检索词在文档中位置信息的方法的应用场景。
本实施例二提供的一种确定检索词在文档中位置信息的方法的应用场景中,以全文检索系统检索“数字信息处理加速的方法”为示例进行说明,具体地,全文检索系统在将“数字信息处理加速的方法”划分为词项“数字”、“信息”、“处理”、“加速”、“的”以及“方法”后进行检索,则获取到上述表1中的7个文档,该7个文档为包括上述至少一个词项的文档,其中文档4以及文档7包括检索词被划分后得到的全部词项,该文档4以及文档7为初步命中文档。
本技术方案将以读取词项“数字”在文档4中的位置信息的过程为例进行描述,具体地,如图7所示,确定词项“数字”在文档4中的位置信息的过程,主要包括以下步骤:
步骤701、读取初步命中文档4的文档标识DOC3,以及“数字”对应的位置列表索引文件中保存差值的存储空间的起始存储位置DpPointer。
该步骤701中,设定初步命中文档4的文档标识为DOC3,位置列表索引文件对应保存差值的存储空间,则起始存储位置DpPointer为对应包括“数字”的文档的文档标识保存差值的存储空间的起始存储位置,例如,以数组形式保存文档标识与差值的对应关系时,以文档标识作为下标依次保存与文档标识对应的差值,则对应文档标识DOC1保存的差值的存储位置为起始存储位置DpPointer。
步骤702、根据设定的保存差值的字节长度为4字节,确定对应文档标识DOC4保存的差值的起始存储位置为DpPointer加上16字节后对应的存储位置。
步骤703、根据确定出的起始存储位置读取对应DOC4保存的差值。
该步骤703中,可以将读取的差值命名为PrxValue。
步骤704、将位置列表文件的起始位置PrxPointer与PrxValue的和对应的存储位置,确定为“数字”在文档4中的200个位置信息的存储空间的起始存储位置。
该步骤704中,若全文检索系统中还设置了步进数据项辅助读取各词项在各文档中的位置信息,则相应的,若确定出的起始存储位置位于“数字”对应的位置列表文件的第一个步进区间内,可以将位置列表文件的起始存储位置PrxPointer与PrxValue的和对应的存储位置,确定为“数字”在文档4中的各位置信息的存储空间的起始存储位置,否则,可以将各步进区间对应的起始位置SkipPrxPointer(该起始位置为根据PrxPointer、步进数据项以及步进区间对应的存储空间确定出的存储位置)与PrxValue的和对应的存储位置,确定为“数字”在文档4中的各位置信息的起始存储位置。
步骤705、根据确定出的起始存储位置依次读取文档4中“数字”各位置信息。
至此,确定词项“数字”在文档4中的位置信息的流程结束。
在图7对应的流程包括的步骤701之前,即读取初步命中文档4的文档标识DOC3,以及“数字”对应的位置列表索引文件中保存差值的存储空间的起始存储位置DpPointer之前,实际应用中,可以根据上述表1包括的各文档进行初步命中文档的确定,当判断出初步命中文档后,可以直接执行图7对应的上述流程,具体地,根据表1中提供的各文档对应的文档标识,依次对各文档中包括的词项,例如,读取表1中第一个文档中包括的词项,该第一个文档不包括全部词项,则读取第二个文档中包括的词项,如此直至读取到第四个文档,该文档包括全部词项,则可以对该文档执行图7对应的上述流程。
实施例三
该实施例三提供了一种确定检索词在文档中位置信息的装置,该装置能够应用在全文检索系统中,通过在全文检索系统中实施该方法,能够解决现有技术中由于确定检索词分别在初步命中的文档中的位置信息的效率低而影响检索效率的问题。
具体地,图8示出了本发明实施例三提供的一种确定检索词在文档中位置信息的装置的结构示意图,如图8所示,该确定检索词在文档中位置信息的装置,包括:
检索词划分单元801以及位置信息读取单元802;其中:
检索词划分单元801,用于将检索词划分为多个词项;
位置信息读取单元802,用于针对检索词划分单元801对检索词进行划分得到的每个词项,分别执行:确定该词项在每个初步命中文档中的位置信息的存储位置,并根据确定出的存储位置,读取该词项在初步命中文档中的位置信息,其中,初步命中文档中包括检索词被划分得到的每个词项。
本发明实施例三提供的优选实施方式中,图8对应的装置包括的位置信息读取单元802,具体用于:
根据预先确定的初步命中文档的顺序,确定该词项在第一个初步命中文档中的位置信息的存储位置,并根据确定出的存储位置,读取该词项在第一个初步命中文档中的位置信息;选择下一个初步命中文档,并读取该词项在该初步命中文档中的位置信息,直到读取该词项在所有初步命中文档中的位置信息;或,确定该词项在所有初步命中文档中的位置信息的存储位置,并根据确定出各存储位置,依次读取该词项在各初步命中文档中的位置信息。
本发明实施例三提供的优选实施方式中,图8对应的装置包括的位置信息读取单元802,具体用于:
确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置;根据确定出的各位置信息被保存时分别对应的第一起始存储位置,读取该词项在初步命中文档中的各位置信息。
本发明实施例三提供的优选实施方式中,图8对应的装置包括的位置信息读取单元802,具体用于:
确定保存的与该词项对应的第二起始存储位置,第二起始存储位置为该词项在包括该词项的各文档中的各位置信息被保存时的起始存储位置;并确定第二起始存储位置分别与该词项在初步命中文档中的第一个位置信息被保存时的起始存储位置之间的差值;根据确定出的第二起始存储位置以及差值,分别确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置。
本发明实施例三提供的优选实施方式中,图8对应的装置包括的位置信息读取单元802,具体用于:
确定保存的与该词项对应的第三起始存储位置,第三起始存储位置为用于保存与包括该词项的各文档中分别对应的差值的存储位置的起始存储位置;并根据该初步命中文档在包括该词项的各文档中对应的顺序以及用于保存每个文档对应的差值的存储空间,确定用于保存在该初步命中文档之前的文档对应的差值的总存储空间;将确定出的第三起始存储位置与总存储空间之和,确定出差值的起始存储位置,并根据确定出的起始存储位置读取差值。
应当理解,以上装置包括的单元仅为根据该装置实现的功能进行的逻辑划分,实际应用中,可以进行上述单元的叠加或拆分。并且该实施例提供的装置所实现的功能与上述实施例提供的确定检索词在文档中位置信息的方法流程一一对应,对于该装置所实现的更为详细的处理流程,在上述方法实施例中已做详细描述,此处不再详细描述。
并且,本实施例三中的确定检索词在文档中位置信息的装置还具有能够实现实施例一和实施例二方案的功能模块,此处不再赘述。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

一种确定检索词在文档中的位置信息的方法以及装置.pdf_第1页
第1页 / 共19页
一种确定检索词在文档中的位置信息的方法以及装置.pdf_第2页
第2页 / 共19页
一种确定检索词在文档中的位置信息的方法以及装置.pdf_第3页
第3页 / 共19页
点击查看更多>>
资源描述

《一种确定检索词在文档中的位置信息的方法以及装置.pdf》由会员分享,可在线阅读,更多相关《一种确定检索词在文档中的位置信息的方法以及装置.pdf(19页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103176978 A(43)申请公布日 2013.06.26CN103176978A*CN103176978A*(21)申请号 201110430651.0(22)申请日 2011.12.20G06F 17/30(2006.01)(71)申请人北大方正集团有限公司地址 100871 北京市海淀区成府路298号方正大厦9层申请人北京方正阿帕比技术有限公司(72)发明人童征宇 徐剑波 闫进兵(74)专利代理机构北京同达信恒知识产权代理有限公司 11291代理人郭润湘(54) 发明名称一种确定检索词在文档中的位置信息的方法以及装置(57) 摘要本发明公开了一种确定检索词在。

2、文档中的位置信息的方法以及装置,包括:针对检索词被划分得到的每个词项,分别执行:确定该词项在每个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,其中,所述初步命中文档中包括所述检索词被划分得到的每个词项。根据本技术方案,减少了对词项在非初步命中文档中的位置信息的读取过程,从而减少了信息的读取量,提高了确定检索词在文档中的位置信息的效率,进而提高了检索效率。(51)Int.Cl.权利要求书2页 说明书11页 附图5页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书11页 附图5页(10)申请公布号 CN 10。

3、3176978 ACN 103176978 A1/2页21.一种确定检索词在文档中的位置信息的方法,其特征在于,包括:针对检索词被划分得到的每个词项,分别执行:确定该词项在每个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,其中,所述初步命中文档中包括所述检索词被划分得到的每个词项。2.如权利要求1所述的方法,其特征在于,确定该词项在每个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,包括:根据预先确定的初步命中文档的顺序,确定该词项在第一个初步命中文档中的位置信息的存储位置,并。

4、根据确定出的所述存储位置,读取该词项在所述第一个初步命中文档中的位置信息;选择下一个初步命中文档,并读取该词项在该初步命中文档中的位置信息,直到读取该词项在所有初步命中文档中的位置信息;或确定该词项在所有初步命中文档中的位置信息的存储位置,并根据确定出各存储位置,依次读取该词项在各初步命中文档中的位置信息。3.如权利要求1所述的方法,其特征在于,确定该词项在初步命中文档中的位置信息的存储位置,包括:确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置;根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,包括:根据确定出的所述各位置信息被保存时分别对应的第一起。

5、始存储位置,读取该词项在所述初步命中文档中的各位置信息。4.如权利要求3所述的方法,其特征在于,确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置,包括:确定保存的与该词项对应的第二起始存储位置,所述第二起始存储位置为该词项在包括该词项的各文档中的各位置信息被保存时的起始存储位置;并确定所述第二起始存储位置分别与该词项在初步命中文档中的第一个位置信息被保存时的起始存储位置之间的差值;根据确定出的所述第二起始存储位置以及所述差值,分别确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置。5.如权利要求4所述的方法,其特征在于,确定所述第二起始存储位置分别。

6、与该词项在初步命中文档中的第一位置信息被保存时的各起始存储位置之间的差值,包括:确定保存的与该词项对应的第三起始存储位置,所述第三起始存储位置为用于保存与包括该词项的各文档中分别对应的所述差值的存储位置的起始存储位置;并根据该初步命中文档在包括该词项的各文档中对应的顺序以及用于保存每个文档对应的所述差值的存储空间,确定用于保存在该初步命中文档之前的文档对应的所述差值的总存储空间;将确定出的所述第三起始存储位置与所述总存储空间之和,确定为差值的起始存储位置,并根据确定出的所述起始存储位置读取所述差值。6.一种确定检索词在文档中位置信息的装置,其特征在于,包括:权 利 要 求 书CN 103176。

7、978 A2/2页3检索词划分单元,用于将检索词划分为多个词项;位置信息读取单元,用于针对所述检索词划分单元对检索词进行划分得到的每个词项,分别执行:确定该词项在每个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,其中,所述初步命中文档中包括所述检索词被划分得到的每个词项。7.如权利要求6所述的装置,其特征在于,所述位置信息读取单元,具体用于:根据预先确定的初步命中文档的顺序,确定该词项在第一个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述第一个初步命中文档中的位置信息;选择下一个初步命中文档,并读取该。

8、词项在该初步命中文档中的位置信息,直到读取该词项在所有初步命中文档中的位置信息;或,确定该词项在所有初步命中文档中的位置信息的存储位置,并根据确定出各存储位置,依次读取该词项在各初步命中文档中的位置信息。8.如权利要求6所述的装置,其特征在于,所述位置信息读取单元,具体用于:确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置;根据确定出的所述各位置信息被保存时分别对应的第一起始存储位置,读取该词项在所述初步命中文档中的各位置信息。9.如权利要求8所述的装置,其特征在于,所述位置信息读取单元,具体用于:确定保存的与该词项对应的第二起始存储位置,所述第二起始存储位置为该词项在。

9、包括该词项的各文档中的各位置信息被保存时的起始存储位置;并确定所述第二起始存储位置分别与该词项在初步命中文档中的第一个位置信息被保存时的起始存储位置之间的差值;根据确定出的所述第二起始存储位置以及所述差值,分别确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置。10.如权利要求9所述的装置,其特征在于,所述位置信息读取单元,具体用于:确定保存的与该词项对应的第三起始存储位置,所述第三起始存储位置为用于保存与包括该词项的各文档中分别对应的所述差值的存储位置的起始存储位置;并根据该初步命中文档在包括该词项的各文档中对应的顺序以及用于保存每个文档对应的所述差值的存储空间,确定用。

10、于保存在该初步命中文档之前的文档对应的所述差值的总存储空间;将确定出的所述第三起始存储位置与所述总存储空间之和,确定为差值的起始存储位置,并根据确定出的所述起始存储位置读取所述差值。权 利 要 求 书CN 103176978 A1/11页4一种确定检索词在文档中的位置信息的方法以及装置技术领域0001 本发明涉及信息检索技术领域,尤其涉及一种确定检索词在文档中的位置信息的方法以及装置。背景技术0002 全文检索系统是目前应用非常普及的一种检索系统,该检索系统主要根据预先建立的倒排索引文件确定出与用户终端提交的检索词匹配的文档,该文档一般为包括用户终端提交的各检索词的文档。0003 目前,全文检。

11、索系统建立倒排索引文件的过程包括:通过索引程序扫描文档中的每一个词项,并分别对每一个词项建立一个索引项,该索引项用于标识所对应词项在该文档中出现的位置信息,并根据为文档中的每一个词项分别建立的索引项创建倒排索引文件。在建立倒排索引文件后,全文检索系统在进行检索时,首先通过读取该倒排索引文件确定出包含用户提交的词项的文档集合(该集合中包括的文档可以以文档列表的形式存在),以及该词项在每个文档中分别出现的位置信息(该位置信息可以以列表的形式存在),然后返回检索命中结果。一般情况下,用户终端提交的检索词可以为词组,也可以为短句,因此,在应用全文检索系统进行检索时,一般将检索请求中的检索词对应的词组或。

12、短句划分为多个词项在索引文件中进行查找,并将同时包含所有划分得到的词项的文档确定为初步命中的文档,然后读取检索词在初步命中的每个文档中分别出现的位置信息,并将确定出的位置信息满足设定位置关系的文档确定为最终的命中的文档返回给该用户终端。具体地,确定位置信息满足设定位置关系的文档,即在确定出检索词在文档中出现的位置信息后,根据检索词在文档中的上述位置信息进行位置关系计算。在进行位置关系计算时需要读取检索词包括的各词项分别在初步命中的文档中分别出现的位置信息,下面将以读取下表1中初步命中的文档包括的检索词在文档中的位置信息为示例进行说明:0004 表1:0005 检索词 数字 信息 处理 加速 的。

13、 方法文档1 100 50 60 0 1000 20文档2 40 20 400 20 1200 0文档3 0 90 100 80 3200 400文档4 200 100 300 120 2000 100文档5 210 130 0 140 2300 140文档6 310 0 320 150 2300 140说 明 书CN 103176978 A2/11页5文档7 50 410 210 150 3000 1400006 上表1中为对检索词“数字信息处理加速的方法”划分为词项“数字”、“信息”、“处理”、“加速”、“的”以及“方法”后进行检索,获取的包括至少一个上述词项的7个文档,其中文档4以及文档。

14、7包括检索词被划分后得到的全部词项,该文档4以及文档7为初步命中文档。在确定出初步命中文档后,需要读取各个词项分别在所初步命中的文档4和文档7中出现的位置信息,以用于计算各词项在该文档4以及文档7中的位置关系。以读取词项“数字”在文档4中出现的位置信息为例,图1示出了该读取过程的流程示意图,读取词项“数字”在文档4中的位置信息,主要包括如下步骤:0007 步骤101、确定“数字”在文档4中的位置信息的存储位置的位置序号3。0008 该步骤101中,以表1给出的信息为例,能够确定所述位置序号为3,具体地,根据表1能够确定包括“数字”的文档中分别为文档1、文档2、文档4、文档5、文档6、文档7,一。

15、般保存“数字”在文档中的位置信息时是将“数字”在各文档中的位置信息以文档为单位依次保存,此处,以表1列举出的各文档顺序为示例,则“数字”在文档4中的位置信息的存储位置在“数字”在文档1以及文档2中的位置信息的存储位置之后。0009 步骤102、根据获取的位置序号3,需要先读取“数字”在文档1以及文档2中的位置信息。0010 步骤103、读取“数字”在文档4中的位置信息。0011 至此,读取“数字”在文档4中的位置信息的流程结束。0012 图1所示流程中,需要在读取“数字”在文档1以及文档2中的位置信息后,才能读取到“数字”在文档4中的位置信息。同理,在读取“数字”在文档7中的位置信息的前,需要。

16、先读取“数字”在文档1、文档2以及文档4至文档6中的位置信息,才能够读取到“数字”在文档7中的位置信息。0013 根据表1记载的信息以及图1对应的流程,可以获知全文检索需要读取的信息量非常大,对应的,需要读取的信息被保存在存储介质中也会占取大量的保存空间。目前,为了减少保存索引文件占取的存储介质的存储空间,提高存储介质的信息存储效率,一般将索引文件进行压缩存储以减少索引文件占取的存储空间,在压缩过程中,为了减小索引文件的所占取的存储空间,会将根据设定存储空间保存的信息保存在较小的存储空间中,例如,将保存在8字节中的词项压缩为保存在4字节中的词项,也可能在被压缩后保存在更小的字节中,从而导致不能。

17、通过保存每个词项的字节的长度以及词项的数量确定词项的存储位置。0014 针对上述问题,现有技术提出了一种采用步进数据项进行位置信息读取的方法,该方法在索引数据中增加了步进数据项,该步进数据项的值可以根据需要进行设置。具体地,以读取“数字”在初步命中文档7中的位置信息为示例进行说明,表1中在文档7之前包括“数字”的文档为文档1、文档2以及文档4至文档6,设定步进数据项的值3,则在读取“数字”在文档7中的位置前只需读取“数字”在文档5以及文档6中的位置信息,不需要从“数字”在文档1中的位置信息的存储位置开始依次读取“数字”分别在文档1、文档2以及文档4至文档6中的位置信息。0015 根据上述对检索。

18、词划分得到的词项进行全文检索的过程,能够获知,即使目前采说 明 书CN 103176978 A3/11页6用了步进数据项辅助读取词项在初步命中文档中的位置信息,也需要从最接近的步进数据项开始,依次读取词项在排列在初步命中文档前的包括所述词项的每个文档中的位置信息,才能定位并读取到词项在初步命中文档中的位置信息。可见,现有的全文检索系统在对检索词进行检索的过程中读取了大量不需要的位置信息。0016 综上所述,现有的全文检索系统在检索时,需要依次读取词项在包括检索词被划分得到的至少一个词项的文档中的位置信息,才能读取词项在初步命中文档中的位置信息,因此,存在由于读取冗余或无效信息而导致确定检索词分。

19、别在初步命中的文档中的位置信息的效率低的问题,从而影响了检索效率。发明内容0017 有鉴于此,本发明实施例提供一种确定检索词在文档中的位置信息的方法以及装置,采用该技术方案,能够提高检索效率。0018 本发明实施例通过如下技术方案实现:0019 根据本发明实施例的一个方面,提供了一种确定检索词在文档中的位置信息的方法,包括:0020 针对检索词被划分得到的每个词项,分别执行:0021 确定该词项在每个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,其中,所述初步命中文档中包括所述检索词被划分得到的每个词项。0022 根据本发明实施例的另。

20、一个方面,还提供了一种确定检索词在文档中位置信息的装置,包括:0023 检索词划分单元,用于将检索词划分为多个词项;0024 位置信息读取单元,用于针对所述检索词划分单元对检索词进行划分得到的每个词项,分别执行:确定该词项在每个初步命中文档中的位置信息的存储位置,并根据确定出的所述存储位置,读取该词项在所述初步命中文档中的位置信息,其中,所述初步命中文档中包括所述检索词被划分得到的每个词项。0025 通过本发明实施例提供的上述至少一个技术方案,在检索过程中,首先针对检索词被划分得到的每个词项,分别执行:确定该词项在初步命中文档中的位置信息的存储位置,其中,初步命中文档中包括该检索词被划分得到的。

21、每个词项,然后根据确定出的存储位置,读取该词项在该初步命中文档中的位置信息。该技术方案与现有技术相比较,能够直接确定出词项在初步命中文档中的位置信息的存储位置,进而根据该存储位置读取词项在初步命中文档中的位置信息,而现有技术中需要依次读取词项在包括检索词被划分得到的至少一个词项的文档中的位置信息,显然,本发明技术方案减少了对于词项在非初步命中文档中的位置信息的读取过程,从而减少了信息的读取量,提高了确定检索词在文档中的位置信息的效率,进而提高了检索效率。0026 本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可。

22、通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。说 明 书CN 103176978 A4/11页7附图说明0027 附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:0028 图1为现有技术提供的一种读取词项“数字”在文档4中的位置信息的流程示意图;0029 图2为本发明实施例一提供的一种确定词项在初步命中文档中的位置信息的流程示意图;0030 图3为本发明实施例一提供的一种读取该词项在初步命中文档中的位置信息的流程示意图;0031 图4为本发明实施例一提供的又一种读取词项在初步命中文档中的位置。

23、信息的流程示意图;0032 图5为本发明实施例一提供的确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置的流程示意图;0033 图6为本发明实施例一提供的确定差值的流程示意图;0034 图7为本发明实施例二提供的确定词项“数字”在文档4中的位置信息的流程示意图;0035 图8为本发明实施例三提供的一种确定检索词在文档中位置信息的装置的结构示意图。具体实施方式0036 为了给出提高确定检索词分别在初步命中的文档中的位置信息的效率的实现方案,本发明实施例提供了一种确定检索词在文档中的位置信息的方法以及装置,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的。

24、优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。0037 在全文检索系统中,检索词可能为单独的一个词项,也可能为包括多个词项的词组或者短句,在检索时,一般将检索请求中的检索词对应的词组或短句划分为多个词项在索引文件中进行查找,并将包括被划分后得到的每个词项的文档确定为初步命中文档,然后读取各个词项在初步命中文档中的位置信息,以用于确定最终的命中文档。以下,本申请将优选的采用确定检索词被划分后得到的词项在文档中的位置信息的方法进行描述。0038 实施例一0039 本发明实施例一提供了一种确定检索词在文档中的位置信息的方法,。

25、该方法能够应用在全文检索系统中,通过在全文检索系统中实施该方法,能够解决现有技术中由于确定检索词分别在初步命中的文档中的位置信息的效率低而影响检索效率的问题。0040 图2示出了本发明实施例一提供的一种确定检索词在文档中的位置信息的流程示意图,具体地,本实施例一将针对确定检索词被划分得到的词项在初步命中文档中的位置信息进行描述,并以确定被划分得到的词项中的一个词项在初步命中文档中的位置信息为例进行具体说明,如图2所示,该确定词项在初步命中文档中的位置信息的过程,主要包括以下步骤:说 明 书CN 103176978 A5/11页80041 步骤201、确定词项在初步命中文档中的位置信息的存储位置。

26、。0042 该步骤201中,在实际应用中,可以将保存词项在文档中的各位置信息的存储空间称为位置列表文件,具体地,可以将位置列表文件中的各位置信息的存储位置称为PrxPosition。0043 步骤202、根据确定出的存储位置,读取该词项在初步命中文档中的位置信息。0044 该步骤202中,具体实施过程中,可以以上述步骤201的示例为基础,根据PrxPosition读取该词项在初步命中文档中的位置信息。0045 至此,确定词项在文档中的位置信息的流程结束。0046 图1对应的流程中,在检索过程中,能够根据确定出的词项在初步命中文档中的位置信息的存储位置,读取词项在初步命中文档中的位置信息。本技术。

27、方案与现有技术相比较,能够直接确定出词项在初步命中文档中的位置信息的存储位置,进而根据该存储位置读取词项在初步命中文档中的位置信息,而现有技术中需要依次读取词项在包括检索词被划分得到的至少一个词项的文档中的位置信息,显然,本发明技术方案减少了对于词项在非初步命中文档中的位置信息的读取过程,从而减少了信息的读取量,提高了确定检索词在文档中的位置信息的效率,进而提高了检索效率。0047 在图2对应的流程中,根据确定出的词项在每个初步命中文档中的位置信息的存储位置,读取该词项在初步命中文档中的位置信息时,可以根据预先设定方式读取该词项在初步命中文档中的位置信息,具体地,例如,根据预先确定的初步命中文。

28、档的顺序,确定该词项在第一个初步命中文档中的位置信息的存储位置,并根据确定出的该存储位置读取词项在第一个初步命中文档中的位置信息,然后选择下一个初步命中文档,并读取词项在该下一个初步命中文档中的位置信息,直到读取完词项在所有初步命中文档中的位置信息;或者,在确定该词项在所有初步命中文档中的位置信息的存储位置后,直接根据确定出各存储位置,依次读取该词项在各初步命中文档中的位置信息。0048 在图2对应流程包括的步骤201中,即确定词项在初步命中文档中的位置信息的存储位置,本申请提供了确定词项在初步命中文档中的位置信息的存储位置的优选实施方式,并对应的提供了读取该词项在初步命中文档中的位置信息的优。

29、选实施方式,具体地,如图3所示,该读取词项在初步命中文档中的位置信息的过程,主要包括以下步骤:0049 步骤301、确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置。0050 该步骤301中,第一起始存储位置可以为保存上述位置信息的存储空间的开始位置,例如,若存储词项的位置信息的字节长度为4字节,则第一起始存储位置可以为该4字节的前2个字节的位置所在,此外,若存储词项的位置信息的字节长度为2字节,则第一起始存储位置即为2个字节的位置所在。具体地,在实际应用中可以根据具体情况灵活设定,此处仅为示例。0051 步骤302、根据确定出的各位置信息被保存时分别对应的第一起始存储。

30、位置,读取该词项在初步命中文档中的各位置信息。0052 该步骤302中,若第一起始存储位置为该4字节的前2个字节的位置所在,则可以在读取前2个字节的信息后,继续读取后2个字节的信息,将读取的信息组合起来确定为该词项在初步命中文档中的位置信息,或者,若第一起始存储位置对应存储词项的位置信息说 明 书CN 103176978 A6/11页9的2字节的存储位置,则直接读取该2个字节的信息,并将该信息确定为该词项在初步命中文档中的位置信息。0053 至此,读取词项在初步命中文档中的位置信息的流程结束。0054 在图3对应的流程包括的步骤301中,本技术方案提供了一种确定该词项在初步命中文档中的位置信息。

31、的存储位置的优选实施方式,即确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置。实际应用中,也可以以该词项对应的初步命中文档为单位进行第一起始位置的确定,具体地,即仅确定该词项在各初步命中文档中的各位置信息对应各初步命中文档被保存时,对应各初步命中文档保存的该词项在各初步命中文档中的各位置信息的第一个存储位置的起始存储位置,然后在步骤302中,则采取相应的方式读取该词项在各初步命中文档中的位置信息,具体地,如图4所示,读取词项在初步命中文档中的位置信息的步骤,主要包括以下步骤:0055 步骤401、确定该词项在各初步命中文档中的位置信息被保存时,对应各初步命中文档保存的该。

32、词项在各初步命中文档中的位置信息的第一个存储位置为第一起始存储位置。0056 该步骤401中,所述第一起始存储位置也可以理解为上述图3中的第一起始存储位置,该步骤401中的第一起始存储位置仅为上述图3中的第一起始存储位置的一种情况,具体地,以实际应用为例,若初步命中文档A中存在4个“检索”,在针对该4个“检索”在初步命中文档A中的4个位置信息进行依次保存时,将保存上述4个位置信息的第一个存储位置确定为第一起始存储位置,其他3个位置信息的存储位置依次排在该第一起始存储位置的后面(图3对应的流程还确定出该3个位置信息的存储位置分别对应的第一起始存储位置),进一步,可以针对每个初步命中文档,分别确定。

33、出对应各初步命中文档保存的该词项在各初步命中文档中的位置信息的第一个存储位置为第一起始存储位置。0057 步骤402、从确定出的第一起始存储位置开始,依次读取该词项在初步命中文档中的位置信息。0058 该步骤402中,初步命中文档为确定出的第一起始存储位置对应的初步命中文档,根据上述步骤401给出的示例,本步骤402中可以从“检索”在初步命中文档中A的4个位置信息的存储位置的第一起始存储位置开始,依次读取第1个位置信息、第2个位置信息、第3个位置信息以及第4个位置信息,进一步,根据步骤401确定出与各初步命中文档对应的第一起始存储位置后,都可以通过执行该步骤402读取到该词项在各初步命中文档中。

34、的位置信息。0059 至此,读取词项在初步命中文档中的位置信息的流程结束。0060 根据上述图3以及图4对应的流程,本技术方案提供了直接读取词项在初步命中文档中的位置信息的方式,即根据确定出的位置信息的第一起始存储位置能够直接读取到该词项在初步命中文档中的位置信息,或者仅是确定出该词项在各初步命中文档中的位置信息被保存时,对应各初步命中文档保存的该词项在各初步命中文档中的各位置信息的第一个存储位置为第一起始存储位置,然后从该第一起始存储位置开始依次读取该词项在初步命中文档中的位置信息。对应上述第一起始存储位置,本技术方案还提供了确定第一起始存储位置的优选实施方式,具体地,图5示出了一种确定该词。

35、项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置,如图5所示,确定该词项在初步命中文说 明 书CN 103176978 A7/11页10档中的各位置信息被保存时分别对应的第一起始存储位置的过程,主要包括以下步骤:0061 步骤501、确定保存的与该词项对应的第二起始存储位置。0062 该步骤501中,第二起始存储位置为该词项在包括该词项的各文档中的各位置信息被保存时的起始存储位置。0063 步骤502、确定第二起始存储位置分别与该词项在初步命中文档中的第一个位置信息被保存时的起始存储位置之间的差值。0064 该步骤502中,所述差值为第二起始存储位置与上述图4中的第一起始保存位。

36、置的差值,实际应用中,也可以保存第二起始存储位置分别与该词项在初步命中文档中的各位置信息被保存时的起始存储位置之间的差值。此处,可以将第二起始存储位置称为PrxPointer,将差值称为PrxValue。0065 步骤503、根据确定出的第二起始存储位置以及差值,分别确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置。0066 该步骤503中,根据确定出的第二起始存储位置以及差值,能够首先确定出上述图4中所述的第一起始存储位置,即将PrxValue与PrxPointer的和确定为第一起始存储位置,之后,可以依据保存该词项的位置信息的字节长度依次确定出该词项在此初步命中文档。

37、中的其他位置信息对应的第一起始保存位置,或者根据设定的步进数据项确定该词项在此初步命中文档中的其他位置信息对应的第一起始保存位置。此外,对应步骤502中的示例,若所述差值为第二起始存储位置分别与该词项在初步命中文档中的各位置信息被保存时的起始存储位置之间的差值,则能够直接确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置。具体应用时,可以参考本技术方案例举的上述优选实施方式,也可以根据具体情况进行其他设置,此处不再一一例举。0067 至此,确定该词项在初步命中文档中的各位置信息被保存时分别对应的第一起始存储位置的流程结束。0068 图5对应的流程包括的步骤502中,即确定。

38、第二起始存储位置分别与该词项在初步命中文档中的第一个位置信息被保存时的起始存储位置之间的差值,针对该差值的确定方法,本技术方案提供了相应的优选实施方式,具体地,如图6所示,确定第二起始存储位置分别与该词项在初步命中文档中的第一个位置信息被保存时的起始存储位置之间的差值的过程,主要包括以下步骤:0069 步骤601、确定保存的与该词项对应的第三起始存储位置。0070 该步骤601中,第三起始存储位置为用于保存与包括该词项的各文档中分别对应的差值的存储位置的起始存储位置。实际应用中,可以将保存该差值的存储空间称为位置列表索引文件,即根据该位置列表索引文件,可以采取设定算法确定出保存位置信息的位置列表文件中指定的位置信息的存储位置。其中,可以将针对一个词项在各文档中的位置信息建立的位置列表索引文件中保存差值的第一个存储位置称为第三起始存储位置DpPointer。0071 步骤602、根据该初步命中文档在包括该词项的各文档中对应的顺序以及用于保存每个文档对应的差值的存储空间,确定用于保存在该初步命中文档之前的文档对应的差值的总存储空间。0072 该步骤602中,初步命中文档在包括该词项的各文档中对应的顺序,在建立位置说 明 书CN 103176978 A10。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1