检索方法和检索系统 【技术领域】
本发明涉及检索方法和检索系统,具体涉及使用相关反馈技术的检索方法和检索系统。
背景技术
在所有检索系统当中,利用关键词搜索引擎的检索系统是最普遍使用的。随着检索技术的发展,一种利用反馈技术的新的检索方法已越来越有效并且被普遍使用。在这种使用反馈技术的方法中,通过第一次检索获得的前N个文档(N是可以被适当设定的正整数)被用作反馈文档,并且从反馈文档中提取的信息被用于进行下一次检索。
图7是示出在利用相关反馈信息的常规检索系统中所使用的检索过程的流程图。
在步骤S701中,系统获得初始查询式(query),并且基于所述初始查询式执行第一次检索,以便获得结果文档列表,所述结果文档列表可以被返回给用户。可以利用本领域技术人员所知的任何关键词检索方法执行第一次检索,只要通过第一次检索获得的结果文档能够根据指示这些文档与初始查询式的相关程度的分数而被排序即可。
在步骤S703中,列表中的结果文档按照上述分数按降序被排列。系统从文档列表中选择在前的N个文档(前N个文档)作为反馈文档。N是可以由用户任意选择或可以按照其他方式适当设定的正整数。
在步骤S705中,系统对前N个文档进行循环,以通过词法分析器(lexical parser)获得分词(word segment)结果。
在步骤S707中,系统例如根据以下的式1计算反馈文档(前N个文档)中的每个词的相关分数。
(式1)
其中,wj表示前N个文档中的第j个词,wj可以遍历所有前N个文档中的所有词;relevance_score(wj)表示wj的相关分数,其示出词wj与初始查询式的相关程度;doci表示前N个文档中的第i个文档,其中i从1循环到N;word_score(wj,doci)例如是wj在当前文档doci中出现的数量。
在完成每个词的相关分数(即relevance_score(wj))的计算之后,这些词按照相关分数被排序,具有最高相关分数的M个词被选择作为反馈信息。在此,M是根据需要可以由用户选择或者可以由系统自动预先确定的任意正整数。
在步骤S709中,除了初始查询式之外,系统还考虑反馈信息,并且生成新的查询式。例如,系统将步骤S707中所计算的具有最高相关分数的M个词添加到初始查询式中,并且获得新的查询式。
在步骤S711中,系统使用步骤S709中获得的新的查询式来执行第二次检索。
在步骤S713中,系统获得第二次检索结果作为最终检索结果,并且将该结果返回给用户。
关于相关反馈的更多信息在各种文献中公开,诸如Rocchio.J.J.的“Relevance Feedback in Information Retrieval in the SmartSystem-experiments in Automatic Document Processing”,313-323,Englewood Cliffs,NJ:Prentice Hall Inc.,1971;G.Salton和ChrisBuckley的“Improving Retrieval Performance By RelevanceFeedback”,JASIS 41.288-297,CHRI,1990;C.T.YU、W.S.LUKE和T.Y.CHEUNG的“A Statistical Model for Relevance Feedback inInformation Retrieval”,Journal of the Amodation for ComputingMachinery,Vol.23,No.2,1976年4月,pp.273-286。由于相关反馈技术已被本领域技术人员知晓,因此这里将省略对此技术的更详细的描述。
然而,在现有技术中,根据利用相关反馈信息的检索系统的上述处理,系统仅利用了词法分析器的分词结果来计算相关分数,也就是说,在相关分数的计算中仅利用了单个词的信息,但是并没有考虑词之间的依存关系。
进一步地,反馈信息对第二次检索的性能是有影响的。在利用相关反馈信息的常规检索系统中,每个反馈信息被均等地用在第二次检索中。然而,反馈信息的相关分数彼此并不相等。这意味着,反馈信息中的词的贡献彼此并不相等,因此这些词优选地应该被有差别地利用。
进一步地,在利用相关反馈信息的常规检索系统中,通过第一次检索生成的前N个文档并不被进一步处理而直接用于反馈检索。发明人发现,反馈检索的性能对第二次检索的准确率也是有影响地,但是通过第一次检索获得的前N个文档有时在反馈检索中并不足够好用。
进一步地,在利用相关反馈信息的常规检索系统中,文档长度对反馈信息的计算也是有影响的。在计算反馈信息时,较长的文档会具有不公平的“优势”,因此优选通过长度归一化来进行调整。
因此,需要一种新的相关反馈检索方法和系统,其提高反馈文档的准确率和检索系统的性能。
【发明内容】
本发明的一个目的是提供一种用于解决至少一个上述技术问题的相关反馈检索方法和系统,所述相关反馈检索方法和系统提高反馈文档的准确率和检索系统的性能。
根据本发明的第一个方面,提供一种检索方法,包括:第一次检索步骤,通过使用初始查询式对多个文档执行第一次检索以获得结果文档,并且从所述结果文档中选择反馈文档;选择步骤,通过以反馈文档中的短语数量作为准则对反馈文档进行过滤,从反馈文档中选择一些文档作为所选择的反馈文档,所述短语是由初始查询式中的词构成的;反馈信息获得步骤,基于所述所选择的反馈文档中的词与初始查询式中的词之间的依存关系,从所述所选择的反馈文档中获得反馈信息;生成步骤,通过将所述反馈信息添加到初始查询式中,生成新的查询式;以及第二次检索步骤,通过使用新的查询式,对所述多个文档执行第二次检索。
优选地,所述反馈信息获得步骤包括相关分数计算步骤,基于所述所选择的反馈文档中的词与所述初始查询式中的词之间的所述依存关系,计算相关分数。
优选地,所述相关分数计算步骤基于所述所选择的反馈文档中的词与所述初始查询式中的词之间的所述依存关系,并且基于每个词在所述所选择的反馈文档中出现的数量,计算相关分数。
优选地,所述反馈信息获得步骤基于所述所选择的反馈文档中的词与所述初始查询式中的词之间的所述依存关系,并且基于所述所选择的反馈文档中的词与所述初始查询式中的词之间的基本关系分数,获得所述反馈信息。
优选地,所述反馈信息获得步骤包括相关分数计算步骤,基于所述所选择的反馈文档中的词与所述初始查询式中的词之间的所述依存关系,并且基于所述所选择的反馈文档中的词与所述初始查询式中的词之间的基本关系分数,计算相关分数。
优选地,所述相关分数计算步骤基于所述所选择的反馈文档中的词与所述初始查询式中的词之间的所述依存关系,基于所述所选择的反馈文档中的词与所述初始查询式中的词之间的基本关系分数,并且基于每个词在所述所选择的反馈文档中出现的数量,计算相关分数。
优选地,所述第二次检索步骤包括权重调整步骤,通过利用所述相关分数,调整反馈信息中的每个词的权重,所述权重在第二次检索期间被使用。
优选地,所述反馈信息获得步骤包括词选择步骤,选择具有最高相关分数的预定数量的词作为所述反馈信息。
优选地,所述反馈信息获得步骤包括文档长度归一化步骤,根据每个所述所选择的反馈文档的长度计算文档长度归一化比率,并且将所述文档长度归一化比率应用于对所述反馈信息的计算中。
优选地,所述依存关系是通过使用语法分析器获得的,更优选地是通过浅层语法分析器获得的。
根据本发明的第二方面,提供一种检索系统,包括:第一次检索装置,用于通过使用初始查询式对多个文档执行第一次检索以获得结果文档,并且从所述结果文档中选择反馈文档;选择装置,用于通过以反馈文档中的短语数量作为准则对反馈文档进行过滤,从反馈文档中选择一些文档作为所选择的反馈文档,所述短语是由初始查询式中的词构成的;反馈信息获得装置,用于基于所述所选择的反馈文档中的词与初始查询式中的词之间的依存关系,从所述所选择的反馈文档中获得反馈信息;生成装置,用于通过将所述反馈信息添加到初始查询式中,生成新的查询式;以及第二次检索装置,通过使用新的查询式,对所述多个文档执行第二次检索。
根据本发明,确定反馈文档中的词与初始查询式中的词之间的依存关系,使得在计算相关分数以获得反馈信息时还考虑每个词和初始查询式之间的依存关系。
根据一个优选实施例,反馈信息的相关分数还被用于校正反馈信息中的词在第二次检索期间的权重,以便考虑反馈信息中的词之间的差异。
根据另一个优选实施例,还利用短语数量对反馈文档进行过滤,以从候选文档中选择更相关的文档,从而提高反馈文档的准确率。
根据再一个优选实施例,还利用文档归一化校正反馈文档中的词的相关分数,以便降低较长的文档的影响。
【附图说明】
并入到说明书中并且组成说明书一部分的附图示出本发明的实施例,并且与描述一起用于说明本发明的原理。
图1是示出用于实现根据本发明的检索系统的计算装置的布置的框图。
图2是示出根据本发明第一实施例的使用相关反馈信息的检索系统的配置的框图。
图3是示出根据本发明第一实施例的利用相关反馈信息的检索系统执行的检索过程的流程图。
图4是示出在一个示例中通过词法分析器获得的分词结果的图。
图5是示出在一个示例中通过语法分析器(syntax parser)获得的语法结果的图。
图6是用于示出在第三实施例中采用的过滤过程的流程图。
图7是示出通过利用相关反馈信息的常规检索系统执行的检索过程的流程图。
图8是示出图2中的反馈信息获得装置205的优选配置的框图。
【具体实施方式】
以下将参照附图详细描述本发明的实施例。
图1是示出用于实现根据本发明的检索系统的计算装置的布置的框图。为了简明起见,检索系统被构建在单个计算装置中。然而,无论该检索系统被构建在单个计算装置中还是构建在作为网络系统的多个计算装置中,该检索系统都是有效的。
如图1所示,计算装置100用于实施检索过程。计算装置100可以包含CPU 101、芯片组102、RAM 103、存储控制器104、显示控制器105、硬盘驱动器106、CD-ROM驱动器107、以及显示器108。计算装置100还可以包括连接在CPU 101和芯片组102之间的信号线111、连接在芯片组102和RAM 103之间的信号线112、连接在芯片组102和各种外围装置之间的外围装置总线113、连接在存储控制器104和硬盘驱动器106之间的信号线114、连接在存储控制器104和CD-ROM驱动器107之间的信号线115、以及连接在显示控制器105和显示器108之间的信号线116。
客户端120可以经由网络130或直接连接到计算装置100。客户端120可以将检索任务发送给计算装置100,并且计算装置100可以将检索结果返回给客户端120。
图2是示出根据本发明第一实施例的使用相关反馈信息的检索系统的配置的框图。
如图2所示,检索系统包含第一次检索装置201,用于通过使用初始查询式对多个文档执行第一次检索以获得结果文档,并且从所述结果文档中选择反馈文档;选择装置203,用于通过以反馈文档中的短语数量作为准则对反馈文档进行过滤,从反馈文档中选择一些文档作为所选择的反馈文档,所述短语是由初始查询式中的词构成的;反馈信息获得装置205,用于基于所述所选择的反馈文档中的词与初始查询式中的词之间的依存关系,从所选择的反馈文档中获得反馈信息;生成装置207,用于通过将所述反馈信息添加到初始查询式中,生成新的查询式;以及第二次检索装置209,通过使用新的查询式,对所述多个文档执行第二次检索。
图8是示出反馈信息获得装置205的优选配置的框图。如图8所示,反馈信息获得装置205优选包括:词选择装置801,用于选择具有最高相关分数的预定数量的词作为所述反馈信息;文档长度归一化装置803,用于根据每个所述所选择的反馈文档的长度计算文档长度归一化比率,并且将所述文档长度归一化比率应用于对所述反馈信息的计算中;相关分数计算装置805,用于基于所述所选择的反馈文档中的词与所述初始查询式中的词之间的所述依存关系,计算相关分数;词排序装置807,用于将反馈文档中的词按照相关分数的降序进行排序;反馈信息确定装置809,用于确定具有最高相关分数的前M个词作为反馈信息,其中M是正整数。
在以下,将详细描述本发明的实施例。
(第一实施例)
将参照图3描述第一实施例。
图3是示出根据本发明第一实施例的利用相关反馈信息的检索系统执行的检索过程的流程图。
该过程开始于步骤S301,在步骤S301,系统获得初始查询式并基于该初始查询式执行第一次检索,以便获得可被返回给用户的结果文档列表。第一次检索可以利用本领域技术人员所知的任何关键词检索方法,只要检索结果中的文档可以根据指示文档与查询式之间的相关程度的分数而被排序即可。例如,文档与查询式之间的分数可以被计算为由初始查询式的词在文档中出现的数量所表示的分数,如下。
(式2)
其中,doci表示第i个文档,score(doci)表示doci的分数,qk表示查询式中的第k个词,并且n(doci,qk)表示doci中qk的数量。
本领域技术人员知晓可以用于第一次检索以及文档排序的许多其他方法。
例如,优选地但并非必需地,系统为每个查询词分配相应的权重。因此,式2被如下修改。
(式3)
其中Wk表示查询词qk的权重。本领域技术人员可以设计将权重分配给查询词的各种方法。例如,如果查询词在不相关的文档中频繁出现,则此查询词将被分配较低的权重。例如,诸如“是”、“的”、“了”之类的在各种不相关文档中频繁出现的查询词将被分配非常低的权重。例如,可以采用在Min Zhang等人的“DF or IDF?On the Use ofPrimary Feature Model for Web Information Retrieval”,vol.16,No.5,Journal of Software 2005;Shaohan Liu等人的“Applying RelevanceFeedback to Information Retrieval Using Keyword and WeightAlgorithms”,Journal of the China Society for Scientific andTechnical Information,Vol.21,No.6,December,2002中公开的技术。
在步骤S303中,该列表中的结果文档被按照上述分数按降序进行排列。系统从文档列表中获得前N个文档。N是可以由用户任意选择或者可以由系统适当地设定的正整数。
在步骤S305中,系统对这前N个文档进行循环,以通过词法分析器获得分词结果。任何词法分析器都可被用于获得分词结果,诸如在Jianfeng Gao等人的“Dependence Language Model forInformation Retrieval”,Annual ACM Conference on Research andDevelopment in Information Retrieval,Proceedings of the 27thannual international ACM SIGIR conference on Research anddevelopment in information,第170-177页,2004年;Deniz Yuret的“Discovery of Linguistic Relations Using Lexical Attraction”博士论文,Massachusetts Institute of Technology 1998;Peng Wang等人的“Researches on Rule-based Chinese Parsing Techniques”,ComputerEngineering and Applications,Vol.29,2003;Liu Qun的“Summary ofChinese syntax parsing and lexical parsing technology”,Students′Workshop on Computational Linguistics,2002中所公开的那些。
在步骤S307中,系统循环所述前N个文档,以通过语法分析器获得语法结果。语法分析器是这样一种分析器,其能够输入句子的词列表,并且输出这些词之间的依存关系(关联)。
语法分析器是与自然语言处理相关的系统(诸如文本搜索系统、机器翻译系统、信息提取系统、文-语转换系统等)中的一种重要技术。语法分析器的任务是自动分析句子的语法结构,然后将句子翻译成结构化的语法图。
在各种语法分析器中,给出句子中的词之间的语法依存关系的一种特殊的语法分析器即浅层语法分析器(shallow syntax parser)越来越受到普遍使用,这是因为其精度和速度都比完全语法分析器(fullsyntax parser)好得多。
图5给出了两个句子的语法分析结果。在图5中,在词之间存在弧线,每个弧线都是无环、平面、且无向的弧线。在浅层语法分析器的技术中,每个弧线示出弧线两端的词之间的关联或者依存关系。浅层语法分析器的技术中的关联或者依存关系表明基于给定句子的所有可能关系中的最佳关系。
图5中示出两个词之间的依存关系的每个弧线都具有被称为基本关系分数的分数。优选地,在本发明中,所述依存关系与反馈文档中的词和初始查询式中的词之间的基本关系分数可以相结合被使用。基本关系分数指示这些词的相关程度。以下示出了利用所述依存关系与基本关系分数这两者的示例。然而应该指出,依存关系可以被单独使用而不考虑基本关系分数。
可以使用任何语法分析器来获得语法结果。可以采用例如在诸如Jianfeng Gao等人的“Dependence Language Model for InformationRetrieval”SIGIR-2004,Sheffield,UK,7月25~29日;Yuret Deniz,“Discovery of Linguistic Relations Using Lexical Attraction”,博士论文,MIT,1998年中公开的那些浅层语法分析器。也可以采用完全语法分析器。然而,因为浅层语法分析器的精度和速度都比完全语法分析器好得多,因此优选使用浅层语法分析器。
在步骤S309中,系统通过基于在步骤S305中获得的分词结果和在步骤S307中获得的语法结果计算相关分数,获得反馈信息。具体地,系统利用分词结果和语法结果计算前N个文档中的每个词的相关分数。例如,可以使用以下的式4来计算每个词的相关分数。
relevance_score(wj)=word_score(wj)+relation_score(wj)]]>
(式4)
其中,wj表示前N个文档中的第j个词,wj可以遍历所有反馈文档中的所有词;relevance_score(wj)表示wj的相关分数;word_score(wj)表示wj的、仅取决于关于wj本身的信息的分数;relation_score(wj)表示wj的、指示其与查询词的依存程度的分数;doci表示前N个文档中的第i个文档;word_score(wj,doci)是wj在当前文档中出现的数量;qk表示初始查询式中的第k个词;relation_score(wj,qk)表示wj和qk的基本关系分数,如果wj与qk不具有任何依存关系,则relation_score(wj,qk)为零;relation_score(wj,qk,doci)是doci中wj和qk的基本关系分数,其表示doci中wj和qk的依存关系。请注意,基本关系分数可以根据需要被手动设定,或者可以从预定的词典中取出。作为替换方案,可通过使用语法分析器获得基本关系分数。可以通过以下的步骤来生成所述词典:
-收集语料库;
-将语料库中的所有句子分割成词节点;
-在统计上对各相邻词节点对出现在该语料库中的数量进行计数;以及
-记录所述词节点对,并且对它们的出现数量进行归一化作为它们在基本关系分数词典中的基本关系分数。
请注意,式4仅是用于使用分词结果和语法结果二者计算相关分数的示例。本领域技术人员可以根据需要选择其他方式来利用分词结果和语法结果的任何组合来计算相关分数。例如,也可以使用revelacen_score(wj)=word_score(wj)·relation_score(wj)的算式。
在完成对前N个文档的每个文档中的每个词的相关分数(即relevance_score(wj))的计算之后,这些词按照相关分数被排序,并且具有最高相关分数的M个词被选择作为反馈信息。在此,M是可以根据需要由用户选择或者由系统自动预先确定的任意正整数。
在步骤S311中,系统将所述反馈信息添加到初始查询式中,以生成新的查询式。
在步骤S313中,系统使用包括反馈信息的新的查询式以进行第二次检索。
在步骤S315中,系统将从第二次检索获得的结果作为最终结果,并且将该结果返回给用户,过程结束。
根据上述的过程,不仅基于简单的分词结果,而且还基于语法结果信息,获得反馈信息。分词仅区分每个词,而语法分析还进一步识别反馈文档中的词与初始查询式中的词之间的依存关系。
在发明人进行的仿真实验中,对于139353KB的普通话TREC语料库,评价了根据本实施例的利用相关反馈信息的上述检索方法,并且获得了如表1所示的结果。
表1
使用常规相关反馈方法 使用本发明的相关反馈方法 召回率 0.7599 0.7724 准确率 0.2238 0.2299 R-准确率 0.4537 0.4753
在此,召回率、准确率、R-准确率是用于评价检索方法或系统的三个常用的参数。“召回率”等于结果文档列表中的回复文档的数量与所有回复文档的总数的比率。“准确率”等于结果文档列表中的回复文档的数量与结果文档的总数的比率。“R-准确率”等于前R个结果文档中的回复文档的数量与所有回复文档的总数的比率(R是正整数)。在此,结果文档是指通过检索系统被检索出或搜索出的文档。回复文档是指用户实际所需的文档。这些参数的值越大,对应的性能越好。召回率、准确率、R-准确率是本领域技术人员常用的参数,因此将省略对它们的详细说明。
从表1可以看出,与常规方法相比,通过使用本发明的相关反馈方法改善了性能。
[示例]
现在,为了便于对本发明原理的理解,将示出根据第一实施例的上述过程的一个示例。
应该指出,以下的示例仅用于说明本发明原理的目的,任何具体数值、具体方程或表达式都不意图限制本发明的范围。
在本示例中,查询式Q是“音乐播放器”,并且候选文档总共包括三个文档,即:
D1:美国苹果公司推出iPOD数字音乐播放器
D2:美国一些公司推出新型音乐播放器
D3:iPOD shuffle最近在全球热销
在本示例中,N(反馈文档的数量)被设定为2,并且M(要被取作反馈信息的词的数量)被设定为3。
首先,将描述利用图7所示的常规检索方法的情况。在步骤S701中,上述查询式“音乐播放器”被输入,并且在D1~D3之中进行第一次检索。在第一次检索中,可以使用任何常规检索方法,并且可以对查询式“音乐播放器”进行诸如分词之类的处理,这属于本领域技术人员常用的技术手段。因此,获得D1和D2作为结果文档。在步骤S703中,前N(N=2)个文档即D1和D2被获得作为第一次检索的反馈文档。在步骤S705中,通过使用词法分析器获得分词结果,如图4所示。图4是示出由词法分析器获得的分词结果的图。在图4中,句子被分割成单个的词。分词过程可以通过本领域公知的任何词法分析技术来执行。
在步骤S707中,根据式1,基于分词结果信息计算反馈文档中的每个词的相关分数。在此,设定i=1,2,并且可以获得以下的相关分数。
relevance_score(美国)=2;
relevance_score(苹果)=1;
relevance_score(公司)=2;
relevance_score(推出)=2;
relevance_score(iPod)=1;
relevance_score(数字)=1;
relevance_score(一些)=1;
relevance_score(新型)=1。
在按照上述词各自的相关分数按降序对词进行排列之后,用于反馈的候选词的列表如下:
美国,公司,推出,苹果,数字,iPod,一些,新型。
在步骤S709中,选择具有最高相关分数的M(M=3)个词作为反馈信息,并且将其添加到初始查询式中,从而新的查询式变为:
Q:音乐,播放器,美国,公司,推出。
在步骤S711中,进行第二次检索,并且在步骤S713,获得最终检索结果D1和D2,并且将其呈现给用户。
然后,以下将描述使用图3所示的本发明的检索方法的情况。
在步骤S301中,上述查询式“音乐播放器”被输入,并且在D1~D3之中进行第一次检索。在第一次检索中,可以使用任何常规检索方法,并且可以对查询式“音乐播放器”进行诸如分词之类的处理,这属于本领域技术人员常用的技术手段。
根据一种常用的分词方法,查询式“音乐播放器”被分割为两个查询词,即“音乐”和“播放器”。在各种检索方法中,有一种简单的检索方法,即计算每个查询词在每个文档中出现的数量的和,并且对于每个文档将根据式3获得一个分数。
(式3)
其中,doci表示第i个文档,score(doci)表示doci的分数,qk表示查询式中的第k个词,Wk表示查询词qk的权重,并且n(doci,qk)表示doci中qk的数量。
本领域技术人员可以设计将权重分配给查询词的任何方法。例如,如果查询词在不相关的文档中频繁出现,则此查询词将被分配较低的权重。例如,诸如“是”、“的”、或“了”之类的在各种不相关文档中频繁出现的查询词将被分配非常低的权重。在此例中,“音乐”和“播放器”被分配相等的查询式权重。从而,获得D1和D2作为结果文档。
在步骤S303中,前N(N=2)个文档即D1和D2被获得作为第一次检索的反馈文档。
在步骤S305中,通过利用词法分析器获得分词结果,如图4所示。图4是示出由词法分析器获得的D1和D2的分词结果的图。在图4中,句子被分割成单个的词。分词过程可以通过本领域公知的任何词法分析技术来执行。
在此,将doci中wj的数量用作式4中的word_score(wj,doci)。
因此,基于分词结果,根据式4计算word_score(wj),即每个wj在文档中出现的数量,如下。
word_score(美国)=2;
word_score(苹果)=1;
word_score(公司)=2;
word_score(推出)=2;
word_score(iPod)=1;
word_score(数字)=1;
word_score(一些)=1;
word_score(新型)=1。
在步骤S307中,系统对前N个文档进行循环,以通过浅层语法分析器获得语法结果。浅层语法分析器是这样一种分析器,其能够输入句子的词列表,并且输出这些词之间的依存关系(关联),其中每个依存关系(关联)具有基本关系分数。
图5是示出通过浅层语法分析器获得的D1和D2的语法结果的图。在图5中,如以上已描述的,示出了词之间的依存关系和基本关系分数。
可以使用任何浅层语法分析器来获得依存关系,并且基本关系分数可以被手工确定或者从用于依存关系的词典中确定。可以采用例如在诸如Jianfeng Gao等人的“Dependence Language Model forInformation Retrieval”SIGIR-2004,Sheffield,UK,7月25~29日;Yuret Deniz,“Discovery of Linguistic Relations Using LexicalAttraction”,博士论文,MIT,1998年中公开的浅层语法分析器。也可以采用完全语法分析器。通过这些浅层语法分析器中的任何一个都可以获得相同的期望语法结果,虽然它们具有不同的性能。
doci中的wj和qk之间的基本关系分数被用作式4中的“relation_score(wj,qk,doci)”。从而,根据式4和图5,基于语法结果对文档中的wj和每个qk计算wj和每个qk之间的relation_score(wj),如下。
relation_score(美国)=0;
relation_score(苹果)=0;
relation_score(公司)=0;
relation_score(推出)=2+2=4;
relation_score(iPod)=3;
relation_score(数字)=4;
relation_score(一些)=0;
relation_score(新型)=2。
请注意,以上示出的基本关系分数仅是示例性的。可以使用具有词之间的各种基本关系分数的任何词典。在一种特定情况下,所有基本关系分数可被相等地设定,在这种情况下,词的relation_score表示词与初始查询式中的词的关系的数量。
在步骤S309中,系统基于在步骤S305中获得的分词结果和在步骤S307中获得的语法结果,获得相关分数。具体地,系统通过使用分词结果和语法结果计算前N个文档中的每个词的相关分数。根据式4计算前N个文档中的每个词的相关分数即relevance_score(wj)。在此,设定i=1,2,并且可以获得以下的相关分数。
relevance_score(美国)=word_score(美国)+relation_score(美国)=2
relevance_score(苹果)=word_score(苹果)+relation_score(苹果)=1
relevance_score(公司)=word_score(公司)+relation_score(公司)=2
relevance_score(推出)=word_score(推出)+relation_score(推出)=6
relevance_score(iPod)=word_score(iPod)+relation_score(iPod)=4
relevance_score(数字)=word_score(数字)+relation_score(数字)=5
relevance_score(一些)=word_score(一些)+relation_score(一些)=1
relevance_score(新型)=word_score(新型)+relation_score(新型)=3
在对这些词按照其相应的相关分数以降序排列之后,用于反馈的候选词列表如下:
推出,数字,iPod,新型,美国,公司,苹果,一些。
在步骤S311中,具有最高相关分数的M(M=3)个词被选择作为反馈信息,并且被添加到初始查询式中,从而新的查询式变为:
Q:音乐,播放器,推出,数字,iPod。
在步骤S313中,进行第二次检索。可以利用与步骤S301中的第一次检索相同的方法进行第二次检索。优选地但不是必需地,系统给包括新查询词的查询词分配权重。
在步骤S315中,获得最终检索结果D1、D2、D3,并且其被呈现给用户。
从上面可以看出,根据常规方法,“美国”、“公司”、“推出”被获得作为反馈信息,仅是因为这些词在通过第一次检索获得的前2个文档中的数量是最高的。另一方面,根据本发明的方法,“推出”、“数字”、“iPOD”被获得作为反馈信息,因为在计算相关分数时还考虑到这样的事实:这些词与初始查询词“音乐”和“播放器”具有较高的基本关系分数。结果,通过使用图7中的方法获得D1和D2作为检索结果,而通过使用图3中的方法获得D1、D2和D3作为检索结果。也就是说,在使用图7中的常规方法时,遗漏了D3,而D3也是用户可能需要的高度相关文档。另一方面,在使用根据图3所示的本发明的方法的情况下,D3被呈现给用户作为最终检索结果。
因此可以看出,根据本发明的检索系统和方法与常规方法相比,在找到更期望的文档方面可以带来更优越的性能。
为了便于理解,已结合一个示例描述了本发明的第一实施例。然而,在此提及的具体数值或公式仅是示例性的,而不意图限制本发明的范围。如上所述,任何常规检索方法可以被用于第一次和第二次检索中,可以使用任何词法分析器来获得分词结果,并且可以使用任何语法分析器来获得词之间的依存关系。
(第二实施例)
以下将描述第二实施例。
在第一实施例的步骤S313中,系统优选地为每个查询词分配权重。在使用相关反馈信息的常规检索系统中,从反馈信息获得的每个新的查询词被相等地用在第二次检索中。例如,在以上示出的示例中,系统可以为相应的查询词分配权重:W(音乐)=0.263,W(播放器)=0.263,W(推出)=0.158,W(数字)=0.158,W(iPOD)=0.158。
然而,反馈信息中的词的相关分数彼此并不相等。这意味着,反馈信息中的词的贡献并不彼此相等,因此优选地被不同地使用。
在一个示例中,查询词的权重可以根据以下的式5被调整。m=1,...,M(式5)其中,W’(qm)表示反馈信息中的第m个词的调整后的权重,W(qm)表示反馈信息中的第m个词的未调整的权重,表示在步骤S309中计算的反馈信息中的所有词的相关分数的和,M表示反馈信息中的词的总数量。
因此,每个新查询词的调整后的权重如下。
W’(推出)=0.158*6/((6+5+4)/3)=0.1896,
W’(数字)=0.158*5/((6+5+4)/3)=0.158,
W’(iPOD)=0.158*4/((6+5+4)/3)=0.1246。
从上面可看出,根据本实施例,每个新查询词的调整后的权重显示出对反馈信息的贡献的差异。
(第三实施例)
以下将参照图6描述第三实施例。
图6是示出在第三实施例中使用的过滤过程的流程图。
在第一实施例的步骤S303中,通过第一次检索,前N个文档被获得作为反馈文档。
在利用相关反馈信息的常规检索系统中,由第一次检索生成的前N个文档并不进一步被处理而直接用于反馈检索。发明人发现,反馈检索的性能还取决于第一次检索的准确率,但是通过第一次检索获得的前N个文档有时在反馈检索中并不足够好用。
在第三实施例中,在通过第一次检索获得前N个文档之后,所述前N个文档在步骤S303中被进一步过滤。
图6是示出在步骤S303中优选执行的过滤过程的流程图。
在步骤S601中,每个文档被分析,并且找到短语分布。公知的短语技术给出了两个词如何可被看作一个短语。例如在高级别,如果两个词在查询式中和在文档中都相邻,并且其间没有别的词,则这两个词可被看作是文档中的一个短语。在中等级别,如果两个词在查询式中相邻,并且出现在文档中的一个句子中(其间可能具有若干词),则这两个词可被看作是一个短语。在低级别,如果两个词既出现在查询式中也出现在文档中的一个句子中(其间可能具有若干词),则这两个词可被看作是一个短语。
例如,当查询式是“中国经济发展”时,
在高级别,
文档1:中国经济。(短语数=1)
文档2:中国的经济。中国的发展。(短语数=0)
文档3:中国经济。经济发展。(短语数=2)
在中等级别,
文档1:中国经济。(短语数=1)
文档2:中国的经济。中国的发展。(短语数=1)
文档3:中国经济。经济发展。(短语数=2)
在低级别,
文档1:中国经济。(短语数=1)
文档2:中国的经济。中国的发展。(短语数=2)
文档3:中国经济。经济发展。(短语数=2)
例如根据上述方式,计算每个文档的短语数。
在步骤S603中,根据短语数,每个文档可被分类为文档组,诸如其中每个文档都不具有短语的文档组,其中每个文档仅具有一个短语的文档组,以及其中每个文档仅具有两个短语的文档组。
例如,在高级别,文档1被分类为文档组{短语数=1};文档2被分类为文档组{短语数=0};文档3被分类为文档组{短语数=2}。
在步骤S605,系统过滤掉一些文档,并且仅保留在短语数方面满足条件的文档。例如,属于文档组{短语数>0}的文档被保留。这些文档作为最终所选择的反馈文档,而代替前N个文档,用于步骤S305及其后续处理。
(第四实施例)
以下将描述第四实施例。
在利用相关反馈信息的常规检索系统和方法中,文档长度也对反馈信息的计算具有影响。因此,在计算反馈信息时,较长的文档会具有不公平的“优势”,因此相关分数优选通过长度归一化来进行调整。
在第四实施例中,在步骤S309中,基于文档的长度,对于每个文档计算归一化比率。例如,可以按照以下的式6计算归一化比率。
归一化比率=1/(1+log(文档长度)) (式6)
然而,也可以采用用于计算归一化比率的其他方法,例如归一化比率可简单地计算为1/长度。
因此,可以使用以下的式7代替式4来计算每个词的相关分数。
relevance_score(wj)=word_score(wj)+relation_score(wj)]]>
(式7)
其中,λi表示doci的归一化比率。
在前文中,分别描述了四个实施例。第一实施例是用于利用语法分析结果进行信息检索的相关反馈系统。第二实施例是其中通过调整每个新的查询词的权重而修改第一实施例中的步骤S313的过程的技术方案。第三实施例是其中通过对前N个文档进行过滤而修改第一实施例中的步骤S303的过程的技术方案。第四实施例是通过对每个文档执行长度归一化而修改第一实施例中的步骤S309的过程的技术方案。然而,对于本领域技术人员显而易见的是,第一到第四实施例可以被任意组合。也就是说,上述实施例的任何组合都被包含在本发明的范围内。
可以通过许多方式来实施本发明的方法和系统。例如,可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和系统。上述的方法步骤的次序仅是说明性的,本发明的方法步骤不限于以上具体描述的次序,除非以其他方式明确说明。此外,在一些实施例中,本发明还可以被实施为记录在记录介质中的程序,其包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。
虽然在上述示例中,中文语言作为示例被例示以说明本发明的原理,但本发明可以应用于任何语言。也就是说,本发明中的方法是与语言种类无关的,并且适用于所有检索系统。
虽然已通过示例详细展示了本发明的一些具体实施例,但是本领域技术人员应当理解,上述示例仅意图是示例性的而非限制本发明的范围。本领域技术人员应该理解,上述实施例可以被修改而不脱离本发明的范围和实质。本发明的范围是通过所附的权利要求限定的。