一种计算全文检索查全率的方法及装置.pdf

上传人:a**** 文档编号:1630453 上传时间:2018-06-30 格式:PDF 页数:13 大小:1.01MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410586251.2

申请日:

2014.10.28

公开号:

CN104699733A

公开日:

2015.06.10

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20141028|||公开

IPC分类号:

G06F17/30; G06F11/36

主分类号:

G06F17/30

申请人:

电信科学技术第十研究所

发明人:

吝斌; 马妤晨; 王欣

地址:

710000陕西省西安市雁塔西路6号

优先权:

专利代理机构:

西安亿诺专利代理有限公司61220

代理人:

韩素兰

PDF下载: PDF下载
内容摘要

本发明提供一种计算全文检索查全率的方法及装置,属于计算机软件测试技术领域,以解决现有技术中有效且可操作的计算全文检索查全率的方法的缺失问题。本发明提供的方法计算出的查全率是相对数据库系统查全率的对比值,在数据库系统查全率一定的情况下,与数据库系统查全率成正比关系。相比其他以估算方式给出查全率的方法,本发明的查全结果更有效且更具有操作性,在实际使用过程中提供有效的改进依据。

权利要求书

权利要求书
1.  一种计算全文检索查全率的方法,其特征在于,所述方法包括:
获取被测系统中的至少一个测试元素,以及存储于数据库系统的所述至少一个测试元素;
根据所述至少一个测试元素,创建至少一个查询关键词及其扩展关键词;
根据每个所述查询关键词及其扩展关键词,对应从所述被测系统中的至少一个测试元素中获取一个第一查询结果,对应从所述存储于数据库系统的所述至少一个测试元素中获取一个第二查询结果;
根据所述第一查询结果和所述第二查询结果,计算所述被测系统的查全率。

2.  根据权利要求1所述的方法,其特征在于,所述获取被测系统中的至少一个测试元素,以及存储于数据库系统的所述至少一个测试元素包括:
获取被测系统中的至少一个测试元素;
转换所述测试元素的存储类型,生成适合数据库系统存储的测试元素;
将所述适合数据库存储的至少一个测试元素存储于数据库系统中。

3.  根据权利要求1所述的方法,其特征在于,所述根据所述至少一个测试元素,创建至少一个查询关键词及其扩展关键词包括:
根据至少一个测试元素,收集至少一个查询的常用关键词;
排除所述查询的常用关键词中的相关性词语,确定查询关键词,所述相关性词语包括同义词和近义词;
获取每个所述查询关键词的同义词,确定所述查询关键词的扩展关键词。

4.  根据权利要求1所述的方法,其特征在于,所述根据每个所述查询关键词及其扩展关键词,对应从所述被测系统中的至少一个测试元素中获取一个第一查询结果,对应从所述存储于数据库系统的所述至少一个测试元素中获取一个第二查询结果包括:
根据每个查询关键词及其扩展关键词,对被测系统中的至少一个测试元素进行查询,对应获取与所述查询关键词及其扩展关键词匹配的测试元素,所述匹配的测试元素的个数记为第一查询结果;
根据每个查询关键词及其扩展关键词,对存储于数据库系统的所述至少一个测试元素进行查询,对应获取与所述查询关键词及其扩展关键词匹配的测试元素,所述匹配的测试元素的个数记为第二查询结果。

5.  根据权利要求4所述的方法,其特征在于,所述根据所述第一查询结果和所述第二查询结果,计算所述被测系统的查全率包括:
计算每个查询关键词及其扩展关键词对应的查全率 ,其中表示第个查询关键词及其扩展关键词对应的第一查询结果,表示第个查询关键词及其扩展关键词对应的第二查询结果;
计算被测系统的平均查全率,其中表示所述查询关键词的总个数。

6.  一种装置,其特征在于,所述装置包括:
获取单元,用于获取被测系统中的至少一个测试元素,以及存储于数据库系统的所述至少一个测试元素;
创建单元,用于根据所述至少一个测试元素,创建至少一个查询关键词及其扩展关键词;
查询单元,用于根据每个所述查询关键词及其扩展关键词,对应从所述被测系统中的至少一个测试元素中获取一个第一查询结果,对应从所述存储于数据库系统的所述至少一个测试元素中获取一个第二查询结果;
计算单元,用于根据所述第一查询结果和所述第二查询结果,计算所述被测系统的查全率。

7.  根据权利要求6所述的装置, 其特征在于,所述获取单元具体用于:
获取被测系统中的至少一个测试元素;
转换所述测试元素的存储类型,生成适合数据库系统存储的测试元素;
将所述适合数据库存储的至少一个测试元素存储于数据库系统中。

8.  根据权利要求6所述的装置, 其特征在于,所述创建单元具体用于:
根据至少一个测试元素,收集至少一个查询的常用关键词;
排除所述查询的常用关键词中的相关性词语,确定查询关键词,所述相关性词语包括同义词和近义词;
获取每个所述查询关键词的同义词,确定所述查询关键词的扩展关键词。

9.  根据权利要求6所述的装置, 其特征在于,所述查询单元具体用于:
根据每个查询关键词及其扩展关键词,对被测系统中的至少一个测试元素进行查询,对应获取与所述查询关键词及其扩展关键词匹配的测试元素,所述匹配的测试元素的个数记为第一查询结果;
根据每个查询关键词及其扩展关键词,对存储于数据库系统的所述至少一个测试元素进行查询,对应获取与所述查询关键词及其扩展关键词匹配的测试元素,所述匹配的测试元素的个数记为第二查询结果。

10.  根据权利要求9所述的装置, 其特征在于,所述计算单元具体用于:
计算每个查询关键词及其扩展关键词对应的查全率,其中表示第个查询关键词及其扩展关键词对应的第一查询结果,表示第个查询关键词及其扩展关键词对应的第二查询结果;
计算被测系统的平均查全率,其中表示所述查询关键词的总个数。

说明书

说明书一种计算全文检索查全率的方法及装置
技术领域
本发明涉及计算机软件测试技术领域,具体涉及一种计算全文检索查全率的方法及装置。
背景技术
信息时代产生了大量数字信息,其中文本信息是最基本和常用的一种形式。为了能在海量的文本信息中找到自己的所需,人们迫切需要一个高效的检索工具,因此全文检索技术成为国内外学者研究的热点。全文检索(Full-text Retrieval)技术起源于20世纪50年代末,以各类数据为处理对象,提供依照数据资料的内容而不是外在特征来实现的信息检索手段,其主旨在于将与用户查询最相关的结果最先呈现给用户,提高用户体验,典型应用如各类搜索引擎。
随着大数据时代的到来及互联网的兴起,全文检索技术与云计算、分布式等技术相结合,提供基于海量数据的即时查询,得到广泛的应用。当前与全文检索相关的研究大都集中在如何提高排序靠前数据的相关性方面,现有自然语言的切词方面会舍弃一些虚词等以提高索引效率,其结果将会导致部分数据失真。
目前,搜索引擎主要针对提高普通的使用自然语言的用户体验,但是应用于一些比较反常规的领域,如国安、情报等领域,就会导致部分信息不能出现在结果集中,而且对查全率的计算并没有一种有效可靠的方法。当前全文检索的查全率一般是通过估算方式给出,与实际有较大偏差,不能准确评价被测系统。因此需要建立一种准确的计算全文检索查全率的方法,为系统改进提供依据。
发明内容
本发明提供一种计算全文检索查全率的方法及装置,以解决现有技术中有效且可操作的计算全文检索查全率的方法的缺失问题。
第一方面,本发明实施例公开了一种计算全文检索查全率的方法,该方法包括:
获取被测系统中的至少一个测试元素,以及存储于数据库系统的所述至少一个测试元素;
根据所述至少一个测试元素,创建至少一个查询关键词及其扩展关键词;
根据每个所述查询关键词及其扩展关键词,对应从所述被测系统中的至少一个测试元素中获取一个第一查询结果,对应从所述存储于数据库系统的所述至少一个测试元素中获取一个第二查询结果;
根据所述第一查询结果和所述第二查询结果,计算所述被测系统的查全率。
结合第一方面,在第一种可能的实现方式中,所述获取被测系统中的至少一个测试元素,以及存储于数据库系统的所述至少一个测试元素包括:
获取被测系统中的至少一个测试元素;
转换所述测试元素的存储类型,生成适合数据库系统存储的测试元素;
将所述适合数据库存储的至少一个测试元素存储于数据库系统中。
结合第一方面,在第二种可能的实现方式中,所述根据所述至少一个测试元素,创建至少一个查询关键词及其扩展关键词包括:
根据至少一个测试元素,收集至少一个查询的常用关键词;
排除所述查询的常用关键词中的相关性词语,确定查询关键词,所述相关性词语包括同义词和近义词;
获取每个所述查询关键词的同义词,确定所述查询关键词的扩展关键词。
结合第一方面,在第三种可能的实现方式中,所述根据每个所述查询关键词及其扩展关键词,对应从所述被测系统中的至少一个测试元素中获取一个第一查询结果,对应从所述存储于数据库系统的所述至少一个测试元素中获取一个第二查询结果包括:
根据每个查询关键词及其扩展关键词,对被测系统中的至少一个测试元素进行查询,对应获取与所述查询关键词及其扩展关键词匹配的测试元素,所述匹配的测试元素的个数记为第一查询结果;
根据每个查询关键词及其扩展关键词,对存储于数据库系统的所述至少一个测试元素进行查询,对应获取与所述查询关键词及其扩展关键词匹配的测试元素,所述匹配的测试元素的个数记为第二查询结果。
结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述根据所述第一查询结果和所述第二查询结果,计算所述被测系统的查全率包括:
计算每个查询关键词及其扩展关键词对应的查全率                                                ,其中表示第个查询关键词及其扩展关键词对应的第一查询结果,表示第个查询关键词及其扩展关键词对应的第二查询结果;
计算被测系统的平均查全率,其中表示所述查询关键词的总个数。
第二方面,本发明实施例提供一种装置,所述装置包括:
获取单元,用于获取被测系统中的至少一个测试元素,以及存储于数据库系统的所述至少一个测试元素;
创建单元,用于根据所述至少一个测试元素,创建至少一个查询关键词及其扩展关键词;
查询单元,用于根据每个所述查询关键词及其扩展关键词,对应从所述被测系统中的至少一个测试元素中获取一个第一查询结果,对应从所述存储于数据库系统的所述至少一个测试元素中获取一个第二查询结果;
计算单元,用于根据所述第一查询结果和所述第二查询结果,计算所述被测系统的查全率。
结合第二方面,在第一种可能的实现方式中,所述获取单元具体用于:
获取被测系统中的至少一个测试元素;
转换所述测试元素的存储类型,生成适合数据库系统存储的测试元素;
将所述适合数据库存储的至少一个测试元素存储于数据库系统中。
结合第二方面,在第二种可能的实现方式中,所述创建单元具体用于:
根据至少一个测试元素,收集至少一个查询的常用关键词;
排除所述查询的常用关键词中的相关性词语,确定查询关键词,所述相关性词语包括同义词和近义词;
获取每个所述查询关键词的同义词,确定所述查询关键词的扩展关键词。
结合第二方面,在第三种可能的实现方式中,所述查询单元具体用于:
根据每个查询关键词及其扩展关键词,对被测系统中的至少一个测试元素进行查询,对应获取与所述查询关键词及其扩展关键词匹配的测试元素,所述匹配的测试元素的个数记为第一查询结果;
根据每个查询关键词及其扩展关键词,对存储于数据库系统的所述至少一个测试元素进行查询,对应获取与所述查询关键词及其扩展关键词匹配的测试元素,所述匹配的测试元素的个数记为第二查询结果。
结合第二方面的第三种可能的实现方式,在第四种可能的实现方式中,所述计算单元具体用于:
计算每个查询关键词及其扩展关键词对应的查全率,其中表示第个查询关键词及其扩展关键词对应的第一查询结果,表示第个查询关键词及其扩展关键词对应的第二查询结果;
计算被测系统的平均查全率,其中表示所述查询关键词的总个数。
本发明实施例提供的计算全文查全率的方法计算出的查全率是相对数据库系统查全率的对比值,在数据库系统查全率一定的情况下,与数据库系统查全率成正比关系。相比其他以估算方式给出查全率的方法,本发明的查全结果更有效且更具有操作性,在实际使用过程中提供有效的改进依据。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种计算全文检索查全率的方法流程图;
图2为本发明实施例提供的另一种计算全文检索查全率的方法流程图;
图3为本发明实施例提供的一种计算全文检索查全率的装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供一种计算全文检索查全率的方法,参照图1所示,该方法包括:
101、获取被测系统中的至少一个测试元素,以及存储于数据库系统的至少一个测试元素;
102、根据至少一个测试元素,创建至少一个查询关键词及其扩展关键词;
103、根据每个查询关键词及其扩展关键词,对应从被测系统中的至少一个测试元素中获取一个第一查询结果,对应从存储于数据库系统的至少一个测试元素中获取一个第二查询结果;
104、根据第一查询结果和第二查询结果,计算被测系统的查全率。
本发明实施例提供的方法计算出的查全率是相对数据库系统查全率的对比值,在数据库系统查全率一定的情况下,与数据库系统查全率成正比关系。相比其他以估算方式给出查全率的方法,本发明的查全结果更有效且更具有操作性,在实际使用过程中提供有效的改进依据。
本发明实施例提供一种计算全文检索查全率的方法,参照图2所示,该方法包括:
201、获取被测系统中的至少一个测试元素;
具体地,由于在数据库系统查询过程中使用模糊匹配或者正则表达式匹配方式,再综合考虑测试元素的数据大小与查询效率,测试元素的较佳数量应介于100万到1000万之间。
202、转换测试元素的存储类型,生成适合数据库系统存储的测试元素;
具体地,根据获取的测试元素在被测系统中的记录结构,对其存储类型进行切分合并的方式进行转换,生成适合数据库系统存储的数据类型、并且与被测系统中的记录结构一一对应。对超出数据库系统单个字段限制的测试元素进行拆分,拆分后通过同一ID标识的方式在逻辑上进行一一对应。
203、将适合数据库存储的至少一个测试元素存储于数据库系统中;
具体地,将经过存储类型转换生成的适合数据库系统存储的测试元素导入数据库系统中,并通过使用SQL Load的方式提高导入效率。数据库系统中的数据表(test_data)示例如下表1所示:
表1 数据表

其中,表中ID为连续的自然数。
204、根据至少一个测试元素,收集至少一个查询的常用关键词;
具体地,通过调查问卷或被测系统的日志统计情况的方式,收集被测系统所在领域查询的常用关键词。
205、排除查询的常用关键词中的相关性词语,确定查询关键词,其中相关性词语包括同义词和近义词;
具体地,为保证查询结果的覆盖率,收集的查询的常用关键词中应排除包括同义词和近义词在内的相关性词语,最终确定的查询关键词应不少于50个。构造的数据库系统中的关键词表(t_keyword)示例如下表2所示:
表2 关键词表

其中,表中ID为连续的自然数。
206、获取每个查询关键词的同义词,确定查询关键词的扩展关键词;
具体地,根据实际业务需要对每个查询关键词进行扩展。如:利用支持同义词检索的系统,创建扩展词库,将每个查询关键词的同义词加入扩展词库,通过ID与查询关键词进行对应。此步骤需要本领域的业务专家根据工作中的实际情况给出。构造的数据库系统中的同义词表 (T_synonym) 示例如下表3所示:
表3  同义词表

207、根据每个查询关键词及其扩展关键词,对被测系统中的至少一个测试元素进行查询,对应获取与查询关键词及其扩展关键词匹配的测试元素,匹配的测试元素的个数记为第一查询结果;
具体地,使用每个查询关键词及其扩展关键词同时在被测系统中对获取的测试元素进行查询。例如:查询关键词“维生素C”,有两个扩展关键词“维他命C”和“抗坏血酸”,则在查询过程中要同时对“维生素C”、“维他命C”和“抗坏血酸”三个词语在被测系统中进行匹配查询。
所有查询关键词及其扩展关键词的查询得到的匹配的测试元素的个数记为第一查询结果,其结果集合记录为,其中为第个查询关键词及其扩展关键词的查询结果。
208、根据每个查询关键词及其扩展关键词,对存储于数据库系统的至少一个测试元素进行查询,对应获取与查询关键词及其扩展关键词匹配的测试元素,匹配的测试元素的个数记为第二查询结果;
具体地,使用每个查询关键词及其扩展关键词同时在数据库系统中对测试元素进行查询。具体查询原则请参照被测系统中的查询原则,在此不再赘述。
所有查询关键词及其扩展关键词的查询得到的匹配的测试元素的个数记为第二查询结果,其结果集合记录为},其中为第个查询关键词及其扩展关键词的查询结果。
209、计算每个查询关键词及其扩展关键词对应的查全率
,其中表示第个查询关键词及其扩展关键词对应的第一查询结果,表示第个查询关键词及其扩展关键词对应的第二查询结果;
210、计算被测系统的平均查全率
,其中表示所述查询关键词的总个数。
本发明实施例提供的方法计算出的查全率是相对数据库系统查全率的对比值,在数据库系统查全率一定的情况下,与数据库系统查全率成正比关系。相比其他以估算方式给出查全率的方法,本发明计算的查全结果更有效且更具有操作性,在实际使用过程中提供有效的改进依据。
本发明实施例还提供一种装置3,参照图3所示,该装置3包括:
获取单元31,用于获取被测系统中的至少一个测试元素,以及存储于数据库系统的至少一个测试元素;
创建单元32,用于根据至少一个测试元素,创建至少一个查询关键词及其扩展关键词;
查询单元33,用于根据每个查询关键词及其扩展关键词,对应从被测系统中的至少一个测试元素中获取一个第一查询结果,对应从存储于数据库系统的至少一个测试元素中获取一个第二查询结果;
计算单元34,用于根据第一查询结果和所述第二查询结果,计算被测系统的查全率。
优选地,获取单元31具体用于:
获取被测系统中的至少一个测试元素;
转换测试元素的存储类型,生成适合数据库系统存储的测试元素;
将适合数据库存储的至少一个测试元素存储于数据库系统中。
优选地,创建单元32具体用于:
根据至少一个测试元素,收集至少一个查询的常用关键词;
排除查询的常用关键词中的相关性词语,确定查询关键词,相关性词语包括同义词和近义词;
获取每个查询关键词的同义词,确定查询关键词的扩展关键词。
优选地,查询单元33具体用于:
根据每个查询关键词及其扩展关键词,对被测系统中的至少一个测试元素进行查询,对应获取与查询关键词及其扩展关键词匹配的测试元素,匹配的测试元素的个数记为第一查询结果;
根据每个查询关键词及其扩展关键词,对存储于数据库系统的至少一个测试元素进行查询,对应获取与查询关键词及其扩展关键词匹配的测试元素,匹配的测试元素的个数记为第二查询结果。
优选地,计算单元34具体用于:
计算每个查询关键词及其扩展关键词对应的查全率
,其中表示第个查询关键词及其扩展关键词对应的第一查询结果,表示第个查询关键词及其扩展关键词对应的第二查询结果;
计算被测系统的平均查全率
,其中表示所述查询关键词的总个数。
本发明实施例提供一种计算全文检索查全率的装置,计算出的查全率是相对数据库系统查全率的对比值,在数据库系统查全率一定的情况下,与数据库系统查全率成正比关系。相比其他以估算方式给出查全率的方法,本发明计算的查全结果更有效且更具有操作性,在实际使用过程中提供有效的改进依据。
需要说明的是:上述实施例提供的装置在实现一种计算全文检索查全率的方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将该装置内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的计算全文检索查全率的方法与装置实施例属于同一发明构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明中所述的被测系统是包括全文检索系统在内的所有的以提供信息服务为主要目的计算机应用系统。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

一种计算全文检索查全率的方法及装置.pdf_第1页
第1页 / 共13页
一种计算全文检索查全率的方法及装置.pdf_第2页
第2页 / 共13页
一种计算全文检索查全率的方法及装置.pdf_第3页
第3页 / 共13页
点击查看更多>>
资源描述

《一种计算全文检索查全率的方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种计算全文检索查全率的方法及装置.pdf(13页珍藏版)》请在专利查询网上搜索。

本发明提供一种计算全文检索查全率的方法及装置,属于计算机软件测试技术领域,以解决现有技术中有效且可操作的计算全文检索查全率的方法的缺失问题。本发明提供的方法计算出的查全率是相对数据库系统查全率的对比值,在数据库系统查全率一定的情况下,与数据库系统查全率成正比关系。相比其他以估算方式给出查全率的方法,本发明的查全结果更有效且更具有操作性,在实际使用过程中提供有效的改进依据。。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1