《一种搜索结果相关性评测方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种搜索结果相关性评测方法及装置.pdf(12页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103838764 A (43)申请公布日 2014.06.04 CN 103838764 A (21)申请号 201210486725.7 (22)申请日 2012.11.26 G06F 17/30(2006.01) (71)申请人 深圳市世纪光速信息技术有限公司 地址 518057 广东省深圳市南山区粤海街道 科技中一路腾讯大厦 16 层 (72)发明人 宁合军 曹越 柳睿 黎俊 周畅 (74)专利代理机构 上海波拓知识产权代理有限 公司 31264 代理人 杨波 (54) 发明名称 一种搜索结果相关性评测方法及装置 (57) 摘要 本发明涉及一种搜索结果相关性评。
2、测方法及 装置, 该搜索结果相关性评测方法包括 : 设定搜 索结果的标准对象、 评测对象和评测关键词 ; 根 据评测关键词获得标准对象、 评测对象的搜索结 果 ; 根据标准对象、 评测对象的搜索结果计算评 测对象与标准对象间的相关性差异度。本发明实 施例的搜索结果相关性评测方法及装置实现了由 机器对于不同环境对象间搜索结果进行差异度的 监控, 评测准确以及能配置各种对象、 对不同情况 进行评测。 (51)Int.Cl. 权利要求书 2 页 说明书 7 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书7页 附图2页 (10)申请公布号 CN 1。
3、03838764 A CN 103838764 A 1/2 页 2 1. 一种搜索结果相关性评测方法, 包括 : 设定搜索结果的标准对象、 评测对象和评测关键词 ; 根据评测关键词获得标准对象、 评测对象的搜索结果 ; 根据标准对象、 评测对象的搜索结果计算评测对象与标准对象间的相关性差异度。 2. 根据权利要求 1 所述的搜索结果相关性评测方法, 其特征在于, 所述根据标准对象、 评测对象的搜索结果计算评测对象与标准对象间的相关性差异度步骤中, 采用归一化折损 累积增益进行评测对象与标准对象间的相关性差异度计算。 3. 根据权利要求 2 所述的搜索结果相关性评测方法, 其特征在于, 所述采用。
4、归一化折 损累积增益计算评测对象与标准对象间的相关性差异度为 : 根据评测对象的位置权重在位 置调整后的差值的绝对值和当前结果位置得到评测对象结果得分, 根据标准对象的位置权 重和和当前结果位置得到标准对象结果得分, 评测对象结果得分与标准对象结果得分之比 值作为评测对象与标准对象间的相关性差异度结果。 4. 根据权利要求 1 所述的搜索结果相关性评测方法, 其特征在于, 所述根据标准对象、 评测对象的搜索结果计算评测对象与标准对象间的相关性差异度步骤后还包括 : 判断评测 对象与标准对象间的相关性差异度是否大于设定的阈值, 所述评测对象与标准对象间的相 关性差异度大于设定的阈值, 对评测对象。
5、与标准对象的相关性差异度进行校验及判断, 得 出会影响搜索结果排序的改动因素。 5. 根据权利要求 4 所述的搜索结果相关性评测方法, 其特征在于, 所述评测对象与标 准对象间的相关性差异度小于设定的阈值, 提示搜索结果相关性符合预定的标准。 6. 一种搜索结果相关性评测装置, 包括 : 设定模块 : 用于设定搜索结果的标准对象、 评测对象和评测关键词 ; 结果获取模块 : 用于根据评测关键词获得标准对象、 评测对象的搜索结果 ; 相关性差异度计算模块 : 用于根据标准对象、 评测对象的搜索结果计算评测对象与标 准对象间的相关性差异度。 7. 根据权利要求 6 所述的搜索结果相关性评测装置, 。
6、其特征在于, 所述相关性差异度 计算模块采用归一化折损累积增益进行评测对象与标准对象间的相关性差异度计算。 8. 根据权利要求 7 所述的搜索结果相关性评测装置, 其特征在于, 所述相关性差异度 计算模块采用归一化折损累积增益计算评测对象与标准对象间的相关性差异度为 : 根据评 测对象的位置权重在位置调整后的差值的绝对值和当前结果位置得到评测对象结果得分, 根据标准对象的位置权重和和当前结果位置得到标准对象结果得分, 评测对象结果得分与 标准对象结果得分之比值作为评测对象与标准对象间的相关性差异度结果。 9. 根据权利要求 6 或 7 所述的搜索结果相关性评测装置, 其特征在于, 还包括校验模。
7、 块, 所述校验模块用于对评测对象与标准对象的相关性差异度进行校验及判断, 得出会影 响搜索结果排序的改动因素。 10. 根据权利要求 9 所述的搜索结果相关性评测装置, 其特征在于, 还包括提示模块, 所述提示模块用于提示搜索结果相关性符合预定的标准。 11. 根据权利要求 9 所述的搜索结果相关性评测装置, 其特征在于, 还包括判断模块, 所述判断模块用于判断评测对象与标准对象间的相关性差异度是否大于设定的阈值, 如果 评测对象与标准对象间的相关性差异度大于设定的阈值, 则通过校验模块进行校验, 如果 权 利 要 求 书 CN 103838764 A 2 2/2 页 3 评测对象与标准对象。
8、间的相关性差异度没有大于设定的阈值, 则通过提示模块给出提示。 权 利 要 求 书 CN 103838764 A 3 1/7 页 4 一种搜索结果相关性评测方法及装置 技术领域 0001 本发明涉及搜索技术领域, 特别是涉及一种搜索结果相关性评测方法及装置。 背景技术 0002 搜索引擎技术门槛高, 调整搜索结果排序相关性至理想状态难度较大。新数据 源的引入、 搜索算法的调整、 及其他特殊处理都可能会对搜索结果排序相关性产生较大 的影响, 但是这些影响不一定符合预期的需求。现有技术中通常采用 DCG(Discounted cumulative gain, 递减累积增益) 来对搜索结果进行评测,。
9、 DCG 是一个衡量搜索引擎算法的 指标, 使用 DCG 公式在带入当前产品定义的位置权重时, 会有分母 log 值为 0 的情况, 造成 某些计算上的难题, 若分母为 0 的情况下认为当前 i 项值为 0, 则会造成某些特殊排序变化 间得分相同, 因此使用递减累积增益方式对搜索结果进行评测不准确, 另外, 使用递减累积 增益方式无法随时灵活的配置各种对象, 对不同情况进行评测对比。 发明内容 0003 本发明的目的在于, 提供一种新的搜索结果相关性评测方法及装置, 以解决现有 的搜索评测方式评测不准确以及不能配置各种对象、 对不同情况进行评测的问题。 0004 本发明的目的及解决其技术问题是。
10、采用以下技术方案来实现的。 0005 本发明提供一种搜索结果相关性评测方法, 包括 : 0006 设定搜索结果的标准对象、 评测对象和评测关键词 ; 0007 根据评测关键词获得标准对象、 评测对象的搜索结果 ; 0008 根据标准对象、 评测对象的搜索结果计算评测对象与标准对象间的相关性差异 度。 0009 本发明还提供一种搜索结果相关性评测装置, 包括 : 0010 设定模块 : 用于设定搜索结果的标准对象、 评测对象和评测关键词 ; 0011 结果获取模块 : 用于根据评测关键词获得标准对象、 评测对象的搜索结果 ; 0012 相关性差异度计算模块 : 用于根据标准对象、 评测对象的搜索。
11、结果计算评测对象 与标准对象间的相关性差异度。 0013 本发明的技术方案具有如下优点或有益效果 : 本发明实施例的搜索结果相关性评 测方法及装置通过设定搜索结果的标准对象、 评测对象, 并根据标准对象、 评测对象的搜索 结果计算评测对象与标准对象间的相关性差异度, 实现了由机器对于不同环境对象间搜索 结果进行差异度的监控, 评测准确以及能配置各种对象、 对不同情况进行评测, 另外, 对于 差异度较大的情况进行校验及判断, 得出各种会影响搜索结果排序的后台改动的因素及问 题, 确保改动的合理性。 0014 上述说明仅是本发明技术方案的概述, 为了能够更清楚了解本发明的技术手段, 而可依照说明书。
12、的内容予以实施, 并且为了让本发明的上述和其他目的、 特征和优点能够 更明显易懂, 以下特举较佳实施例, 并配合附图 , 详细说明如下。 说 明 书 CN 103838764 A 4 2/7 页 5 附图说明 0015 图 1 为本发明第一实施例的搜索结果相关性评测方法的流程示意图 ; 0016 图 2 为本发明第二实施例的搜索结果相关性评测方法的流程示意图 ; 0017 图 3 为本发明第一实施例的搜索结果相关性评测装置的结构示意图 ; 0018 图 4 为本发明第二实施例的搜索结果相关性评测装置的结构示意图。 具体实施方式 0019 为更进一步阐述本发明为达成预定发明目的所采取的技术手段及。
13、功效 , 以下结 合附图及较佳实施例, 对依据本发明提出的搜索结果相关性评测方法及装置其具体实施方 式、 方法、 步骤、 结构、 特征及其功效, 详细说明如下。 0020 有关本发明的前述及其他技术内容、 特点及功效 , 在以下配合参考图式的较佳实 施例的详细说明中将可清楚呈现。通过具体实施方式的说明 , 当可对本发明为达成预定目 的所采取的技术手段及功效得以更加深入且具体的了解, 然而所附图式仅是提供参考与说 明之用 , 并非用来对本发明加以限制。 0021 图1为本发明第一实施例的搜索结果相关性评测方法的流程示意图。 如图1所示, 本发明第一实施例的搜索结果相关性评测方法包括 : 0022。
14、 步骤 100 : 设定搜索结果的标准对象、 评测对象和评测关键词 ; 0023 在步骤 100 中, 本发明第一实施例的搜索结果相关性评测方法可以应用在环境间 的相关性评测, 可以设置任意环境为标准对象或评测对象, 对不同环境进行自由评测比对, 例如设置线上环境为标准对象, 测试环境为被评测对象, 则线上环境的搜索结果排序为标 准排序, 并对测试环境进行评测 ; 本发明第一实施例的搜索结果相关性评测方法也可以应 用在任意环境中产品人员定制的理想搜索结果排序评测, 可以自由定制任意关键词的理想 搜索结果排序, 并以此为标准对象结果, 并选择任何其他环境作为被评测对象与之对比评 测。 0024 。
15、步骤 110 : 根据评测关键词获得标准对象、 评测对象的搜索结果 ; 0025 在步骤 110 中, 可以根据需求, 将标准对象的搜索结果排序为满分, 进行对评测对 象搜索结果排序相关性的打分。 0026 步骤 120 : 根据标准对象、 评测对象的搜索结果计算评测对象与标准对象间的相 关性差异度。 0027 在步骤 120 中, 计算评测对象与标准对象间的相关性差异度的方式为改良型 NDCG (normalized discounted cumulative gain, 归一化折损累积增益) , 其具体为 : 0028 错误!未找到引用源。代表标准对象结果总得分 ; 0029 代表评测对象。
16、结果总得分 ; 0030 代表评测对象得分作为分子, 标准对象作为分母, 以计算评测对 象的得分占比情况, 分数越低说明差异度越大 ; 0031 其中, 差异度计算公式中计算因子i代表当前结果位置 ; 错误!未找到引用源。 代 说 明 书 CN 103838764 A 5 3/7 页 6 表位置权重, 以下为标准对象结果位置所对应的默认权重得分 ; f(i) 表示评测对象的第 i 条在标准结果中的位置, relf(i)代表评测对象的第 i 条结果的权重。 0032 各计算因子计算实例 : 0033 0034 0035 0036 SCORE 11.113.2 0.84 0037 本发明第一实施例。
17、的搜索结果相关性评测方法中, 修改了DCG的计算公式, 用i替 代 logi 以避免 log 值为 0 的情况。评测对象中的 f(i) 表示评测对象的第 i 条结果在标准 对象搜索中的位置, relf(i)代表评测对象的第 i 条结果的权重, 如果不存在, 则 relf(i)值按 0 计算。 0038 图2为本发明第二实施例的搜索结果相关性评测方法的流程示意图。 如图2所示, 本发明第二实施例的搜索结果相关性评测方法包括 : 0039 步骤 200 : 设定搜索结果的标准对象、 评测对象和评测关键词 ; 0040 在步骤 200 中, 本发明第二实施例的搜索结果相关性评测方法可以应用在环境间 。
18、的相关性评测, 可以设置任意环境为标准对象或评测对象, 对不同环境进行自由评测比对, 例如设置线上环境为标准对象, 测试环境为被评测对象, 则线上环境的搜索结果排序为标 准排序, 并对测试环境进行评测 ; 本发明第二实施例的搜索结果相关性评测方法也可以应 用在任意环境中产品人员定制的理想搜索结果排序评测, 可以自由定制任意关键词的理想 搜索结果排序, 并以此为标准对象结果, 并选择任何其他环境作为被评测对象与之对比评 测。 0041 步骤 210 : 根据评测关键词获得标准对象、 评测对象的搜索结果 ; 0042 在步骤 210 中, 可以用标准对象的搜索结果排序为满分, 进行对评测对象搜索结。
19、 果排序相关性的打分。 0043 步骤 220 : 根据标准对象、 评测对象的搜索结果计算评测对象与标准对象间的相 关性差异度。 0044 在步骤 220 中, 计算评测对象与标准对象间的相关性差异度的方式为改良型 NDCG (normalized discounted cumulative gain, 归一化折损累积增益) , 其具体为 : 说 明 书 CN 103838764 A 6 4/7 页 7 0045 代表标准对象结果总得分 ; 0046 错误!未找到引用源。代表评测对象结果总得分 ; 0047 代表评测对象得分作为分子, 标准对象作为分母, 以计算评测对 象的得分占比情况, 分数。
20、越低说明差异度越大 ; 0048 其中, 差异度计算公式中计算因子i代表当前结果位置 ; 错误!未找到引用源。 代 表位置权重, 以下为标准对象结果位置所对应的默认权重得分 ; f(i) 表示评测对象的第 i 条在标准结果中的位置, relf(i)代表评测对象的第 i 条结果的权重。 0049 各计算因子计算实例 : 0050 0051 0052 0053 SCORE 11.113.2 0.84 0054 本发明第二实施例的搜索结果相关性评测方法中, 修改了DCG的计算公式, 用i替 代 logi 以避免 log 值为 0 的情况。评测对象中的 f(i) 表示评测对象的第 i 条结果在标准 对。
21、象搜索中的位置, relf(i)代表评测对象的第 i 条结果的权重, 如果不存在, 则 relf(i)值按 0 计算。 0055 步骤 230 : 判断评测对象与标准对象间的相关性差异度是否大于设定的阈值, 如 果评测对象与标准对象间的相关性差异度大于设定的阈值 ( 如阈值为 0.80), 则进入步骤 240, 如果评测对象与标准对象间的相关性差异度没有大于设定的阈值 ( 如阈值为 0.90), 则进入步骤 250 ; 0056 在步骤 230 中, 设定的阈值可以根据用户的需求以及搜索结果相关性的场景进行 动态调整。 0057 步骤 240 : 对评测对象与标准对象的相关性差异度进行校验及判。
22、断, 得出会影响 搜索结果排序的改动因素。 0058 步骤 250 : 提示搜索结果相关性符合预定的标准。 0059 图 3 为本发明第一实施例的搜索结果相关性评测装置的结构示意图。如图 3 所 示, 本发明第一实施例的搜索结果相关性评测装置包括设定模块 10、 结果获取模块 20 和相 关性差异度计算模块 30。 说 明 书 CN 103838764 A 7 5/7 页 8 0060 设定模块 10 用于设定搜索结果的标准对象、 评测对象和评测关键词。本发明第一 实施例的搜索结果相关性评测装置可以作为环境间的相关性评测工具, 可以设置任意环境 为标准对象或评测对象, 对不同环境进行自由评测比。
23、对, 例如设置线上环境为标准对象, 测 试环境为被评测对象, 则线上环境的搜索结果排序为标准排序, 并对测试环境进行评测 ; 本 发明第一实施例的搜索结果相关性评测装置也可以作为在任意环境中产品人员定制的理 想搜索结果排序评测工具, 可以自由定制任意关键词的理想搜索结果排序, 并以此为标准 对象结果, 并选择任何其他环境作为被评测对象与之对比评测。 0061 结果获取模块 20 用于根据评测关键词获得标准对象、 评测对象的搜索结果 ; 其 中, 可以用标准对象的搜索结果排序为满分, 进行对评测对象搜索结果排序相关性的打分。 0062 相关性差异度计算模块 30 用于根据标准对象、 评测对象的搜。
24、索结果计算评测对 象与标准对象间的相关性差异度。 0063 相关性差异度计算模块 30 计算评测对象与标准对象间的相关性差异度的方式为 改良型 NDCG(normalized discounted cumulative gain, 归一化折损累积增益) , 其具体 为 : 0064 错误!未找到引用源。代表标准对象结果总得分 ; 0065 错误!未找到引用源。代表评测对象结果总得分 ; 0066 代表评测对象得分作为分子, 标准对象作为分母, 以计算评测对 象的得分占比情况, 分数越低说明差异度越大 ; 0067 其中, 差异度计算公式中计算因子i代表当前结果位置 ; 错误!未找到引用源。 代。
25、 表位置权重, 以下为标准对象结果位置所对应的默认权重得分 ; f(i) 表示评测对象的第 i 条在标准结果中的位置, relf(i)代表评测对象的第 i 条结果的权重。 0068 各计算因子计算实例 : 0069 0070 本发明第一实施例的搜索结果相关性评测装置中, 修改了DCG的计算公式, 用i替 代 logi 以避免 log 值为 0 的情况。评测对象中的 f(i) 表示评测对象的第 i 条结果在标准 对象搜索中的位置, relf(i)代表评测对象的第 i 条结果的权重, 如果不存在, 则 relf(i)值按 0 计算。 0071 图4为本发明第二实施例的搜索结果相关性评测装置的结构示。
26、意图。 如图4所示, 本发明第二实施例的搜索结果相关性评测装置包括设定模块 10、 搜索结果获取模块 20、 相 关性差异度计算模块 30、 判断模块 40、 校验模块 50 和提示模块 60。 说 明 书 CN 103838764 A 8 6/7 页 9 0072 设定模块 10 用于设定搜索结果的标准对象、 评测对象和评测关键词 ; 其中, 本发 明第二实施例的搜索结果相关性评测装置可以应用在环境间的相关性评测, 可以设置任意 环境为标准对象或评测对象, 对不同环境进行自由评测比对, 例如设置线上环境为标准对 象, 测试环境为被评测对象, 则线上环境的搜索结果排序为标准排序, 并对测试环境。
27、进行评 测 ; 本发明第二实施例的搜索结果相关性评测装置也可以应用在任意环境中产品人员定制 的理想搜索结果排序评测, 可以自由定制任意关键词的理想搜索结果排序, 并以此为标准 对象结果, 并选择任何其他环境作为被评测对象与之对比评测。 0073 搜索结果获取模块 20 用于根据评测关键词获得标准对象、 评测对象的搜索结果 ; 其中, 可以用标准对象的搜索结果排序为满分, 进行对评测对象搜索结果排序相关性的打 分。 0074 相关性差异度计算模块 30 用于根据标准对象、 评测对象的搜索结果计算评测对 象与标准对象间的相关性差异度。 0075 相关性差异度计算模块 30 计算评测对象与标准对象间。
28、的相关性差异度的方式为 改良型 NDCG(normalized discounted cumulative gain, 归一化折损累积增益) , 其具体 为 : 0076 错误!未找到引用源。代表标准对象结果总得分 ; 0077 错误!未找到引用源。代表被评测对象结果总得分 ; 0078 代表评测对象得分作为分子, 标准对象作为分母, 以计算评测对 象的得分占比情况, 分数越低说明差异度越大 ; 0079 其中, 差异度计算公式中计算因子i代表当前结果位置 ; 错误!未找到引用源。 代 表位置权重, 以下为标准对象结果位置所对应的默认权重得分 ; f(i) 表示评测对象的第 i 条在标准结果中。
29、的位置, relf(i)代表评测对象的第 i 条结果的权重。 0080 各计算因子计算实例 : 0081 0082 0083 本发明第二实施例的搜索结果相关性评测装置中, 修改了DCG的计算公式, 用i替 代 logi 以避免 log 值为 0 的情况。评测对象中的 f(i) 表示评测对象的第 i 条结果在标准 对象搜索中的位置, relf(i)代表评测对象的第 i 条结果的权重, 如果不存在, 则 relf(i)值按 0 计算。 0084 判断模块 40 用于判断评测对象与标准对象间的相关性差异度是否大于设定的阈 值, 如果评测对象与标准对象间的相关性差异度大于设定的阈值, 则通过校验模块进。
30、行校 说 明 书 CN 103838764 A 9 7/7 页 10 验, 如果评测对象与标准对象间的相关性差异度没有大于设定的阈值, 则通过提示模块给 出提示, 其中, 设定的阈值可以根据用户的需求以及搜索结果相关性的场景进行动态调整。 0085 校验模块 50 用于对评测对象与标准对象的相关性差异度进行校验及判断, 得出 会影响搜索结果排序的改动因素。 0086 提示模块 60 用于提示搜索结果相关性符合预定的标准。 0087 本发明实施例的搜索结果相关性评测方法及装置通过设定搜索结果的标准对象、 评测对象, 并根据标准对象、 评测对象的搜索结果计算评测对象与标准对象间的相关性差 异度, 。
31、实现了由机器对于不同环境对象间搜索结果进行差异度的监控, 评测准确以及能配 置各种对象、 对不同情况进行评测, 另外, 对于差异度较大的情况进行校验及判断, 得出各 种会影响搜索结果排序的后台改动的因素及问题, 确保改动的合理性。 0088 以上所述, 仅是本发明的较佳实施例而已, 并非对本发明作任何形式上的限制, 虽 然本发明已以较佳实施例揭露如上, 然而并非用以限定本发明 , 任何熟悉本专业的技术人 员, 在不脱离本发明技术方案范围内 , 当可利用上述揭示的技术内容作出些许更动或修饰 为等同变化的等效实施例 , 但凡是未脱离本发明技术方案内容, 依据本发明的技术实质对 以上实施例所作的任何简单修改、 等同变化与修饰 , 均仍属于本发明技术方案的范围内。 说 明 书 CN 103838764 A 10 1/2 页 11 图 1 图 2 说 明 书 附 图 CN 103838764 A 11 2/2 页 12 图 3 图 4 说 明 书 附 图 CN 103838764 A 12 。