参数取值训练及搜索请求处理方法和装置.pdf

上传人:a2 文档编号:1639934 上传时间:2018-06-30 格式:PDF 页数:32 大小:2.34MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310574741.6

申请日:

2013.11.15

公开号:

CN104636407A

公开日:

2015.05.20

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20131115|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

腾讯科技(深圳)有限公司

发明人:

郑枫耀

地址:

518044广东省深圳市福田区振兴路赛格科技园2栋东403室

优先权:

专利代理机构:

北京品源专利代理有限公司11332

代理人:

胡彬

PDF下载: PDF下载
内容摘要

本发明实施例公开了一种参数取值训练及搜索请求处理方法和装置,涉及信息搜索领域,用于提高在线关键词搜索时搜索结果的准确性。本方法中,预先通过模型训练方法得到页面相关度确定方法所使用的参数的训练结果值,该训练结果值能够使得页面排序结果对应的搜索引擎质量衡量指标值符合期望值;在线接收到包含输入的关键词的搜索请求并搜索与用户输入的关键词相关的页面后,根据该页面相关度确定方法和该训练结果值,确定搜索到的每个页面与输入的关键词的相关度并根据各页面的相关度进行页面排序,按照排序结果将各页面的地址信息进行展现。采用本发明可以提高搜索结果的准确性。

权利要求书

权利要求书
1.  一种确定页面相关度所使用参数的取值训练方法,其特征在于,该方法 包括:
抽取多个离线关键词及每个离线关键词的多个相关页面;
根据抽取的各离线关键词和各相关页面,采用模型训练方法得到页面相关 度确定方法所使用的参数的训练结果值,以使在采用所述页面相关度确定方法 和所述训练结果值确定离线关键词的相关页面的相关度并根据确定结果将该离 线关键词的相关页面进行排序时,能够使排序结果对应的搜索引擎质量衡量指 标值符合期望值;
将所述页面相关度确定方法所使用的参数的训练结果值进行输出,以用于 确定关键词的相关页面的相关度。

2.  如权利要求1所述的方法,其特征在于,所述根据抽取的各离线关键词 和各相关页面,采用模型训练方法得到页面相关度确定方法所使用的参数的训 练结果值,具体包括:
执行多次如下训练操作:采用所述页面相关度确定方法和所述参数的一组 可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度,对于 每个离线关键词,分别根据该离线关键词的各相关页面的相关度对该离线关键 词的各相关页面进行排序,并确定每次排序结果对应的搜索引擎质量衡量指标 值的和值;其中每次训练操作过程中所述页面相关度确定方法所使用的参数的 一组可能取值不同;
将得到的最大的搜索引擎质量衡量指标值的和值对应的训练操作过程中所 述页面相关度确定方法所使用的参数的一组可能取值,作为该参数的训练结果 值。

3.  如权利要求2所述的方法,其特征在于,所述页面相关度确定方法所使 用的参数包括离线参数和在线参数;
在抽取多个离线关键词及每个离线关键词的多个相关页面之后、且执行多 次所述训练操作之前,进一步包括:收集各离线关键词的各相关页面的历史点 击数据;
所述采用所述页面相关度确定方法和所述参数的一组可能取值,确定各离 线关键词的各相关页面与对应离线关键词的相关度,具体包括:
对于各离线关键词的各相关页面,根据该相关页面的历史点击数据和所述 离线参数的可能取值,按照第一设定方法得到该相关页面的离线相关度;
根据得到的离线相关度和所述在线参数的可能取值,按照第二设定方法得 到每个相关页面的在线相关度;对于每个相关页面,根据该相关页面的在线相 关度确定该相关页面与对应离线关键词的相关度。

4.  如权利要求2所述的方法,其特征在于,训练操作过程中所述页面相 关度确定方法所使用的参数的一组可能取值的选取方法包括:
将随机生成的所述页面相关度确定方法所使用的参数的至少一组可能取 值放入第一存储单元;
对于每次训练操作过程,从第一存储单元中选取所述参数的一组可能取 值,作为本次训练操作过程中所述页面相关度确定方法所使用的参数的一组可 能取值;
在每次训练操作过程结束后,将本次训练操作过程中所述页面相关度确定 方法所使用的参数的一组可能取值放入第二存储单元;从第二存储单元中选取 至少一组可能取值,并根据选取的各组可能取值按照第三设定方法生成新的一 组可能取值,将该新的一组可能取值放入第一存储单元。

5.  如权利要求4所述的方法,其特征在于,所述从第二存储单元中选取 所述参数的至少一组可能取值,具体包括:
将第二存储单元中所述参数的各组可能取值进行排序,使得对应的搜索引 擎质量衡量指标值的和值较大的一组可能取值位于对应的搜索引擎质量衡量指 标值的和值较小的一组可能取值之前;选取排列在最前面的至少一组可能取值。

6.  如权利要求4所述的方法,其特征在于,所述第三设定方法为:
爬山算法,或模拟退火算法,或遗传算法。

7.  如权利要求3所述的方法,其特征在于,第一设定方法包括如下公式 一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ; ]]>
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ; ]]>
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ; ]]>
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为 相关页面的离线相关度;QueryTime为在设定时间内相关页面对应的离线关键词 被搜索的次数;DocClicks为在设定时间内相关页面被点击的次数; DocFirstClicks为在设定时间内相关页面作为搜索结果中第一个被点击的页面 的次数;DocLastClicks为在设定时间内相关页面作为搜索结果中最后一个被点 击的页面的次数;DocOnlyClicks为在设定时间内相关页面作为搜索结果中唯一 被点击的页面的次数;DocViews为在设定时间内相关页面被浏览过的次数。

8.  如权利要求3所述的方法,其特征在于,第二设定方法包括如下公式 四到公式五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为相关页面的在线相关度,q0、q1、q3、q4为在线参数, strictScore是根据统计的设定时间内用户在线查询的关键词与相关页面对应的 离线关键词完全一致时,相关页面与对应的离线关键词的离线相关度得到的相 关度分值;parentScore是根据统计的设定时间内用户在线查询的关键词与相关 页面对应的离线关键词不完全一致且相关页面对应的离线关键词中的所有信息 元素被包含在在线查询的关键词中时,相关页面与对应的离线关键词的离线相 关度得到的相关度分值;ngram cov er_score是根据统计的设定时间内用户在线 查询的关键词与相关页面对应的离线关键词不完全一致且相关页面对应的离线 关键词中的至少一个信息元素被包含在在线查询的关键词中时,相关页面与对 应的离线关键词的离线相关度得到的相关度分值。

9.  如权利要求3所述的方法,其特征在于,所述根据该在线相关度确定 该相关页面与对应离线关键词的相关度,具体包括:
将该在线相关度确定为该相关页面与对应离线关键词的相关度;或者,
根据该在线相关度和该相关页面的信息,确定该相关页面与对应离线关键 词的相关度。

10.  如权利要求9所述的方法,其特征在于,所述相关页面的信息包括以 下信息中的至少一个:
相关页面的标题与对应离线关键词的匹配度、相关页面的正文与对应离线 关键词的匹配度、相关页面的页面丰富度、相关页面的权威度、相关页面的时 新度。

11.  一种基于权利要求1-10中任一所述取值训练方法的搜索请求处理方法, 其特征在于,该方法包括:
接收到包含输入的关键词的搜索请求后,搜索与所述关键词相关的页面;
获取页面相关度确定方法所使用的参数的训练结果值;
根据所述页面相关度确定方法和所述训练结果值,分别确定搜索到的每个 页面与输入的关键词的相关度;
根据搜索到的每个页面与输入的关键词的相关度将搜索到的各页面进行排 序,以使相关度较高的页面位于相关度较低的页面之前;按照排序结果将搜索 到的各页面的地址信息进行展现。

12.  如权利要求11所述的方法,其特征在于,所述页面相关度确定方法所 使用的参数包括离线参数和在线参数;
在搜索与所述关键词相关的页面之后、且根据所述页面相关度确定方法和 所述训练结果值,分别确定搜索到的每个页面与输入的关键词的相关度之前, 进一步包括:收集搜索到的每个页面的历史点击数据;
所述根据所述页面相关度确定方法和所述训练结果值,分别确定搜索到的 每个页面与输入的关键词的相关度,具体包括:
对于搜索到的每个页面,根据该页面的历史点击数据和所述离线参数的训 练结果值,按照第一设定方法得到该页面的离线相关度;
根据得到的离线相关度和所述在线参数的训练结果值,按照第二设定方法 得到搜索到的每个页面的在线相关度;对于搜索到的每个页面,根据该页面的 在线相关度确定该页面与输入的关键词的相关度。

13.  如权利要求12所述的方法,其特征在于,第一设定方法包括如下公式 一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ; ]]>
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ; ]]>
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ; ]]>
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为 页面的离线相关度;QueryTime为在设定时间内页面对应的关键词被搜索的次数; DocClicks为在设定时间内页面被点击的次数;DocFirstClicks为在设定时间内页 面作为搜索结果中第一个被点击的页面的次数;DocLastClicks为在设定时间内 页面作为搜索结果中最后一个被点击的页面的次数;DocOnlyClicks为在设定时 间内页面作为搜索结果中唯一被点击的页面的次数;DocViews为在设定时间内 页面被浏览过的次数。

14.  如权利要求12所述的方法,其特征在于,第二设定方法包括如下公式 四到公式五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为页面的在线相关度,q0、q1、q3、q4为在线参数, strictScore是根据统计的设定时间内用户在线查询的关键词与当前页面对应的 离线关键词完全一致时,页面与对应的离线关键词的离线相关度得到的相关度 分值;parentScore是根据统计的设定时间内用户在线查询的关键词与页面对应 的离线关键词不完全一致且页面对应的离线关键词中的所有信息元素被包含在 在线查询的关键词中时,页面与对应的离线关键词的离线相关度得到的相关度 分值;ngram cov er_score是根据统计的设定时间内用户在线查询的关键词与页 面对应的离线关键词不完全一致且页面对应的离线关键词中的至少一个信息元 素被包含在在线查询的关键词中时,页面与对应的离线关键词的离线相关度得 到的相关度分值。

15.  如权利要求12所述的方法,其特征在于,所述根据该在线相关度确定 该页面与输入的关键词的相关度,具体包括:
将该在线相关度确定为该页面与输入的关键词的相关度;或者,
根据该在线相关度和该页面的信息,确定该页面与输入的关键词的相关度。

16.  如权利要求15所述的方法,其特征在于,所述页面的信息包括以下信 息中的至少一个:
页面的标题与输入的关键词的匹配度、页面的正文与输入的关键词的匹配 度、页面的页面丰富度、页面的权威度、页面的时新度。

17.  一种确定页面相关度所使用参数的取值训练装置,其特征在于,该装 置包括:
数据采集单元,用于抽取多个离线关键词及每个离线关键词的多个相关页 面;
模型训练单元,用于根据抽取的各离线关键词和各相关页面,采用模型训 练方法得到页面相关度确定方法所使用的参数的训练结果值,以使在采用所述 页面相关度确定方法和所述训练结果值确定离线关键词的相关页面的相关度并 根据确定结果将该离线关键词的相关页面进行排序时,能够使排序结果对应的 搜索引擎质量衡量指标值符合期望值;
结果输出单元,用于将所述页面相关度确定方法所使用的参数的训练结果 值进行输出,以用于确定关键词的相关页面的相关度。

18.  如权利要求17所述的装置,其特征在于,所述模型训练单元,具体用 于:
执行多次如下训练操作:采用所述页面相关度确定方法和所述参数的一组 可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度,对于 每个离线关键词,分别根据该离线关键词的各相关页面的相关度对该离线关键 词的各相关页面进行排序,并确定每次排序结果对应的搜索引擎质量衡量指标 值的和值;其中每次训练操作过程中所述页面相关度确定方法所使用的参数的 一组可能取值不同;
将得到的最大的搜索引擎质量衡量指标值的和值对应的训练操作过程中所 述页面相关度确定方法所使用的参数的一组可能取值,作为该参数的训练结果 值。

19.  如权利要求18所述的装置,其特征在于,所述页面相关度确定方法所 使用的参数包括离线参数和在线参数;
所述数据采集单元还用于:在抽取多个离线关键词及每个离线关键词的多 个相关页面之后、且执行多次所述训练操作之前,收集各离线关键词的各相关 页面的历史点击数据;
所述模型训练单元具体用于:按照如下方法采用所述页面相关度确定方法 和所述参数的一组可能取值,确定各离线关键词的各相关页面与对应离线关键 词的相关度:
对于各离线关键词的各相关页面,根据该相关页面的历史点击数据和所述 离线参数的可能取值,按照第一设定方法得到该相关页面的离线相关度;
根据得到的离线相关度和所述在线参数的可能取值,按照第二设定方法得 到每个相关页面的在线相关度;对于每个相关页面,根据该相关页面的在线相 关度确定该相关页面与对应离线关键词的相关度。

20.  如权利要求18所述的装置,其特征在于,所述模型训练单元还用于:
将随机生成的所述页面相关度确定方法所使用的参数的至少一组可能取值 放入第一存储单元;
对于每次训练操作过程,从第一存储单元中选取所述参数的一组可能取值, 作为本次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取 值;
在每次训练操作过程结束后,将本次训练操作过程中所述页面相关度确定 方法所使用的参数的一组可能取值放入第二存储单元;从第二存储单元中选取 至少一组可能取值,并根据选取的各组可能取值按照第三设定方法生成新的一 组可能取值,将该新的一组可能取值放入第一存储单元。

21.  如权利要求20所述的装置,其特征在于,所述模型训练单元具体用于: 按照如下方法从第二存储单元中选取至少一组可能取值:
将第二存储单元中所述参数的各组可能取值进行排序,使得对应的搜索引 擎质量衡量指标值的和值较大的一组可能取值位于对应的搜索引擎质量衡量指 标值的和值较小的一组可能取值之前;选取排列在最前面的至少一组可能取值。

22.  如权利要求20所述的装置,其特征在于,所述第三设定方法为:
爬山算法,或模拟退火算法,或遗传算法。

23.  如权利要求19所述的装置,其特征在于,所述模型训练单元采用的第 一设定方法包括如下公式一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ; ]]>
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ; ]]>
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ; ]]>
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为 相关页面的离线相关度;QueryTime为在设定时间内相关页面对应的离线关键词 被搜索的次数;DocClicks为在设定时间内相关页面被点击的次数; DocFirstClicks为在设定时间内相关页面作为搜索结果中第一个被点击的页面 的次数;DocLastClicks为在设定时间内相关页面作为搜索结果中最后一个被点 击的页面的次数;DocOnlyClicks为在设定时间内相关页面作为搜索结果中唯一 被点击的页面的次数;DocViews为在设定时间内相关页面被浏览过的次数。

24.  如权利要求19所述的装置,其特征在于,所述模型训练单元采用的第 二设定方法包括如下公式四到公式五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为相关页面的在线相关度,q0、q1、q3、q4为在线参数, strictScore是根据统计的设定时间内用户在线查询的关键词与相关页面对应的 离线关键词完全一致时,相关页面与对应的离线关键词的离线相关度得到的相 关度分值;parentScore是根据统计的设定时间内用户在线查询的关键词与相关 页面对应的离线关键词不完全一致且相关页面对应的离线关键词中的所有信息 元素被包含在在线查询的关键词中时,相关页面与对应的离线关键词的离线相 关度得到的相关度分值;ngram cov er_score是根据统计的设定时间内用户在线 查询的关键词与相关页面对应的离线关键词不完全一致且相关页面对应的离线 关键词中的至少一个信息元素被包含在在线查询的关键词中时,相关页面与对 应的离线关键词的离线相关度得到的相关度分值。

25.  如权利要求19所述的装置,其特征在于,所述模型训练单元具体用于: 按照如下方法根据该在线相关度确定该相关页面与对应离线关键词的相关度:
将该在线相关度确定为该相关页面与对应离线关键词的相关度;或者,
根据该在线相关度和该相关页面的信息,确定该相关页面与对应离线关键 词的相关度。

26.  如权利要求25所述的装置,其特征在于,所述相关页面的信息包括以 下信息中的至少一个:
相关页面的标题与对应离线关键词的匹配度、相关页面的正文与对应离线 关键词的匹配度、相关页面的页面丰富度、相关页面的权威度、相关页面的时 新度。

27.  一种基于权利要求17-26中任一所述取值训练装置的搜索请求处理装 置,其特征在于,该装置包括:
搜索单元,用于在接收到包含输入的关键词的搜索请求后,搜索与所述关 键词相关的页面;
获取单元,用于获取页面相关度确定方法所使用的参数的训练结果值;
确定单元,用于根据所述页面相关度确定方法和所述训练结果值,分别确 定搜索到的每个页面与输入的关键词的相关度;
展现单元,用于根据搜索到的每个页面与输入的关键词的相关度将搜索到 的各页面进行排序,以使相关度较高的页面位于相关度较低的页面之前;按照 排序结果将搜索到的各页面的地址信息进行展现。

28.  如权利要求27所述的装置,其特征在于,所述页面相关度确定方法所 使用的参数包括离线参数和在线参数;该装置还包括:
收集单元,用于在搜索与所述关键词相关的页面之后、且根据所述页面相 关度确定方法和所述训练结果值,分别确定搜索到的每个页面与输入的关键词 的相关度之前,收集搜索到的每个页面的历史点击数据;
所述确定单元具体用于:
对于搜索到的每个页面,根据该页面的历史点击数据和所述离线参数的训 练结果值,按照第一设定方法得到该页面的离线相关度;
根据得到的离线相关度和所述在线参数的训练结果值,按照第二设定方法 得到搜索到的每个页面的在线相关度;对于搜索到的每个页面,根据该页面的 在线相关度确定该页面与输入的关键词的相关度。

29.  如权利要求28所述的装置,其特征在于,所述确定单元采用的第一设 定方法包括如下公式一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ; ]]>
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ; ]]>
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ; ]]>
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为 页面的离线相关度;QueryTime为在设定时间内页面对应的关键词被搜索的次数; DocClicks为在设定时间内页面被点击的次数;DocFirstClicks为在设定时间内页 面作为搜索结果中第一个被点击的页面的次数;DocLastClicks为在设定时间内 页面作为搜索结果中最后一个被点击的页面的次数;DocOnlyClicks为在设定时 间内页面作为搜索结果中唯一被点击的页面的次数;DocViews为在设定时间内 页面被浏览过的次数。

30.  如权利要求28所述的装置,其特征在于,所述确定单元采用的第二设 定方法包括如下公式四到公式五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为页面的在线相关度,q0、q1、q3、q4为在线参数, strictScore是根据统计的设定时间内用户在线查询的关键词与页面对应的离线 关键词完全一致时,页面与对应的离线关键词的离线相关度得到的相关度分值; parentScore是根据统计的设定时间内用户在线查询的关键词与页面对应的离线 关键词不完全一致且页面对应的关离线键词中的所有信息元素被包含在在线查 询的关键词中时,页面与对应的离线关键词的离线相关度得到的相关度分值; ngram cov er_score是根据统计的设定时间内用户在线查询的关键词与页面对应 的离线关键词不完全一致且页面对应的离线关键词中的至少一个信息元素被包 含在在线查询的关键词中时,页面与对应的离线关键词的离线相关度得到的相 关度分值。

31.  如权利要求28所述的装置,其特征在于,所述确定单元具体用于:按 照如下方法根据该在线相关度确定该页面与输入的关键词的相关度:
将该在线相关度确定为该页面与输入的关键词的相关度;或者,
根据该在线相关度和该页面的信息,确定该页面与输入的关键词的相关度。

32.  如权利要求31所述的装置,其特征在于,所述页面的信息包括以下信 息中的至少一个:
页面的标题与输入的关键词的匹配度、页面的正文与输入的关键词的匹配 度、页面的页面丰富度、页面的权威度、页面的时新度。

说明书

说明书参数取值训练及搜索请求处理方法和装置
技术领域
本发明涉及信息搜索领域,尤其涉及一种参数取值训练及搜索请求处理方 法和装置。
背景技术
目前,在用户通过搜索引擎进行信息搜索的场景中,在线服务器在接收到包 含用户输入的关键词的搜索请求后,搜索与该关键词相关的页面,并在数据库 中查找该关键词对应的用户点击模型数据,该用户点击模型数据中包含根据历 史用户点击数据预先得到的与该关键词相关的点击率最高的N条页面,其中N 为不小于1的整数;将搜索到的各页面进行排序,其中,与该关键词相关的点 击率最高的N条页面被排在较前面;在将搜索到的各页面进行排序后,按照排 序结果将各页面的统一资源定位符(Uniform Resource Locator,URL)展现给用 户,此时,与该关键词相关的历史点击率最高的N条页面排在搜索结果展现页 面的较前面,那么,该N条页面的URL很有可能被用户优先点击,在点击进入 页面发现其中的信息并不是用户所期望的信息时,再返回搜索结果展现页面继 续点击其他页面的URL。一般情况下,上述根据历史用户点击数据得到关键词 对应的点击率最高的N条页面的URL的方法为:离线服务器获取与该关键词相 关的多个页面及获取的每个页面的历史点击数据,对于每个页面,将该页面的 历史点击数据代入将历史点击数据作为输入参数的相关度计算公式,计算得到 该页面对应的相关度值,相关度值越高的页面与该关键词的相关性越高,就越 可能符合用户的期望;在得到获取的各页面对应的相关度值后,将相关度值最 高的N个页面作为点击率最高的N条页面,并将该N条页面的URL携带在用 户点击模型数据中分发给在线服务器。
上述的相关度计算公式中,历史用户点击数据可能对应有表明该点击数据对 计算结果影响程度的权值参数,该权值参数通常情况下的取值是参照人为设定 的经验值。
在实现本发明的过程中,发明人发现现有技术中存在以下技术问题:
根据上述描述,现有技术中相关度确定方法所采用的参数的取值均为设定的 经验值,使得页面与关键词的相关度确定结果的准确性低,进而会导致页面排 序结果不合理,不能将相关度高的页面排在较前面、将相关度低的页面排在较 后面,进而降低了在线关键词搜索时搜索结果的准确性。
发明内容
本发明实施例提供一种参数取值训练及搜索请求处理方法和装置,用于提 高在线关键词搜索时搜索结果的准确性。
本发明实施例提供了一种确定页面相关度所使用参数的取值训练方法,该 方法包括:
抽取多个离线关键词及每个离线关键词的多个相关页面;
根据抽取的各离线关键词和各相关页面,采用模型训练方法得到页面相关 度确定方法所使用的参数的训练结果值,以使在采用所述页面相关度确定方法 和所述训练结果值确定离线关键词的相关页面的相关度并根据确定结果将该离 线关键词的相关页面进行排序时,能够使排序结果对应的搜索引擎质量衡量指 标值符合期望值;
将所述页面相关度确定方法所使用的参数的训练结果值进行输出,以用于 确定关键词的相关页面的相关度。
较优的,所述根据抽取的各离线关键词和各相关页面,采用模型训练方法 得到页面相关度确定方法所使用的参数的训练结果值,具体包括:
执行多次如下训练操作:采用所述页面相关度确定方法和所述参数的一组 可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度,对于 每个离线关键词,分别根据该离线关键词的各相关页面的相关度对该离线关键 词的各相关页面进行排序,并确定每次排序结果对应的搜索引擎质量衡量指标 值的和值;其中每次训练操作过程中所述页面相关度确定方法所使用的参数的 一组可能取值不同;
将得到的最大的搜索引擎质量衡量指标值的和值对应的训练操作过程中所 述页面相关度确定方法所使用的参数的一组可能取值,作为该参数的训练结果 值。
较优的,所述页面相关度确定方法所使用的参数包括离线参数和在线参数;
在抽取多个离线关键词及每个离线关键词的多个相关页面之后、且执行多 次所述训练操作之前,进一步包括:收集各离线关键词的各相关页面的历史点 击数据;
所述采用所述页面相关度确定方法和所述参数的一组可能取值,确定各离 线关键词的各相关页面与对应离线关键词的相关度,具体包括:
对于各离线关键词的各相关页面,根据该相关页面的历史点击数据和所述 离线参数的可能取值,按照第一设定方法得到该相关页面的离线相关度;
根据得到的离线相关度和所述在线参数的可能取值,按照第二设定方法得 到每个相关页面的在线相关度;对于每个相关页面,根据该相关页面的在线相 关度确定该相关页面与对应离线关键词的相关度。
较优的,训练操作过程中所述页面相关度确定方法所使用的参数的一组可 能取值的选取方法包括:
将随机生成的所述页面相关度确定方法所使用的参数的至少一组可能取值 放入第一存储单元;
对于每次训练操作过程,从第一存储单元中选取所述参数的一组可能取值, 作为本次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取 值;
在每次训练操作过程结束后,将本次训练操作过程中所述页面相关度确定 方法所使用的参数的一组可能取值放入第二存储单元;从第二存储单元中选取 至少一组可能取值,并根据选取的各组可能取值按照第三设定方法生成新的一 组可能取值,将该新的一组可能取值放入第一存储单元。
较优的,所述从第二存储单元中选取所述参数的至少一组可能取值,具体 包括:
将第二存储单元中所述参数的各组可能取值进行排序,使得对应的搜索引 擎质量衡量指标值的和值较大的一组可能取值位于对应的搜索引擎质量衡量指 标值的和值较小的一组可能取值之前;选取排列在最前面的至少一组可能取值。
较优的,所述第三设定方法为:
爬山算法,或模拟退火算法,或遗传算法。
较优的,第一设定方法包括如下公式一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ; ]]>
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ; ]]>
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ; ]]>
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为 相关页面的离线相关度;QueryTime为在设定时间内相关页面对应的离线关键词 被搜索的次数;DocClicks为在设定时间内相关页面被点击的次数; DocFirstClicks为在设定时间内相关页面作为搜索结果中第一个被点击的页面的 次数;DocLastClicks为在设定时间内相关页面作为搜索结果中最后一个被点击 的页面的次数;DocOnlyClicks为在设定时间内相关页面作为搜索结果中唯一被 点击的页面的次数;DocViews为在设定时间内相关页面被浏览过的次数。
较优的,第二设定方法包括如下公式四到公式五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为相关页面的在线相关度,q0、q1、q3、q4为在线参数, strictScore是根据统计的设定时间内用户在线查询的关键词与相关页面对应的 离线关键词完全一致时,相关页面与对应的离线关键词的离线相关度得到的相 关度分值;parentScore是根据统计的设定时间内用户在线查询的关键词与相关 页面对应的离线关键词不完全一致且相关页面对应的离线关键词中的所有信息 元素被包含在在线查询的关键词中时,相关页面与对应的离线关键词的离线相 关度得到的相关度分值;ngram cov er_score是根据统计的设定时间内用户在线 查询的关键词与相关页面对应的离线关键词不完全一致且相关页面对应的离线 关键词中的至少一个信息元素被包含在在线查询的关键词中时,相关页面与对 应的离线关键词的离线相关度得到的相关度分值。
较优的,所述根据该在线相关度确定该相关页面与对应离线关键词的相关 度,具体包括:
将该在线相关度确定为该相关页面与对应离线关键词的相关度;或者,
根据该在线相关度和该相关页面的信息,确定该相关页面与对应离线关键 词的相关度。
较优的,所述相关页面的信息包括以下信息中的至少一个:
相关页面的标题与对应离线关键词的匹配度、相关页面的正文与对应离线 关键词的匹配度、相关页面的页面丰富度、相关页面的权威度、相关页面的时 新度。
本发明实施例还提供了一种基于所述取值训练方法的搜索请求处理方法, 该方法包括:
接收到包含输入的关键词的搜索请求后,搜索与所述关键词相关的页面;
获取页面相关度确定方法所使用的参数的训练结果值;
根据所述页面相关度确定方法和所述训练结果值,分别确定搜索到的每个 页面与输入的关键词的相关度;
根据搜索到的每个页面与输入的关键词的相关度将搜索到的各页面进行排 序,以使相关度较高的页面位于相关度较低的页面之前;按照排序结果将搜索 到的各页面的地址信息进行展现。
较优的,所述模型训练方法包括:
抽取多个离线关键词及每个离线关键词的多个相关页面;
执行多次如下训练操作:采用所述页面相关度确定方法和所述参数的一组 可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度,对于 每个离线关键词,分别根据该离线关键词的各相关页面的相关度对该离线关键 词的各相关页面进行排序,并确定每次排序结果对应的搜索引擎质量衡量指标 值的和值;其中每次训练操作过程中所述页面相关度确定方法所使用的参数的 一组可能取值不同;
将得到的最大的搜索引擎质量衡量指标值的和值对应的训练操作过程中所 述页面相关度确定方法所使用的参数的一组可能取值,作为该参数的训练结果 值。
较优的,所述页面相关度确定方法所使用的参数包括离线参数和在线参数;
在搜索与所述关键词相关的页面之后、且根据所述页面相关度确定方法和 所述训练结果值,分别确定搜索到的每个页面与输入的关键词的相关度之前, 进一步包括:收集搜索到的每个页面的历史点击数据;
所述根据所述页面相关度确定方法和所述训练结果值,分别确定搜索到的 每个页面与输入的关键词的相关度,具体包括:
对于搜索到的每个页面,根据该页面的历史点击数据和所述离线参数的训 练结果值,按照第一设定方法得到该页面的离线相关度;
根据得到的离线相关度和所述在线参数的训练结果值,按照第二设定方法 得到搜索到的每个页面的在线相关度;对于搜索到的每个页面,根据该页面的 在线相关度确定该页面与输入的关键词的相关度。
较优的,第一设定方法包括如下公式一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ; ]]>
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ; ]]>
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ; ]]>
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为 当前页面的离线相关度;QueryTime为在设定时间内页面对应的关键词被搜索的 次数;DocClicks为在设定时间内页面被点击的次数;DocFirstClicks为在设定时 间内页面作为搜索结果中第一个被点击的页面的次数;DocLastClicks为在设定 时间内页面作为搜索结果中最后一个被点击的页面的次数;DocOnlyClicks为在 设定时间内页面作为搜索结果中唯一被点击的页面的次数;DocViews为在设定时 间内页面被浏览过的次数。
较优的,第二设定方法包括如下公式四到公式五:公式四: clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为页面的在线相关度,q0、q1、q3、q4为在线参数,strictScore 是根据统计的设定时间内用户在线查询的关键词与页面对应的离线关键词完全 一致时,页面与对应的离线关键词的离线相关度得到的相关度分值;parentScore 是根据统计的设定时间内用户在线查询的关键词与页面对应的离线关键词不完 全一致且页面对应的离线关键词中的所有信息元素被包含在在线查询的关键词 中时,页面与对应的离线关键词的离线相关度得到的相关度分值; ngram cov er_score是根据统计的设定时间内用户在线查询的关键词与页面对应 的离线关键词不完全一致且页面对应的离线关键词中的至少一个信息元素被包 含在在线查询的关键词中时,页面与对应的离线关键词的离线相关度得到的相 关度分值。
较优的,所述根据该在线相关度确定该页面与输入的关键词的相关度,具 体包括:
将该在线相关度确定为该页面与输入的关键词的相关度;或者,
根据该在线相关度和该页面的信息,确定该页面与输入的关键词的相关度。
较优的,所述页面的信息包括以下信息中的至少一个:
页面的标题与输入的关键词的匹配度、页面的正文与输入的关键词的匹配 度、页面的页面丰富度、页面的权威度、页面的时新度。
本发明实施例又提供了一种确定页面相关度所使用参数的取值训练装置, 该装置包括:
数据采集单元,用于抽取多个离线关键词及每个离线关键词的多个相关页 面;
模型训练单元,用于根据抽取的各离线关键词和各相关页面,采用模型训 练方法得到页面相关度确定方法所使用的参数的训练结果值,以使在采用所述 页面相关度确定方法和所述训练结果值确定离线关键词的相关页面的相关度并 根据确定结果将该离线关键词的相关页面进行排序时,能够使排序结果对应的 搜索引擎质量衡量指标值符合期望值;
结果输出单元,用于将所述页面相关度确定方法所使用的参数的训练结果 值进行输出,以用于确定关键词的相关页面的相关度。
较优的,所述模型训练单元,具体用于:
执行多次如下训练操作:采用所述页面相关度确定方法和所述参数的一组
可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度, 对于每个离线关键词,分别根据该离线关键词的各相关页面的相关度对该离线 关键词的各相关页面进行排序,并确定每次排序结果对应的搜索引擎质量衡量 指标值的和值;其中每次训练操作过程中所述页面相关度确定方法所使用的参 数的一组可能取值不同;
将得到的最大的搜索引擎质量衡量指标值的和值对应的训练操作过程中所 述页面相关度确定方法所使用的参数的一组可能取值,作为该参数的训练结果 值。
较优的,所述页面相关度确定方法所使用的参数包括离线参数和在线参数;
所述数据采集单元还用于:在抽取多个离线关键词及每个离线关键词的多 个相关页面之后、且执行多次所述训练操作之前,收集各离线关键词的各相关 页面的历史点击数据;
所述模型训练单元具体用于:按照如下方法采用所述页面相关度确定方法 和所述参数的一组可能取值,确定各离线关键词的各相关页面与对应离线关键 词的相关度:
对于各离线关键词的各相关页面,根据该相关页面的历史点击数据和所述 离线参数的可能取值,按照第一设定方法得到该相关页面的离线相关度;
根据得到的离线相关度和所述在线参数的可能取值,按照第二设定方法得 到每个相关页面的在线相关度;对于每个相关页面,根据该相关页面的在线相 关度确定该相关页面与对应离线关键词的相关度。
较优的,所述模型训练单元还用于:将随机生成的所述页面相关度确定方 法所使用的参数的至少一组可能取值
放入第一存储单元;
对于每次训练操作过程,从第一存储单元中选取所述参数的一组可能取值, 作为本次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取 值;
在每次训练操作过程结束后,将本次训练操作过程中所述页面相关度确定 方法所使用的参数的一组可能取值放入第二存储单元;从第二存储单元中选取 至少一组可能取值,并根据选取的各组可能取值按照第三设定方法生成新的一 组可能取值,将该新的一组可能取值放入第一存储单元。
较优的,所述模型训练单元具体用于:按照如下方法从第二存储单元中选 取至少一组可能取值:
将第二存储单元中所述参数的各组可能取值进行排序,使得对应的搜索引 擎质量衡量指标值的和值较大的一组可能取值位于对应的搜索引擎质量衡量指 标值的和值较小的一组可能取值之前;选取排列在最前面的至少一组可能取值。
较优的,所述第三设定方法为:
爬山算法,或模拟退火算法,或遗传算法。
较优的,所述模型训练方法采用的第一设定方法包括如下公式一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ; ]]>
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ; ]]>
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ; ]]>
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为 相关页面的离线相关度;QueryTime为在设定时间内相关页面对应的离线关键词 被搜索的次数;DocClicks为在设定时间内相关页面被点击的次数; DocFirstClicks为在设定时间内相关页面作为搜索结果中第一个被点击的页面的 次数;DocLastClicks为在设定时间内相关页面作为搜索结果中最后一个被点击 的页面的次数;DocOnlyClicks为在设定时间内相关页面作为搜索结果中唯一被 点击的页面的次数;DocViews为在设定时间内相关页面被浏览过的次数。
较优的,所述模型训练方法采用的第二设定方法包括如下公式四到公式五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为相关页面的在线相关度,q0、q1、q3、q4为在线参数, strictScore是根据统计的设定时间内用户在线查询的关键词与相关页面对应的 离线关键词完全一致时,相关页面与对应的离线关键词的离线相关度得到的相 关度分值;parentScore是根据统计的设定时间内用户在线查询的关键词与相关 页面对应的离线关键词不完全一致且相关页面对应的离线关键词中的所有信息 元素被包含在在线查询的关键词中时,相关页面与对应的离线关键词的离线相 关度得到的相关度分值;ngram cov er_score是根据统计的设定时间内用户在线 查询的关键词与相关页面对应的离线关键词不完全一致且相关页面对应的离线 关键词中的至少一个信息元素被包含在在线查询的关键词中时,相关页面与对 应的离线关键词的离线相关度得到的相关度分值。
较优的,所述模型训练单元具体用于:按照如下方法根据该在线相关度确 定该相关页面与对应离线关键词的相关度:
将该在线相关度确定为该相关页面与对应离线关键词的相关度;或者,
根据该在线相关度和该相关页面的信息,确定该相关页面与对应离线关键 词的相关度。
较优的,所述相关页面的信息包括以下信息中的至少一个:
相关页面的标题与对应离线关键词的匹配度、相关页面的正文与对应离线 关键词的匹配度、相关页面的页面丰富度、相关页面的权威度、相关页面的时 新度。
本发明实施例再提供了一种基于所述取值训练装置的搜索请求处理装置, 该装置包括:
搜索单元,用于在接收到包含输入的关键词的搜索请求后,搜索与所述关 键词相关的页面;
获取单元,用于获取页面相关度确定方法所使用的参数的训练结果值;
确定单元,用于根据所述页面相关度确定方法和所述训练结果值,分别确 定搜索到的每个页面与输入的关键词的相关度;
展现单元,用于根据搜索到的每个页面与输入的关键词的相关度将搜索到 的各页面进行排序,以使相关度较高的页面位于相关度较低的页面之前;按照 排序结果将搜索到的各页面的地址信息进行展现。
较优的,所述页面相关度确定方法所使用的参数包括离线参数和在线参数; 该装置还包括:
收集单元,用于在搜索与所述关键词相关的页面之后、且根据所述页面相 关度确定方法和所述训练结果值,分别确定搜索到的每个页面与输入的关键词 的相关度之前,收集搜索到的每个页面的历史点击数据;
所述确定单元具体用于:
对于搜索到的每个页面,根据该页面的历史点击数据和所述离线参数的训 练结果值,按照第一设定方法得到该页面的离线相关度;
根据得到的离线相关度和所述在线参数的训练结果值,按照第二设定方法 得到搜索到的每个页面的在线相关度;对于搜索到的每个页面,根据该页面的 在线相关度确定该页面与输入的关键词的相关度。
较优的,所述确定单元采用的第一设定方法包括如下公式一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ; ]]>
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ; ]]>
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ; ]]>
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为 页面的离线相关度;QueryTime为在设定时间内页面对应的关键词被搜索的次数; DocClicks为在设定时间内页面被点击的次数;DocFirstClicks为在设定时间内页 面作为搜索结果中第一个被点击的页面的次数;DocLastClicks为在设定时间内 页面作为搜索结果中最后一个被点击的页面的次数;DocOnlyClicks为在设定时 间内页面作为搜索结果中唯一被点击的页面的次数;DocViews为在设定时间内页 面被浏览过的次数。
较优的,所述确定单元采用的第二设定方法包括如下公式四到公式五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为页面的在线相关度,q0、q1、q3、q4为在线参数,strictScore 是根据统计的设定时间内用户在线查询的关键词与页面对应的离线关键词完全 一致时,页面与对应的离线关键词的离线相关度得到的相关度分值; parentScore是根据统计的设定时间内用户在线查询的关键词与页面对应的离线 关键词不完全一致且页面对应的关离线键词中的所有信息元素被包含在在线查 询的关键词中时,页面与对应的离线关键词的离线相关度得到的相关度分值; ngram cov er_score是根据统计的设定时间内用户在线查询的关键词与页面对应 的离线关键词不完全一致且页面对应的离线关键词中的至少一个信息元素被包 含在在线查询的关键词中时,页面与对应的离线关键词的离线相关度得到的相 关度分值。
较优的,所述确定单元具体用于:按照如下方法根据该在线相关度确定该 页面与输入的关键词的相关度:
将该在线相关度确定为该页面与输入的关键词的相关度;或者,
根据该在线相关度和该页面的信息,确定该页面与输入的关键词的相关度。
较优的,所述页面的信息包括以下信息中的至少一个:
页面的标题与输入的关键词的匹配度、页面的正文与输入的关键词的匹配 度、页面的页面丰富度、页面的权威度、页面的时新度。
本发明实施例提供的方案中,预先通过模型训练方法得到页面相关度确定 方法所使用的参数的训练结果值,该训练结果值能够使得在采用该页面相关度 确定方法和该训练结果值确定关键词的相关页面的相关度并根据确定结果将各 相关页面进行排序时,排序结果对应的搜索引擎质量衡量指标值符合期望值; 在线接收到包含输入的关键词的搜索请求并搜索与用户输入的关键词相关的页 面后,根据该页面相关度确定方法和该训练结果值,确定搜索到的每个页面与 输入的关键词的相关度并根据各页面的相关度进行页面排序,然后,按照排序 结果将各页面的地址信息进行展现。本方法中,由于在采用页面相关度确定方 法确定搜索到的每个页面与输入的关键词的相关度时,该采用页面相关度确定 方法所采用的取值是预先训练得到的能够使页面排序结果对应的搜索引擎质量 衡量指标值符合期望值的数值,因此,采用本方法可以提高搜索结果的准确性, 即使得展现给用户的搜索结果中与输入的关键词相关度大的页面尽量位于与输 入的关键词相关度小的页面之前。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
图1a为本发明实施例提供的数据训练方法流程示意图;
图1b为本发明实施例提供的搜索请求处理方法流程示意图;
图2为本发明实施例中模型训练方法的实现流程示意图;
图3a为本发明实施例提供的数据训练装置结构示意图;
图3b为本发明实施例提供的搜索请求处理装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明 实施方式作进一步地详细描述。
本发明实施例中,为了提高在线关键词搜索时搜索结果的准确性,预先通 过模型训练方法得到页面相关度确定方法所使用的参数的训练结果值,该训练 结果值能够使得在采用该页面相关度确定方法和该训练结果值确定关键词的相 关页面的相关度并根据确定结果将各相关页面进行排序时,排序结果对应的搜 索引擎质量衡量指标值符合期望值;在线接收到包含输入的关键词的搜索请求 并搜索与用户输入的关键词相关的页面后,根据该页面相关度确定方法和该训 练结果值,确定搜索到的每个页面与输入的关键词的相关度并根据各页面的相 关度进行页面排序,然后,按照排序结果将各页面的地址信息进行展现。
参见图1a,为了得到页面相关度确定方法所使用的参数的训练结果值,本 发明实施例提供一种确定页面相关度所使用参数的取值训练方法,包括如下步 骤:
步骤100:抽取多个离线关键词及每个离线关键词的多个相关页面;这里, 离线关键词是指离线统计的被用户查询过的关键词;在抽取多个离线关键词时, 抽取的离线关键词可以是搜索引擎已统计的被用户查询过的关键词,具体可以 根据查询频率进行抽取,例如抽取查询频率最高的多个关键词作为离线关键词; (搜索引擎会记录用户查询过的关键词以及它的所有点击行为数据,这里用的 离线关键词是所有用户访问过的)在抽取离线关键词的多个相关页面时,具体 可以根据搜索引擎已统计的对该离线关键词的相关页面的排序结果来抽取,比 如抽取排在最前面的多个相关页面;
步骤101:根据抽取的各离线关键词和各相关页面,采用模型训练方法得到 页面相关度确定方法所使用的参数的训练结果值,以使在采用所页面相关度确 定方法和训练结果值确定离线关键词的相关页面的相关度并根据确定结果将该 离线关键词的相关页面进行排序时,能够使排序结果对应的搜索引擎质量衡量 指标值符合期望值;
步骤102:将页面相关度确定方法所使用的参数的训练结果值进行输出,以 用于确定关键词的相关页面的相关度。
具体的,上述步骤101中,根据抽取的各离线关键词和各相关页面,采用 模型训练方法得到页面相关度确定方法所使用的参数的训练结果值,具体实现 可以如下:
执行多次如下训练操作:采用页面相关度确定方法和该方法所使用参数的 一组可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度, 对于每个离线关键词,分别根据该离线关键词的各相关页面的相关度对该离线 关键词的各相关页面进行排序,以使相关度较高的相关页面位于相关度较低的 相关页面之前;并确定每次排序结果对应的搜索引擎质量衡量指标值的和值; 其中每次训练操作过程中页面相关度确定方法所使用的参数的一组可能取值不 同;
将得到的最大的搜索引擎质量衡量指标值的和值对应的训练操作过程中页 面相关度确定方法所使用的参数的一组可能取值,作为该参数的训练结果值。
优选的,本发明中的搜索引擎质量衡量指标值具体可以是贴现累计收益 (Discounted Cumulative Gain,DCG)值或理想贴现累计收益(Ideal Discounted  Cumulative Gain,IDCG)值。当然,搜索引擎质量衡量指标值也可以是其他用 于衡量搜索引擎质量的指标值。
具体的,页面相关度确定方法所使用的参数可以包括离线参数和在线参数; 其中,离线参数是指与离线数据结合使用来确定页面与关键字的相关度的参数; 在线参数是指与在线数据结合使用来确定页面与关键字的相关度的参数;离线 数据是指与当前的在线关键词查询行为无关的数据,比如历史点击数据等;在 线数据是指与当前的在线关键词查询行为相关的数据,比如当前在线查询的关 键词等;
为了得到各离线关键词的各相关页面与对应离线关键词的相关度,在抽取 多个离线关键词及每个离线关键词的多个相关页面之后、且执行多次训练操作 之前,可以进一步收集各离线关键词的各相关页面的历史点击数据;相应的, 上述采用页面相关度确定方法和该方法所使用参数的一组可能取值,确定各离 线关键词的各相关页面与对应离线关键词的相关度,具体实现可以如下:
对于各离线关键词的各相关页面,根据该相关页面的历史点击数据和离线 参数的可能取值,按照第一设定方法得到该相关页面的离线相关度;
根据得到的离线相关度和在线参数的可能取值,按照第二设定方法得到每 个相关页面的在线相关度;对于每个相关页面,根据该相关页面的在线相关度 确定该相关页面与对应离线关键词的相关度。
具体的,上述根据在线相关度确定相关页面与对应离线关键词的相关度, 具体实现可以采用如下两种方法之一:第一,将在线相关度确定为相关页面与 对应离线关键词的相关度;第二,根据在线相关度和相关页面的信息,确定该 相关页面与对应离线关键词的相关度。
具体的,上述相关页面的信息可以包括以下信息中的至少一个:相关页面 的标题与对应离线关键词的匹配度(例如,可以将在线相关度与该匹配度的加 权值作为相关页面与对应离线关键词的相关度)、相关页面的正文与对应离线关 键词的匹配度(例如,可以将在线相关度与该匹配度的加权值作为相关页面与 对应离线关键词的相关度)、相关页面的页面丰富度(例如,可以将在线相关度 与该页面丰富度的加权值作为相关页面与对应离线关键词的相关度)、相关页面 的权威度(例如,可以将在线相关度与该权威度的加权值作为相关页面与对应 离线关键词的相关度)、相关页面的时新度(例如,可以将在线相关度与该时新 度的加权值作为相关页面与对应离线关键词的相关度)。(是的)
举例说明:
finalScore=q5*text_match_score+q6*authority_match_score+q7* fresh_match_score+q8*text_match_score*clickScore+q9*clickScore;
其中,finalScore是相关页面与对应离线关键词的相关度,text_match_score 表示相关页面的正文与对应离线关键词的匹配度,authority_match_score表示相 关页面的权威度,fresh_match_score表示相关页面的时新度;q5-q9为权值。
上述离线相关度是指根据离线参数和离线数据得到的页面与关键词的相关 度;在线相关度是指根据在线参数和在线数据得到的页面与关键词的相关度。 相关度是指页面满足用户查询需求的概率值。
具体的,训练操作过程中页面相关度确定方法所使用的参数的一组可能取 值的选取方法可以如下:
将随机生成的页面相关度确定方法所使用的参数的至少一组可能取值放入 第一存储单元;
对于每次训练操作过程,从第一存储单元中选取页面相关度确定方法所使 用的参数的一组可能取值,作为本次训练操作过程中页面相关度确定方法所使 用的参数的一组可能取值;以及,
在每次训练操作过程结束后,将本次训练操作过程中页面相关度确定方法 所使用的参数的一组可能取值放入第二存储单元;从第二存储单元中选取至少 一组可能取值,并根据选取的各组可能取值按照第三设定方法生成新的一组可 能取值,将该新的一组可能取值放入第一存储单元。较优的,第三设定方法可 以为:爬山算法,或模拟退火算法,或遗传算法。
较佳的,为了使得使用新生成的一组可能取值得到的页面排序结果对应的 搜索引擎质量衡量指标值更接近符合期望值,上述从第二存储单元中选取页面 相关度确定方法所使用的参数的至少一组可能取值,具体可以是:将第二存储 单元中该参数的各组可能取值进行排序,使得对应的搜索引擎质量衡量指标值 的和值较大的一组可能取值位于对应的搜索引擎质量衡量指标值的和值较小的 一组可能取值之前;然后选取排列在最前面的至少一组可能取值。
具体的,第一存储单元和第二存储单元均可以采用队列形式。在从第一存 储单元中选取页面相关度确定方法所使用的参数的一组可能取值时,具体可以 是:从第一队列中选取排列在最前面的一组可能取值。
参见图1b,本发明实施例提供一种基于上述取值训练方法的搜索请求处理 方法,包括以下步骤:
步骤110:接收到包含输入的关键词的搜索请求后,搜索与输入的关键词相 关的页面;
步骤111:获取上述取值训练方法输出的页面相关度确定方法所使用的参数 的训练结果值,即步骤102输出的训练结果值;
步骤112:根据页面相关度确定方法和训练结果值,分别确定搜索到的每个 页面与输入的关键词的相关度;
步骤113:根据搜索到的每个页面与输入的关键词的相关度将搜索到的各页 面进行排序,以使相关度较高的页面位于相关度较低的页面之前;按照排序结 果将搜索到的各页面的地址信息进行展现。页面的地址信息具体可以是URL等。
具体的,页面相关度确定方法所使用的参数包括离线参数和在线参数;
为了得到搜索到的页面与输入的关键词的相关度,在步骤110中搜索与输 入的关键词相关的页面之后、且步骤112中根据页面相关度确定方法和该方法 所使用参数的训练结果值,分别确定搜索到的每个页面与输入的关键词的相关 度之前,可以进一步收集搜索到的每个页面的历史点击数据;
相应的,步骤112中根据页面相关度确定方法和该方法所使用参数的训练 结果值,分别确定搜索到的每个页面与输入的关键词的相关度,具体实现可以 如下:
对于搜索到的每个页面,根据该页面的历史点击数据和离线参数的训练结 果值,按照第一设定方法得到该页面的离线相关度;
根据得到的离线相关度和在线参数的训练结果值,按照第二设定方法得到 搜索到的每个页面的在线相关度;对于搜索到的每个页面,根据该页面的在线 相关度确定该页面与输入的关键词的相关度。
具体的,上述根据在线相关度确定页面与输入的关键词的相关度,具体实 现可以采用如下两种方法之一:第一,将该在线相关度确定为该页面与输入的 关键词的相关度;第二,根据在线相关度和该页面的信息,确定该页面与输入 的关键词的相关度。
具体的,上述页面的信息包括以下信息中的至少一个:页面的标题与输入 的关键词的匹配度(例如,可以将在线相关度与该匹配度的加权值作为页面与 输入的关键词的相关度)、页面的正文与输入的关键词的匹配度(例如,可以将 在线相关度与该匹配度的加权值作为页面与输入的关键词的相关度)、页面的页 面丰富度(例如,可以将在线相关度与该页面丰富度的加权值作为页面与输入 的关键词的相关度)、页面的权威度(例如,可以将在线相关度与该权威度的加 权值作为页面与输入的关键词的相关度)、页面的时新度(例如,可以将在线相 关度与该时新度的加权值作为页面与输入的关键词的相关度)。
举例说明:
finalScore=q5*text_match_score+q6*authority_match_score+q7* fresh_match_score+q8*text_match_score*clickScore+q9*clickScore;
其中,finalScore是页面与输入的关键词的相关度,text_match_score表示页 面的正文与输入的关键词的匹配度,authority_match_score表示页面的权威度, fresh_match_score表示页面的时新度;q5-q9为权值。
上述步骤100-步骤102中及步骤110-步骤112中涉及的第一设定方法包括 如下公式一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ; ]]>
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ; ]]>
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ; ]]>
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为 当前页面的离线相关度;QueryTime为在设定时间内当前页面对应的关键词被搜 索的次数;DocClicks为在设定时间内当前页面被点击的次数;DocFirstClicks为 在设定时间内当前页面作为搜索结果中第一个被点击的页面的次数; DocLastClicks为在设定时间内当前页面作为搜索结果中最后一个被点击的页面 的次数;DocOnlyClicks为在设定时间内当前页面作为搜索结果中唯一被点击的 页面的次数;DocViews为在设定时间内当前页面被浏览过的次数。
其中,QueryTime、DocClicks、DocFirstClicks、DocLastClicks、DocOnlyClicks、 DocViews均为历史点击数据。
上述步骤100-步骤102中及步骤110-步骤112中涉及的第二设定方法包括 如下公式四到公式五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为当前页面的在线相关度,q0、q1、q3、q4为在线参数, strictScore是根据统计的设定时间内用户在线查询的关键词与当前页面对应的 离线关键词完全一致时,当前页面与对应的离线关键词的离线相关度得到的相 关度分值;parentScore是根据统计的设定时间内用户在线查询的关键词与当前 页面对应的离线关键词不完全一致且当前页面对应的离线关键词中的所有信息 元素被包含在在线查询的关键词中时,当前页面与对应的离线关键词的离线相 关度得到的相关度分值;ngram cov er_score是根据统计的设定时间内用户在线 查询的关键词与当前页面对应的离线关键词不完全一致且当前页面对应的离线 关键词中的至少一个信息元素被包含在在线查询的关键词中时,当前页面与对 应的离线关键词的离线相关度得到的相关度分值。上述q0与q1之和可以等于1, q3与q4之和可以等于1。
对于步骤100-步骤102,当前页面为离线关键词的相关页面,对于步骤110- 步骤112,当前页面为搜索到的与输入的关键词相关的页面。
具体的,strictScore的统计方法可以为:在将当前页面作为搜索结果的前 提下,确定设定时间内与用户在线查询的关键词完全一致的离线关键词的离线 相关度,将该离线相关度作为strictScore的结果值。parentScore的统计方法可 以为:在将当前页面作为搜索结果的前提下,统计设定时间内所有信息元素被 包含在用户在线查询的关键词的离线关键词的离线相关度的加权值,作为 parentScore的结果值;ngram cov er_score的统计方法可以为:在将当前页面作 为搜索结果的前提下,统计设定时间内至少一个信息元素被包含在用户在线查 询的关键词的离线关键词的离线相关度的加权值,作为ngram cov er_score的结 果值。下面举例说明:
在计算strictScore时,首先获取与当前页面相关的离线关键词的集合,以 及集合中各离线关键词的离线相关度。如果用户在线查询的关键词在离线关键 词集合中出现,并完全一致,则获取完全一致的离线关键词的离线相关度,作 为strictScore的结果值;否则,strictScore的结果值为0。
parentScore的计算方法如下表1:

表1
ngram cov er_score的计算方法如下表1:


表2
上表2中是将统计的至少一个信息元素被包含在用户在线查询的关键词的 离线关键词的离线相关度的加权值,作为ngram cov er_score的结果值,还可以 按照如下方法得到ngram cov er_score的结果值:首先,计算用户在线查询的关 键词中每个信息元素的第一得分,具体的,一个信息元素的第一得分等于包含 该信息元素的离线关键词的离线相关度的和值,比如,上表2中,用户在线查 询的关键词中的字符A的第一得分为0.24+0.4,字符B和字符C的第一得分为 0.24+0.245+0.4;然后,根据第一得分采用IDF算法得到用户在线查询的关键词 中每个信息元素的第二得分,比如,字符A的第二得分为0.1,字符B的第二得 分为0.3,字符C的第二得分为0.6;最后,根据第二得分采用余弦相似度算法 得到ngram cov er_score的结果值。
下面结合具体实施例对本发明进行说明:
实施例一:
本实施例是为了得到公式一到公式五所使用的参数的训练结果值的模型训 练方法,如图2所示,需要预先将随机生成的公式一到公式五所使用的离线参 数和在线参数的至少一组可能取值放入第一队列;具体模型训练流程如下:
步骤201:抽取多个离线关键词及每个离线关键词的多个相关页面,例如抽 取7000个离线关键词,以及每个离线关键词的2000个相关页面;收集各离线 关键词的各相关页面的历史点击数据;
还可以收集各离线关键词的各相关页面的一些信息,比如页面的标题与输 入的关键词的匹配度、页面的正文与输入的关键词的匹配度等;
步骤202:从第一队列中读取离线参数和在线参数的一组可能取值;
步骤203:对于各离线关键词的各相关页面,根据该相关页面的历史点击数 据和本次读取的离线参数的可能取值,采用公式一到公式三计算得到该相关页 面的离线相关度;
步骤204:根据得到的离线相关度和本次读取的在线参数的可能取值,采用 公式四和公式五计算得到每个相关页面的在线相关度;对于每个相关页面,根 据该相关页面的在线相关度和该相关页面的标题匹配度信息等,得到该相关页 面与对应离线关键词的相关度;
步骤205:对于每个离线关键词,根据该离线关键词的各相关页面的相关度 对该离线关键词的各相关页面进行排序,并确定每次排序结果对应的DCG值的 和值;将得到的DCG值的和值以及本次读取离线参数和在线参数的可能取值放 入第二队列;
步骤206:从第二队列中选取离线参数和在线参数的至少一组可能取值,并 根据选取的各组可能取值采用爬山算法或模拟退火算法或遗传算法生成新的一 组可能取值,将该新的一组可能取值放入第一队列,并返回步骤202。
需要说明的是,步骤206与步骤202-步骤205也可以并行执行,只要第一 队列中的可能取值的数目小于设定值时,就可执行步骤206。在执行次数达到设 定门限值时,可以停止上述流程的执行,将得到的最大的DCG值的和值对应的 离线参数和在线参数的可能取值,作为对应参数的训练结果值。
实施例二:
本实施例是在实施例之后,利用公式一到公式五所使用的参数的训练结果 值进行页面排序和展现的方法;具体流程如下:
步骤一:接收到包含输入的关键词的搜索请求后,搜索与输入的关键词相 关的页面;
步骤二:获取公式一到公式五所使用的离线参数和在线参数的训练结果值;
步骤三:对于搜索到的每个页面,根据该页面的历史点击数据和离线参数 的训练结果值,采用公式一到公式三计算得到该页面的离线相关度;
步骤四:根据得到的离线相关度和在线参数的训练结果值,采用公式四和 公式五计算得到每个页面的在线相关度;对于每个页面,根据该页面的在线相 关度和该页面的标题匹配度信息等,得到该页面与输入的关键词的相关度;
步骤五:根据搜索到的每个页面与输入的关键词的相关度将搜索到的各页 面进行排序,以使相关度较高的页面位于相关度较低的页面之前;按照排序结 果将搜索到的各页面的地址信息进行展现。
参见图3a,本发明实施例提供一种确定页面相关度所使用参数的取值训练 装置,该装置包括:
数据采集单元300,用于抽取多个离线关键词及每个离线关键词的多个相关 页面;
模型训练单元301,用于根据抽取的各离线关键词和各相关页面,采用模型 训练方法得到页面相关度确定方法所使用的参数的训练结果值,以使在采用所 述页面相关度确定方法和所述训练结果值确定离线关键词的相关页面的相关度 并根据确定结果将该离线关键词的相关页面进行排序时,能够使排序结果对应 的搜索引擎质量衡量指标值符合期望值;
结果输出单元302,用于将所述页面相关度确定方法所使用的参数的训练结 果值进行输出,以用于确定关键词的相关页面的相关度。
进一步的,所述模型训练单元301具体用于:
执行多次如下训练操作:采用所述页面相关度确定方法和所述参数的一组
可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度, 对于每个离线关键词,分别根据该离线关键词的各相关页面的相关度对该离线 关键词的各相关页面进行排序,并确定每次排序结果对应的搜索引擎质量衡量 指标值的和值;其中每次训练操作过程中所述页面相关度确定方法所使用的参 数的一组可能取值不同;
将得到的最大的搜索引擎质量衡量指标值的和值对应的训练操作过程中所 述页面相关度确定方法所使用的参数的一组可能取值,作为该参数的训练结果 值。
进一步的,所述页面相关度确定方法所使用的参数包括离线参数和在线参 数;
所述数据采集单元300还用于:在抽取多个离线关键词及每个离线关键词 的多个相关页面之后、且执行多次所述训练操作之前,收集各离线关键词的各 相关页面的历史点击数据;
所述模型训练单元301具体用于:按照如下方法采用所述页面相关度确定 方法和所述参数的一组可能取值,确定各离线关键词的各相关页面与对应离线 关键词的相关度:
对于各离线关键词的各相关页面,根据该相关页面的历史点击数据和所述 离线参数的可能取值,按照第一设定方法得到该相关页面的离线相关度;
根据得到的离线相关度和所述在线参数的可能取值,按照第二设定方法得 到每个相关页面的在线相关度;对于每个相关页面,根据该相关页面的在线相 关度确定该相关页面与对应离线关键词的相关度。
进一步的,所述模型训练单元301还用于:将随机生成的所述页面相关度 确定方法所使用的参数的至少一组可能取值放入第一存储单元;
对于每次训练操作过程,从第一存储单元中选取所述参数的一组可能取值, 作为本次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取 值;
在每次训练操作过程结束后,将本次训练操作过程中所述页面相关度确定 方法所使用的参数的一组可能取值放入第二存储单元;从第二存储单元中选取 至少一组可能取值,并根据选取的各组可能取值按照第三设定方法生成新的一 组可能取值,将该新的一组可能取值放入第一存储单元。
进一步的,所述模型训练单元301具体用于:按照如下方法从第二存储单 元中选取至少一组可能取值:
将第二存储单元中所述参数的各组可能取值进行排序,使得对应的搜索引 擎质量衡量指标值的和值较大的一组可能取值位于对应的搜索引擎质量衡量指 标值的和值较小的一组可能取值之前;选取排列在最前面的至少一组可能取值。
进一步的,所述第三设定方法为:爬山算法,或模拟退火算法,或遗传算 法。
进一步的,所述模型训练单元301采用的第一设定方法包括如下公式一到 公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ; ]]>
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ; ]]>
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ; ]]>
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为 相关页面的离线相关度;QueryTime为在设定时间内相关页面对应的离线关键词 被搜索的次数;DocClicks为在设定时间内相关页面被点击的次数; DocFirstClicks为在设定时间内相关页面作为搜索结果中第一个被点击的页面的 次数;DocLastClicks为在设定时间内相关页面作为搜索结果中最后一个被点击 的页面的次数;DocOnlyClicks为在设定时间内相关页面作为搜索结果中唯一被 点击的页面的次数;DocViews为在设定时间内相关页面被浏览过的次数。
进一步的,所述模型训练单元301采用的第二设定方法包括如下公式四到 公式五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为相关页面的在线相关度,q0、q1、q3、q4为在线参数, strictScore是根据统计的设定时间内用户在线查询的关键词与相关页面对应的 离线关键词完全一致时,相关页面与对应的离线关键词的离线相关度得到的相 关度分值;parentScore是根据统计的设定时间内用户在线查询的关键词与相关 页面对应的离线关键词不完全一致且相关页面对应的离线关键词中的所有信息 元素被包含在在线查询的关键词中时,相关页面与对应的离线关键词的离线相 关度得到的相关度分值;ngram cov er_score是根据统计的设定时间内用户在线 查询的关键词与相关页面对应的离线关键词不完全一致且相关页面对应的离线 关键词中的至少一个信息元素被包含在在线查询的关键词中时,相关页面与对 应的离线关键词的离线相关度得到的相关度分值。
进一步的,所述模型训练单元301具体用于:按照如下方法根据该在线相 关度确定该相关页面与对应离线关键词的相关度:
将该在线相关度确定为该相关页面与对应离线关键词的相关度;或者,
根据该在线相关度和该相关页面的信息,确定该相关页面与对应离线关键 词的相关度。
进一步的,所述相关页面的信息包括以下信息中的至少一个:
相关页面的标题与对应离线关键词的匹配度、相关页面的正文与对应离线 关键词的匹配度、相关页面的页面丰富度、相关页面的权威度、相关页面的时 新度。
参见图3b,本发明实施例提供一种基于上述取值训练装置的搜索请求处理 装置,该装置包括:
搜索单元310,用于在接收到包含输入的关键词的搜索请求后,搜索与所述 关键词相关的页面;
获取单元311,用于获取页面相关度确定方法所使用的参数的训练结果值; 即获取上述取值训练装置输出的训练结果值;
确定单元312,用于根据所述页面相关度确定方法和所述训练结果值,分别 确定搜索到的每个页面与输入的关键词的相关度;
展现单元313,用于根据搜索到的每个页面与输入的关键词的相关度将搜索 到的各页面进行排序,以使相关度较高的页面位于相关度较低的页面之前;按 照排序结果将搜索到的各页面的地址信息进行展现。
进一步的,所述页面相关度确定方法所使用的参数包括离线参数和在线参 数;该装置还包括:
收集单元314,用于在搜索与所述关键词相关的页面之后、且根据所述页面 相关度确定方法和所述训练结果值,分别确定搜索到的每个页面与输入的关键 词的相关度之前,收集搜索到的每个页面的历史点击数据;
所述确定单元312具体用于:
对于搜索到的每个页面,根据该页面的历史点击数据和所述离线参数的训 练结果值,按照第一设定方法得到该页面的离线相关度;
根据得到的离线相关度和所述在线参数的训练结果值,按照第二设定方法 得到搜索到的每个页面的在线相关度;对于搜索到的每个页面,根据该页面的 在线相关度确定该页面与输入的关键词的相关度。
进一步的,所述确定单元312采用的第一设定方法包括如下公式一到公式 三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ; ]]>
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ; ]]>
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ; ]]>
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为 页面的离线相关度;QueryTime为在设定时间内页面对应的关键词被搜索的次数; DocClicks为在设定时间内页面被点击的次数;DocFirstClicks为在设定时间内页 面作为搜索结果中第一个被点击的页面的次数;DocLastClicks为在设定时间内 页面作为搜索结果中最后一个被点击的页面的次数;DocOnlyClicks为在设定时 间内页面作为搜索结果中唯一被点击的页面的次数;DocViews为在设定时间内页 面被浏览过的次数。
进一步的,所述确定单元312采用的第二设定方法包括如下公式四到公式 五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为当前页面的在线相关度,q0、q1、q3、q4为在线参数, strictScore是根据统计的设定时间内用户在线查询的关键词与页面对应的离线 关键词完全一致时,页面与对应的离线关键词的离线相关度得到的相关度分值; parentScore是根据统计的设定时间内用户在线查询的关键词与页面对应的离线 关键词不完全一致且页面对应的离线关键词中的所有信息元素被包含在在线查 询的关键词中时,页面与对应的离线关键词的离线相关度得到的相关度分值; ngram cov er_score是根据统计的设定时间内用户在线查询的关键词与页面对应 的离线关键词不完全一致且页面对应的离线关键词中的至少一个信息元素被包 含在在线查询的关键词中时,页面与对应的离线关键词的离线相关度得到的相 关度分值。
进一步的,所述确定单元312具体用于:按照如下方法根据该在线相关度 确定该页面与输入的关键词的相关度:
将该在线相关度确定为该页面与输入的关键词的相关度;或者,
根据该在线相关度和该页面的信息,确定该页面与输入的关键词的相关度。
进一步的,所述页面的信息包括以下信息中的至少一个:
页面的标题与输入的关键词的匹配度、页面的正文与输入的关键词的匹配 度、页面的页面丰富度、页面的权威度、页面的时新度。
综上,本发明的有益效果包括:
本发明实施例提供的方案中,预先通过模型训练方法得到页面相关度确定 方法所使用的参数的训练结果值,该训练结果值能够使得在采用该页面相关度 确定方法和该训练结果值确定关键词的相关页面的相关度并根据确定结果将各 相关页面进行排序时,排序结果对应的搜索引擎质量衡量指标值符合期望值; 在线接收到包含输入的关键词的搜索请求并搜索与用户输入的关键词相关的页 面后,根据该页面相关度确定方法和该训练结果值,确定搜索到的每个页面与 输入的关键词的相关度并根据各页面的相关度进行页面排序,然后,按照排序 结果将各页面的地址信息进行展现。本方法中,由于在采用页面相关度确定方 法确定搜索到的每个页面与输入的关键词的相关度时,该采用页面相关度确定 方法所采用的取值是预先训练得到的能够使页面排序结果对应的搜索引擎质量 衡量指标值符合期望值的数值,因此,采用本方法可以提高搜索结果的准确性, 即使得展现给用户的搜索结果中与输入的关键词相关度大的页面尽量位于与输 入的关键词相关度小的页面之前。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品 的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或 方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式 处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机 或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流 程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备 以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的 指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流 程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基 本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要 求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发 明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及 其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

参数取值训练及搜索请求处理方法和装置.pdf_第1页
第1页 / 共32页
参数取值训练及搜索请求处理方法和装置.pdf_第2页
第2页 / 共32页
参数取值训练及搜索请求处理方法和装置.pdf_第3页
第3页 / 共32页
点击查看更多>>
资源描述

《参数取值训练及搜索请求处理方法和装置.pdf》由会员分享,可在线阅读,更多相关《参数取值训练及搜索请求处理方法和装置.pdf(32页珍藏版)》请在专利查询网上搜索。

本发明实施例公开了一种参数取值训练及搜索请求处理方法和装置,涉及信息搜索领域,用于提高在线关键词搜索时搜索结果的准确性。本方法中,预先通过模型训练方法得到页面相关度确定方法所使用的参数的训练结果值,该训练结果值能够使得页面排序结果对应的搜索引擎质量衡量指标值符合期望值;在线接收到包含输入的关键词的搜索请求并搜索与用户输入的关键词相关的页面后,根据该页面相关度确定方法和该训练结果值,确定搜索到的每个。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1