一种基于关键词的检索方法和系统.pdf

上传人:a2 文档编号:1488940 上传时间:2018-06-17 格式:PDF 页数:24 大小:6.33MB
返回 下载 相关 举报
摘要
申请专利号:

CN201210158906.7

申请日:

2012.05.21

公开号:

CN103425687A

公开日:

2013.12.04

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20131204|||实质审查的生效IPC(主分类):G06F 17/30申请日:20120521|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

阿里巴巴集团控股有限公司

发明人:

卢中县; 王磊; 杨松; 陈超

地址:

英属开曼群岛大开曼资本大厦一座四层847号邮箱

优先权:

专利代理机构:

北京润泽恒知识产权代理有限公司 11319

代理人:

赵娟

PDF下载: PDF下载
内容摘要

本申请提供了一种基于关键词的检索方法和系统,其中,所述方法包括:接收提交的原始关键词;对所述原始关键词进行分词,获得分词条目term;按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;为各原始关键词和扩展关键词分配相应的权重;采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;根据所述相关性得分从所述候选检索结果中提取最终检索结果。本申请可以提高零少结果query的召回率,从而提升用户的搜索体验和网站的点击率。

权利要求书

1.  一种基于关键词的检索方法,其特征在于,包括:
接收提交的原始关键词;
对所述原始关键词进行分词,获得分词条目term;
按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;
为各原始关键词和扩展关键词分配相应的权重;
采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;
根据所述相关性得分从所述候选检索结果中提取最终检索结果。

2.
  根据权利要求1所述的方法,其特征在于,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;
和/或,
对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。

3.
  根据权利要求2所述的方法,其特征在于,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
获取所述分词条目term和/或分词条目term组合的同义词;
采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相似关键词。

4.
  根据权利要求2所述的方法,其特征在于,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
获取分词条目term对应的词性信息,所述词性信息包括特征词性信 息;
获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;
统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。

5.
  根据权利要求2所述的方法,其特征在于,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;
获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;
分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;
若所述分词条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。

6.
  根据权利要求1或2所述的方法,其特征在于,所述扩展关键词还包括重写关键词,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
去除符合预设条件的分词条目term,获得重写关键词。

7.
  根据权利要求6所述的方法,其特征在于,所述去除符合预设条件的分词条目term,获得重写关键词的步骤包括:
去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为{t1,t2,...,tm},其中m<n;
采用如下公式计算所述候选词的分值score:
score=0.6*scoreDelTerm+0.4*scoreSaved Terms
scoreDelTerm=1.0/(1+n-m)
scoreSavedTerms=]]>
0.4*scoreCoreCP+0.3*(1.0+Σi=0mtwi)/(1.0+Σi=0ntwi)+0.3*(1.0+Σi=0mwi)/(1.0+Σi=0nwi)]]>
scoreCoreCP=1CP_CORE∈(tag1,tag2,...tagn)0else]]>
其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品词的额外加分;
按候选词的分值score降序排列,取排列在前的预设数量的候选词作为重写关键词。

8.
  根据权利要求1至7中任一项权利要求所述的方法,其特征在于,所述采用原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分的步骤包括:
分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;
计算所述候选检索结果与相应原始关键词或扩展关键词的相关性得分;
其中,所述相关性得分si采用如下公式计算获得:
si=0ri==0ri·wiri>0]]>
其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算的qi与候选检索结果的相关性得分,0≤ri≤1。

9.
  根据权利要求8所述的方法,其特征在于,所述根据相关性得分从所述候选检索结果中提取最终检索结果的步骤包括:
按所述候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;
将所述待选检索结果与相应的原始关键词、扩展关键词进行相关性 得分计算;
按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检索结果。

10.
  一种基于关键词的检索系统,其特征在于,包括:
原始关键词接收模块,用于接收提交的原始关键词;
分词模块,用于对所述原始关键词进行分词,获得分词条目term;
扩展关键词获取模块,用于按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;
权重分配模块,用于为各原始关键词和扩展关键词分配相应的权重;
检索模块,用于采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;
检索结果获得模块,用于根据所述相关性得分从所述候选检索结果中提取最终检索结果。

11.
  根据权利要求10所述的系统,其特征在于,所述扩展关键词包括相似关键词,所述扩展关键词获取模块包括:
拼写纠错处理子模块,用于对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;
和/或,
拼写建议处理子模块,用于对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。

12.
  根据权利要求11所述的系统,其特征在于,所述扩展关键词获取模块包括:
同义词替换子模块,用于获取所述分词条目term和/或分词条目term组合的同义词;以及,采用所述同义词替换所述原始关键词中对应的分 词条目term或分词条目term组合,将替换后的结果作为相似关键词。

13.
  根据权利要求11所述的系统,其特征在于,所述扩展关键词获取模块包括:
第一单字去除子模块,用于获取分词条目term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;以及,统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。

14.
  根据权利要求11所述的系统,其特征在于,所述扩展关键词获取模块包括:
第二单字去除子模块,用于获取分词条目term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;以及,若所述分词条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。

15.
  根据权利要求10或11所述的系统,其特征在于,所述扩展关键词还包括重写关键词,所述扩展关键词获取模块包括:
条目去除子模块,用于去除符合预设条件的分词条目term,获得重写关键词。

16.
  根据权利要求15所述的系统,其特征在于,所述条目去除子模块进一步包括:
候选词生成单元,用于去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为{t1,t2,...,tm},其中m<n;
分值计算单元,用于采用如下公式计算所述候选词的分值score:
score=0.6*scoreDelTerm+0.4*scoreSaved Terms
scoreDelTerm=1.0/(1+n-m)
scoreSavedTerms=]]>
0.4*scoreCoreCP+0.3*(1.0+Σi=0mtwi)/(1.0+Σi=0ntwi)+0.3*(1.0+Σi=0mwi)/(1.0+Σi=0nwi)]]>
scoreCoreCP=1CP_CORE∈(tag1,tag2,...tagn)0else]]>
其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品词的额外加分;
排序选取单元,用于按候选词的分值score降序排列,取排列在前的预设数量的候选词作为重写关键词。

17.
  根据权利要求10至16中任一项权利要求所述的系统,其特征在于,所述检索模块包括:
候选信息获取子模块,用于分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;
相关性计算子模块,用于计算所述候选检索结果与相应原始关键词或扩展关键词的相关性得分;
其中,所述相关性得分si采用如下公式计算获得:
si=0ri==0ri·wiri>0]]>
其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算的qi与候选检索结果的相关性得分,0≤ri≤1。

18.
  根据权利要求17所述的系统,其特征在于,所述检索结果获得模块包括:
第一排序选取子模块,用于按所述候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;
第二排序选取子模块,用于将所述待选检索结果与相应的原始关键 词、扩展关键词进行相关性得分计算,并按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检索结果。

说明书

一种基于关键词的检索方法和系统
技术领域
本申请涉及信息搜索的技术领域,特别是涉及一种基于关键词的检索方法和一种基于关键词的检索系统。
背景技术
随着网络技术的发展和普及,能帮助用户在海量的网络资源中搜索其所需信息的搜索引擎技术也得到了大力发展和普及,目前,搜索引擎已成为每个网民不可缺少的上网工具之一。
公知的是,搜索引擎是基于用户提交的关键词进行检索,用户在搜索页面输入检索关键词(query),搜索引擎会采用该query在其检索库中进行检索,判断是否有匹配的信息。然而,在实际中可能出现的一种情况是,搜索引擎可能在检索库中检索不到数据或检索到很少数据,对于这种检索不到数据或检索到很少数据的query,可以称之为零少结果query。如何提高零少结果query的召回率,以提升用户的搜索体验和网站的点击率,成为本领域技术人员迫切需要解决的问题。其中,召回率是指检索出的相关文档数和检索库中所有的相关文档数的比率,其衡量的是搜索系统的查全率。
发明内容
本申请的目的是提供一种基于关键词的检索方法和系统,用以提高零少结果query的召回率,从而提升用户的搜索体验和网站的点击率。
为了解决上述问题,本申请公开了一种基于关键词的检索方法,包括:
接收提交的原始关键词;
对所述原始关键词进行分词,获得分词条目term;
按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;
为各原始关键词和扩展关键词分配相应的权重;
采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;
根据所述相关性得分从所述候选检索结果中提取最终检索结果。
优选地,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;
和/或,
对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。
优选地,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
获取所述分词条目term和/或分词条目term组合的同义词;
采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相似关键词。
优选地,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;
获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;
统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。
优选地,所述按照预置规则对所述分词条目term进行处理,生成所 述原始关键词对应的扩展关键词的步骤包括:
获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;
获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;
分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;
若所述分词条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。
优选地,所述扩展关键词还包括重写关键词,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
去除符合预设条件的分词条目term,获得重写关键词。
优选地,所述去除符合预设条件的分词条目term,获得重写关键词的步骤包括:
去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为{t1,t2,...,tm},其中m<n;
采用如下公式计算所述候选词的分值score:
score=0.6*scoreDelTerm+0.4*scoreSaved Terms
scoreDelTerm=1.0/(1+n-m)
scoreSavedTerms=]]>
0.4*scoreCoreCP+0.3*(1.0+Σi=0mtwi)/(1.0+Σi=0ntwi)+0.3*(1.0+Σi=0mwi)/(1.0+Σi=0nwi)]]>
scoreCoreCP=1CP_CORE∈(tag1,tag2,...tagn)0else]]>
其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品词的额外加分;
按候选词的分值score降序排列,取排列在前的预设数量的候选词作为重写关键词。
优选地,所述采用原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分的步骤包括:
分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;
计算所述候选检索结果与相应原始关键词或扩展关键词的相关性得分;
其中,所述相关性得分si采用如下公式计算获得:
si=0ri==0ri·wiri>0]]>
其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算的qi与候选检索结果的相关性得分,0≤ri≤1。
优选地,所述根据相关性得分从所述候选检索结果中提取最终检索结果的步骤包括:
按所述候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;
将所述待选检索结果与相应的原始关键词、扩展关键词进行相关性得分计算;
按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检索结果。
本申请实施例还公开了一种基于关键词的检索系统,包括:
原始关键词接收模块,用于接收提交的原始关键词;
分词模块,用于对所述原始关键词进行分词,获得分词条目term;
扩展关键词获取模块,用于按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;
权重分配模块,用于为各原始关键词和扩展关键词分配相应的权重;
检索模块,用于采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;
检索结果获得模块,用于根据所述相关性得分从所述候选检索结果中提取最终检索结果。
优选地,所述扩展关键词包括相似关键词,所述扩展关键词获取模块包括:
拼写纠错处理子模块,用于对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;
和/或,
拼写建议处理子模块,用于对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。
优选地,所述扩展关键词获取模块包括:
同义词替换子模块,用于获取所述分词条目term和/或分词条目term组合的同义词;以及,采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相似关键词。
优选地,所述扩展关键词获取模块包括:
第一单字去除子模块,用于获取分词条目term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;以及,统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。
优选地,所述扩展关键词获取模块包括:
第二单字去除子模块,用于获取分词条目term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;以及,若所述分词 条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。
优选地,所述扩展关键词还包括重写关键词,所述扩展关键词获取模块包括:
条目去除子模块,用于去除符合预设条件的分词条目term,获得重写关键词。
优选地,所述条目去除子模块进一步包括:
候选词生成单元,用于去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为{t1,t2,...,tm},其中m<n;
分值计算单元,用于采用如下公式计算所述候选词的分值score:
score=0.6*scoreDelTerm+0.4*scoreSavedTerms
scoreDelTerm=1.0/(1+n-m)
scoreSavedTerms=]]>
0.4*scoreCoreCP+0.3*(1.0+Σi=0mtwi)/(1.0+Σi=0ntwi)+0.3*(1.0+Σi=0mwi)/(1.0+Σi=0nwi)]]>
scoreCoreCP=1CP_CORE∈(tag1,tag2,...tagn)0else]]>
其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品词的额外加分;
排序选取单元,用于按候选词的分值score降序排列,取排列在前的预设数量的候选词作为重写关键词。
优选地,所述检索模块包括:
候选信息获取子模块,用于分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;
相关性计算子模块,用于计算所述候选检索结果与相应原始关键词或扩展关键词的相关性得分;
其中,所述相关性得分si采用如下公式计算获得:
si=0ri==0ri·wiri>0]]>
其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算的qi与候选检索结果的相关性得分,0≤ri≤1。
优选地,所述检索结果获得模块包括:
第一排序选取子模块,用于按所述候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;
第二排序选取子模块,用于将所述待选检索结果与相应的原始关键词、扩展关键词进行相关性得分计算,并按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检索结果。
与现有技术相比,本申请包括以下优点:
本申请实施例对于零少结果的query,通过query改写,将原始query和扩展query一同参与检索,在保证优先出原quey的检索结果的同时,提高检索的召回率。本申请还提出了多query检索排序的一般性方法,通过基于权重的query算分策略,对检索效果进行了有效优化。
附图说明
图1是本申请的一种基于关键词的检索方法实施例的步骤流程图;
图2是本申请的一种获取原始query(原始关键词)对应的QR词(扩展关键词)的具体示例的处理流程图;
图3是本申请的一种基于关键词的检索系统实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例的核心构思之一在于,采用原始关键词和一组基于该 原始关键词生成的扩展关键词进行检索,既能够明显提高零少结果query的召回率,又能同时保证原始query的检索结果优先召回。
参照图1,其示出了一种基于关键词的检索方法实施例的步骤流程图,具体可以包括以下步骤:
步骤101、接收提交的原始关键词;
其中,所述原始关键词可以为用户提交的原始query,也可以为任一种方式生成的原始query,本申请对此不作限制。
步骤102、对所述原始关键词进行分词,获得分词条目term;
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词。例如,我是一个学生,分词的结果是:我是一个学生。
下面介绍一些常用的分词方法:
1、基于字符串匹配的分词方法:是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
2、基于特征扫描或标志切分的分词方法:是指优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率;或者将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而提高切分的准确率。
3、基于理解的分词方法:是指通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。
4、基于统计的分词方法:是指,中文信息中由于字与字相邻共现的频率或概率能够较好的反映成词的可信度,所以可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息,以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典。
在具体实现中,可以采用一些分词工具,如采用Stanford的Chinese-Segmenter进行所述语料的批量分词处理,本申请对所述分词的方式不作限制。
步骤103、按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;
在本申请的一种优选实施例中,所述扩展关键词可以包括相似关键词,在这种情况下,所述步骤103可以包括如下子步骤:
子步骤S11、对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;
由于用户提交的原始query经常会出现一些错别字或错词,拼写纠错处理是利用字形、字音分析,对可能错误的query进行纠错处理。例如,将“黄挑苗”拼写纠错处理为“黄桃苗”。
和/或,
子步骤S12、对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。
用户输入原始query的过程中,通过分析用户输入的内容,提供一组 建议的query以节省输入成本,对于输入拼音、字母、数字混合的query时,这种体验尤其出色。例如,用户在输入原始query“手机”的过程中,可以提供“手机”、“手机电池”、“手机套”、“智能手机”等拼写建议处理的结果;在实际中,可以直接选择第一个拼写建议处理的结果作为相似关键词。若只有一个拼写建议处理结果,如输入“shoujidianchi”,仅提供有一个拼写建议处理的结果“手机电池”,则直接将该拼写建议处理的结果作为相似关键词。
当然,上述选取所述拼写建议处理的结果作为相似关键词的方式仅仅用作示例,本领域技术人员根据实际情况采用任一种选取方法都是可行的,本申请对此不作限制。
在本申请的一种优选实施例中,还可以通过以下子步骤生成原始关键词的相似关键词:
子步骤S21、获取所述分词条目term和/或分词条目term组合的同义词;
子步骤S22、采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相似关键词。
若原始query中的term或者term组合可以在预置的同义词表中找到可替换的同义词,那么可采用本实施例用同义词替换掉该term或者term组合,从而组合成新的query。例如,原始query为“黑胡椒牛肉棒”,同义词表中存在“黑胡椒”的同义词“黑椒”,那么将“黑椒牛肉棒”作为相似关键词进行添加。
在本申请的一种优选实施例中,还可以通过以下子步骤生成原始关键词的相似关键词:
子步骤S31、获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;
子步骤S32、获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;
子步骤S33、统计所述新词与原始关键词的相似度,若大于第一预设 阈值,则将所述新词作为相似关键词。
作为本申请实施例具体应用的一种示例,可以使用termweight对原始query进行分词,采用termweight可以对输入的一个短字符串(比如信息标题)和其他可选信息(比如信息类目id或者供应商id),通过分析,还可以给出输入字符中每一个term的词性和重要性打分。比如输入:供应mp3\mp4车载发射器。可以得到如下表所示的term、term词性和term重要性:

  term  词性  重要性  供应  FW  20  Mp3  CP_XIUSHI  90  \  BL  0  Mp4  CP_XIUSHI  90  车载  XS  40  发射器  CP_CORE  150

其中,term词性用于说明该词的类型。目前可以识别的类型是可以枚举的。在本例中主要包括:CP_CORE(产品核心词)、CP_XIUSHI(产品修饰词)、XS(一般性修饰词)、PP(品牌词)、XH(型号词)、QH(区划词)、BL(并列词)、以及PT(普通词)。
term重要性用于说明该词的重要性。如果term对于输入字符串的表意能力越强,则分数越高。一般来说:score(cp_core)>score(pp)>score>(xh)>score(cp_xiushi)>score(qh)>score(xs)>score(pt)。
在具体实现中,可以将上述term、term词性和term重要性组织为一个二维数组:
[Q]={{t1,tag1,w1,tw1},{t2,tag2,w2,tw2}...{tn,tagn,wn,twn}};
其中,ti为对原始query分词后的一个term,tagi为该term词性,wi为该term的重要性分数,twi分数是作为本实施例具体应用的一种示例,按照下表规则,对几种典型的term词性做了相应附加的分。

本实施例中的特征词性信息可由本领域技术人员根据实际情况任意设置,例如,参考上例,可以设置特征词性信息为产品修饰词、机构词或一般性修饰词、普通词、并列词等,遍历原始query中的term,如果对于某一个term Ti,它的词性为品牌词或区划词,则可以得到对Ti去掉一些字的新词Ni,然后对该新词与原始query进行相似度判断,比如进行文本相似度计算,若大于一定阈值,如80%,则将该新词作为相似关键词。如原始query为“滑盖式手机”,对其分词为:“滑盖式”(产品修饰词),“手机”(产品核心词),对具有产品修饰词词性的“滑盖式”去除一个字,生成新词“滑盖手机”,计算“滑盖手机”与“滑盖式手机”的相似度为80%,于是将“滑盖手机”作为相似关键词。
在本申请的一种优选实施例中,还可以通过以下子步骤生成原始关键词的相似关键词:
子步骤S41、获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;
子步骤S42、获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;
子步骤S43、分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;
子步骤S44、若所述分词条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。
在具体实现中,所述特征词性信息也可以采用开放式限定方式,例如,设置不为品牌词或区划词的词性信息即为特征词性信息。
例如,遍历原始query中的term,如果对于一个term Ti,它的词性不为品牌词或区划词,可以得到对Ti去掉一些字的新词Ni,进一步得到Ni和Ti作为query查询点击的offer的类目向量,计算Ti和Ni的点击类目向量的cosine相似度,若相似度高于0.8,则用Ni替换Ti生成新的query作为相似关键词中。以在电子商务平台的应用为例,用户发布的一条产品信息或求购信息可以称之为一条offer,所有的offer集合即为offer库。
例如,原始query为“杭州马鞍式花盆”,“马鞍式”被termweight分为一个term,“鞍式”和“马鞍式”差了一个字,类目点击向量的cosine相似度高于0.8,所以“杭州鞍式花盆”可以被作为相似关键词。
在本申请的一种优选实施例中,所述扩展关键词还可以包括重写关键词,在这种情况下,可以通过以下子步骤生成原始关键词对应的重写关键词:
子步骤S51、去除符合预设条件的分词条目term,获得重写关键词。
更为优选的是,所述子步骤S51可以包括如下子步骤:
子步骤S51-1、去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为{t1,t2,...,tm},其中m<n;
子步骤S51-2、采用如下公式计算所述候选词的分值score:
score=0.6*scoreDelTerm+0.4*scoreSaved Terms
scoreDelTerm=1.0/(1+n-m)
scoreSavedTerms=]]>
0.4*scoreCoreCP+0.3*(1.0+Σi=0mtwi)/(1.0+Σi=0ntwi)+0.3*(1.0+Σi=0mwi)/(1.0+Σi=0nwi)]]>
scoreCoreCP=1CP_CORE∈(tag1,tag2,...tagn)0else]]>
其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品词的额外加分;
子步骤S51-3、按候选词的分值score降序排列,取排列在前的预设数量的候选词作为重写关键词。
可以理解的是,本申请实施例采用多种QR(Query Rewrite,关键词改写)的方式,对于零少结果的query进行重写,从而提高搜索结果的召回率。其中,相似关键词(QR相似词)与原始query相比,相关度较高,信息损失程度较低。如“女式套装”重写为“女套装”。重写关键词(QR重写词)与原始query相比,相关度一般,有一定的信息损失,但核心产品词保持一致。如“以纯纯棉卫衣”重写为“以纯卫衣”。
步骤104、为各原始关键词和扩展关键词分配相应的权重;在实际中,可以为所述原始关键词分配固定权重,所述扩展关键词的权重可以根据在其生成过程中生成并分配,也可分配固定权重,本申请对此无需加以限制。
为使本领域技术人员更好地理解本申请实施例,以下通过一个在电子商务平台中具体应用的实例对上述步骤进一步说明。
参照图2所示的一种获取原始query(原始关键词)对应的QR词(扩展关键词)的具体处理流程图,具体可以包括如下步骤:
子步骤S201,前端获取用户输入的原始query Q,向QR服务器发送查询请求;
子步骤S202,对Q通过查询搜索展现日志进行召回结果数的预判, 判断Q召回的搜索结果数N是否大于预设阈值,如200,若是,则执行子步骤S203;否则执行子步骤S204;
子步骤S203,直接返回原始query Q,[QR]输出的结果为[QR]={{Q,1.0}}。
子步骤S204,如果N数值较小或N为零,则对原始query进行词法预处理。
首先需要使用termweight对进行分词、term词性、term重要性的获取,得到一个二维数组:
[Q]={{t1,tag1,w1,tw1},{t2,tag2,w2,tw2}...{tn,tagn,wn,twn}}。
其中,ti为Q分词后的一个term,tagi为该term词性,wi为该term的重要性分数,twi分数是按照下表规则,对几种典型的term词性做了相应附加的分。

然后顺序执行以下子步骤S205-209:
子步骤S205,对原始query进行拼写纠错操作。
对Q进行拼写纠错操作,如果Q能够输出拼写纠错的结果Q1,那么将Q1插入QR相似词中;如Q为“蓝球”,拼写纠错结果为“篮球”,那么将“篮球”插入QR相似词,输出数组状态为[QR]={{蓝球,1.0},{篮球,1.0}}。
子步骤S206,对原始query进行拼写建议检查。
如果Q的组成元素完全是字母、数字,并且拼写建议能够输出结果{S1,S2...Sk},那么将S 1插入到QR相似词中;如Q为“mp3shouji”,拼写 建议结果为{“mp3手机”,“mp3手机套”,...},将“mp3手机”插入QR相似词,输出数组状态为[QR]={{mp3shouji,1.C},{mp3手机,1.0}}。
子步骤S207,对原始query进行同义词替换操作。
原始Q中的term或者term组合片段能够在同义词表中找到可替换的同义词,那么会将同义词替换掉该term片段,组合成新的query。如原始query为“黑胡椒牛肉棒”,同义词表中“黑胡椒”的同义词为“黑椒”,那么将“黑椒牛肉棒”插入QR相似词,输出数组状态为[QR]={{黑胡椒牛肉棒,1.0},{黑椒牛肉棒,1.0}}。
子步骤S208,对原始query进行去单字操作。
遍历Q中的term,如果对于一个term Ti,它的词性不为品牌词或区划词,可以得到对Ti去掉一些字的新词Ni,进一步得到Ni和Ti作为query查询点击的offer的类目向量,计算Ti和Ni的点击类目向量的cosine相似度,若相似度高于0.8,则用Ni替换Ti生成新的query插入到QR相似词中。例如Q为“杭州马鞍式花盆”,“马鞍式”被termweight分为一个term,“鞍式”和“马鞍式”差了一个字,类目点击向量的cosine相似度高于0.8,所以“杭州鞍式花盆”被插入QR的相似词数组中。QR输出数组状态为[QR]={{杭州马鞍式花盆,1.0},{杭州鞍式花盆,1.0}}。
子步骤S209,对原始query进行去term操作。
对Q中的term进行一个或多个的去除,组合成新的query N,其中N包含的term数组为{t1,t2,...,tm},其中m<n,这里使用的打分公式为:
score=0.6*scoreDelTerm+0.4*scoreSaved Terms
scoreDelTerm=1.0/(1+n-m)
scoreSavedTerms=]]>
0.4*scoreCoreCP+0.3*(1.0+Σi=0mtwi)/(1.0+Σi=0ntwi)+0.3*(1.0+Σi=0mwi)/(1.0+Σi=0nwi)]]>
scoreCoreCP=1CP_CORE∈(tag1,tag2,...tagn)0else]]>
其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品 词的额外加分。对Q中去词得到的候选词进行评分得到每个词的score,按分数降序排列,取分数较高的候选词插入QR重写词数组中。
输出QR词的数组状态为:
[QR]={{Q,1.0},{Q′1,1.0},{Q′2,1.0}...,{Q′p,1.0},{Q″1,score1},{Q″2,score2}...,{Q″q,scoreq}
子步骤S210,QR服务器将经上述处理获得的QR词返回给前端。
在本实施例中,QR服务器接收到的query为原始搜索query Q,输出的结构可以形式化表示为一个二维数组:
[QR]=
{{Q,w0},{Q′1,w′1},{Q′2,w′2}...,{Q′p,w′p},{Q″1,w″1},{Q″2,w″2}...,{Q″q,w″q}}
其中,{Q,wo}表示原始query及其权重分;{Q′i,w′i}为QR相似词及其权重分,{Q″i,w″i}表示QR重写词,w0和w′i取值可以为1.0。
当然,所述生成原始关键词对应的扩展关键词的方式仅仅用作示例,本领域技术人员采用其它方式均是可行的,本申请对此无需加以限制。
步骤106、采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;
在本申请的一种优选实施例中,所述步骤106具体可以包括如下子步骤:
子步骤S61、分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;
子步骤S62、计算所述候选检索结果与相应原始关键词或扩展关键词的相关性得分;
其中,所述相关性得分si采用如下公式计算获得:
si=0ri==0ri·wiri>0]]>
其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算的qi与候选检索结果的相关性得分,0≤ri≤1。
步骤107、根据所述相关性得分从所述候选检索结果中提取最终检索结果。
在本申请的一种优选实施例中,所述步骤107具体可以包括如下子步骤:
子步骤S71、按所述候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;
子步骤S72、将所述待选检索结果与相应的原始关键词、扩展关键词进行相关性得分计算;
按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检索结果。
应用本实施例,在具体实现中,前端将原始query和扩展的query,按照一定的格式拼接后,向搜索引擎发送检索请求。搜索引擎解析检索请求,按照一定的规则进行第一遍检索。然后,将匹配度较高的检索结果进行第二次排序,从而得到精确的排序结果,将其返回给前端。
为使本领域技术人员更好地理解本申请,以下通过一个具体实例说明所述检索的过程。
1)搜索引擎收到的前端的检索请求串可以是按照一定的格式拼接的。对于多query检索,该检索串中至少需要包括如下信息,原始query,扩展query,以及每个query的权重。搜索引擎对解析好的检索串按query的权重降序排序,并存储到二维数组[QW]={{q0,w0},{q1, w1},...{qk,wk}}。其中,qi为一个query;wi为qi对应的权重因子。且当i<j时,wi≤wj
2)搜索引擎用[QW]中的每个qi,去检索offer库,将全匹配(qi中的任一个词必须至少在offer的关键区域如标题,属性,地域,公司名中出现)qi的那部分offer的id和相关性得分按照相关性得分降序排序,并保存到二维数组[oi]={{idi0,si0},{idi1,si1}...{idim,sim}}。其中,id为offer的标识,s为offer的相关性得分。且当i<j时,0<si≤sj。相关性得分的计算策略满足如下两条原则:
i)保持原有的相关性计算策略不变。
ii)考虑query的权重。在通过第i)计算出来的相关性得分相当(实际应用时,按照相关性得分的大小进行划档,这里所谓的相当就是同属于一个档位)时,保证权重越大的query的匹配结果优先被召回。
基于上述原则,一种通用的相关性得分计算公式如下:
si=0ri==0ri·wiri>0]]>
其中,wi是qi的权重。ri是qi与offer按照原有相关性计算策略计算出来的相关性得分,0≤ri≤1。si是qi与offer的相关性得分。
3)按照相关性得分的大小降序归并[oi],得到第一遍排序结果集,保存到一个三维数组中:
[Oi]={{q0,id00,s00},{q0,id01,s01},...,{q0,idm0,sm0},
{q1,id10,s10},{q0,id11,s11},...,{q1,idm1,sm1},

{qn,idn0,sn0},{qn,idn1,sn1},...,{qn,idmn,smn}}
需要注意的是,当一个offer同时能被多个query检索出来时,则[Oi]中只需要保存相关性得分最高的那个query的信息。这里,定义这个相关性最高的quey为命中query,认为offer是由该query检索出来的。
在实际应用时,由于相关性得分计算策略ii)的保证,也可以维护一份未命中offer的数据集合U。每次检索时,选择权重最大的q,去集合U中匹配,当offer被命中(相关性得分大于0)时,则从U中删除该offer。
4)根据实际需要,从[Oi]抽取前M条数据,送到排序模块进行精确的相关性得分计算。这里的计算方法与第2)步类似,唯一的差异在于2)中的策略i)的计算需要根据实际需要综合考虑多种因素。
当然,上述检索及排序的方法仅仅用作示例,本领域技术人员根据实际情况采用任一种方式都是可行的,本申请对此无需加以限制。
在具体实现中,可以由前端解析搜索结果,按照一定的形式展现给用户。
需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
参照图3,示出了本申请的一种基于关键词的检索系统实施例的结构框图,具体可以包括如下模块:
原始关键词接收模块301,用于接收提交的原始关键词;
分词模块302,用于对所述原始关键词进行分词,获得分词条目term;
扩展关键词获取模块303,用于按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;
权重分配模块304,用于为各原始关键词和扩展关键词分配相应的权重;
检索模块305,用于采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;
检索结果获得模块306,用于根据所述相关性得分从所述候选检索结果中提取最终检索结果。
在本申请的一种优选实施例中,所述扩展关键词可以包括相似关键词,所述扩展关键词获取模块303可以包括如下子模块:
拼写纠错处理子模块,用于对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;
和/或,
拼写建议处理子模块,用于对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。
在本申请的一种优选实施例中,所述扩展关键词可以包括相似关键词,所述扩展关键词获取模块303还可以包括如下子模块:
同义词替换子模块,用于获取所述分词条目term和/或分词条目term组合的同义词;以及,采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相似关键词。
在本申请的一种优选实施例中,所述扩展关键词可以包括相似关键词,所述扩展关键词获取模块303还可以包括如下子模块:
第一单字去除子模块,用于获取分词条目term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;以及,统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。
在本申请的一种优选实施例中,所述扩展关键词可以包括相似关键词,所述扩展关键词获取模块303还可以包括如下子模块:
第二单字去除子模块,用于获取分词条目term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;以及,若所述分词 条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。
在本申请的一种优选实施例中,所述扩展关键词可以包括重写关键词,所述扩展关键词获取模块303还可以包括如下子模块:
条目去除子模块,用于去除符合预设条件的分词条目term,获得重写关键词。
作为本申请实施例具体应用的一种示例,所述条目去除子模块进一步可以包括如下单元:
候选词生成单元,用于去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为{t1,t2,...,tm},其中m<n;
分值计算单元,用于采用如下公式计算所述候选词的分值score:
score=0.6*scoreDelTerm+0.4*scoreSaved Terms
scoreDelTerm=1.0/(1+n-m)
scoreSavedTerms=]]>
0.4*scoreCoreCP+0.3*(1.0+Σi=0mtwi)/(1.0+Σi=0ntwi)+0.3*(1.0+Σi=0mwi)/(1.0+Σi=0nwi)]]>
scoreCoreCP=1CP_CORE∈(tag1,tag2,...tagn)0else]]>
其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品词的额外加分;
排序选取单元,用于按候选词的分值score降序排列,取排列在前的预设数量的候选词作为重写关键词。
在本申请的一种优选实施例中,所述检索模块305具体可以包括如下子模块:
候选信息获取子模块,用于分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;
相关性计算子模块,用于计算所述候选检索结果与相应原始关键词 或扩展关键词的相关性得分;
其中,所述相关性得分si采用如下公式计算获得:
si=0ri==0ri·wiri>0]]>
其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算的qi与候选检索结果的相关性得分,0≤ri≤1。
在本申请的一种优选实施例中,所述检索结果获得模块306可以包括如下子模块:
第一排序选取子模块,用于按所述候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;
第二排序选取子模块,用于将所述待选检索结果与相应的原始关键词、扩展关键词进行相关性得分计算,并按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检索结果。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用 计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种基于关键词的检索方法和一种基于关键 词的检索系统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

一种基于关键词的检索方法和系统.pdf_第1页
第1页 / 共24页
一种基于关键词的检索方法和系统.pdf_第2页
第2页 / 共24页
一种基于关键词的检索方法和系统.pdf_第3页
第3页 / 共24页
点击查看更多>>
资源描述

《一种基于关键词的检索方法和系统.pdf》由会员分享,可在线阅读,更多相关《一种基于关键词的检索方法和系统.pdf(24页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103425687 A(43)申请公布日 2013.12.04CN103425687A*CN103425687A*(21)申请号 201210158906.7(22)申请日 2012.05.21G06F 17/30(2006.01)(71)申请人阿里巴巴集团控股有限公司地址英属开曼群岛大开曼资本大厦一座四层847号邮箱(72)发明人卢中县 王磊 杨松 陈超(74)专利代理机构北京润泽恒知识产权代理有限公司 11319代理人赵娟(54) 发明名称一种基于关键词的检索方法和系统(57) 摘要本申请提供了一种基于关键词的检索方法和系统,其中,所述方法包括:接收提交的原始关键。

2、词;对所述原始关键词进行分词,获得分词条目term;按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;为各原始关键词和扩展关键词分配相应的权重;采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;根据所述相关性得分从所述候选检索结果中提取最终检索结果。本申请可以提高零少结果query的召回率,从而提升用户的搜索体验和网站的点击率。(51)Int.Cl.权利要求书4页 说明书16页 附图3页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书4页 说明书16页 附图3页。

3、(10)申请公布号 CN 103425687 ACN 103425687 A1/4页21.一种基于关键词的检索方法,其特征在于,包括:接收提交的原始关键词;对所述原始关键词进行分词,获得分词条目term;按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;为各原始关键词和扩展关键词分配相应的权重;采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;根据所述相关性得分从所述候选检索结果中提取最终检索结果。2.根据权利要求1所述的方法,其特征在于,所述按照预置规则对所述分词条目term进。

4、行处理,生成所述原始关键词对应的扩展关键词的步骤包括:对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;和/或,对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。3.根据权利要求2所述的方法,其特征在于,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:获取所述分词条目term和/或分词条目term组合的同义词;采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相。

5、似关键词。4.根据权利要求2所述的方法,其特征在于,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。5.根据权利要求2所述的方法,其特征在于,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目te。

6、rm相比,少一个或多个字的新词;分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;若所述分词条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。6.根据权利要求1或2所述的方法,其特征在于,所述扩展关键词还包括重写关键词,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:去除符合预设条件的分词条目term,获得重写关键词。权 利 要 求 书CN 103425687 A2/4页37.根据权利要求6所述的方法,其特征在于,所述去除符合预设条件的分词条目te。

7、rm,获得重写关键词的步骤包括:去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为t1,t2,.,tm,其中mn;采用如下公式计算所述候选词的分值score:score0.6*scoreDelTerm+0.4*scoreSaved TermsscoreDelTerm1.0/(1+n-m)其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品词的额外加分;按候选词的分值score降序排列,取排列在前的预设数量的候选词作为重写关键词。8.根据权利要求1至7中任一项权利要求所述的方法,其特征在于,所述采用原始关键词和扩展关键词进。

8、行检索,获得匹配的候选检索结果及其相关性得分的步骤包括:分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;计算所述候选检索结果与相应原始关键词或扩展关键词的相关性得分;其中,所述相关性得分si采用如下公式计算获得:其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算的qi与候选检索结果的相关性得分,0ri1。9.根据权利要求8所述的方法,其特征在于,所述根据相关性得分从所述候选检索结果中提取最终检索结果的步骤包括:按所述候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;将所。

9、述待选检索结果与相应的原始关键词、扩展关键词进行相关性得分计算;按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检索结果。10.一种基于关键词的检索系统,其特征在于,包括:原始关键词接收模块,用于接收提交的原始关键词;分词模块,用于对所述原始关键词进行分词,获得分词条目term;扩展关键词获取模块,用于按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;权重分配模块,用于为各原始关键词和扩展关键词分配相应的权重;检索模块,用于采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关。

10、键词的权重计算获得;检索结果获得模块,用于根据所述相关性得分从所述候选检索结果中提取最终检索结权 利 要 求 书CN 103425687 A3/4页4果。11.根据权利要求10所述的系统,其特征在于,所述扩展关键词包括相似关键词,所述扩展关键词获取模块包括:拼写纠错处理子模块,用于对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;和/或,拼写建议处理子模块,用于对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。12.根据权利要求11所述的系统,其特征在于。

11、,所述扩展关键词获取模块包括:同义词替换子模块,用于获取所述分词条目term和/或分词条目term组合的同义词;以及,采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相似关键词。13.根据权利要求11所述的系统,其特征在于,所述扩展关键词获取模块包括:第一单字去除子模块,用于获取分词条目term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;以及,统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。14.根据权利要求11所述的系统,其特征在于,所。

12、述扩展关键词获取模块包括:第二单字去除子模块,用于获取分词条目term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;以及,若所述分词条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。15.根据权利要求10或11所述的系统,其特征在于,所述扩展关键词还包括重写关键词,所述扩展关键词获取模块包括:条目去除子模块,用于去除符合预设条件的分词条目term,获得重写关键词。16.根据。

13、权利要求15所述的系统,其特征在于,所述条目去除子模块进一步包括:候选词生成单元,用于去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为t1,t2,.,tm,其中mn;分值计算单元,用于采用如下公式计算所述候选词的分值score:score0.6*scoreDelTerm+0.4*scoreSaved TermsscoreDelTerm1.0/(1+n-m)其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品词的额外加分;排序选取单元,用于按候选词的分值score降序排列,取排列在前的预设数量的候选权 利 要 求 书CN。

14、 103425687 A4/4页5词作为重写关键词。17.根据权利要求10至16中任一项权利要求所述的系统,其特征在于,所述检索模块包括:候选信息获取子模块,用于分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;相关性计算子模块,用于计算所述候选检索结果与相应原始关键词或扩展关键词的相关性得分;其中,所述相关性得分si采用如下公式计算获得:其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算的qi与候选检索结果的相关性得分,0ri1。18.根据权利要求17所述的系统,其特征在于,所述检索结果获得模块包括:第一排序选取子模块,用于按所述。

15、候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;第二排序选取子模块,用于将所述待选检索结果与相应的原始关键词、扩展关键词进行相关性得分计算,并按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检索结果。权 利 要 求 书CN 103425687 A1/16页6一种基于关键词的检索方法和系统技术领域0001 本申请涉及信息搜索的技术领域,特别是涉及一种基于关键词的检索方法和一种基于关键词的检索系统。背景技术0002 随着网络技术的发展和普及,能帮助用户在海量的网络资源中搜索其所需信息的搜索引擎技术也得到了大力。

16、发展和普及,目前,搜索引擎已成为每个网民不可缺少的上网工具之一。0003 公知的是,搜索引擎是基于用户提交的关键词进行检索,用户在搜索页面输入检索关键词(query),搜索引擎会采用该query在其检索库中进行检索,判断是否有匹配的信息。然而,在实际中可能出现的一种情况是,搜索引擎可能在检索库中检索不到数据或检索到很少数据,对于这种检索不到数据或检索到很少数据的query,可以称之为零少结果query。如何提高零少结果query的召回率,以提升用户的搜索体验和网站的点击率,成为本领域技术人员迫切需要解决的问题。其中,召回率是指检索出的相关文档数和检索库中所有的相关文档数的比率,其衡量的是搜索系。

17、统的查全率。发明内容0004 本申请的目的是提供一种基于关键词的检索方法和系统,用以提高零少结果query的召回率,从而提升用户的搜索体验和网站的点击率。0005 为了解决上述问题,本申请公开了一种基于关键词的检索方法,包括:0006 接收提交的原始关键词;0007 对所述原始关键词进行分词,获得分词条目term;0008 按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;0009 为各原始关键词和扩展关键词分配相应的权重;0010 采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获。

18、得;0011 根据所述相关性得分从所述候选检索结果中提取最终检索结果。0012 优选地,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:0013 对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;0014 和/或,0015 对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。0016 优选地,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词说 明 书CN 103425687 A2/16页7对应。

19、的扩展关键词的步骤包括:0017 获取所述分词条目term和/或分词条目term组合的同义词;0018 采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相似关键词。0019 优选地,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:0020 获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;0021 获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;0022 统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。0023 优选地,所述按照预。

20、置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:0024 获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;0025 获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;0026 分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;0027 若所述分词条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。0028 优选地,所述扩展关键词还包括重写关键词,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键。

21、词的步骤包括:0029 去除符合预设条件的分词条目term,获得重写关键词。0030 优选地,所述去除符合预设条件的分词条目term,获得重写关键词的步骤包括:0031 去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为t1,t2,.,tm,其中mn;0032 采用如下公式计算所述候选词的分值score:0033 score0.6*scoreDelTerm+0.4*scoreSaved Terms0034 scoreDelTerm1.0/(1+n-m)0035 0036 0037 0038 其中,scoreDelterm为删除词的惩罚分数,score。

22、CoreCP为核心产品词的额外加分;0039 按候选词的分值score降序排列,取排列在前的预设数量的候选词作为重写关键词。0040 优选地,所述采用原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分的步骤包括:说 明 书CN 103425687 A3/16页80041 分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;0042 计算所述候选检索结果与相应原始关键词或扩展关键词的相关性得分;0043 其中,所述相关性得分si采用如下公式计算获得:0044 0045 其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算。

23、的qi与候选检索结果的相关性得分,0ri1。0046 优选地,所述根据相关性得分从所述候选检索结果中提取最终检索结果的步骤包括:0047 按所述候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;0048 将所述待选检索结果与相应的原始关键词、扩展关键词进行相关性得分计算;0049 按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检索结果。0050 本申请实施例还公开了一种基于关键词的检索系统,包括:0051 原始关键词接收模块,用于接收提交的原始关键词;0052 分词模块,用于对所述原始关键词进行分词,获得。

24、分词条目term;0053 扩展关键词获取模块,用于按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;0054 权重分配模块,用于为各原始关键词和扩展关键词分配相应的权重;0055 检索模块,用于采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;0056 检索结果获得模块,用于根据所述相关性得分从所述候选检索结果中提取最终检索结果。0057 优选地,所述扩展关键词包括相似关键词,所述扩展关键词获取模块包括:0058 拼写纠错处理子模块,用于对所述原始关键词的分词条目term和/或。

25、分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;0059 和/或,0060 拼写建议处理子模块,用于对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。0061 优选地,所述扩展关键词获取模块包括:0062 同义词替换子模块,用于获取所述分词条目term和/或分词条目term组合的同义词;以及,采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相似关键词。0063 优选地,所述扩展关键词获取模块包括:0064 第一单字去除子模块,用于获取分词条目。

26、term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的说 明 书CN 103425687 A4/16页9新词;以及,统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。0065 优选地,所述扩展关键词获取模块包括:0066 第二单字去除子模块,用于获取分词条目term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;以及,若所述分词条目term对应的用户。

27、点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。0067 优选地,所述扩展关键词还包括重写关键词,所述扩展关键词获取模块包括:0068 条目去除子模块,用于去除符合预设条件的分词条目term,获得重写关键词。0069 优选地,所述条目去除子模块进一步包括:0070 候选词生成单元,用于去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为t1,t2,.,tm,其中mn;0071 分值计算单元,用于采用如下公式计算所述候选词的分值score:0072 score0.6*scoreDelTerm+0.4*s。

28、coreSavedTerms0073 scoreDelTerm1.0/(1+n-m)0074 0075 0076 0077 其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品词的额外加分;0078 排序选取单元,用于按候选词的分值score降序排列,取排列在前的预设数量的候选词作为重写关键词。0079 优选地,所述检索模块包括:0080 候选信息获取子模块,用于分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;0081 相关性计算子模块,用于计算所述候选检索结果与相应原始关键词或扩展关键词的相关性得分;0082 其中,所述相关性得分si采。

29、用如下公式计算获得:0083 0084 其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算的qi与候选检索结果的相关性得分,0ri1。0085 优选地,所述检索结果获得模块包括:0086 第一排序选取子模块,用于按所述候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;说 明 书CN 103425687 A5/16页100087 第二排序选取子模块,用于将所述待选检索结果与相应的原始关键词、扩展关键词进行相关性得分计算,并按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检。

30、索结果。0088 与现有技术相比,本申请包括以下优点:0089 本申请实施例对于零少结果的query,通过query改写,将原始query和扩展query一同参与检索,在保证优先出原quey的检索结果的同时,提高检索的召回率。本申请还提出了多query检索排序的一般性方法,通过基于权重的query算分策略,对检索效果进行了有效优化。附图说明0090 图1是本申请的一种基于关键词的检索方法实施例的步骤流程图;0091 图2是本申请的一种获取原始query(原始关键词)对应的QR词(扩展关键词)的具体示例的处理流程图;0092 图3是本申请的一种基于关键词的检索系统实施例的结构框图。具体实施方式0。

31、093 为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。0094 本申请实施例的核心构思之一在于,采用原始关键词和一组基于该原始关键词生成的扩展关键词进行检索,既能够明显提高零少结果query的召回率,又能同时保证原始query的检索结果优先召回。0095 参照图1,其示出了一种基于关键词的检索方法实施例的步骤流程图,具体可以包括以下步骤:0096 步骤101、接收提交的原始关键词;0097 其中,所述原始关键词可以为用户提交的原始query,也可以为任一种方式生成的原始query,本申请对此不作限制。0098 步骤102、对所述原始关键。

32、词进行分词,获得分词条目term;0099 众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词。例如,我是一个学生,分词的结果是:我是一个学生。0100 下面介绍一些常用的分词方法:0101 1、基于字符串匹配的分词方法:是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。0102 2、基于特征扫描或标志切分的分词方法:是指优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分说 明 书CN 103425687 A10。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1