《一种基于关键词的检索方法和系统.pdf》由会员分享,可在线阅读,更多相关《一种基于关键词的检索方法和系统.pdf(24页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103425687 A(43)申请公布日 2013.12.04CN103425687A*CN103425687A*(21)申请号 201210158906.7(22)申请日 2012.05.21G06F 17/30(2006.01)(71)申请人阿里巴巴集团控股有限公司地址英属开曼群岛大开曼资本大厦一座四层847号邮箱(72)发明人卢中县 王磊 杨松 陈超(74)专利代理机构北京润泽恒知识产权代理有限公司 11319代理人赵娟(54) 发明名称一种基于关键词的检索方法和系统(57) 摘要本申请提供了一种基于关键词的检索方法和系统,其中,所述方法包括:接收提交的原始关键。
2、词;对所述原始关键词进行分词,获得分词条目term;按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;为各原始关键词和扩展关键词分配相应的权重;采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;根据所述相关性得分从所述候选检索结果中提取最终检索结果。本申请可以提高零少结果query的召回率,从而提升用户的搜索体验和网站的点击率。(51)Int.Cl.权利要求书4页 说明书16页 附图3页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书4页 说明书16页 附图3页。
3、(10)申请公布号 CN 103425687 ACN 103425687 A1/4页21.一种基于关键词的检索方法,其特征在于,包括:接收提交的原始关键词;对所述原始关键词进行分词,获得分词条目term;按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;为各原始关键词和扩展关键词分配相应的权重;采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;根据所述相关性得分从所述候选检索结果中提取最终检索结果。2.根据权利要求1所述的方法,其特征在于,所述按照预置规则对所述分词条目term进。
4、行处理,生成所述原始关键词对应的扩展关键词的步骤包括:对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;和/或,对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。3.根据权利要求2所述的方法,其特征在于,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:获取所述分词条目term和/或分词条目term组合的同义词;采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相。
5、似关键词。4.根据权利要求2所述的方法,其特征在于,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。5.根据权利要求2所述的方法,其特征在于,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目te。
6、rm相比,少一个或多个字的新词;分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;若所述分词条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。6.根据权利要求1或2所述的方法,其特征在于,所述扩展关键词还包括重写关键词,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:去除符合预设条件的分词条目term,获得重写关键词。权 利 要 求 书CN 103425687 A2/4页37.根据权利要求6所述的方法,其特征在于,所述去除符合预设条件的分词条目te。
7、rm,获得重写关键词的步骤包括:去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为t1,t2,.,tm,其中mn;采用如下公式计算所述候选词的分值score:score0.6*scoreDelTerm+0.4*scoreSaved TermsscoreDelTerm1.0/(1+n-m)其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品词的额外加分;按候选词的分值score降序排列,取排列在前的预设数量的候选词作为重写关键词。8.根据权利要求1至7中任一项权利要求所述的方法,其特征在于,所述采用原始关键词和扩展关键词进。
8、行检索,获得匹配的候选检索结果及其相关性得分的步骤包括:分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;计算所述候选检索结果与相应原始关键词或扩展关键词的相关性得分;其中,所述相关性得分si采用如下公式计算获得:其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算的qi与候选检索结果的相关性得分,0ri1。9.根据权利要求8所述的方法,其特征在于,所述根据相关性得分从所述候选检索结果中提取最终检索结果的步骤包括:按所述候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;将所。
9、述待选检索结果与相应的原始关键词、扩展关键词进行相关性得分计算;按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检索结果。10.一种基于关键词的检索系统,其特征在于,包括:原始关键词接收模块,用于接收提交的原始关键词;分词模块,用于对所述原始关键词进行分词,获得分词条目term;扩展关键词获取模块,用于按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;权重分配模块,用于为各原始关键词和扩展关键词分配相应的权重;检索模块,用于采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关。
10、键词的权重计算获得;检索结果获得模块,用于根据所述相关性得分从所述候选检索结果中提取最终检索结权 利 要 求 书CN 103425687 A3/4页4果。11.根据权利要求10所述的系统,其特征在于,所述扩展关键词包括相似关键词,所述扩展关键词获取模块包括:拼写纠错处理子模块,用于对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;和/或,拼写建议处理子模块,用于对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。12.根据权利要求11所述的系统,其特征在于。
11、,所述扩展关键词获取模块包括:同义词替换子模块,用于获取所述分词条目term和/或分词条目term组合的同义词;以及,采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相似关键词。13.根据权利要求11所述的系统,其特征在于,所述扩展关键词获取模块包括:第一单字去除子模块,用于获取分词条目term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;以及,统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。14.根据权利要求11所述的系统,其特征在于,所。
12、述扩展关键词获取模块包括:第二单字去除子模块,用于获取分词条目term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;以及,若所述分词条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。15.根据权利要求10或11所述的系统,其特征在于,所述扩展关键词还包括重写关键词,所述扩展关键词获取模块包括:条目去除子模块,用于去除符合预设条件的分词条目term,获得重写关键词。16.根据。
13、权利要求15所述的系统,其特征在于,所述条目去除子模块进一步包括:候选词生成单元,用于去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为t1,t2,.,tm,其中mn;分值计算单元,用于采用如下公式计算所述候选词的分值score:score0.6*scoreDelTerm+0.4*scoreSaved TermsscoreDelTerm1.0/(1+n-m)其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品词的额外加分;排序选取单元,用于按候选词的分值score降序排列,取排列在前的预设数量的候选权 利 要 求 书CN。
14、 103425687 A4/4页5词作为重写关键词。17.根据权利要求10至16中任一项权利要求所述的系统,其特征在于,所述检索模块包括:候选信息获取子模块,用于分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;相关性计算子模块,用于计算所述候选检索结果与相应原始关键词或扩展关键词的相关性得分;其中,所述相关性得分si采用如下公式计算获得:其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算的qi与候选检索结果的相关性得分,0ri1。18.根据权利要求17所述的系统,其特征在于,所述检索结果获得模块包括:第一排序选取子模块,用于按所述。
15、候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;第二排序选取子模块,用于将所述待选检索结果与相应的原始关键词、扩展关键词进行相关性得分计算,并按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检索结果。权 利 要 求 书CN 103425687 A1/16页6一种基于关键词的检索方法和系统技术领域0001 本申请涉及信息搜索的技术领域,特别是涉及一种基于关键词的检索方法和一种基于关键词的检索系统。背景技术0002 随着网络技术的发展和普及,能帮助用户在海量的网络资源中搜索其所需信息的搜索引擎技术也得到了大力。
16、发展和普及,目前,搜索引擎已成为每个网民不可缺少的上网工具之一。0003 公知的是,搜索引擎是基于用户提交的关键词进行检索,用户在搜索页面输入检索关键词(query),搜索引擎会采用该query在其检索库中进行检索,判断是否有匹配的信息。然而,在实际中可能出现的一种情况是,搜索引擎可能在检索库中检索不到数据或检索到很少数据,对于这种检索不到数据或检索到很少数据的query,可以称之为零少结果query。如何提高零少结果query的召回率,以提升用户的搜索体验和网站的点击率,成为本领域技术人员迫切需要解决的问题。其中,召回率是指检索出的相关文档数和检索库中所有的相关文档数的比率,其衡量的是搜索系。
17、统的查全率。发明内容0004 本申请的目的是提供一种基于关键词的检索方法和系统,用以提高零少结果query的召回率,从而提升用户的搜索体验和网站的点击率。0005 为了解决上述问题,本申请公开了一种基于关键词的检索方法,包括:0006 接收提交的原始关键词;0007 对所述原始关键词进行分词,获得分词条目term;0008 按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;0009 为各原始关键词和扩展关键词分配相应的权重;0010 采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获。
18、得;0011 根据所述相关性得分从所述候选检索结果中提取最终检索结果。0012 优选地,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:0013 对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;0014 和/或,0015 对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。0016 优选地,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词说 明 书CN 103425687 A2/16页7对应。
19、的扩展关键词的步骤包括:0017 获取所述分词条目term和/或分词条目term组合的同义词;0018 采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相似关键词。0019 优选地,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:0020 获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;0021 获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;0022 统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。0023 优选地,所述按照预。
20、置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:0024 获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;0025 获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;0026 分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;0027 若所述分词条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。0028 优选地,所述扩展关键词还包括重写关键词,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键。
21、词的步骤包括:0029 去除符合预设条件的分词条目term,获得重写关键词。0030 优选地,所述去除符合预设条件的分词条目term,获得重写关键词的步骤包括:0031 去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为t1,t2,.,tm,其中mn;0032 采用如下公式计算所述候选词的分值score:0033 score0.6*scoreDelTerm+0.4*scoreSaved Terms0034 scoreDelTerm1.0/(1+n-m)0035 0036 0037 0038 其中,scoreDelterm为删除词的惩罚分数,score。
22、CoreCP为核心产品词的额外加分;0039 按候选词的分值score降序排列,取排列在前的预设数量的候选词作为重写关键词。0040 优选地,所述采用原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分的步骤包括:说 明 书CN 103425687 A3/16页80041 分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;0042 计算所述候选检索结果与相应原始关键词或扩展关键词的相关性得分;0043 其中,所述相关性得分si采用如下公式计算获得:0044 0045 其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算。
23、的qi与候选检索结果的相关性得分,0ri1。0046 优选地,所述根据相关性得分从所述候选检索结果中提取最终检索结果的步骤包括:0047 按所述候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;0048 将所述待选检索结果与相应的原始关键词、扩展关键词进行相关性得分计算;0049 按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检索结果。0050 本申请实施例还公开了一种基于关键词的检索系统,包括:0051 原始关键词接收模块,用于接收提交的原始关键词;0052 分词模块,用于对所述原始关键词进行分词,获得。
24、分词条目term;0053 扩展关键词获取模块,用于按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;0054 权重分配模块,用于为各原始关键词和扩展关键词分配相应的权重;0055 检索模块,用于采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;0056 检索结果获得模块,用于根据所述相关性得分从所述候选检索结果中提取最终检索结果。0057 优选地,所述扩展关键词包括相似关键词,所述扩展关键词获取模块包括:0058 拼写纠错处理子模块,用于对所述原始关键词的分词条目term和/或。
25、分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;0059 和/或,0060 拼写建议处理子模块,用于对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。0061 优选地,所述扩展关键词获取模块包括:0062 同义词替换子模块,用于获取所述分词条目term和/或分词条目term组合的同义词;以及,采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相似关键词。0063 优选地,所述扩展关键词获取模块包括:0064 第一单字去除子模块,用于获取分词条目。
26、term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的说 明 书CN 103425687 A4/16页9新词;以及,统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。0065 优选地,所述扩展关键词获取模块包括:0066 第二单字去除子模块,用于获取分词条目term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;以及,若所述分词条目term对应的用户。
27、点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。0067 优选地,所述扩展关键词还包括重写关键词,所述扩展关键词获取模块包括:0068 条目去除子模块,用于去除符合预设条件的分词条目term,获得重写关键词。0069 优选地,所述条目去除子模块进一步包括:0070 候选词生成单元,用于去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为t1,t2,.,tm,其中mn;0071 分值计算单元,用于采用如下公式计算所述候选词的分值score:0072 score0.6*scoreDelTerm+0.4*s。
28、coreSavedTerms0073 scoreDelTerm1.0/(1+n-m)0074 0075 0076 0077 其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品词的额外加分;0078 排序选取单元,用于按候选词的分值score降序排列,取排列在前的预设数量的候选词作为重写关键词。0079 优选地,所述检索模块包括:0080 候选信息获取子模块,用于分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;0081 相关性计算子模块,用于计算所述候选检索结果与相应原始关键词或扩展关键词的相关性得分;0082 其中,所述相关性得分si采。
29、用如下公式计算获得:0083 0084 其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算的qi与候选检索结果的相关性得分,0ri1。0085 优选地,所述检索结果获得模块包括:0086 第一排序选取子模块,用于按所述候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;说 明 书CN 103425687 A5/16页100087 第二排序选取子模块,用于将所述待选检索结果与相应的原始关键词、扩展关键词进行相关性得分计算,并按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检。
30、索结果。0088 与现有技术相比,本申请包括以下优点:0089 本申请实施例对于零少结果的query,通过query改写,将原始query和扩展query一同参与检索,在保证优先出原quey的检索结果的同时,提高检索的召回率。本申请还提出了多query检索排序的一般性方法,通过基于权重的query算分策略,对检索效果进行了有效优化。附图说明0090 图1是本申请的一种基于关键词的检索方法实施例的步骤流程图;0091 图2是本申请的一种获取原始query(原始关键词)对应的QR词(扩展关键词)的具体示例的处理流程图;0092 图3是本申请的一种基于关键词的检索系统实施例的结构框图。具体实施方式0。
31、093 为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。0094 本申请实施例的核心构思之一在于,采用原始关键词和一组基于该原始关键词生成的扩展关键词进行检索,既能够明显提高零少结果query的召回率,又能同时保证原始query的检索结果优先召回。0095 参照图1,其示出了一种基于关键词的检索方法实施例的步骤流程图,具体可以包括以下步骤:0096 步骤101、接收提交的原始关键词;0097 其中,所述原始关键词可以为用户提交的原始query,也可以为任一种方式生成的原始query,本申请对此不作限制。0098 步骤102、对所述原始关键。
32、词进行分词,获得分词条目term;0099 众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词。例如,我是一个学生,分词的结果是:我是一个学生。0100 下面介绍一些常用的分词方法:0101 1、基于字符串匹配的分词方法:是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。0102 2、基于特征扫描或标志切分的分词方法:是指优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分说 明 书CN 103425687 A10。