一种搜索词识别方法及装置技术领域
本申请涉及计算机领域,特别涉及一种搜索词识别方法及装置。
背景技术
搜索引擎接收的搜索词中往往包含错误搜索词(如因同音字选字错误产生的搜索
词、因拼音拼写错误产生的搜索词、因字形输入错误产生的搜索词),导致搜索结果不能满
足用户的需求。为了解决上述问题,目前多采用智能纠错技术对错误搜索词进行纠正,返回
更加准确的搜索结果至用户。
其中,智能纠错技术主要分为识别错误搜索词和纠正错误搜索词两个步骤。但是
智能纠错技术识别错误搜索词的能力有限,导致很多错误搜索词无法被识别,从而导致无
法对更多的错误搜索词进行纠正,造成搜索引擎无法返回更加精确的搜索结果至用户。
发明内容
为解决上述技术问题,本申请实施例提供一种数据交互处理方法及装置,以达到
使智能纠错技术识别出更多错误搜索词,从而对更多的错误搜索词进行纠正,使搜索引擎
返回更加精确的搜索结果给用户,提升用户的体验性的目的,技术方案如下:
一种搜索词识别方法,包括:
计算待识别搜索词的搜索点击率;
对所述待识别搜索词进行分词处理,得到多个词特征;
利用统计语言模型和各个所述词特征,计算所述待识别搜索词出现的概率;
计算所述待识别搜索词的全匹配结果数和相关结果数,所述全匹配结果数为针对
所述待识别搜索词的所有搜索结果中包含所述待识别搜索词的全部内容的结果的个数,所
述相关结果数为针对所述待识别搜索词的所有搜索结果中包含所述待识别搜索词的部分
内容的结果的个数;
计算所述全匹配结果数和所述相关结果数的比值,得到全匹配占比;
利用所述搜索点击率、各个所述词特征、所述待识别搜索词出现的概率、所述全匹
配结果数和所述全匹配占比,确定所述待识别搜索词为错误搜索词或正常搜索词。
优选的,所述利用所述搜索点击率、各个所述词特征、所述待识别搜索词出现的概
率、所述全匹配结果数和所述全匹配占比,确定所述待识别搜索词为错误搜索词或正常搜
索词的过程,包括:
利用错误率计算公式P(error)=fmdnα×fmdrβ×ctrχ×Pδ,计算所述待识别搜索
词的错误率,其中,P(error)为所述待识别搜索词的错误率,fmdn为所述全匹配结果数,
fmdr为所述全匹配占比,ctr为所述搜索点击率,P为所述待识别搜索词出现的概率,α为所
述全匹配结果数的比例指数,β为所述全匹配占比的比例指数,χ为所述搜索点击率的比例
指数,δ为所述待识别搜索词出现的概率的比例指数,α、β、χ和δ各自的取值范围为[0,1];
判断所述待识别搜索词的错误率是否小于预设错误率阈值;
若是,确定所述待识别搜索词为错误搜索词;
若否,确定所述待识别搜索词为正常搜索词。
优选的,所述利用所述搜索点击率、各个所述词特征、所述待识别搜索词出现的概
率、所述全匹配结果数和所述全匹配占比,确定所述待识别搜索词为错误搜索词或正常搜
索词的过程,包括:
判断所述搜索点击率是否大于第一预设阈值;
若是,确定所述待识别搜索词为正常搜索词;
若否,判断所述全匹配结果数是否小于第二预设阈值;
若否,确定所述待识别搜索词为正常搜索词;
若是,判断所述全匹配占比是否小于第三预设阈值;
若否,确定所述待识别搜索词为正常搜索词;
若是,判断各个所述词特征中是否包含剧名实体词特征;
若是,确定所述待识别搜索词为正常搜索词;
若否,判断所述待识别搜索词出现的概率是否小于第四预设阈值;
若否,确定所述待识别搜索词为正常搜索词;
若是,确定所述待识别搜索词为错误搜索词。
优选的,计算待识别搜索词的搜索点击率的过程,包括:
从搜索日志中获取用户针对所述待识别搜索词的搜索次数和点击搜索结果次数;
将所述点击搜索结果次数除以所述搜索次数,得到所述搜索点击率。
优选的,利用统计语言模型和各个所述词特征,计算所述待识别搜索词出现的概
率的过程,包括:
利用统计语言模型公式P(T)=P(W1W2…Wn)=P(W1)P(W2|W1)P(W3|W2)…P(Wn|
Wn-1),计算所述待识别搜索词出现的概率;
其中,P()为概率函数,T为所述待识别搜索词,W1W2…Wn为所述待识别搜索词的各
个所述词特征,P(W1)为W1在训练语料中出现的概率,P(Wi|Wj)为W1W2…Wn中任意两个词特
征Wi和Wj在所述训练语料中相邻出现的概率,i=j+1,i为大于1且不大于n的整数,j为不小
于1且不大于n-1的整数,n为所述待识别搜索词的词特征的个数,所述训练语料包括多个正
常搜索词。
优选的,计算所述待识别搜索词的全匹配结果数和相关结果数的过程,包括:
获取搜索引擎针对所述待识别搜索词返回的多个搜索结果;
分别判断所述搜索引擎针对所述待识别搜索词返回的各个搜索结果与所述待识
别搜索词的文本匹配度是否大于匹配阈值;
若是,确定所述搜索引擎针对所述待识别搜索词返回的搜索结果为全匹配结果;
若否,确定所述搜索引擎针对所述待识别搜索词返回的搜索结果为相关结果;
统计所述全匹配结果的个数,得到所述全匹配结果数;
统计所述相关结果的个数,得到所述相关结果数。
一种搜索词识别装置,包括:
第一计算单元,用于计算待识别搜索词的搜索点击率;
分词单元,用于对所述待识别搜索词进行分词处理,得到多个词特征;
第二计算单元,用于利用统计语言模型和各个所述词特征,计算所述待识别搜索
词出现的概率;
第三计算单元,用于计算所述待识别搜索词的全匹配结果数和相关结果数,所述
全匹配结果数为针对所述待识别搜索词的所有搜索结果中包含所述待识别搜索词的全部
内容的结果的个数,所述相关结果数为针对所述待识别搜索词的所有搜索结果中包含所述
待识别搜索词的部分内容的结果的个数;
第四计算单元,用于计算所述全匹配结果数和所述相关结果数的比值,得到全匹
配占比;
确定单元,用于利用所述搜索点击率、各个所述词特征、所述待识别搜索词出现的
概率、所述全匹配结果数和所述全匹配占比,确定所述待识别搜索词为错误搜索词或正常
搜索词。
优选的,所述确定单元包括:
第一计算子单元,用于利用错误率计算公式
计算所述待识别搜索词的错误率,其中,P(error)为所述待识别搜索词的错误率,fmdn为所
述全匹配结果数,fmdr为所述全匹配占比,ctr为所述搜索点击率,P为所述待识别搜索词出
现的概率,α为所述全匹配结果数的比例指数,β为所述全匹配占比的比例指数,χ为所述搜
索点击率的比例指数,δ为所述待识别搜索词出现的概率的比例指数,α、β、χ和δ各自的取值
范围为[0,1];
第一判断子单元,用于判断所述待识别搜索词的错误率是否小于预设错误率阈
值,若是,执行第一确定子单元确定所述待识别搜索词为错误搜索词,若否,执行第二确定
子单元确定所述待识别搜索词为正常搜索词。
优选的,所述确定单元包括:第二判断子单元、第三确定子单元、第三判断子单元、
第四判断子单元、第五判断子单元、第六判断子单元和第四确定子单元;
所述第二判断子单元,用于判断所述搜索点击率是否大于第一预设阈值,若是,执
行第三确定子单元确定所述待识别搜索词为正常搜索词,若否,执行所述第三判断子单元
判断所述全匹配结果数是否小于第二预设阈值,若否,执行所述第三确定子单元确定所述
待识别搜索词为正常搜索词,若是,执行所述第四判断子单元判断所述全匹配占比是否小
于第三预设阈值,若否,执行所述第三确定子单元确定所述待识别搜索词为正常搜索词,若
是,执行所述第五判断子单元判断各个所述词特征中是否包含剧名实体词特征,若是,执行
所述第三确定子单元确定所述待识别搜索词为正常搜索词,若否,执行所述第六判断子单
元判断所述待识别搜索词出现的概率是否小于第四预设阈值,若否,执行所述第三确定子
单元确定所述待识别搜索词为正常搜索词,若是,执行第四确定子单元确定所述待识别搜
索词为错误搜索词。
优选的,所述第一计算单元包括:
第一获取子单元,用于从搜索日志中获取用户针对所述待识别搜索词的搜索次数
和点击搜索结果次数;
第二计算子单元,用于将所述点击搜索结果次数除以所述搜索次数,得到所述搜
索点击率。
优选的,所述第二计算单元包括:
第三计算子单元,用于利用统计语言模型公式P(T)=P(W1W2…Wn)=P(W1)P(W2|
W1)P(W3|W2)…P(Wn|Wn-1),计算所述待识别搜索词出现的概率;
其中,P()为概率函数,T为所述待识别搜索词,W1W2…Wn为所述待识别搜索词的各
个所述词特征,P(W1)为W1在训练语料中出现的概率,P(Wi|Wj)为W1W2…Wn中任意两个词特
征Wi和Wj在所述训练语料中相邻出现的概率,i=j+1,i为大于1且不大于n的整数,j为不小
于1且不大于n-1的整数,n为所述待识别搜索词的词特征的个数,所述训练语料包括多个正
常搜索词。
优选的,所述第三计算单元包括:
第二获取子单元,用于获取搜索引擎针对所述待识别搜索词返回的多个搜索结
果;
第七判断子单元,用于分别判断所述搜索引擎针对所述待识别搜索词返回的各个
搜索结果与所述待识别搜索词的文本匹配度是否大于匹配阈值,若是,执行第五确定子单
元确定所述搜索引擎针对所述待识别搜索词返回的搜索结果为全匹配结果,若否,执行第
六确定子单元确定所述搜索引擎针对所述待识别搜索词返回的搜索结果为相关结果;
第一统计子单元,用于统计所述全匹配结果的个数,得到所述全匹配结果数;
第二统计子单元,用于统计所述相关结果的个数,得到所述相关结果数。
与现有技术相比,本申请的有益效果为:
在本申请中,通过融合待识别搜索词的多维度特征(即搜索点击率、各个所述词特
征、所述待识别搜索词出现的概率、所述全匹配结果数和所述全匹配占比),并基于多维度
特征对待识别搜索词进行识别,降低了对待识别搜索词进行识别的难度,从而提高了对待
识别搜索词的识别能力,有利于识别出待识别搜索词是否为错误搜索词。将搜索词识别方
法应用于智能纠错,可以使智能纠错技术识别出更多错误搜索词,从而对更多的错误搜索
词进行纠正,使搜索引擎返回更加精确的搜索结果给用户,提升用户的体验性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使
用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于
本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其
他的附图。
图1是本申请提供的搜索词识别方法的一种流程图;
图2是本申请提供的搜索词识别方法的一种子流程图;
图3是本申请提供的搜索词识别方法的另一种子流程图;
图4是本申请提供的搜索词识别方法的再一种子流程图;
图5是本申请提供的搜索词识别方法的再一种子流程图;
图6是本申请提供的搜索词识别装置的一种逻辑结构示意图;
图7是本申请提供的确定单元的一种逻辑结构示意图;
图8是本申请提供的确定单元的另一种逻辑结构示意图;
图9是本申请提供的第一计算单元的一种逻辑结构示意图;
图10是本申请提供的第三计算单元的一种逻辑结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于
本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本申请保护的范围。
实施例一
请参见图1,其示出了本申请提供的搜索词识别方法的一种流程图,可以包括以下
步骤:
步骤S11:计算待识别搜索词的搜索点击率。
在本实施例中,待识别搜索词的搜索点击率是指待识别搜索词的点击搜索结果次
数与搜索次数的比值。点击搜索结果次数即用户对搜索引擎针对待识别搜索词返回的搜索
结果的点击次数;搜索次数即用户搜索待识别搜索词的次数。
由于错误搜索词不能够正确描述用户的搜索意图,往往会导致用户对搜索结果的
满意度不高,用户的搜索点击率较低。因此,搜索点击率可以作为识别错误搜索词的一个重
要特征。
步骤S12:对所述待识别搜索词进行分词处理,得到多个词特征。
通常情况下,一个搜索词中包含完整剧名或者人名时,其为错误搜索词的概率会
极大的降低,因此可以通过判断词特征中是否包含剧名或人名等实体来确定待识别搜索词
是否为错误搜索词。
步骤S13:利用统计语言模型和各个所述词特征,计算所述待识别搜索词出现的概
率。
在本实施例中,统计语言模型为语言模型中的其中一种,可以描述自然语言内在
规律,并且统计语言模型通常是概率模型,计算机借助于统计语言模型的概率参数,可以估
计出自然语言中每个句子出现的可能性,而不是简单的判断该句子是否符合文法,而错误
搜索词相比于正常搜索词符合自由语言内置规律的可能性低,在自然语言中出现的可能性
低,因此可以将待识别搜索词出现的概率作为识别错误搜索词的一个重要特征,具体通过
利用统计语言模型和各个所述词特征,计算所述待识别搜索词出现的概率。
步骤S14:计算所述待识别搜索词的全匹配结果数和相关结果数。
其中,所述全匹配结果数为针对所述待识别搜索词的所有搜索结果中包含所述待
识别搜索词的全部内容的结果的个数,所述相关结果数为针对所述待识别搜索词的所有搜
索结果中包含所述待识别搜索词的部分内容的结果的个数。
一般而言,错误搜索词相比于正常搜索词的全匹配结果数少。例如,用户想要输入
的搜索词为“相关”,但是因同音字选字错误、拼音拼写错误产生的搜索词或字形输入错误
导致输入错误的搜索词“想关”,则搜索引擎针对“想关”的所有搜索结果中包含“想关”这个
词的搜索结果较少,但是如果输入的搜索词是“相关”,搜索引擎针对“相关”的所有搜索结
果中包含“相关”这个词的搜索结果较多。因此本实施例中可以将全匹配结果数作为识别错
误搜索词的一个重要特征。
步骤S15:计算所述全匹配结果数和所述相关结果数的比值,得到全匹配占比。
在一些极端情况下,比如搜索一些冷门的电影或电视剧,针对冷门的电影或冷门
的电视剧的搜索词的全匹配结果数很少,相应的,其相关结果数也比较少,但是全匹配占比
较高,因此需要采用全匹配占比区分正常搜索词和错误搜索词,从而将全匹配占比作为识
别错误搜索词的一个重要特征。
步骤S16:利用所述搜索点击率、各个所述词特征、所述待识别搜索词出现的概率、
所述全匹配结果数和所述全匹配占比,确定所述待识别搜索词为错误搜索词或正常搜索
词。
在本申请中,通过融合待识别搜索词的多维度特征(即搜索点击率、各个所述词特
征、所述待识别搜索词出现的概率、所述全匹配结果数和所述全匹配占比),并基于多维度
特征对待识别搜索词进行识别,降低了对待识别搜索词进行识别的难度,从而提高了对待
识别搜索词的识别能力,有利于识别出待识别搜索词是否为错误搜索词。将搜索词识别方
法应用于智能纠错,可以使智能纠错技术识别出更多错误搜索词,从而对更多的错误搜索
词进行纠正,使搜索引擎返回更加精确的搜索结果给用户,提升用户的体验性。
在本实施例中,利用所述搜索点击率、各个所述词特征、所述待识别搜索词出现的
概率、所述全匹配结果数和所述全匹配占比,确定所述待识别搜索词为错误搜索词或正常
搜索词的具体过程可以参见图2,可以包括以下步骤:
步骤S21:利用错误率计算公式P(error)=fmdnα×fmdrβ×ctrχ×Pδ,计算所述待
识别搜索词的错误率。
其中,P(error)为所述待识别搜索词的错误率,fmdn为所述全匹配结果数,fmdr为
所述全匹配占比,ctr为所述搜索点击率,P为所述待识别搜索词出现的概率,α为所述全匹
配结果数的比例指数,β为所述全匹配占比的比例指数,χ为所述搜索点击率的比例指数,δ
为所述待识别搜索词出现的概率的比例指数,α、β、χ和δ各自的取值范围为[0,1]。
步骤S22:判断所述待识别搜索词的错误率是否小于预设错误率阈值。
若是,执行步骤S23,若否,执行步骤S24。
步骤S23:确定所述待识别搜索词为错误搜索词。
步骤S24:确定所述待识别搜索词为正常搜索词。
当然,在本实施例中,在本实施例中,利用所述搜索点击率、各个所述词特征、所述
待识别搜索词出现的概率、所述全匹配结果数和所述全匹配占比,确定所述待识别搜索词
为错误搜索词或正常搜索词的具体过程也可以参见图3,可以包括以下步骤:
步骤S31:判断所述搜索点击率是否大于第一预设阈值。
若是,执行步骤S32,若否,执行步骤S33。
步骤S32:确定所述待识别搜索词为正常搜索词。
步骤S33:判断所述全匹配结果数是否小于第二预设阈值。
若否,执行步骤S32,若是,执行步骤S34。
步骤S34:判断所述全匹配占比是否小于第三预设阈值。
若否,执行步骤S32,若是,执行步骤S35。
步骤S35:判断各个所述词特征中是否包含剧名实体词特征。
若是,执行步骤S32,若否,执行步骤S36。
步骤S36:判断所述待识别搜索词出现的概率是否小于第四预设阈值。
若否,执行步骤S32,若是,执行步骤S37。
步骤S37:确定所述待识别搜索词为错误搜索词。
在本实施例中,第一预设阈值、第二预设阈值、第三预设阈值和第四预设阈值均为
经验值。
在本实施例中,利用所述搜索点击率、各个所述词特征、所述待识别搜索词出现的
概率、所述全匹配结果数和所述全匹配占比,确定所述待识别搜索词为错误搜索词或正常
搜索词的具体过程可以包括以下步骤:
步骤A11:利用所述搜索点击率、各个所述词特征、所述待识别搜索词出现的概率、
所述全匹配结果数和所述全匹配占比和错误搜索词分类器计算所述待识别搜索词的正类
概率和反类概率。
在本实施例中,错误搜索词分类器的生成过程包括:
获取多个不同的正类训练样本和多个不同的反类训练样本,其中,正类训练样本
为正常搜索词,反类训练样本为错误搜索词;
利用各个正类训练样本的搜索点击率、全匹配结果数、全匹配占比、搜索点击率、
正类训练样本出现的概率和各个词特征及各个反类训练样本的搜索点击率、全匹配结果
数、全匹配占比、搜索点击率、反类训练样本出现的概率和各个词特征,及机器学习算法训
练二分类模型,得到错误搜索词分类器。
在本实施例中,机器学习算法具体可以为svm或逻辑回归。
其中,正类训练样本的搜索点击率、全匹配结果数、全匹配占比、搜索点击率、正类
训练样本出现的概率和各个词特征的提取过程与待识别搜索词的相关特征的提取过程相
同,因此可以参见步骤S11至步骤S15,在此不再赘述。
反类训练样本的搜索点击率、全匹配结果数、全匹配占比、搜索点击率、反类训练
样本出现的概率和各个词特征的提取过程与待识别搜索词的相关特征的提取过程相同,因
此可以参见步骤S11至步骤S15,在此不再赘述。
步骤A12:在所述正类概率大于所述反类概率时,确定所述待识别搜索词的类别为
正。
步骤A13:在所述正类概率小于所述反类概率时,确定所述待识别搜索词的类别为
反。
步骤A14:在所述待识别搜索词的类别为正时,确定所述待识别搜索词为正常搜索
词。
步骤A15:在所述待识别搜索词的类别为反时,确定所述待识别搜索词为错误搜索
词。
在上述搜索词识别方法中,计算待识别搜索词的搜索点击率的具体过程可以参见
图4,可以包括以下步骤:
步骤S41:从搜索日志中获取用户针对所述待识别搜索词的搜索次数和点击搜索
结果次数。
步骤S42:将所述点击搜索结果次数除以所述搜索次数,得到所述搜索点击率。
在上述搜索词识别方法中,利用统计语言模型和各个所述词特征,计算所述待识
别搜索词出现的概率的过程具体为:
利用统计语言模型公式P(T)=P(W1W2…Wn)=P(W1)P(W2|W1)P(W3|W2)…P(Wn|
Wn-1),计算所述待识别搜索词出现的概率;
其中,P()为概率函数,T为所述待识别搜索词,W1W2…Wn为所述待识别搜索词的各
个所述词特征,P(W1)为W1在训练语料中出现的概率,P(Wi|Wj)为W1W2…Wn中任意两个词特
征Wi和Wj在所述训练语料中相邻出现的概率,i=j+1,i为大于1且不大于n的整数,j为不小
于1且不大于n-1的整数,n为所述待识别搜索词的词特征的个数,所述训练语料包括多个正
常搜索词。
需要说明的是,对于一些提供视频服务的应用,如爱奇艺,在进行搜索词识别时,
训练语料包括的搜索词具体可以为视频标题或历史搜索词(需要过滤搜索点击率较低的搜
索词以及错误搜索词)或一部分为视频标题及一部分为历史搜索词。
在上述搜索词识别方法中,计算所述待识别搜索词的全匹配结果数和相关结果数
的具体过程,可以参见图5,可以包括以下步骤:
步骤S51:获取搜索引擎针对所述待识别搜索词返回的多个搜索结果。
需要说明的是,搜索引擎在请求搜索结果时,必须去除常见停用词,以及预设词表
中的泛搜索词项。其中,对于一些提供视频服务的应用,泛搜索词项定义为搜索词以及视频
标题中出现概率非常高的词特征,比如:电影、电视剧、视频、高清、全集、中文版、英文版、港
剧、美剧等。
步骤S52:分别判断所述搜索引擎针对所述待识别搜索词返回的各个搜索结果与
所述待识别搜索词的文本匹配度是否大于匹配阈值。
若是,执行步骤S53,若否,执行步骤S54。
步骤S53:确定所述搜索引擎针对所述待识别搜索词返回的搜索结果为全匹配结
果。
步骤S54:确定所述搜索引擎针对所述待识别搜索词返回的搜索结果为相关结果。
步骤S55:统计所述全匹配结果的个数,得到所述全匹配结果数。
步骤S56:统计所述相关结果的个数,得到所述相关结果数。
实施例二
与上述方法实施例相对应,本实施例提供了一种搜索词识别装置,请参见图6,搜
索词识别装置包括:第一计算单元61、分词单元62、第二计算单元63、第三计算单元64、第四
计算单元65和确定单元66。
第一计算单元61,用于计算待识别搜索词的搜索点击率。
分词单元62,用于对所述待识别搜索词进行分词处理,得到多个词特征。
第二计算单元63,用于利用统计语言模型和各个所述词特征,计算所述待识别搜
索词出现的概率。
第三计算单元64,用于计算所述待识别搜索词的全匹配结果数和相关结果数,所
述全匹配结果数为针对所述待识别搜索词的所有搜索结果中包含所述待识别搜索词的全
部内容的结果的个数,所述相关结果数为针对所述待识别搜索词的所有搜索结果中包含所
述待识别搜索词的部分内容的结果的个数。
第四计算单元65,用于计算所述全匹配结果数和所述相关结果数的比值,得到全
匹配占比。
确定单元66,用于利用所述搜索点击率、各个所述词特征、所述待识别搜索词出现
的概率、所述全匹配结果数和所述全匹配占比,确定所述待识别搜索词为错误搜索词或正
常搜索词。
在本实施例中,确定单元66的具体结构请参见图7,确定单元66包括:第一计算子
单元71、第一判断子单元72、第一确定子单元73和第二确定子单元74。
第一计算子单元71,用于利用错误率计算公式P(error)=fmdnα×fmdrβ×ctrχ×P
δ,计算所述待识别搜索词的错误率。
其中,P(error)为所述待识别搜索词的错误率,fmdn为所述全匹配结果数,fmdr为
所述全匹配占比,ctr为所述搜索点击率,P为所述待识别搜索词出现的概率,α为所述全匹
配结果数的比例指数,β为所述全匹配占比的比例指数,χ为所述搜索点击率的比例指数,δ
为所述待识别搜索词出现的概率的比例指数,α、β、χ和δ各自的取值范围为[0,1]。
第一判断子单元72,用于判断所述待识别搜索词的错误率是否小于预设错误率阈
值,若是,执行第一确定子单元73确定所述待识别搜索词为错误搜索词,若否,执行第二确
定子单元74确定所述待识别搜索词为正常搜索词。
当然,在本实施例中,确定单元66的具体结构可以参见图8,确定单元66包括:第二
判断子单元81、第三确定子单元82、第三判断子单元83、第四判断子单元84、第五判断子单
元85、第六判断子单元86和第四确定子单元87。
所述第二判断子单元81,用于判断所述搜索点击率是否大于第一预设阈值,若是,
执行第三确定子单元82确定所述待识别搜索词为正常搜索词,若否,执行所述第三判断子
单元83判断所述全匹配结果数是否小于第二预设阈值,若否,执行所述第三确定子单元82
确定所述待识别搜索词为正常搜索词,若是,执行所述第四判断子单元84判断所述全匹配
占比是否小于第三预设阈值,若否,执行所述第三确定子单元82确定所述待识别搜索词为
正常搜索词,若是,执行所述第五判断子单元85判断各个所述词特征中是否包含剧名实体
词特征,若是,执行所述第三确定子单元82确定所述待识别搜索词为正常搜索词,若否,执
行所述第六判断子单元86判断所述待识别搜索词出现的概率是否小于第四预设阈值,若
否,执行所述第三确定子单元82确定所述待识别搜索词为正常搜索词,若是,执行第四确定
子单元87确定所述待识别搜索词为错误搜索词。
在本实施例中,确定单元66具体可以包括:第二计算子单元、第五确定子单元、第
六确定子单元、第七确定子单元和第八确定子单元。
所述第二计算子单元,用于利用所述搜索点击率、各个所述词特征、所述待识别搜
索词出现的概率、所述全匹配结果数和所述全匹配占比和错误搜索词分类器计算所述待识
别搜索词的正类概率和反类概率。
所述第五确定子单元,用于在所述正类概率大于所述反类概率时,确定所述待识
别搜索词的类别为正。
第六确定子单元,用于在所述正类概率小于所述反类概率时,确定所述待识别搜
索词的类别为反。
第七确定子单元,用于在所述待识别搜索词的类别为正时,确定所述待识别搜索
词为正常搜索词。
第八确定子单元,用于在所述待识别搜索词的类别为反时,确定所述待识别搜索
词为错误搜索词。
在上述搜索词识别装置中,第一计算单元61可以包括:第一获取子单元91和第三
计算子单元92,如图9所示。
第一获取子单元91,用于从搜索日志中获取用户针对所述待识别搜索词的搜索次
数和点击搜索结果次数。
第三计算子单元92,用于将所述点击搜索结果次数除以所述搜索次数,得到所述
搜索点击率。
在上述搜索词识别装置中,第二计算单元63包括:第四计算子单元,用于利用统计
语言模型公式P(T)=P(W1W2…Wn)=P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1),计算所述待识
别搜索词出现的概率;
其中,P()为概率函数,T为所述待识别搜索词,W1W2…Wn为所述待识别搜索词的各
个所述词特征,P(W1)为W1在训练语料中出现的概率,P(Wi|Wj)为W1W2…Wn中任意两个词特
征Wi和Wj在所述训练语料中相邻出现的概率,i=j+1,i为大于1且不大于n的整数,j为不小
于1且不大于n-1的整数,n为所述待识别搜索词的词特征的个数,所述训练语料包括多个正
常搜索词。
在上述搜索词识别装置中,第三计算单元64可以包括:第二获取子单元101、第七
判断子单元102、第五确定子单元103、第六确定子单元104、第一统计子单元105和第二统计
子单元106。
第二获取子单元101,用于获取搜索引擎针对所述待识别搜索词返回的多个搜索
结果。
第七判断子单元102,用于分别判断所述搜索引擎针对所述待识别搜索词返回的
各个搜索结果与所述待识别搜索词的文本匹配度是否大于匹配阈值,若是,执行第五确定
子单元103确定所述搜索引擎针对所述待识别搜索词返回的搜索结果为全匹配结果,若否,
执行第六确定子单元104确定所述搜索引擎针对所述待识别搜索词返回的搜索结果为相关
结果。
第一统计子单元105,用于统计所述全匹配结果的个数,得到所述全匹配结果数。
第二统计子单元106,用于统计所述相关结果的个数,得到所述相关结果数。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重
点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参
见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将
一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作
之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意
在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那
些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者
设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排
除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种搜索词识别方法及装置进行了详细介绍,本文中应用
了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解
本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具
体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请
的限制。