一种搜索引擎热点词分析算法.pdf

上传人:1*** 文档编号:623605 上传时间:2018-02-26 格式:PDF 页数:8 大小:3.73MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410326496.1

申请日:

2014.07.02

公开号:

CN104111999A

公开日:

2014.10.22

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||专利申请权的转移IPC(主分类):G06F 17/30登记生效日:20171101变更事项:申请人变更前权利人:烽火通信科技股份有限公司变更后权利人:南京烽火星空通信发展有限公司变更事项:地址变更前权利人:430070 湖北省武汉市洪山区邮科院路88号变更后权利人:210019 江苏省南京市建邺区云龙山路88号|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140702|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

烽火通信科技股份有限公司

发明人:

沈晓龙; 王峥; 李翔; 丁飞达

地址:

430070 湖北省武汉市洪山区邮科院路88号

优先权:

专利代理机构:

代理人:

PDF下载: PDF下载
内容摘要

本发明申请公开一种搜索引擎热点词分析算法,由横向和纵向两部分组成,横向部分对词语自身在相邻的两个周期内被搜索的次数进行处理,表示为其中,x1是词语在较近周期中出现的次数,x2是词语在较早周期中出现的次数,a是大于0的基数;纵向部分选取具有单调递增性质且在大于0区间的函数值大于0的函数对平衡因子M进行处理,M可以是搜索过词语的互联网用户的不重复IP个数、不重复radius个数或用户身份证个数;将横向部分和纵向部分的结果相乘即可得到最终的热点词分析结果;利用本发明申请所述方法,能够显著提高搜索引擎热点词得分算法的有效性和可靠性,提高算法的抗干扰能力,从而得到理性的、可用性强的结果。

权利要求书

1.  一种搜索引擎热点词分析算法,其特征在于:由横向和纵向两部分组成,横向部分对词语自身在相邻的两个周期内被搜索的次数进行处理,表示为其中,x1是词语在较近周期中出现的次数,x2是词语在较早周期中出现的次数,a是大于0的基数;
纵向部分选取具有单调递增性质且在大于0区间的函数值为正数的函数对平衡因子M进行处理,平衡因子M可以是搜索过词语的互联网用户的不重复IP个数、不重复radius个数或用户身份证个数;
将横向部分和纵向部分的结果相乘即可得到最终的热点词得分计算结果。

2.
  如权利要求1所述的一种搜索引擎热点词分析算法,其特征在于:较佳的,基数a设定为词语在较近周期被搜索次数的平均值。

3.
  如权利要求1所述的一种搜索引擎热点词分析算法,其特征在于:较佳的,选取作为纵向部分的函数,其中,n是大于1的正整数。

4.
  如权利要求3所述的一种搜索引擎热点词分析算法,其特征在于:较佳的,n=3时函数结果的区分程度能够满足一般性需求。

说明书

一种搜索引擎热点词分析算法
技术领域
本申请属于信息技术领域,涉及一种搜索引擎热点词分析算法。
背景技术
热点词,是指一定时间内被大量互联网用户通过搜索引擎搜索过的词语,相对于非热点词,热点词有搜索次数高的特点。一般的,通过一系列的方法处理词语在相邻的两个周期内出现的次数,将处理的结果筛选,就可以得到热点词。经过处理的结果叫做关键词得分,处理的方法叫做关键词得分算法。
现有的关键词得分算法是将词语在较近周期中被搜索次数减去词语在较早周期中被搜索的次数,然后再除以一个基数,基数可以是词语在较近周期中被搜索的次数,可以是词语在较早周期中被搜索的次数,也可以是同一词语在两个周期被搜索次数的和或者差,等等。下面是一个关键词得分算法的例子:

现有计算关键词得分的算法能够满足一些实际应用的要求,能够在实际应用中起到一部分作用,但容易受到干扰,得到的结果也让人难以满意。以上面的关键词得分算法的例子为计算公式,计算后得到如下表格所示的一组数据:

词语较早周期被搜索的次数较近周期被搜索的次数得分年货0569/暖手宝1675872.51497006虎牌21270.285714286天气9659850.020725389火车票6836930.014641288三中全会924365-0.604978355

可以发现表格中的数据存在以下一些问题:
A.“年货”是在较近周期才出现的新词语,经过现有的算法,由于分母为0,不能得到结果,在依据得分统计时,很有可能会被忽视。
B.“三中全会”的得分是负数,与其他的得分格式不同。
C.“虎牌”的搜索次数要远小于其他词语,但是它的得分却大于“大气”等词语。这样的词语我们称为噪声词。
显而易见,现有算法计算出来的结果是不理想的。对于一组词语数据,经过现有算法计算后,得 到的结果存在很多问题,这些问题让计算结果的可用性大大降低。
发明内容
本专利申请的目的在于克服现有算法的弊端,提高热点词分析算法的抗干扰能力,从而得到理想的、可用性强的结果。
为了解决上述技术问题,本专利申请提供了一种搜索引擎热点词分析算法。针对现有算法的缺点,通过改进算法中基数的使用,可以消除背景技术中所述的前两种缺点,但是,对于第三种缺点,经过改进后算法的计算,其得分大于某些在两个周期内搜索次数较多的词语的得分的现象依然存在。在实际的应用中,通过不断的观察和尝试,发现把改进后的算法和平衡因子的处理相结合,可以起到减小噪声词的得分的作用。其中,平衡因子可以是搜索过词语的互联网用户的不重复IP个数、不重复radius个数或用户身份证个数。本专利申请将二者结合,以达到提高算法抗干扰能力的目的。
横向部分对词语自身在相邻的两个周期内被搜索的次数进行处理,表示为其中,x1是词语在较近周期中出现的次数,x2是词语在较早周期中出现的次数,a是大于0的基数;
纵向部分选取具有单调递增性质且在大于0区间的函数值为正数的函数对平衡因子M进行处理,平衡因子M可以是搜索过词语的互联网用户的不重复IP个数、不重复radius个数或用户身份证个数;
将横向部分和纵向部分的结果相乘即可得到最终的热点词得分计算结果。
本申请的有益后果是:
本专利申请所述的搜索引擎热点词分析算法通过改进基数的使用,并将改进后的算法和平衡因子的处理相结合,明显降低噪声词对计算结果的影响,避免现有算法中出现无效结果的情况,能够显著提高搜索引擎热点词分析算法的有效性和可靠性,提高算法的抗干扰能力,还可以起到凸显新词语的效果,从而得到理性的、可用性强的结果。
附图说明
附图1为反三角函数曲线图。
具体实施方式
本专利申请所述的一种搜索引擎热点词分析算法,由横向和纵向两部分组成。横向部分对词语出现的次数进行处理,表示为其中x1≥1,x2≥0,a>0,x1是词语在相邻两周期中的 较近周期出现的次数,x2是词语在较早周期出现的次数,a为基数。该函数的曲线图是单调递增的。
对于满足条件x1≥1,x2≥0,a>0时,无论x1和x2如何变化,横向部分都能计算出结果。如果词语在较早周期中没有出现过,是一个在较近周期中才出现的新词语,通过的计算,也不会出现因分母为0而无法获得计算结果的情况,这样就可以避免有效词语没有计算结果的情况。
中,a是不变的,如果词语在较近周期中被搜索的次数x1一定,x1相对于在较早周期中被搜索的次数x2越大,函数值也会越大。这也会有一个极限,即较早周期中词语被搜索的次数是0,这时候横向部分等价于在x1≥1,a>0为前提的条件下,的值必然会大于作为在较近周期中被搜索次数一样的词语,最后的得分中,只在较近周期中才出现的新词语的得分会大于在两个周期中都出现的词语,这又能够起到凸显出新词语的作用。
经过反复的试验和论证,基数a的值设定为词语在较近周期被搜索次数的平均值时,函数的效果比较好。在背景技术所述例子中,基数a=(569+587+27+985+693+365)/6≈537,使用横向部分函数计算得到如下结果:
词语较早周期被搜索的次数较近周期被搜索的次数横向部分得分年货05690.672948328暖手宝1675870.614754098天气9659850.503304693虎牌21270.502669039火车票6836930.502039152三中全会9243650.381818182

背景技术中的表格对比可以看出计算的结果中不存在负数,在较近周期中才出现的“年货”的得分要高于其他词语。“三中全会”作为较近周期搜索次数小于较早周期的词语,得分也是最小的。噪声词“虎牌”的得分也不再大于搜索次数明显多于它的“天气”的得分,但是仍然高于“火车票”这样被大量搜索的词语的得分。
为了解决噪声词对结果的干扰,提高结果的可用性,仅仅有第一部分的处理显然是不够的。在实际应用中的噪声词有一个共性:搜索过噪声词的互联网用户的不重复IP个数、不重复radius个数或用户身份证个数很少。鉴于这个特点,本专利申请选择搜索词语的不重复IP个数、不重复radius个 数或用户身份证个数作为平衡因子。
下面以选择搜索过噪声词的互联网用户的不重复IP个数作为平衡因子为例来讲解纵向部分。平衡因子的计算需满足两个条件,一是平衡因子在大于0区间的函数值是单调递增的,二是平衡因子在大于0区间的函数值为正数。在本实施例中,我们选择使用反三角函数f(x)=arctan(x)的衍变作为纵向部分的函数。
反三角函数f(x)=arctan(x)的曲线图是单调递增的,在实际计算和运用中,只使用x≥0的部分,它的曲线的走势如附图1所示,其中横轴是x的值,纵轴是函数f(x)=arctan(x)的值。
假设横轴x的递增值为Δx个单位,现有Δf(x)=f(x)-f(x-Δx),从图中可看出,随着x的增大,函数f(x)=arctan(x)走势越来越趋于平缓,Δf(x)越来越趋向于零,区分度也是越来越小。从x=10以后,函数曲线增长的趋势就很小了。在实际情况中,搜索过噪声词的不重复IP个数M几乎都在一到几十之间,因为函数f(x)=arctan(x)在10以后的增长趋势很小的特点,经过f(x)=arctan(x)函数计算后,M大于10的噪声词的计算结果与非噪声词的计算结果的区分度也就很小,这样,再与横向部分结合,经过计算,最后得到的结果中噪声词的干扰依然可能会存在。
为了增大区分度,本实施例中采用开方的方式处理x。由于M是正整数,对于正整数,如果有x1>x2,则必然有(n是大于1的正数),这样f(x)=arctan(x)就变成了如此一来,噪声词的计算结果就会与非噪声词的计算结果有明显的区分度了。经过反复试验,当n=3的时候,函数结果的区分度就能够满足需要了。
当n=3时,纵向部分的计算结果为:

从结果可以看出,由于搜索过“虎牌”的互联网用户的不重复IP个数小于其他词语的,它的纵向部分得分也就明显小于其他词语,这也正是我们想要看到的。
综合横向部分、纵向部分,二者函数都是单调递增的函数,将二者相乘,能够起到降低噪声词对结果的影响,减少甚至消除对有效词语的干扰,可以得到较为理想的计算结果。同样用上面例子中的 数据,利用本专利申请所述方法,得到以下的计算结果:

从上表所示的结果可以发现,同样作为在较近周期中搜索次数多于较早周期中搜索次数的词语,“虎牌”由于搜索过他的用户IP个数太少,得分小于其他的词语。“年货”作为在较近周期中才出现的词语,得分明显高于其他词语,这样,通过本发明也可以起到凸显新词语的效果。对于不再被较近周期用户大量搜索的“三中全会”,它的得分是最小的。
以上实施方案的说明只适用于帮助理解本专利申请的原理,对本领域的一般技术人员,依据本专利申请实施例,在具体实施方式以及应用范围上均会有改变之处,例如,本发明中使用反三角函数的衍变来降低噪声词的影响,也可以采用对数函数及其他满足纵向部分条件的函数来替换,因此本说明书内容不应理解为对本专利申请的限制。

一种搜索引擎热点词分析算法.pdf_第1页
第1页 / 共8页
一种搜索引擎热点词分析算法.pdf_第2页
第2页 / 共8页
一种搜索引擎热点词分析算法.pdf_第3页
第3页 / 共8页
点击查看更多>>
资源描述

《一种搜索引擎热点词分析算法.pdf》由会员分享,可在线阅读,更多相关《一种搜索引擎热点词分析算法.pdf(8页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN104111999A43申请公布日20141022CN104111999A21申请号201410326496122申请日20140702G06F17/3020060171申请人烽火通信科技股份有限公司地址430070湖北省武汉市洪山区邮科院路88号72发明人沈晓龙王峥李翔丁飞达54发明名称一种搜索引擎热点词分析算法57摘要本发明申请公开一种搜索引擎热点词分析算法,由横向和纵向两部分组成,横向部分对词语自身在相邻的两个周期内被搜索的次数进行处理,表示为其中,X1是词语在较近周期中出现的次数,X2是词语在较早周期中出现的次数,A是大于0的基数;纵向部分选取具有单调递增性质且在大于。

2、0区间的函数值大于0的函数对平衡因子M进行处理,M可以是搜索过词语的互联网用户的不重复IP个数、不重复RADIUS个数或用户身份证个数;将横向部分和纵向部分的结果相乘即可得到最终的热点词分析结果;利用本发明申请所述方法,能够显著提高搜索引擎热点词得分算法的有效性和可靠性,提高算法的抗干扰能力,从而得到理性的、可用性强的结果。51INTCL权利要求书1页说明书5页附图1页19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书5页附图1页10申请公布号CN104111999ACN104111999A1/1页21一种搜索引擎热点词分析算法,其特征在于由横向和纵向两部分组成,横向部分对词。

3、语自身在相邻的两个周期内被搜索的次数进行处理,表示为其中,X1是词语在较近周期中出现的次数,X2是词语在较早周期中出现的次数,A是大于0的基数;纵向部分选取具有单调递增性质且在大于0区间的函数值为正数的函数对平衡因子M进行处理,平衡因子M可以是搜索过词语的互联网用户的不重复IP个数、不重复RADIUS个数或用户身份证个数;将横向部分和纵向部分的结果相乘即可得到最终的热点词得分计算结果。2如权利要求1所述的一种搜索引擎热点词分析算法,其特征在于较佳的,基数A设定为词语在较近周期被搜索次数的平均值。3如权利要求1所述的一种搜索引擎热点词分析算法,其特征在于较佳的,选取作为纵向部分的函数,其中,N是。

4、大于1的正整数。4如权利要求3所述的一种搜索引擎热点词分析算法,其特征在于较佳的,N3时函数结果的区分程度能够满足一般性需求。权利要求书CN104111999A1/5页3一种搜索引擎热点词分析算法技术领域0001本申请属于信息技术领域,涉及一种搜索引擎热点词分析算法。背景技术0002热点词,是指一定时间内被大量互联网用户通过搜索引擎搜索过的词语,相对于非热点词,热点词有搜索次数高的特点。一般的,通过一系列的方法处理词语在相邻的两个周期内出现的次数,将处理的结果筛选,就可以得到热点词。经过处理的结果叫做关键词得分,处理的方法叫做关键词得分算法。0003现有的关键词得分算法是将词语在较近周期中被搜。

5、索次数减去词语在较早周期中被搜索的次数,然后再除以一个基数,基数可以是词语在较近周期中被搜索的次数,可以是词语在较早周期中被搜索的次数,也可以是同一词语在两个周期被搜索次数的和或者差,等等。下面是一个关键词得分算法的例子00040005现有计算关键词得分的算法能够满足一些实际应用的要求,能够在实际应用中起到一部分作用,但容易受到干扰,得到的结果也让人难以满意。以上面的关键词得分算法的例子为计算公式,计算后得到如下表格所示的一组数据0006词语较早周期被搜索的次数较近周期被搜索的次数得分年货0569/暖手宝167587251497006虎牌21270285714286天气965985002072。

6、5389火车票6836930014641288三中全会92436506049783550007可以发现表格中的数据存在以下一些问题0008A“年货”是在较近周期才出现的新词语,经过现有的算法,由于分母为0,不能得到结果,在依据得分统计时,很有可能会被忽视。0009B“三中全会”的得分是负数,与其他的得分格式不同。0010C“虎牌”的搜索次数要远小于其他词语,但是它的得分却大于“大气”等词语。这样的词语我们称为噪声词。说明书CN104111999A2/5页40011显而易见,现有算法计算出来的结果是不理想的。对于一组词语数据,经过现有算法计算后,得到的结果存在很多问题,这些问题让计算结果的可用性。

7、大大降低。发明内容0012本专利申请的目的在于克服现有算法的弊端,提高热点词分析算法的抗干扰能力,从而得到理想的、可用性强的结果。0013为了解决上述技术问题,本专利申请提供了一种搜索引擎热点词分析算法。针对现有算法的缺点,通过改进算法中基数的使用,可以消除背景技术中所述的前两种缺点,但是,对于第三种缺点,经过改进后算法的计算,其得分大于某些在两个周期内搜索次数较多的词语的得分的现象依然存在。在实际的应用中,通过不断的观察和尝试,发现把改进后的算法和平衡因子的处理相结合,可以起到减小噪声词的得分的作用。其中,平衡因子可以是搜索过词语的互联网用户的不重复IP个数、不重复RADIUS个数或用户身份。

8、证个数。本专利申请将二者结合,以达到提高算法抗干扰能力的目的。0014横向部分对词语自身在相邻的两个周期内被搜索的次数进行处理,表示为其中,X1是词语在较近周期中出现的次数,X2是词语在较早周期中出现的次数,A是大于0的基数;0015纵向部分选取具有单调递增性质且在大于0区间的函数值为正数的函数对平衡因子M进行处理,平衡因子M可以是搜索过词语的互联网用户的不重复IP个数、不重复RADIUS个数或用户身份证个数;0016将横向部分和纵向部分的结果相乘即可得到最终的热点词得分计算结果。0017本申请的有益后果是0018本专利申请所述的搜索引擎热点词分析算法通过改进基数的使用,并将改进后的算法和平衡。

9、因子的处理相结合,明显降低噪声词对计算结果的影响,避免现有算法中出现无效结果的情况,能够显著提高搜索引擎热点词分析算法的有效性和可靠性,提高算法的抗干扰能力,还可以起到凸显新词语的效果,从而得到理性的、可用性强的结果。附图说明0019附图1为反三角函数曲线图。具体实施方式0020本专利申请所述的一种搜索引擎热点词分析算法,由横向和纵向两部分组成。横向部分对词语出现的次数进行处理,表示为其中X11,X20,A0,X1是词语在相邻两周期中的较近周期出现的次数,X2是词语在较早周期出现的次数,A为基数。该函数的曲线图是单调递增的。0021对于满足条件X11,X20,A0时,无论X1和X2如何变化,横。

10、向部分都能计算出结果。如果词语在较早周期中没有出现过,是一个在较近周期中才出现的说明书CN104111999A3/5页5新词语,通过的计算,也不会出现因分母为0而无法获得计算结果的情况,这样就可以避免有效词语没有计算结果的情况。0022在中,A是不变的,如果词语在较近周期中被搜索的次数X1一定,X1相对于在较早周期中被搜索的次数X2越大,函数值也会越大。这也会有一个极限,即较早周期中词语被搜索的次数是0,这时候横向部分等价于在X11,A0为前提的条件下,的值必然会大于作为在较近周期中被搜索次数一样的词语,最后的得分中,只在较近周期中才出现的新词语的得分会大于在两个周期中都出现的词语,这又能够起。

11、到凸显出新词语的作用。0023经过反复的试验和论证,基数A的值设定为词语在较近周期被搜索次数的平均值时,函数的效果比较好。在背景技术所述例子中,基数A56958727985693365/6537,使用横向部分函数计算得到如下结果0024词语较早周期被搜索的次数较近周期被搜索的次数横向部分得分年货05690672948328暖手宝1675870614754098天气9659850503304693虎牌21270502669039火车票6836930502039152三中全会92436503818181820025与背景技术中的表格对比可以看出计算的结果中不存在负数,在较近周期中才出现的“年货”的。

12、得分要高于其他词语。“三中全会”作为较近周期搜索次数小于较早周期的词语,得分也是最小的。噪声词“虎牌”的得分也不再大于搜索次数明显多于它的“天气”的得分,但是仍然高于“火车票”这样被大量搜索的词语的得分。0026为了解决噪声词对结果的干扰,提高结果的可用性,仅仅有第一部分的处理显然是不够的。在实际应用中的噪声词有一个共性搜索过噪声词的互联网用户的不重复IP个数、不重复RADIUS个数或用户身份证个数很少。鉴于这个特点,本专利申请选择搜索词语的不重复IP个数、不重复RADIUS个数或用户身份证个数作为平衡因子。0027下面以选择搜索过噪声词的互联网用户的不重复IP个数作为平衡因子为例来讲解纵向部。

13、分。平衡因子的计算需满足两个条件,一是平衡因子在大于0区间的函数值是单调递增的,二是平衡因子在大于0区间的函数值为正数。在本实施例中,我们选择使用反三角函数FXARCTANX的衍变作为纵向部分的函数。说明书CN104111999A4/5页60028反三角函数FXARCTANX的曲线图是单调递增的,在实际计算和运用中,只使用X0的部分,它的曲线的走势如附图1所示,其中横轴是X的值,纵轴是函数FXARCTANX的值。0029假设横轴X的递增值为X个单位,现有FXFXFXX,从图中可看出,随着X的增大,函数FXARCTANX走势越来越趋于平缓,FX越来越趋向于零,区分度也是越来越小。从X10以后,函。

14、数曲线增长的趋势就很小了。在实际情况中,搜索过噪声词的不重复IP个数M几乎都在一到几十之间,因为函数FXARCTANX在10以后的增长趋势很小的特点,经过FXARCTANX函数计算后,M大于10的噪声词的计算结果与非噪声词的计算结果的区分度也就很小,这样,再与横向部分结合,经过计算,最后得到的结果中噪声词的干扰依然可能会存在。0030为了增大区分度,本实施例中采用开方的方式处理X。由于M是正整数,对于正整数,如果有X1X2,则必然有且N是大于1的正数,这样FXARCTANX就变成了如此一来,噪声词的计算结果就会与非噪声词的计算结果有明显的区分度了。经过反复试验,当N3的时候,函数结果的区分度就。

15、能够满足需要了。0031当N3时,纵向部分的计算结果为00320033从结果可以看出,由于搜索过“虎牌”的互联网用户的不重复IP个数小于其他词语的,它的纵向部分得分也就明显小于其他词语,这也正是我们想要看到的。0034综合横向部分、纵向部分,二者函数都是单调递增的函数,将二者相乘,能够起到降低噪声词对结果的影响,减少甚至消除对有效词语的干扰,可以得到较为理想的计算结果。同样用上面例子中的数据,利用本专利申请所述方法,得到以下的计算结果00350036从上表所示的结果可以发现,同样作为在较近周期中搜索次数多于较早周期中搜说明书CN104111999A5/5页7索次数的词语,“虎牌”由于搜索过他的用户IP个数太少,得分小于其他的词语。“年货”作为在较近周期中才出现的词语,得分明显高于其他词语,这样,通过本发明也可以起到凸显新词语的效果。对于不再被较近周期用户大量搜索的“三中全会”,它的得分是最小的。0037以上实施方案的说明只适用于帮助理解本专利申请的原理,对本领域的一般技术人员,依据本专利申请实施例,在具体实施方式以及应用范围上均会有改变之处,例如,本发明中使用反三角函数的衍变来降低噪声词的影响,也可以采用对数函数及其他满足纵向部分条件的函数来替换,因此本说明书内容不应理解为对本专利申请的限制。说明书CN104111999A1/1页8图1说明书附图CN104111999A。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1