《一种网络搜索词的聚类方法和聚类装置.pdf》由会员分享,可在线阅读,更多相关《一种网络搜索词的聚类方法和聚类装置.pdf(19页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104199833A43申请公布日20141210CN104199833A21申请号201410377357122申请日20140801G06F17/30200601G06F17/2720060171申请人北京奇虎科技有限公司地址100088北京市西城区新街口外大街28号D座112室(德胜园区)申请人奇智软件(北京)有限公司72发明人孙鹏飞74专利代理机构北京市隆安律师事务所11323代理人权鲜枝吴昊54发明名称一种网络搜索词的聚类方法和聚类装置57摘要本发明公开了一种网络搜索词的聚类方法和聚类装置,所述方法包括对相同URL的网络搜索词,根据URL抓取网页相关内容,生成短文本。
2、信息;对短文本信息提取关键词,并根据关键词获取每条短文本信息对应的关键词向量;判断任两个关键词向量是否为相似的关键词向量;当存在相似的两个关键词向量时,对相似的两个关键词向量进行合并,生成一个新的关键词向量代替所述相似的两个关键词向量,并继续判断任两个关键词向量是否为相似的关键词向量;当不存在相似的关键词向量时,从互不相似的各关键词向量中提取网络搜索词,将从同一个关键词向量中提取到的网络搜索词划分为同一聚类。本发明能够取得提升聚类速度和精度的有益效果。51INTCL权利要求书2页说明书14页附图2页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书14页附图2页10申请公布号。
3、CN104199833ACN104199833A1/2页21一种网络搜索词的聚类方法,包括从搜索日志中提取出需要进行聚类的网络搜索词;对相同统一资源定位符URL的网络搜索词,根据所述URL抓取网页相关内容,生成短文本信息;对所述短文本信息提取关键词,并根据所述关键词获取每条短文本信息对应的关键词向量;判断任两个所述关键词向量是否为相似的关键词向量;当存在相似的两个关键词向量时,对相似的两个关键词向量进行合并,生成一个新的关键词向量代替所述相似的两个关键词向量,并继续判断任两个关键词向量是否为相似的关键词向量;当不存在相似的关键词向量时,从互不相似的各关键词向量中提取网络搜索词,将从同一个关键词。
4、向量中提取到的网络搜索词划分为同一聚类。2根据权利要求1所述的方法,其中,所述对相同统一资源定位符URL的网络搜索词,根据所述URL抓取网页相关内容,生成短文本信息包括将对应于相同URL的网络搜索词设置在短文本信息中,其中,当对应于相同URL的网络搜索词中存在多个相同的网络搜索词时,从相同的网络查询词中选取一个网络查询词设置在所述短文本信息中;从具有所述URL的网页中抓取属性标签中关键词属性和/或描述属性对应的属性值,将所述属性值设置在在所述短文本信息中。3根据权利要求1所述的方法,其中,在对所述短文本信息提取关键词之前,所述方法还包括剔除所述短文本信息中的停用词,并对剔除停用词后的短文本信息。
5、中的词项进行词性分析,得到各词项的词性。4根据权利要求3所述的方法,其中,对所述短文本信息提取关键词包括将预定词性的词项选取为所述关键词,所述词性包括名词、形容词、副词和动词。5根据权利要求1所述的方法,其中,所述根据所述关键词得到每条短文本信息对应的关键词向量包括利用关键词在关键词向量中的词频值,计算所述关键词在每条短文本信息中的权重值;根据所述关键词和关键词在本条短文本信息中的权重值,得到本条短文本信息对应的关键词向量。6根据权利要求5所述的方法,其中,所述判断任两个所述关键词向量是否为相似的关键词向量包括根据两个关键词向量中各关键词的权重值,计算两个关键词向量之间的余弦相似度,当计算出的。
6、余弦相似度大于预定阀值时,判断所述两个关键词向量为相似的关键词向量,当计算出的余弦相似度不大于预定阀值时,判断所述两个关键词向量不是相似的关键词向量。7根据权利要求6所述的方法,其中,所述计算两个关键词向量之间的余弦相似度包括权利要求书CN104199833A2/2页3对第一关键词向量中的第一关键词,在设置的词项倒排索引表中查询该第一关键词对应的关键词向量,当对应的关键词向量包括第二关键词向量时,获知所述第一关键词为同时存在于第一关键词向量和第二关键词向量中的共同关键词;利用所述共同关键词在第一关键词向量中的第一权重值、所述共同关键词在第二关键词向量中的第二权重值、第一关键词向量的模长和第二关。
7、键词向量的模长计算所述第一关键词向量和第二关键词向量的余弦相似度;其中,所述词项倒排索引表包括记录词项的词典表、记录词项与关键词向量编号对应关系的向量索引表和词项信息表,所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。8根据权利要求1所述的方法,其中,所述方法还包括建立关键词向量和短文本信息的对应关系将所述对应关系和向量合并关系记录在向量正排索引表中,其中,所述对应关系指示向量编号与文本编号的对应关系,每个关键词向量设置有向量编号,每个短文本信息设置有文本编号,所述向量合并关系指示向量编号与发生合并的关键词向量的对应关系;所述向量正排索引表。
8、包括记录向量编号的向量索引表、记录向量编号与关键词向量的对应关系的向量内容索引表和词项信息表,所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。9根据权利要求1所述的方法,其中,所述对相似的两个关键词向量进行合并,生成一个新的关键词向量包括利用相似的两个关键词向量中的关键词生成新的关键词向量中的关键词;当关键词为相似的两个关键词向量的共同关键词时,由所述共同关键词在两个关键词向量中的权重值的平均值,得到该共同关键词在新的关键词向量中的权重值;当关键词不是相似的两个关键词向量的共同关键词时,将该关键词在原关键词向量中的权重值作为该关键词在新的关。
9、键词向量中的权重值;以及,将新的关键词向量的向量编号设置为所述相似的两个关键词向量的向量编号中较大的向量编号。10一种网络搜索词的聚类装置,包括网络搜索词提取单元,适于从搜索日志中提取出需要进行聚类的网络搜索词;短文本信息生成单元,适于对相同统一资源定位符URL的网络搜索词,根据所述URL抓取网页相关内容,生成短文本信息;关键词向量获取单元,适于对所述短文本信息提取关键词,并根据所述关键词获取每条短文本信息对应的关键词向量;判断单元,适于判断任两个所述关键词向量是否为相似的关键词向量;聚类单元,适于当存在相似的两个关键词向量时,对相似的两个关键词向量进行合并,生成一个新的关键词向量代替所述相似。
10、的两个关键词向量,并继续判断任两个关键词向量是否为相似的关键词向量;提取划分单元,适于当不存在相似的关键词向量时,从互不相似的各关键词向量中提取网络搜索词,将从同一个关键词向量中提取到的网络搜索词划分为同一聚类。权利要求书CN104199833A1/14页4一种网络搜索词的聚类方法和聚类装置技术领域0001本发明涉及数据分析技术领域,特别涉及一种网络搜索词的聚类方法和聚类装置。背景技术0002聚类分析是数据分析中的一种重要技术,在网站信息分类问题、网页的点击行为关联性问题及用户搜索词QUERY分类问题等多个领域得到广泛的关注和研究。它可以将看似无序的对象进行分组、归类,以达到更好地理解研究对象。
11、的目的。0003现有方案在对用户搜索词进行聚类时,根据用户共同点击的URLUNIFORMRESOURCELOCATOR,统一资源定位符进行聚类分析,将具有相同URL的用户搜索词划分为同一类。0004然而,单纯依靠共同点击的URL进行聚类是片面的、不准确的,例如,仅依赖用户共同点击的URL得到的聚类结果中会出现长尾现象,也就是说,只有少数20的高频搜索词,才会对应相同的URL,而其他80的搜索词没有共同的URL。再如,一些搜索词虽然没有共同的URL,但是却应该聚到一起,如“金融”和“股票”。发明内容0005鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种网络搜索。
12、词的聚类方法和相应的聚类装置。0006依据本发明的一个方面,本发明实施例提供了一种网络搜索词的聚类方法,包括0007从搜索日志中提取出需要进行聚类的网络搜索词;0008对相同统一资源定位符URL的网络搜索词,根据所述URL抓取网页相关内容,生成短文本信息;0009对所述短文本信息提取关键词,并根据所述关键词获取每条短文本信息对应的关键词向量;0010判断任两个所述关键词向量是否为相似的关键词向量;0011当存在相似的两个关键词向量时,对相似的两个关键词向量进行合并,生成一个新的关键词向量代替所述相似的两个关键词向量,并继续判断任两个关键词向量是否为相似的关键词向量;0012当不存在相似的关键词。
13、向量时,从互不相似的各关键词向量中提取网络搜索词,将从同一个关键词向量中提取到的网络搜索词划分为同一聚类。0013可选地,所述对相同统一资源定位符URL的网络搜索词,根据所述URL抓取网页相关内容,生成短文本信息包括0014将对应于相同URL的网络搜索词设置在短文本信息中,其中,当对应于相同URL的网络搜索词中存在多个相同的网络搜索词时,从相同的网络查询词中选取一个网络查询词说明书CN104199833A2/14页5设置在所述短文本信息中;0015从具有所述URL的网页中抓取属性标签中关键词属性和/或描述属性对应的属性值,将所述属性值设置在在所述短文本信息中。0016可选地,在对所述短文本信息。
14、提取关键词之前,所述方法还包括0017剔除所述短文本信息中的停用词,并对剔除停用词后的短文本信息中的词项进行词性分析,得到各词项的词性。0018其中,对所述短文本信息提取关键词包括0019将预定词性的词项选取为所述关键词,所述词性包括名词、形容词、副词和动词。0020可选地,所述根据所述关键词得到每条短文本信息对应的关键词向量包括0021利用关键词在关键词向量中的词频值,计算所述关键词在每条短文本信息中的权重值;0022根据所述关键词和关键词在本条短文本信息中的权重值,得到本条短文本信息对应的关键词向量。0023并且,所述判断任两个所述关键词向量是否为相似的关键词向量包括0024根据两个关键词。
15、向量中各关键词的权重值,计算两个关键词向量之间的余弦相似度,当计算出的余弦相似度大于预定阀值时,判断所述两个关键词向量为相似的关键词向量,当计算出的余弦相似度不大于预定阀值时,判断所述两个关键词向量不是相似的关键词向量。0025其中,所述计算两个关键词向量之间的余弦相似度包括0026对第一关键词向量中的第一关键词,在设置的词项倒排索引表中查询该第一关键词对应的关键词向量,当对应的关键词向量包括第二关键词向量时,获知所述第一关键词为同时存在于第一关键词向量和第二关键词向量中的共同关键词;0027利用所述共同关键词在第一关键词向量中的第一权重值、所述共同关键词在第二关键词向量中的第二权重值、第一关。
16、键词向量的模长和第二关键词向量的模长计算所述第一关键词向量和第二关键词向量的余弦相似度;0028上述词项倒排索引表包括记录词项的词典表、记录词项与关键词向量编号对应关系的向量索引表和词项信息表,所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。0029可选地,所述方法还包括建立关键词向量和短文本信息的对应关系0030将所述对应关系和向量合并关系记录在向量正排索引表中,其中,所述对应关系指示向量编号与文本编号的对应关系,每个关键词向量设置有向量编号,每个短文本信息设置有文本编号,所述向量合并关系指示向量编号与发生合并的关键词向量的对应关系;00。
17、31所述向量正排索引表包括记录向量编号的向量索引表、记录向量编号与关键词向量的对应关系的向量内容索引表和词项信息表,所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。0032可选地,所述对相似的两个关键词向量进行合并,生成一个新的关键词向量包括0033利用相似的两个关键词向量中的关键词生成新的关键词向量中的关键词;0034当关键词为相似的两个关键词向量的共同关键词时,由所述共同关键词在两个关说明书CN104199833A3/14页6键词向量中的权重值的平均值,得到该共同关键词在新的关键词向量中的权重值;0035当关键词不是相似的两个关键词向量。
18、的共同关键词时,将该关键词在原关键词向量中的权重值作为该关键词在新的关键词向量中的权重值;以及,0036将新的关键词向量的向量编号设置为所述相似的两个关键词向量的向量编号中较大的向量编号。0037根据本发明的另一方面,本发明实施例提供了一种网络搜索词的聚类装置,包括0038网络搜索词提取单元,适于从搜索日志中提取出需要进行聚类的网络搜索词;0039短文本信息生成单元,适于对相同统一资源定位符URL的网络搜索词,根据所述URL抓取网页相关内容,生成短文本信息;0040关键词向量获取单元,适于对所述短文本信息提取关键词,并根据所述关键词获取每条短文本信息对应的关键词向量;0041判断单元,适于判断。
19、任两个所述关键词向量是否为相似的关键词向量;0042聚类单元,适于当存在相似的两个关键词向量时,对相似的两个关键词向量进行合并,生成一个新的关键词向量代替所述相似的两个关键词向量,并继续判断任两个关键词向量是否为相似的关键词向量;0043提取划分单元,适于当不存在相似的关键词向量时,从互不相似的各关键词向量中提取网络搜索词,将从同一个关键词向量中提取到的网络搜索词划分为同一聚类。0044可选地,所述短文本信息生成单元,适于将对应于相同URL的网络搜索词设置在短文本信息中,其中,当对应于相同URL的网络搜索词中存在多个相同的网络搜索词时,从相同的网络查询词中选取一个网络查询词设置在所述短文本信息。
20、中;从具有所述URL的网页中抓取属性标签中关键词属性和/或描述属性对应的属性值,将所述属性值设置在在所述短文本信息中。0045可选地,所述关键词向量获取单元,适于在对所述短文本信息提取关键词之前,剔除所述短文本信息中的停用词,并对剔除停用词后的短文本信息中的词项进行词性分析,得到各词项的词性。0046可选地,所述关键词向量获取单元,还适于将预定词性的词项选取为所述关键词,所述词性包括名词、形容词、副词和动词。0047可选地,所述关键词向量获取单元,适于利用关键词在关键词向量中的词频值,计算所述关键词在每条短文本信息中的权重值;根据所述关键词和关键词在本条短文本信息中的权重值,得到本条短文本信息。
21、对应的关键词向量。0048可选地,所述判断单元,适于根据两个关键词向量中各关键词的权重值,计算两个关键词向量之间的余弦相似度,当计算出的余弦相似度大于预定阀值时,判断所述两个关键词向量为相似的关键词向量,当计算出的余弦相似度不大于预定阀值时,判断所述两个关键词向量不是相似的关键词向量。0049可选地,所述判断单元,还适于对第一关键词向量中的第一关键词,在设置的词项倒排索引表中查询该第一关键词对应的关键词向量,当对应的关键词向量包括第二关键词向量时,获知所述第一关键词为同时存在于第一关键词向量和第二关键词向量中的共同关键词;利用所述共同关键词在第一关键词向量中的第一权重值、所述共同关键词在第二关。
22、说明书CN104199833A4/14页7键词向量中的第二权重值、第一关键词向量的模长和第二关键词向量的模长计算所述第一关键词向量和第二关键词向量的余弦相似度;其中,所述词项倒排索引表包括记录词项的词典表、记录词项与关键词向量编号对应关系的向量索引表和词项信息表,所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。0050可选地,所述装置还包括对应关系建立单元,所述对应关系建立单元适于将所述对应关系和向量合并关系记录在向量正排索引表中,其中,所述对应关系指示向量编号与文本编号的对应关系,每个关键词向量设置有向量编号,每个短文本信息设置有文本编号。
23、,所述向量合并关系指示向量编号与发生合并的关键词向量的对应关系;所述向量正排索引表包括记录向量编号的向量索引表、记录向量编号与关键词向量的对应关系的向量内容索引表和词项信息表,所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。0051可选地,所述聚类单元,适于利用相似的两个关键词向量中的关键词生成新的关键词向量中的关键词;当关键词为相似的两个关键词向量的共同关键词时,由所述共同关键词在两个关键词向量中的权重值的平均值,得到该共同关键词在新的关键词向量中的权重值;当关键词不是相似的两个关键词向量的共同关键词时,将该关键词在原关键词向量中的权重值。
24、作为该关键词在新的关键词向量中的权重值;以及,将新的关键词向量的向量编号设置为所述相似的两个关键词向量的向量编号中较大的向量编号。0052根据本发明的网络搜索词的聚类方法和聚类装置,通过利用用户点击URL对应的网页信息,将网络搜索词的信息进行补全,形成短文本,从而增加网络搜索词的识别度;通过在传统的向量表述方法中,引入词性分析来提取关键词向量,从而减少了向量空间的维数,节省了内存占用空间;通过对相似的两个关键词向量进行合并,生成一个新的关键词向量代替相似的两个关键词向量,从而减少了网络搜索词的聚类类别,本发明能够取得提升聚类速度和精度的有益效果,更加精确的获取用户感兴趣的搜索内容。0053上述。
25、说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。附图说明0054通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中0055图1示出了根据本发明一个实施例提供的一种网络搜索词的聚类方法的流程图;0056图2示出了根据本发明一个实施例提供的词项倒排索引表TIIT基本机制结构示意图;0057图3示出了根。
26、据本发明一个实施例提供的向量正排索引表VFIT基本机制结构示意图;以及0058图4示出了根据本发明一个实施例提供的一种网络搜索词的聚类装置的结构图。说明书CN104199833A5/14页8具体实施方式0059下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。0060如图1所示,根据本发明一个实施例提供的一种网络搜索词的聚类方法,该方法包括如下步骤0061S11,从搜索日志中提取出需要进行。
27、聚类的网络搜索词。0062例如,对原始的搜索引擎点击日志进行分析,可以得到需要进行聚类的网络搜索词QUERY的短文本信息。0063S12,对相同URL的网络搜索词,根据所述URL抓取网页相关内容,生成短文本信息。0064该步骤的一个具体实施例是将对应于相同URL的网络搜索词设置在短文本信息中,其中,当对应于相同URL的网络搜索词中存在多个相同的网络搜索词时,对这些相同的网络搜索词中进行合并去重,从相同的网络查询词中选取一个网络查询词设置在所述短文本信息中;从具有所述URL的网页中抓取元标签中关键词属性和/或描述属性对应的属性值,将所述属性值设置在在所述短文本信息中。0065由于QUERY的短文。
28、本信息长度较短、表达内容丰富、组合比较灵活,所以单纯依靠QUERY进行短文本聚类无法完成。通过分析可知,用户对搜索结果满意或者比较符合他搜索的意愿的时候才会进行点击,所以用户的这个行为在一定程度上给我们提供了更多的关于搜索词的信息,因此,我们可以首先得到每个QUERY对应的URL,对这些URL进行分析,发现URL相同对应的QUERY或相同或相似,所以将这些URL进行一次数据预处理,将相同URL对应的QUERY进行合并去重,形成一些对;然后,我们根据每一个对中的URL进行网页抓取,为了减少存储空间,我们在抓取的同时进行网页解析,找到网页中元标签,查找NAME名字属性值为KEYWORDS关键字参数。
29、和DESCRIPTION网站内容描述参数,并获得这些参数相应的CONTENT属性的值,将这些信息与QUERY合并组成短文本信息。0066META是HTML语言HEAD区的一个辅助性标签。META标签共有两个属性,它们分别是HTTPEQUIV属性和NAME属性,不同的属性又有不同的参数值,这些不同的参数值就实现了不同的网页功能。其中NAME属性主要用于描述网页,与之对应的属性值为CONTENT,CONTENT中的内容主要是便于搜索引擎机器人查找信息和分类信息用的。在NAME属性中包括用来告诉搜索引擎你网页的关键字是什么的参数KEYWORDS和用来告诉搜索引擎你的网站主要内容的参数DESCRIPT。
30、ION。0067S13,对所述短文本信息提取关键词,并根据所述关键词获取每条短文本信息对应的关键词向量。0068该步骤具体方法是首先将预定词性的词项选取为关键词,所述词性包括名词、形容词、副词和动词;接着利用关键词在关键词向量中的词频TERMFREQUENCY,TF值,计算所述关键词在每条短文本信息中的权重值;然后根据所述关键词和关键词在本条短文本信息中的权重值,得到本条短文本信息对应的关键词向量。说明书CN104199833A6/14页90069需要说明的是,上述步骤S12形成的这些短文本信息尽管包含了QUERY对应的完备信息,然而目前的自然语言处理技术无法完全处理这些文本信息。因此,在对短。
31、文本建立词频向量之前需要删除短文本中对应的停用词,如中文的“的”、“了”、英文的“A”、“IS”等。由于本方案提出的方法需要对词项进行语义分析,除了删除停用词外还需要进行关键词的选取,这些关键词就是最能表征文本含义的实词,即该词项的词性是名词、动词、形容词和副词等。0070文本预处理后,需要对每篇短文本的词项进行TF值的计算,将短文本中的各个词项的TF值表示成一个向量,以此来计算文本间的相似度。由于这个文本向量是高维的,所以我们可以从每篇短文本中挑选关键词,以此来表征文本,从而最大可能地减少短文本向量的维度。具体做法是选取每篇短文本中的动词、名词、形容词和副词作为关键词项,如果设关键词项个数占。
32、整个短文本百分比为P,这样一篇短文本向量的维度可以下降1P,这可以提高本方案的效率。0071S14,判断任两个所述关键词向量是否为相似的关键词向量。0072得到了每篇短文本的关键词向量之后,接下来需要考虑如何计算两篇短文本之间的相似度。由于关键词项代表了一篇文本中最重要的信息,因此文本的相似度就可以用关键词项向量间的相似度来描述。0073判断任两个关键词向量是否为相似的关键词向量的具体方法可以是根据两个关键词向量中各关键词的权重值,计算两个关键词向量之间的余弦相似度,当计算出的余弦相似度大于预定阀值时,判断所述两个关键词向量为相似的关键词向量,当计算出的余弦相似度不大于预定阀值时,判断所述两个。
33、关键词向量不是相似的关键词向量。0074其中,计算两个关键词向量之间的余弦相似度包括0075对第一关键词向量中的第一关键词,在设置的词项倒排索引表TERMINVERTEDINDEXTABLE,TIIT中查询该第一关键词对应的关键词向量,当对应的关键词向量包括第二关键词向量时,获知所述第一关键词为同时存在于第一关键词向量和第二关键词向量中的共同关键词;0076利用所述共同关键词在第一关键词向量中的第一权重值、所述共同关键词在第二关键词向量中的第二权重值、第一关键词向量的模长和第二关键词向量的模长计算所述第一关键词向量和第二关键词向量的余弦相似度;0077上述词项倒排索引表包括记录词项的词典表、记。
34、录词项与关键词向量编号对应关系的向量索引表和词项信息表,所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。0078下面是计算两个关键词向量之间的余弦相似度的具体说明0079设TI,TJ是两个不同的短文本关键词向量,PI和PJ分别对应关键词在I文本和J文本中的占比。其中,TIWI1,WI2,WIN,TJWJ1,WJ2,WJM,相似度定义为0080SIMTI,TJWFCOSSIMTI,TJ10081其中WF表示关键词向量TI和TJ之间相似度的加权因子,这里我们定义COSSIMTI,TJ表示关键词向量TI和TJ之间的余弦相似度。0082具体的余弦相。
35、似度计算公式由式2给出说明书CN104199833A7/14页1000830084式2中WIM表示每一个关键词的TF值,本方案中,我们定义为00850086式3FIJ表示向量I中关键词J对应的词频,表示所有向量包含关键词J的总词频,表示关键词的总词频最大值。0087将式3代入式2得到式400880089由式4知,余弦相似度COSSIMTI,TJ是由向量TI和TJ之间的共同关键词及每个向量的模长所决定的。0090S15,当存在相似的两个关键词向量时,对相似的两个关键词向量进行合并,生成一个新的关键词向量代替所述相似的两个关键词向量,并继续判断任两个关键词向量是否为相似的关键词向量。0091本步骤。
36、中对相似的两个关键词向量进行合并,生成一个新的关键词向量包括利用相似的两个关键词向量中的关键词生成新的关键词向量中的关键词;当关键词为相似的两个关键词向量的共同关键词时,由所述共同关键词在两个关键词向量中的权重值的平均值,得到该共同关键词在新的关键词向量中的权重值;当关键词不是相似的两个关键词向量的共同关键词时,将该关键词在原关键词向量中的权重值作为该关键词在新的关键词向量中的权重值;以及,将新的关键词向量的向量编号设置为所述相似的两个关键词向量的向量编号中较大的向量编号。0092S16,当不存在相似的关键词向量时,从互不相似的各关键词向量中提取网络搜索词,将从同一个关键词向量中提取到的网络搜。
37、索词划分为同一聚类。0093本发明的网络搜索词的聚类方法,通过利用用户点击URL对应的网页信息,将网络搜索词的信息进行补全,形成短文本,从而增加网络搜索词的识别度;通过在传统的向量表述方法中,引入词性分析来提取关键词向量,从而减少了向量空间的维数,节省了内存占用空间;通过对相似的两个关键词向量进行合并,生成一个新的关键词向量代替相似的两个关键词向量,从而减少网络搜索词的聚类类别,本发明的网络搜索词的聚类方法能够取得提升聚类速度和精度的有益效果。说明书CN104199833A108/14页110094在一较佳实施方式中,本发明的网络搜索词的聚类方法还包括建立关键词向量和短文本信息的对应关系。具体。
38、地,将所述对应关系和向量合并关系记录在向量正排索引表VECTORFORWARDINDEXTABLE,VFIT中,其中,所述对应关系指示向量编号与文本编号的对应关系,每个关键词向量设置有向量编号,每个短文本信息设置有文本编号,所述向量合并关系指示向量编号与发生合并的关键词向量的对应关系。0095上述向量正排索引表包括记录向量编号的向量索引表、记录向量编号与关键词向量的对应关系的向量内容索引表和词项信息表,所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。0096为了更好地根据词项计算相似度,本发明方案设计了一个词项倒排索引表TERMINVERT。
39、EDINDEXTABLE,TIIT和一个向量正排索引表VECTORFORWARDINDEXTABLE,VFIT。0097TIIT可分为词典正文表、向量索引表、词项信息表3级。通过词典表可以将指定词定位到向量索引表,在向量索引表中很容易定位到指定词在指定向量中的TF和向量的模长。TIIT基本机制结构示意如附图2所示。0098VFIT可分为向量索引表、向量内容索引表、词项信息表3级。在向量索引表中,我们可以很容易通过指定向量号找到对应的向量内容索引表,后通过指定词在向量内容索引表中找到词项信息表,从而更新两个向量合并后的信息。VFIT基本机制结构示意如附图3所示。0099通过以下方法,可以自动地构。
40、建词项倒排索引表TIIT和向量正排索引表VFIT01001初始化0101为了提高计算速度,我们对原始日志按1W行的粒度切分,对原始日志建立文件HASH表,在文件HASH表中KEY为文件编号FILENUM,VALUE为文件路径FILEPATH,其中文件编号FILENUM与向量编号VECNUM之间的对应关系为FILENUMVECNUM1/10000,这样很容易通过向量编号VECNUM找到对应的文件路径。用该文件分别构建词项倒排索引表TIIT和向量正排索引表VFIT。01022相似度计算0103利用上述式4计算两关键词向量的相似度。0104算法描述SIM算法0105输入关键词向量TI和TJ,词项倒排。
41、索引表TIIT,向量正排索引表VFIT,相似度阀值。0106输出关键词向量TI和TJ的相似度SIMTI,TJ。01071初始化词项倒排索引表TIIT和向量正排索引表VFIT。01082由式4知,分子是向量TI和TJ所有共同词项WIM与WJN的乘积和,分母是向量TI和TJ模长乘积。因此,只要从向量TI中的词项W1开始,在TIIT中查找词项W1对应的向量,判断是否包含TJ,如果包含,则计算TF值WI1与WJ1的乘积,并得到向量TI和TJ的模长;否则,乘积为0。01093累加上述2结果,计算式4的分子、分母,得到相似度,以此作为向量TI和TJ的相似度COSSIMTI,TJ。01104根据前述步骤,对。
42、关键词向量TI和TJ的相似度进行加权处理后得到短文本相说明书CN104199833A119/14页12似度SIMTI,TJ。01113更新索引表0112SIM算法要求预先确定阀值,计算两向量TI和TJ的相似度,如果相似度SIMTI,TJ,将TI和TJ合并为一个新的簇TKSIMTITJ,则组成的新簇的关键向量为即如果两向量TI和TJ有共同词W1,则将TK新向量中词W1的权值表示为否则,保留TI和TJ;为了减少存储空间,这里我们将向量TI和TJ合并到向量TJ。从而需要调整词项倒排索引表TIIT和向量正排索引VFIT,以减少存储空间,加快计算速度。0113调整索引表的具体步骤如下0114第一步,在V。
43、FIT表中,建立临时变量,将向量TI中词WIN与向量TJ中词WJM合并,同时更新向量的模长,保存到临时变量中,然后在VFIT表中将向量TI和向量TJ删除,再将临时变量插入到VFIT表中,向量编号为TJ。第二步,在TIIT表,依据更新后的VFIT表,查找向量TJ对应在每个词WJM,删除词WJM对应向量TI,同时更新对应的向量TJ,完成对TIIT表的更新。0115上述较佳实施例,通过建立倒排索引表及向量正排索引表,利用这些索引表,能够加快向量相似度的计算,提高网络搜索词聚类的执行速度;通过变换余弦相似度的计算公式,改进关键词向量权值的表示,能够进一步减少存储空间,加快计算速度。0116下面用实验数。
44、据验证本发明网络搜索词的聚类方法的有效性。0117实验数据来源于搜索引擎的点击日志,随机选取1000条原始数据作为测试用例。01181数据预处理0119将原始数据整理成对,在整理过程中,我们发现由于QUERY的信息量少、表述随意,如3D村黄页、牛仔网金融等,人为都无法单纯从QUERY信息中获知其类别,因此,本方案采用通过URL获得网页中属性值后,补全QUERY信息,形成短文本。0120例如将“牛仔网”补全后为“牛仔网,牛仔网,股票,股票网,牛仔网是中国第一股民社区,我们秉承专业、互助、诚信的原则,与市场最与时俱进的实战高手、专家,通过互动与交流的方式让股民更加了解股票,用股票直播,股票操盘,股。
45、票大赛,股票博客,中证内参等全面立体的产品服务,让中国股民共享财富生活。”,这样,增加信息量,致使我们人为也可以区分。01212关键词向量0122利用汉语词法分析系统ICTCLASINSTITUTEOFCOMPUTINGTECHNOLOGY,CHINESELEXICALANALYSISSYSTEM,将短文本信息进行一级标注的词语切分,并统计标注好的切分词语的词频。同时,这里我们采用基于语义分析的方法,对切分后的词语进行词性分析,只保留被标注为名词、形容词、副词、动词的词语。根据确定的切分词语构造关键向量。将1000条原始数据都表示成关键词向量。01233初始化索引表说明书CN104199833。
46、A1210/14页130124对关键词向量建模,将原始短文表示成一个个关键词向量,然后分别初始化词项倒排索引表TIIT和向量正排索引表VFIT。01254聚类0126在实验中,采用上述式4来计算两向量之间的相似性。另外,本方案采用的阀值策略是先制定初始值,然后根据实验的效果多次调整,最终确定相似度阀值为05。01275聚类效果分析0128建立对比模型,对它们的优劣在实验层面上做了对比研究。0129A所有类型词语都用于构建空间向量。0130B只采用名词、动词、形容词、副词构建空间向量。0131C不利用索引表计算相似度。0132D利用索引表计算相似度。0133表1是实验结果。其中,TTIME表示聚。
47、类消耗的时间,单位为MS;CCLASSIFY表示聚类类别,由于聚类消耗时间依赖于执行情况,因而每次有一定的差异,这里我们采用多次实验结果的平均值。0134表1聚类实验效果01350136对实验结果分析,可以得出以下几点01371A、B的对比可知,由于B模型采用的是关键词向量,这样减少了向量空间的维度,节约了内存空间,且加快了聚类速度。01382C、D的对比可知,由于D使用索引表,提高了两向量之间的相似度计算速度,加快了聚类速度,但精度变化不大。0139如图4所示,根据本发明一个实施例提供的一种网络搜索词的聚类装置,该装置400包括0140网络搜索词提取单元401,适于从搜索日志中提取出需要进行。
48、聚类的网络搜索词;0141短文本信息生成单元402,适于对相同统一资源定位符URL的网络搜索词,根据所述URL抓取网页相关内容,生成短文本信息;0142关键词向量获取单元403,适于对所述短文本信息提取关键词,并根据所述关键词获取每条短文本信息对应的关键词向量;0143判断单元404,适于判断任两个所述关键词向量是否为相似的关键词向量;0144聚类单元405,适于当存在相似的两个关键词向量时,对相似的两个关键词向量进行合并,生成一个新的关键词向量代替所述相似的两个关键词向量,并继续判断任两个关键词向量是否为相似的关键词向量;说明书CN104199833A1311/14页140145提取划分单元。
49、406,适于当不存在相似的关键词向量时,从互不相似的各关键词向量中提取网络搜索词,将从同一个关键词向量中提取到的网络搜索词划分为同一聚类。0146其中,所述短文本信息生成单元402,适于将对应于相同URL的网络搜索词设置在短文本信息中,其中,当对应于相同URL的网络搜索词中存在多个相同的网络搜索词时,从相同的网络查询词中选取一个网络查询词设置在所述短文本信息中;从具有所述URL的网页中抓取属性标签中关键词属性和/或描述属性对应的属性值,将所述属性值设置在在所述短文本信息中。0147一种实施例,所述关键词向量获取单元403,适于在对所述短文本信息提取关键词之前,剔除所述短文本信息中的停用词,并对剔除停用词后的短文本信息中的词项进行词性分析,得到各词项的词性。0148并且优选地,所述关键词向量获取单元403,还适于将预定词性的词项选取为所述关键词,所述词性包括名词、形容词、副词和动词。0149一种实施例,所述关键词向量获取单元403,适于利用关键词在关键词向量中的词频值,计算所述关键词在每条短文本信息中的权重值;根据所述关键词和关键词在本条短文本信息中的权重值,得到本条短文本信息对应的关键词向量。0150优选地,所述判断单元404,适于根据两个关键词向量中各关键词的权重值,计算两个关键词向量之间的余弦相似度,当计算出的余弦相似度大于预定阀值时,判断所述两个关键词。