《一种购买词聚类方法和装置.pdf》由会员分享,可在线阅读,更多相关《一种购买词聚类方法和装置.pdf(14页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103176975 A (43)申请公布日 2013.06.26 CN 103176975 A *CN103176975A* (21)申请号 201110430301.4 (22)申请日 2011.12.20 G06F 17/30(2006.01) G06F 17/27(2006.01) (71)申请人 腾讯科技 (深圳) 有限公司 地址 518044 广东省深圳市福田区振兴路赛 格科技园 2 栋东 403 室 (72)发明人 杨俊丽 王迪 赫南 (74)专利代理机构 北京德琦知识产权代理有限 公司 11018 代理人 张玉波 宋志强 (54) 发明名称 一种购买词聚。
2、类方法和装置 (57) 摘要 本发明实施例公开了一种购买词聚类方法和 装置。该方法包括 : 根据每个广告主购买的购买 词、 以及购买每个购买词的次数, 为每个购买词建 立广告主向量, 其中, 所述广告主向量中的每个广 告主特征均购买了所述购买词, 每个广告主特征 在所述广告主向量中的权重根据所述次数确定 ; 根据各个购买词的广告主向量, 对购买词进行聚 类。应用本发明能够提高购买词聚类的准确性。 (51)Int.Cl. 权利要求书 3 页 说明书 7 页 附图 3 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书7页 附图3页 (10)申请公布号 CN 1。
3、03176975 A CN 103176975 A *CN103176975A* 1/3 页 2 1. 一种购买词聚类方法, 其特征在于, 该方法包括 : 根据每个广告主购买的购买词、 以及购买每个购买词的次数, 为每个购买词建立广告 主向量, 其中, 所述广告主向量中的每个广告主特征均购买了所述购买词, 每个广告主特征在 所述广告主向量中的权重根据所述次数确定 ; 根据各个购买词的广告主向量, 对购买词进行聚类。 2. 根据权利要求 1 所述的方法, 其特征在于, 所述根据各个购买词的广告主向量, 对购 买词进行聚类包括 : 确定一个以上的初始聚类簇 ; 获取待分类的购买词的广告主向量, 确。
4、定各个聚类簇的中心, 计算待分类的购买词的 广告主向量与各个聚类簇的中心之间的距离, 如果所述距离满足预定条件, 则将该待分类 的购买词分入相应的聚类簇中。 3. 根据权利要求 2 所述的方法, 其特征在于, 该方法还包括 : 在待分类的购买词的广告主向量与各个聚类簇的中心之间的距离均不满足所述预定 条件时, 将该待分类的购买词确定为新建的聚类簇, 或者等待重新对所述待分类的购买词 进行聚类。 4. 根据权利要求 2 所述的方法, 其特征在于, 所述确定一个以上的初始聚类簇包括 : 随机选择购买词, 根据随机选择的购买词确定一个以上的初始聚类簇。 5. 根据权利要求 2 所述的方法, 其特征在。
5、于, 所述确定一个以上的初始聚类簇包括 : 计算购买词的simhash值, 根据不同购买词的simhash值之间的距离, 选择所述距离满 足预定条件的购买词, 根据选出的购买词及其 simhash 值确定一个以上的初始聚类簇。 6. 根据权利要求 2 所述的方法, 其特征在于, 所述计算待分类的购买词的广告主向量 与各个聚类簇的中心之间的距离之前, 该方法还包括 : 确定待分类的购买词的广告主向量中每个广告主特征已经购买的购买词, 确定所述已 经购买的购买词所归属的聚类簇, 确定出的所有聚类簇组成该待分类的购买词的候选聚类 簇集合 ; 根据购买词被所述每个广告主特征购买的次数、 和该购买词的广。
6、告主向量与该购买词 所归属的聚类簇中心之间的距离, 确定该购买词所归属的聚类簇在所述候选聚类簇集合中 的权重 ; 根据待分类的购买词的候选聚类簇集合中各个聚类簇的权重, 从所述候选聚类簇集合 中选择权重满足预定条件的聚类簇 ; 所述计算待分类的购买词的广告主向量与各个聚类簇的中心之间的距离包括 : 计算待分类的购买词的广告主向量与从所述候选聚类簇集合中选出的每个聚类簇中 心之间的距离。 7. 根据权利要求 2 或 6 所述的方法, 其特征在于, 所述确定各个聚类簇的中心包括 : 计算聚类簇中所有购买词的广告主向量的平均值, 将该平均值确定为该聚类簇的中 心。 8.根据权利要求2或6所述的方法,。
7、 其特征在于, 所述计算待分类的购买词的广告主向 量与各个聚类簇的中心之间的距离包括 : 权 利 要 求 书 CN 103176975 A 2 2/3 页 3 计算待分类的购买词的广告主向量与聚类簇的中心之间的夹角的余弦值, 将该余弦值 确定为该待分类的购买词的广告主向量与该聚类簇的中心之间的距离。 9. 根据权利要求 2 或 6 所述的方法, 其特征在于, 判断所述距离是否满足预定条件包 括 : 从待分类的购买词的广告主向量与各个聚类簇的中心之间的距离中选出最大的距离, 判断该最大的距离是否大于预定阈值, 如果大于, 则所述距离满足预定条件, 否则所述距离 不满足预定条件 ; 所述将该待分类。
8、的购买词分入相应的聚类簇中包括 : 将该待分类的购买词分入所述最大的距离对应的聚类簇中。 10. 根据权利要求 2 所述的方法, 其特征在于, 该方法还包括 : 从同一聚类簇中选择任意两个购买词, 计算所述两个购买词的广告主向量之间的夹角 的余弦值, 在该余弦值大于预定阈值时, 将所述两个购买词确定为具有第一置信度的关联 购买词对。 11. 根据权利要求 10 所述的方法, 其特征在于, 将所述两个购买词确定为具有第一置 信度的关联购买词对之后, 该方法还包括 : 利用语义相似度工具对所述具有第一置信度的关联购买词对进行过滤, 得到具有第二 置信度的等价购买词对, 其中, 第二置信度高于第一置。
9、信度。 12. 一种购买词聚类装置, 其特征在于, 该装置包括广告主向量建立模块和聚类模块 ; 所述广告主向量建立模块, 用于根据每个广告主购买的购买词、 以及购买每个购买词 的次数, 为每个购买词建立广告主向量, 其中, 所述广告主向量中的每个广告主特征均购买 了所述购买词, 每个广告主特征在所述广告主向量中的权重根据所述次数确定 ; 所述聚类模块, 用于根据各个购买词的广告主向量, 对购买词进行聚类。 13. 根据权利要求 12 所述的装置, 其特征在于, 所述聚类模块包括初始聚类簇确定模 块和购买词分类模块 ; 所述初始聚类簇确定模块, 用于确定一个以上的初始聚类簇 ; 所述购买词分类模。
10、块, 用于获取待分类的购买词的广告主向量, 确定各个聚类簇的中 心, 计算待分类的购买词的广告主向量与各个聚类簇的中心之间的距离, 如果所述距离满 足预定条件, 则将该待分类的购买词分入相应的聚类簇中。 14. 根据权利要求 13 所述的装置, 其特征在于, 所述购买词分类模块, 用于在待分类的购买词的广告主向量与各个聚类簇的中心之间 的距离均不满足所述预定条件时, 将该待分类的购买词确定为新建的聚类簇, 或者等待重 新对所述待分类的购买词进行聚类。 15. 根据权利要求 13 所述的装置, 其特征在于, 所述初始聚类簇确定模块, 用于随机选择购买词, 根据随机选择的购买词确定一个以 上的初始。
11、聚类簇。 16. 根据权利要求 13 所述的装置, 其特征在于, 所述初始聚类簇确定模块, 用于计算购买词的 simhash 值, 根据不同购买词的 simhash 值之间的距离, 选择所述距离满足预定条件的购买词, 根据选出的购买词及其 simhash 值 确定一个以上的初始聚类簇。 权 利 要 求 书 CN 103176975 A 3 3/3 页 4 17. 根据权利要求 13 所述的装置, 其特征在于, 所述购买词分类模块, 用于确定待分类的购买词的广告主向量中每个广告主特征已经 购买的购买词, 确定所述已经购买的购买词所归属的聚类簇, 确定出的所有聚类簇组成该 待分类的购买词的候选聚类。
12、簇集合, 根据购买词被所述每个广告主特征购买的次数、 和该 购买词的广告主向量与该购买词所归属的聚类簇中心之间的距离, 确定该购买词所归属的 聚类簇在所述候选聚类簇集合中的权重, 根据待分类的购买词的聚类簇集合中各个聚类簇 的权重, 从所述聚类簇集合中选择权重满足预定条件的聚类簇, 计算待分类的购买词的广 告主向量与从所述候选聚类簇集合中选出的每个聚类簇中心之间的距离。 18. 根据权利要求 13 或 17 所述的装置, 其特征在于, 所述购买词分类模块, 用于计算聚类簇中所有购买词的广告主向量的平均值, 将该平 均值确定为该聚类簇的中心。 19. 根据权利要求 13 或 17 所述的装置, 。
13、其特征在于, 所述购买词分类模块, 用于计算待分类的购买词的广告主向量与聚类簇的中心之间的 夹角的余弦值, 将该余弦值确定为该待分类的购买词的广告主向量与该聚类簇的中心之间 的距离。 20. 根据权利要求 13 或 17 所述的装置, 其特征在于, 所述购买词分类模块, 用于从待分类的购买词的广告主向量与各个聚类簇的中心之间 的距离中选出最大的距离, 如果该最大的距离是否大于预定阈值, 则将该待分类的购买词 分入所述最大的距离对应的聚类簇中。 21. 根据权利要求 13 所述的装置, 其特征在于, 该装置还包括关联购买词对确定模块 ; 所述关联购买词对确定模块, 用于从同一聚类簇中选择任意两个。
14、购买词, 计算所述两 个购买词的广告主向量之间的夹角的余弦值, 在该余弦值大于预定阈值时, 将所述两个购 买词确定为具有第一置信度的关联购买词对。 22. 根据权利要求 21 所述的装置, 其特征在于, 该装置还包括语义相似度工具 ; 所述语义相似度工具, 用于对所述具有第一置信度的关联购买词对进行过滤, 得到具 有第二置信度的等价购买词对, 其中, 第二置信度高于第一置信度。 权 利 要 求 书 CN 103176975 A 4 1/7 页 5 一种购买词聚类方法和装置 技术领域 0001 本发明涉及计算机技术领域, 尤其涉及一种购买词聚类方法和装置。 背景技术 0002 文本聚类技术, 是。
15、根据文本之间的关联关系, 将一组文本划分成若干个子集的技 术, 子集内的文本之间距离很近, 子集之间的距离相差比较大, 其实质是寻找隐藏在数据中 的不同的数据模型, 能够实现样本空问的盲分类。 0003 所谓购买词, 是指竞价广告等系统中用户提交的用于竞价的文本内容。购买词是 一种较短的文本, 平均长度在 3-5 个词, 在某种程度上可以看作是短文本, 因此, 购买词聚 类可以抽象为对一个短文本的集合进行聚类的过程。 0004 现有的文本聚类方法主要是基于 VSM 的方法, 通过把文本映射到向量空间中的一 个点, 通过计算点与点之间的距离实现对文本进行聚类。 而这种常见的聚类方法, 对短文本 。
16、的情形并不是十分奏效, 因为短文本存在稀疏性问题 : 文本长度短, 包含的字少, 存在一词 多义以及一义多词 ( 即一个意思可以用不同的词来表达 ) 的现象。 0005 现有技术中, 针对短文本的稀疏性问题, 常见的解决方法是对原始文本进行扩充, 丰富文本的外在表现形式, 从而实现对短文本的聚类。 0006 例如, 通过引入重构长文本的思想解决短文本的稀疏性问题 ; 再例如, 首先利用 FP-Growth 算法挖掘训练集特征项与测试集特征项之间的共现关系, 然后用得到的关联规 则对短文本测试文档中的概念词语进行特征扩展。 0007 可见, 现有的短文本聚类方法, 都是根据短文本本身包含的词, 。
17、对短文本的外在表 现形式和特征进行扩展, 从而克服短文本的稀疏性问题, 提高短文本聚类的准确性。 0008 然而, 现有这些短文本聚类方法, 对聚类准确性的提高仍然有限。 发明内容 0009 有鉴于此, 本发明提供了一种购买词聚类方法和装置, 能提高购买词聚类的准确 性。 0010 本发明的技术方案具体是这样实现的 : 0011 一种购买词聚类方法, 该方法包括 : 0012 根据每个广告主购买的购买词、 以及购买每个购买词的次数, 为每个购买词建立 广告主向量, , 0013 其中, 所述广告主向量中的每个广告主特征均购买了所述购买词, 每个广告主特 征在所述广告主向量中的权重根据所述次数确。
18、定 ; 0014 根据各个购买词的广告主向量, 对购买词进行聚类。 0015 一种购买词聚类装置, 该装置包括广告主向量建立模块和聚类模块 ; 0016 所述广告主向量建立模块, 用于根据每个广告主购买的购买词、 以及购买每个购 买词的次数, 为每个购买词建立广告主向量, , 其中, 所述广告主向量中的每个广告主特征 说 明 书 CN 103176975 A 5 2/7 页 6 均购买了所述购买词, 每个广告主特征在所述广告主向量中的权重根据所述次数确定 ; 0017 所述聚类模块, 用于根据各个购买词的广告主向量, 对购买词进行聚类。 0018 由上述技术方案可见, 本发明通过为购买词建立广。
19、告主向量, 根据各个购买词的 广告主向量, 对购买词进行聚类, 由于当两个购买词被相同的一个或多个广告主购买时, 这 两个购买词之间一般存在一定的关联关系, 因此, 通过比较各个购买词的广告主向量, 可以 实现对购买词的聚类。 附图说明 0019 图 1 是本发明提供的购买词聚类方法流程图。 0020 图 2 是本发明提供的购买词聚类方法第一详细流程图。 0021 图 3 是本发明提供的购买词聚类方法第二详细流程图。 0022 图 4 是本发明提供的购买词聚类装置结构图。 具体实施方式 0023 图 1 是本发明提供的购买词聚类方法流程图。 0024 如图 1 所示, 该方法包括 : 0025。
20、 步骤 101, 对于一购买词, 根据广告主是否购买了该购买词、 以及购买该购买词的 次数, 为该购买词建立广告主向量。 0026 其中, 根据每个广告主购买的购买词、 以及购买每个购买词的次数, 为每个购买词 建立广告主向量, 所述广告主向量中的每个广告主特征均购买了所述购买词, 每个广告主 特征在所述广告主向量中的权重根据所述次数确定。 0027 步骤 102, 根据各个购买词的广告主向量, 对购买词进行聚类。 0028 如果两个购买词被相同的一个或者多个广告主购买, 这样这两个购买词之间就潜 在的存在一种关联, 这种关联可以称为被购买关系。 0029 本发明能根据广告库购买词之间的被购买。
21、关系, 挖掘出来购买词之间的潜在关 联, 当用普通的字面意义的方法得不到购买词之间的关系的时候, 本方法能明显奏效。 本发 明适用于购买信息比较充分的系统中。 0030 假设被相同的广告主购买的购买词之间是相似的, 利用这种购买关系可以评估出 购买词之间的相似程度, 从而对购买词进行聚类。通常广告主都是为某种或者某类产品做 广告, 因此在选择购买词的时候, 通常这些购买词都是表达同一主旨的 ; 这样如果一个购买 词被广告主 A 和 B 购买, 另外一个购买词也被广告主 A 和 B 购买, 当这种共同的广告主集合 更大的时候, 我们可以认为这两个购买词之间是具有相近含义的 ; 但通常两个购买词对。
22、应 的广告主列表并不是完全相同的, 可能存在部分或者绝大部分的交集, 这个时候, 我们可以 通过交集的多少来衡量购买词之间的相近程度。 0031 在图 1 所示方法中, 首先, 每个购买词可以被多个广告主购买, 获取每一个购买词 的广告主列表, 将购买词量化成广告主向量。 在将购买词量化成广告主向量时, 需要计算购 买词与广告主之间的关联, 也就是在广告主向量中, 每个广告主维度的权重。本发明提出, 可以根据广告主购买该购买词的次数, 确定该广告主在该购买词的广告主向量中的权重, 例如, 可以将所述权重直接设置为所述次数, 或者对广告主向量中所有广告主购买该购买 说 明 书 CN 103176。
23、975 A 6 3/7 页 7 词的次数进行归一化, 将归一化后的值作为广告主的权重。 0032 得到每个购买词的广告主向量之后, 可以将计算购买词之间相似度的问题转化为 计算购买词的广告主向量之间的相似程度, 譬如计算广告主向量之间的夹角余弦值, 这样 解决了短文本之间无法直接计算关联度的问题。 根据购买词的广告主向量之间的相似度来 衡量购买关系的相似度, 将购买关系很近 ( 例如设置成夹角余弦值大于预定阈值 ) 的购买 词合并到一个聚类簇中, 从而实现对购买词进行聚类分析。 0033 在聚类的过程中, 聚类簇的合并原则可以是 : 判断购买词到聚类簇中心的距离是 否大于设置的相关度阈值, 如。
24、果大于或等于该阈值, 则认为属于同一个聚类簇, 将该购买词 插入该聚类簇中, 如果小于该阈值, 则将该购买词作为重新建立的一个新的聚类簇, 这样完 成聚类簇的分裂, 或者等待重新对该购买词进行聚类, 例如, 在该购买词的广告主向量更新 时再进行聚类, 或者等待预定周期后再对该购买词进行聚类。 0034 图 2 是本发明提供的购买词聚类方法第一详细流程图。 0035 如图 2 所示, 该流程包括 : 0036 步骤 201, 确定一个以上的初始聚类簇。 0037 本步骤是为了解决初始聚类时, 聚类簇空白的冷开始问题。 0038 确定初始聚类簇的方法可以有多种, 例如可以采用下面两种方式确定初始聚。
25、类 簇 : 0039 方式一, 随机选择购买词, 根据随机选择的购买词确定一个以上的初始聚类簇。 例 如, 将随机选择的不同购买词分别确定为不同的初始聚类簇。 0040 在方式一中, 通过随机选择购买词, 将随机选择的每个购买词都作为一个单独的 初始聚类簇, 虽然可以解决聚类簇为空的冷开始问题, 但是由于随机选取的多个购买词可 能出现抱团的现象, 即随机选择的多个购买词之间可能关联性较强, 因此, 采用方式一在某 些情况下会影响聚类效果。 0041 方式二, 计算购买词的 simhash 值, 根据不同购买词的 simhash 值之间的距离, 选 择所述距离满足预定条件的购买词, 根据选出的购。
26、买词确定一个以上的初始聚类簇。 0042 两个购买词的 simhash 值之间的距离, 可以在一定程度上反映两个购买词之间的 相似度, 因此, 通过计算购买词的 simhash 值, 选择 simhash 值之间的距离大于预定阈值的 购买词作为不同的初始聚类簇, 可以使得初始聚类簇之间具有一定的距离, 以便取得良好 的聚类效果。 0043 具体地, 在方式二中, 可以先随机选择一个购买词作为初始聚类簇, 然后计算该购 买词的simhash值, 在该购买词的simhash值的基础上加上或减去一个预设的距离阈值, 得 到下一目标 simhash 值, 寻找其 simhash 值为所述下一目标 si。
27、mhash 值的购买词, 将寻找到 的 simhash 值作为下一个初始聚类簇, 以此类推, 直至找到预定数目个购买词分别作为初 始聚类簇。 0044 在方式一和方式二中, 初始聚类簇的个数可以是一个, 也可以是多个, 较佳地, 可 以根据需要建立多个初始聚类簇, 尽量使得初始聚类簇的数量与实际聚类之后得到的聚类 簇的数量相当, 这样可以提高聚类的效率和准确性。例如, 可以统计所有待分类购买词的 simhash 值范围, 将该范围划分为多个区间, 每个区间内选择一个或多个 simhash 值, 将选 出的一个或多个 simhash 值对应的待分类购买词 ( 即这些待分类购买词的 simhash。
28、 值与选 说 明 书 CN 103176975 A 7 4/7 页 8 出的 simhash 值相等或差值小于预定阈值 ) 确定为属于一个初始聚类簇。 0045 步骤 202, 获取待分类的购买词的广告主向量。 0046 步骤 203, 计算待分类的购买词的广告主向量与各个聚类簇的中心之间的距离。 0047 本步骤中, 待分类的购买词的广告主向量与聚类簇的中心之间的距离, 可以用于 衡量该待分类的购买词与该聚类簇之间的相似度, 一般地, 所述距离越大, 所述相似度越 大, 反之, 距离越小相似度越小。 0048 步骤 204, 判断所述距离是否满足预定条件, 如果是, 执行步骤 205, 否则。
29、执行步骤 206。 0049 步骤 205, 将该待分类的购买词分入相应的聚类簇中, 结束本流程。 0050 步骤 206, 将该待分类的购买词确定为新建的聚类簇, 结束本流程。 0051 图 2 所示方法中, 计算待分类的购买词的广告主向量与各个聚类簇的中心之间的 距离需要耗费一定的计算资源和计算时间, 为了节省计算资源、 加快聚类速度, 本发明提 出, 可以从已有的聚类簇中选择出部分聚类簇, 仅计算选择出的各个聚类簇的中心与待分 类的购买词的广告主向量之间的距离, 根据计算结果对待分类的购买词进行聚类, 具体请 参见图 3。 0052 图 3 是本发明提供的购买词聚类方法第二详细流程图。 。
30、0053 如图 3 所示, 该流程包括 : 0054 步骤 301, 获取待分类的购买词的广告主向量。 0055 步骤 302, 确定待分类的购买词的候选聚类簇集合。 0056 本步骤中, 确定待分类的购买词的广告主向量中每个广告主特征已经购买的购买 词, 确定所述已经购买的购买词所归属的聚类簇, 确定出的所有聚类簇组成该待分类的购 买词的候选聚类簇集合。该购买词的候选聚类簇集合也可以称为该购买词的聚类倒排。 0057 例如, 待分类的购买词 1 的广告主向量由广告主 1 和广告主 2 及其各自的权重组 成, 该广告主 1 和广告主 2 是该广告主向量的广告主特征。广告主 1 购买的所有购买词。
31、为 购买词 1、 购买词 A 和购买词 B, 广告主 2 购买的所有购买词为购买词 1、 购买词 C 和购买词 D, 其中, 购买词 A 属于聚类簇 a, 购买词 B 属于聚类簇 b, 购买词 C 也属于聚类簇 a, 购买词 D 暂时还没有进行分类, 即不确定购买词 D 归属于哪一聚类簇, 因此, 待分类的购买词 1 的候 选聚类簇集合由聚类簇 a 和聚类簇 b 组成。 0058 步骤 303, 计算所述候选聚类簇集合中的各个聚类簇的权重。 0059 本步骤中, 对于待分类的购买词的广告主向量中的每个广告主特征, 根据该个广 告主特征购买某一购买词的次数、 以及该某一购买词的广告主向量与该某一。
32、购买词所归属 的聚类簇中心之间的距离, 确定该某一购买词所归属的聚类簇在所述候选聚类簇集合中的 权重。 0060 继续上例, 假设购买词 A 被广告主 1 购买了 m1 次, 购买词 A 的广告主向量与聚类 簇 a 的中心之间的距离是 m2, 购买词 C 被广告主 2 购买了 n1 次, 购买词 C 的广告主向量与 聚类簇 a 的中心之间的距离是 n2, 那么, 作为示例性地, 可以将聚类簇 a 在所述待分类的购 买词的候选聚类簇集合中的权重确定为 m1*m2+n1*n2。 0061 步骤 304, 根据待分类的购买词的候选聚类簇集合中各个聚类簇的权重, 从所述候 选聚类簇集合中选择权重满足预。
33、定条件的聚类簇。 说 明 书 CN 103176975 A 8 5/7 页 9 0062 一般地, 可以选择在候选聚类簇集合中的权重排在前面的聚类簇, 例如选取权重 排在 TopN 的聚类簇。 0063 步骤 305, 计算待分类的购买词的广告主向量与从所述候选聚类簇集合中选出的 每个聚类簇中心之间的距离。 0064 步骤 306, 从待分类的购买词的广告主向量与各个聚类簇的中心之间的距离中选 出最大的距离。 0065 步骤 307, 判断该最大的距离是否大于预定阈值, 如果是, 执行步骤 308, 否则执行 步骤 309。 0066 步骤 308, 将该待分类的购买词分入该最大的距离对应的聚。
34、类簇中, 结束本流程。 0067 例如, 如果待分类的购买词的广告主向量与聚类簇 a 的距离比该广告主向量与其 他聚类簇的距离都大, 那么将该待分类的购买词分入聚类簇 a 中。 0068 步骤 309, 将该待分类的购买词确定为新建的聚类簇, 结束本流程。 0069 通过本步骤, 可以实现聚类簇的分裂, 即在待分类的购买词不属于现有的任何一 个聚类簇时, 将该待分类的购买词作为一个新的聚类簇。 0070 步骤 309 中, 对于未聚类成功的待分类购买词, 也可以在特定时机对该待分类购 买词重新进行聚类, 例如, 在该待分类的购买词的广告主向量更新时、 或者在预定周期后, 对该待分类的购买词重新。
35、聚类。 0071 上述方法中, 聚类簇的中心可以通过如下方法得到 : 计算聚类簇中所有购买词的 广告主向量的平均值, 将该平均值确定为该聚类簇的中心。例如, 聚类簇 a 由购买词 A 和购 买词 C 组成, 购买词 A 的广告主向量为 ( 广告主 1( 权重 1), 广告主 3( 权重 3), 购买词 C 的广告主向量为 ( 广告主 2( 权重 2), 广告主 3( 权重 3 ), 那么, 聚类簇 a 的中心为 ( 广告 主 1( 权重 1), 广告主 2( 权重 2), 广告主 3( 权重 3+ 权重 3 )/2)。 0072 其中, 可以通过计算待分类的购买词的广告主向量与聚类簇的中心之间。
36、的夹角的 余弦值, 将该余弦值确定为该待分类的购买词的广告主向量与该聚类簇的中心之间的距 离。 0073 根据图 1 图 3 的方法, 本发明可以将整个聚类过程设计成一个随着时间变化的 增量过程 : 维持一个已经完成聚类的购买词列表, 当有新的购买词到来时, 对该新到来的购 买词进行聚类, 然后根据聚类结果, 将该新到来的购买词加入到所述购买词列表中。 该购买 词列表中, 可以维护有每个购买词所归属的聚类簇。 0074 除了所述购买词列表外, 本发明还维护了每个聚类簇包含的购买词, 即维护了每 个聚类簇的簇成员, 还可以维护每个聚类簇的其他相关量, 例如每个聚类簇的中心。 0075 本发明还可。
37、以维护每个广告主对应的聚类簇集合, 即该广告主购买的所有购买词 中, 各个购买词所归属的聚类簇的集合。 0076 可见, 通过本发明, 既可以完成全量购买词的聚类, 也可以完成新增购买词的聚 类, 实现全量购买词与新增购买词的聚类结果合并。 0077 通过本发明的上述方法得到的聚类结果中, 一般地, 属于不同聚类簇的购买词之 间的相似度较小, 而同一个聚类簇内的不同购买词之间的相似度较大, 每个聚类簇中的成 员可以看作是具有相同意义的词, 但是这种关系并不是绝对的, 为了验证挖掘出来的同一 聚类簇内的成员之间是否达到聚类的等价标准, 还可以使用语义相似度工具做后续验证。 说 明 书 CN 10。
38、3176975 A 9 6/7 页 10 例如, 可以在相同的聚类簇内选择距离符合一定阈值要求的购买词对, 将该购买词对作为 关联词对。 例如, 从一个聚类簇内选择任意两个购买词, 计算这两个购买词的广告主向量之 间的夹角的余弦值, 如果该余弦值大于预定阈值, 那么, 可以将这两个购买词对确定为一对 关联词对。 0078 为了对获得关联词对的准确性进行验证, 进而获得等价词对, 本发明还提出, 可以 利用语义相似度工具对关联词对进行验证, 如果验证通过, 则可以将该关联词对确定为等 价词对, 否则, 确定该关联词对不是等价词对, 甚至不是关联词对。 0079 根据本发明提供的购买词聚类方法, 。
39、本发明还提供了相应的购买词聚类装置, 具 体请参见图 4。 0080 图 4 是本发明提供的购买词聚类装置结构图。 0081 如图 4 所示, 该装置包括广告主向量建立模块 401 和聚类模块 402。 0082 广告主向量建立模块 401, 用于根据每个广告主购买的购买词、 以及购买每个购买 词的次数, 为每个购买词建立广告主向量, 其中, 所述广告主向量中的每个广告主特征均购 买了所述购买词, 每个广告主特征在所述广告主向量中的权重根据所述次数确定。 0083 聚类模块 402, 用于根据各个购买词的广告主向量, 对购买词进行聚类。 0084 其中的聚类模块 402 可以包括初始聚类簇确定。
40、模块和购买词分类模块。 0085 所述初始聚类簇确定模块, 用于确定一个以上的初始聚类簇。 0086 所述购买词分类模块, 用于获取待分类的购买词的广告主向量, 确定各个聚类簇 的中心, 计算待分类的购买词的广告主向量与各个聚类簇的中心之间的距离, 如果所述距 离满足预定条件, 则将该待分类的购买词分入相应的聚类簇中。 0087 所述购买词分类模块, 用于在待分类的购买词的广告主向量与各个聚类簇的中心 之间的距离均不满足所述预定条件时, 将该待分类的购买词确定为新建的聚类簇, 或者等 待重新对所述待分类的购买词进行聚类。 0088 所述初始聚类簇确定模块, 可以用于随机选择购买词, 根据随机选。
41、择的购买词确 定一个以上的初始聚类簇。 0089 所述初始聚类簇确定模块, 可以用于计算购买词的 simhash 值, 根据不同购买词 的 simhash 值之间的距离, 选择所述距离满足预定条件的购买词, 根据选出的购买词及其 simhash 值确定一个以上的初始聚类簇。 0090 所述购买词分类模块, 用于确定待分类的购买词的广告主向量中每个广告主特征 已经购买的购买词, 确定所述已经购买的购买词所归属的聚类簇, 确定出的所有聚类簇组 成该待分类的购买词的候选聚类簇集合, 根据购买词被所述每个广告主特征购买的次数、 和该购买词的广告主向量与该购买词所归属的聚类簇中心之间的距离, 确定该购买。
42、词所归 属的聚类簇在所述候选聚类簇集合中的权重, 根据待分类的购买词的聚类簇集合中各个聚 类簇的权重, 从所述聚类簇集合中选择权重满足预定条件的聚类簇, 计算待分类的购买词 的广告主向量与从所述聚类簇集合中选出的每个聚类簇中心之间的距离, 判断所述距离是 否满足预定条件, 如果是, 将该待分类的购买词分入相应的聚类簇中, 否则, 将该待分类的 购买词确定为新建的聚类簇。 0091 所述购买词分类模块, 用于计算聚类簇中所有购买词的广告主向量的平均值, 将 该平均值确定为该聚类簇的中心。 说 明 书 CN 103176975 A 10 7/7 页 11 0092 所述购买词分类模块, 用于计算待。
43、分类的购买词的广告主向量与聚类簇的中心之 间的夹角的余弦值, 将该余弦值确定为该待分类的购买词的广告主向量与该聚类簇的中心 之间的距离。 0093 所述购买词分类模块, 用于从待分类的购买词的广告主向量与各个聚类簇的中心 之间的距离中选出最大的距离, 判断该最大的距离是否大于预定阈值, 如果大于, 将该待分 类的购买词分入所述最大的距离对应的聚类簇中, 否则, 将该待分类的购买词确定为新建 的聚类簇。 0094 该装置还可以包括关联购买词对确定模块。 0095 所述关联购买词对确定模块, 用于从同一聚类簇中选择任意两个购买词, 计算所 述两个购买词的广告主向量之间的夹角的余弦值, 在该余弦值大。
44、于预定阈值时, 将所述两 个购买词确定为具有第一置信度的关联购买词对。 0096 该装置还可以包括语义相似度工具。 0097 所述语义相似度工具, 用于对所述具有第一置信度的关联购买词对进行过滤, 得 到具有第二置信度的等价购买词对, 其中, 第二置信度高于第一置信度。 0098 以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明, 凡在本发明的精 神和原则之内, 所做的任何修改、 等同替换、 改进等, 均应包含在本发明保护的范围之内。 说 明 书 CN 103176975 A 11 1/3 页 12 图 1 图 2 说 明 书 附 图 CN 103176975 A 12 2/3 页 13 图 3 说 明 书 附 图 CN 103176975 A 13 3/3 页 14 图 4 说 明 书 附 图 CN 103176975 A 14 。