一种业务对象的分类、搜索、推送方法和系统.pdf

上传人:r5 文档编号:1662709 上传时间:2018-07-02 格式:PDF 页数:40 大小:2.74MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310573427.6

申请日:

2013.11.13

公开号:

CN104636402A

公开日:

2015.05.20

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20131113|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

阿里巴巴集团控股有限公司

发明人:

张旭; 杨志雄; 王聪智; 梁丽

地址:

英属开曼群岛大开曼资本大厦一座四层847号邮箱

优先权:

专利代理机构:

北京润泽恒知识产权代理有限公司11319

代理人:

赵娟

PDF下载: PDF下载
内容摘要

本申请提供了一种业务对象的分类、搜索、推送方法和系统,所述业务对象的分类方法包括:获取所有待分类的第一目标业务对象;所述第一目标业务对象携带有业务对象属性;分别获取所述第一目标业务对象的用户行为偏好度;分别采用所述业务对象属性计算所述第一目标业务对象与预置的特征种子业务对象的内容相似性;分别采用所述用户行为偏好度计算所述第一目标业务对象与所述特征种子业务对象的行为相关性;分别采用所述内容相似性和行为相关性计算所述第一目标业务对象与所述特征种子业务对象的相似度,获得相似度高于预设阈值的K个特征种子业务对象;将所述K个特征种子业务对象的分类信息添加到所述第一目标业务对象标记中。本申请分类准确率高。

权利要求书

权利要求书
1.  一种业务对象的分类方法,其特征在于,包括:
获取所有待分类的第一目标业务对象;所述第一目标业务对象携带有业 务对象属性;
分别获取所述第一目标业务对象的用户行为偏好度;
分别采用所述业务对象属性计算所述第一目标业务对象与预置的特征 种子业务对象的内容相似性;所述特征种子业务对象具有一个或多个分类信 息;
分别采用所述用户行为偏好度计算所述第一目标业务对象与所述特征 种子业务对象的行为相关性;
分别采用所述内容相似性和行为相关性计算所述第一目标业务对象与 所述特征种子业务对象的相似度,获得相似度高于预设阈值的K个特征种子 业务对象;
将所述K个特征种子业务对象的分类信息添加到所述第一目标业务对 象标记中。

2.  根据权利要求1所述的方法,其特征在于,所述特征种子业务对象 通过以下方式获得:
获取所有待分类的第二目标业务对象;所述第二目标业务对象携带有业 务对象属性;
分别获取所述第二目标业务对象的用户行为偏好度;
分别采用所述业务对象属性计算所述第二目标业务对象与预置的原始 种子业务对象的内容相似性;所述原始种子业务对象具有一个或多个分类信 息;
分别提取与所述第二目标业务对象内容相似性最高的前M个原始种子 业务对象;
将所述前M个原始种子业务对象的分类信息添加到所述第二目标业务 对象中;
分别采用所述用户行为偏好度计算当前第二目标业务对象与其他第二 目标业务对象的行为相关性;
分别提取与当前第二目标业务对象行为相关性最高的前N个其他第二 目标业务对象;
分别将所述前N个其他第二目标业务对象的分类信息添加到当前第二 目标业务对象中;
将分别添加完分类信息的第二目标业务对象设置为特征种子业务对象。

3.  根据权利要求2所述的方法,其特征在于,所述原始种子业务对象 通过以下方式获得:
从网络上抓取候选业务对象,所述候选业务对象包括一个或多个分类信 息;
对所述候选业务对象添加预设分类信息生成原始种子业务对象。

4.  根据权利要求1或2或3所述的方法,其特征在于,所述分别采用 所述内容相似性和行为相关性计算所述第一目标业务对象与所述特征种子 业务对象的相似度,获得相似度高于预设阈值的K个特征种子业务对象的步 骤包括:
提取与所述第一目标业务对象内容相似性最高的前A个特征种子业务 对象形成第一候选种子集合;
提取与所述第一目标业务对象行为相关性最高的前B个特征种子业务 对象形成第二候选种子集合;
采用所述内容相似性和行为相关性计算所述第一目标业务对象与所述 第一候选种子集合和第二候选种子集合中的特征种子业务对象的相似度,获 得相似度高于第一阈值的K个特征种子业务对象。

5.  根据权利要求4所述的方法,其特征在于,所述采用所述内容相似 性和行为相关性计算所述第一目标业务对象与所述第一候选种子集合和第 二候选种子集合中的特征种子业务对象的相似度,获得相似度高于第一阈值 的K个种子商品的步骤包括:
对所述第一候选种子集合和第二候选种子集合中的特征种子业务对象 的内容相似性和行为相关性分别配置对应的权重;
分别针对所述第一目标业务对象采用所述权重计算所述内容相似性和 行为相关性的加权之和;
提取高于预设阈值的和所对应的K个特征种子业务对象。

6.  根据权利要求1所述的方法,其特征在于,在对所述第一目标业务 对象标记所述K个特征种子业务对象的分类信息的步骤之后,还包括:
分别计算当前第一目标业务对象和其他第一目标业务对象的行为相关 性;
分别提取与当前第一目标业务对象行为相关性最高的前L个其他第一 目标业务对象;
分别将所述前L个其他第一目标业务对象的分类信息添加当前第一目 标业务对象中。

7.  根据权利要求1或6所述的方法,其特征在于,在对所述第一目标 业务对象标记所述K个特征种子业务对象的分类信息的步骤之后,还包括:
对所述第一业务对象进行过滤处理。

8.  根据权利要求7所述的方法,其特征在于,还包括:
对所述第一业务对象进行倒排索引处理。

9.  根据权利要求1所述的方法,其特征在于,所述业务对象属性包括 第一目标业务对象的标题和/或类目,所述特征种子业务对象携带有标题和/ 或类目;
所述分别采用所述业务对象属性计算所述第一目标业务对象与预置的 特征种子业务对象的内容相似性的步骤包括:
分别对所述第一目标业务对象的标题,以及,特征种子业务对象的标题 进行分词;
对所述分词采用LDA主题模型进行匹配;
采用匹配后的分词,所述第一目标业务对象的类目,和/或,所述特征种 子业务对象的类目,计算所述第一目标业务对象与预置的特征种子业务对象 的内容相似性。

10.  根据权利要求9所述的方法,其特征在于,所述采用匹配后的分词, 所述第一目标业务对象的类目,和/或,所述特征种子业务对象的类目,计算 所述第一目标业务对象与预置的特征种子业务对象的内容相似性的计算公 式为:
cos ( θ ) = Σ k = 1 n w k x 1 k x 2 k Σ k = 1 n x 1 k 2 Σ k = 1 n x 2 k 2 ]]>
其中,x1k为第一目标业务对象的标题的分词和/或类目,x2k为特征种 子业务对象的标题的分词和/或类目,wk为所述分词和/或类目的权重。

11.  根据权利要求1所述的方法,其特征在于,所述特征种子业务对象 携带有用户行为偏好度;
所述第一目标业务对象与特征种子业务对象的行为相关性通过以下公 式计算:
cos ( θ ) = Σ k = 1 n u k y 1 k y 2 k Σ k = 1 n y 1 k 2 Σ k = 1 n y 2 k 2 ]]>
其中,y1k为特征种子业务对象的用户行为偏好度,y2k为第一目标业 务对象的用户行为偏好度,uk为所述用户行为偏好度的权重。

12.  根据权利要求2所述的方法,其特征在于,所述业务对象属性包括 第二目标业务对象的标题和/或类目,所述原始种子业务对象携带有标题和/ 或类目;
所述第二目标业务对象与预置的原始种子业务对象的内容相似性通过 以下方式获得:
分别对所述第二目标业务对象的标题,以及,原始种子业务对象的标题 进行分词;
对所述分词采用LDA主题模型进行匹配;
采用匹配后的分词,所述第二目标业务对象的类目,和/或,所述原始种 子业务对象的类目,计算所述第二目标业务对象与预置的原始种子业务对象 的内容相似性。

13.  根据权利要求12所述的方法,其特征在于,所述采用匹配后的分 词,所述第二目标业务对象的类目,和/或,所述原始种子业务对象的类目, 计算所述第二目标业务对象与预置的原始种子业务对象的内容相似性的计 算公式为:
cos ( θ ) = Σ k = 1 n v k a 1 k a 2 k Σ k = 1 n a 1 k 2 Σ k = 1 n a 2 k 2 ]]>
其中,a1k为第二目标业务对象的标题的分词和/或类目,a2k为原始种 子业务对象的标题的分词和/或类目,vk为所述分词和/或类目的权重。

14.  根据权利要求2所述的方法,其特征在于,所述当前第二目标业务 对象与其他第二目标业务对象的行为相关性通过以下公式计算:
cos ( θ ) = Σ k = 1 n r k b 1 k b 2 k Σ k = 1 n b 1 k 2 Σ k = 1 n b 2 k 2 ]]>
其中,b1k为当前第二目标业务对象的用户行为偏好度,b2k为其他第 二目标业务对象的用户行为偏好度,rk为所述用户行为偏好度的权重。

15.  根据权利要求6所述的方法,其特征在于,所述当前第一目标业务 对象与其他第一目标业务对象的行为相关性通过以下公式计算:
cos ( θ ) = Σ k = 1 n t k z 1 k z 2 k Σ k = 1 n z 1 k 2 Σ k = 1 n z 2 k 2 ]]>
其中,z1k为当前第一目标业务对象的用户行为偏好度,z2k为其他第 一目标业务对象的用户行为偏好度,tk为所述用户行为偏好度的权重。

16.  一种业务对象的搜索方法,其特征在于,包括:
接收用户的搜索请求;
依据所述请求,获取搜索结果;
将所述搜索结果中具有相同分类信息的业务对象合并显示;
其中,所述分类信息通过以下方式获得:
获取所有待分类的第一目标业务对象;所述第一目标业务对象携带有业 务对象属性;
分别获取所述第一目标业务对象的用户行为偏好度;
分别采用所述业务对象属性计算所述第一目标业务对象与预置的特征 种子业务对象的内容相似性;所述特征种子业务对象具有一个或多个分类信 息;
分别采用所述用户行为偏好度计算所述第一目标业务对象与所述特征 种子业务对象的行为相关性;
分别采用所述内容相似性和行为相关性计算所述第一目标业务对象与 所述特征种子业务对象的相似度,获得相似度高于预设阈值的K个特征种子 业务对象;
将所述K个特征种子业务对象的分类信息添加到所述第一目标业务对 象标记中。

17.  一种业务对象的推送方法,其特征在于,包括:
获取当前用户触发的业务对象;
提取所述业务对象的分类信息;
将具有相同分类信息的业务对象推送给当前用户;
其中,所述分类信息通过以下方式获得:
获取所有待分类的第一目标业务对象;所述第一目标业务对象携带有业 务对象属性;
分别获取所述第一目标业务对象的用户行为偏好度;
分别采用所述业务对象属性计算所述第一目标业务对象与预置的特征 种子业务对象的内容相似性;所述特征种子业务对象具有一个或多个分类信 息;
分别采用所述用户行为偏好度计算所述第一目标业务对象与所述特征 种子业务对象的行为相关性;
分别采用所述内容相似性和行为相关性计算所述第一目标业务对象与 所述特征种子业务对象的相似度,获得相似度高于预设阈值的K个特征种子 业务对象;
将所述K个特征种子业务对象的分类信息添加到所述第一目标业务对 象标记中。

18.  一种业务对象的分类系统,其特征在于,包括:
第一目标业务对象获取模块,用于获取所有待分类的第一目标业务对 象;所述第一目标业务对象携带有业务对象属性;
用户行为偏好度获取模块,用于分别获取所述第一目标业务对象的用户 行为偏好度;
内容相似性计算模块,用于分别采用所述业务对象属性计算所述第一目 标业务对象与预置的特征种子业务对象的内容相似性;所述特征种子业务对 象具有一个或多个分类信息;
第一行为相关性计算模块,用于分别采用所述用户行为偏好度计算所述 第一目标业务对象与所述特征种子业务对象的行为相关性;
相似度计算模块,用于分别采用所述内容相似性和行为相关性计算所述 第一目标业务对象与所述特征种子业务对象的相似度,获得相似度高于预设 阈值的K个特征种子业务对象;
第一分类信息添加模块,用于将所述K个特征种子业务对象的分类信息 添加到所述第一目标业务对象标记中。

19.  根据权利要求18所述的系统,其特征在于,所述特征种子业务对 象通过以下方式获得:
获取所有待分类的第二目标业务对象;所述第二目标业务对象携带有业 务对象属性;
分别获取所述第二目标业务对象的用户行为偏好度;
分别采用所述业务对象属性计算所述第二目标业务对象与预置的原始 种子业务对象的内容相似性;所述原始种子业务对象具有一个或多个分类信 息;
分别提取与所述第二目标业务对象内容相似性最高的前M个原始种子 业务对象;
将所述前M个原始种子业务对象的分类信息添加到所述第二目标业务 对象中;
分别采用所述用户行为偏好度计算当前第二目标业务对象与其他第二 目标业务对象的行为相关性;
分别提取与当前第二目标业务对象行为相关性最高的前N个其他第二 目标业务对象;
分别将所述前N个其他第二目标业务对象的分类信息添加到当前第二 目标业务对象中;
将分别添加完分类信息的第二目标业务对象设置为特征种子业务对象。

20.  根据权利要求19所述的系统,其特征在于,所述原始种子业务对 象通过以下方式获得:
从网络上抓取候选业务对象,所述候选业务对象包括一个或多个分类信 息;
对所述候选业务对象添加预设分类信息生成原始种子业务对象。

21.  根据权利要求18或19或20所述的系统,其特征在于,所述相似 度计算模块包括:
第一候选种子集合形成子模块,用于提取与所述第一目标业务对象内容 相似性最高的前A个特征种子业务对象形成第一候选种子集合;
第二候选种子集合形成子模块,用于提取与所述第一目标业务对象行为 相关性最高的前B个特征种子业务对象形成第二候选种子集合;
候选种子集合相似度计算子模块,用于采用所述内容相似性和行为相关 性计算所述第一目标业务对象与所述第一候选种子集合和第二候选种子集 合中的特征种子业务对象的相似度,获得相似度高于第一阈值的K个特征种 子业务对象。

22.  根据权利要求21所述的系统,其特征在于,所述候选种子集合相 似度计算子模块包括:
权重配置子模块,用于对所述第一候选种子集合和第二候选种子集合中 的特征种子业务对象的内容相似性和行为相关性分别配置对应的权重;
加权和计算子模块,用于分别针对所述第一目标业务对象采用所述权重 计算所述内容相似性和行为相关性的加权之和;
第一提取子模块,用于提取高于预设阈值的和所对应的K个特征种子业 务对象。

23.  根据权利要求18所述的系统,其特征在于,还包括:
第二行为相关性计算模块,用于分别计算当前第一目标业务对象和其他 第一目标业务对象的行为相关性;
第二提取模块,用于分别提取与当前第一目标业务对象行为相关性最高 的前L个其他第一目标业务对象;
第二分类信息添加模块,用于分别将所述前L个其他第一目标业务对象 的分类信息添加当前第一目标业务对象中。

24.  根据权利要求18或23所述的系统,其特征在于,还包括:
过滤模块,用于对所述第一业务对象进行过滤处理。

25.  根据权利要求24所述的系统,其特征在于,还包括:
倒排索引模块,用于对所述第一业务对象进行倒排索引处理。

26.  根据权利要求18所述的系统,其特征在于,所述业务对象属性包 括第一目标业务对象的标题和/或类目,所述特征种子业务对象携带有标题和 /或类目;
所述内容相似性计算模块包括:
分词子模块,用于分别对所述第一目标业务对象的标题,以及,特征种 子业务对象的标题进行分词;
匹配子模块,用于对所述分词采用LDA主题模型进行匹配;
计算子模块,用于采用匹配后的分词,所述第一目标业务对象的类目, 和/或,所述特征种子业务对象的类目,计算所述第一目标业务对象与预置的 特征种子业务对象的内容相似性。

27.  根据权利要求26所述的系统,其特征在于,所述采用匹配后的分 词,所述第一目标业务对象的类目,和/或,所述特征种子业务对象的类目, 计算所述第一目标业务对象与预置的特征种子业务对象的内容相似性的计 算公式为:
cos ( θ ) = Σ k = 1 n w k x 1 k x 2 k Σ k = 1 n x 1 k 2 Σ k = 1 n x 2 k 2 ]]>
其中,x1k为第一目标业务对象的标题的分词和/或类目,x2k为特征种 子业务对象的标题的分词和/或类目,wk为所述分词和/或类目的权重。

28.  根据权利要求18所述的系统,其特征在于,所述特征种子业务对 象携带有用户行为偏好度;
所述第一目标业务对象与特征种子业务对象的行为相关性通过以下公 式计算:
cos ( θ ) = Σ k = 1 n u k y 1 k y 2 k Σ k = 1 n y 1 k 2 Σ k = 1 n y 2 k 2 ]]>
其中,y1k为特征种子业务对象的用户行为偏好度,y2k为第一目标业 务对象的用户行为偏好度,uk为所述用户行为偏好度的权重。

29.  根据权利要求19所述的系统,其特征在于,所述业务对象属性包 括第二目标业务对象的标题和/或类目,所述原始种子业务对象携带有标题和 /或类目;
所述第二目标业务对象与预置的原始种子业务对象的内容相似性通过 以下方式获得:
分别对所述第二目标业务对象的标题,以及,原始种子业务对象的标题 进行分词;
对所述分词采用LDA主题模型进行匹配;
采用匹配后的分词,所述第二目标业务对象的类目,和/或,所述原始种 子业务对象的类目,计算所述第二目标业务对象与预置的原始种子业务对象 的内容相似性。

30.  根据权利要求29所述的系统,其特征在于,所述采用匹配后的分 词,所述第二目标业务对象的类目,和/或,所述原始种子业务对象的类目, 计算所述第二目标业务对象与预置的原始种子业务对象的内容相似性的计 算公式为:
cos ( θ ) = Σ k = 1 n v k a 1 k a 2 k Σ k = 1 n a 1 k 2 Σ k = 1 n a 2 k 2 ]]>
其中,a1k为第二目标业务对象的标题的分词和/或类目,a2k为原始种 子业务对象的标题的分词和/或类目,vk为所述分词和/或类目的权重。

31.  根据权利要求19所述的系统,其特征在于,所述当前第二目标业 务对象与其他第二目标业务对象的行为相关性通过以下公式计算:
cos ( θ ) = Σ k = 1 n r k b 1 k b 2 k Σ k = 1 n b 1 k 2 Σ k = 1 n b 2 k 2 ]]>
其中,b1k为当前第二目标业务对象的用户行为偏好度,b2k为其他第 二目标业务对象的用户行为偏好度,rk为所述用户行为偏好度的权重。

32.  根据权利要求23所述的系统,其特征在于,所述当前第一目标业 务对象与其他第一目标业务对象的行为相关性通过以下公式计算:
cos ( θ ) = Σ k = 1 n t k z 1 k z 2 k Σ k = 1 n z 1 k 2 Σ k = 1 n z 2 k 2 ]]>
其中,z1k为当前第一目标业务对象的用户行为偏好度,z2k为其他第 一目标业务对象的用户行为偏好度,tk为所述用户行为偏好度对应用户的权 重。

33.  一种业务对象的搜索系统,其特征在于,包括:
搜索请求接收模块,用于接收用户的搜索请求;
搜索结果获取模块,用于依据所述请求,获取搜索结果;
合并显示模块,用于将所述搜索结果中具有相同分类信息的业务对象合 并显示;
其中,所述分类信息通过以下方式获得:
获取所有待分类的第一目标业务对象;所述第一目标业务对象携带有业 务对象属性;
分别获取所述第一目标业务对象的用户行为偏好度;
分别采用所述业务对象属性计算所述第一目标业务对象与预置的特征 种子业务对象的内容相似性;所述特征种子业务对象具有一个或多个分类信 息;
分别采用所述用户行为偏好度计算所述第一目标业务对象与所述特征 种子业务对象的行为相关性;
分别采用所述内容相似性和行为相关性计算所述第一目标业务对象与 所述特征种子业务对象的相似度,获得相似度高于预设阈值的K个特征种子 业务对象;
将所述K个特征种子业务对象的分类信息添加到所述第一目标业务对 象标记中。

34.  一种业务对象的推送系统,其特征在于,包括:
业务对象获取模块,用于获取当前用户触发的业务对象;
分类信息提取模块,用于提取所述业务对象的分类信息;
业务对象推送模块,用于将具有相同分类信息的业务对象推送给当前用 户;
其中,所述分类信息通过以下方式获得:
获取所有待分类的第一目标业务对象;所述第一目标业务对象携带有业 务对象属性;
分别获取所述第一目标业务对象的用户行为偏好度;
分别采用所述业务对象属性计算所述第一目标业务对象与预置的特征 种子业务对象的内容相似性;所述特征种子业务对象具有一个或多个分类信 息;
分别采用所述用户行为偏好度计算所述第一目标业务对象与所述特征 种子业务对象的行为相关性;
分别采用所述内容相似性和行为相关性计算所述第一目标业务对象与 所述特征种子业务对象的相似度,获得相似度高于预设阈值的K个特征种子 业务对象;
将所述K个特征种子业务对象的分类信息添加到所述第一目标业务对 象标记中。

说明书

说明书一种业务对象的分类、搜索、推送方法和系统
技术领域
本申请实施例涉及数据搜索的技术领域,特别是涉及一种业务对象的分 类方法、一种业务对象的分类系统、一种业务对象的搜索方法、一种业务对 象的搜索系统、一种业务对象的推送方法和一种业务对象的推送系统。
背景技术
近年来,随着互联网的高速发展,网上的信息量急剧增加,各大网站越 来越面向更精细化的服务。其中,垂直化运营是一个重要的发展方向。垂直 化运营的主要表现为专场,比如礼品专场、旅游用品专场等等。
垂直化运营通常需要大量的人工成本和运营成本,一部分原因是提取垂 直化的数据,对数据分类需要大量的运营成本。比如在礼品专场中,从大量 的业务对象(例如商品信息)中提取适合送礼的业务对象进行分类,都需要 人工进行。
对业务对象的分类,尤其是情感、风格类的标注和分类,运营成本很高。 主要原因是这些业务对象的分类是语义层次上的,所以业务对象的分类准确 要求对业务对象有语义上的理解。例如,“适合送爸爸的礼品”这样的类别, 很难通过语法匹配或规则匹配等传统方法准确划分,往往需要靠人工来甄 别、分类。特别的,由于在互联网发布的业务对象的类型和数量都在高速增 长中,人工对业务对象分类的方式在时间和人力成本上越来越高,以至于无 法承受。
如果采用传统的基于机器学习的业务对象分类,一般需要定义一个初始 训练集。获得这个训练集,特别是在数据量大的情况下,人工成本很高。再 者,此类业务对象的分类方法,对每个业务对象,通常只能划分到一个类别。 对一个业务对象属于多个交叉类别的情况,便无能为力了,实用性很差。另 外,此类业务对象的分类方法,业务对象的信息维度使用比较单一,无法综 合体现业务对象的性质,业务对象分类准确率低。
因此,目前需要本领域技术人员迫切解决的一个技术问题就是:在垂直 化运营中,如何在将不同的业务对象划分为同一类业务对象,能够支持特定 种类、特色的专场的业务对象分类,提高业务对象分类的准确率,减少运营 成本。
申请内容
本申请实施例所要解决的技术问题是提供一种业务对象的分类方法、一 种业务对象的搜索方法、一种业务对象的推送方法,用以提高业务对象分类 的准确率,减少运营成本。
相应的,本申请实施例还提供了一种业务对象的分类系统、一种业务对 象的搜索系统、一种业务对象的推送系统,用以保证上述方法的实现及应用。
为了解决上述问题,本申请公开了一种业务对象的分类方法,包括:
获取所有待分类的第一目标业务对象;所述第一目标业务对象携带有业 务对象属性;
分别获取所述第一目标业务对象的用户行为偏好度;
分别采用所述业务对象属性计算所述第一目标业务对象与预置的特征 种子业务对象的内容相似性;所述特征种子业务对象具有一个或多个分类信 息;
分别采用所述用户行为偏好度计算所述第一目标业务对象与所述特征 种子业务对象的行为相关性;
分别采用所述内容相似性和行为相关性计算所述第一目标业务对象与 所述特征种子业务对象的相似度,获得相似度高于预设阈值的K个特征种子 业务对象;
将所述K个特征种子业务对象的分类信息添加到所述第一目标业务对 象标记中。
优选地,所述特征种子业务对象通过以下方式获得:
获取所有待分类的第二目标业务对象;所述第二目标业务对象携带有业 务对象属性;
分别获取所述第二目标业务对象的用户行为偏好度;
分别采用所述业务对象属性计算所述第二目标业务对象与预置的原始 种子业务对象的内容相似性;所述原始种子业务对象具有一个或多个分类信 息;
分别提取与所述第二目标业务对象内容相似性最高的前M个原始种子 业务对象;
将所述前M个原始种子业务对象的分类信息添加到所述第二目标业务 对象中;
分别采用所述用户行为偏好度计算当前第二目标业务对象与其他第二 目标业务对象的行为相关性;
分别提取与当前第二目标业务对象行为相关性最高的前N个其他第二 目标业务对象;
分别将所述前N个其他第二目标业务对象的分类信息添加到当前第二 目标业务对象中;
将分别添加完分类信息的第二目标业务对象设置为特征种子业务对象。
优选地,所述原始种子业务对象通过以下方式获得:
从网络上抓取候选业务对象,所述候选业务对象包括一个或多个分类信 息;
对所述候选业务对象添加预设分类信息生成原始种子业务对象。
优选地,所述分别采用所述内容相似性和行为相关性计算所述第一目标 业务对象与所述特征种子业务对象的相似度,获得相似度高于预设阈值的K 个特征种子业务对象的步骤包括:
提取与所述第一目标业务对象内容相似性最高的前A个特征种子业务 对象形成第一候选种子集合;
提取与所述第一目标业务对象行为相关性最高的前B个特征种子业务 对象形成第二候选种子集合;
采用所述内容相似性和行为相关性计算所述第一目标业务对象与所述 第一候选种子集合和第二候选种子集合中的特征种子业务对象的相似度,获 得相似度高于第一阈值的K个特征种子业务对象。
优选地,所述采用所述内容相似性和行为相关性计算所述第一目标业务 对象与所述第一候选种子集合和第二候选种子集合中的特征种子业务对象 的相似度,获得相似度高于第一阈值的K个种子商品的步骤包括:
对所述第一候选种子集合和第二候选种子集合中的特征种子业务对象 的内容相似性和行为相关性分别配置对应的权重;
分别针对所述第一目标业务对象采用所述权重计算所述内容相似性和 行为相关性的加权之和;
提取高于预设阈值的和所对应的K个特征种子业务对象。
优选地,在对所述第一目标业务对象标记所述K个特征种子业务对象的 分类信息的步骤之后,还包括:
分别计算当前第一目标业务对象和其他第一目标业务对象的行为相关 性;
分别提取与当前第一目标业务对象行为相关性最高的前L个其他第一 目标业务对象;
分别将所述前L个其他第一目标业务对象的分类信息添加当前第一目 标业务对象中。
优选地,在对所述第一目标业务对象标记所述K个特征种子业务对象的 分类信息的步骤之后,还包括:
对所述第一业务对象进行过滤处理。
优选地,还包括:
对所述第一业务对象进行倒排索引处理。
优选地,所述业务对象属性包括第一目标业务对象的标题和/或类目,所 述特征种子业务对象携带有标题和/或类目;
所述分别采用所述业务对象属性计算所述第一目标业务对象与预置的 特征种子业务对象的内容相似性的步骤包括:
分别对所述第一目标业务对象的标题,以及,特征种子业务对象的标题 进行分词;
对所述分词采用LDA主题模型进行匹配;
采用匹配后的分词,所述第一目标业务对象的类目,和/或,所述特征种 子业务对象的类目,计算所述第一目标业务对象与预置的特征种子业务对象 的内容相似性。
优选地,所述采用匹配后的分词,所述第一目标业务对象的类目,和/ 或,所述特征种子业务对象的类目,计算所述第一目标业务对象与预置的特 征种子业务对象的内容相似性的计算公式为:
cos ( θ ) = Σ k = 1 n w k x 1 k x 2 k Σ k = 1 n x 1 k 2 Σ k = 1 n x 2 k 2 ]]>
其中,x1k为第一目标业务对象的标题的分词和/或类目,x2k为特征种 子业务对象的标题的分词和/或类目,wk为所述分词和/或类目的权重。
优选地,所述特征种子业务对象携带有用户行为偏好度;
所述第一目标业务对象与特征种子业务对象的行为相关性通过以下公 式计算:
cos ( θ ) = Σ k = 1 n u k y 1 k y 2 k Σ k = 1 n y 1 k 2 Σ k = 1 n y 2 k 2 ]]>
其中,y1k为特征种子业务对象的用户行为偏好度,y2k为第一目标业 务对象的用户行为偏好度,uk为所述用户行为偏好度的权重。
优选地,所述业务对象属性包括第二目标业务对象的标题和/或类目,所 述原始种子业务对象携带有标题和/或类目;
所述第二目标业务对象与预置的原始种子业务对象的内容相似性通过 以下方式获得:
分别对所述第二目标业务对象的标题,以及,原始种子业务对象的标题 进行分词;
对所述分词采用LDA主题模型进行匹配;
采用匹配后的分词,所述第二目标业务对象的类目,和/或,所述原始种 子业务对象的类目,计算所述第二目标业务对象与预置的原始种子业务对象 的内容相似性。
优选地,所述采用匹配后的分词,所述第二目标业务对象的类目,和/ 或,所述原始种子业务对象的类目,计算所述第二目标业务对象与预置的原 始种子业务对象的内容相似性的计算公式为:
cos ( θ ) = Σ k = 1 n v k a 1 k a 2 k Σ k = 1 n a 1 k 2 Σ k = 1 n a 2 k 2 ]]>
其中,a1k为第二目标业务对象的标题的分词和/或类目,a2k为原始种 子业务对象的标题的分词和/或类目,vk为所述分词和/或类目的权重。
优选地,所述当前第二目标业务对象与其他第二目标业务对象的行为相 关性通过以下公式计算:
cos ( θ ) = Σ k = 1 n r k b 1 k b 2 k Σ k = 1 n b 1 k 2 Σ k = 1 n b 2 k 2 ]]>
其中,b1k为当前第二目标业务对象的用户行为偏好度,b2k为其他第 二目标业务对象的用户行为偏好度,rk为所述用户行为偏好度的权重。
优选地,所述当前第一目标业务对象与其他第一目标业务对象的行为相 关性通过以下公式计算:
cos ( θ ) = Σ k = 1 n t k z 1 k z 2 k Σ k = 1 n z 1 k 2 Σ k = 1 n z 2 k 2 ]]>
其中,z1k为当前第一目标业务对象的用户行为偏好度,z2k为其他第 一目标业务对象的用户行为偏好度,tk为所述用户行为偏好度的权重。
本申请还公开了一种业务对象的搜索方法,包括:
接收用户的搜索请求;
依据所述请求,获取搜索结果;
将所述搜索结果中具有相同分类信息的业务对象合并显示;
其中,所述分类信息通过以下方式获得:
获取所有待分类的第一目标业务对象;所述第一目标业务对象携带有业 务对象属性;
分别获取所述第一目标业务对象的用户行为偏好度;
分别采用所述业务对象属性计算所述第一目标业务对象与预置的特征 种子业务对象的内容相似性;所述特征种子业务对象具有一个或多个分类信 息;
分别采用所述用户行为偏好度计算所述第一目标业务对象与所述特征 种子业务对象的行为相关性;
分别采用所述内容相似性和行为相关性计算所述第一目标业务对象与 所述特征种子业务对象的相似度,获得相似度高于预设阈值的K个特征种子 业务对象;
将所述K个特征种子业务对象的分类信息添加到所述第一目标业务对 象标记中。
本申请还公开了一种业务对象的推送方法,包括:
获取当前用户触发的业务对象;
提取所述业务对象的分类信息;
将具有相同分类信息的业务对象推送给当前用户;
其中,所述分类信息通过以下方式获得:
获取所有待分类的第一目标业务对象;所述第一目标业务对象携带有业 务对象属性;
分别获取所述第一目标业务对象的用户行为偏好度;
分别采用所述业务对象属性计算所述第一目标业务对象与预置的特征 种子业务对象的内容相似性;所述特征种子业务对象具有一个或多个分类信 息;
分别采用所述用户行为偏好度计算所述第一目标业务对象与所述特征 种子业务对象的行为相关性;
分别采用所述内容相似性和行为相关性计算所述第一目标业务对象与 所述特征种子业务对象的相似度,获得相似度高于预设阈值的K个特征种子 业务对象;
将所述K个特征种子业务对象的分类信息添加到所述第一目标业务对 象标记中。
本申请还公开了一种业务对象的分类系统,包括:
第一目标业务对象获取模块,用于获取所有待分类的第一目标业务对 象;所述第一目标业务对象携带有业务对象属性;
用户行为偏好度获取模块,用于分别获取所述第一目标业务对象的用户 行为偏好度;
内容相似性计算模块,用于分别采用所述业务对象属性计算所述第一目 标业务对象与预置的特征种子业务对象的内容相似性;所述特征种子业务对 象具有一个或多个分类信息;
第一行为相关性计算模块,用于分别采用所述用户行为偏好度计算所述 第一目标业务对象与所述特征种子业务对象的行为相关性;
相似度计算模块,用于分别采用所述内容相似性和行为相关性计算所述 第一目标业务对象与所述特征种子业务对象的相似度,获得相似度高于预设 阈值的K个特征种子业务对象;
第一分类信息添加模块,用于将所述K个特征种子业务对象的分类信息 添加到所述第一目标业务对象标记中。
优选地,所述特征种子业务对象通过以下方式获得:
获取所有待分类的第二目标业务对象;所述第二目标业务对象携带有业 务对象属性;
分别获取所述第二目标业务对象的用户行为偏好度;
分别采用所述业务对象属性计算所述第二目标业务对象与预置的原始 种子业务对象的内容相似性;所述原始种子业务对象具有一个或多个分类信 息;
分别提取与所述第二目标业务对象内容相似性最高的前M个原始种子 业务对象;
将所述前M个原始种子业务对象的分类信息添加到所述第二目标业务 对象中;
分别采用所述用户行为偏好度计算当前第二目标业务对象与其他第二 目标业务对象的行为相关性;
分别提取与当前第二目标业务对象行为相关性最高的前N个其他第二 目标业务对象;
分别将所述前N个其他第二目标业务对象的分类信息添加到当前第二 目标业务对象中;
将分别添加完分类信息的第二目标业务对象设置为特征种子业务对象。
优选地,所述原始种子业务对象通过以下方式获得:
从网络上抓取候选业务对象,所述候选业务对象包括一个或多个分类信 息;
对所述候选业务对象添加预设分类信息生成原始种子业务对象。
优选地,所述相似度计算模块包括:
第一候选种子集合形成子模块,用于提取与所述第一目标业务对象内容 相似性最高的前A个特征种子业务对象形成第一候选种子集合;
第二候选种子集合形成子模块,用于提取与所述第一目标业务对象行为 相关性最高的前B个特征种子业务对象形成第二候选种子集合;
候选种子集合相似度计算子模块,用于采用所述内容相似性和行为相关 性计算所述第一目标业务对象与所述第一候选种子集合和第二候选种子集 合中的特征种子业务对象的相似度,获得相似度高于第一阈值的K个特征种 子业务对象。
优选地,所述候选种子集合相似度计算子模块包括:
权重配置子模块,用于对所述第一候选种子集合和第二候选种子集合中 的特征种子业务对象的内容相似性和行为相关性分别配置对应的权重;
加权和计算子模块,用于分别针对所述第一目标业务对象采用所述权重 计算所述内容相似性和行为相关性的加权之和;
第一提取子模块,用于提取高于预设阈值的和所对应的K个特征种子业 务对象。
优选地,还包括:
第二行为相关性计算模块,用于分别计算当前第一目标业务对象和其他 第一目标业务对象的行为相关性;
第二提取模块,用于分别提取与当前第一目标业务对象行为相关性最高 的前L个其他第一目标业务对象;
第二分类信息添加模块,用于分别将所述前L个其他第一目标业务对象 的分类信息添加当前第一目标业务对象中。
优选地,还包括:
过滤模块,用于对所述第一业务对象进行过滤处理。
优选地,还包括:
倒排索引模块,用于对所述第一业务对象进行倒排索引处理。
优选地,所述业务对象属性包括第一目标业务对象的标题和/或类目,所 述特征种子业务对象携带有标题和/或类目;
所述内容相似性计算模块包括:
分词子模块,用于分别对所述第一目标业务对象的标题,以及,特征种 子业务对象的标题进行分词;
匹配子模块,用于对所述分词采用LDA主题模型进行匹配;
计算子模块,用于采用匹配后的分词,所述第一目标业务对象的类目, 和/或,所述特征种子业务对象的类目,计算所述第一目标业务对象与预置的 特征种子业务对象的内容相似性。
优选地,所述采用匹配后的分词,所述第一目标业务对象的类目,和/ 或,所述特征种子业务对象的类目,计算所述第一目标业务对象与预置的特 征种子业务对象的内容相似性的计算公式为:
cos ( θ ) = Σ k = 1 n w k x 1 k x 2 k Σ k = 1 n x 1 k 2 Σ k = 1 n x 2 k 2 ]]>
其中,x1k为第一目标业务对象的标题的分词和/或类目,x2k为特征种 子业务对象的标题的分词和/或类目,wk为所述分词和/或类目的权重。
优选地,所述特征种子业务对象携带有用户行为偏好度;
所述第一目标业务对象与特征种子业务对象的行为相关性通过以下公 式计算:
cos ( θ ) = Σ k = 1 n u k y 1 k y 2 k Σ k = 1 n y 1 k 2 Σ k = 1 n y 2 k 2 ]]>
其中,y1k为特征种子业务对象的用户行为偏好度,y2k为第一目标业 务对象的用户行为偏好度,uk为所述用户行为偏好度的权重。
优选地,所述业务对象属性包括第二目标业务对象的标题和/或类目,所 述原始种子业务对象携带有标题和/或类目;
所述第二目标业务对象与预置的原始种子业务对象的内容相似性通过 以下方式获得:
分别对所述第二目标业务对象的标题,以及,原始种子业务对象的标题 进行分词;
对所述分词采用LDA主题模型进行匹配;
采用匹配后的分词,所述第二目标业务对象的类目,和/或,所述原始种 子业务对象的类目,计算所述第二目标业务对象与预置的原始种子业务对象 的内容相似性。
优选地,所述采用匹配后的分词,所述第二目标业务对象的类目,和/ 或,所述原始种子业务对象的类目,计算所述第二目标业务对象与预置的原 始种子业务对象的内容相似性的计算公式为:
cos ( θ ) = Σ k = 1 n v k a 1 k a 2 k Σ k = 1 n a 1 k 2 Σ k = 1 n a 2 k 2 ]]>
其中,a1k为第二目标业务对象的标题的分词和/或类目,a2k为原始种 子业务对象的标题的分词和/或类目,vk为所述分词和/或类目的权重。
优选地,所述当前第二目标业务对象与其他第二目标业务对象的行为相 关性通过以下公式计算:
cos ( θ ) = Σ k = 1 n r k b 1 k b 2 k Σ k = 1 n b 1 k 2 Σ k = 1 n b 2 k 2 ]]>
其中,b1k为当前第二目标业务对象的用户行为偏好度,b2k为其他第 二目标业务对象的用户行为偏好度,rk为所述用户行为偏好度的权重。
优选地,所述当前第一目标业务对象与其他第一目标业务对象的行为相 关性通过以下公式计算:
cos ( θ ) = Σ k = 1 n t k z 1 k z 2 k Σ k = 1 n z 1 k 2 Σ k = 1 n z 2 k 2 ]]>
其中,z1k为当前第一目标业务对象的用户行为偏好度,z2k为其他第 一目标业务对象的用户行为偏好度,tk为所述用户行为偏好度对应用户的权 重。
本申请还公开了一种业务对象的搜索系统,包括:
搜索请求接收模块,用于接收用户的搜索请求;
搜索结果获取模块,用于依据所述请求,获取搜索结果;
合并显示模块,用于将所述搜索结果中具有相同分类信息的业务对象合 并显示;
其中,所述分类信息通过以下方式获得:
获取所有待分类的第一目标业务对象;所述第一目标业务对象携带有业 务对象属性;
分别获取所述第一目标业务对象的用户行为偏好度;
分别采用所述业务对象属性计算所述第一目标业务对象与预置的特征 种子业务对象的内容相似性;所述特征种子业务对象具有一个或多个分类信 息;
分别采用所述用户行为偏好度计算所述第一目标业务对象与所述特征 种子业务对象的行为相关性;
分别采用所述内容相似性和行为相关性计算所述第一目标业务对象与 所述特征种子业务对象的相似度,获得相似度高于预设阈值的K个特征种子 业务对象;
将所述K个特征种子业务对象的分类信息添加到所述第一目标业务对 象标记中。
本申请还公开了一种业务对象的推送系统,包括:
业务对象获取模块,用于获取当前用户触发的业务对象;
分类信息提取模块,用于提取所述业务对象的分类信息;
业务对象推送模块,用于将具有相同分类信息的业务对象推送给当前用 户;
其中,所述分类信息通过以下方式获得:
获取所有待分类的第一目标业务对象;所述第一目标业务对象携带有业 务对象属性;
分别获取所述第一目标业务对象的用户行为偏好度;
分别采用所述业务对象属性计算所述第一目标业务对象与预置的特征 种子业务对象的内容相似性;所述特征种子业务对象具有一个或多个分类信 息;
分别采用所述用户行为偏好度计算所述第一目标业务对象与所述特征 种子业务对象的行为相关性;
分别采用所述内容相似性和行为相关性计算所述第一目标业务对象与 所述特征种子业务对象的相似度,获得相似度高于预设阈值的K个特征种子 业务对象;
将所述K个特征种子业务对象的分类信息添加到所述第一目标业务对 象标记中
与背景技术相比,本申请包括以下优点:
本申请使用加权的余弦内容相似性计算待分类的目标业务对象与种子 业务对象的内容相似性和行为相关性,将用户行为信息、业务对象内容有机 结合,是业务对象固有属性(业务对象属性)与用户行为表达(用户行为偏 好度)的综合体现,从而确定分类。进一步而言,本申请利用多层次的向量 内积计算内容相似性、行为相关性,可以融合文本的内容、语义,还有用户 行为等多个信息维度,使得计算相似度的准确率高,分类准确率高;再者, 加权的内积计算,融合了业务对象特性,即体现了业务规则;此外,解决了 多分类的问题。
本申请可以采用网络的分类模型和人工定义结合的方法,确定用于分类 的特征种子业务对象,可以利用他人和集体的智慧,弥补了自身定义、自己 人工的不足,大大减少了人工运营成本。同时,找到的业务对象,例如商品, 可以包括新、奇、特等各种商品,更好的提升了分类的覆盖率和满足用户的 需求,实用性强。
本申请采用LDA对业务对象进行语义层次的挖掘进而进行分类,解决 了语义层次的分类问题,解决情感、风格等业务对象的分类问题。
本申请通过自定义的规则匹配机制,过滤掉不适合分类的业务对象,减 少运算量,减少系统资源的占用。
本申请在数据量大的情况下,可以基于hadoop分布式进行处理,解决 了I/O过大、硬件性能瓶颈等问题,实现了超大数据量的处理,并且减少了 处理的时间。
附图说明
图1示出了本申请的一种业务对象的分类方法实施例的步骤流程图;
图2示出了本申请的一种LDA的模型示例图;
图3示出了本申请的一种业务对象的搜索方法实施例的步骤流程图;
图4示出了本申请的一种业务对象的推送方法实施例的步骤流程图;
图5示出了本申请的一种业务对象的分类系统实施例的结构框图;
图6示出了本申请的一种业务对象的搜素系统实施例的结构框图;
图7示出了本申请的一种业务对象的推送系统实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图 和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请的一种业务对象的分类方法实施例的步骤流程 图,具体可以包括如下步骤:
步骤101,获取所有待分类的第一目标业务对象;所述第一目标业务对 象携带有业务对象属性;
需要说明的是,不同业务领域具有不同的业务对象,例如,新闻媒体行 业的业务对象可以是新闻,工厂制造行业的业务对象可以是产品,电子商务 行业的业务对象可以是商品信息等等,本申请实施例在此不一一加以详述。
为使本领域技术人员更好地理解本申请实施例,在本说明书中,将商品 信息作为业务对象的一种示例进行说明。
业务对象属性可以为体现业务对象性质的信息。例如对于商品信息,业 务对象属性具体可以包括商品图像、商品标题、商品类目、商品价格、商品 描述、商品的型号和/或商品的参数等。
对于诸如电子商务的海量商品,可以采用ETL (Extraction-Transformation-Loading,数据提取转换和加载)将商品信息从 数据中心提取出。其中,ETL可以将分散的、异构数据源中的数据如关系数 据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载 到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
为了解决在提取过程中I/O过大,和为了加快提取的速度,本申请实施 例中可以采用分布式系统基础架构hadoop实现ETL。
Hadoop的分布式主要包括两部分,一是分布式文件系统HDFS,另外是 分布式计算框架,即MapReduce。MapReduce任务过程被分为两个处理阶段: Map阶段和Reduce阶段。每个阶段都以键(key)\值(value)对作为输入 (Input)和输出(Output),并由用户选择它们的类型。用户还需具体定义两 个函数:映射函数(map)和规约函数(reduce)。Map把用户输入的数据(key, value)通过用户自定义的映射过程转变为一组中间键值对的集合。而Reduce 则会对生成的临时中间键值对进行规约处理。这个规约的规则也是用户自定 义的,通过制定的Reduce来实现,最后Reduce会输出最终结果。map函数 的输出经由MapReduce框架处理后,最后分发到reduce函数。
步骤102,分别获取所述第一目标业务对象的用户行为偏好度;
用户行为偏好度可以表达用户对第一目标业务对象的喜好程度。
本申请实施例中,除了可以采用业务对象固有的业务对象信息进行分类 外,为了提高分类的准确性,还引入了关联的第三方的信息,即用户对业务 对象的行为信息。行为信息的引入,可以反映用户的主观分类,从而提高业 务对象的分类准确性。
具体可以通过网站日志和数据库信息记录用户行为的方式收集用户的 行为信息,再由用户的行为信息计算用户行为偏好度。
一般的网站日志和数据库信息可以记录用户电脑的IP地址是什么、在 什么时间、用什么操作系统、什么浏览器、什么显示器的情况下访问了网站 的哪个页面,是否访问成功。但是针对用户行为偏好度而言,需要的不是用 户电脑的IP地址、操作系统、浏览器等机器人数据,而是用户浏览了什么 信息、对其喜爱程度的表现行为等可以表征用户兴趣爱好的行为信息。
在具体实现中,可以对网站日志和数据库信息进行过滤,获得结构化的 用户行为信息,例如用户ID,用户访问的业务对象ID,访问时间,用户行 为(例如点击,购买,评价等)。
例如,网站日志可以为:
118.112.27.164---[24/Oct/2012:11:00:00+0800]"GET /b.jpg?cD17Mn0mdT17L2NoaW5hLmFsaWJhYmEuY29tL30mbT17R0VUfSZz PXsyMDB9JnI9e2h0dHA6Ly9mdy50bWFsbC5jb20vP3NwbT0zLjE2OTQwNi4 xOTg0MDEufSZhPXtzaWQ9MTdjMDM2MjEtZTk2MC00NDg0LWIwNTYtZ DJkMDcwM2NkYmE4fHN0aW1lPTEzNTEwNDc3MDU3OTZ8c2RhdGU9Mj R8YWxpX2FwYWNoZV9pZD0xMTguMTEyLjI3LjE2NC43MjU3MzI0NzU5O DMzMS43fGNuYT0tfSZiPXstfSZjPXtjX3NpZ25lZD0wfQ==&pageid=7f00000 17f00000113511803054674156071647816&sys=ie6.0|windowsXP|1366*768|zh- cn&ver=43&t=1351047705828HTTP/1.0"200-"Mozilla/4.0(compatible; MSIE6.0;Windows NT5.1;SV1;.NET CLR2.0.50727)" 118.112.27.164.135104760038.6 1^sid%3D17c03621-e960-4484-b056-d2d0703cdba8%7Cstime%3D1351047705 796%7Csdate%3D24|cna=-^-^aid=118.112.27.164.72573247598331.7
过滤后获得的结构化的用户行为信息可以为:
1,b2b-1633112210,1215596848,1,07/Aug/2013:08:27:22
作为本实施例的一个优选示例,用户行为偏好度可以根据预设时间段内 用户对业务对象的行为信息配置相应的权重生成。例如,在最近30天,用 户B浏览了商品A10次,对每次的浏览行为配置值为1的权重,则此时用 户B对于商品A的用户行为偏好度为1*10=10。假如用户B在浏览了商品 A15次之后购买了商品A,对用户B的购买行为配置值为10的权重,则此 时用户B对于商品A的用户行为偏好度为1*15+10*1=25。对于商品,用户 的行为信息可以包括浏览、加入收藏、加入购物车、从购物车撤走、下单、 退货等等。
当然,上述用户行为偏好度只是作为示例,在实施本申请实施例时,可 以根据实际情况设置其他用户行为偏好度,本申请实施例对此不加以限制。 另外,除了上述用户行为偏好度外,本领域技术人员还可以根据实际需要采 用其他用户行为偏好度,本申请实施例对此也不加以限制。
步骤103,分别采用所述业务对象属性计算所述第一目标业务对象与预 置的特征种子业务对象的内容相似性;所述特征种子业务对象具有一个或多 个分类信息;
需要说明的是,特征种子业务对象可以用于与第一目标业务对象计算相 似度,特征种子业务对象除了具有一个或多个分类信息外,还可以具有业务 对象属性和用户行为偏好度。其中,特征种子业务对象的分类信息可以是情 感、风格类的分类信息,例如“送父亲”、“送爱人”等等。
在本申请的一种优选实施例中,所述特征种子业务对象可以通过以下方 式获得:
子步骤S11,获取所有待分类的第二目标业务对象;所述第二目标业务 对象携带有业务对象属性;
需要说明的是,第二目标业务对象可以为具有业务对象属性和用户行为 偏好度的业务对象,可以是与第一目标业务对象一样采用ETL从数据中心 提取出来的,也可以是在其他数据中心提取出来的,本申请实施例对此不加 以限制。
子步骤S12,分别获取所述第二目标业务对象的用户行为偏好度;
子步骤S13,分别采用所述业务对象属性计算所述第二目标业务对象与 预置的原始种子业务对象的内容相似性;所述原始种子业务对象具有一个或 多个分类信息;
需要说明的是,为了最大限度的减少了人工运营的成本,本申请实施例 可以在定义一些基本的规则和维度后,通过机器学习,在网络上可以找到合 适的一个或多个分类模型。
具体地,自定义的规则可以由本领域技术人员根据实际情况进行确定, 可以包括定义电子商务网站对这个专场特别定义的规则,对类目进行过滤、 对关键字进行过滤,例如,在救灾援助专场中,喜庆(红色的)商品不得出 现;对于U盘的商品只能在3C类目下;关键字包含“物流”的商品需要过 滤,不参与分类等等。
本申请通过自定义的规则匹配机制,过滤掉不适合分类的业务对象,减 少运算量,减少系统资源的占用。
在本申请实施例的一种优选示例中,所述原始种子业务对象可以通过以 下方式获得:
子步骤S21,从网络上抓取候选业务对象,所述候选业务对象包括一个 或多个分类信息;
子步骤S22,对所述候选业务对象添加预设分类信息生成原始种子业务 对象。
在实际应用中,可以采用爬虫将网络中的分类模型下载到本地。其中, 分类模型中可以包括多个候选业务对象。
网络爬虫又称为网络蜘蛛,即Web Spider,网络蜘蛛是通过网页的链接 地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容, 找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这 样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互 联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页 都抓取下来。
候选业务对象除了可以具有一个或多个分类信息外,还可以具有业务对 象属性。原始种子业务对象的分类信息可以是情感、风格类的分类信息,例 如“送父亲”、“送爱人”等等。
例如,候选业务对象还可以为“2000000001送母亲节日情浓酒更浓 美国加州迦克南家族750ML精选赤霞珠红酒1瓶,正宗美国加州威斯康星 州西洋参4盎司/114克”,其中,“2000000001”为商品ID,分类信息为“送 母亲”、“节日”,标题为“浓酒更浓美国加州迦克南家族750ML精选赤霞珠 红酒1瓶,正宗美国加州威斯康星州西洋参4盎司/114克”。
接着将具有代表性的分类模型,可以为2-3个,合并之后,通过数据结 构化和添加预设分类信息生成原始种子业务对象。
其中,数据结构化可以为归一化,即将数据格式化为预设的数据格式。 例如,可以将中秋归一化为中秋节。
在网上搜集的分类模型,可能不完全包括当前待分类的业务对象,因此 需要自定义一些分类信息。例如,标题为“饰品批发,韩版金边磨沙,钛钢 戒指批发,情侣对戒”的商品,可以在添加预设分类信息后生成原始种子业 务对象“3000000001送爱人节日饰品批发,韩版金边磨沙,钛钢戒指批 发,情侣对戒”,其中,“3000000001”为商品ID,预设分类信息为“送爱 人”和“节日”。
本申请可以采用网络的分类模型和人工定义结合的方法,确定用于分类 的特征种子业务对象,可以利用他人和集体的智慧,弥补了自身定义、自己 人工的不足,大大减少了人工运营成本。同时,找到的业务对象,例如商品, 可以包括新、奇、特等各种商品,更好的提升了分类的覆盖率和满足用户的 需求,实用性强。
基于内容的预测(contentbased)又可以称为基于属性的预测或者基于语 意的预测,该预测可以根据业务对象的属性联系以及业务对象所处的地位、 相互关系和业务对象元信息等内容计算业务对象之间的内容内容相似性,而 不依赖于用户对业务对象的用户行为偏好度(例如评分、评价)。其中,内 容相似性可以反映聚合特点。
在本申请实施例的一种优选示例中,所述业务对象属性可以包括第二目 标业务对象的标题和/或类目,所述原始种子业务对象可以携带有标题和/或 类目;所述子步骤S13进一步可以包括如下子步骤:
子步骤S131,分别对所述第二目标业务对象的标题,以及,原始种子 业务对象的标题进行分词;
具体可以采用最大匹配、词库、停止词等手段,进行分词后,去除脏词、 修饰词、宽泛词等,最后得到一个分词的集合。
例如对于停止词,可以是一些常见的词,用于做分词找停止位的标准。 比如,“的”、“我”、“你”等。
对于商品“605018156供应库存毛衣批发P5825”,分词后为“605018156: 供应库存毛衣批发P5825”。
为了解决在分词过程中I/O过大,和为了加快分词的速度,本申请实施 例中可以采用分布式系统基础架构hadoop实现分词。
子步骤S132,对所述分词采用LDA主题模型进行匹配;
现有的大部分分类系统,都是依赖于现有的维度信息进行分类的。其中 对文本类型的维度信息,都是利用文本自身的语法信息。而实际场景常常是, 这些文本表达的语义才是分类的关键。这样的需求,要求有一个语法到语义 的对应。
因此,本申请实施例可以通过定义的语义规则,实现了对文本信息的深 层次的理解,提高了分类的准确性。其中语义规则的获得,是通过LDA(Latent  Dirichlet Allocation,一种非监督机器学习技术)主题模型聚类生成的。
在具体实现中,在进行第二目标业务对象和原始种子业务对象的分词的 匹配时,为提高匹配的成功率,可以采用LDA主题模型进行分词的匹配。 例如,LDA可以将apple和苹果匹配上。
LDA可以用来识别大规模文档集(document collection)或语料库 (corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种 方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的 数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂 性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的 一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
对于语料库中的每篇文档,LDA定义了如下生成过程(generative  process):
1)、对每一篇文档,从主题分布中抽取一个主题;
2)、从上述被抽到的主题所对应的单词分布中抽取一个单词;
3)、重复上述过程直至遍历文档中的每一个单词。
更形式化一点说,语料库中的每一篇文档与T(通过反复试验等方法 事先给定)个主题的一个多项分布相对应,将该多项分布记为θ。每个主题 又与词汇表(vocabulary)中的V个单词的一个多项分布相对应,将这个多 项分布记为φ。上述词汇表是由语料库中所有文档中的所有互异单词组成, 但实际建模的时候要剔除一些停用词(stopword),还要进行一些词干化 (stemming)处理等。θ和φ分别有一个带有超参数(hyperparameter)α和 β的Dirichlet先验分布。对于一篇文档d中的每一个单词,我们从该文档所 对应的多项分布θ中抽取一个主题z,然后我们再从主题z所对应的多项分 布φ中抽取一个单词w。将这个过程重复Nd次,就产生了文档d,这里的 Nd是文档d的单词总数。这个生成过程可以用如图2所示的模型进行表示。
这个图模型表示法也称作“盘子表示法”(plate notation)。图2中的阴 影圆圈表示可观测变量(observed variable),非阴影圆圈表示潜在变量(latent  variable),箭头表示两变量间的条件依赖性(conditional dependency),方框 表示重复抽样,重复次数在方框的右下角。
该模型有两个参数需要推断(infer):一个是”文档-主题“分布θ,另 外是T个”主题-单词“分布φ。通过学习(learn)这两个参数,我们可以 知道文档作者感兴趣的主题,以及每篇文档所涵盖的主题比例等。推断方法 主要有变分-EM算法、Gibbs抽样法等。
LDA的工作流程可以如下:
A、对主题采样:βk~Dir(η)k∈[1,K];
B、对语料库中的第d个文档d∈[1,D];
C、采样主题概率分布θd~Dir(α);
D、采样文档长度Nd;
E、对文档d中的第n个单词n∈[1,Nd];
F、选择隐含主题zd,n~Mult(θd);
G、生成一个词项wd,n~Mult(β(zd,n))。
LDA的步骤可以如下:
a、训练,进行参数估计;
b、测试,计算隐藏变量后验概率分布。
为了解决在LDA聚类过程中I/O过大,和为了加快聚类的速度,本申 请实施例中可以采用分布式系统基础架构hadoop实现LDA。
本申请采用LDA对业务对象进行语义层次的挖掘进而进行分类,解决 了语义层次的分类问题,解决情感、风格等业务对象的分类问题。
子步骤S133,采用匹配后的分词,所述第二目标业务对象的类目,和/ 或,所述原始种子业务对象的类目,计算所述第二目标业务对象与预置的原 始种子业务对象的内容相似性。
在具体实现中,所述采用匹配后的分词,所述第二目标业务对象的类目, 和/或,所述原始种子业务对象的类目,计算所述第二目标业务对象与预置的 原始种子业务对象的内容相似性的计算公式可以为:
cos ( θ ) = Σ k = 1 n v k a 1 k a 2 k Σ k = 1 n a 1 k 2 Σ k = 1 n a 2 k 2 ]]>
其中,a1k为第二目标业务对象的标题的分词和/或类目,a2k为原始种 子业务对象的标题的分词和/或类目,vk为所述分词和/或类目的权重。n为 分类和/或类目的数量。
为使本领域技术人员更好地理解本申请实施例,以下提供一个例子来说 明本申请实施例中第二目标业务对象与原始种子业务对象的内容相似性的 具体计算过程。
例如,对商品“2000000001送母亲节日情浓酒更浓美国加州迦克南 家族750ML精选赤霞珠红酒1瓶,正宗美国加州威斯康星州西洋参4盎司 /114克”进行分词后,分词结果(去除了脏词)为:


每个分词可以具有一个整数ID,用ID表示每个分词,就可以形成了这 个商品的分词的向量。
例如,采用商品2000000001的几个分词作为一个示例,对于
2000000001    精选
2000000001    赤霞珠
2000000001    红酒
可以设“精选”的ID为100、“赤霞珠”的ID为103、“红酒”的ID为 201。则商品2000000001的分词的向量可表示为
(2000000001,100),(2000000001,103),(2000000001,201)
可以设商品2000000001分词a100,a103,a201的值为1,其他分词的 值为0,则可以不进行表示。
假设当前还有一个商品2000000002,其分词的向量为
(2000000002,90),(2000000002,103),(2000000002,201), (2000000002,301)
设所有分词的权重是相同的,即vk都相等。则商品2000000001和商品 2000000002的内容相似性可以为:
Consine(2000000001,2000000002)=(1*1+1*1)/(3^(1/2)*4^(1/2))= 2/(1.7*2)=0.58
即商品2000000001和2000000002的相似度为0.58。
需要说明的是,分词的权重在实际应用中可以不相同。内容相似性可以 是相互的,即商品2000000001和2000000002的相似度为0.58,商品 2000000002和2000000001的相似度也为0.58。类目与分类信息是两个不同 的概念,例如商品“NOKIA620”的类目是手机,但其分类信息可以为“时 尚”,而对于第二目标业务对象,类目不是必需的。
为了解决在内容相似性计算过程中I/O过大,和为了加快内容相似性计 算的速度,本申请实施例中可以采用分布式系统基础架构hadoop实现内容 相似性计算。
子步骤S14,分别提取与所述第二目标业务对象内容相似性最高的前M 个原始种子业务对象;
本申请实施例中的每个第二业务对象都需要与原始种子业务对象计算 内容相似性,提取内容相似性最高的前M个原始种子业务对象作为分类的 代表。其中,M为正整数。
子步骤S15,将所述前M个原始种子业务对象的分类信息添加到所述第 二目标业务对象中;
对于第二目标业务对象所添加的分类信息,可以是一个或多个。
子步骤S16,分别采用所述用户行为偏好度计算当前第二目标业务对象 与其他第二目标业务对象的行为相关性;
协同过滤(itembased)可以通过用户间的相互协助,根据用户对业务对 象的用户行为偏好度(可以表现为评价、评分等)进行分类。行为相关性可 以反映组合特点。
需要说明的是,第二目标业务对象之间可以两两进行行为相关性的计 算。行为相关性也是相互的,例如商品A与商品B的行为相关性也是商品B 与商品A的行为相关性。
在本申请实施例的一种优选示例中,所述当前第二目标业务对象与其他 第二目标业务对象的行为相关性可以通过以下公式计算:
cos ( θ ) = Σ k = 1 n r k b 1 k b 2 k Σ k = 1 n b 1 k 2 Σ k = 1 n b 2 k 2 ]]>
其中,b1k为当前第二目标业务对象的用户行为偏好度,b2k为其他第 二目标业务对象的用户行为偏好度,rk为所述用户行为偏好度的权重。n为 用户行为偏好度的数量。
需要说明的是,不同的用户行为可以有不同的权重,当综合计算得到用 户行为偏好度时,不同用户的用户行为偏好度的权重是相同的。则进一步地, 行为相关性计算的公式可以表示为:
cos ( θ ) = Σ k = 1 n b 1 k b 2 k Σ k = 1 n b 1 k 2 Σ k = 1 n b 2 k 2 ]]>
为使本领域技术人员更好地理解本申请实施例,以下提供一个例子来说 明本申请实施例中第二目标业务对象与原始种子业务对象的行为相关性的 具体计算过程。
设用户U1对商品O1用户行为偏好度为7,用户U2对商品O1用户行为 偏好度为8;
U1对商品O2用户行为偏好度为5,U2对商品O2用户行为偏好度为6;
则O1的用户行为偏好度可以表示为(O1,U1,7),(O1,U2,8);
O2的用户行为偏好向度可以表示为(O2,U1,5),(O2,U2,6);
O1,O2的行为相关性可以为:
Consine(O1,O2)=(7*5+8*6)/(((7*7+8*8)*(5*5+6*6))^(1/2))=83/(113+61)^( 1/2)=1。
为了解决在行为相关性计算过程中I/O过大,和为了加快行为相关性计 算的速度,本申请实施例中可以采用分布式系统基础架构hadoop实现行为 相关性计算。
子步骤S17,分别提取与当前第二目标业务对象行为相关性最高的前N 个其他第二目标业务对象;
本申请实施例中的在第二目标业务对象两两相互计算完行为相关性后, 对于当前第二目标业务对象则可以提取相关性最高的前N个其他第二目标 业务对象作为分类的代表。其中,N为正整数。
子步骤S18,分别将所述前N个其他第二目标业务对象的分类信息添加 到当前第二目标业务对象中;
对于当前第二目标业务对象所添加的分类信息,可以是一个或多个。
子步骤S19,将分别添加完分类信息的第二目标业务对象设置为特征种 子业务对象。
最后,将分别添加完分类信息的第二目标业务对象设置为特征种子业务 对象,用以进行其他业务对象的分类。
在本申请的一种优选实施例中,所述业务对象属性可以包括第一目标业 务对象的标题和/或类目,所述特征种子业务对象可以携带有标题和/或类目;
所述步骤103具体可以包括如下子步骤:
子步骤S21,分别对所述第一目标业务对象的标题,以及,特征种子业 务对象的标题进行分词;
子步骤S22,对所述分词采用LDA主题模型进行匹配;
子步骤S23,采用匹配后的分词,所述第一目标业务对象的类目,和/ 或,所述特征种子业务对象的类目,计算所述第一目标业务对象与预置的特 征种子业务对象的内容相似性。
在具体实现中,所述采用匹配后的分词,所述第一目标业务对象的类目, 和/或,所述特征种子业务对象的类目,计算所述第一目标业务对象与预置的 特征种子业务对象的内容相似性的计算公式可以为:
cos ( θ ) = Σ k = 1 n w k x 1 k x 2 k Σ k = 1 n x 1 k 2 Σ k = 1 n x 2 k 2 ]]>
其中,x1k为第一目标业务对象的标题的分词和/或类目,x2k为特征种 子业务对象的标题的分词和/或类目,wk为所述分词和/或类目的权重。
由于第一目标业务对象与特征种子集合的内容相似性计算与第二目标 业务对象与原始种子业务对象的内容相似性计算基本相似,所以描述的比较 简单,相关之处参见第二目标业务对象与原始种子业务对象的内容相似性计 算的部分说明即可,本申请实施例在此不加以详述。
需要说明的是,为了解决在内容相似性计算过程中I/O过大,和为了加 快内容相似性计算的速度,本申请实施例中可以采用分布式系统基础架构 hadoop实现内容相似性计算。
步骤104,分别采用所述用户行为偏好度计算所述第一目标业务对象与 所述特征种子业务对象的行为相关性;
在本申请的一种优选实施例中,所述特征种子业务对象可以携带有用户 行为偏好度;
所述第一目标业务对象与特征种子业务对象的行为相关性可以通过以 下公式计算:
cos ( θ ) = Σ k = 1 n u k y 1 k y 2 k Σ k = 1 n y 1 k 2 Σ k = 1 n y 2 k 2 ]]>
其中,y1k为特征种子业务对象的用户行为偏好度,y2k为第一目标业 务对象的用户行为偏好度,uk为所述用户行为偏好度的权重。
由于第一目标业务对象与特征种子业务对象的行为相关性计算与当前 第二目标业务对象与其他第二目标业务对象的行为相关性计算基本相似,所 以描述的比较简单,相关之处参见当前第二目标业务对象与其他第二目标业 务对象的行为相关性计算的部分说明即可,本申请实施例在此不加以详述。
为了解决在行为相关性计算过程中I/O过大,和为了加快行为相关性计 算的速度,本申请实施例中可以采用分布式系统基础架构hadoop实现行为 相关性计算。
进一步地,上述行为相关性计算公式可以表达为:
cos ( θ ) = Σ k = 1 n y 1 k y 2 k Σ k = 1 n y 1 k 2 Σ k = 1 n y 2 k 2 ]]>
步骤105,分别采用所述内容相似性和行为相关性计算所述第一目标业 务对象与所述特征种子业务对象的相似度,获得相似度高于预设阈值的K个 特征种子业务对象;
相似度可以表示第一目标业务对象与特征种子业务对象的相似程度,是 业务对象固有属性(业务对象属性)与用户行为表达(用户行为偏好度)的 综合体现。当相似度高于预设阈值时,则表示该第一目标业务对象和该特征 种子业务对象综合性质很接近,可以分为相同的类别。其中,K为正整数。
在本申请的一种优选实施例中,所述步骤105具体可以包括如下子步骤:
子步骤S31,提取与所述第一目标业务对象内容相似性最高的前A个特 征种子业务对象形成第一候选种子集合;
子步骤S32,提取与所述第一目标业务对象行为相关性最高的前B个特 征种子业务对象形成第二候选种子集合;
子步骤S33,采用所述内容相似性和行为相关性计算所述第一目标业务 对象与所述第一候选种子集合和第二候选种子集合中的特征种子业务对象 的相似度,获得相似度高于第一阈值的K个特征种子业务对象。
为了减少计算量,降低对系统的资源占用,本申请实施例可以提取一部 分内容相似性、行为相关性稿的特征种子业务对象进行相似度的计算。其中, A、B均为正整数。
在本申请实施例的一种优选示例中,所述子步骤S33进一步可以包括如 下子步骤:
子步骤S331,对所述第一候选种子集合和第二候选种子集合中的特征 种子业务对象的内容相似性和行为相关性分别配置对应的权重;
子步骤S332,分别针对所述第一目标业务对象采用所述权重计算所述 内容相似性和行为相关性的加权之和;
子步骤S333,提取高于预设阈值的和所对应的K个特征种子业务对象。
在具体实现中,第一候选种子集合和第二候选种子集合中的特征种子业 务对象可能不完全重合,即某些特征种子业务对象没有内容相似性,某些特 征种子业务对象没有行为相关性,则此类特征种子业务对象的内容相似性或 行为相关性可以认为0。
在内容相似性、行为相关性配置权重后,可以在求得内容相似性和行为 相关性的加权之和,便得到最终的相似度。
例如,商品C和商品D的内容相似性为2,行为相关性为5,为内容相 似性配置值为4的权重,为行为相关性配置值为2的权重,则商品C和商品 D的相似度可以为2*4+5*2=18。
需要说明的是,本申请实施例还可以直接进行相似度的计算,即所述步 骤105可以为,分别对所述特征种子业务对象的内容相似性和行为相关性分 别配置对应的权重,针对所述第一目标业务对象采用所述权重计算所述内容 相似性和行为相关性的加权之和,提取高于预设阈值的和所对应的K个特征 种子业务对象。
为了解决在相似度计算过程中I/O过大,和为了加快相似度计算的速度, 本申请实施例中可以采用分布式系统基础架构hadoop实现相似度计算。
步骤106,将所述K个特征种子业务对象的分类信息添加到所述第一目 标业务对象标记中。
对于第一目标业务对象所添加的分类信息,可以是一个或多个。
例如,对于第一目标业务对象“1255595959法国原装波尔多进口红酒 AOC拉菲传说干红葡萄酒双支礼盒送酒具4.0”,该第一目标业务对象与特 征种子业务对象“2000000001送母亲节日情浓酒更浓美国加州迦克南家 族750ML精选赤霞珠红酒1瓶,正宗美国加州威斯康星州西洋参4盎司/114 克”的相似度高于预设阈值,则可以将该第一目标业务对象标记该种子业务 对象的分类信息“送母亲”、“节日”,形成带有分类信息的业务对象 “1255595959送母亲节日法国原装波尔多进口红酒AOC拉菲传说干红 葡萄酒双支礼盒送酒具4.0”。
在本申请的一种优选实施例中,所述方法还可以包括如下步骤:
步骤107,分别计算当前第一目标业务对象和其他第一目标业务对象的 行为相关性;
步骤108,分别提取与当前第一目标业务对象行为相关性最高的前L个 其他第一目标业务对象;
步骤109,分别将所述前L个其他第一目标业务对象的分类信息添加到 当前第一目标业务对象中。
在具体实现中,所述当前第一目标业务对象与其他第一目标业务对象的 行为相关性可以通过以下公式计算:
cos ( θ ) = Σ k = 1 n t k z 1 k z 2 k Σ k = 1 n z 1 k 2 Σ k = 1 n z 2 k 2 ]]>
其中,z1k为当前第一目标业务对象的用户行为偏好度,z2k为其他第 一目标业务对象的用户行为偏好度,tk为所述用户行为偏好度的权重。
由于当前第一目标业务对象与其他第一种子业务对象的行为相关性计 算与当前第二目标业务对象与其他第二目标业务对象的行为相关性计算基 本相似,所以描述的比较简单,相关之处参见当前第二目标业务对象与其他 第二目标业务对象的行为相关性计算的部分说明即可,本申请实施例在此不 加以详述。
为了解决在行为相关性计算过程中I/O过大,和为了加快行为相关性计 算的速度,本申请实施例中可以采用分布式系统基础架构hadoop实现行为 相关性计算。
进一步地,上述行为相关性计算公式可以表达为:
cos ( θ ) = Σ k = 1 n z 1 k z 2 k Σ k = 1 n z 1 k 2 Σ k = 1 n z 2 k 2 ]]>
在本申请的一种优选实施例中,所述方法还可以包括如下步骤:
步骤110,对所述第一业务对象进行过滤处理。
在实际应用中,过滤处理可以包括去重处理,因为在各个分类的结果中, 业务对象的分类信息可能有重复,则需要去掉重复的分类信息。过滤处理可 以包括业务处理,比如,对于电子商务业务,则可以去掉物流类的商品,去 掉代理类的商品等等。过滤处理还可以包括其他处理,本申请实施例对此不 一一加以详述。
在本申请的一种优选实施例中,所述方法还可以包括如下步骤:
步骤111,对所述第一业务对象进行倒排索引处理。
为了加快搜索速度,提高管理效率,本申请实施例可以建立倒排索引。
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中 的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记 录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引。
例如,某个商品的表示为“Offer_ID Tag_ID”,则在倒排索引处理后表 示为“Tag_ID Offer_ID”。
本申请使用加权的余弦内容相似性计算待分类的目标业务对象与种子 业务对象的内容相似性和行为相关性,将用户行为信息、业务对象内容有机 结合,是业务对象固有属性(业务对象属性)与用户行为表达(用户行为偏 好度)的综合体现,从而确定分类。进一步而言,本申请利用多层次的向量 内积计算内容相似性、行为相关性,可以融合文本的内容、语义,还有用户 行为等多个信息维度,使得计算相似度的准确率高,分类准确率高;再者, 加权的内积计算,融合了业务对象特性,即体现了业务规则;此外,解决了 多分类的问题。
本申请在数据量大的情况下,可以基于hadoop分布式进行处理,解决 了I/O过大、硬件性能瓶颈等问题,实现了超大数据量的处理,并且减少了 处理的时间。
参照图3,示出了本申请的一种业务对象的搜索方法实施例的步骤流程 图,具体可以包括如下步骤:
步骤301,接收用户的搜索请求;
步骤302,依据所述请求,获取搜索结果;
步骤303,将所述搜索结果中具有相同分类信息的业务对象合并显示;
其中,所述分类信息通过以下方式获得:
获取所有待分类的第一目标业务对象;所述第一目标业务对象携带有业 务对象属性;
分别获取所述第一目标业务对象的用户行为偏好度;
分别采用所述业务对象属性计算所述第一目标业务对象与预置的特征 种子业务对象的内容相似性;所述特征种子业务对象具有一个或多个分类信 息;
分别采用所述用户行为偏好度计算所述第一目标业务对象与所述特征 种子业务对象的行为相关性;
分别采用所述内容相似性和行为相关性计算所述第一目标业务对象与 所述特征种子业务对象的相似度,获得相似度高于预设阈值的K个特征种子 业务对象;
将所述K个特征种子业务对象的分类信息添加到所述第一目标业务对 象标记中。
在具体实现中,根据用户的搜索请求,进行搜索,会得到一个传统的搜 索结果,即只是基于用户提交的搜索关键词进行关联搜索。本申请实施例可 以基于此结果提取业务对象的分类信息,将具有相同分类信息(可以是全部 分类信息,也可以部分分类信息)的业务对象合并为一个搜索结果展示给用 户。如果用户需要了解有哪些具体的业务对象时,则可以选择当前的业务对 象去结果内部查询。
此外,本申请实施例还可以依据预设的时间规则对新添加的业务对象进 行分类,将其配置相应的分类信息。
其中,所述时间规则可由本领域技术人员根据实际情况进行设定,可以 是不定时对新添加的业务对象进行分类,例如在夜晚等繁忙时段每2小时对 新添加的业务对象进行分类、而在凌晨等空闲时段每6小时对新添加的业务 对象进行分类,也可以是周期性的对新添加的业务对象进行聚合等等,本申 请实施例对此不加以限制。
对于本申请实施例而言,由于获取分类信息的方法实施例与业务对象的 分类方法实施例基本相似,本申请实施例在此不再详述,相关之处参见业务 对象的分类方法实施例的部分说明即可。
参照图4,示出了本申请的一种业务对象的推送方法实施例的步骤流程 图,具体可以包括如下步骤:
步骤401,获取当前用户触发的业务对象;
步骤402,提取所述业务对象的分类信息;
步骤403,将具有相同分类信息的业务对象推送给当前用户;
其中,所述分类信息通过以下方式获得:
获取所有待分类的第一目标业务对象;所述第一目标业务对象携带有业 务对象属性;
分别获取所述第一目标业务对象的用户行为偏好度;
分别采用所述业务对象属性计算所述第一目标业务对象与预置的特征 种子业务对象的内容相似性;所述特征种子业务对象具有一个或多个分类信 息;
分别采用所述用户行为偏好度计算所述第一目标业务对象与所述特征 种子业务对象的行为相关性;
分别采用所述内容相似性和行为相关性计算所述第一目标业务对象与 所述特征种子业务对象的相似度,获得相似度高于预设阈值的K个特征种子 业务对象;
将所述K个特征种子业务对象的分类信息添加到所述第一目标业务对 象标记中。
在具体实现中,用户可以通过访问业务对象、登录网站等方式触发本申 请实施例的业务对象的推送。本申请实施例可以事先将用户感兴趣的业务对 象捆绑在用户标识上,当用户登录网站时,获取用户标识后可以直接获取用 户对应的感兴趣的业务对象。在上述多种方式获得用户触发的业务对象后, 可以获取该业务对象的分类信息分类信息,将具有相同分类信息(可以是全 部分类信息,也可以部分分类信息)的业务对象推送给当前用户。
此外,本申请实施例还可以依据预设的时间规则对新添加的业务对象进 行分类,将其配置相应的分类信息。
其中,所述时间规则可由本领域技术人员根据实际情况进行设定,可以 是不定时对新添加的业务对象进行分类,例如在夜晚等繁忙时段每2小时对 新添加的业务对象进行分类、而在凌晨等空闲时段每6小时对新添加的业务 对象进行分类,也可以是周期性的对新添加的业务对象进行聚合等等,本申 请实施例对此不加以限制。
对于本申请实施例而言,由于获取分类信息的方法实施例与业务对象的 分类方法实施例基本相似,本申请实施例在此不再详述,相关之处参见业务 对象的分类方法实施例的部分说明即可。
参照图5,示出了本申请的一种业务对象的分类系统实施例的结构框图, 具体可以包括如下模块:
第一目标业务对象获取模块501,用于获取所有待分类的第一目标业务 对象;所述第一目标业务对象携带有业务对象属性;
用户行为偏好度获取模块502,用于分别获取所述第一目标业务对象的 用户行为偏好度;
内容相似性计算模块503,用于分别采用所述业务对象属性计算所述第 一目标业务对象与预置的特征种子业务对象的内容相似性;所述特征种子业 务对象具有一个或多个分类信息;
第一行为相关性计算模块504,用于分别采用所述用户行为偏好度计算 所述第一目标业务对象与所述特征种子业务对象的行为相关性;
相似度计算模块505,用于分别采用所述内容相似性和行为相关性计算 所述第一目标业务对象与所述特征种子业务对象的相似度,获得相似度高于 预设阈值的K个特征种子业务对象;
第一分类信息添加模块506,用于将所述K个特征种子业务对象的分类 信息添加到所述第一目标业务对象标记中。
在本申请的一种优选实施例中,所述特征种子业务对象可以通过以下方 式获得:
获取所有待分类的第二目标业务对象;所述第二目标业务对象携带有业 务对象属性;
分别获取所述第二目标业务对象的用户行为偏好度;
分别采用所述业务对象属性计算所述第二目标业务对象与预置的原始 种子业务对象的内容相似性;所述原始种子业务对象具有一个或多个分类信 息;
分别提取与所述第二目标业务对象内容相似性最高的前M个原始种子 业务对象;
将所述前M个原始种子业务对象的分类信息添加到所述第二目标业务 对象中;
分别采用所述用户行为偏好度计算当前第二目标业务对象与其他第二 目标业务对象的行为相关性;
分别提取与当前第二目标业务对象行为相关性最高的前N个其他第二 目标业务对象;
分别将所述前N个其他第二目标业务对象的分类信息添加到当前第二 目标业务对象中;
将分别添加完分类信息的第二目标业务对象设置为特征种子业务对象。
在本申请的一种优选实施例中,所述原始种子业务对象可以通过以下方 式获得:
从网络上抓取候选业务对象,所述候选业务对象包括一个或多个分类信 息;
对所述候选业务对象添加预设分类信息生成原始种子业务对象。
在本申请的一种优选实施例中,所述相似度计算模块可以包括如下子模 块:
第一候选种子集合形成子模块,用于提取与所述第一目标业务对象内容 相似性最高的前A个特征种子业务对象形成第一候选种子集合;
第二候选种子集合形成子模块,用于提取与所述第一目标业务对象行为 相关性最高的前B个特征种子业务对象形成第二候选种子集合;
候选种子集合相似度计算子模块,用于采用所述内容相似性和行为相关 性计算所述第一目标业务对象与所述第一候选种子集合和第二候选种子集 合中的特征种子业务对象的相似度,获得相似度高于第一阈值的K个特征种 子业务对象。
在本申请的一种优选实施例中,所述候选种子集合相似度计算子模块可 以包括如下子模块:
权重配置子模块,用于对所述第一候选种子集合和第二候选种子集合中 的特征种子业务对象的内容相似性和行为相关性分别配置对应的权重;
加权和计算子模块,用于分别针对所述第一目标业务对象采用所述权重 计算所述内容相似性和行为相关性的加权之和;
第一提取子模块,用于提取高于预设阈值的和所对应的K个特征种子业 务对象。
在本申请的一种优选实施例中,还可以包括如下模块:
第二行为相关性计算模块,用于分别计算当前第一目标业务对象和其他 第一目标业务对象的行为相关性;
第二提取模块,用于分别提取与当前第一目标业务对象行为相关性最高 的前L个其他第一目标业务对象;
第二分类信息添加模块,用于分别将所述前L个其他第一目标业务对象 的分类信息添加当前第一目标业务对象中。
在本申请的一种优选实施例中,还可以包括如下模块:
过滤模块,用于对所述第一业务对象进行过滤处理。
在本申请的一种优选实施例中,还可以包括如下模块:
倒排索引模块,用于对所述第一业务对象进行倒排索引处理。
在本申请的一种优选实施例中,所述业务对象属性可以包括第一目标业 务对象的标题和/或类目,所述特征种子业务对象可以携带有标题和/或类目;
所述内容相似性计算模块可以包括如下子模块:
分词子模块,用于分别对所述第一目标业务对象的标题,以及,特征种 子业务对象的标题进行分词;
匹配子模块,用于对所述分词采用LDA主题模型进行匹配;
计算子模块,用于采用匹配后的分词,所述第一目标业务对象的类目, 和/或,所述特征种子业务对象的类目,计算所述第一目标业务对象与预置的 特征种子业务对象的内容相似性。
在本申请的一种优选实施例中,所述采用匹配后的分词,所述第一目标 业务对象的类目,和/或,所述特征种子业务对象的类目,计算所述第一目标 业务对象与预置的特征种子业务对象的内容相似性的计算公式可以为:
cos ( θ ) = Σ k = 1 n w k x 1 k x 2 k Σ k = 1 n x 1 k 2 Σ k = 1 n x 2 k 2 ]]>
其中,x1k为第一目标业务对象的标题的分词和/或类目,x2k为特征种 子业务对象的标题的分词和/或类目,wk为所述分词和/或类目的权重。
在本申请的一种优选实施例中,所述特征种子业务对象可以携带有用户 行为偏好度;
所述第一目标业务对象与特征种子业务对象的行为相关性可以通过以 下公式计算:
cos ( θ ) = Σ k = 1 n u k y 1 k y 2 k Σ k = 1 n y 1 k 2 Σ k = 1 n y 2 k 2 ]]>
其中,y1k为特征种子业务对象的用户行为偏好度,y2k为第一目标业 务对象的用户行为偏好度,uk为所述用户行为偏好度的权重。
在本申请的一种优选实施例中,所述业务对象属性可以包括第二目标业 务对象的标题和/或类目,所述原始种子业务对象可以携带有标题和/或类目;
所述第二目标业务对象与预置的原始种子业务对象的内容相似性可以 通过以下方式获得:
分别对所述第二目标业务对象的标题,以及,原始种子业务对象的标题 进行分词;
对所述分词采用LDA主题模型进行匹配;
采用匹配后的分词,所述第二目标业务对象的类目,和/或,所述原始种 子业务对象的类目,计算所述第二目标业务对象与预置的原始种子业务对象 的内容相似性。
在本申请的一种优选实施例中,所述采用匹配后的分词,所述第二目标 业务对象的类目,和/或,所述原始种子业务对象的类目,计算所述第二目标 业务对象与预置的原始种子业务对象的内容相似性的计算公式可以为:
cos ( θ ) = Σ k = 1 n v k a 1 k a 2 k Σ k = 1 n a 1 k 2 Σ k = 1 n a 2 k 2 ]]>
其中,a1k为第二目标业务对象的标题的分词和/或类目,a2k为原始种 子业务对象的标题的分词和/或类目,vk为所述分词和/或类目的权重。
在本申请的一种优选实施例中,所述当前第二目标业务对象与其他第二 目标业务对象的行为相关性可以通过以下公式计算:
cos ( θ ) = Σ k = 1 n r k b 1 k b 2 k Σ k = 1 n b 1 k 2 Σ k = 1 n b 2 k 2 ]]>
其中,b1k为当前第二目标业务对象的用户行为偏好度,b2k为其他第 二目标业务对象的用户行为偏好度,rk为所述用户行为偏好度的权重。
在本申请的一种优选实施例中,所述当前第一目标业务对象与其他第一 目标业务对象的行为相关性可以通过以下公式计算:
cos ( θ ) = Σ k = 1 n t k z 1 k z 2 k Σ k = 1 n z 1 k 2 Σ k = 1 n z 2 k 2 ]]>
其中,z1k为当前第一目标业务对象的用户行为偏好度,z2k为其他第 一目标业务对象的用户行为偏好度,tk为所述用户行为偏好度对应用户的权 重。
参照图6,示出了本申请的一种业务对象的搜索系统实施例的结构框图, 具体可以包括如下模块:
搜索请求接收模块601,用于接收用户的搜索请求;
搜索结果获取模块602,用于依据所述请求,获取搜索结果;
合并显示模块603,用于将所述搜索结果中具有相同分类信息的业务对 象合并显示;
其中,所述分类信息通过以下方式获得:
获取所有待分类的第一目标业务对象;所述第一目标业务对象携带有业 务对象属性;
分别获取所述第一目标业务对象的用户行为偏好度;
分别采用所述业务对象属性计算所述第一目标业务对象与预置的特征 种子业务对象的内容相似性;所述特征种子业务对象具有一个或多个分类信 息;
分别采用所述用户行为偏好度计算所述第一目标业务对象与所述特征 种子业务对象的行为相关性;
分别采用所述内容相似性和行为相关性计算所述第一目标业务对象与 所述特征种子业务对象的相似度,获得相似度高于预设阈值的K个特征种子 业务对象;
将所述K个特征种子业务对象的分类信息添加到所述第一目标业务对 象标记中。
参照图7,示出了本申请的一种业务对象的搜索系统实施例的结构框图, 具体可以包括如下模块:
业务对象获取模块701,用于获取当前用户触发的业务对象;
分类信息提取模块702,用于提取所述业务对象的分类信息;
业务对象推送模块703,用于将具有相同分类信息的业务对象推送给当 前用户;
其中,所述分类信息通过以下方式获得:
获取所有待分类的第一目标业务对象;所述第一目标业务对象携带有业 务对象属性;
分别获取所述第一目标业务对象的用户行为偏好度;
分别采用所述业务对象属性计算所述第一目标业务对象与预置的特征 种子业务对象的内容相似性;所述特征种子业务对象具有一个或多个分类信 息;
分别采用所述用户行为偏好度计算所述第一目标业务对象与所述特征 种子业务对象的行为相关性;
分别采用所述内容相似性和行为相关性计算所述第一目标业务对象与 所述特征种子业务对象的相似度,获得相似度高于预设阈值的K个特征种子 业务对象;
将所述K个特征种子业务对象的分类信息添加到所述第一目标业务对 象标记中。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明 的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见 即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、系 统、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全 软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例 可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介 质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程 序产品的形式。
在一个典型的配置中,所述计算机设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质 中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形 式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的 示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体 可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、 数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但 不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存 取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内 存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他 光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其 他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的 界定,计算机可读介质不包括非持续性的电脑可读媒体(transitory media), 如调制的数据信号和载波。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计 算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令 实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框 图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、 专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生 一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的 指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或 多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理 终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读 存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设 备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计 算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用 于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中 指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦 得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以, 所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所 有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术 语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得 包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且 还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或 者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一 个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终 端设备中还存在另外的相同要素。
以上对本申请所提供的一种业务对象的分类方法、一种业务对象的分类 系统、一种业务对象的搜索方法、一种业务对象的搜索系统、一种业务对象 的推送方法和一种业务对象的推送系统,进行了详细介绍,本文中应用了具 体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于 帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员, 依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所 述,本说明书内容不应理解为对本申请的限制。

一种业务对象的分类、搜索、推送方法和系统.pdf_第1页
第1页 / 共40页
一种业务对象的分类、搜索、推送方法和系统.pdf_第2页
第2页 / 共40页
一种业务对象的分类、搜索、推送方法和系统.pdf_第3页
第3页 / 共40页
点击查看更多>>
资源描述

《一种业务对象的分类、搜索、推送方法和系统.pdf》由会员分享,可在线阅读,更多相关《一种业务对象的分类、搜索、推送方法和系统.pdf(40页珍藏版)》请在专利查询网上搜索。

本申请提供了一种业务对象的分类、搜索、推送方法和系统,所述业务对象的分类方法包括:获取所有待分类的第一目标业务对象;所述第一目标业务对象携带有业务对象属性;分别获取所述第一目标业务对象的用户行为偏好度;分别采用所述业务对象属性计算所述第一目标业务对象与预置的特征种子业务对象的内容相似性;分别采用所述用户行为偏好度计算所述第一目标业务对象与所述特征种子业务对象的行为相关性;分别采用所述内容相似性和行。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1