基于物品间相似度的物品处理方法、系统和装置.pdf

上传人:GAME****980 文档编号:4449643 上传时间:2018-10-02 格式:PDF 页数:16 大小:1.33MB
返回 下载 相关 举报
基于物品间相似度的物品处理方法、系统和装置.pdf_第1页
第1页 / 共16页
基于物品间相似度的物品处理方法、系统和装置.pdf_第2页
第2页 / 共16页
基于物品间相似度的物品处理方法、系统和装置.pdf_第3页
第3页 / 共16页
点击查看更多>>
资源描述

《基于物品间相似度的物品处理方法、系统和装置.pdf》由会员分享,可在线阅读,更多相关《基于物品间相似度的物品处理方法、系统和装置.pdf(16页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103995831 A (43)申请公布日 2014.08.20 C N 1 0 3 9 9 5 8 3 1 A (21)申请号 201410158957.9 (22)申请日 2014.04.18 G06F 17/30(2006.01) (71)申请人新浪网技术(中国)有限公司 地址 100080 北京市海淀区北四环西路58 号理想国际大厦20层 (72)发明人刘洋 (74)专利代理机构北京市京大律师事务所 11321 代理人张璐 方晓明 (54) 发明名称 基于物品间相似度的物品处理方法、系统和 装置 (57) 摘要 本发明公开了一种基于物品间相似度的物品 处理方法。

2、、系统和装置,所述方法包括:根据物品 处理指令所涉及的物品的名称,查找物品间相似 度列表中以该物品的名称为索引的相似度记录, 根据查找到的相似度记录进行物品处理;其中, 物品间相似度列表的更新包括:对于新增物品, 从以特征为索引的特征列表中查找出与新增物品 的特征相同的特征后,确定查找出的特征所对应 的原有物品的名称;在物品间相似度列表中、以 原有物品的名称为索引的相似度记录中,存储原 有物品与新增物品间的相似度;在物品间相似度 列表中创建以新增物品的名称为索引的相似度记 录,存储新增物品与原有物品间的相似度;从而 加快相似度更新和物品处理的速度。 (51)Int.Cl. 权利要求书3页 说明。

3、书10页 附图2页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书10页 附图2页 (10)申请公布号 CN 103995831 A CN 103995831 A 1/3页 2 1.一种基于物品间相似度的物品处理方法,其特征在于,包括: 在接收到物品处理指令后,根据所述物品处理指令所涉及的物品的名称,查找物品间 相似度列表中以该物品的名称为索引的相似度记录,并根据查找到的相似度记录进行物品 处理;其中,所述物品间相似度列表是以如下方法进行更新的: 对于新增物品,在提取其特征后,根据提取的特征确定所述新增物品的特征向量; 从以特征为索引的特征列表中查找出与所述。

4、新增物品的特征相同的特征后,进一步从 所述特征列表中确定查找出的特征所对应的原有物品的名称; 对于确定出的每个原有物品的名称,在所述物品间相似度列表中的、以该原有物品的 名称为索引的相似度记录中,存储该原有物品的特征向量与所述新增物品的特征向量间的 相似度;并 在所述物品间相似度列表中,创建以所述新增物品的名称为索引的一条相似度记录, 并在该相似度记录中存储所述新增物品的特征向量与各确定出的原有物品的特征向量间 的相似度。 2.如权利要求1所述的方法,其特征在于,在所述确定所述新增物品的特征向量后,还 包括: 对于所述新增物品的每个特征,将该特征与所述特征列表中存储的特征进行比对,若 该特征不。

5、存在于所述特征列表中,则在所述特征列表中创建以该特征为索引的特征记录 后,在该特征记录中存储所述新增物品的名称;以及 所述从以特征为索引的特征列表中查找出与所述新增物品的特征相同的特征后,还包 括: 对于查找出的每个特征,在以该特征为索引的特征记录中存储所述新增物品的名称。 3.如权利要求2所述的方法,其特征在于,所述物品间相似度列表和所述特征列表是 预先创建的: 对于预先得到的若干原有物品中的每个原有物品,提取该原有物品的特征后,确定出 该原有物品的特征向量; 将各原有物品的特征组成特征集合后,创建所述特征列表;并 对于所述特征集合中的每个特征,在所述特征列表中创建一条以该特征为索引的特征 。

6、记录,将具有该特征的原有物品的名称存储到该特征记录中; 对于所述特征列表中记录的每个特征,将以该特征为索引的特征记录中所涉及的任意 两个原有物品确定为一对原有物品对,计算出该对原有物品的特征向量间的相似度; 创建所述物品间相似度列表后,对于每个原有物品,在所述物品间相似度列表中创建 以该原有物品的名称为索引的相似度记录,并在该相似度记录中存储计算出的该原有物品 的特征向量与其它原有物品的特征向量间的相似度。 4.如权利要求1-3任一所述的方法,其特征在于,所述物品处理指令具体为物品推荐 指令;以及所述根据查找到的相似度记录进行物品处理,具体为:根据查找到的相似度记 录中所涉及的物品进行物品推荐。

7、。 5.如权利要求1-3任一所述的方法,其特征在于, 在所述创建以所述新增物品的名称为索引的一条相似度记录,并在该相似度记录中存 储所述新增物品的特征向量与各确定出的原有物品的特征向量间的相似度后,还包括: 权 利 要 求 书CN 103995831 A 2/3页 3 根据所述新增物品所对应的相似度记录中所涉及的各物品的类别属性,确定出所述新 增物品的类别属性后,在该相似度记录中进行存储;以及 所述物品处理指令具体为物品类别请求指令;以及所述根据查找到的相似度记录进行 物品处理,具体为:根据查找到的相似度记录中存储的、该物品类别请求指令所涉及的物品 的类别属性,进行所述物品类别请求的响应。 6。

8、.一种物品间相似度的更新方法,其特征在于,包括: 对于新增物品,在提取其特征后,根据提取的特征确定所述新增物品的特征向量; 从以特征为索引的特征列表中查找出与所述新增物品的特征相同的特征后,进一步从 中确定查找出的特征所对应的原有物品的名称后,对以物品的名称为索引的物品间相似度 列表进行更新: 对于确定出的每个原有物品的名称,在所述物品间相似度列表中的、以该原有物品的 名称为索引的相似度记录中,存储该原有物品的特征向量与所述新增物品的特征向量间的 相似度;并 在所述物品间相似度列表中,创建以所述新增物品的名称为索引的一条相似度记录, 并在该相似度记录中存储所述新增物品的特征向量与各确定出的原有。

9、物品的特征向量间 的相似度。 7.一种基于物品间相似度的物品处理系统,其特征在于,包括: 特征向量确定模块,用于对于新增物品,在提取其特征后,根据提取的特征确定所述新 增物品的特征向量; 特征列表查找模块,用于从以特征为索引的特征列表中查找出与所述新增物品的特征 相同的特征后,进一步从所述特征列表中确定查找出的特征所对应的原有物品的名称; 物品间相似度列表更新模块,用于对以物品的名称为索引的物品间相似度列表进行更 新:对于所述特征列表查找模块确定出的每个原有物品的名称,在所述物品间相似度列表 中的、以该原有物品的名称为索引的相似度记录中,存储该原有物品的特征向量与所述新 增物品的特征向量间的相。

10、似度;并在所述物品间相似度列表中,创建以所述新增物品的名 称为索引的一条相似度记录,在该相似度记录中存储所述新增物品的特征向量与各确定出 的原有物品的特征向量间的相似度; 指令处理模块,用于在接收到物品处理指令后,根据所述物品处理指令所涉及的物品 的名称,查找所述物品间相似度列表中以该物品的名称为索引的相似度记录,并根据查找 到的相似度记录中所涉及的物品进行物品处理。 8.如权利要求7所述的系统,其特征在于,还包括: 特征列表更新模块,用于对于所述新增物品的每个特征,将该特征与所述特征列表中 存储的特征进行比对,若该特征不存在于所述特征列表中,则在所述特征列表中创建以该 特征为索引的特征记录后。

11、,在该特征记录中存储所述新增物品的名称;若该特征存在于所 述特征列表中,则在以该特征为索引的特征记录中存储所述新增物品的名称。 9.如权利要求8所述的系统,其特征在于,还包括: 特征列表确定模块,用于对于预先得到的若干原有物品中的每个原有物品,提取该原 有物品的特征后,确定出该原有物品的特征向量;将各原有物品的特征组成特征集合后,创 建所述特征列表;并对于所述特征集合中的每个特征,在所述特征列表中创建一条以该特 权 利 要 求 书CN 103995831 A 3/3页 4 征为索引的特征记录,将具有该特征的原有物品的名称存储到该特征记录中; 物品间相似度列表确定模块,用于对于所述特征列表中记录。

12、的每个特征,将以该特征 为索引的特征记录中所涉及的任意两个原有物品确定为一对原有物品对,计算出该对原有 物品的特征向量间的相似度;并在创建所述物品间相似度列表后,对于每个原有物品,在所 述物品间相似度列表中创建以该原有物品的名称为索引的相似度记录,并在该相似度记录 中存储计算出的该原有物品的特征向量与其它原有物品的特征向量间的相似度。 10.一种物品间相似度的更新装置,其特征在于,包括: 特征向量确定模块,用于对于新增物品,在提取其特征后,根据提取的特征确定所述新 增物品的特征向量; 特征列表查找模块,用于从以特征为索引的特征列表中查找出与所述新增物品的特征 相同的特征后,进一步从所述特征列表。

13、中确定查找出的特征所对应的原有物品的名称; 物品间相似度列表更新模块,用于对以物品的名称为索引的物品间相似度列表进行更 新:对于所述特征列表查找模块确定出的每个原有物品的名称,在所述物品间相似度列表 中的、以该原有物品的名称为索引的相似度记录中,存储该原有物品的特征向量与所述新 增物品的特征向量间的相似度;并在所述物品间相似度列表中,创建以所述新增物品的名 称为索引的一条相似度记录,在该相似度记录中存储所述新增物品的特征向量与各确定出 的原有物品的特征向量间的相似度。 权 利 要 求 书CN 103995831 A 1/10页 5 基于物品间相似度的物品处理方法、 系统和装置 技术领域 000。

14、1 本发明涉及计算机领域,尤其涉及一种基于物品间相似度的物品处理方法、系统 和装置。 背景技术 0002 随着互联网技术迅猛发展,网上信息爆炸式增长,基于特征向量的相似度计算已 广泛应用于多个领域。例如,在物品推荐系统中,可将待推荐物品等以特征向量的方式表 示,通过计算各待推荐物品的特征向量之间的相似度,建立相似度数据模型;这样,物品推 荐系统可根据用户的需求、兴趣等,将用户感兴趣的物品推荐给用户,从而避免信息超载给 用户带来的不便。再如,在垃圾邮件过滤系统中,将电子邮件的邮件数据以特征向量表示, 通过计算各电子邮件的特征向量之间的相似度,对电子邮件进行分类,以便于垃圾邮件过 滤规则的挖掘。为。

15、便于描述,在本文中将物品推荐系统中的待推荐物品、垃圾邮件过滤系统 中的电子邮件等统称为物品。 0003 在实际应用中,随着物品推荐系统、垃圾邮件过滤系统的不断运行,这些系统中的 物品的数量将越来越多。现有技术中当有新增物品时,提取新增物品的特征,进而得到新增 物品的特征向量后,分别计算新增物品的特征向量与之前的所有原有物品的特征向量之间 的相似度,从而得到当前的全部物品的特征向量间的相似度;从而物品推荐系统可基于得 到的物品间相似度进行物品推荐,垃圾邮件过滤系统也可基于得到的物品间相似度进行电 子邮件(物品)分类。其中,物品的特征向量间的相似度即表示物品间的相似度。然而,这种 方式的计算量较大。

16、,每当有新增物品时,需要计算新增物品的特征向量与之前的所有原有 物品的特征向量之间的相似度,在原有物品较多的情况下,这种方式的计算量将非常大,占 用的计算资源较多,导致相似度更新速度较慢。而且,现有技术中基于物品间相似度进行物 品推荐或分类时占用时间较长,使得用户体验较差。 发明内容 0004 针对上述现有技术存在的缺陷,本发明提供了一种基于物品间相似度的物品处理 方法、系统和装置,用以加快相似度更新速度,并加快物品处理速度。 0005 本发明实施例提供了一种基于物品间相似度的物品处理方法,包括: 0006 在接收到物品处理指令后,根据所述物品处理指令所涉及的物品的名称,查找物 品间相似度列表。

17、中以该物品的名称为索引的相似度记录,并根据查找到的相似度记录中所 涉及的物品进行物品处理;其中,所述物品间相似度列表是以如下方法进行更新的: 0007 对于新增物品,在提取其特征后,根据提取的特征确定所述新增物品的特征向 量; 0008 从以特征为索引的特征列表中查找出与所述新增物品的特征相同的特征后,进一 步从所述特征列表中确定查找出的特征所对应的原有物品的名称; 0009 对于确定出的每个原有物品的名称,在所述物品间相似度列表中的、以该原有物 说 明 书CN 103995831 A 2/10页 6 品的名称为索引的相似度记录中,存储该原有物品的特征向量与所述新增物品的特征向量 间的相似度;。

18、并 0010 在所述物品间相似度列表中,创建以所述新增物品的名称为索引的一条相似度记 录,并在该相似度记录中存储所述新增物品的特征向量与各确定出的原有物品的特征向量 间的相似度。 0011 较佳地,在所述确定所述新增物品的特征向量后,还包括: 0012 对于所述新增物品的每个特征,将该特征与所述特征列表中存储的特征进行比 对,若该特征不存在于所述特征列表中,则在所述特征列表中创建以该特征为索引的特征 记录后,在该特征记录中存储所述新增物品的名称;以及 0013 所述从以特征为索引的特征列表中查找出与所述新增物品的特征相同的特征后, 还包括: 0014 对于查找出的每个特征,在以该特征为索引的特。

19、征记录中存储所述新增物品的名 称。 0015 其中,所述物品间相似度列表和所述特征列表是预先创建的: 0016 对于预先得到的若干原有物品中的每个原有物品,提取该原有物品的特征后,确 定出该原有物品的特征向量; 0017 将各原有物品的特征组成特征集合后,创建所述特征列表;并 0018 对于所述特征集合中的每个特征,在所述特征列表中创建一条以该特征为索引的 特征记录,将具有该特征的原有物品的名称存储到该特征记录中; 0019 对于所述特征列表中记录的每个特征,将以该特征为索引的特征记录中所涉及的 任意两个原有物品确定为一对原有物品对,计算出该对原有物品的特征向量间的相似度; 0020 创建所述。

20、物品间相似度列表后,对于每个原有物品,在所述物品间相似度列表中 创建以该原有物品的名称为索引的相似度记录,并在该相似度记录中存储计算出的该原有 物品的特征向量与其它原有物品的特征向量间的相似度。 0021 较佳地,所述物品处理指令具体为物品推荐指令;以及所述根据查找到的相似度 记录进行物品处理,具体为:根据查找到的相似度记录中所涉及的物品进行物品推荐。 0022 较佳地,在所述创建以所述新增物品的名称为索引的一条相似度记录,并在该相 似度记录中存储所述新增物品的特征向量与各确定出的原有物品的特征向量间的相似度 后,还包括: 0023 根据所述新增物品所对应的相似度记录中所涉及的各物品的类别属性。

21、,确定出所 述新增物品的类别属性后,在该相似度记录中进行存储; 0024 或者,所述物品处理指令具体为物品类别请求指令;以及所述根据查找到的相似 度记录进行物品处理,具体为:根据查找到的相似度记录中存储的、该物品类别请求指令所 涉及的物品的类别属性,进行所述物品类别请求的响应。 0025 本发明实施例还提供了一种物品间相似度的更新方法,包括: 0026 对于新增物品,在提取其特征后,根据提取的特征确定所述新增物品的特征向 量; 0027 从以特征为索引的特征列表中查找出与所述新增物品的特征相同的特征后,进一 步从所述特征列表中确定查找出的特征所对应的原有物品的名称后,对以物品的名称为索 说 明。

22、 书CN 103995831 A 3/10页 7 引的物品间相似度列表进行更新: 0028 对于确定出的每个原有物品的名称,在所述物品间相似度列表中的、以该原有物 品的名称为索引的相似度记录中,存储该原有物品的特征向量与所述新增物品的特征向量 间的相似度;并 0029 在所述物品间相似度列表中,创建以所述新增物品的名称为索引的一条相似度记 录,并在该相似度记录中存储所述新增物品的特征向量与各确定出的原有物品的特征向量 间的相似度。 0030 本发明实施例还提供了一种基于物品间相似度的物品处理系统,包括: 0031 特征向量确定模块,用于对于新增物品,在提取其特征后,根据提取的特征确定所 述新增。

23、物品的特征向量; 0032 特征列表查找模块,用于从以特征为索引的特征列表中查找出与所述新增物品的 特征相同的特征后,进一步从所述特征列表中确定查找出的特征所对应的原有物品的名 称; 0033 物品间相似度列表更新模块,用于对以物品的名称为索引的物品间相似度列表进 行更新:对于所述特征列表查找模块确定出的每个原有物品的名称,在所述物品间相似度 列表中的、以该原有物品的名称为索引的相似度记录中,存储该原有物品的特征向量与所 述新增物品的特征向量间的相似度;并在所述物品间相似度列表中,创建以所述新增物品 的名称为索引的一条相似度记录,在该相似度记录中存储所述新增物品的特征向量与各确 定出的原有物品。

24、的特征向量间的相似度; 0034 指令处理模块,用于在接收到物品处理指令后,根据所述物品处理指令所涉及的 物品的名称,查找所述物品间相似度列表中以该物品的名称为索引的相似度记录,并根据 查找到的相似度记录中所涉及的物品进行物品处理。 0035 进一步,所述基于物品间相似度的物品处理系统,还包括: 0036 特征列表更新模块,用于对于所述新增物品的每个特征,将该特征与所述特征列 表中存储的特征进行比对,若该特征不存在于所述特征列表中,则在所述特征列表中创建 以该特征为索引的特征记录后,在该特征记录中存储所述新增物品的名称;若该特征存在 于所述特征列表中,则在以该特征为索引的特征记录中存储所述新增。

25、物品的名称。 0037 进一步,所述基于物品间相似度的物品处理系统,还包括: 0038 特征列表确定模块,用于对于预先得到的若干原有物品中的每个原有物品,提取 该原有物品的特征后,确定出该原有物品的特征向量;将各原有物品的特征组成特征集合 后,创建所述特征列表;并对于所述特征集合中的每个特征,在所述特征列表中创建一条以 该特征为索引的特征记录,将具有该特征的原有物品的名称存储到该特征记录中; 0039 物品间相似度列表确定模块,用于对于所述特征列表中记录的每个特征,将以该 特征为索引的特征记录中所涉及的任意两个原有物品确定为一对原有物品对,计算出该对 原有物品的特征向量间的相似度;并在创建所述。

26、物品间相似度列表后,对于每个原有物品, 在所述物品间相似度列表中创建以该原有物品的名称为索引的相似度记录,并在该相似度 记录中存储计算出的该原有物品的特征向量与其它原有物品的特征向量间的相似度。 0040 本发明实施例还提供了一种物品间相似度的更新装置,包括: 0041 特征向量确定模块,用于对于新增物品,在提取其特征后,根据提取的特征确定所 说 明 书CN 103995831 A 4/10页 8 述新增物品的特征向量; 0042 特征列表查找模块,用于从以特征为索引的特征列表中查找出与所述新增物品的 特征相同的特征后,进一步从所述特征列表中确定查找出的特征所对应的原有物品的名 称; 0043。

27、 物品间相似度列表更新模块,用于对以物品的名称为索引的物品间相似度列表进 行更新:对于所述特征列表查找模块确定出的每个原有物品的名称,在所述物品间相似度 列表中的、以该原有物品的名称为索引的相似度记录中,存储该原有物品的特征向量与所 述新增物品的特征向量间的相似度;并在所述物品间相似度列表中,创建以所述新增物品 的名称为索引的一条相似度记录,在该相似度记录中存储所述新增物品的特征向量与各确 定出的原有物品的特征向量间的相似度。 0044 本发明的技术方案中,由于有新增物品时,仅计算新增物品与那些与其具有至少 一个共同特征的原有物品间的相似度,便可完成物品间相似度列表的更新,从而尽量避免 了冗余。

28、计算,减少了计算量、节省了计算资源;对于原有物品的数量较多的情况,减少计算 量、节省计算资源的效果尤为明显。而且,基于以物品的名称为索引的相似度记录,可较快 地查找到与某个物品具有较大相似度的物品,有助于加快物品处理(如物品推荐或物品分 类)的速度。 附图说明 0045 图1为本发明实施例的得到物品间相似度列表的方法的流程图; 0046 图2为本发明实施例的物品间相似度的更新方法的流程图; 0047 图3为本发明实施例的基于物品间相似度的物品处理系统的内部结构框图。 具体实施方式 0048 以下将结合附图对本发明的技术方案进行清楚、完整的描述,显然,所描述的实施 例仅仅是本发明的一部分实施例,。

29、而不是全部的实施例。基于本发明中的实施例,本领域普 通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保 护的范围。 0049 本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体,例如但不限 于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理 器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计 算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的 一个进程和/或线程内,一个模块也可以位于一台计算机上和/或分布于两台或更多台计 算机之间。 0050 本发明的发明人发。

30、现,当有新增物品时,提取出的新增物品的特征可能仅有几个, 这样确定新增物品与各原有物品间的相似度时,计算那些与新增物品具有至少一个共同特 征的原有物品与新增物品之间的相似度,对于物品间相似度的确定才有意义,而其它与新 增物品没有共同特征的原有物品与新增物品之间的相似度为零,对于物品间相似度的确定 并无实际意义,为冗余计算。其中,若一个物品具有某个特征,则该物品的特征向量中该特 征相对应的元素值不为零;若该物品不具有某个特征,则该物品的特征向量中该特征相对 说 明 书CN 103995831 A 5/10页 9 应的元素值为零。 0051 基于上述的分析,本发明的技术方案中,将物品间的相似度以物。

31、品的名称为索引 记录到物品间相似度列表中,即对于每个物品,在物品间相似度列表中创建以该物品的名 称为索引的相似度记录,并将其它物品与该物品间的相似度记录到其中。并且,通过以特征 为索引的特征列表对具有某个特征的物品的名称进行记录。这样,若有新增物品,则可基于 以特征为索引的特征列表,确定出与新增物品具有至少一个共同特征的原有物品,并计算 新增物品与确定出的这些原有物品间的相似度后对物品间相似度列表进行更新。由于有新 增物品时,仅计算新增物品与那些与其具有至少一个共同特征的原有物品间的相似度,便 可完成物品间相似度列表的更新,从而尽量避免了冗余计算,减少了计算量、节省了计算资 源;对于原有物品的。

32、数量较多的情况,减少计算量、节省计算资源的效果尤为明显。而且, 基于以物品的名称为索引的相似度记录,可较快地查找到与某个物品具有较大相似度的物 品,有助于加快物品处理速度。 0052 下面结合附图详细说明本发明的技术方案。本发明实施例中当物品推荐系统或者 垃圾邮件过滤系统中有新增物品而需要进行物品间相似度的更新之前,可计算出各原有物 品的特征向量间的相似度,记录于以物品的名称为索引的相似度记录中,从而得到物品间 相似度列表。具体地,得到记录有原有物品间的相似度的物品间相似度列表的方法的流程, 如图1所示,包括如下步骤: 0053 S101:对于每个原有物品,提取该原有物品的特征后,确定出该原有。

33、物品的特征向 量。 0054 具体地,对于每个原有物品,可根据现有的特征提取方法提取该原有物品的特征, 并分别计算各特征对该原有物品的权重值,进而得到该原有物品的特征向量。例如,原有物 品为b,提取出的原有物品b的特征为A、B,特征A、B对原有物品b的权重值分别为Ab、Bb, 则可将原有物品b的特征向量以析出方式表示为,,也就是记录原有物品b 的特征向量中不为零的元素及相应的特征,这种以析出方式记录特征向量的方式可节省存 储空间。 0055 S102:建立原有物品的特征的倒排索引,得到以特征为索引的特征列表。 0056 具体地,建立原有物品的特征的倒排索引,也就是将各原有物品的特征组成特征 集。

34、合后,创建以特征为索引的特征列表,并对于特征集合中的每个特征,在特征列表中创建 一条以该特征为索引的特征记录,将具有该特征的原有物品的名称存储到该特征记录中。 这样,各条特征记录组成了以特征为索引的特征列表。 0057 例如,原有物品a、b、c、d的特征向量分别以析出方式表示为、 ,、,、,则得到的以特征为索引的特征列表可如下 表1所示。A、B、C表示原有物品a、b、c、d的特征。 0058 表1 0059 索引特征记录 A 、 说 明 书CN 103995831 A 6/10页 10 B 、 C 0060 S103:确定出具有至少一个共同特征的原有物品对,并计算每对原有物品间的相 似度。 0。

35、061 具体地,对于特征列表中记录的每个特征,查找特征列表(如上表1)中、以该特征 为索引的特征记录,将该特征记录中涉及的任意两个原有物品确定为一对原有物品对,计 算出该对原有物品的特征向量间的相似度,即为该对原有物品间的相似度。 0062 其中,对于一对原有物品,可根据现有的夹角余弦法或者Jaccard系数法计算出 该对原有物品的特征向量间的相似度。 0063 此外,对于任一对具有至少一个共同特征的物品x和物品y,还可根据权重归一化 计算方法计算物品x和物品y间的相似度,具体为: 0064 若物品x和物品y的特征向量分别以析出方式表示为,、 ,;其中,P、Q、R为物品x的特征,Px、Qx、R。

36、x分别为特征P、 Q、R对物品x的权重值;Q、R、S、T为物品 y 的特征,Qy、Ry、Sy、Ty分别为特征Q、R、S、T对 物品y的权重值,则可确定出物品x和物品y具有共同特征Q、R后,根据如下公式1计算出 物品x和物品y间的相似度Sim(x,y): 0065 (公式1) 0066 公式1中,为特征Q对物品x的归一化权重值; 为特征Q对物品y的归一化权重值;为特征R对 物品x的归一化权重值;为特征R对物品y的归一化权重值。 0067 S104:创建物品间相似度列表,并对于每个原有物品,在物品间相似度列表中创建 以该原有物品的名称为索引的相似度记录,并在该相似度记录中存储计算出的该原有物品 的。

37、特征向量与其它原有物品的特征向量间的相似度,从而可得到记录有各原有物品间的相 似度的物品间相似度列表。 0068 其中,以某个原有物品(记为原有物品x)的名称为索引的相似度记录中可包括若 干相似度子记录,每条相似度子记录中存储有与原有物品x具有至少一个共同特征的其它 原有物品(记为原有物品y)的名称、以及原有物品x和原有物品y之间的相似度。例如,原 有物品为a、b、c、d,得到的物品间相似度列表可如下表2所示: 0069 表2 0070 说 明 书CN 103995831 A 10 7/10页 11 索引相似度记录 a b 、 c 、 d 、 0071 基于上述的物品间相似度列表,本发明实施例。

38、提供的物品间相似度的更新方法的 流程,如图2所示,具体包括如下步骤: 0072 S201:对于新增物品,提取出新增物品的特征,并根据提取的特征确定新增物品的 特征向量。 0073 具体地,物品推荐系统中有新的待推荐物品,或垃圾邮件过滤系统中有新的电子 邮件等时,可将新的待推荐物品或者新的电子邮件作为新增物品,根据现有的特征提取方 法,提取出新增物品的特征,并计算出每个特征对新增物品的权重值,进而得到新增物品的 特征向量。例如,新增物品为e,其特征为B、C、D,特征B、C、D对新增物品e的权重值分别 为Be、Ce、De,则新增物品e的特征向量可以析出方式表示为,。 0074 S202:从以特征为。

39、索引的特征列表中查找出与新增物品的特征相同的特征后,进 一步从特征列表中确定查找出的特征所对应的原有物品的名称。 0075 具体地,对于新增物品的每个特征,从以特征为索引的特征列表中查找出与该特 征相同的特征,并进一步从特征列表中确定出查找到的特征所对应的原有物品的名称,这 样也就确定出了与新增物品具有至少一个共同特征的原有物品。 0076 进一步,从以特征为索引的特征列表中查找出与新增物品的特征相同的特征 后,还可以对于新增物品的每个特征,查找特征列表中是否存储有以该特征为索引的 特征记录;若有,则在查找到的特征记录中存储新增物品的名称;否则,创建以该特征 为索引的特征记录后,在该特征记录中。

40、存储新增物品的名称。也就是说,建立新增物 品的特征的倒排索引后,将新增物品的特征的倒排索引与原有物品的特征的倒排索引 进行合并,得到合并后的特征列表;例如,新增物品为e,其特征向量以析出方式表示为 ,,原有物品为上述的a、b、c、d,合并后的特征列表可如下表3所 示。 0077 表3 0078 索引特征记录 A 、 B 、 C 、 说 明 书CN 103995831 A 11 8/10页 12 D 0079 S203:对于确定出的每个原有物品的名称,更新物品间相似度列表中的、以该原有 物品的名称为索引的相似度记录。 0080 具体地,在上述步骤S202中确定出与新增物品具有至少一个共同特征的原。

41、有物 品后,可在本步骤中,采用上述提及的夹角余弦法、或者Jaccard系数法、或者权重归一化 计算方法,分别计算新增物品的特征向量与确定出的每个原有物品的特征向量间的相似 度。并且,对于确定出的每个原有物品的名称,在物品间相似度列表中的、以该原有物品的 名称为索引的相似度记录中,存储该原有物品的特征向量与新增物品的特征向量间的相似 度。其中,特征向量间的相似度的计算可在Hadoop集群上基于MapReduce框架完成;这样, 将相似度的计算分布在多台计算机上,可处理大数据量,降低计算的时间复杂度。 0081 例如,原有物品为上述的a、b、c、d,新增物品为e,经过本步骤的更新后,可得到如 下表。

42、4所示的物品间相似度列表。 0082 表4 0083 索引相似度记录 a b 、 c 、 d 、 0084 S204:在物品间相似度列表中,创建以新增物品的名称为索引的一条相似度记录, 并在该相似度记录中存储新增物品的特征向量与各确定出的原有物品的特征向量间的相 似度。 0085 其中,物品间相似度列表中的以某个物品(即为物品m)的名称为索引的相似度记 录中可包括若干相似度子记录,每个相似度子记录中记录有与物品m具有至少一个共同特 征的一个物品(记为物品n)的名称、以及物品m和物品n之间的相似度。例如,原有物品为 上述的a、b、c、d,新增物品为e,则在本步骤中可得到如下表5所示的物品间相似度。

43、列表。 0086 表5 0087 索引相似度记录 a b 、 c 、 说 明 书CN 103995831 A 12 9/10页 13 d 、 e 、 0088 其中,上述的步骤S204和S204并没有严格的执行顺序,可先执行S204,也可先执 行S204,还可并行执行S204和S204。 0089 进一步,在创建以新增物品的名称为索引的一条相似度记录,并在该相似度记录 中存储新增物品的特征向量与各确定出的原有物品的特征向量间的相似度后,还可根据 新增物品所对应的相似度记录中所涉及的各物品的类别属性,确定出新增物品的类别属性 后,在该相似度记录中对新增物品的类别属性进行存储。其中,物品的类别属性。

44、标识了物品 所属的类别。 0090 之后,若再有新增物品,可将物品间相似度列表中记录的各物品均作为原有物品, 根据上述的步骤S201S204进行物品间相似度的更新。 0091 基于上述的物品间相似度列表,本发明实施例的基于物品间相似度的物品处理方 法,具体可以为:在接收到物品处理指令后,根据物品处理指令所涉及的物品的名称,查找 物品间相似度列表中,以该物品的名称为索引的相似度记录,并根据查找到的相似度记录 进行物品处理;其中,物品间相似度列表是根据上述步骤S201S204所示的方法进行更新 的。 0092 进一步,上述的物品处理指令具体可以为物品推荐指令;相应地,根据查找到的相 似度记录进行物。

45、品处理,也就是根据查找到的相似度记录中所涉及的物品进行物品推荐, 例如,将查找到的相似度记录中所涉及的所有物品进行推荐,或者将查找到的相似度记录 中所涉及的设定个数的物品进行推荐。 0093 或者,上述的物品处理指令具体可以为物品类别请求指令;相应地,根据查找到的 相似度记录进行物品处理,也就是根据查找到的相似度记录中存储的、该物品类别请求指 令所涉及的物品的类别属性,进行该物品类别请求的响应(即将该物品类别请求所涉及的 物品的类别属性携带于响应中进行返回)。 0094 基于上述的基于物品间相似度的物品处理方法,本发明实施例提供的基于物品间 相似度的物品处理系统的内部结构框图,如图3所示,具体。

46、包括:特征向量确定模块301、特 征列表查找模块302、物品间相似度列表更新模块303和指令处理模块304。 0095 特征向量确定模块301用于对于新增物品,在提取其特征后,根据提取的特征确 定新增物品的特征向量。 0096 特征列表查找模块302用于从以特征为索引的特征列表中查找出与新增物品的 特征相同的特征后,进一步从特征列表中确定查找出的特征所对应的原有物品的名称。 0097 物品间相似度列表更新模块303用于对以物品的名称为索引的物品间相似度列 表进行更新:对于特征列表查找模块302确定出的每个原有物品的名称,在物品间相似度 列表中的、以该原有物品的名称为索引的相似度记录中,存储该原。

47、有物品的特征向量与新 增物品的特征向量间的相似度;并在物品间相似度列表中,创建以新增物品的名称为索引 的一条相似度记录,在该相似度记录中存储新增物品的特征向量与各确定出的原有物品的 特征向量间的相似度。 0098 指令处理模块304用于在接收到物品处理指令后,根据物品处理指令所涉及的物 说 明 书CN 103995831 A 13 10/10页 14 品的名称,查找物品间相似度列表中以该物品的名称为索引的相似度记录,并根据查找到 的相似度记录中所涉及的物品进行物品处理。 0099 进一步,上述的基于物品间相似度的物品处理系统还可包括:特征列表更新模块 305、特征列表确定模块306和物品间相似。

48、度列表确定模块307。 0100 特征列表更新模块305用于对于新增物品的每个特征,将该特征与特征列表中存 储的特征进行比对,若该特征不存在于特征列表中,则在特征列表中创建以该特征为索引 的特征记录后,在该特征记录中存储新增物品的名称;若该特征存在于特征列表中,则在特 征列表中的以该特征为索引的特征记录中存储新增物品的名称。 0101 特征列表确定模块306用于对于预先得到的若干原有物品中的每个原有物品,提 取该原有物品的特征后,确定出该原有物品的特征向量;将各原有物品的特征组成特征集 合后,创建所述特征列表;并对于所述特征集合中的每个特征,在所述特征列表中创建一条 以该特征为索引的特征记录,。

49、将具有该特征的原有物品的名称存储到该特征记录中。 0102 物品间相似度列表确定模块307用于对于特征列表中记录的每个特征,将以该特 征为索引的特征记录中所涉及的任意两个原有物品确定为一对原有物品对,计算出该对原 有物品的特征向量间的相似度;并在创建物品间相似度列表后,对于每个原有物品,在物品 间相似度列表中创建以该原有物品的名称为索引的相似度记录,并在该相似度记录中存储 计算出的该原有物品的特征向量与其它原有物品的特征向量间的相似度。 0103 基于上述的物品间相似度的更新方法,本发明实施例的物品间相似度的更新装置 包括:上述的特征向量确定模块301、特征列表查找模块302和物品间相似度列表更新模块 303。进一步,物品间相似度的更新装置还可包括:上述的特征列表更新模块305、特征列表 确定模块30。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1