《一种基于用户行为的图书推荐方法.pdf》由会员分享,可在线阅读,更多相关《一种基于用户行为的图书推荐方法.pdf(15页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102929959 A (43)申请公布日 2013.02.13 CN 102929959 A *CN102929959A* (21)申请号 201210382006.0 (22)申请日 2012.10.10 G06F 17/30(2006.01) (71)申请人 杭州东信北邮信息技术有限公司 地址 100191 北京市海淀区知春路 9 号坤讯 大厦 7 层 (72)发明人 廖建新 刘同存 张雷 赵贝尔 (54) 发明名称 一种基于用户行为的图书推荐方法 (57) 摘要 一种基于用户行为的图书推荐方法, 包括有 : 根据用户在当前一天中对图书的浏览时间、 访问 次数、。
2、 访问路径数、 每条访问路径的访问次数、 访 问路径深度以及图书的内容字节数, 计算出每位 用户对其所浏览图书的用户 - 图书兴趣度 ; 基于 用户 - 图书兴趣度计算用户之间的相似度, 并为 目标用户选择若干个相似度高的邻居用户, 然后 将邻居用户已阅读而目标用户尚未阅读的图书向 目标用户推荐。本发明属于移动互联网电子商务 信息检索与处理技术领域, 能根据用户的图书浏 览行为来挖掘用户偏好, 从而为用户提供更精准 的图书推荐服务。 (51)Int.Cl. 权利要求书 4 页 说明书 7 页 附图 3 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 4 页 说明书 。
3、7 页 附图 3 页 1/4 页 2 1. 一种基于用户行为的图书推荐方法, 其特征在于, 所述方法包括有 : 步骤 A、 根据用户在当前一天中对图书的浏览时间、 访问次数、 访问路径数、 每条访问路 径的访问次数、 访问路径深度以及图书的内容字节数, 计算出每位用户对其所浏览图书的 用户 - 图书兴趣度 ; 步骤 C、 基于用户 - 图书兴趣度计算用户之间的相似度, 并为目标用户选择若干个相似 度高的邻居用户, 然后将邻居用户已阅读而目标用户尚未阅读的图书向目标用户推荐。 2.根据权利要求1所述的方法, 其特征在于, 所述步骤A中, 用户i对图书j的用户-图 书兴趣度的计算进一步包括有 : 。
4、步骤 A1、 计算用户 i 对图书 j 的单字节总浏览时间 : , 其中是用 户 i 在当前一天中对图书 j 的第 m 次访问时的浏览时间, M1是用户 i 在当前一天中对图书 j 的访问次数,是图书 j 的内容字节数 ; 步骤A2、 计算用户i对图书j的单深度单路径总访问频率 : , 其 中 S1是用户 i 在当前一天中对图书 j 的非重复访问路径数, nk是用户 i 在当前一天中通过 第 条访问路径到达图书 j 的访问次数, 是第 条访问路径深度 ; 步骤 A3、 计算用户 i 对图书 j 的单字节有效浏览时间 : , 其中 是用 户 i 在当前一天中对图书 j 的第 l 次有效访问时的浏。
5、览时间, 是用户 i 在当前一天中 对图书 j 的有效访问次数 ; 步骤A4、 计算用户i对图书j的单深度单路径有效访问频率 : , 其中 是用户在当前一天中对图书 j 进行有效访问的非重复访问路径数, 是用户 i 在当前一天中通过第 条访问路径到达图书 j 进行有效访问的访问次数, 是第 条 有效访问路径深度 ; 权 利 要 求 书 CN 102929959 A 2 2/4 页 3 步骤 A5、 计算用户 i 对图书 j 的用户 - 图书兴趣度 : 。 3. 根据权利要求 2 所述的方法, 其特征在于, 还包括有 : 步骤 A6、 查询数据库中是否保存有用户 i 对图书 j 的历史兴趣度 ?。
6、如果 是, 则从数据库中提取用户 i 对图书 j 的历史兴趣度 以及 对应的 图书浏览日期, 继续下一步 ; 如果否, 则将用户 i 对图书 j 的用户 - 图书兴趣度 和 当前的图书浏览日期作为用户 i 对图书 j 的历史兴趣度 和 对应的 图书浏览日期, 保存到数据库中, 本流程结束 ; 步骤 A7、 更新用户 i 对图书 j 的用户 - 图书兴趣度 : , 其中 是用户 i 对图书 j 的历史兴趣权 重系数 ; 步骤 A8、 将数据库中用户 i 对图书 j 的历史兴趣度 和 对应的 图书浏览日期更新成用户i对图书j的用户-图书兴趣度 和当前的图书浏览日期。 4. 根据权利要求 3 所述的。
7、方法, 其特征在于, 所述步骤 A7 中, 的计算还包括有 : 判断用户 i 对图书 j 的历史兴趣度 对应的图书浏览日期距离当前的图书 浏览日期的时间间隔 是否小于或等于 2 天?如果是, 则 =0.5 ; 如果否, 则 =1/ 。 5. 根据权利要求 1 所述的方法, 其特征在于, 在步骤 A 和步骤 C 之间, 还包括有 : 步骤 B、 将用户在当前一天中标注到图书上的所有标签构成用户标签集, 并根据用户对 标签的使用频率, 计算出用户对标签集中每个标签的用户 - 标签兴趣度, 然后根据图书上 被用户标注的标签所对应的用户 - 标签兴趣度, 调整用户 - 图书兴趣度。 6. 根据权利要求。
8、 5 所述的方法, 其特征在于, 所述步骤 B 进一步包括有 : 权 利 要 求 书 CN 102929959 A 3 3/4 页 4 步骤 B1、 计算用户 i 对标签 x 的用户 - 标签兴趣度 : , 其中 是 用户 i 对标签 x 的使用频率, Y 是用户 i 使用的标签总数。 7. 根据权利要求 6 所述的方法, 其特征在于, 还包括有 : 步骤B2、 判断用户i是否首次使用所述标签x?如果否, 则从数据库中提取用户i对标 签 x 的历史兴趣度 以及 对应的标签使用日期, 继续下一步 ; 如果是, 则将用户 i 对标签 x 的用户 - 标签兴趣度 和当前的标签使用日期作为用户 i 对。
9、标 签 x 的历史兴趣度 和 对应的标签使用日期, 保存到数据库中, 本流程 结束 ; 步骤 B3、 更新用户 i 对标签 x 的用户 - 标签兴趣度 : , 其中 是用户 i 对标签 x 的历史兴趣权重 系数 ; 步骤B4、 将数据库中用户i对标签x的历史兴趣度 以及 对应的标 签使用日期更新成用户 i 对标签 x 的用户 - 标签兴趣度 和当前的标签使用日期。 8. 根据权利要求 7 所述的方法, 其特征在于, 所述步骤 B3 中, 的计算还包括有 : 判断用户 i 对标签 x 的历史兴趣度 对应的标签使用日期距离当前的标签使 用日期的时间间隔 是否小于或等于 2 天?如果是, 则 =0.。
10、5 ; 如果否, 则 =1/ 。 9. 根据权利要求 5 所述的方法, 其特征在于, 所述步骤 B 中, 按如下公式对用户 - 图书 兴趣度的值进行调整 : , 其中 是用户 i 对图书 j 的用户 - 图书兴趣度, 是图书浏览行为对用户偏好的权重值, 是标签使 用行为对用户偏好的权重值, 是标签 x 的重要性值, 其值可以用单位时间内用户对标 签的有效使用频率表示。 权 利 要 求 书 CN 102929959 A 4 4/4 页 5 10.根据权利要求1所述的方法, 其特征在于, 所述步骤C中, 用户之间的相似度的计算 公式如下 : 其中, 是用户 和 的相似度, 是用户 和 共同浏览的图。
11、书 集合, 、 分别是用户 、 对图书 b 的用户 - 图书兴趣度, 、 分别是用户 、 对其浏览的所有图书的用户 - 图书兴趣度的平均值。 11. 根据权利要求 10 所述的方法, 其特征在于, 所述步骤 C 还包括有 : 根据用户 - 图书兴趣度以及目标用户和邻居用户之间的相似度, 对邻居用户已阅读而 目标用户尚未阅读的图书的偏好值进行计算, 其中目标用户对图书的偏好值的计算公式如 下 : 是目标用户 对图书 j 的偏好值, 、 分别是目标用户 、 邻居用户 对其浏览的所有图书的用户 - 图书兴趣度的平均值, 是邻居用户 对其浏览的 图书 j 的用户 - 图书兴趣度, 是目标用户 和邻居用。
12、户 之间的相似度, 是目标用户 的邻居用户集合。 12. 根据权利要求 11 所述的方法, 其特征在于, 还包括有 : 根据目标用户对图书的偏好值的高低, 形成图书推荐列表, 然后将图书推荐列表中目 标用户明确不喜好或已重复推荐的图书进行过滤, 并根据目标用户对图书所属类别的其它 图书浏览情况对图书推荐列表的图书排序进行调整, 其中属于目标用户经常阅读或浏览的 图书种类则排序靠前, 最后将图书推荐列表中排序靠前的若干图书作为最终的推荐图书集 推荐给目标用户。 权 利 要 求 书 CN 102929959 A 5 1/7 页 6 一种基于用户行为的图书推荐方法 技术领域 0001 本发明涉及一种。
13、基于用户行为的图书推荐方法, 属于移动互联网电子商务信息检 索与处理技术领域。 背景技术 0002 移动互联网络的高速发展及智能手机的普及极大方便了用户的网络应用, 越来越 多的用户开始习惯于在上下班的公交车、 地铁或排队办理公共业务等零碎时间中, 通过移 动互联网络打发时间。 手机阅读作为移动互联网典型应用之一, 正逐渐得到用户的青睐, 使 得用户可以随时随地阅读所感兴趣的图书。 然而, 随着图书信息量的急剧增长, 用户从中发 觉其感兴趣图书的难度也在加大, 平台的资源利用效率也在降低。传统的信息检索技术在 一定程度上可以缓解这一问题, 但需要用户提供关键词, 并且对不同用户提供的同一关键 。
14、词给出相同的检索结果。 推荐系统作为智能化的信息过滤技术已经成功应用于互联网电子 商务系统中, 通过挖掘消费者的潜在偏好为其推荐符合其当前偏好的图书, 从而有利于实 施个性化营销方案, 增强用户粘性。 0003 推荐系统的成功应用引起了互联网新的变革, 个性化的信息服务方式逐渐成为互 联网运营商所密切关注的焦点。从整体上来说, 推荐系统包括用户潜在偏好挖掘和推荐服 务两部分, 其中用户偏好的挖掘成为推荐服务精确程度的关键所在, 推荐服务主要包括协 同过滤、 内容匹配和关联规则推荐等方法。现有的推荐系统一定程度上缓解了信息资源爆 炸引起的有效信息匮乏窘境, 但仍存在诸多不足, 主要体现在 : 仅。
15、对用户浏览行为结果 (如浏览时间、 频率) 进行分析, 忽略了图书的本身特征及其在图书阅读平台中的布局、 用户 的访问轨迹等因素的影响 ; 使用的数据源过于单一, 忽略了用户浏览 / 阅读过程中的其 它操作行为信息, 如标签的使用。 0004 因此, 如何根据用户的图书浏览行为来挖掘用户偏好, 从而为用户提供更精准的 图书推荐服务?仍是一个急需要解决的技术难题。 发明内容 0005 有鉴于此, 本发明的目的是提供一种基于用户行为的图书推荐方法, 能根据用户 的图书浏览行为来挖掘用户偏好, 从而为用户提供更精准的图书推荐服务。 0006 为了达到上述目的, 本发明提供了一种基于用户行为的图书推荐。
16、方法, 所述方法 包括有 : 步骤 A、 根据用户在当前一天中对图书的浏览时间、 访问次数、 访问路径数、 每条访问路 径的访问次数、 访问路径深度以及图书的内容字节数, 计算出每位用户对其所浏览图书的 用户 - 图书兴趣度 ; 步骤 C、 基于用户 - 图书兴趣度计算用户之间的相似度, 并为目标用户选择若干个相似 度高的邻居用户, 然后将邻居用户已阅读而目标用户尚未阅读的图书向目标用户推荐。 0007 与现有技术相比, 本发明的有益效果是 : 本发明根据用户对图书的浏览时间、 访问 说 明 书 CN 102929959 A 6 2/7 页 7 次数、 访问路径数、 每条访问路径的访问次数、 。
17、访问路径深度以及图书的内容字节数, 来计 算用户 - 图书兴趣度, 不仅对用户浏览行为信息 (如浏览时间、 频率) 进行了分析, 还考虑了 图书的本身特征及其在图书阅读平台中的布局、 用户的访问轨迹等因素的影响 ; 进一步考 虑了用户浏览图书过程中的标签使用行为, 并根据计算出的用户 - 标签兴趣度对用户 - 图 书兴趣度的值进行调整, 从而能更准确的挖掘用户偏好 ; 由于用户偏好随时间动态转移、 历 史兴趣随时间动态衰减, 因此在计算用户在当前图书阅读平台访问过程中对图书、 标签的 兴趣度时, 还考虑了用户的历史兴趣 ; 根据用户 - 图书兴趣度来计算用户之间的相似度, 并 为每个目标用户选。
18、择与其相似度高的邻居用户, 最后通过邻居用户已阅读而目标用户尚未 阅读的图书的偏好值的计算, 为目标用户形成符合其个人偏好的图书推荐集, 从而实现为 用户提供更精准的图书推荐服务。 附图说明 0008 图 1 是本发明一种基于用户行为的图书推荐方法流程图。 0009 图 2 是 图 1 步 骤 A 中,计 算 用 户 i 对 图 书 j 的 用 户 - 图 书 兴 趣 度 的具体操作流程图。 0010 图3是图1步骤B中, 计算用户i对标签集中标签x的用户-标签兴趣度 的具体操作流程图。 具体实施方式 0011 为使本发明的目的、 技术方案和优点更加清楚, 下面结合附图和实施例对本发明 作进一。
19、步的详细描述。 0012 如图 1 所示, 本发明一种基于用户行为的图书推荐方法, 包括有 : 步骤 A、 根据用户在当前一天中对图书的浏览时间、 访问次数、 访问路径数、 每条访问路 径的访问次数、 访问路径深度以及图书的内容字节数, 计算出每位用户对其所浏览图书的 用户 - 图书兴趣度 ; 步骤 B、 将用户在当前一天中标注到图书上的所有标签构成用户标签集, 并根据用户对 标签的使用频率, 计算出用户对标签集中每个标签的用户 - 标签兴趣度, 然后根据图书上 被用户标注的标签所对应的用户-标签兴趣度, 调整用户-图书兴趣度, 所述标签是由图书 阅读平台的编辑根据每本图书内容所选择的部分能代。
20、表图书内容特征的关键词, 用户可以 从由所有标签构成的标签库中选择多个标签, 并标注到其浏览的图书上 ; 步骤 C、 基于用户 - 图书兴趣度计算用户之间的相似度, 并为目标用户选择若干个相似 度高的邻居用户, 然后将邻居用户已阅读而目标用户尚未阅读的图书向目标用户推荐。 0013 如图 2 所示, 图 1 步骤 A 中, 用户 i 对图书 j 的用户 - 图书兴趣度 的计 算进一步包括有 : 说 明 书 CN 102929959 A 7 3/7 页 8 步骤A1、 计算用户i对图书j的单字节总浏览时间 : , 其中是用 户 i 在当前一天中对图书 j 的第 m 次访问时的浏览时间, M1是用。
21、户 i 在当前一天中对图书 j 的访问次数,是图书 j 的内容字节数 ; 步骤 A2、 计算用户 i 对图书 j 的单深度单路径总访问频率 : , 其中 S1是用户 i 在当前一天中对图书 j 的非重复访问路径数 (即用户从图书阅读平台首 页到达图书 j 的非重复访问路径数, 当用户通过同一条访问路径多次到达一本图书时, 其 非重复访问路径数仍为 1) , nk是用户 i 在当前一天中通过第 条访问路径到达图书 j 的访问次数, 是第 条访问路径深度 (例如第 条访问路径为 : 首页 -) 热门 图书 - 图书 j 时, 则 =2) ; 步骤 A3、 计算用户 i 对图书 j 的单字节有效浏览。
22、时间 : , 当用户对图 书在指定的阈值内 (例如 30 分钟) 无任何操作行为时, 则此次访问为无效访问, 否则为有效 访问, 和 是在用户 i 对图书 j 进行有效访问时的浏览时间和访问次数, 其中 是用户i在当前一天中对图书j的第l次有效访问时的浏览时间, 是用户i在当 前一天中对图书 j 的有效访问次数 ; 步 骤 A4、计 算 用 户 i 对 图 书 j 的 单 深 度 单 路 径 有 效 访 问 频 率 : , 其中 、 、 均是在用户 i 对图书 j 进行有效访问 时的访问路径数、 每条访问路径的访问次数和访问路径深度, 是用户在当前一天中 对图书j进行有效访问的非重复访问路径数。
23、, 是用户i在当前一天中通过第 条 说 明 书 CN 102929959 A 8 4/7 页 9 访问路径到达图书 j 进行有效访问的访问次数, 是第 条有效访问路径深度 ; 步骤 A5、 计算用户 i 对图书 j 的用户 - 图书兴趣度 : ; 步骤 A6、 查询数据库中是否保存有用户 i 对图书 j 的历史兴趣度 ?如 果是, 则从数据库中提取用户 i 对图书 j 的历史兴趣度 以及 对应的图书浏览日期, 继续下一步 ; 如果否, 则将用户 i 对图书 j 的用户 - 图书兴趣 度 和当前的图书浏览日期作为用户 i 对图书 j 的历史兴趣度 和 对应的图书浏览日期, 保存到数据库中, 本流。
24、程结束 ; 由于用户对图书的兴趣具有随时间动态转移的特性, 因此本发明在计算用户对图书的 兴趣度时, 还同时考虑了用户对该图书的历史兴趣度 ; 步骤 A7、 更新用户 i 对图书 j 的用户 - 图书兴趣度 : , 其中 是用户 i 对图书 j 的历史兴趣 权重系数 ; 步骤 A8、 将数据库中用户 i 对图书 j 的历史兴趣度 和 对 应的图书浏览日期更新成用户 i 对图书 j 的用户 - 图书兴趣度 和当前的图书浏 览日期。 0014 由于用户的历史兴趣随时间动态衰减, 步骤 A7 中, 的计算还包括有 : 判断用户 i 对图书 j 的历史兴趣度 对应的图书浏览日期距离当前的图 书浏览日期。
25、的时间间隔 是否小于或等于 2 天?如果是, 则 =0.5 ; 如果否, 则 =1/ 。 0015 如图 3 所示, 图 1 步骤 B 中, 用户 i 对标签集中标签 x 的用户 - 标签兴趣度 的计算进一步包括有 : 说 明 书 CN 102929959 A 9 5/7 页 10 步骤 B1、 计算用户 i 对标签 x 的用户 - 标签兴趣度 : , 其中 是用户 i 对标签 x 的使用频率 (即使用次数) , Y 是用户 i 使用的标签总数 ; 步骤 B2、 判断用户 i 是否首次使用所述标签 x ?如果否, 则从数据库中提取用户 i 对 标签 x 的历史兴趣度 以及 对应的标签使用日期,。
26、 继续下一步 ; 如 果是, 则将用户 i 对标签 x 的用户 - 标签兴趣度 和当前的标签使用日期作为用户 i 对标签 x 的历史兴趣度 和 对应的标签使用日期, 保存到数据库 中, 本流程结束 ; 步骤 B3、 更新用户 i 对标签 x 的用户 - 标签兴趣度 : , 其中 是用户 i 对标签 x 的历史兴趣权 重系数 ; 的计算还可以包括有 : 判断用户 i 对标签 x 的历史兴趣度 对应的标签使用日期距离当前的标 签使用日期的时间间隔 是否小于或等于 2 天?如果是, 则 =0.5 ; 如果否, 则 =1/ ; 步骤B4、 将数据库中用户i对标签x的历史兴趣度 以及 对应 的标签使用日。
27、期更新成用户i对标签x的用户-标签兴趣度 和当前的标签使用日 期。 0016 所 述 步 骤 B 中, 可 以 按 如 下 公 式 对 用 户 - 图 书 兴 趣 度 的 值 进 行 调 整 : , 其中 是图书浏览行为对用户偏好的 权重值, 是标签使用行为对用户偏好的权重值 (例如 : 设定 、 的值均为 0.5) , 是标签 x 的重要性值, 其值可以用单位时间内用户对标签的有效使用频率 说 明 书 CN 102929959 A 10 6/7 页 11 表示, 即 , 表示用户 i 一次图书阅读平台的访问时间长度, 表示用户 i 一次图书阅读平台访问过程中对标签 x 的有效使用频率, 所述。
28、标签的有效 使用是指用户相邻两次标签使用的时间大于一个指定阈值下的使用行为, 以防止恶意使用 标签行为对分析结果产生的影响。考虑到数据量的问题, 用户对图书阅读平台的访问期以 天为单位, 即用户每天访问的总行为作为其一次图书阅读平台访问行为。 0017 所述步骤C中, 用户之间的相似度可以采用pearson相似性度量方法, 其计算公式 如下 : 其中, 是用户 和 的相似度, 是用户 和 共 同浏览的图书集合, 、 分别是用户 、 对图书b的用户-图书兴 趣度, 、 分别是用户、 对其浏览的所有图书的用户 - 图书兴趣度的平 均值。 0018 本发明还可以进一步根据用户 - 图书兴趣度以及目标。
29、用户和邻居用户之间的相 似度, 对邻居用户已阅读而目标用户尚未阅读的图书的偏好值进行计算, 其中目标用户对 图书的偏好值的计算公式如下 : 是目标用户对图书 j 的偏好值, 、 分别是目标用户 、 邻居 用户 对其浏览的所有图书的用户 - 图书兴趣度的平均值, 是邻居用户 对其浏览的图书 j 的用户 - 图书兴趣度, 是目标用户 和邻居用户 之间的相似度, 是目标用户 的邻居用户集合, 可以根据计算的用户之间的相 似度, 选择与目标用户 相似度较高的若干用户作为目标用户 的邻居用户。 0019 根据目标用户对图书的偏好值的高低, 形成图书推荐列表, 然后将图书推荐列表 中目标用户明确不喜好或已。
30、重复推荐的图书进行过滤, 并根据目标用户对图书所属类别的 说 明 书 CN 102929959 A 11 7/7 页 12 其它图书浏览情况对图书推荐列表的图书排序进行调整, 其中属于目标用户经常阅读或浏 览的图书种类则排序靠前, 最后将图书推荐列表中排序靠前的若干图书作为最终的推荐图 书集推荐给目标用户, 从而向用户推荐符合其偏好的图书。 0020 以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明, 凡在本发明的精 神和原则之内, 所做的任何修改、 等同替换、 改进等, 均应包含在本发明保护的范围之内。 说 明 书 CN 102929959 A 12 1/3 页 13 图 1 说 明 书 附 图 CN 102929959 A 13 2/3 页 14 图 2 说 明 书 附 图 CN 102929959 A 14 3/3 页 15 图 3 说 明 书 附 图 CN 102929959 A 15 。