一种歌曲推荐方法及系统.pdf

上传人:a2 文档编号:4061366 上传时间:2018-08-13 格式:PDF 页数:23 大小:638.69KB
返回 下载 相关 举报
摘要
申请专利号:

CN201110048824.2

申请日:

2011.03.01

公开号:

CN102654859A

公开日:

2012.09.05

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20110301|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

北京彩云在线技术开发有限公司

发明人:

孙武; 石建平; 赵凌; 刘畅

地址:

100025 北京市朝阳区建国路71号惠通时代广场A区2号楼102

优先权:

专利代理机构:

北京律诚同业知识产权代理有限公司 11006

代理人:

梁挥;祁建国

PDF下载: PDF下载
内容摘要

本发明公开了一种歌曲推荐方法及系统,包括如下步骤:步骤1,建立一标签体系,该标签体系具有至少一个维度特征,每个维度特征具有至少一子特征标签;步骤2,为同一维度特征下的任意两个子特征标签之间的相关度赋值;步骤3,分别为每个维度特征设置权重;步骤4,根据该标签体系为歌曲设置该至少一个维度特征的子特征标签;步骤5,针对一首该歌曲的子特征标签,根据该相关度与该权重,计算该歌曲与其它歌曲的相似度,并将相似度符合特定要求的歌曲作为推荐内容。本发明统一了标签体系以及标签的颗粒度,为用户自主设置的用户标签提供了通用性,进而提高了歌曲推荐的准确度。

权利要求书

1: 一种歌曲推荐方法, 其特征在于, 包括如下步骤 : 步骤 1, 建立一标签体系, 该标签体系具有至少一个维度特征, 每个维度特征具有至少 一子特征标签 ; 步骤 2, 为同一维度特征下的任意两个子特征标签之间的相关度赋值 ; 步骤 3, 分别为每个维度特征设置权重 ; 步骤 4, 根据该标签体系为歌曲设置该至少一个维度特征的子特征标签 ; 步骤 5, 针对一首该歌曲的子特征标签, 根据该相关度与该权重, 计算该歌曲与其它歌 曲的相似度, 并将相似度符合特定要求的歌曲作为推荐内容。
2: 如权利要求 1 所述的方法, 其特征在于, 该维度特征至少包括 : 音乐风格流派的特 征、 歌曲的配器特征、 歌曲的编曲特征、 歌曲的演进节奏特征、 歌手演唱的嗓音特征、 歌曲整 体氛围特征、 歌曲的表达主题特征、 歌曲的多声部特征、 歌曲的年代特征、 歌曲演唱语言特 征、 歌曲的地域特征、 歌手的性别特征或歌手的活跃年代特征。
3: 如权利要求 1 所述的方法, 其特征在于, 该建立标签体系的步骤进一步包括 : 收集用户为多首歌曲设置的用户标签, 对所收集的用户标签进行聚类计算, 利用语义 识别工具识别出聚类结果的上位语义, 作为该维度特征。
4: 如权利要求 1 所述的方法, 其特征在于, 该维度特征包括主子特征标签以及从子特 征标签。
5: 如权利要求 1 所述的方法, 其特征在于, 该分别为每个维度特征设置权重的步骤进 一步包括 : 收集用户为多首歌曲设置的用户标签 ; 计算所收集的用户标签的类别的分布比例 ; 根据该分布比例, 确定该类别所对应的维度特征的权重。
6: 如权利要求 1 所述的方法, 其特征在于, 该根据该标签体系为歌曲设置该至少一个 维度特征的子特征标签的步骤进一步包括 : 收集用户为多首歌曲设置的用户标签 ; 根据预定映射规则, 为每首歌曲确定与该用户标签对应的该标签体系内的子特征标 签。
7: 如权利要求 5 或 6 所述的方法, 其特征在于, 该收集用户为多首歌曲设置的用户标签 的步骤还包括一过滤步骤 : 统计针对同一首歌曲设置同一用户标签的用户数量, 如果该用户数量小于预定值, 该 用户标签被过滤。
8: 如权利要求 1 所述的方法, 其特征在于, 该根据该标签体系为所有歌曲设置该至少 一个维度特征的子特征标签的步骤还包括 : 通过数字节拍器分析歌曲的 BPM 值, 作为该歌曲的演进节奏特征的标签。
9: 如权利要求 1 所述的方法, 其特征在于, 通过 UGC 方式收集用户为多首歌曲设置的用 户标签。
10: 如权利要求 1 所述的方法, 其特征在于, 该步骤 5 进一步包括 : 步骤 11, 根据用户终端针对歌曲的操作生成用户行为数据, 该用户行为数据包括操作 时间标签、 操作次数标签和歌曲子特征标签 ; 2 步骤 12, 对该用户行为数据进行聚类计算, 得到多个结果标签 ; 步骤 13, 对该用户行为数据的操作次数依据其所处时段进行加权处理, 越临近当前时 刻的时段权重越高 ; 步骤 14, 针对加权处理后的该用户行为数据进行归一化处理 ; 步骤 15, 对该多个结果标签进行排列组合, 将该归一化后的用户行为数据依次与每种 排列组合进行基于该相关度与该权重的多维相似度计算, 根据该计算结果得到用户口味, 并从用户口味中选取用户口味模型 ; 步骤 16, 计算该用户口味模型与其它歌曲的相似度, 将相似度符合特定要求的歌曲作 为推荐内容。
11: 如权利要求 10 所述的方法, 其特征在于, 步骤 12 之后还包括, 每隔第一预定时间, 循环执行步骤 12-15, 该步骤 12 包括对当前已生成的全部用户行为数据进行聚类计算。
12: 如权利要求 11 所述的方法, 其特征在于, 步骤 15、 16 之间进一步包括, 每隔第二预 定时间, 第二预定时间大于等于第一预定时间, 循环执行以下步骤 : 针对该用户行为数据, 计算各维度的子特征标签的聚集比例, 根据该聚集比例调整该 维度特征的权重, 聚集比例越高, 权重值越高 ; 根据历史用户行为数据或用户终端针对所推荐的歌曲的反馈操作, 依照预定规则调整 该用户口味模型。
13: 一种歌曲推荐系统, 其特征在于, 包括多个用户终端与一歌曲推荐服务器, 该歌曲 推荐服务器进一步包括 : 标签体系建立单元, 用于建立一标签体系, 该标签体系具有至少一个维度特征, 每个维 度特征具有至少一子特征标签 ; 赋值单元, 进一步包括相关度赋值单元与权重赋值单元, 该相关度赋值单元用于为同 一维度特征下的任意两个子特征标签之间的相关度赋值, 该权重赋值单元用于分别为每个 维度特征设置权重 ; 标定单元, 用于根据该标签体系为歌曲设置该至少一个维度特征的子特征标签 ; 数据处理单元, 用于针对一首该歌曲, 利用该歌曲的子特征标签的该相关度与该权重, 计算该歌曲与其它歌曲的相似度, 并将相似度符合特定要求的歌曲作为推荐内容。
14: 如权利要求 13 所述的系统, 其特征在于, 该维度特征至少包括 : 音乐风格流派的特 征、 歌曲的配器特征、 歌曲的编曲特征、 歌曲的演进节奏特征、 歌手演唱的嗓音特征、 歌曲整 体氛围特征、 歌曲的表达主题特征、 歌曲的多声部特征、 歌曲的年代特征、 歌曲演唱语言特 征、 歌曲的地域特征、 歌手的性别特征或歌手的活跃年代特征。
15: 如权利要求 13 所述的系统, 其特征在于, 该标签体系建立单元对所收集的用户标 签进行聚类计算, 利用语义识别工具识别出聚类结果的上位语义, 作为该维度特征。
16: 如权利要求 13 所述的系统, 其特征在于, 该维度特征包括主子特征标签以及从子 特征标签。
17: 如权利要求 13 所述的系统, 其特征在于, 该系统还包括一收集单元, 用于收集该用 户终端为多首歌曲设置的用户标签 ; 该收集单元还包括一过滤模块, 用于统计针对同一首 歌曲设置同一用户标签的用户数量, 如果该用户数量小于预定值, 该用户标签被过滤。
18: 如权利要求 17 所述的系统, 其特征在于, 该权重赋值单元包括 : 3 计算模块, 用于计算所收集的用户标签的类别的分布比例 ; 确定模块, 用于根据该分布比例确定该类别所对应的维度特征的权重。
19: 如权利要求 17 所述的系统, 其特征在于, 该标定单元还用于根据预定映射规则, 为 每首所收集的歌曲确定与该歌曲的用户标签对应的该标签体系内的子特征标签。
20: 如权利要求 17 所述的系统, 其特征在于, 该收集单元还包括一数字节拍器, 用于分 析歌曲的 BPM 值, 作为该歌曲的演进节奏特征。
21: 如权利要求 17 所述的系统, 其特征在于, 该收集单元通过 UGC 方式收集用户为多首 歌曲设置的用户标签。
22: 如权利要求 13 所述的系统, 其特征在于, 该数据处理单元进一步包括 : 用户数据存储管理模块, 用于接收用户终端针对歌曲进行的操作数据, 并据以生成用 户行为数据, 该用户行为数据包括操作时间标签、 操作次数标签和歌曲子特征标签 ; 相似度计算模块, 基于相似度计算对该用户行为数据进行聚类计算, 得到多个结果标 签; 用户口味发现模块, 包括加权处理模块、 归一化模块以及用户口味模型选择模块, 该加 权处理模块用于对该用户行为数据的操作次数依据其所处时段进行加权处理, 越临近当前 时刻的时段权重越高, 该归一化模块用于针对加权处理后的该用户行为数据进行归一化处 理, 该用户口味模型选择模块用于对该多个结果标签进行排列组合, 调用该相似度计算模 块将该归一化后的用户行为数据依次与每种排列组合进行多维相似度计算, 根据该计算结 果得到用户口味, 并从用户口味中选取用户口味模型 ; 推荐过滤模块, 用于根据该用户口味模型与其它歌曲的相似度, 将相似度符合特定要 求的歌曲作为推荐内容。
23: 如权利要求 22 所述的系统, 其特征在于, 该系统还包括一模型训练演进模块, 该模 型训练演进模块包括一权重调整模块以及一模型调整模块, 该权重调整模块用于针对该用 户行为数据, 计算各维度的子特征标签的聚集比例, 根据该聚集比例调整该维度特征的权 重, 聚集比例越高, 权重值越高, 该模型调整模块用于根据历史用户行为数据或用户终端针 对音乐推荐服务器推荐的歌曲的反馈操作, 根据预定规则调整该用户口味模型。

说明书


一种歌曲推荐方法及系统

    【技术领域】
     本发明涉及一种音乐数据处理服务, 尤其涉及一种歌曲推荐方法及系统。背景技术 对歌曲音频文件的结构化标注将有助于歌曲的传播、 搜索、 推荐等针对音频文件 的扩展引申功能的实现。
     在现有技术中, 用户可以自主的针对歌曲进行标注, 即, 为所收藏的歌曲依据用户 的试听感受, 从多个角度设置标签, 以标识歌曲的多方面的特征。基于进行过标注的歌曲, 可以根据经过用户认可的一首歌曲, 为该用户推荐与该歌曲类似的其他歌曲。
     具体技术手段包括 :
     步骤 A, 收集用户为歌曲设置的用户标签。
     收集的方式为利用用户终端的客户端插件或者 web 页面。
     步骤 B, 针对所收集的用户标签, 统计针对同一歌曲的用户标签的重合度。
     步骤 C, 选取重合度高的用户标签作为该歌曲的标签 ;
     步骤 D, 根据某一首歌曲, 为用户推荐与该歌曲具有相同标签的其他歌曲。
     但是, 现有技术中存在如下问题 :
     (1) 不同用户对歌曲的标签设置的随意性比较大, 很难保证用户标签的一致性。 即 使对于同一含义, 所采用的具体标签也千差万别, 例如 “好听” 、 “优美” 、 “动听” 。
     (2) 由用户所设置的用户标签的颗粒度无法保持一致。例如, 用户 A 设置 “摇滚” 标签, 而用户 B 针对同一歌曲设置 “民谣摇滚” , 虽然这个两个标签相对近似, 均是正确的, 但是颗粒度不同。
     (3) 由于现有技术基于统计学来计算重合度, 故而, 必须保证统计的样本足够典 型, 进而所需样本数量较高, 才能实现对该用户标签的准确选择。可见该方法缺少普适性, 没有百万级的活跃用户社区无法保证该方法的可靠性。
     (4) 对于所收集的多种重合度高的用户标签, 无法区分其特征权重, 无法在后续计 算中突显出各个用户标签的重要程度。
     (5) 用户收听歌曲的口味通常是随时间变化的, 不但有随着长时间跨度而发生的 缓慢的无周期规律的变化, 而且有按照天、 星期等短时间跨度和应用场景而发生的周期性 变化。例如 : 上个月喜欢听爱情相关的歌曲, 这个月可能就会喜欢听励志歌曲 ; 早上上班路 上喜欢听振奋精神的音乐, 晚上可能会喜欢听悠扬的器乐歌曲。而现有技术无法准确识别 出由于时间变化所带来的用户口味差异, 无法基于时间属性给出相应的推荐内容。
     (6) 用户的口味通常是以固定组合形式出现的, 例如用户可能会喜欢听美国歌手 演唱的乡村音乐和中国歌手演唱的 RAP 音乐。如果仅机械的识别出用户具有乡村音乐和 RAP 音乐的口味, 而忽略了演唱歌手的因素, 为用户推荐了中国或美国歌手演唱的乡村音乐 或者 RAP 音乐, 则将出现噪声推荐数据, 不符合用户的需求, 降低了用户体验度。
     (7) 现有技术还无法根据用户的反馈数据, 调整推荐内容。
     发明内容 本发明解决的技术问题在于, 统一歌曲的标签设置的标准, 保证颗粒度相同, 实现 了依照统一的歌曲标签进行歌曲推荐, 以提高歌曲推荐的准确度。
     更进一步的, 避免了现有技术中需要大量统计学样本才能启动的缺陷。
     更进一步的, 解决了区分不同维度的标签的权重的问题。
     更进一步的, 用于发现与时间相关的用户口味, 并根据该口味为用户推荐符合该 用户口味的歌曲。
     更进一步的, 根据用户对推荐内容的反馈数据进一步调整推荐内容。
     为了解决上述技术问题, 本发明公开了一种歌曲推荐方法, 包括如下步骤 :
     步骤 1, 建立一标签体系, 该标签体系具有至少一个维度特征, 每个维度特征具有 至少一子特征标签 ;
     步骤 2, 为同一维度特征下的任意两个子特征标签之间的相关度赋值 ;
     步骤 3, 分别为每个维度特征设置权重 ;
     步骤 4, 根据该标签体系为歌曲设置该至少一个维度特征的子特征标签 ;
     步骤 5, 针对一首该歌曲的子特征标签, 根据该相关度与该权重, 计算该歌曲与其 它歌曲的相似度, 并将相似度符合特定要求的歌曲作为推荐内容。
     该步骤 5 进一步包括 :
     步骤 11, 根据用户终端针对歌曲的操作生成用户行为数据, 该用户行为数据包括 操作时间标签、 操作次数标签和歌曲子特征标签 ;
     步骤 12, 对该用户行为数据进行聚类计算, 得到多个结果标签 ;
     步骤 13, 对该用户行为数据的操作次数依据其所处时段进行加权处理, 越临近当 前时刻的时段权重越高 ;
     步骤 14, 针对加权处理后的该用户行为数据进行归一化处理 ;
     步骤 15, 对该多个结果标签进行排列组合, 将该归一化后的用户行为数据依次与 每种排列组合进行基于该相关度与该权重的多维相似度计算, 根据该计算结果得到用户口 味, 并从用户口味中选取用户口味模型 ;
     步骤 16, 计算该用户口味模型与其它歌曲的相似度, 将相似度符合特定要求的歌 曲作为推荐内容。
     该操作次数标签包括正向操作的次数以及反向操作的次数。
     步骤 13 的加权处理包括 : 操作次数 * 时段权重系数。
     步骤 12、 13 之间包括步骤 21, 根据预定规则对该用户行为数据进行删除。
     该预定规则包括 : 对于用户终端针对歌曲的操作方式为播放, 且操作次数少于预 定次数的歌曲, 删除该歌曲对应的用户行为数据, 或者, 对应该结果标签的歌曲数量少于预 定数量, 删除对应该结果标签的用户行为数据, 或者, 当该结果标签中的一个与其他结果标 签的相似度小于预定值时, 删除对应该结果标签的用户行为数据。
     步骤 15 中根据该计算结果得到用户口味的步骤进一步包括 :
     对于相似度计算结果超过预定值的排列组合, 视为用户口味 ; 或者,
     对于相似度计算结果未超过预定值的排列组合, 计算不同排列组合在同一维度下
     的不同结果标签之间的相似度, 对于相似度大于预定值的结果标签进行合并, 合并后的结 果标签执行该步骤 5, 如多维相似度计算结果超过预定值, 将该合并后的结果标签所在的排 列组合视为用户口味。
     步骤 15 从该用户口味中选取用户口味模型的步骤进一步包括 :
     判断对应一该用户口味的歌曲数占总歌曲数的比例是否超过一预定值, 如果是, 该用户口味视为用户口味模型 ; 或者, 依次判断对应该用户口味中同一维度标签的每种结 果标签对应的歌曲数占总歌曲数的比例是否超过一预定值, 如果是, 该结果标签视为用户 口味模型 ; 或者, 对于全部 m 个用户口味, 进一步对每个该用户口味依照其对应的歌曲数进 行排序, 排序的前 n 个用户口味所对应的歌曲总数占总歌曲数的比例为 c, 当 c/(n/m) > 4 时, 前 n 个用户口味视为用户口味模型 ; 或者, 将全部用户口味直接视为用户口味模型。
     该相似度计算采用余弦相似度算法或用户协同过滤算法, 该聚类算法也采用余弦 相似度算法。
     步骤 12 之后还包括, 每隔第一预定时间, 循环执行步骤 12-15, 该步骤 12 包括对当 前已生成的全部用户行为数据进行聚类计算。
     步骤 15、 16 之间进一步包括, 每隔第二预定时间, 第二预定时间大于等于第一预 定时间, 循环执行以下步骤 : 针对该用户行为数据, 计算各维度的标签的聚集比例, 根据该聚集比例调整该维 度的标签在计算相似度时的权重, 聚集比例越高, 权重值越高 ;
     根据历史用户行为数据或用户终端针对音乐推荐服务器推荐的歌曲的反馈操作, 依照预定规则调整该用户口味模型。
     该根据该聚集比例调整该维度的标签在计算相似度时的权重的步骤进一步包 括:
     m 为某维度前 20%标签在用户行为数据中的比例, 则权重= m/0.2。
     该根据历史用户行为数据或用户终端针对音乐推荐服务器推荐的歌曲的反馈操 作, 依照预定规则调整该用户口味模型的步骤进一步包括 :
     计算不同时间同一用户的用户口味, 发现用户是否在不同时间具有不同的用户口 味, 如果有在该步骤 16 中根据时间使用不同的用户口味模型进行推荐 ; 和/或
     计算用户行为数据中, 操作方式为播放, 标签为流行的歌曲数占所有操作方式为 播放的歌曲总数的比例, 作为流行追随度 ; 和/或
     计算用户行为数据中, 针对步骤 16 所推荐的全部歌曲, 进行播放的操作方式的比 例, 作为新事物接受度。
     该步骤 16 进一步包括 : 根据该用户口味模型, 计算数据库中所有歌曲与该用户口 味模型的相似度 ; 依照预定的推荐控制策略, 从相似度高于预定值的歌曲中选择推荐歌曲。
     该依照预定的推荐控制策略, 从相似度高于预定值的歌曲中选择推荐歌曲的步骤 进一步包括 :
     根据用户终端的访问时间, 选择与该访问时间对应的用户口味模型所对应的歌 曲; 和/或
     根据该流行追随度, 控制推荐歌曲中流行歌曲的比例 ; 和/或
     根据该新事物接受度, 控制推荐歌曲中与用户已播放过的歌曲的相似度, 该新事
     物接受度越高, 该相似度越低 ; 和/或
     根据预设的特殊事件 / 时间点, 推荐对应的歌曲 ; 和/或
     根据预设的歌曲音质要求, 推荐符合对应音质要求的歌曲 ; 和/或
     根据用户终端的型号, 依据与该用户终端型号相关的用户口味模型进行推荐。
     为了解决上述技术问题, 本发明还公开了一种歌曲推荐系统, 包括多个用户终端 与一歌曲推荐服务器, 该歌曲推荐服务器进一步包括 :
     标签体系建立单元, 用于建立一标签体系, 该标签体系具有至少一个维度特征, 每 个维度特征具有至少一子特征标签 ; 赋值单元, 进一步包括相关度赋值单元与权重赋值单 元, 该相关度赋值单元用于为同一维度特征下的任意两个子特征标签之间的相关度赋值, 该权重赋值单元用于分别为每个维度特征设置权重 ; 标定单元, 用于根据该标签体系为歌 曲设置该至少一个维度特征的子特征标签 ; 数据处理单元, 用于针对一首该歌曲, 利用该歌 曲的子特征标签的该相关度与该权重, 计算该歌曲与其它歌曲的相似度, 并将相似度符合 特定要求的歌曲作为推荐内容。
     该数据处理单元进一步包括 :
     用户数据存储管理模块, 用于接收用户终端针对歌曲进行的操作数据, 并据以生 成用户行为数据, 该用户行为数据包括操作时间标签、 操作次数标签和歌曲子特征标签 ; 相似度计算模块, 基于相似度计算对该用户行为数据进行聚类计算, 得到多个结 果标签 ;
     用户口味发现模块, 包括加权处理模块、 归一化模块以及用户口味模型选择模块, 该加权处理模块用于对该用户行为数据的操作次数依据其所处时段进行加权处理, 越临近 当前时刻的时段权重越高, 该归一化模块用于针对加权处理后的该用户行为数据进行归一 化处理, 该用户口味模型选择模块用于对该多个结果标签进行排列组合, 调用该相似度计 算模块将该归一化后的用户行为数据依次与每种排列组合进行多维相似度计算, 根据该计 算结果得到用户口味, 并从用户口味中选取用户口味模型 ;
     推荐过滤模块, 用于根据该用户口味模型与其它歌曲的相似度, 将相似度符合特 定要求的歌曲作为推荐内容。
     该操作次数标签包括正向操作的次数以及反向操作的次数。
     该用户口味发现模块的加权处理包括 : 操作次数 * 时段权重系数。
     该用户口味发现模块还包括一用户行为数据过滤模块, 该用户行为数据过滤模块 根据预定规则对该用户行为数据进行删除, 该预定规则包括 : 对于用户终端针对歌曲的操 作方式为播放, 且操作次数少于预定次数的歌曲, 删除该歌曲对应的用户行为数据, 或者, 对应该结果标签的歌曲数量少于预定数量, 删除对应该结果标签的用户行为数据, 或者, 当 该结果标签中的一个与其他结果标签的相似度小于预定值时, 删除对应该结果标签的用户 行为数据。
     该用户口味模型选择模块还包括一用户口味取得模块, 用于从调用该相似度计算 模块将该归一化后的用户行为数据依次与每种排列组合进行多维相似度计算后的结果中 取得对应的用户口味 ;
     其中, 对于相似度计算结果超过预定值的排列组合, 视为用户口味 ; 或者,
     对于相似度计算结果未超过预定值的排列组合, 计算不同排列组合在同一维度下
     的不同结果标签之间的相似度, 对于相似度大于预定值的结果标签进行合并, 将合并后的 结果标签发送至该用户口味模型选择模块, 如多维相似度计算结果超过预定值, 将该合并 后的结果标签所在的排列组合视为用户口味。
     该用户口味模型选择模块还包括一用户口味模型取得模块, 用于从用户口味中选 取用户口味模型 ;
     其中, 判断对应该用户口味的歌曲数占总歌曲数的比例是否超过一预定值, 如果 是, 该用户口味视为用户口味模型 ; 或者
     依次判断对应该用户口味中同一维度标签的每种结果标签对应的歌曲数占总歌 曲数的比例是否超过一预定值, 如果是, 该结果标签视为用户口味模型 ; 或者
     对于全部 m 个用户口味, 进一步对每个该用户口味依照其对应的歌曲数进行排 序, 排序的前 n 个用户口味所对应的歌曲总数占总歌曲数的比例为 c, 当 c/(n/m) > 4 时, 前 n 个用户口味视为用户口味模型 ; 或者
     将全部用户口味直接视为用户口味模型。
     该相似度计算采用余弦相似度算法或用户协同过滤算法, 该聚类算法也采用余弦 相似度算法。 该系统还包括一模型训练演进模块, 该模型训练演进模块包括一权重调整模块以 及一模型调整模块, 该权重调整模块用于针对该用户行为数据, 计算各维度的标签的聚集 比例, 根据该聚集比例调整该维度的标签在相似度计算模块中计算相似度时的权重, 聚集 比例越高, 权重值越高, 该模型调整模块用于根据历史用户行为数据或用户终端针对音乐 推荐服务器推荐的歌曲的反馈操作, 根据预定规则调整该用户口味模型。
     该预定规则包括 :
     该权重调整模块计算不同时间同一用户的用户口味, 发现用户是否在不同时间具 有不同的用户口味, 如果有, 在该推荐过滤模块中根据时间使用不同的用户口味模型进行 推荐 ; 和/或
     该权重调整模块计算用户行为数据中, 操作方式为播放, 标签为流行的歌曲数占 所有操作方式为播放的歌曲总数的比例, 作为流行追随度 ; 和/或
     该权重调整模块计算用户行为数据中, 针对该推荐过滤模块所推荐的全部歌曲, 进行播放的操作方式的比例, 作为新事物接受度。
     该推荐过滤模块调用该相似度计算模块计算数据库中所有歌曲与该用户口味模 型的相似度, 并依照预定的推荐控制策略, 从相似度高于预定值的歌曲中选择推荐歌曲。
     该预定的推荐控制策略进一步包括 :
     根据用户终端的访问时间, 选择与该访问时间对应的用户口味模型所对应的歌 曲; 和/或
     根据该流行追随度, 控制推荐歌曲中流行歌曲的比例 ; 和/或
     根据该新事物接受度, 控制推荐歌曲中与用户已播放的歌曲的相似度, 该新事物 接受度越高, 该相似度越低 ; 和/或
     根据预设的特殊事件 / 时间点, 推荐对应的歌曲 ; 和/或
     根据预设的歌曲音质要求, 推荐符合对应音质要求的歌曲 ; 和/或
     根据用户终端的型号, 依据与该用户终端型号相关的用户口味模型进行推荐。
     本发明实现的技术效果在于, 统一了标签体系以及标签的颗粒度, 区分不同维度 的权重。 为用户自主设置的用户标签提供了通用性, 进而提高了歌曲推荐的准确度, 且避免 了现有技术中需要大量统计学样本才能启动的缺陷。 附图说明
     图 1A、 1D 所示为本发明的歌曲推荐系统的结构示意图 ; 图 1B、 1C 所示为本发明的歌曲推荐方法的流程示意图 ; 图 2 所示为本发明的歌曲推荐系统的结构示意图 ; 图 3 所示为本发明的歌曲推荐系统的结构示意图 ; 图 4A、 4B 所示为本发明的歌曲推荐系统的结构示意图 ; 图 5 所示为本发明的歌曲推荐系统的结构示意图 ; 图 6A、 6B 所示为本发明的歌曲推荐系统的结构示意图。具体实施方式
     本发明公开了一种歌曲推荐方法及系统, 用于统一歌曲的标签设置的标准, 保证 颗粒度相同, 据以标识歌曲并进行歌曲推荐, 提高歌曲推荐的准确度。
     在用户终端中, 用户可以自主为歌曲在多个维度上进行标注, 也就是设置用户标 签。每个维度均为用户在音乐感受上容易感知的一个方面的特征, 例如节奏方面、 音色方 面、 旋律方面等。不同用户在设置用户标签时, 采取的维度虽然有些出入或差别, 但大体是 相近似或相同的。可以说, 存在多数用户普遍采用的维度。
     请参阅图 1A、 1D 所示为本发明的歌曲推荐系统的结构示意图。
     至少一个用户终端 1 通过网络与音乐推荐服务器 2 连接。用户终端 1 可为 PC 机、 手机、 PDA、 平板电脑、 车载移动终端等。音乐推荐服务器 2 包括数据处理单元 20、 标定单元 30、 标签体系建立单元 40、 赋值单元 50 和收集单元 60。
     标签体系建立单元 40 用于建立一标签体系, 该标签体系具有至少一个维度特征, 每个维度特征具有至少一子特征标签。即, 对所有的歌曲均采用相同的一套维度进行标签 的设置。
     标签体系建立单元 40 所确立的该维度特征至少包括 : 音乐风格流派的特征、 歌曲 的配器特征、 歌曲的编曲特征、 歌曲的演进节奏特征、 歌手演唱的嗓音特征、 歌曲整体氛围 特征、 歌曲的表达主题特征、 歌曲的多声部特征、 歌曲的年代特征、 歌曲演唱语言特征、 歌曲 的地域特征、 歌手的性别特征或歌手的活跃年代特征。
     标签体系建立单元 40 的具体操作方式包括 :
     第一种方式 : 标签体系建立单元 40 中预先存储有该输入的一套维度特征及其子 特征标签。
     第二种方式 : 通过对用户标签的分析提取而获得。
     多个用户终端 1 为歌曲设置的用户标签通过网络发送至该音乐推荐服务器 2, 由 该音乐推荐服务器 2 在为每个用户划分的存储空间中, 存储每个用户为歌曲设置的用户标 签。收集单元 60 收集这些来自不同用户终端的用户标签。收集单元 60 可以通过 UGC(User Generated Content) 方式进行收集。 对于收集单元 60 所收集到的用户标签, 标签体系建立单元 40 进行聚类计算, 对用户标签进行初步的依照其聚集程度的划分。对于聚类计算得到 的多个用户标签, 可利用现有的语意识别工具, 确定该多个用户标签各自对应的上位语意, 作为该维度特征。
     或者, 标签体系建立单元 40 还包括一人机接口模块, 用于供管理员根据该初步的 聚类结果, 确立该具体的维度特征。
     另外, 管理员还可利用该人机接口模块对每个该维度特征下所包括的子特征标签 进行明确限定, 将多种不同命名统一为一种最常见的形式。或是, 标签体系建立单元 40 直 接将通过聚类计算得到的聚集程度最高的用户标签作为子特征标签。
     例如, 对于音乐风格流派的特征这一维度特征, 对于同一含义可能存在多种用户 标签, 包括 neoclassic, 也 neo-classic, neo_calssic, neo-calssical、 neoclassical、 新 古典等, 但是, 通过该人机接口模块可确定音乐风格流派的一子特征标签为 neoclassical, 或者, 通过聚类计算的结果而自动设定 neoclassical 为子特征标签。
     赋值单元 50, 进一步包括相关度赋值单元 51 与权重赋值单元 52。根据已经确定 的维度特征及其子特征标签, 利用相关度赋值单元 51 为同一维度特征下的任意两个子特 征标签进行相关度的赋值。 例如, 歌曲的配器特征里, 子特征标签包括双簧管、 单簧管、 唢呐、 吉他、 钢琴、 贝 斯, 同为木管乐器, 音色相近的单簧管与双簧管之间的相关度高, 利用赋值单元 50 将二者 的相关度赋值为 75( 相关度赋值例如有五种 100, 75, 50, 25, 0)。而钢琴和唢呐音色之间的 相关度就可以定义为无, 对应的赋值为 0。
     赋值单元 50 可包括一人机接口模块, 用于供管理员设定该相关度的赋值。
     或者, 相关度赋值单元 51 预先存储现有的相关度的设定, 例如现有技术中知名流 行音乐网站 allmusic 有关音乐体系的相关度划分, 进行该多个维度特征下的任意两个子 特征标签的相关度赋值。
     另外, 权重赋值单元 52 还用于分别为每个维度特征设置权重。权重赋值单元 52 包括一计算模块 521 与一确定模块 522, 计算模块 521 计算所收集的用户标签类别的分布比 例。即, 该计算模块 521 先对所收集的用户标签进行聚类操作, 然后根据标签体系里每一维 度在该聚类操作中计算得到的分布比例来确定权重。确定模块 522 根据该分布比例, 确定 该类别所对应的维度特征的权重。其中, 分布比例越高, 权重越大。
     或者, 赋值单元 50 利用该人机接口模块, 由管理员调整该权重值。
     基于当前已经建立的标签体系, 为每首歌曲设定标签。
     该标定单元 30, 用于根据该标签体系为所有歌曲设置该至少一个维度特征的子特 征标签。
     在实际应用中, 在用户终端一侧, 用户为大量没有统一设置标签的歌曲自主的设 置了用户标签, 故而, 将歌曲已经设置有用户标签自动映射到当前的标签体系中, 改变了用 户各自为政的局面, 将纷繁芜杂各不相同的用户标签统一起来, 则增加了后续在搜索 / 分 享等领域操作的通用性。
     通过对用户标签的分析汇总, 该标定单元 30 中预先存储有一映射规则表, 其中记 载了每个子特征标签所可能对应的多个用户标签。对于收集单元 60 所收集的用户标签, 依 次输送到该该标定单元 30, 通过搜索该映射规则表, 找到该用户标签所对应的子特征标签,
     则将每个用户所设定的用户标签映射到了该标签体系内。 如果某一用户标签根本不隶属于 上述任一维度之下, 也不存在对应的子特征标签, 则该用户标签被过滤, 不进行后续操作。 即, 独立存在于该标签体系之外的用户标签不作为后续相似度计算以及推荐歌曲操作的基 础。
     或者, 标定单元 30 将标签体系发送至该用户终端一侧, 使得用户终端在进行标签 设置时, 即在该标签体系内进行标注, 并将标注结果发送回服务器一侧。
     或者, 标定单元 30 具有人机接口模块, 由管理员为歌曲进行各维度的子特征标签 的设定。
     更进一步的, 音乐推荐服务器 2 针对所接收到的不同用户对同一歌曲设置的标 签, 进行汇总, 通过一预定规则确定其中一种设置方式作为该歌曲的标签。该预定规则包 括, 被最多用户选择的设置方式作为该歌曲的标签。
     基于上述建立的标签体系以及映射规则, 则无需大量统计学样本也可启动后续的 相似度计算。少量的用户标签也可映射到该标签体系中来, 进行后续计算, 为用户推荐歌 曲。
     数据处理单元 20 用于计算歌曲之间的相似度, 特别是针对一首歌曲的子特征标 签, 根据标签体系中的该相关度与该权重, 计算该歌曲与其它歌曲的相似度, 并将相似度符 合特定要求的歌曲作为推荐内容。 该计算相似度的具体过程包括 :
     歌曲 A 和歌曲 B 在某维度特征下的对应的子特征标签分别为 :
     Taga1、 Taga2…… Tagam
     Tagb1、 Tagb2…… Tagbn
     那么 A、 B 两首歌在这个维度特征上对应的相似得分为
     Sim(A, B) =
     (Taga1*Tagb1+Taga1*Tagb2+…… +Taga1*Tagbn+Taga2*Tagb1+Taga2*Tag b2+…… +Taga2*Tagbn+…… +Tagam*Tagb 1+Tagam*Tagb2+…… +Tagam*Tagbn)/m*n
     Taga1*Tagb1、 Taga1*Tagb2……Tagam*Tagbn 表示两个标签之间的相关度, 可以在 赋值单元 50 中取得相应数值。
     Sim(A, B) =∑ w at ∑ sim(atA, atB)
     sim(atA, atB) 为每一维度特征对应的相似度, w at 为每一维度特征对应的权重, 可以在赋值单元 50 中取得相应数值。
     基于以上方案, 参阅图 1B、 1C, 为本发明的歌曲推荐方法的流程示意图。
     步骤 1, 建立一标签体系, 该标签体系具有至少一个维度特征, 每个维度特征具有 至少一子特征标签 ;
     步骤 2, 为同一维度特征下的任意两个子特征标签之间的相关度赋值 ;
     步骤 3, 分别为每个维度特征设置权重 ;
     步骤 4, 根据该标签体系为所有歌曲设置该至少一个维度特征的子特征标签 ;
     步骤 5, 针对一首该歌曲, 利用该歌曲的子特征标签的该相关度与该权重, 计算该 歌曲与其它歌曲的相似度, 并将相似度符合特定要求的歌曲作为推荐内容。
     其中, 该步骤 3 进一步包括 :
     步骤 301, 收集用户终端为多首歌曲设置的用户标签 ;
     步骤 302, 计算所收集的用户标签的类别的分布比例 ;
     步骤 303, 根据该分布比例, 确定该类别所对应的维度特征的权重。
     该步骤 4 进一步包括 : 根据预定映射规则, 为每首歌曲确定与该用户标签对应的 该标签体系内的子特征标签。
     利用上述歌曲推荐方法, 用户在用户终端所操作的歌曲信息可发送至该音乐推荐 服务器 2, 音乐推荐服务器 2 将根据用户所设定用户标签为用户选择推荐内容。 由于多个用 户所设置的用户标签均被映射至固定的标签体系中, 故而, 即使用户针对同一歌曲所设置 的用户标签都各不相同, 音乐推荐服务器可以将各个用户标签转换至统一的标签体系, 并 针对某一用户所操作的某一歌曲, 在其他所有用户已经标注过用户标签的歌曲中进行相似 度的匹配计算。 即, 由于其他用户为不同歌曲进行了用户标签的设置, 则使得大部分歌曲已 经被用户进行了人工的筛检, 根据歌曲在旋律、 音色、 节奏、 主题等方面确定了相应的用户 标签。 再通过映射规则使得各个该用户标签的颗粒度一致, 标签的维度范围一致, 保证了后 续相似度计算的一致性基础。
     在一优化的实施例中, 该维度特征包括主子特征标签以及从子特征标签。 例如, 当 一首摇滚歌曲中加入了古典的歌剧花腔段落, 则在音乐风格流派这一维度特征中, 摇滚为 主要风格流派, 歌剧为从属风格流派。则摇滚为主子特征标签, 歌剧为从子特征标签。 主子特征标签以及从子特征标签在后续相似度计算中分别依照 Sim(A, B) 的计算 公式进行与其他歌曲的相似度计算, 但是, 主子特征标签所占比重略高。例如, 相似度结果 =主子特征标签的计算结果 *70% + 从子特征标签的计算结果 *30%。该 70%与 30%的权 重仅为示例, 其他权重值也在本发明的范围内。
     通常情况下, 音乐风格流派的特征、 歌曲的配器特征、 歌曲整体氛围特征这三个维 度特征需要进行主从划分。
     参阅图 2 所示为本发明的歌曲推荐系统的结构示意图。
     在一优化的实施例中, 收集单元 60 还包括一过滤模块 61, 用于从所收到的用户标 签中, 统计针对同一首歌曲设置同一用户标签的用户数量, 如果该用户数量小于预定值, 该 用户标签被过滤。 即, 不同用户针对同一歌曲的标签的设置应该趋于近似, 如果对一歌曲出 现某种非常少量的用户标签, 则该种用户标签可视为噪声, 不将其作为后续标签映射、 相似 度计算的基础。
     在一优化的实施例中, 收集单元 60 还包括一数字节拍器 62, 用于分析歌曲的 BPM(beats per minute) 值, 提供至该标定单元 30 以作为该歌曲的演进节奏特征。
     数字节拍器 62 可对大量歌曲进行批量处理, 流行音乐的 BPM 值一般在 60-150 之 间, 数字节拍器 62 对采集到的歌曲的 BPM 值利用分段函数进行映射, 对 60-150 划分为预定 数量段, 每段对应一个子特征标签, 例如 “快速” 、 “中快” 、 “中速” 、 “中慢” 、 “慢速” 。则根据 一首歌曲的 BPM 值, 可基于数字节拍器 62 而直接获得其对应的演进节奏特征中的子特征标 签。
     因而, 在本发明中, 对于歌曲的标签设置, 既包括用户主观听觉感知方面的标签, 又包括关于客观乐理的标签, 使得标签设置更为合理科学。
     另外, 上述步骤 5 中仅仅通过相似度计算来进行歌曲推荐, 即, 仅根据歌曲本身的
     特征差别进行推荐, 没有顾及到用户的收听口味, 特别是没有顾及到用户口味变化以及与 时间相关的口味变化。 从而无法准确的为用户提供符合用户需求的歌曲。 为解决这一问题, 本申请对步骤 5 以及数据处理单元 20 做进一步的扩充。
     如图 3 所示为本发明的歌曲推荐系统的结构示意图。
     数据处理单元 20 包括用户数据存储管理模块 21、 相似度计算模块 22、 用户口味发 现模块 23 以及推荐过滤模块 24。
     用户终端 1 通过有线或无线方式登录音乐推荐服务器 2, 在音乐推荐服务器 2 提供 的界面中进行针对歌曲的操作, 并对应生成操作数据。该歌曲已获得该标签体系内的子特 征标签。
     通常, 对歌曲的操作可包括正向操作或负向操作, 例如播放歌曲、 将歌曲添加入播 放列表、 阅读歌曲的相关资料、 推荐歌曲、 为歌曲评分等为正向操作, 跳过歌曲、 将歌曲从播 放列表中删除等为负向操作。
     用户终端对歌曲进行操作, 对应的操作数据被发送至该音乐推荐服务器 2, 用户数 据存储管理模块 21 用于存储 / 管理该操作数据, 并根据该操作数据对应生成用户行为数 据。该用户行为数据至少包括操作时间标签、 操作次数标签和歌曲子特征标签。用户数据 存储管理模块 21 还用于存储用户终端的环境因素信息, 例如用户终端的型号、 登录音乐推 荐服务器时的地理位置等。该用户行为数据还可以包括环境标签 ( 用户终端的型号、 登录 时的位置等 )。
     关于操作次数标签, 不同的操作可根据一预先设置的数据表对应不同的操作次数 赋值, 可根据一数据表确定。 比如, 进行收听的操作, 其操作次数为 +1, 进行添加至播放列表 的操作, 其操作次数是 +2, 而进行跳过的操作, 其操作次数为 -1。正向操作正向记次, 负向 操作负向记次。其他常用操作也包括在本发明的公开范围内。
     当用户终端收听歌曲 《大海》 并将其加入播放列表时, 用户数据存储管理模块 21 对应生成一条用户行为数据, 其中包括操作时间标签为下午 ( 或 16:00), 操作次数标签为 +3(1+2), 歌曲标签为歌曲 《大海》 的全部子特征标签。
     随后, 相似度计算模块 22 开始针对用户数据存储管理模块 21 当前收集到的所有 用户行为数据进行聚类计算。或者, 相似度计算模块 22 可对一定时间范围内收集到的用户 行为数据进行聚类计算, 例如最近 12 个月内。本领域的技术人员可知, 聚类计算包括相似 度计算, 需基于相似度计算的数据, 实现最终聚类。 该聚类计算利用了现有技术中的常用算 法, 例如 DENCLUE 算法等。相似度计算模块 22 还可执行后续涉及的相似度计算。
     由于用户行为数据均由标签组成, 故而聚类计算将得到针对该用户的多个结果标 签, 可体现出用户的部分操作特点。例如, 结果标签可能包括早晨、 下午、 摇滚、 乡村、 中国、 美国等。由于这些标签频繁出现在用户的操作行为中, 因此这些结果标签将作为确定用户 口味的备选标签。
     用户口味发现模块 23 将基于结果标签以及用户行为数据, 从中发现用户收听歌 曲的口味。该口味就是用户的欣赏偏好, 对于歌曲的选择倾向性。
     如图 4A、 4B 所示为本发明的歌曲推荐系统的结构示意图。
     用户口味发现模块 23 进一步包括加权处理模块 231、 归一化模块 232、 用户口味模 型选择模块 233。加权处理模块 231 针对当前聚类计算所针对的所有用户行为数据, 进行加权处 理。具体处理包括 : 对用户行为数据中的操作次数, 依据其所处时段进行加权处理。加权值 =时间系数 K* 用户行为数据的操作次数。时间系数 K 依下表所示。 “用户行为所在时间范 围” 为该用户行为距离当前时刻的时长, 用户行为处于越临近当前时刻的时段, 其时间系数 ( 权重 ) 越高。下表仅用于示例。
     用户行为所在时间范围 ( 天 ) 时间系数 K
     0 ~ 7( 不含 ) 1
     7 ~ 14( 不含 ) 0.7
     14 ~ 21( 不含 ) 0.4
     21 ~∞ 0.2
     如果该用户发生 3 个用户行为数据, 用户行为数据 A 在 3 天前收听歌曲 《大海》 并 将其加入播放列表, 用户行为数据 B 在 10 天前收听歌曲 《大海》 1 次, 用户行为数据 C 在 20 天前跳过收听歌曲 《大海》 1 次, 则针对用户行为数据 A, 加权值= 1*3 = 3, 针对用户行为数 据 B, 加权值= 0.7*1 = 0.7, 针对用户行为数据 C, 加权值= 0.4*(-1) = -0.4, 则针对 《大 海》 的加权值可累计为 3+0.7-0.4 = 3.3。其他加权处理的方式也可, 例如, 加权值= K*K* 用户行为数据的操作次数。
     由于临近当前时刻的时段的时间系数 K 较大, 故而近期的操作行为会导致该加权 值大幅增加, 可及时体现出用户短时间内的口味, 又由于逐渐远离当前时刻的时段的时间 系数 K 存在渐变降低, 但仍大于 0, 故而加权值中也可以体现出用户长时间内的口味。
     随后, 归一化模块 232 对该加权处理后的该用户行为数据进行归一化处理。
     归一化处理的目的是为了避免用户极大量收听的某歌曲对于收听的其他歌曲产 生绝对压制, 例如 : 一首歌曲由于用户喜欢或者误操作 ( 循环播放 ) 试听了 50 次, 那样将会 极大地影响到后续进行歌曲推荐的结果, 因此需要对该用户行为数据进行归一化。归一化 的方法可参照下表, 但不以此为限。其他归一化方法也在本发明的公开范围中
     编号 1 2 3
     加权后的用户行为值 x 0 < x < 10 10 < x < 100 x > 100 归一值 x/20 lgx/2 1该加权后的用户行为值 X 包括上述的对操作次数加权处理后的加权值。
     例如, 当上述歌曲 《大海》 的加权值累加为 3.3, 则其属于编号 1 的 0 ~ 10 的范围 内, 则归一值为 3.3/20 = 0.0165。该归一值视为对用户行为数据附加的权重, 特别是对于 用户行为数据中的歌曲标签附加了权重。
     该用户口味模型选择模块 233, 对该多个结果标签进行排列组合, 并调用相似度计 算模块 22 将该归一化后的用户行为数据依次与每种排列组合进行多维相似度计算, 根据 该计算结果得到用户口味, 并从用户口味中选取用户口味模型。
     具体来说, 承接上例, 结果标签可能包括早晨、 下午、 摇滚、 乡村、 中国、 美国等。用户口味模型选择模块 233 对所有的结果标签依照维度进行排列组合。早晨、 下午为同一维 度, 摇滚、 乡村为同一维度, 中国、 美国为同一维度, 则每个维度选择一个标签进行排列组 合, 得到的结果例如为, 早晨中国摇滚、 下午中国摇滚、 早晨美国乡村等等。这样, 用户口味 可以以固定组合的方式出现, 更加贴近用户的实际口味。 同时, 还可体现出用户口味在一天 中的变化, 体现出口味与时间属性的关联关系。
     利用该归一化后的用户行为数据依次与每种排列组合进行多维相似度计算。 该归 一化后的用户行为数据由标签组成, 每种排列组合也由标签组成。二者之间的多维相似度 计算可以采用余弦相似度算法, 或者, 用户协同过滤算法。
     本领域的技术人员可以知道, 余弦相似度算法是为了解决具有多维度属性实体间 的相似度而提出的计算模型。可以认为两个实体之间的相似度 S 是两实体的多个维度的相 似度乘以权重后的叠加。
     S = D1*S1+D2*S2+…… +Dn*Sn (1)
     Sn 为两个实体在第 n 维度特征内的相似度, Dn 为第 n 维度特征的权重, Dn 为该权 重赋值单元预先设定。
     在同一维度特征内, 相似度赋值单元为任意两个子特征标签间都设定有确定的相 似度。 例如, 在时间这一维度特征内, 早晨、 下午为不同的子特征标签, 每个子特征标签都有 预先设定的相似度赋值, 这样该维度内任意两个子特征标签之间的相似度可以通过对该相 似度赋值的计算而得到。 而该归一化后的用户行为数据与每种排列组合之间进行的多维相 似度计算, 就是在分别计算每个维度内, 属于用户行为数据的标签与属于排列组合的标签 之间的相似度 Sn, 并进行公式 (1) 的累加计算。 特别是, 该归一化后的用户行为数据还包括该归一值, 其可视为在公式 (1) 的基 础上附加一权重值, 即, S = (D1*S1+D2*S2+…… +Dn*Sn)* 归一值。
     具体的说, 该用户口味模型选择模块 233 包括一用户口味取得模块 2331, 用于依 照预定规则从该多维相似度计算的结果中进行选择, 确定对应的用户口味, 形成用户口味 集合。
     该预定规则包括但不限于 : 从该多维相似度计算的结果中, 选取相似度大于预定 值的结果, 该结果所对应的排列组合, 视为用户口味。或, 对于多维相似度计算结果未超过 预定值的排列组合, 按照标签的维度进行累加, 即计算任意两个该多维相似度计算结果未 超过预定值的排列组合中, 在同一维度下的结果标签之间的相似度, 对于相似度大于一阈 值 ( 例如 0.8) 的两结果标签进行合并, 将合并后的结果标签重新进行排列组合以进行该多 维相似度计算, 如果结果大于该预定值, 同样认定该合并后的结果标签所在的排列组合为 用户口味。
     例如, 由于部分维度划分很细, 造成无法达到门限的情况。 用户在流派这一维度上 同时喜欢硬摇滚、 慢摇滚、 前卫摇滚, 通过上述聚类步骤可以得到硬摇滚、 慢摇滚、 前卫摇滚 这三个结果标签。但是按照这三个结果标签分别进行多维相似度计算都不能达到该预定 值。可见, 由于用户同时喜欢多种摇滚形式, 其同时也分散了对摇滚的相似度计数。此时, 计算硬摇滚、 慢摇滚、 前卫摇滚之间的相似度, 依照前述相似度计算规则, 假设这三者的两 两之间都超过了该阈值, 则此时可将流派这一维度下的这三个结果标签进行合并。 即, 针对 该三个结果标签的用户行为数据可合为一体, 累计计算。将该三个结果标签视为一个整体
     进行后续计算。
     由于将三个结果标签进行了合并, 则在进行上述多维相似度计算时, 对该三个结 果标签分别与其他维度的结果标签进行排列组合, 并进行与用户行为数据之间的相似度计 算, 这三个结果标签的相似度计算值可以累加, 其累加结果可能超过该预定值, 则合并后的 结果标签也可作为用户口味, 也就是说, 这三个结果标签都视为用户口味。
     用户口味体现出了用户操作行为的特点, 可以据以直接为用户推荐歌曲, 或者, 还 可以从中精细挑选用户口味模型。
     更进一步的, 本发明的该用户口味模型选择模块 233 还可以包括一用户口味模型 取得模块 2332, 用于从该已经获得的用户口味中, 依照预定规则挑取用于实际为用户推荐 歌曲的用户口味模型。
     该用户口味模型取得模块 2332 所遵循的预定规则包括, 依次判断用户口味集合 中, 每个用户口味所对应的歌曲数占音乐推荐服务器所存储的总歌曲数的比例是否超过一 预定值 ( 例如 30% ), 如果是, 该用户口味视为用户口味模型。例如, 早上美国乡村为一用 户口味, 判断该用户所操作过的歌曲中, 具有早上美国乡村这一标签的歌曲数, 占总歌曲数 的比例是否超过预定值, 如果超过, 代表该类型歌曲较多, 该用户口味可以作为用户口味模 型。 或者, 在已经获取的用户口味中, 依次统计同一维度特征内每种结果标签所对应 的歌曲占总歌曲数的比例, 如果该比例超过一比例阈值, , 则该结果标签成为用户口味模 型。
     即, 在已经获取的用户口味的范围内, 针对例如地区、 主题、 流派等维度, 逐个维 度进行判断。例如, 在流派维度内, 如果具有流行的标签的歌曲占歌曲总数的 20 %, 摇滚 占 45%, 古典占 20%, 民族占 15%。而该比例阈值例如设定为 30%, 按照上述规则, 摇滚 (45% ) 超过该比例阈值, 则摇滚成为用户在流派纬度上的口味模型。
     或者, 该用户口味模型取得模块 2332, 对于全部 m 个用户口味, 进一步对每个该用 户口味依照其对应的歌曲数进行排序, 排序的前 n 个用户口味所对应的歌曲总数占总歌曲 数的比例为 c, 当 c/(n/m) > 4 时, 前 n 个用户口味视为用户口味模型 ;
     或者, 该用户口味模型取得模块 2332 将所有的用户口味直接作为用户口味模型。
     用户口味模型取得模块 2332 更进一步实现了从众多用户口味中挑选出更符合用 户操作倾向性, 更贴合用户需求的用户口味模型, 以提高推荐的准确性。
     该推荐过滤模块 24, 根据该用户口味发现模块 23 提供的用户口味或者该用户口 味模型, 从音乐推荐服务器所存储的大量歌曲中, 选择符合该用户口味或者该用户口味模 型的歌曲, 推荐给用户。
     基于以上描述, 本发明的歌曲推荐方法的流程包括 :
     步骤 101, 音乐推荐服务器根据用户终端针对歌曲的操作生成用户行为数据, 该用 户行为数据至少包括操作时间标签、 操作次数标签和歌曲子特征标签 ;
     步骤 102, 对该用户行为数据进行聚类计算, 得到多个结果标签 ;
     步骤 103, 对该用户行为数据的操作次数依据其所处时段进行加权处理, 越临近当 前时刻的时段权重越高 ;
     步骤 104, 针对加权处理后的该用户行为数据进行归一化处理 ;
     步骤 105, 对该多个结果标签进行排列组合, 将该归一化后的用户行为数据依次与 每种排列组合进行多维相似度计算, 根据该计算结果得到用户口味, 并从用户口味中选取 用户口味模型 ;
     步骤 106, 音乐推荐服务器根据该用户口味模型, 为用户终端推荐歌曲。
     图 5 所示为本发明的歌曲推荐系统的结构示意图。
     在用户口味发现模块 23 中进一步包括一用户行为数据过滤模块 234。 对应于在步 骤 102 与 103 之间执行一依照预定规则对用户行为数据进行删除的步骤 ( 步骤 1021)。用 于从当前收集的用户行为数据中过滤掉噪声。
     步骤 1021, 对于用户终端针对歌曲的操作方式为播放, 且操作次数少于预定次数 的歌曲, 视为噪声, 删除该歌曲对应的用户行为数据, 或者, 对应该结果标签的歌曲数量少 于预定数量, 视为噪声, 删除对应该结果标签的用户行为数据, 或者, 由于人不可能同时包 括有较大差异的多种口味, 当该结果标签中的一个与其他结果标签的相似度小于预定值时 ( 差异较大 ), 则认为该结果标签是用户的误操作, 删除对应该结果标签的用户行为数据, 不对其进行后续操作, 不将其作为发现用户口味的基础。
     另外, 步骤 102-105 每隔第一预定时间循环依次执行。由于用户不定时执行对歌 曲的操作, 因此, 步骤 101 为不定时执行。步骤 102-105 每隔特定时间循环执行可以不断收 集用户行为数据, 通过加权计算从中分析出用户长时间与短时间内的口味变化, 并最终体 现在自动选取出的用户口味模型中, 以提高为用户推荐歌曲的准确度。在用户不定时登陆 时, 执行步骤 106, 最终实现推荐。
     请参阅图 6A、 6B 所示为本发明的歌曲推荐系统的结构示意图。
     数据处理单元 20 中还可进一步包括一模型训练演进模块 25。该模型训练演进 模块 25 用于根据不断累积的用户历史数据, 自动对用户口味模型做进一步的精确调整, 以 无限接近用户的喜好, 提高后续歌曲推荐与用户需求的匹配度。其对应的步骤执行于步骤 105、 106 之间。
     模型训练演进模块 25 进一步包括权重调整模块 251 以及模型调整模块 252。
     权重调整模块 251 针对当前所生成的该用户行为数据, 计算各维度的标签的聚集 比例, 根据该聚集比例调整该维度的标签在计算相似度时的权重 Sn, 聚集比例越高, 权重值 越高 ( 步骤 1051), 则在下一次循环执行步骤 102、 105 时, 将采用调整后的权重进行计算, 则 在后续选出的用户口味中进一步突出。
     关于聚集比例的计算, 其针对每个维度分别进行。 以流派维度为例, 对预定时间段 内的用户行为数据涉及的流派进行累计, 发现在此预定时间段内用户行为数据共涉及 N 种 流派, 根据经验值 n%, 计算得到一经验数据 N*n%。
     对截止到目前每种流派的试听次数进行累计, 对试听次数进行排序, 提取排序的 前 N*n%种流派, 对前 N*n%种流派的试听次数进行加总得到一加总数据, 计算该加总数据 在总试听数中所占比例, 该比例就是流派这一维度的聚集比例。
     例如, m 为流派这一维度的聚集比例, 则该流派维度的权重 Sn = m/0.2。
     模型调整模块 252 根据历史用户行为数据或用户终端针对音乐推荐服务器推荐 的歌曲的反馈操作, 依照预定规则调整该用户口味模型 ( 步骤 1052)。即, 为后续的推荐操 作, 做更精确的符合用户个人习惯的调整。步骤 1052 的预定规则包括 :
     A、 计算不同时间同一用户的用户口味, 发现用户是否在不同时间具有不同的用户 口味, 如果有, 在该步骤 106 中根据时间使用不同的用户口味模型进行推荐 ; 和/或
     B、 计算用户行为数据中, 操作方式为播放, 标签为流行的歌曲数占所有操作方式 为播放的歌曲总数的比例, 作为用户口味模型的流行追随度 ; 和/或
     C、 计算用户行为数据中, 针对步骤 106 所推荐的全部歌曲, 进行播放的操作方式 的比例, 作为用户口味模型的新事物接受度。
     D、 该预定规则覆盖了用户在各个方面的收听习惯因素, 其他具体规则也在本发明 的公开范围之内。
     其中, 对于预定规则 A, 本发明划分了不同的时间段, 例如 7-9 点为一时间段, 9-18、 18-19、 19-7 各为一时间段。其他时间分段也在本发明的公开范围内。
     首先在各个时间段内分别依照上述方法计算用户口味, 也就是说, 分别收集这四 个时间段中的用户行为数据, 依照图 1B 的方法针对这四个时间段分别收集到的用户行为 数据, 分别进行用户口味的计算。 对于计算出的各个时间段的用户口味, 两两进行重合度或 者相似度计算, 如果两个时间段间的重合度或相似度小于门限 ( 例如 50% ), 视为用户在这 两个时间段中的口味差异较大, 则认定用户在不同时间段需要采用不同的用户口味模型进 行推荐。
     即, 如果差异较大, 则利用每个时间段的用户口味作为用户口味模型, 进行推荐。 如果差异不大, 可利用任一时间段的用户口味作为用户口味模型, 进行推荐。 使得为用户推 荐的歌曲更加符合用户在当时这一时刻的需求。
     步骤 1051、 1052 每隔第二预定时间循环执行一次, 第二预定时间大于等于第一预 定时间。
     推荐过滤模块 24 执行的步骤 106 可进一步执行以下步骤 :
     步骤 1061, 根据该用户口味模型, 计算音乐推荐服务器的数据库中所有歌曲与该 用户口味模型的相似度 ;
     步骤 1062, 依照预定的推荐控制策略, 从相似度高于预定值的歌曲中选择推荐歌 曲。
     该推荐控制策略进一步包括 :
     根据用户终端的访问时间, 选择与该访问时间对应的用户口味模型所对应的歌 曲; 和/或
     根据该流行追随度, 控制推荐歌曲中流行歌曲的比例 ; 和/或
     根据该新事物接受度, 控制推荐歌曲中与用户已播放过的歌曲的相似度, 该新事 物接受度越高, 该相似度越低 ; 和/或
     根据预设的特殊事件 / 时间点, 推荐对应的歌曲 ( 例如, 在国庆节当天或临近几天 内, 推荐 《我爱我的祖国》 等歌曲 ) ; 和/或
     根据预设的歌曲音质要求, 推荐符合对应音质要求的歌曲。
     该推荐控制策略将结合步骤 1052 的预定规则中涉及的调整因素, 具体选择推荐 内容。
     另外, 该推荐控制策略还包括根据用户终端的设备类型 ( 同一用户每次利用不同用户设备 ( 手机、 音响、 电脑 ) 登录音乐推荐服务器 2 时, 均提供当前设备型号 ), 基于用户 针对当前设备类型的口味, 推荐相关歌曲。
     另外, 本发明中计算得到的每个用户的用户口味模型还可用于区分用户群以及为 一用户寻找好友。当不同用户的用户口味模型的相似度大于预定值时, 可将该不同用户划 分至同一群, 或者, 推荐该不同用户互为好友。或者, 利用用户口味模型之间的相似度作为 用户之间的距离, 按照距离进行聚类计算。根据聚类计算的结果划分用户群, 或, 为用户推 荐好友。
     基于以上技术方案, 本发明实现的技术效果在于, 统一了标签体系以及标签的颗 粒度, 区分不同维度的权重。 为用户自主设置的用户标签提供了通用性, 进而提高了歌曲推 荐的准确度, 且避免了现有技术中需要大量统计学样本才能启动的缺陷。
     另外, 本发明还可发掘用户口味, 并体现出与时间相关联的用户口味, 能够体现出 口味组合, 提高所发掘的用户口味的准确度。并自适应的根据用户对推荐内容的反馈数据 调整推荐策略与内容。
     上述为本发明的具体实施例, 并不用于限定本发明的保护范围, 具体保护范围以 后续权利要求为准。

一种歌曲推荐方法及系统.pdf_第1页
第1页 / 共23页
一种歌曲推荐方法及系统.pdf_第2页
第2页 / 共23页
一种歌曲推荐方法及系统.pdf_第3页
第3页 / 共23页
点击查看更多>>
资源描述

《一种歌曲推荐方法及系统.pdf》由会员分享,可在线阅读,更多相关《一种歌曲推荐方法及系统.pdf(23页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102654859 A(43)申请公布日 2012.09.05CN102654859A*CN102654859A*(21)申请号 201110048824.2(22)申请日 2011.03.01G06F 17/30(2006.01)(71)申请人北京彩云在线技术开发有限公司地址 100025 北京市朝阳区建国路71号惠通时代广场A区2号楼102(72)发明人孙武 石建平 赵凌 刘畅(74)专利代理机构北京律诚同业知识产权代理有限公司 11006代理人梁挥 祁建国(54) 发明名称一种歌曲推荐方法及系统(57) 摘要本发明公开了一种歌曲推荐方法及系统,包括如下步骤:步骤。

2、1,建立一标签体系,该标签体系具有至少一个维度特征,每个维度特征具有至少一子特征标签;步骤2,为同一维度特征下的任意两个子特征标签之间的相关度赋值;步骤3,分别为每个维度特征设置权重;步骤4,根据该标签体系为歌曲设置该至少一个维度特征的子特征标签;步骤5,针对一首该歌曲的子特征标签,根据该相关度与该权重,计算该歌曲与其它歌曲的相似度,并将相似度符合特定要求的歌曲作为推荐内容。本发明统一了标签体系以及标签的颗粒度,为用户自主设置的用户标签提供了通用性,进而提高了歌曲推荐的准确度。(51)Int.Cl.权利要求书3页 说明书16页 附图3页(19)中华人民共和国国家知识产权局(12)发明专利申请权。

3、利要求书 3 页 说明书 16 页 附图 3 页1/3页21.一种歌曲推荐方法,其特征在于,包括如下步骤:步骤1,建立一标签体系,该标签体系具有至少一个维度特征,每个维度特征具有至少一子特征标签;步骤2,为同一维度特征下的任意两个子特征标签之间的相关度赋值;步骤3,分别为每个维度特征设置权重;步骤4,根据该标签体系为歌曲设置该至少一个维度特征的子特征标签;步骤5,针对一首该歌曲的子特征标签,根据该相关度与该权重,计算该歌曲与其它歌曲的相似度,并将相似度符合特定要求的歌曲作为推荐内容。2.如权利要求1所述的方法,其特征在于,该维度特征至少包括:音乐风格流派的特征、歌曲的配器特征、歌曲的编曲特征、。

4、歌曲的演进节奏特征、歌手演唱的嗓音特征、歌曲整体氛围特征、歌曲的表达主题特征、歌曲的多声部特征、歌曲的年代特征、歌曲演唱语言特征、歌曲的地域特征、歌手的性别特征或歌手的活跃年代特征。3.如权利要求1所述的方法,其特征在于,该建立标签体系的步骤进一步包括:收集用户为多首歌曲设置的用户标签,对所收集的用户标签进行聚类计算,利用语义识别工具识别出聚类结果的上位语义,作为该维度特征。4.如权利要求1所述的方法,其特征在于,该维度特征包括主子特征标签以及从子特征标签。5.如权利要求1所述的方法,其特征在于,该分别为每个维度特征设置权重的步骤进一步包括:收集用户为多首歌曲设置的用户标签;计算所收集的用户标。

5、签的类别的分布比例;根据该分布比例,确定该类别所对应的维度特征的权重。6.如权利要求1所述的方法,其特征在于,该根据该标签体系为歌曲设置该至少一个维度特征的子特征标签的步骤进一步包括:收集用户为多首歌曲设置的用户标签;根据预定映射规则,为每首歌曲确定与该用户标签对应的该标签体系内的子特征标签。7.如权利要求5或6所述的方法,其特征在于,该收集用户为多首歌曲设置的用户标签的步骤还包括一过滤步骤:统计针对同一首歌曲设置同一用户标签的用户数量,如果该用户数量小于预定值,该用户标签被过滤。8.如权利要求1所述的方法,其特征在于,该根据该标签体系为所有歌曲设置该至少一个维度特征的子特征标签的步骤还包括:。

6、通过数字节拍器分析歌曲的BPM值,作为该歌曲的演进节奏特征的标签。9.如权利要求1所述的方法,其特征在于,通过UGC方式收集用户为多首歌曲设置的用户标签。10.如权利要求1所述的方法,其特征在于,该步骤5进一步包括:步骤11,根据用户终端针对歌曲的操作生成用户行为数据,该用户行为数据包括操作时间标签、操作次数标签和歌曲子特征标签;权 利 要 求 书CN 102654859 A2/3页3步骤12,对该用户行为数据进行聚类计算,得到多个结果标签;步骤13,对该用户行为数据的操作次数依据其所处时段进行加权处理,越临近当前时刻的时段权重越高;步骤14,针对加权处理后的该用户行为数据进行归一化处理;步骤。

7、15,对该多个结果标签进行排列组合,将该归一化后的用户行为数据依次与每种排列组合进行基于该相关度与该权重的多维相似度计算,根据该计算结果得到用户口味,并从用户口味中选取用户口味模型;步骤16,计算该用户口味模型与其它歌曲的相似度,将相似度符合特定要求的歌曲作为推荐内容。11.如权利要求10所述的方法,其特征在于,步骤12之后还包括,每隔第一预定时间,循环执行步骤12-15,该步骤12包括对当前已生成的全部用户行为数据进行聚类计算。12.如权利要求11所述的方法,其特征在于,步骤15、16之间进一步包括,每隔第二预定时间,第二预定时间大于等于第一预定时间,循环执行以下步骤:针对该用户行为数据,计。

8、算各维度的子特征标签的聚集比例,根据该聚集比例调整该维度特征的权重,聚集比例越高,权重值越高;根据历史用户行为数据或用户终端针对所推荐的歌曲的反馈操作,依照预定规则调整该用户口味模型。13.一种歌曲推荐系统,其特征在于,包括多个用户终端与一歌曲推荐服务器,该歌曲推荐服务器进一步包括:标签体系建立单元,用于建立一标签体系,该标签体系具有至少一个维度特征,每个维度特征具有至少一子特征标签;赋值单元,进一步包括相关度赋值单元与权重赋值单元,该相关度赋值单元用于为同一维度特征下的任意两个子特征标签之间的相关度赋值,该权重赋值单元用于分别为每个维度特征设置权重;标定单元,用于根据该标签体系为歌曲设置该至。

9、少一个维度特征的子特征标签;数据处理单元,用于针对一首该歌曲,利用该歌曲的子特征标签的该相关度与该权重,计算该歌曲与其它歌曲的相似度,并将相似度符合特定要求的歌曲作为推荐内容。14.如权利要求13所述的系统,其特征在于,该维度特征至少包括:音乐风格流派的特征、歌曲的配器特征、歌曲的编曲特征、歌曲的演进节奏特征、歌手演唱的嗓音特征、歌曲整体氛围特征、歌曲的表达主题特征、歌曲的多声部特征、歌曲的年代特征、歌曲演唱语言特征、歌曲的地域特征、歌手的性别特征或歌手的活跃年代特征。15.如权利要求13所述的系统,其特征在于,该标签体系建立单元对所收集的用户标签进行聚类计算,利用语义识别工具识别出聚类结果的。

10、上位语义,作为该维度特征。16.如权利要求13所述的系统,其特征在于,该维度特征包括主子特征标签以及从子特征标签。17.如权利要求13所述的系统,其特征在于,该系统还包括一收集单元,用于收集该用户终端为多首歌曲设置的用户标签;该收集单元还包括一过滤模块,用于统计针对同一首歌曲设置同一用户标签的用户数量,如果该用户数量小于预定值,该用户标签被过滤。18.如权利要求17所述的系统,其特征在于,该权重赋值单元包括:权 利 要 求 书CN 102654859 A3/3页4计算模块,用于计算所收集的用户标签的类别的分布比例;确定模块,用于根据该分布比例确定该类别所对应的维度特征的权重。19.如权利要求1。

11、7所述的系统,其特征在于,该标定单元还用于根据预定映射规则,为每首所收集的歌曲确定与该歌曲的用户标签对应的该标签体系内的子特征标签。20.如权利要求17所述的系统,其特征在于,该收集单元还包括一数字节拍器,用于分析歌曲的BPM值,作为该歌曲的演进节奏特征。21.如权利要求17所述的系统,其特征在于,该收集单元通过UGC方式收集用户为多首歌曲设置的用户标签。22.如权利要求13所述的系统,其特征在于,该数据处理单元进一步包括:用户数据存储管理模块,用于接收用户终端针对歌曲进行的操作数据,并据以生成用户行为数据,该用户行为数据包括操作时间标签、操作次数标签和歌曲子特征标签;相似度计算模块,基于相似。

12、度计算对该用户行为数据进行聚类计算,得到多个结果标签;用户口味发现模块,包括加权处理模块、归一化模块以及用户口味模型选择模块,该加权处理模块用于对该用户行为数据的操作次数依据其所处时段进行加权处理,越临近当前时刻的时段权重越高,该归一化模块用于针对加权处理后的该用户行为数据进行归一化处理,该用户口味模型选择模块用于对该多个结果标签进行排列组合,调用该相似度计算模块将该归一化后的用户行为数据依次与每种排列组合进行多维相似度计算,根据该计算结果得到用户口味,并从用户口味中选取用户口味模型;推荐过滤模块,用于根据该用户口味模型与其它歌曲的相似度,将相似度符合特定要求的歌曲作为推荐内容。23.如权利要。

13、求22所述的系统,其特征在于,该系统还包括一模型训练演进模块,该模型训练演进模块包括一权重调整模块以及一模型调整模块,该权重调整模块用于针对该用户行为数据,计算各维度的子特征标签的聚集比例,根据该聚集比例调整该维度特征的权重,聚集比例越高,权重值越高,该模型调整模块用于根据历史用户行为数据或用户终端针对音乐推荐服务器推荐的歌曲的反馈操作,根据预定规则调整该用户口味模型。权 利 要 求 书CN 102654859 A1/16页5一种歌曲推荐方法及系统技术领域0001 本发明涉及一种音乐数据处理服务,尤其涉及一种歌曲推荐方法及系统。背景技术0002 对歌曲音频文件的结构化标注将有助于歌曲的传播、搜。

14、索、推荐等针对音频文件的扩展引申功能的实现。0003 在现有技术中,用户可以自主的针对歌曲进行标注,即,为所收藏的歌曲依据用户的试听感受,从多个角度设置标签,以标识歌曲的多方面的特征。基于进行过标注的歌曲,可以根据经过用户认可的一首歌曲,为该用户推荐与该歌曲类似的其他歌曲。0004 具体技术手段包括:0005 步骤A,收集用户为歌曲设置的用户标签。0006 收集的方式为利用用户终端的客户端插件或者web页面。0007 步骤B,针对所收集的用户标签,统计针对同一歌曲的用户标签的重合度。0008 步骤C,选取重合度高的用户标签作为该歌曲的标签;0009 步骤D,根据某一首歌曲,为用户推荐与该歌曲具。

15、有相同标签的其他歌曲。0010 但是,现有技术中存在如下问题:0011 (1)不同用户对歌曲的标签设置的随意性比较大,很难保证用户标签的一致性。即使对于同一含义,所采用的具体标签也千差万别,例如“好听”、“优美”、“动听”。0012 (2)由用户所设置的用户标签的颗粒度无法保持一致。例如,用户A设置“摇滚”标签,而用户B针对同一歌曲设置“民谣摇滚”,虽然这个两个标签相对近似,均是正确的,但是颗粒度不同。0013 (3)由于现有技术基于统计学来计算重合度,故而,必须保证统计的样本足够典型,进而所需样本数量较高,才能实现对该用户标签的准确选择。可见该方法缺少普适性,没有百万级的活跃用户社区无法保证。

16、该方法的可靠性。0014 (4)对于所收集的多种重合度高的用户标签,无法区分其特征权重,无法在后续计算中突显出各个用户标签的重要程度。0015 (5)用户收听歌曲的口味通常是随时间变化的,不但有随着长时间跨度而发生的缓慢的无周期规律的变化,而且有按照天、星期等短时间跨度和应用场景而发生的周期性变化。例如:上个月喜欢听爱情相关的歌曲,这个月可能就会喜欢听励志歌曲;早上上班路上喜欢听振奋精神的音乐,晚上可能会喜欢听悠扬的器乐歌曲。而现有技术无法准确识别出由于时间变化所带来的用户口味差异,无法基于时间属性给出相应的推荐内容。0016 (6)用户的口味通常是以固定组合形式出现的,例如用户可能会喜欢听美。

17、国歌手演唱的乡村音乐和中国歌手演唱的RAP音乐。如果仅机械的识别出用户具有乡村音乐和RAP音乐的口味,而忽略了演唱歌手的因素,为用户推荐了中国或美国歌手演唱的乡村音乐或者RAP音乐,则将出现噪声推荐数据,不符合用户的需求,降低了用户体验度。0017 (7)现有技术还无法根据用户的反馈数据,调整推荐内容。说 明 书CN 102654859 A2/16页6发明内容0018 本发明解决的技术问题在于,统一歌曲的标签设置的标准,保证颗粒度相同,实现了依照统一的歌曲标签进行歌曲推荐,以提高歌曲推荐的准确度。0019 更进一步的,避免了现有技术中需要大量统计学样本才能启动的缺陷。0020 更进一步的,解决。

18、了区分不同维度的标签的权重的问题。0021 更进一步的,用于发现与时间相关的用户口味,并根据该口味为用户推荐符合该用户口味的歌曲。0022 更进一步的,根据用户对推荐内容的反馈数据进一步调整推荐内容。0023 为了解决上述技术问题,本发明公开了一种歌曲推荐方法,包括如下步骤:0024 步骤1,建立一标签体系,该标签体系具有至少一个维度特征,每个维度特征具有至少一子特征标签;0025 步骤2,为同一维度特征下的任意两个子特征标签之间的相关度赋值;0026 步骤3,分别为每个维度特征设置权重;0027 步骤4,根据该标签体系为歌曲设置该至少一个维度特征的子特征标签;0028 步骤5,针对一首该歌曲。

19、的子特征标签,根据该相关度与该权重,计算该歌曲与其它歌曲的相似度,并将相似度符合特定要求的歌曲作为推荐内容。0029 该步骤5进一步包括:0030 步骤11,根据用户终端针对歌曲的操作生成用户行为数据,该用户行为数据包括操作时间标签、操作次数标签和歌曲子特征标签;0031 步骤12,对该用户行为数据进行聚类计算,得到多个结果标签;0032 步骤13,对该用户行为数据的操作次数依据其所处时段进行加权处理,越临近当前时刻的时段权重越高;0033 步骤14,针对加权处理后的该用户行为数据进行归一化处理;0034 步骤15,对该多个结果标签进行排列组合,将该归一化后的用户行为数据依次与每种排列组合进行。

20、基于该相关度与该权重的多维相似度计算,根据该计算结果得到用户口味,并从用户口味中选取用户口味模型;0035 步骤16,计算该用户口味模型与其它歌曲的相似度,将相似度符合特定要求的歌曲作为推荐内容。0036 该操作次数标签包括正向操作的次数以及反向操作的次数。0037 步骤13的加权处理包括:操作次数*时段权重系数。0038 步骤12、13之间包括步骤21,根据预定规则对该用户行为数据进行删除。0039 该预定规则包括:对于用户终端针对歌曲的操作方式为播放,且操作次数少于预定次数的歌曲,删除该歌曲对应的用户行为数据,或者,对应该结果标签的歌曲数量少于预定数量,删除对应该结果标签的用户行为数据,或。

21、者,当该结果标签中的一个与其他结果标签的相似度小于预定值时,删除对应该结果标签的用户行为数据。0040 步骤15中根据该计算结果得到用户口味的步骤进一步包括:0041 对于相似度计算结果超过预定值的排列组合,视为用户口味;或者,0042 对于相似度计算结果未超过预定值的排列组合,计算不同排列组合在同一维度下说 明 书CN 102654859 A3/16页7的不同结果标签之间的相似度,对于相似度大于预定值的结果标签进行合并,合并后的结果标签执行该步骤5,如多维相似度计算结果超过预定值,将该合并后的结果标签所在的排列组合视为用户口味。0043 步骤15从该用户口味中选取用户口味模型的步骤进一步包括。

22、:0044 判断对应一该用户口味的歌曲数占总歌曲数的比例是否超过一预定值,如果是,该用户口味视为用户口味模型;或者,依次判断对应该用户口味中同一维度标签的每种结果标签对应的歌曲数占总歌曲数的比例是否超过一预定值,如果是,该结果标签视为用户口味模型;或者,对于全部m个用户口味,进一步对每个该用户口味依照其对应的歌曲数进行排序,排序的前n个用户口味所对应的歌曲总数占总歌曲数的比例为c,当c/(n/m)4时,前n个用户口味视为用户口味模型;或者,将全部用户口味直接视为用户口味模型。0045 该相似度计算采用余弦相似度算法或用户协同过滤算法,该聚类算法也采用余弦相似度算法。0046 步骤12之后还包括。

23、,每隔第一预定时间,循环执行步骤12-15,该步骤12包括对当前已生成的全部用户行为数据进行聚类计算。0047 步骤15、16之间进一步包括,每隔第二预定时间,第二预定时间大于等于第一预定时间,循环执行以下步骤:0048 针对该用户行为数据,计算各维度的标签的聚集比例,根据该聚集比例调整该维度的标签在计算相似度时的权重,聚集比例越高,权重值越高;0049 根据历史用户行为数据或用户终端针对音乐推荐服务器推荐的歌曲的反馈操作,依照预定规则调整该用户口味模型。0050 该根据该聚集比例调整该维度的标签在计算相似度时的权重的步骤进一步包括:0051 m为某维度前20标签在用户行为数据中的比例,则权重。

24、m/0.2。0052 该根据历史用户行为数据或用户终端针对音乐推荐服务器推荐的歌曲的反馈操作,依照预定规则调整该用户口味模型的步骤进一步包括:0053 计算不同时间同一用户的用户口味,发现用户是否在不同时间具有不同的用户口味,如果有在该步骤16中根据时间使用不同的用户口味模型进行推荐;和/或0054 计算用户行为数据中,操作方式为播放,标签为流行的歌曲数占所有操作方式为播放的歌曲总数的比例,作为流行追随度;和/或0055 计算用户行为数据中,针对步骤16所推荐的全部歌曲,进行播放的操作方式的比例,作为新事物接受度。0056 该步骤16进一步包括:根据该用户口味模型,计算数据库中所有歌曲与该用户。

25、口味模型的相似度;依照预定的推荐控制策略,从相似度高于预定值的歌曲中选择推荐歌曲。0057 该依照预定的推荐控制策略,从相似度高于预定值的歌曲中选择推荐歌曲的步骤进一步包括:0058 根据用户终端的访问时间,选择与该访问时间对应的用户口味模型所对应的歌曲;和/或0059 根据该流行追随度,控制推荐歌曲中流行歌曲的比例;和/或0060 根据该新事物接受度,控制推荐歌曲中与用户已播放过的歌曲的相似度,该新事说 明 书CN 102654859 A4/16页8物接受度越高,该相似度越低;和/或0061 根据预设的特殊事件/时间点,推荐对应的歌曲;和/或0062 根据预设的歌曲音质要求,推荐符合对应音质。

26、要求的歌曲;和/或0063 根据用户终端的型号,依据与该用户终端型号相关的用户口味模型进行推荐。0064 为了解决上述技术问题,本发明还公开了一种歌曲推荐系统,包括多个用户终端与一歌曲推荐服务器,该歌曲推荐服务器进一步包括:0065 标签体系建立单元,用于建立一标签体系,该标签体系具有至少一个维度特征,每个维度特征具有至少一子特征标签;赋值单元,进一步包括相关度赋值单元与权重赋值单元,该相关度赋值单元用于为同一维度特征下的任意两个子特征标签之间的相关度赋值,该权重赋值单元用于分别为每个维度特征设置权重;标定单元,用于根据该标签体系为歌曲设置该至少一个维度特征的子特征标签;数据处理单元,用于针对。

27、一首该歌曲,利用该歌曲的子特征标签的该相关度与该权重,计算该歌曲与其它歌曲的相似度,并将相似度符合特定要求的歌曲作为推荐内容。0066 该数据处理单元进一步包括:0067 用户数据存储管理模块,用于接收用户终端针对歌曲进行的操作数据,并据以生成用户行为数据,该用户行为数据包括操作时间标签、操作次数标签和歌曲子特征标签;0068 相似度计算模块,基于相似度计算对该用户行为数据进行聚类计算,得到多个结果标签;0069 用户口味发现模块,包括加权处理模块、归一化模块以及用户口味模型选择模块,该加权处理模块用于对该用户行为数据的操作次数依据其所处时段进行加权处理,越临近当前时刻的时段权重越高,该归一化。

28、模块用于针对加权处理后的该用户行为数据进行归一化处理,该用户口味模型选择模块用于对该多个结果标签进行排列组合,调用该相似度计算模块将该归一化后的用户行为数据依次与每种排列组合进行多维相似度计算,根据该计算结果得到用户口味,并从用户口味中选取用户口味模型;0070 推荐过滤模块,用于根据该用户口味模型与其它歌曲的相似度,将相似度符合特定要求的歌曲作为推荐内容。0071 该操作次数标签包括正向操作的次数以及反向操作的次数。0072 该用户口味发现模块的加权处理包括:操作次数*时段权重系数。0073 该用户口味发现模块还包括一用户行为数据过滤模块,该用户行为数据过滤模块根据预定规则对该用户行为数据进。

29、行删除,该预定规则包括:对于用户终端针对歌曲的操作方式为播放,且操作次数少于预定次数的歌曲,删除该歌曲对应的用户行为数据,或者,对应该结果标签的歌曲数量少于预定数量,删除对应该结果标签的用户行为数据,或者,当该结果标签中的一个与其他结果标签的相似度小于预定值时,删除对应该结果标签的用户行为数据。0074 该用户口味模型选择模块还包括一用户口味取得模块,用于从调用该相似度计算模块将该归一化后的用户行为数据依次与每种排列组合进行多维相似度计算后的结果中取得对应的用户口味;0075 其中,对于相似度计算结果超过预定值的排列组合,视为用户口味;或者,0076 对于相似度计算结果未超过预定值的排列组合,。

30、计算不同排列组合在同一维度下说 明 书CN 102654859 A5/16页9的不同结果标签之间的相似度,对于相似度大于预定值的结果标签进行合并,将合并后的结果标签发送至该用户口味模型选择模块,如多维相似度计算结果超过预定值,将该合并后的结果标签所在的排列组合视为用户口味。0077 该用户口味模型选择模块还包括一用户口味模型取得模块,用于从用户口味中选取用户口味模型;0078 其中,判断对应该用户口味的歌曲数占总歌曲数的比例是否超过一预定值,如果是,该用户口味视为用户口味模型;或者0079 依次判断对应该用户口味中同一维度标签的每种结果标签对应的歌曲数占总歌曲数的比例是否超过一预定值,如果是,。

31、该结果标签视为用户口味模型;或者0080 对于全部m个用户口味,进一步对每个该用户口味依照其对应的歌曲数进行排序,排序的前n个用户口味所对应的歌曲总数占总歌曲数的比例为c,当c/(n/m)4时,前n个用户口味视为用户口味模型;或者0081 将全部用户口味直接视为用户口味模型。0082 该相似度计算采用余弦相似度算法或用户协同过滤算法,该聚类算法也采用余弦相似度算法。0083 该系统还包括一模型训练演进模块,该模型训练演进模块包括一权重调整模块以及一模型调整模块,该权重调整模块用于针对该用户行为数据,计算各维度的标签的聚集比例,根据该聚集比例调整该维度的标签在相似度计算模块中计算相似度时的权重,。

32、聚集比例越高,权重值越高,该模型调整模块用于根据历史用户行为数据或用户终端针对音乐推荐服务器推荐的歌曲的反馈操作,根据预定规则调整该用户口味模型。0084 该预定规则包括:0085 该权重调整模块计算不同时间同一用户的用户口味,发现用户是否在不同时间具有不同的用户口味,如果有,在该推荐过滤模块中根据时间使用不同的用户口味模型进行推荐;和/或0086 该权重调整模块计算用户行为数据中,操作方式为播放,标签为流行的歌曲数占所有操作方式为播放的歌曲总数的比例,作为流行追随度;和/或0087 该权重调整模块计算用户行为数据中,针对该推荐过滤模块所推荐的全部歌曲,进行播放的操作方式的比例,作为新事物接受。

33、度。0088 该推荐过滤模块调用该相似度计算模块计算数据库中所有歌曲与该用户口味模型的相似度,并依照预定的推荐控制策略,从相似度高于预定值的歌曲中选择推荐歌曲。0089 该预定的推荐控制策略进一步包括:0090 根据用户终端的访问时间,选择与该访问时间对应的用户口味模型所对应的歌曲;和/或0091 根据该流行追随度,控制推荐歌曲中流行歌曲的比例;和/或0092 根据该新事物接受度,控制推荐歌曲中与用户已播放的歌曲的相似度,该新事物接受度越高,该相似度越低;和/或0093 根据预设的特殊事件/时间点,推荐对应的歌曲;和/或0094 根据预设的歌曲音质要求,推荐符合对应音质要求的歌曲;和/或009。

34、5 根据用户终端的型号,依据与该用户终端型号相关的用户口味模型进行推荐。说 明 书CN 102654859 A6/16页100096 本发明实现的技术效果在于,统一了标签体系以及标签的颗粒度,区分不同维度的权重。为用户自主设置的用户标签提供了通用性,进而提高了歌曲推荐的准确度,且避免了现有技术中需要大量统计学样本才能启动的缺陷。附图说明0097 图1A、1D所示为本发明的歌曲推荐系统的结构示意图;0098 图1B、1C所示为本发明的歌曲推荐方法的流程示意图;0099 图2所示为本发明的歌曲推荐系统的结构示意图;0100 图3所示为本发明的歌曲推荐系统的结构示意图;0101 图4A、4B所示为本。

35、发明的歌曲推荐系统的结构示意图;0102 图5所示为本发明的歌曲推荐系统的结构示意图;0103 图6A、6B所示为本发明的歌曲推荐系统的结构示意图。具体实施方式0104 本发明公开了一种歌曲推荐方法及系统,用于统一歌曲的标签设置的标准,保证颗粒度相同,据以标识歌曲并进行歌曲推荐,提高歌曲推荐的准确度。0105 在用户终端中,用户可以自主为歌曲在多个维度上进行标注,也就是设置用户标签。每个维度均为用户在音乐感受上容易感知的一个方面的特征,例如节奏方面、音色方面、旋律方面等。不同用户在设置用户标签时,采取的维度虽然有些出入或差别,但大体是相近似或相同的。可以说,存在多数用户普遍采用的维度。0106。

36、 请参阅图1A、1D所示为本发明的歌曲推荐系统的结构示意图。0107 至少一个用户终端1通过网络与音乐推荐服务器2连接。用户终端1可为PC机、手机、PDA、平板电脑、车载移动终端等。音乐推荐服务器2包括数据处理单元20、标定单元30、标签体系建立单元40、赋值单元50和收集单元60。0108 标签体系建立单元40用于建立一标签体系,该标签体系具有至少一个维度特征,每个维度特征具有至少一子特征标签。即,对所有的歌曲均采用相同的一套维度进行标签的设置。0109 标签体系建立单元40所确立的该维度特征至少包括:音乐风格流派的特征、歌曲的配器特征、歌曲的编曲特征、歌曲的演进节奏特征、歌手演唱的嗓音特征。

37、、歌曲整体氛围特征、歌曲的表达主题特征、歌曲的多声部特征、歌曲的年代特征、歌曲演唱语言特征、歌曲的地域特征、歌手的性别特征或歌手的活跃年代特征。0110 标签体系建立单元40的具体操作方式包括:0111 第一种方式:标签体系建立单元40中预先存储有该输入的一套维度特征及其子特征标签。0112 第二种方式:通过对用户标签的分析提取而获得。0113 多个用户终端1为歌曲设置的用户标签通过网络发送至该音乐推荐服务器2,由该音乐推荐服务器2在为每个用户划分的存储空间中,存储每个用户为歌曲设置的用户标签。收集单元60收集这些来自不同用户终端的用户标签。收集单元60可以通过UGC(User Generated Content)方式进行收集。对于收集单元60所收集到的用户标签,标签体系建立说 明 书CN 102654859 A10。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1