情感关键词提取方法及系统.pdf

上传人:Y0****01 文档编号:1281620 上传时间:2018-04-12 格式:PDF 页数:15 大小:553.50KB
返回 下载 相关 举报
摘要
申请专利号:

CN201010216812.1

申请日:

2010.07.01

公开号:

CN101963972A

公开日:

2011.02.02

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20110202|||实质审查的生效IPC(主分类):G06F 17/30申请日:20100701|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

深港产学研基地产业发展中心; 深圳北科瑞声科技有限公司; 北京理工大学深圳研究院

发明人:

王苗; 谢湘; 刘轶; 黄石磊

地址:

518057 广东省深圳市南山区南区深港产学研基地大楼西座W400室

优先权:

专利代理机构:

广州华进联合专利商标代理有限公司 44224

代理人:

何平

PDF下载: PDF下载
内容摘要

本发明提供了一种情感关键词提取方法及系统,所述方法包括:从歌词库中获取歌词;对所述歌词进行预处理,得到处理后的歌词文本;获取基于情感分类模型对所述歌词文本的情感程度标注;根据所述情感程度标注统计歌词文本中的词的词频度;根据所述词频度提取情感关键词。本发明提供的方法及系统能应用在音乐情感识别中,从而提高音乐情感识别的效果。

权利要求书

1: 一种情感关键词提取方法, 包括以下步骤 : 从歌词库中获取歌词 ; 对所述歌词进行预处理, 得到处理后的歌词文本 ; 获取基于情感分类模型对所述歌词文本的情感程度标注 ; 根据所述情感程度标注统计歌词文本中的词的词频度 ; 根据所述词频度提取情感关键词。
2: 根据权利要求 1 所述的情感关键词提取方法, 其特征在于, 所述对歌词数据进行预 处理的步骤具体是 : 将歌词分为两组以上, 对每组歌词基于情感分类模型的压力维度的两类情感进行情感 平衡化选曲, 使得每组歌词中均衡的包含两类情感 ; 提取每组中歌词的歌名, 对所述歌名进行随机排序 ; 按照歌名的排序结果将每组中歌名对应的歌词拼接成歌词文本。
3: 根据权利要求 2 所述的情感关键词提取方法, 其特征在于, 获取基于情感分类模型 对歌词文本的情感程度标注的步骤包括 : 获取两个以上的用户按照情感分类模型的压力维度对每个歌词文本进行的类别打分, 所述打分对应于歌词的类别强度。
4: 根据权利要求 3 所述的情感关键词提取方法, 其特征在于, 所述情感分类模型的压 力维度的两类情感包括快乐类和悲伤类 ; 所述根据情感程度标注统计歌词文本中的词的词频度的步骤具体是 : 根据所述类别强度确定歌词所属类别 ; 对同一歌词计算其类别强度的平均值 ; 将歌词所属类别为快乐类的歌词的类别强度平均值与预设快乐强度阈值比较, 提取类 别强度平均值大于所述预设快乐强度阈值的歌词, 生成快乐类歌词库 ; 将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲伤强度阈值比较, 提取类 别强度平均值小于所述预设悲伤强度阈值的歌词, 生成悲伤类歌词库 ; 分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理, 利用词频统计工具, 统 计所有词的词频度。
5: 根据权利要求 4 所述的情感关键词提取方法, 其特征在于, 在根据词频度提取情感 关键词的步骤之前还包括 : 去除快乐类歌词库和悲伤类歌词库中词频度小于等于预设词频 度阈值的词以及预先设定的非情感类词语, 分别生成快乐类词频度表和悲伤类词频度表。
6: 根据权利要求 5 所述的情感关键词提取方法, 其特征在于, 所述根据词频度提取情 感关键词的步骤具体是 : 分别获取每个词在快乐类词频表中的词频度和在悲伤类词频表中的词频度 ; 定义快乐和悲伤两个模糊集 ; 分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶属度及属于 悲伤模糊集的隶属度 ; 根据所述隶属度分别计算快乐类词频表和悲伤类词频表中每个词的模糊熵 ; 根据所述模糊熵提取情感关键词。
7: 根据权利要求 6 所述的情感关键词提取方法, 其特征在于, 所述根据模糊熵提取情 2 感关键词的步骤具体是 : 从所述快乐类词频表中提取模糊熵小于等于预设第一阈值的词为 快乐类情感关键词, 从所述悲伤类词频表中提取模糊熵小于等于预设第二阈值的词为悲伤 类情感关键词。
8: 一种情感关键词提取系统, 其特征在于, 包括 : 歌词获取模块, 用于从歌词库中获取歌词 ; 预处理模块, 对所述歌词进行预处理, 得到处理后的歌词文本 ; 标注模块, 获取基于情感分类模型对所述歌词文本的情感程度标注 ; 词频统计模块, 根据所述情感程度标注统计歌词文本中的词的词频度 ; 提取模块, 根据所述词频度提取情感关键词。
9: 根据权利要求 8 所述的情感关键词提取系统, 其特征在于, 所述预处理模块包括 : 分类模块, 将歌词分为两组以上, 对每组歌词基于情感分类模型的压力维度的两类情 感进行情感平衡化选曲, 使得每组歌词中均衡的包含两类情感 ; 排序模块, 提取每组中歌词的歌名, 对所述歌名进行随机排序 ; 歌词文本生成模块, 按照歌名的排序结果将每组中歌名对应的歌词拼接成歌词文本。
10: 根据权利要求 9 所述的情感关键词提取系统, 其特征在于, 所述标注模块进一步用 于根据情感分类模型的压力维度设置歌词的类别强度, 获取两个以上的用户按照情感分类 模型的压力维度对每个歌词文本进行的类别打分, 所述打分对应于歌词的类别强度。
11: 根据权利要求 10 所述的情感关键词提取系统, 其特征在于, 所述情感分类模型的 压力维度的两类情感包括快乐类和悲伤类 ; 所述词频统计模块包括 : 均值计算模块, 根据所述类别强度确定歌词所属类别, 并对同一歌词计算其类别强度 的平均值 ; 快乐类歌词库生成模块, 将歌词所属类别为快乐类的歌词的类别强度平均值与预设快 乐强度阈值比较, 提取类别强度平均值大于所述预设快乐强度阈值的歌词, 生成快乐类歌 词库 ; 悲伤类歌词库生成模块, 将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲 伤强度阈值比较, 提取类别强度平均值小于所述预设悲伤强度阈值的歌词 ; 词频度统计模块, 分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理, 利用 词频统计工具, 统计所有词的词频度。
12: 根据权利要求 11 所述的情感关键词提取系统, 其特征在于, 还包括 : 词频度表生成模块, 用于去除所述快乐类歌词库和悲伤类歌词库中词频度小于等于预 设词频度阈值的词以及预先设定的非情感类词语, 分别生成快乐类词频度表和悲伤类词频 度表。
13: 根据权利要求 12 所述的情感关键词提取系统, 其特征在于, 所述提取模块包括 : 词频度获取模块, 用于分别获取每个词在快乐类词频表的词频度和在悲伤类词频表中 的词频度 ; 模糊集定义模块, 定义快乐和悲伤两个模糊集 ; 隶属度计算模块, 分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集 的隶属度及属于悲伤模糊集的隶属度 ; 模糊熵计算模块, 根据所述隶属度分别计算快乐类词频表和悲伤类词频表中每个词的 3 模糊熵 ; 关键词提取模块, 根据所述模糊熵提取情感关键词。
14: 根据权利要求 13 所述的情感关键词提取系统, 其特征在于, 所述关键词提取模块 进一步用于从所述快乐类词频表中提取模糊熵小于等于预设第一阈值的词为快乐类情感 关键词, 从所述悲伤类词频表中提取模糊熵小于等于预设第二阈值的词为悲伤类情感关键 词。

说明书


情感关键词提取方法及系统

    【技术领域】
     本发明涉及信息处理技术领域, 尤其涉及一种情感关键词提取方法及系统。 【背景技术】
     音乐作为多媒体信息资源, 在人们的生活中非常重要。 充分利用已有的音乐资源, 实现基于内容的音乐检索与分类技术已经成为近年的研究热点。 情感内涵是音乐的本质属 性, 利用计算机辅助人利用情感感知音乐是唯一可以精确表示自身需要的方式, 可以有效 的实现自然的人机交互, 其在 3G 娱乐类业务中有广阔的应用前景。
     除了音乐本身之外, 文字诗词等文本中也含有强烈的情感, 我们可以通过文字来 表达情感, 例如日记、 日志等。而一首歌曲除了音乐内容可以表达作者的情绪外, 更需要透 过歌词来表达歌曲所要带给听众的感受。因此在音乐情感识别中, 除了可通过音乐内容来 对情感进行识别外, 还能结合歌词提高识别效果, 因此要提高音乐识别效果, 从歌词中提取 情感关键词是必不可少的。 【发明内容】
     基于此, 有必要提供一种情感关键词提取方法, 能应用于音乐情感识别中并提高 识别效果。
     一种情感关键词提取方法, 包括以下步骤 : 从歌词库中获取歌词 ; 对所述歌词进 行预处理, 得到处理后的歌词文本 ; 获取基于情感分类模型对所述歌词文本的情感程度标 注; 根据所述情感程度标注统计歌词文本中的词的词频度 ; 根据所述词频度提取情感关键 词。
     优选的, 所述对歌词数据进行预处理的步骤具体是 : 将歌词分为两组以上, 对每组 歌词基于情感分类模型的压力维度的两类情感进行情感平衡化选曲, 使得每组歌词中均衡 的包含两类情感 ; 提取每组中歌词的歌名, 对所述歌名进行随机排序 ; 按照歌名的排序结 果将每组中歌名对应的歌词拼接成歌词文本。
     优选的, 获取基于情感分类模型对歌词文本的情感程度标注的步骤包括 : 获取两 个以上的用户按照情感分类模型的压力维度对每个歌词文本进行的类别打分, 所述打分对 应于歌词的类别强度。
     优选的, 所述情感分类模型的压力维度的两类情感包括快乐类和悲伤类 ; 所述根 据情感程度标注统计歌词文本中的词的词频度的步骤具体是 : 根据所述类别强度确定歌词 所属类别 ; 对同一歌词计算其类别强度的平均值 ; 将歌词所属类别为快乐类的歌词的类别 强度平均值与预设快乐强度阈值比较, 提取类别强度平均值大于所述预设快乐强度阈值的 歌词, 生成快乐类歌词库 ; 将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲伤 强度阈值比较, 提取类别强度平均值小于所述预设悲伤强度阈值的歌词, 生成悲伤类歌词 库; 分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理, 利用词频统计工具, 统计 所有词的词频度。优选的, 在根据词频度提取情感关键词的步骤之前还包括 : 去除快乐类歌词库和 悲伤类歌词库中词频度小于等于预设词频度阈值的词以及预先设定的非情感类词语, 分别 生成快乐类词频度表和悲伤类词频度表。
     优选的, 所述根据词频度提取情感关键词的步骤具体是 : 分别获取每个词在快乐 类词频表中的词频度和在悲伤类词频表中的词频度 ; 定义快乐和悲伤两个模糊集 ; 分别计 算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶属度及属于悲伤模糊集 的隶属度 ; 根据所述隶属度分别计算快乐类词频表和悲伤类词频表中每个词的模糊熵 ; 根 据所述模糊熵提取情感关键词。
     优选的, 所述根据模糊熵提取情感关键词的步骤具体是 : 从所述快乐类词频表中 提取模糊熵小于等于预设第一阈值的词为快乐类情感关键词, 从所述悲伤类词频表中提取 模糊熵小于等于预设第二阈值的词为悲伤类情感关键词。
     此外, 还有必要提供一种情感关键词提取系统, 能应用于音乐情感识别中并提高 识别效果。
     一种情感关键词提取系统, 包括 : 歌词获取模块, 用于从歌词库中获取歌词 ; 预处 理模块, 对所述歌词进行预处理, 得到处理后的歌词文本 ; 标注模块, 获取基于情感分类模 型对所述歌词文本的情感程度标注 ; 词频统计模块, 根据所述情感程度标注统计歌词文本 中的词的词频度 ; 提取模块, 根据所述词频度提取情感关键词。 优选的, 所述预处理模块包括 : 分类模块, 将歌词分为两组以上, 对每组歌词基于 情感分类模型的压力维度的两类情感进行情感平衡化选曲, 使得每组歌词中均衡的包含两 类情感 ; 排序模块, 提取每组中歌词的所属歌曲名, 对所述歌曲名进行随机排序 ; 歌词文本 生成模块, 按照歌曲名的排序结果将每组相应的歌词拼接成歌词文本。
     优选的, 所述标注模块进一步用于根据情感分类模型的压力维度设置歌词的类别 强度, 获取两个以上的用户按照情感分类模型的压力维度对每个歌词文本进行的类别打 分, 所述打分对应于歌词的类别强度。
     优选的, 所述情感分类模型的压力维度的两类情感包括快乐类和悲伤类 ; 所述词 频统计模块包括 : 均值计算模块, 根据所述类别强度确定歌词所属类别, 并对同一歌词计算 其类别强度的平均值 ; 快乐类歌词库生成模块, 将歌词所属类别为快乐类的歌词的类别强 度平均值与预设快乐强度阈值比较, 提取类别强度平均值大于所述预设快乐强度阈值的歌 词, 生成快乐类歌词库 ; 悲伤类歌词库生成模块, 将歌词所属类别为悲伤类的歌词的类别强 度平均值与预设悲伤强度阈值比较, 提取类别强度平均值小于所述预设悲伤强度阈值的歌 词; 词频度统计模块, 分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理, 利用词 频统计工具, 统计所有词的词频度。
     优选的, 还包括 : 词频度表生成模块, 用于去除所述快乐类歌词库和悲伤类歌词库 中词频度小于等于预设词频度阈值的词以及预先设定的非情感类词语, 分别生成快乐类词 频度表和悲伤类词频度表。
     优选的, 所述提取模块包括 : 词频度获取模块, 用于分别获取每个词在快乐类词频 表的词频度和在悲伤类词频表中的词频度 ; 模糊集定义模块, 定义快乐和悲伤两个模糊集 ; 隶属度计算模块, 分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶 属度及属于悲伤模糊集的隶属度 ; 模糊熵计算模块, 根据所述隶属度分别计算快乐类词频
     表和悲伤类词频表中每个词的模糊熵 ; 关键词提取模块, 根据所述模糊熵提取情感关键词。
     优选的, 所述关键词提取模块进一步用于从所述快乐类词频表中提取模糊熵小于 等于预设第一阈值的词为快乐类情感关键词, 从所述悲伤类词频表中提取模糊熵小于等于 预设第二阈值的词为悲伤类情感关键词。
     上述情感关键词提取方法及系统, 通过对歌词进行预处理以及基于情感分类模型 对歌词文本进行情感程度标注, 根据歌词的情感程度标注统计其中的词的词频度, 从而能 够提取歌词中的情感关键词 ; 该方法及系统简单明确, 能应用于音乐情感识别中, 从而提高 音乐情感的识别效果。 【附图说明】
     图 1 为一个实施例中情感关键词提取方法的流程图 ;
     图 2 为一个实施例中对歌词数据进行预处理的方法流程图 ;
     图 3 为一个实施例中情感分类模型的示意图 ;
     图 4 为一个实施例中提取情感关键词的方法流程图 ;
     图 5 为一个实施例中隶属度与模糊熵的关系图 ;
     图 6 为一个实施例中情感关键词提取系统的结构示意图 ; 图 7 为一个实施例中预处理模块的结构示意图 ; 图 8 为一个实施例中词频统计模块的结构示意图 ; 图 9 为一个实施例中提取模块的结构示意图。【具体实施方式】
     如图 1 所示, 一种情感关键词提取方法, 具体过程如下 :
     步骤 S10, 从歌词库中获取歌词。可以应不同的需求构建不同规模的歌词库, 歌词 库中的数据为 IRC 格式的歌词文本。在一个实施例中, 构建的歌词库中包含 568 个歌词文 本。
     步骤 S20, 对歌词进行预处理, 得到处理后的歌词文本。 在一个实施例中, 如图 2 所 示, 步骤 S20 的具体过程为 :
     步骤 S201, 将歌词分为两组以上, 对每组歌词基于情感分类模型的压力维度的两 类情感进行情感平衡化选曲, 使得每组歌词中均衡的包含两类情感。图 3 为 Thayer 情感分 类模型的示意图, 其中, 其横轴压力维度从快乐到悲伤, 纵轴压力维度从平静到活力。在一 个实施例中, 根据歌词的总数将歌词分为两组以上, 每组歌词的数量尽量均衡, 例如对于歌 词库中的 568 个歌词, 可分为 3 组, 分别为 190 个、 190 个和 188 个。 对每组歌词基于 Thayer 情感分类模型的压力维度的两类情感进行情感平衡化选曲, 优选的是基于横轴压力维度的 两类情感即快乐类情感和悲伤类情感进行情感平衡化选曲, 使得每组歌词中均衡的包含快 乐和悲伤这两类情感。
     步骤 S202, 提取每组中歌词的歌名, 对歌名进行随机排序。
     步骤 S203, 按照歌名的排序结果将每组中歌名对应的歌词拼接成歌词文本。对歌 词库中的 568 个歌词文本, 分组时均衡的分为 3 组, 则拼接成歌词文本后得到 3 个歌词文 本, 每个歌词文本中相邻的两首歌词之间加入一行星号进行相隔。步骤 S30, 获取基于情感分类模型对歌词文本的情感程度标注。该实施例中, 根 据 Thayer 情感分类模型的横轴压力维度设置歌词的类别强度, 获取两个以上的用户按照 Thayer 情感分类模型的横轴压力维度对每个歌词文本中的歌词进行的类别打分, 类别打分 即对应于歌词的类别强度。优选的, 获取 8 位用户的类别打分, 即每个歌词文本中的歌词都 由 8 位用户进行类别打分。如图 3 所示, 根据 Thayer 情感分类模型的横轴压力维度, 设置 供用户进行类别打分的评测表如表 1 所示 :
     表1
     其中, “-2” 、 “-1” 、 “0” 、 “1” 、 “2” 都为设置的类别强度, 若用户对类别强度为 “-2” 打勾, 则该歌词为悲伤类歌词, 且其类别强度为 “2” ; 若用户对类别强度为 “0” 打勾, 则表明 该歌词很难区分两类, 即很难区分快乐类和悲伤类。
     步骤 S40, 根据情感程度标注统计歌词文本中的词的词频度。在一个实施例中, 步 骤 S40 的具体过程包括 :
     (1) 根据类别强度确定歌词所属类别。如上所述, 类别强度为 “-2” 或 “-1” , 则为 悲伤类 ; 类别强度为 “1” 或 “2” , 则为快乐类 ; 类别强度为 “0” , 则该歌曲既不属于快乐类也 不属于悲伤类。
     (2) 对同一歌词计算其类别强度的平均值。 对于第 i 个歌词文本, 设获取到 8 位用 户对它的情感程度标注, 标注的类别强度分别为 : x1、 x2...x8, 则该歌词的类别强度的平均 值的计算公式为 :
     Xi = (x1+x2+......+x8)/8
     其中, Xi 为歌词在某类情感中的情感程度。若 Xi > 0, 表示该歌词属于快乐类, 其 数值大小即反映其快乐程度。反之, 若 Xi < 0, 则表示该歌词属于悲伤类, 其数值的绝对值 大小反映其悲伤程度。
     (3) 将歌词所属类别为快乐类的歌词的类别强度平均值与预设快乐强度阈值比 较, 提取类别强度平均值大于预设快乐强度阈值的歌词, 生成快乐类歌词库。当获取到 8 位 用户对歌词的类别打分后, 对于快乐类歌词, 以平均值的最小值为准, 当 8 位用户中 6 个人 的打分结果均为 “1” , 另两个人的打分结果均为 “-2” , 则计算得到 Xi 为 0.25, 因此预设的快 乐强度阈值为 0.25。提取所有歌词中所属类别为快乐类且类别强度平均值大于 0.25 的歌 词, 生成快乐类歌词库。
     (4) 将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲伤强度阈值比 较, 提取类别强度平均值小于预设悲伤强度阈值的歌词, 生成悲伤类歌词库。 对于悲伤类歌 词, 以平均值的最大值为准, 当 8 位用户中 6 个人的打分结果均为 “-1” , 另两个人的打分结 果均为 “2” , 则计算得到 Xi 为 -0.25, 因此预设悲伤强度阈值为 -0.25。提取所有歌词中所 属类别为悲伤类且类别强度平均值小于 -0.25 的歌词, 生成悲伤类歌词库。
     (5) 分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理, 利用词频统计 工具, 统计其中所有词的词频度, 词频度即为词在歌词中出现的次数。在一个实施例中, 统 计词频度之后, 去除快乐类歌词库和悲伤类歌词库中词频度小于预设词频度阈值的词以及 预先设定的非情感类词语。优选的, 词频度阈值设定为 2, 非情感类词语为与情感无关的助 词和副词等, 例如 “的” 、 “之” 、 “着” 、 “吗” 、 “什么” 等等。去除这些词后, 分别生成快乐类词 频度表和悲伤类词频度表, 其中, 快乐类词频度表中记录了快乐类词库中的词与其词频度 的对应关系, 悲伤类词频度表记录了悲伤类词库中的词与其词频度的对应关系。
     步骤 S50, 根据词频度提取情感关键词。 在一个实施例中, 如图 4 所示, 步骤 S50 的 具体过程为 :
     步骤 S501, 分别获取每个词在快乐类词频表中的词频度和在悲伤类词频表中的词 频度。设上述得到的快乐类词频表为表 X, 悲伤类词频表为表 Y。对于快乐类词频表 X 中的 每个词, Xi1 为第 i 个词在快乐类词频表 X 中的词频度, Xi2 为该词在悲伤类词频表 Y 中的词 频度。同理, 对于悲伤类词频表 Y 中的每个词, Yj1 为第 j 个词在悲伤类词频表 X 中的词频 度, Yj2 为该词在快乐类词频表中的词频度。
     步骤 S502, 定义快乐和悲伤两个模糊集。 定义的两个模糊集分别为 { 快乐 } 和 { 悲 伤 }。
     步骤 S503, 分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊 集的隶属度及属于悲伤模糊集的隶属度。对于快乐类词频表 X 中的每个词, 第 i 个词属 于模糊集 { 快乐 } 的隶属度为 : 其属于模糊集 { 悲伤 } 的隶属度为 :同理, 对于悲伤类词频表 Y 中的每个词, 第 j 个词属于模糊集 { 快乐 } 的隶属度为 :其术语模糊集 { 悲伤 } 的隶属度为 :并满足条件 : 0 ≤ u ≤ 1, u 为隶属度, 规定当 u = 0 时, ulog2u = 0。
     步 骤 S504 中, 根据隶属度分别计算快乐类词频表和悲伤类词频表 中 每 个 词 的 模 糊 熵。 在 快 乐 类 词 频 表 X 中, 第i个词的模糊熵的计算公式 由 于 因 此 有:为:同理, 在悲伤类词频表 Y 中, 第 j 个词的模糊熵为 :
     步骤 S505 中, 根据模糊熵提取情感关键词。图 5 示出了一个实施例中计算得到的 或者 取值越靠近曲线两端时, 模糊熵 H隶属度和模糊熵的关系, 由图 5 可知, 当隶属度越小, 即不确定性越小, 模糊熵 H 越小, 则表明该词在快乐类情感和悲伤类情感中的词频度9101963972 A CN 101963973说明书或者6/7 页相差越大, 所以该词可以对这两类情感起到区分作用。反之, 隶属度取值在中间0.5 左右时, 模糊熵 H 越小, 不确定性越大, 表明该词在两类情感中的词频度相近, 所以该词 对两类情感的区分起不到什么作用。
     在一个实施例中, 从快乐类词频表中提取模糊熵小于等于预设第一阈值的词为快 乐类情感关键词, 从悲伤类词频表中提取模糊熵小于等于预设第二阈值的词为悲伤类情感 关键词。该实施例中, 预先设定某个词在快乐类词频表和悲伤类词频表的两个词频度值之 比大于等于 2 时, 则认为该词可以对区分两类情感起到作用。因此, 对于快乐类词频表, 当 Xi1 = 2Xi2 时, 同理, 对于悲伤类词频表, 当 Yj1 = 2Yj2 时, 可得因此第一阈值和第二阈值可设定为 0.9183。从快乐类词频表 X 中提取模糊 熵小于等于 0.9183 的词以及从悲伤类词频表 Y 中提取模糊熵小于等于 0.9183 的词, 从而 得到快乐类和悲伤类这两类情感的关键词表。 所得到的情感关键词表能够应用在音乐情感 识别中, 从而提高音乐情感的识别效果。
     如图 6 所示, 一种情感关键词提取系统, 包括歌词获取模块 10、 预处理模块 20、 标 注模块 30、 词频统计模块 40 和提取模块 50, 其中 : 歌词获取模块 10 用于从歌词库中获取歌 词; 预处理模块 20 用于对歌词进行预处理, 得到处理后的歌词文本 ; 标注模块 30 用于获取 基于情感分类模型对歌词文本的情感程度标注 ; 词频统计模块 40 用于根据情感程度标注 统计歌词文本中的词的词频度 ; 提取模块 50 用于根据词频度提取情感关键词。 如图 7 所示, 在一个实施例中, 预处理模块 20 包括分类模块 201、 排序模块 202 和 歌词文本生成模块 203, 其中 : 分类模块 201 用于将歌词分为两组以上, 对每组歌词基于情 感分类模型的压力维度的两类情感进行情感平衡化选曲, 使得每组歌词中均衡的包含两类 情感 ; 排序模块 202 用于提取每组中歌词的歌名, 对所述歌名进行随机排序 ; 歌词文本生成 模块 203 用于按照歌名的排序结果将每组中歌名对应的歌词拼接成歌词文本。
     在一个实施例中, 标注模块 30 进一步用于根据情感分类模型的压力维度设置歌 词的类别强度, 获取两个以上的用户按照情感分类模型的压力维度对每个歌词文本进行的 类别打分, 该打分对应于歌词的类别强度。
     如图 8 所示, 在一个实施例中, 词频统计模块 40 包括均值计算模块 401、 快乐类歌 词库生成模块 402、 悲伤类歌词库生成模块 403 和词频度统计模块 404, 其中 : 均值计算模 块 401 用于根据类别强度确定歌词所属类别, 并对同一歌词计算其类别强度的平均值 ; 快 乐类歌词库生成模块 402 用于将歌词所属类别为快乐类的歌词的类别强度平均值与预设 快乐强度阈值比较, 提取类别强度平均值大于所述预设快乐强度阈值的歌词, 生成快乐类 歌词库 ; 悲伤类歌词库生成模块 403 用于将歌词所属类别为悲伤类的歌词的类别强度平均 值与预设悲伤强度阈值比较, 提取类别强度平均值小于所述预设悲伤强度阈值的歌词 ; 词 频度统计模块 404 用于分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理, 利用 词频统计工具, 统计所有词的词频度。
     在一个实施例中, 该系统还包括词频度表生成模块 ( 图中未示出 ), 用于去除所述 快乐类歌词库和悲伤类歌词库中词频度小于等于预设词频度阈值的词以及预先设定的非 情感类词语, 分别生成快乐类词频度表和悲伤类词频度表。
     如图 9 所示, 在一个实施例中, 提取模块 50 包括词频度获取模块 501、 模糊集定义
     模块 502、 隶属度计算模块 503、 模糊熵计算模块 504 和关键词提取模块 505, 其中 : 词频度 获取模块 501 用于分别获取每个词在快乐类词频表的词频度和在悲伤类词频表中的词频 度; 模糊集定义模块 502 用于定义快乐和悲伤两个模糊集 ; 隶属度计算模块 503 用于分别 计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶属度及属于悲伤模糊 集的隶属度 ; 模糊熵计算模块 504 用于根据所述隶属度分别计算快乐类词频表和悲伤类词 频表中每个词的模糊熵 ; 关键词提取模块 505 用于根据所述模糊熵提取情感关键词。在一 个优选的实施例中, 关键词提取模块 505 进一步用于从快乐类词频表中提取模糊熵小于等 于预设第一阈值的词为快乐类情感关键词, 从悲伤类词频表中提取模糊熵小于等于预设第 二阈值的词为悲伤类情感关键词, 从而得到快乐类和悲伤类这两类情感的关键词表。所得 到的情感关键词表能够应用在音乐情感识别中, 从而提高音乐情感的识别效果。
     以上所述实施例仅表达了本发明的几种实施方式, 其描述较为具体和详细, 但并 不能因此而理解为对本发明专利范围的限制。应当指出的是, 对于本领域的普通技术人员 来说, 在不脱离本发明构思的前提下, 还可以做出若干变形和改进, 这些都属于本发明的保 护范围。因此, 本发明专利的保护范围应以所附权利要求为准。

情感关键词提取方法及系统.pdf_第1页
第1页 / 共15页
情感关键词提取方法及系统.pdf_第2页
第2页 / 共15页
情感关键词提取方法及系统.pdf_第3页
第3页 / 共15页
点击查看更多>>
资源描述

《情感关键词提取方法及系统.pdf》由会员分享,可在线阅读,更多相关《情感关键词提取方法及系统.pdf(15页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN101963972A43申请公布日20110202CN101963972ACN101963972A21申请号201010216812122申请日20100701G06F17/3020060171申请人深港产学研基地产业发展中心地址518057广东省深圳市南山区南区深港产学研基地大楼西座W400室申请人深圳北科瑞声科技有限公司北京理工大学深圳研究院72发明人王苗谢湘刘轶黄石磊74专利代理机构广州华进联合专利商标代理有限公司44224代理人何平54发明名称情感关键词提取方法及系统57摘要本发明提供了一种情感关键词提取方法及系统,所述方法包括从歌词库中获取歌词;对所述歌词进行预处理。

2、,得到处理后的歌词文本;获取基于情感分类模型对所述歌词文本的情感程度标注;根据所述情感程度标注统计歌词文本中的词的词频度;根据所述词频度提取情感关键词。本发明提供的方法及系统能应用在音乐情感识别中,从而提高音乐情感识别的效果。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书3页说明书7页附图4页CN101963973A1/3页21一种情感关键词提取方法,包括以下步骤从歌词库中获取歌词;对所述歌词进行预处理,得到处理后的歌词文本;获取基于情感分类模型对所述歌词文本的情感程度标注;根据所述情感程度标注统计歌词文本中的词的词频度;根据所述词频度提取情感关键词。2根据权利要求1。

3、所述的情感关键词提取方法,其特征在于,所述对歌词数据进行预处理的步骤具体是将歌词分为两组以上,对每组歌词基于情感分类模型的压力维度的两类情感进行情感平衡化选曲,使得每组歌词中均衡的包含两类情感;提取每组中歌词的歌名,对所述歌名进行随机排序;按照歌名的排序结果将每组中歌名对应的歌词拼接成歌词文本。3根据权利要求2所述的情感关键词提取方法,其特征在于,获取基于情感分类模型对歌词文本的情感程度标注的步骤包括获取两个以上的用户按照情感分类模型的压力维度对每个歌词文本进行的类别打分,所述打分对应于歌词的类别强度。4根据权利要求3所述的情感关键词提取方法,其特征在于,所述情感分类模型的压力维度的两类情感包。

4、括快乐类和悲伤类;所述根据情感程度标注统计歌词文本中的词的词频度的步骤具体是根据所述类别强度确定歌词所属类别;对同一歌词计算其类别强度的平均值;将歌词所属类别为快乐类的歌词的类别强度平均值与预设快乐强度阈值比较,提取类别强度平均值大于所述预设快乐强度阈值的歌词,生成快乐类歌词库;将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲伤强度阈值比较,提取类别强度平均值小于所述预设悲伤强度阈值的歌词,生成悲伤类歌词库;分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理,利用词频统计工具,统计所有词的词频度。5根据权利要求4所述的情感关键词提取方法,其特征在于,在根据词频度提取情感关键词的步骤之前还。

5、包括去除快乐类歌词库和悲伤类歌词库中词频度小于等于预设词频度阈值的词以及预先设定的非情感类词语,分别生成快乐类词频度表和悲伤类词频度表。6根据权利要求5所述的情感关键词提取方法,其特征在于,所述根据词频度提取情感关键词的步骤具体是分别获取每个词在快乐类词频表中的词频度和在悲伤类词频表中的词频度;定义快乐和悲伤两个模糊集;分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶属度及属于悲伤模糊集的隶属度;根据所述隶属度分别计算快乐类词频表和悲伤类词频表中每个词的模糊熵;根据所述模糊熵提取情感关键词。7根据权利要求6所述的情感关键词提取方法,其特征在于,所述根据模糊熵提取情权利要求书CN1。

6、01963972ACN101963973A2/3页3感关键词的步骤具体是从所述快乐类词频表中提取模糊熵小于等于预设第一阈值的词为快乐类情感关键词,从所述悲伤类词频表中提取模糊熵小于等于预设第二阈值的词为悲伤类情感关键词。8一种情感关键词提取系统,其特征在于,包括歌词获取模块,用于从歌词库中获取歌词;预处理模块,对所述歌词进行预处理,得到处理后的歌词文本;标注模块,获取基于情感分类模型对所述歌词文本的情感程度标注;词频统计模块,根据所述情感程度标注统计歌词文本中的词的词频度;提取模块,根据所述词频度提取情感关键词。9根据权利要求8所述的情感关键词提取系统,其特征在于,所述预处理模块包括分类模块,。

7、将歌词分为两组以上,对每组歌词基于情感分类模型的压力维度的两类情感进行情感平衡化选曲,使得每组歌词中均衡的包含两类情感;排序模块,提取每组中歌词的歌名,对所述歌名进行随机排序;歌词文本生成模块,按照歌名的排序结果将每组中歌名对应的歌词拼接成歌词文本。10根据权利要求9所述的情感关键词提取系统,其特征在于,所述标注模块进一步用于根据情感分类模型的压力维度设置歌词的类别强度,获取两个以上的用户按照情感分类模型的压力维度对每个歌词文本进行的类别打分,所述打分对应于歌词的类别强度。11根据权利要求10所述的情感关键词提取系统,其特征在于,所述情感分类模型的压力维度的两类情感包括快乐类和悲伤类;所述词频。

8、统计模块包括均值计算模块,根据所述类别强度确定歌词所属类别,并对同一歌词计算其类别强度的平均值;快乐类歌词库生成模块,将歌词所属类别为快乐类的歌词的类别强度平均值与预设快乐强度阈值比较,提取类别强度平均值大于所述预设快乐强度阈值的歌词,生成快乐类歌词库;悲伤类歌词库生成模块,将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲伤强度阈值比较,提取类别强度平均值小于所述预设悲伤强度阈值的歌词;词频度统计模块,分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理,利用词频统计工具,统计所有词的词频度。12根据权利要求11所述的情感关键词提取系统,其特征在于,还包括词频度表生成模块,用于去除所述快乐。

9、类歌词库和悲伤类歌词库中词频度小于等于预设词频度阈值的词以及预先设定的非情感类词语,分别生成快乐类词频度表和悲伤类词频度表。13根据权利要求12所述的情感关键词提取系统,其特征在于,所述提取模块包括词频度获取模块,用于分别获取每个词在快乐类词频表的词频度和在悲伤类词频表中的词频度;模糊集定义模块,定义快乐和悲伤两个模糊集;隶属度计算模块,分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶属度及属于悲伤模糊集的隶属度;模糊熵计算模块,根据所述隶属度分别计算快乐类词频表和悲伤类词频表中每个词的权利要求书CN101963972ACN101963973A3/3页4模糊熵;关键词提取模块,根。

10、据所述模糊熵提取情感关键词。14根据权利要求13所述的情感关键词提取系统,其特征在于,所述关键词提取模块进一步用于从所述快乐类词频表中提取模糊熵小于等于预设第一阈值的词为快乐类情感关键词,从所述悲伤类词频表中提取模糊熵小于等于预设第二阈值的词为悲伤类情感关键词。权利要求书CN101963972ACN101963973A1/7页5情感关键词提取方法及系统【技术领域】0001本发明涉及信息处理技术领域,尤其涉及一种情感关键词提取方法及系统。【背景技术】0002音乐作为多媒体信息资源,在人们的生活中非常重要。充分利用已有的音乐资源,实现基于内容的音乐检索与分类技术已经成为近年的研究热点。情感内涵是音。

11、乐的本质属性,利用计算机辅助人利用情感感知音乐是唯一可以精确表示自身需要的方式,可以有效的实现自然的人机交互,其在3G娱乐类业务中有广阔的应用前景。0003除了音乐本身之外,文字诗词等文本中也含有强烈的情感,我们可以通过文字来表达情感,例如日记、日志等。而一首歌曲除了音乐内容可以表达作者的情绪外,更需要透过歌词来表达歌曲所要带给听众的感受。因此在音乐情感识别中,除了可通过音乐内容来对情感进行识别外,还能结合歌词提高识别效果,因此要提高音乐识别效果,从歌词中提取情感关键词是必不可少的。【发明内容】0004基于此,有必要提供一种情感关键词提取方法,能应用于音乐情感识别中并提高识别效果。0005一种。

12、情感关键词提取方法,包括以下步骤从歌词库中获取歌词;对所述歌词进行预处理,得到处理后的歌词文本;获取基于情感分类模型对所述歌词文本的情感程度标注;根据所述情感程度标注统计歌词文本中的词的词频度;根据所述词频度提取情感关键词。0006优选的,所述对歌词数据进行预处理的步骤具体是将歌词分为两组以上,对每组歌词基于情感分类模型的压力维度的两类情感进行情感平衡化选曲,使得每组歌词中均衡的包含两类情感;提取每组中歌词的歌名,对所述歌名进行随机排序;按照歌名的排序结果将每组中歌名对应的歌词拼接成歌词文本。0007优选的,获取基于情感分类模型对歌词文本的情感程度标注的步骤包括获取两个以上的用户按照情感分类模。

13、型的压力维度对每个歌词文本进行的类别打分,所述打分对应于歌词的类别强度。0008优选的,所述情感分类模型的压力维度的两类情感包括快乐类和悲伤类;所述根据情感程度标注统计歌词文本中的词的词频度的步骤具体是根据所述类别强度确定歌词所属类别;对同一歌词计算其类别强度的平均值;将歌词所属类别为快乐类的歌词的类别强度平均值与预设快乐强度阈值比较,提取类别强度平均值大于所述预设快乐强度阈值的歌词,生成快乐类歌词库;将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲伤强度阈值比较,提取类别强度平均值小于所述预设悲伤强度阈值的歌词,生成悲伤类歌词库;分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理,利用。

14、词频统计工具,统计所有词的词频度。说明书CN101963972ACN101963973A2/7页60009优选的,在根据词频度提取情感关键词的步骤之前还包括去除快乐类歌词库和悲伤类歌词库中词频度小于等于预设词频度阈值的词以及预先设定的非情感类词语,分别生成快乐类词频度表和悲伤类词频度表。0010优选的,所述根据词频度提取情感关键词的步骤具体是分别获取每个词在快乐类词频表中的词频度和在悲伤类词频表中的词频度;定义快乐和悲伤两个模糊集;分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶属度及属于悲伤模糊集的隶属度;根据所述隶属度分别计算快乐类词频表和悲伤类词频表中每个词的模糊熵;根据所。

15、述模糊熵提取情感关键词。0011优选的,所述根据模糊熵提取情感关键词的步骤具体是从所述快乐类词频表中提取模糊熵小于等于预设第一阈值的词为快乐类情感关键词,从所述悲伤类词频表中提取模糊熵小于等于预设第二阈值的词为悲伤类情感关键词。0012此外,还有必要提供一种情感关键词提取系统,能应用于音乐情感识别中并提高识别效果。0013一种情感关键词提取系统,包括歌词获取模块,用于从歌词库中获取歌词;预处理模块,对所述歌词进行预处理,得到处理后的歌词文本;标注模块,获取基于情感分类模型对所述歌词文本的情感程度标注;词频统计模块,根据所述情感程度标注统计歌词文本中的词的词频度;提取模块,根据所述词频度提取情感。

16、关键词。0014优选的,所述预处理模块包括分类模块,将歌词分为两组以上,对每组歌词基于情感分类模型的压力维度的两类情感进行情感平衡化选曲,使得每组歌词中均衡的包含两类情感;排序模块,提取每组中歌词的所属歌曲名,对所述歌曲名进行随机排序;歌词文本生成模块,按照歌曲名的排序结果将每组相应的歌词拼接成歌词文本。0015优选的,所述标注模块进一步用于根据情感分类模型的压力维度设置歌词的类别强度,获取两个以上的用户按照情感分类模型的压力维度对每个歌词文本进行的类别打分,所述打分对应于歌词的类别强度。0016优选的,所述情感分类模型的压力维度的两类情感包括快乐类和悲伤类;所述词频统计模块包括均值计算模块,。

17、根据所述类别强度确定歌词所属类别,并对同一歌词计算其类别强度的平均值;快乐类歌词库生成模块,将歌词所属类别为快乐类的歌词的类别强度平均值与预设快乐强度阈值比较,提取类别强度平均值大于所述预设快乐强度阈值的歌词,生成快乐类歌词库;悲伤类歌词库生成模块,将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲伤强度阈值比较,提取类别强度平均值小于所述预设悲伤强度阈值的歌词;词频度统计模块,分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理,利用词频统计工具,统计所有词的词频度。0017优选的,还包括词频度表生成模块,用于去除所述快乐类歌词库和悲伤类歌词库中词频度小于等于预设词频度阈值的词以及预先设定。

18、的非情感类词语,分别生成快乐类词频度表和悲伤类词频度表。0018优选的,所述提取模块包括词频度获取模块,用于分别获取每个词在快乐类词频表的词频度和在悲伤类词频表中的词频度;模糊集定义模块,定义快乐和悲伤两个模糊集;隶属度计算模块,分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶属度及属于悲伤模糊集的隶属度;模糊熵计算模块,根据所述隶属度分别计算快乐类词频说明书CN101963972ACN101963973A3/7页7表和悲伤类词频表中每个词的模糊熵;关键词提取模块,根据所述模糊熵提取情感关键词。0019优选的,所述关键词提取模块进一步用于从所述快乐类词频表中提取模糊熵小于等于预设。

19、第一阈值的词为快乐类情感关键词,从所述悲伤类词频表中提取模糊熵小于等于预设第二阈值的词为悲伤类情感关键词。0020上述情感关键词提取方法及系统,通过对歌词进行预处理以及基于情感分类模型对歌词文本进行情感程度标注,根据歌词的情感程度标注统计其中的词的词频度,从而能够提取歌词中的情感关键词;该方法及系统简单明确,能应用于音乐情感识别中,从而提高音乐情感的识别效果。【附图说明】0021图1为一个实施例中情感关键词提取方法的流程图;0022图2为一个实施例中对歌词数据进行预处理的方法流程图;0023图3为一个实施例中情感分类模型的示意图;0024图4为一个实施例中提取情感关键词的方法流程图;0025图。

20、5为一个实施例中隶属度与模糊熵的关系图;0026图6为一个实施例中情感关键词提取系统的结构示意图;0027图7为一个实施例中预处理模块的结构示意图;0028图8为一个实施例中词频统计模块的结构示意图;0029图9为一个实施例中提取模块的结构示意图。【具体实施方式】0030如图1所示,一种情感关键词提取方法,具体过程如下0031步骤S10,从歌词库中获取歌词。可以应不同的需求构建不同规模的歌词库,歌词库中的数据为IRC格式的歌词文本。在一个实施例中,构建的歌词库中包含568个歌词文本。0032步骤S20,对歌词进行预处理,得到处理后的歌词文本。在一个实施例中,如图2所示,步骤S20的具体过程为0。

21、033步骤S201,将歌词分为两组以上,对每组歌词基于情感分类模型的压力维度的两类情感进行情感平衡化选曲,使得每组歌词中均衡的包含两类情感。图3为THAYER情感分类模型的示意图,其中,其横轴压力维度从快乐到悲伤,纵轴压力维度从平静到活力。在一个实施例中,根据歌词的总数将歌词分为两组以上,每组歌词的数量尽量均衡,例如对于歌词库中的568个歌词,可分为3组,分别为190个、190个和188个。对每组歌词基于THAYER情感分类模型的压力维度的两类情感进行情感平衡化选曲,优选的是基于横轴压力维度的两类情感即快乐类情感和悲伤类情感进行情感平衡化选曲,使得每组歌词中均衡的包含快乐和悲伤这两类情感。00。

22、34步骤S202,提取每组中歌词的歌名,对歌名进行随机排序。0035步骤S203,按照歌名的排序结果将每组中歌名对应的歌词拼接成歌词文本。对歌词库中的568个歌词文本,分组时均衡的分为3组,则拼接成歌词文本后得到3个歌词文本,每个歌词文本中相邻的两首歌词之间加入一行星号进行相隔。说明书CN101963972ACN101963973A4/7页80036步骤S30,获取基于情感分类模型对歌词文本的情感程度标注。该实施例中,根据THAYER情感分类模型的横轴压力维度设置歌词的类别强度,获取两个以上的用户按照THAYER情感分类模型的横轴压力维度对每个歌词文本中的歌词进行的类别打分,类别打分即对应于歌。

23、词的类别强度。优选的,获取8位用户的类别打分,即每个歌词文本中的歌词都由8位用户进行类别打分。如图3所示,根据THAYER情感分类模型的横轴压力维度,设置供用户进行类别打分的评测表如表1所示0037表100380039其中,“2”、“1”、“0”、“1”、“2”都为设置的类别强度,若用户对类别强度为“2”打勾,则该歌词为悲伤类歌词,且其类别强度为“2”;若用户对类别强度为“0”打勾,则表明该歌词很难区分两类,即很难区分快乐类和悲伤类。0040步骤S40,根据情感程度标注统计歌词文本中的词的词频度。在一个实施例中,步骤S40的具体过程包括00411根据类别强度确定歌词所属类别。如上所述,类别强度。

24、为“2”或“1”,则为悲伤类;类别强度为“1”或“2”,则为快乐类;类别强度为“0”,则该歌曲既不属于快乐类也不属于悲伤类。00422对同一歌词计算其类别强度的平均值。对于第I个歌词文本,设获取到8位用户对它的情感程度标注,标注的类别强度分别为X1、X2X8,则该歌词的类别强度的平均值的计算公式为0043XIX1X2X8/80044其中,XI为歌词在某类情感中的情感程度。若XI0,表示该歌词属于快乐类,其数值大小即反映其快乐程度。反之,若XI0,则表示该歌词属于悲伤类,其数值的绝对值大小反映其悲伤程度。00453将歌词所属类别为快乐类的歌词的类别强度平均值与预设快乐强度阈值比较,提取类别强度平。

25、均值大于预设快乐强度阈值的歌词,生成快乐类歌词库。当获取到8位用户对歌词的类别打分后,对于快乐类歌词,以平均值的最小值为准,当8位用户中6个人的打分结果均为“1”,另两个人的打分结果均为“2”,则计算得到XI为025,因此预设的快乐强度阈值为025。提取所有歌词中所属类别为快乐类且类别强度平均值大于025的歌词,生成快乐类歌词库。00464将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲伤强度阈值比较,提取类别强度平均值小于预设悲伤强度阈值的歌词,生成悲伤类歌词库。对于悲伤类歌词,以平均值的最大值为准,当8位用户中6个人的打分结果均为“1”,另两个人的打分结果均为“2”,则计算得到XI为0。

26、25,因此预设悲伤强度阈值为025。提取所有歌词中所属类别为悲伤类且类别强度平均值小于025的歌词,生成悲伤类歌词库。说明书CN101963972ACN101963973A5/7页900475分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理,利用词频统计工具,统计其中所有词的词频度,词频度即为词在歌词中出现的次数。在一个实施例中,统计词频度之后,去除快乐类歌词库和悲伤类歌词库中词频度小于预设词频度阈值的词以及预先设定的非情感类词语。优选的,词频度阈值设定为2,非情感类词语为与情感无关的助词和副词等,例如“的”、“之”、“着”、“吗”、“什么”等等。去除这些词后,分别生成快乐类词频度表和悲伤。

27、类词频度表,其中,快乐类词频度表中记录了快乐类词库中的词与其词频度的对应关系,悲伤类词频度表记录了悲伤类词库中的词与其词频度的对应关系。0048步骤S50,根据词频度提取情感关键词。在一个实施例中,如图4所示,步骤S50的具体过程为0049步骤S501,分别获取每个词在快乐类词频表中的词频度和在悲伤类词频表中的词频度。设上述得到的快乐类词频表为表X,悲伤类词频表为表Y。对于快乐类词频表X中的每个词,XI1为第I个词在快乐类词频表X中的词频度,XI2为该词在悲伤类词频表Y中的词频度。同理,对于悲伤类词频表Y中的每个词,YJ1为第J个词在悲伤类词频表X中的词频度,YJ2为该词在快乐类词频表中的词频。

28、度。0050步骤S502,定义快乐和悲伤两个模糊集。定义的两个模糊集分别为快乐和悲伤。0051步骤S503,分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶属度及属于悲伤模糊集的隶属度。对于快乐类词频表X中的每个词,第I个词属于模糊集快乐的隶属度为其属于模糊集悲伤的隶属度为同理,对于悲伤类词频表Y中的每个词,第J个词属于模糊集快乐的隶属度为其术语模糊集悲伤的隶属度为并满足条件0U1,U为隶属度,规定当U0时,ULOG2U0。0052步骤S504中,根据隶属度分别计算快乐类词频表和悲伤类词频表中每个词的模糊熵。在快乐类词频表X中,第I个词的模糊熵的计算公式为由于因此有同理,在悲伤类。

29、词频表Y中,第J个词的模糊熵为0053步骤S505中,根据模糊熵提取情感关键词。图5示出了一个实施例中计算得到的隶属度和模糊熵的关系,由图5可知,当隶属度或者取值越靠近曲线两端时,模糊熵H越小,即不确定性越小,模糊熵H越小,则表明该词在快乐类情感和悲伤类情感中的词频度说明书CN101963972ACN101963973A6/7页10相差越大,所以该词可以对这两类情感起到区分作用。反之,隶属度或者取值在中间05左右时,模糊熵H越小,不确定性越大,表明该词在两类情感中的词频度相近,所以该词对两类情感的区分起不到什么作用。0054在一个实施例中,从快乐类词频表中提取模糊熵小于等于预设第一阈值的词为快。

30、乐类情感关键词,从悲伤类词频表中提取模糊熵小于等于预设第二阈值的词为悲伤类情感关键词。该实施例中,预先设定某个词在快乐类词频表和悲伤类词频表的两个词频度值之比大于等于2时,则认为该词可以对区分两类情感起到作用。因此,对于快乐类词频表,当XI12XI2时,同理,对于悲伤类词频表,当YJ12YJ2时,可得因此第一阈值和第二阈值可设定为09183。从快乐类词频表X中提取模糊熵小于等于09183的词以及从悲伤类词频表Y中提取模糊熵小于等于09183的词,从而得到快乐类和悲伤类这两类情感的关键词表。所得到的情感关键词表能够应用在音乐情感识别中,从而提高音乐情感的识别效果。0055如图6所示,一种情感关键。

31、词提取系统,包括歌词获取模块10、预处理模块20、标注模块30、词频统计模块40和提取模块50,其中歌词获取模块10用于从歌词库中获取歌词;预处理模块20用于对歌词进行预处理,得到处理后的歌词文本;标注模块30用于获取基于情感分类模型对歌词文本的情感程度标注;词频统计模块40用于根据情感程度标注统计歌词文本中的词的词频度;提取模块50用于根据词频度提取情感关键词。0056如图7所示,在一个实施例中,预处理模块20包括分类模块201、排序模块202和歌词文本生成模块203,其中分类模块201用于将歌词分为两组以上,对每组歌词基于情感分类模型的压力维度的两类情感进行情感平衡化选曲,使得每组歌词中均。

32、衡的包含两类情感;排序模块202用于提取每组中歌词的歌名,对所述歌名进行随机排序;歌词文本生成模块203用于按照歌名的排序结果将每组中歌名对应的歌词拼接成歌词文本。0057在一个实施例中,标注模块30进一步用于根据情感分类模型的压力维度设置歌词的类别强度,获取两个以上的用户按照情感分类模型的压力维度对每个歌词文本进行的类别打分,该打分对应于歌词的类别强度。0058如图8所示,在一个实施例中,词频统计模块40包括均值计算模块401、快乐类歌词库生成模块402、悲伤类歌词库生成模块403和词频度统计模块404,其中均值计算模块401用于根据类别强度确定歌词所属类别,并对同一歌词计算其类别强度的平均。

33、值;快乐类歌词库生成模块402用于将歌词所属类别为快乐类的歌词的类别强度平均值与预设快乐强度阈值比较,提取类别强度平均值大于所述预设快乐强度阈值的歌词,生成快乐类歌词库;悲伤类歌词库生成模块403用于将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲伤强度阈值比较,提取类别强度平均值小于所述预设悲伤强度阈值的歌词;词频度统计模块404用于分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理,利用词频统计工具,统计所有词的词频度。0059在一个实施例中,该系统还包括词频度表生成模块图中未示出,用于去除所述快乐类歌词库和悲伤类歌词库中词频度小于等于预设词频度阈值的词以及预先设定的非情感类词语,分。

34、别生成快乐类词频度表和悲伤类词频度表。0060如图9所示,在一个实施例中,提取模块50包括词频度获取模块501、模糊集定义说明书CN101963972ACN101963973A7/7页11模块502、隶属度计算模块503、模糊熵计算模块504和关键词提取模块505,其中词频度获取模块501用于分别获取每个词在快乐类词频表的词频度和在悲伤类词频表中的词频度;模糊集定义模块502用于定义快乐和悲伤两个模糊集;隶属度计算模块503用于分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶属度及属于悲伤模糊集的隶属度;模糊熵计算模块504用于根据所述隶属度分别计算快乐类词频表和悲伤类词频表中每。

35、个词的模糊熵;关键词提取模块505用于根据所述模糊熵提取情感关键词。在一个优选的实施例中,关键词提取模块505进一步用于从快乐类词频表中提取模糊熵小于等于预设第一阈值的词为快乐类情感关键词,从悲伤类词频表中提取模糊熵小于等于预设第二阈值的词为悲伤类情感关键词,从而得到快乐类和悲伤类这两类情感的关键词表。所得到的情感关键词表能够应用在音乐情感识别中,从而提高音乐情感的识别效果。0061以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。说明书CN101963972ACN101963973A1/4页12图1图2说明书附图CN101963972ACN101963973A2/4页13图3图4说明书附图CN101963972ACN101963973A3/4页14图5图6图7说明书附图CN101963972ACN101963973A4/4页15图8图9说明书附图CN101963972A。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1