基于神经网络的以词生成节奏的方法、装置及存储介质.pdf

上传人:宁*** 文档编号:11256009 上传时间:2021-09-15 格式:PDF 页数:20 大小:1MB
返回 下载 相关 举报
基于神经网络的以词生成节奏的方法、装置及存储介质.pdf_第1页
第1页 / 共20页
基于神经网络的以词生成节奏的方法、装置及存储介质.pdf_第2页
第2页 / 共20页
基于神经网络的以词生成节奏的方法、装置及存储介质.pdf_第3页
第3页 / 共20页
点击查看更多>>
资源描述

《基于神经网络的以词生成节奏的方法、装置及存储介质.pdf》由会员分享,可在线阅读,更多相关《基于神经网络的以词生成节奏的方法、装置及存储介质.pdf(20页珍藏版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910307611.3 (22)申请日 2019.04.17 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平安金融中 心23楼 (72)发明人 曹靖康王义文王健宗 (74)专利代理机构 深圳市沃德知识产权代理事 务所(普通合伙) 44347 代理人 高杰于志光 (51)Int.Cl. G06F 16/683(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) 。

2、(54)发明名称 基于神经网络的以词生成节奏的方法、 装置 及存储介质 (57)摘要 本发明涉及人工智能技术领域, 公开了一种 基于神经网络的以词生成节奏方法, 该方法包 括: 将给定音乐的歌词按照预设的歌词编码规则 转换为向量集合; 向预先构建的神经网络模型中 输入给定音乐的歌词的向量集合, 得到所述歌词 的时间序列分布; 利用所述时间序列分布, 对所 述歌词进行连接时序分类, 得到目标节奏。 本发 明还提出一种基于神经网络的以词生成节奏装 置以及一种计算机可读存储介质。 本发明将深度 学习网络应用到音乐节奏的生成并可以得到可 靠结果使其生成的音乐更加符合原有音乐的规 范。 权利要求书4页 。

3、说明书12页 附图3页 CN 110222226 A 2019.09.10 CN 110222226 A 1.一种基于神经网络的以词生成节奏方法, 其特征在于, 所述方法包括: 将给定音乐的歌词按照预设的歌词编码规则转换为向量集合, 其中, 所述预设的歌词 编码规则包括: 规定歌词中的单个字符为1, 单个标点符号为0, 字符之间用0填充; 预先构建神经网络模型, 其中, 预先构建的所述神经网络模型包含三层时空卷积网络 以及一层双向门控循环单元; 向所述三层时空卷积网络中输入给定音乐的歌词的向量集合, 提取出特征向量; 利用所述双向门控循环单元对所述特征向量进行聚合操作, 得到时间步长; 及 对。

4、每一个时间步长进行线性变换, 得到时间序列分布; 利用所述时间序列分布, 对所述歌词进行连接时序分类, 得到目标节奏。 2.如权利要求1所述的基于神经网络的以词生成节奏方法, 其特征在于, 所述时空卷积 网络的每一层的计算方式为: 其中, y表示某一层的输出, 表示激活函数, i, j, k表示样本上对应位置的坐标,表示 每一层输入到对应于上述(i, j, k)处与对应卷积核尺寸大小相等的局部区域, 表示卷积 核的权重矩阵, b表示对应卷积核的偏置值。 3.如权利要求1所述的基于神经网络的以词生成节奏方法, 其特征在于, 所述利用所述 时间序列分布, 对所述歌词进行连接时序分类, 得到目标节奏。

5、, 包括: 在给定音乐的歌词V的基础上加上空白标签得到字符串即 定义函数B:其中, V*为执行下述操作获得1)合并连续的相同符号; 2)去掉 空白字符; 对于一个字符串序列yV*, 定义: 其中, V*的所有元素被称为路径, V*是所有路径的集合, p(y|z)代表目标歌词集合V对应 路径的概率之和, z为所述三层时空卷积网络输出的特征向量, T为所有时间步长个数, p (ut, , uT|z)为所有时间步长个数T的时间序列分布, s.t.|u|T是一个条件函数, 表述需 要满足u是在所有时间步长T之中这个条件, B-1(y)s.t.|u|T表示长度为T且示经过函数B 变换结果为字符串y的集合。

6、; 根据输入的特征向量z, 计算最大概率和, 得到输入序列对应的目标歌词序列h(x), 即 为目标歌词在给定音乐下生成的节奏: 4.如权利要求1所述的基于神经网络的以词生成节奏方法, 其特征在于, 所述双向门控 循环单元采用如下公式得到时间步长: 权利要求书 1/4 页 2 CN 110222226 A 2 rt (Wrht-1, z); ut (Wuht-1, z); 其中: ut和rt分别为更新门和重置门, 表示两个向量相连接, *表示矩阵元素相乘, 为 sigmoid函数, zz1, , zt为所述三层时空卷积网络输出的特征向量, Wr和Wu分别为重置 门和更新门的权重, 表示t时刻的候。

7、选状态,表示的权值, ht为t时刻的输出状态, 双向门控循环单元两个方向的映射分别为: 由此得到t时刻的时间步长为: 5.如权利要求1至4中的任意一项所述的基于神经网络的以词生成节奏方法, 其特征在 于, 所述时间序列分布的计算公式为: p(ut, , uT|z)1tTp(ut|z), 其中, t为时间步长, p(ut|z)softmax(mlp(ht; Wmlp), 所述softmax是一种归一化指数 函数, mlp是含有权重Wmlp的前馈神经网络, z为三层时空卷积网络输出的特征向量, T为所有 时间步长个数。 6.一种基于神经网络的以词生成节奏装置, 其特征在于, 所述装置包括存储器和处。

8、理 器, 所述存储器上存储有可在所述处理器上运行的以词生成节奏程序, 所述以词生成节奏 程序被所述处理器执行时实现一种基于神经网络的以词生成节奏的方法, 所述方法包括: 将给定音乐的歌词按照预设的歌词编码规则转换为向量集合, 其中, 所述预设的歌词 编码规则包括: 规定歌词中的单个字符为1, 单个标点符号为0, 字符之间用0填充; 预先构建神经网络模型, 其中, 预先构建的所述神经网络模型包含三层时空卷积网络 以及一层双向门控循环单元; 向所述三层时空卷积网络中输入给定音乐的歌词的向量集合, 提取出特征向量; 利用所述双向门控循环单元对所述特征向量进行聚合操作, 得到时间步长; 及 对每一个时。

9、间步长进行线性变换, 得到时间序列分布; 利用所述时间序列分布, 对所述歌词进行连接时序分类, 得到目标节奏。 7.如权利要求6所述的基于神经网络的以词生成节奏装置, 其特征在于, 所述时空卷积 网络的每一层的计算方式为: 其中, y表示某一层的输出, 表示激活函数, i, j, k表示样本上对应位置的坐标,表示 权利要求书 2/4 页 3 CN 110222226 A 3 每一层输入到对应于上述(i, j, k)处与对应卷积核尺寸大小相等的局部区域, 表示卷积 核的权重矩阵, b表示对应卷积核的偏置值。 8.如权利要求6所述的基于神经网络的以词生成节奏装置, 其特征在于, 所述利用所述 时间。

10、序列分布, 对所述歌词进行连接时序分类, 得到目标节奏, 包括: 在给定音乐的歌词V的基础上加上空白标签得到字符串即 定义函数B:其中, V*为执行下述操作获得1)合并连续的相同符号; 2)去掉 空白字符; 对于一个字符串序列yV*, 定义: 其中, V*的所有元素被称为路径, V*是所有路径的集合, p(y|z)代表目标歌词集合V对应 路径的概率之和, z为所述三层时空卷积网络输出的特征向量, T为所有时间步长个数, p (ut, , uT|z)为所有时间步长个数T的时间序列分布, s.t.|u|T是一个条件函数, 表述需 要满足u是在所有时间步长T之中这个条件, B-1(y)s.t.|u|。

11、T表示长度为T且示经过函数B变换 结果为字符串y的集合; 根据输入的特征向量z, 计算最大概率和, 得到输入序列对应的目标歌词序列h(x), 即 为目标歌词在给定音乐下生成的节奏: 9.如权利要求6所述的基于神经网络的以词生成节奏装置, 其特征在于, 所述双向门控 循环单元采用如下公式得到时间步长: rt (Wrht-1, z); ut (Wuht-1, z); 其中: ut和rt分别为更新门和重置门, 表示两个向量相连接, *表示矩阵元素相乘, 为 sigmoid函数, zz1, , zt为所述三层时空卷积网络输出的特征向量, Wr和Wu分别为重置 门和更新门的权重,表示t时刻的候选状态,表。

12、示的权值, ht为t时刻的输出状态, 双向门控循环单元两个方向的映射分别为: 由此得到t时刻的时间步长为: 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有以词生 权利要求书 3/4 页 4 CN 110222226 A 4 成节奏程序, 所述的以词生成节奏程序可被一个或者多个处理器执行, 以实现如权利要求1 至5中任一项所述的基于神经网络的以词生成节奏方法的步骤。 权利要求书 4/4 页 5 CN 110222226 A 5 基于神经网络的以词生成节奏的方法、 装置及存储介质 技术领域 0001 本发明涉及人工智能技术领域, 尤其涉及一种基于神经网络的以词生成 节。

13、奏方 法、 装置及计算机可读存储介质。 背景技术 0002 音乐节奏是音乐自动生成算法中重要的一环, 音乐节奏能够规范歌词的 分布, 同 时能够约束音高、 旋律等, 是连接歌词和音乐的桥梁。 传统的语音 识别和音乐模型的构建, 都是采用状态建模, 一个音素或者一个字被人为的 分成多个没有物理意义的状态, 然后采 用离散或者连续高斯模型描述每个状 态的输出分布。 这种建模方式需要预先对连续序列 中间的建模单元的边界进 行切分, 并且输入输出分布边缘对齐, 计算速度慢。 0003 人们对于将深度神经网络与各个领域相结合做出了很多努力, 在音乐生 成方面, 概率生成算法、 马尔科夫链能够较准确的生成。

14、原有的音乐节奏, 但 生成的音乐节奏的旋律 过于简单; 长短期记忆网络(Long Short-Term Memory, LSTM)的结构模型过于复杂, 模型 的训练时间长; 而循环神经网络(Recurrent Neural Network, RNN)在处理距离较远的序列 时, 很有可能会出现梯度消失 的问题。 因此, 如何将深度学习网络应用到音乐节奏的生成 并得到可靠结果 使其生成的音乐更加符合原有音乐的规范, 且使系统具备稳定的鲁棒性, 是 一个亟需解决的问题。 发明内容 0004 本发明提供一种基于神经网络的以词生成节奏方法、 装置及计算机可读 存储介 质, 其主要目的在于提供一种将深度学。

15、习网络应用到音乐节奏的生成 的技术方案。 0005 为实现上述目的, 本发明提供的一种基于神经网络的以词生成节奏方法, 包括: 0006 将给定音乐的歌词按照预设的歌词编码规则转换为向量集合, 其中, 所 述预设的 歌词编码规则包括: 规定歌词中的单个字符为1, 单个标点符号为0, 字符之间用0填充; 0007 预先构建神经网络模型, 其中, 预先构建的所述神经网络模型包含三层 时空卷积 网络以及一层双向门控循环单元; 0008 向所述三层时空卷积网络中输入给定音乐的歌词的向量集合, 提取出特 征向量; 0009 利用所述双向门控循环单元对所述特征向量进行聚合操作, 得到时间步 长; 及 00。

16、10 对每一个时间步长进行线性变换, 得到时间序列分布; 0011 利用所述时间序列分布, 对所述歌词进行连接时序分类, 得到目标节奏。 0012 可选地, 所述时空卷积网络的每一层的计算方式为: 0013 0014 其中, y表示某一层的输出, 表示激活函数, i, j, k表示样本上对应位 置的坐标, 说明书 1/12 页 6 CN 110222226 A 6 表示每一层输入到对应于上述(i, j, k)处与对应卷积核尺寸 大小相等的局部区域, 表示卷积核的权重矩阵, b表示对应卷积核的偏置值。 0015 可选地, 所述利用所述时间序列分布, 对所述歌词进行连接时序分类, 得到目标 节奏,。

17、 包括: 0016在给定音乐的歌词V的基础上加上空白标签得到字符串即 0017定义函数B:其中, V*为执行下述操作获得: 1)合并连续的 相同符号; 2)去掉空白字符; 0018 对于一个字符串序列yV*, 定义: 0019 0020 其中, V*的所有元素被称为路径, V*是所有路径的集合, p(y|z)代表目标 歌词集合 V对应路径的概率之和, z为所述三层时空卷积网络输出的特征向 量, T为所有时间步长个 数, p(ut,uT|z)为所有时间步长个数T的时间序 列分布, s.t.|u|T是一个条件函数, 表 述需要满足u是在所有时间步长T 之中这个条件, B-1(y)s.t.|u|T表。

18、示长度为T且示经过函数B 变换结果为字符串 y的集合; 0021 根据输入的特征向量z, 计算最大概率和, 得到输入序列对应的目标歌词 序列h (x), 即为目标歌词在给定音乐下生成的节奏: 0022 0023 可选地, 所述双向门控循环单元采用如下公式得到时间步长: 0024 rt (Wrht-1,z); 0025 ut (Wuht-1,z); 0026 0027 0028 其中: ut和rt分别为更新门和重置门, 表示两个向量相连接, *表示矩阵 元素相 乘, 为sigmoid函数, zz1, , zt为所述三层时空卷积网络输 出的特征向量, Wr和Wu分 别为重置门和更新门的权重, 表示。

19、t时刻的候选 状态,表示的权值, ht为t时刻的 输出状态, 0029 双向门控循环单元两个方向的映射分别为: 0030 0031 0032 由此得到t时刻的时间步长为: 0033 0034 可选地, 所述时间序列分布的计算公式为: 0035 p(ut,uT|z)1tTp(ut|z), 说明书 2/12 页 7 CN 110222226 A 7 0036 其中, t为时间步长, p(ut|z)softmax(mlp(ht; Wmlp), 所述softmax是 一种归一 化指数函数, mlp是含有权重Wmlp的前馈神经网络, z为三层时空卷 积网络输出的特征向量, T为所有时间步长个数。 003。

20、7 此外, 为实现上述目的, 本发明还提供一种基于神经网络的以词生成节 奏装置, 所述装置包括存储器和处理器, 所述存储器上存储有可在所述处理 器上运行的以词生成 节奏程序, 所述以词生成节奏程序被所述处理器执行时 实现一种基于神经网络的以词生 成节奏的方法, 所述方法包括: 0038 将给定音乐的歌词按照预设的歌词编码规则转换为向量集合, 其中, 所 述预设的 歌词编码规则包括: 规定歌词中的单个字符为1, 单个标点符号为0, 字符之间用0填充; 0039 预先构建神经网络模型, 其中, 预先构建的所述神经网络模型包含三层 时空卷积 网络以及一层双向门控循环单元; 0040 向所述三层时空卷。

21、积网络中输入给定音乐的歌词的向量集合, 提取出特 征向量; 0041 利用所述双向门控循环单元对上所述特征向量进行聚合操作, 得到时间 步长; 及 0042 对每一个时间步长进行线性变换, 得到时间序列分布; 0043 利用所述时间序列分布, 对所述歌词进行连接时序分类, 得到目标节奏。 0044 可选地, 所述时空卷积网络的每一层的计算方式为: 0045 0046 其中, y表示某一层的输出, 表示激活函数, i, j, k表示样本上对应位 置的坐标, 表示每一层输入到对应于上述(i, j, k)处与对应卷积核尺寸 大小相等的局部区域, 表示卷积核的权重矩阵, b表示对应卷积核的偏置值。 0。

22、047 可选地, 所述利用所述时间序列分布, 对所述歌词进行连接时序分类, 得到目标 节奏, 包括: 0048在给定音乐的歌词V的基础上加上空白标签得到字符串即 0049定义函数B:其中, V*为 执行下述操作获得1)合并连续的相 同符号; 2) 去掉空白字符; 0050 对于一个字符串序列yV*, 定义: 0051 0052 其中, V*的所有元素被称为路径, V*是所有路径的集合, p(y|z)代表目标 歌词集合 V对应路径的概率之和, z为所述三层时空卷积网络输出的特征向 量, T为所有时间步长个 数, p(ut,uT|z)为所有时间步长个数T的时间序 列分布, s.t.|u|T是一个条。

23、件函数, 表 述需要满足u是在所有时间步长T 之中这个条件, B-1(y)s.t.|u|T表示长度为T且示经过函数B 变换结果为字符串 y的集合; 0053 根据输入的特征向量z, 计算最大概率和, 得到输入序列对应的目标歌词 序列h (x), 即为目标歌词在给定音乐下生成的节奏: 说明书 3/12 页 8 CN 110222226 A 8 0054 0055 可选地, 所述双向门控循环单元采用如下公式得到时间步长: 0056 rt (Wrht-1,z); 0057 ut (Wuht-1,z); 0058 0059 0060 其中: ut和rt分别为更新门和重置门, 表示两个向量相连接, *表。

24、示矩阵 元素相 乘, 为sigmoid函数, zz1, , zt为所述三层时空卷积网络输 出的特征向量, Wr和Wu分 别为重置门和更新门的权重, 表示t时刻的候选 状态,表示的权值, ht为t时刻的 输出状态, 0061 双向门控循环单元两个方向的映射分别为: 0062 0063 0064 由此得到t时刻的时间步长为: 0065 0066 此外, 为实现上述目的, 本发明还提供一种计算机可读存储介质, 所述 计算机可 读存储介质上存储有以词生成节奏程序, 所述的以词生成节奏程序 可被一个或者多个处 理器执行, 以实现如上所述的基于神经网络的以词生成 节奏方法的步骤。 0067 本发明提出的基。

25、于神经网络的以词生成节奏方法、 装置及计算机可读存 储介质, 将给定音乐的歌词按照预设的歌词编码规则转换为向量集合; 向预 先构建的神经网络模 型中输入给定音乐的歌词的向量集合, 得到所述歌词的 时间序列分布; 利用所述时间序列 分布, 对所述歌词进行连接时序分类, 得 到目标节奏。 因此, 本发明将深度学习网络应用到 音乐节奏的生成并可以得 到可靠结果使其生成的音乐更加符合原有音乐的规范。 附图说明 0068 图1为本发明一实施例提供的基于神经网络的以词生成节奏方法的流程 示意图; 0069 图2为本发明一实施例提供的基于神经网络的以词生成节奏方法中所述 的双向 门控循环单元的示意图; 00。

26、70 图3为本发明一实施例提供的基于神经网络的以词生成节奏方法中数据 流的示 意图; 0071 图4为本发明一实施例提供的基于神经网络的以词生成节奏装置的内部 结构示 意图; 0072 图5为本发明一实施例提供的基于神经网络的以词生成节奏装置中以词 生成节 奏程序的模块示意图。 0073 本发明目的的实现、 功能特点及优点将结合实施例, 参照附图做进一步 说明。 说明书 4/12 页 9 CN 110222226 A 9 具体实施方式 0074 应当理解, 此处所描述的具体实施例仅仅用以解释本发明, 并不用于限 定本发 明。 0075 本发明提供一种基于神经网络的以词生成节奏方法。 参照图1所。

27、示, 为 本发明一 实施例提供的基于神经网络的以词生成节奏方法的流程示意图。 该 方法可以由一个装置 执行, 该装置可以由软件和/或硬件实现。 0076 在本实施例中, 所述基于神经网络的以词生成节奏方法包括: 0077 S10、 将给定音乐的歌词按照预设的歌词编码规则转换为向量集合。 0078 本发明较佳实施例中, 所述预设的歌词编码规则包括: 规定歌词中的单 个字符为 1, 单个标点符号为0, 字符之间用0填充。 0079 本发明较佳实施例中, 生成的向量形式为xitime ,1 ,1 ,channel。 其中, “time” 为歌词出现在音乐中的时间的BCD码(Binary-Coded 。

28、Decimal, 亦称 二进码十进数 或二-十进制代码),“1” 引申指的是图像的高和宽, 在音乐中一 个字符相当于一个像素, 所 以设置宽高均为1,“channel” 为上述的歌词编码, 如上所述单个字符的channel值为1, 单 个标点符号的channel值为0等。 于 是, 给定音乐中的歌词可以转换为向量集合为X x1,xi,xt。 0080 S20、 向预先构建的神经网络模型中输入给定音乐的歌词的向量集合, 得 到所述 歌词的时间序列分布。 0081 本发明所述预先构建的神经网络模型包含三层时空卷积网络 (Spatio Temporal convolutional neural ne。

29、tworks, STCNNs)以及一层双向门控 循环单元(Bi-GRU, Bidirectional Gated Recurrent Unit)。 0082 卷积神经网络(Convolutional Neural Networks, CNNs)是一种前馈神经 网络, 其可以在图像空间上进行卷积堆叠操作, 有助于提高计算机视觉任务 的性能。 而所述时空 卷积网络STCNNs可以通过在时间和空间维度上进行卷 积运算从而可以对音视频数据进行 处理。 0083 本发明所述时空卷积网络STCNNs的每一层从输入到输出的计算方式为: 0084 0085 其中, y表示某一层的输出, 表示激活函数, i, 。

30、j, k表示样本上对应位 置的坐标, 表示每一层输入到对应于上述(i, j, k)处与对应卷积核尺寸 大小相等的局部区域, 表示卷积核的权重矩阵, b表示对应卷积核的偏置值。 0086本发明较佳实施例中, 三层的STCNNs卷积核形状为四 个维度 分别是时间、 高、 宽和特征数。 0087 在经过训练后, 向所述三层时空卷积网络中输入给定音乐的歌词的向量 集合X后 可以提取出特征向量z。 说明书 5/12 页 10 CN 110222226 A 10 0088 进一步地, 本发明利用Bi-GRU进一步对STCNNs提取到的特征向量z 进行进一步聚 合, 得到时间步长。 0089 本发明较佳实施。

31、例在STCNNs后连接一层双向门控循环单元(Bi-GRU)。 GRU是一种 循环神经网络(RNN)的一种变体, GRU的重复单元模型如下, 它有两个门, 分别为更新门ut 和重置门rt。 更新门用于控制前一时刻的状态信 息被带入到当前状态中的程度, 更新门的 值越大说明前一时刻的状态信息带 入越多。 重置门用于控制忽略前一时刻的状态信息的 程度, 重置门的值越小 说明忽略得越多。 而Bi-GRU主要特点是增加了对未来的学习能力, 克服了仅 能处理历史信息的缺陷。 Bi-GRU将一个普通GRU拆成两个方向, 一个按照 序列顺 序向前, 一个逆时序反向, 但是两个GRU连接同一个输入层和输出层, 。

32、结构如图2所示。 本发 明较佳实施例中, 所述Bi-GRU的神经元数为256个。 0090 本发明所述Bi-GRU采用如下公式得到时间步长: 0091 rt (Wrht-1,z); 0092 ut (Wuht-1,z); 0093 0094 0095 其中: ut和rt分别为更新门和重置门, 表示两个向量相连接, *表示矩阵 元素相 乘, 为sigmoid函数, zz1, , zt为Bi-GRU的输入即STCNNs 的输出特征, Wr和Wu分别为 重置门和更新门的权重, 表示t时刻的候选状 态,表示的权值, ht为t时刻的输出 状态。 0096 Bi-GRU两个方向的映射分别为: 0097 0。

33、098 0099 由此得到t时刻的时间步长为: 0100 0101 进一步地, 本发明对每一个时间步长ht进行线性变换, 得到时间序列分 布。 0102 为了参数化序列分布, 本发明对于对每一个时间步t, 使得p(ut|Z) softmax (mlp(ht; Wmlp), 其中softmax是一种归一化指数函数, mlp是含有 权重Wmlp的前馈神经网 络, 然后定义时间序列分布: 0103 p(ut,uT|z)1tTp(ut|z), 0104 在该模型中z为GRU的输入, 即STCNNs的输出。 即在输入为z时, 将 t时刻的输出状 态进行反向传输, 得到对每个t时刻状态的分类。 最终根据定。

34、 义得到所有时间步长个数T (即为z的向量长度)的时间序列分布p。 0105 S30、 利用所述时间序列分布, 对所述歌词进行连接时序分类 (Connectionist temporal classification, CTC), 得到目标节奏。 0106 所述CTC是为RNN专门设计的顶层(top layer), 用于序列学习所用, 它可以消除 输入与目标输出对齐的步骤。 说明书 6/12 页 11 CN 110222226 A 11 0107 本发明较佳实施例中, 对所述歌词进行CTC的主要流程如下: 01081)在给定音乐的歌词V的基础上加上空白标签得到字符串即 01092)定义函数B:。

35、其中, V*为执行下述操作获得1)合并连续的 相同符号; 2)去掉空白字符; 0110 对于一个字符串序列yV*, 定义: 0111 0112 其中, V*的所有元素被称为路径, V*是所有路径的集合, p(y|z)代表目标 歌词集合 V对应路径的概率之和, z为所述三层时空卷积网络输出的特征向 量, T为所有时间步长个 数, p(ut,uT|z)为所有时间步长个数T的时间序 列分布, s.t.|u|T是一个条件函数, 表 述需要满足u是在所有时间步长T 之中这个条件, B-1(y)s.t.|u|T表示长度为T且示经过函数B 变换结果为字符串 y的集合; 0113 3)根据输入的特征向量z, 。

36、计算最大概率和, 得到输入序列对应的目标 歌词序列h (x), 即为目标歌词在给定音乐下生成的节奏: 0114 0115 综上所述, 参阅图3所示, 本发明的数据流如下: 对于一段音乐, 本发 明较佳实施 例将音乐中的歌词转换为向量, 并将其传输到该构建的神经网络 中得到时间序列, 其中, 本发明所述神经网络包括三层时空卷积网络以及一 层双向门控循环单元; 将得到的时间 序列输入到连接时序分类当中, 同时输 入目标歌词, 最终得到对应的目标歌词的序列则为 这段音乐对应的目标歌词 的节奏。 0116 本发明还提供一种基于神经网络的以词生成节奏装置。 参照图4所示, 为本发明 一实施例提供的基于神。

37、经网络的以词生成节奏装置的内部结构示意 图。 0117 在本实施例中, 基于神经网络的以词生成节奏装置1可以是PC(Personal Computer, 个人电脑), 也可以是智能手机、 平板电脑、 便携计算机等终端设 备。 该基于神经 网络的以词生成节奏装置1至少包括存储器11、 处理器12, 通信总线13, 以及网络接口14。 0118 其中, 存储器11至少包括一种类型的可读存储介质, 所述可读存储介质 包括闪 存、 硬盘、 多媒体卡、 卡型存储器(例如, SD或DX存储器等)、 磁 性存储器、 磁盘、 光盘等。 存储 器11在一些实施例中可以是基于神经网络的 以词生成节奏装置1的内部存。

38、储单元, 例如该 基于神经网络的以词生成节奏 装置1的硬盘。 存储器11在另一些实施例中也可以是基于神 经网络的以词生 成节奏装置1的外部存储设备, 例如基于神经网络的以词生成节奏装置1 上 配备的插接式硬盘, 智能存储卡(Smart Media Card,SMC), 安全数字(Secure Digital, SD)卡, 闪存卡(Flash Card)等。 进一步地, 存储器11还可以既包 括以词生成节奏装置1的 内部存储单元也包括外部存储设备。 存储器11不仅 可以用于存储安装于基于神经网络的 以词生成节奏装置1的应用软件及各类 数据, 例如以词生成节奏程序01的代码等, 还可以 用于暂时地。

39、存储已经输出 或者将要输出的数据。 0119 处理器12在一些实施例中可以是一中央处理器(Central Processing Unit, CPU)、 控制器、 微控制器、 微处理器或其他数据处理芯片, 用于运行存储器 11中存储的程序 说明书 7/12 页 12 CN 110222226 A 12 代码或处理数据, 例如执行所述以词生成节奏程序01等。 0120 通信总线13用于实现这些组件之间的连接通信。 0121 网络接口14可选的可以包括标准的有线接口、 无线接口(如WI-FI接口), 通常用 于在该装置1与其他电子设备之间建立通信连接。 0122 可选地, 该装置1还可以包括用户接口。

40、, 用户接口可以包括显示器 (Display)、 输 入单元比如键盘(Keyboard), 可选的用户接口还可以包括标 准的有线接口、 无线接口。 可 选地, 在一些实施例中, 显示器可以是LED显 示器、 液晶显示器、 触控式液晶显示器以及 OLED(Organic Light-Emitting Diode, 有机发光二极管)触摸器等。 其中, 显示器也可以适 当的称为显示屏 或显示单元, 用于显示在基于神经网络的以词生成节奏装置1中处理的信 息 以及用于显示可视化的用户界面。 0123 图4仅示出了具有组件11-14以及以词生成节奏程序01的基于神经网络 的以词生 成节奏装置1, 本领域技。

41、术人员可以理解的是, 图4示出的结构并不 构成对基于神经网络的 以词生成节奏装置1的限定, 可以包括比图示更少或 者更多的部件, 或者组合某些部件, 或 者不同的部件布置。 0124 在图4所示的装置1实施例中, 存储器11中存储有以词生成节奏程序01; 处理器12 执行存储器11中存储的以词生成节奏程序01时实现如下步骤: 0125 步骤一、 将给定音乐的歌词按照预设的歌词编码规则转换为向量集合。 0126 本发明较佳实施例中, 所述预设的歌词编码规则包括: 规定歌词中的单 个字符为 1, 单个标点符号为0, 字符之间用0填充。 0127 本发明较佳实施例中, 生成的向量形式为xitime 。

42、,1 ,1 ,channel。 其中, “time” 为歌词出现在音乐中的时间的BCD码(Binary-Coded Decimal, 亦称 二进码十进数 或二-十进制代码),“1” 引申指的是图像的高和宽, 在音乐中一 个字符相当于一个像素, 所 以设置宽高均为1,“channel” 为上述的歌词编码, 如上所述单个字符的channel值为1, 单 个标点符号的channel值为0等。 于 是, 给定音乐中的歌词可以转换为向量集合为X x1,xi,xt。 0128 步骤二、 向预先构建的神经网络模型中输入给定音乐的歌词的向量集合, 得到所 述歌词的时间序列分布。 0129 本发明所述预先构建的。

43、神经网络模型包含三层时空卷积网络 (SpatioTemporal convolutional neural networks, STCNNs)以及一层双向门控 循环单元(Bi-GRU, Bidirectional Gated Recurrent Unit)。 0130 卷积神经网络(Convolutional Neural Networks, CNNs)是一种前馈神经 网络, 其可以在图像空间上进行卷积堆叠操作, 有助于提高计算机视觉任务 的性能。 而所述时空 卷积网络STCNNs可以通过在时间和空间维度上进行卷 积运算从而可以对音视频数据进行 处理。 0131 本发明所述时空卷积网络STCN。

44、Ns的每一层从输入到输出的计算方式为: 0132 0133 其中, y表示某一层的输出, 表示激活函数, i, j, k表示样本上对应位 置的坐标, 说明书 8/12 页 13 CN 110222226 A 13 表示每一层输入到对应于上述(i, j, k)处与对应卷积核尺寸 大小相等的局部区域, 表示卷积核的权重矩阵, b表示对应卷积核的偏置值。 0134本发明较佳实施例中, 三层的STCNNs卷积核形状为四 个维度 分别是时间、 高、 宽和特征数。 0135 在经过训练后, 向所述三层时空卷积网络中输入给定音乐的歌词的向量 集合X后 可以提取出特征向量z。 0136 进一步地, 本发明利用。

45、Bi-GRU进一步对STCNNs提取到的特征向量z 进行进一步聚 合, 得到时间步长。 0137 本发明较佳实施例在STCNNs后连接一层双向门控循环单元(Bi-GRU)。 GRU是一种 循环神经网络(RNN)的一种变体, GRU的重复单元模型如下, 它有两个门, 分别为更新门ut 和重置门rt。 更新门用于控制前一时刻的状态信 息被带入到当前状态中的程度, 更新门的 值越大说明前一时刻的状态信息带 入越多。 重置门用于控制忽略前一时刻的状态信息的 程度, 重置门的值越小 说明忽略得越多。 而Bi-GRU主要特点是增加了对未来的学习能力, 克服了仅 能处理历史信息的缺陷。 Bi-GRU将一个普。

46、通GRU拆成两个方向, 一个按照 序列顺 序向前, 一个逆时序反向, 但是两个GRU连接同一个输入层和输出层, 结构如图2所示。 本发 明较佳实施例中, 所述Bi-GRU的神经元数为256个。 0138 本发明所述Bi-GRU采用如下公式得到时间步长: 0139 rt (Wrht-1,z); 0140 ut (Wuht-1,z); 0141 0142 0143 其中: ut和rt分别为更新门和重置门, 表示两个向量相连接, *表示矩阵 元素相 乘, 为sigmoid函数, zz1, , zt为Bi-GRU的输入即STCNNs 的输出特征, Wr和Wu分别为 重置门和更新门的权重,表示t时刻的候。

47、选状 态,表示的权值, ht为t时刻的输出 状态。 0144 Bi-GRU两个方向的映射分别为: 0145 0146 0147 由此得到t时刻的时间步长为: 0148 0149 进一步地, 本发明对每一个时间步长ht进行线性变换, 得到时间序列分 布。 0150 为了参数化序列分布, 本发明对于对每一个时间步t, 使得p(ut|z) softmax (mlp(ht; Wmlp), 其中softmax是一种归一化指数函数, mlp是含有 权重Wmlp的前馈神经网 络, 然后定义时间序列分布: 说明书 9/12 页 14 CN 110222226 A 14 0151 p(ut,uT|z)1tTp(。

48、ut|z), 0152 在该模型中z为GRU的输入, 即STCNNs的输出。 即在输入为z时, 将 t时刻的输出状 态进行反向传输, 得到对每个t时刻状态的分类。 最终根据定 义得到所有时间步长个数T (即为z的向量长度)的时间序列分布p。 0153 步骤三、 利用所述时间序列分布, 对所述歌词进行连接时序分类 (Connectionist temporal classification, CTC), 得到目标节奏。 0154 所述CTC是为RNN专门设计的顶层(top layer), 用于序列学习所用, 它可以消除 输入与目标输出对齐的步骤。 0155 本发明较佳实施例中, 对所述歌词进行C。

49、TC的主要流程如下: 01561)在给定音乐的歌词V的基础上加上空白标签得到字符串即 01572)定义函数B:其中, V*为执行下述操作获得1)合并连续的 相同符号; 2)去掉空白字符; 0158 对于一个字符串序列yV*, 定义: 0159 0160 其中, V*的所有元素被称为路径, V*是所有路径的集合, p(y|z)代表目标 歌词集合 V对应路径的概率之和, z为所述三层时空卷积网络输出的特征向 量, T为所有时间步长个 数, p(ut,uT|z)为所有时间步长个数T的时间序 列分布, s.t.|u|T是一个条件函数, 表 述需要满足u是在所有时间步长T 之中这个条件, B-1(y)s。

50、.t.|u|T表示长度为T且示经过函数B 变换结果为字符串 y的集合; 0161 3)根据输入的特征向量z, 计算最大概率和, 得到输入序列对应的目标 歌词序列h (x), 即为目标歌词在给定音乐下生成的节奏: 0162 0163 可选地, 在其他实施例中, 所述的以词生成节奏程序还可以被分割为一 个或者多 个模块, 一个或者多个模块被存储于存储器11中, 并由一个或多个 处理器(本实施例为处 理器12)所执行以完成本发明, 本发明所称的模块是 指能够完成特定功能的一系列计算机 程序指令段, 用于描述以词生成节奏程 序在基于神经网络的以词生成节奏装置中的执行 过程。 0164 例如, 参照图5。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1