一种音调调节方法、装置及终端设备.pdf

摘要
申请专利号：	CN201410604546.8	申请日：	2014.10.30
公开号：	CN104538011A	公开日：	2015.04.22
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G10H 1/36申请日:20141030\|\|\|公开
IPC分类号：	G10H1/36	主分类号：	G10H1/36
申请人：	华为技术有限公司
发明人：	董敏亚; 赵翔宇; 顾凤香
地址：	518129广东省深圳市龙岗区坂田华为总部办公楼
优先权：
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

本发明实施例涉及音频技术领域。本发明实施例提供一种音调调节方法，包括：接收用户在演唱歌曲时所述用户发出的声音信号；从原唱音频数据中提取原唱音调，所述原唱音频数据是指所述歌曲的原唱者演唱所述歌曲的音频数据，其中，所述用户按照所述原唱者演唱所述歌曲时使用的伴奏，演唱所述歌曲；根据所述原唱音调对所述声音信号中的演唱音调进行调节处理，得到经过调节后的声音信号；输出所述调节后的声音信号。利用本发明实施例提供的技术方案能够根据原唱者的原唱音调，将用户演唱所述歌曲时唱的不准的音调调节到准确的音调上，以提升用户的演唱体验。此外，本发明实施例还提供相应的装置和终端设备。

权利要求书

权利要求书1. 一种音调调节方法，其特征在于，所述方法包括：接收用户在演唱歌曲时所述用户发出的声音信号；从原唱音频数据中提取原唱音调，所述原唱音频数据是指所述歌曲的原唱者演唱所述歌曲的音频数据，其中，所述用户按照所述原唱者演唱所述歌曲时使用的伴奏，演唱所述歌曲；根据所述原唱音调对所述声音信号中的演唱音调进行调节处理，得到经过调节后的声音信号；输出所述调节后的声音信号。 2. 根据权利要求1所述的方法，其特征在于，所述接收用户在演唱歌曲时所述用户发出的声音信号，具体包括：通过麦克风接收所述用户在演唱所述歌曲时，所述用户发出的声音信号。 3. 根据权利要求1或2所述的方法，其特征在于，所述输出所述调节后的声音信号，具体包括：通过扬声器输出所述调节后的声音信号。 4. 根据权利要求1至3任一项所述的方法，其特征在于，所述输出所述调节后的声音信号，具体包括：按照所述原唱者演唱所述歌曲时使用的伴奏，输出所述调节后的声音信号。 5. 根据权利要求1至4任一项所述的方法，其特征在于：所述接收用户在演唱歌曲时所述用户发出的声音信号是在所述从原唱音频数据中提取原唱音调之前执行的。 6. 根据权利要求1至5任一项所述的方法，其特征在于，所述接收用户在演唱歌曲时所述用户发出的声音信号，具体包括：以演唱帧为单位，接收所述用户在演唱所述歌曲时，所述用户发出的声音信号，所述声音信号包括多个演唱帧；所述输出所述调节后的声音信号,具体包括：以所述演唱帧为单元，输出所述调节后的声音信号。 7. 根据权利要求6所述的方法，其特征在于，所述根据所述原唱音调对所述声音信号中的演唱音调进行调节处理，得到经过调节后的声音信号，具体包括：根据原唱帧的原唱音调对所述演唱帧的演唱音调进行调节处理，得到调节后的演唱帧；所述从原唱音频数据中提取原唱音调，具体包括：从所述原唱音频数据提取所述原唱帧，并从所述原唱帧中提取所述原唱帧的原唱音调，其中，所述原唱帧对应的伴奏和所述演唱帧对应的伴奏为同一伴奏。 8. 根据权利要求7所述的方法，其特征在于，所述根据原唱帧的原唱音调对所述演唱帧的演唱音调进行调节处理，得到调节后的演唱帧，具体包括：基于所述演唱帧的演唱音调与所述原唱帧的原唱音调的比值，得到所述演唱帧的音调调节比例β；利用所述音调调节比例β基于实时音频变调算法对所述演唱帧的演唱音调的进行调节处理，得到所述调节后的演唱帧。 9. 根据权利要求7或8所述的方法，其特征在于：所述原唱帧和所述演唱帧的时长均为T，所述T的取值位于10ms 至30ms之间。 10. 根据权利要求7至9任一项所述的方法，其特征在于，所述根据原唱帧的原唱音调对所述演唱帧的演唱音调进行调节处理，得到调节后的演唱帧之后，所述方法还包括：所述调节后的演唱帧被划分为F个演唱频段，对所述F个演唱频段中的每一演唱频段，均按照下述针对第M个演唱频段的方法进行处理，其中，所述第M个演唱频段为所述F个演唱频段中的一个演唱频段：计算所述调节后的演唱帧中第M个演唱频段的能量E0(m)，2≤F ≤30且F为整数，M取[1,F]范围内的整数；计算所述原唱帧中第M个原唱频段的能量E1(m)，所述原唱帧被划分为F个原唱频段，所述第M个原唱频段位于所述F个原唱频段中；根据所述第M个原唱频段的能量E1(m)对所述第M个演唱频段的能量E0(m)进行调节处理，得到经过调节后的所述第M个演唱频段。 11. 一种音调调节装置，其特征在于，包括：接收单元，用于接收用户在演唱歌曲时所述用户发出的声音信号；提取单元，用于从原唱音频数据中提取原唱音调，所述原唱音频数据是指所述歌曲的原唱者演唱所述歌曲的音频数据，其中，所述用户演唱所述歌曲使用的伴奏与所述原唱者演唱所述歌曲使用的伴奏为同一伴奏；音调调节单元，用于根据所述原唱音调对所述声音信号中的演唱音调进行调节处理，得到经过调节后的声音信号；输出单元，用于输出所述调节后的声音信号。 12. 根据权利要求11所述的装置，其特征在于：所述输出单元具体用于按照所述原唱者演唱所述歌曲时使用的伴奏，输出所述调节后的声音信号。 13. 根据权利要求11或12所述的装置，其特征在于：在所述提取单元从所述原唱音频数据中提取所述原唱音调之前，所述接收单元具体用于接收所述用户在演唱所述歌曲时，所述用户发出的声音信号。 14. 根据权利要求11至13任一项所述的装置，其特征在于：所述接收单元具体用于以演唱帧为单位，接收所述用户在演唱所述歌曲时，所述用户发出的声音信号，所述声音信号包括多个演唱帧；所述输出单元具体用于以所述演唱帧为单元，输出所述调节后的声音信号。 15. 根据权利要求14所述的装置，其特征在于：所述音调调节单元具体用于根据原唱帧的原唱音调对所述演唱帧的演唱音调进行调节处理，得到调节后的演唱帧；所述提取单元具体用于从所述原唱音频数据提取所述原唱帧，并从所述原唱帧中提取所述原唱帧的原唱音调，其中，所述原唱帧对应的伴奏和所述演唱帧对应的伴奏为同一伴奏。 16. 根据权利要求15所述的装置，其特征在于：所述音调调节单元具体用于基于所述演唱帧的演唱音调与所述原唱帧的原唱音调的比值，得到所述演唱帧的音调调节比例β；以及利用所述音调调节比例β基于实时音频变调算法对所述演唱帧的演唱音调的进行调节处理，得到所述调节后的演唱帧。 17. 根据权利要求15或16所述的装置，其特征在于：所述原唱帧和所述演唱帧的时长均为T，所述T的取值位于10ms 至30ms之间。 18. 根据权利要求15至17任一项所述的装置，其特征在于，还包括第一计算单元、第二计算单元和能量计算单元：所述第一计算单元，用于计算所述调节后的演唱帧中第M个演唱频段的能量E0(m)，所述调节后的演唱帧被划分为F个演唱频段，所述第M个演唱频段为所述F个演唱频段中的一个演唱频段，2≤F≤ 30且F为整数，M取[1,F]范围内的整数；所述第二计算单元，用于计算所述原唱帧中第M个原唱频段的能量E1(m)，所述原唱帧被划分为F个原唱频段，所述第M个原唱频段位于所述F个原唱频段中；所述能量调节单元，用于根据所述第M个原唱频段的能量E1(m) 对所述第M个演唱频段的能量E0(m)进行调节处理，得到经过调节后的所述第M个演唱频段；对于所述F个演唱频段中的每一演唱频段，所述第一计算单元、所述第二计算单元和所述能量计算单元均还用于按照对所述第M个演唱频段的处理方式进行处理。 19. 一种终端设备，其特征在于：包括中央处理器CPU、麦克风和扬声器；所述麦克风用于接收用户在演唱歌曲时所述用户发出的声音信号；所述CPU用于从原唱音频数据中提取原唱音调，所述原唱音频数据是指所述歌曲的原唱者演唱所述歌曲的音频数据，其中，所述用户演唱所述歌曲使用的伴奏与所述原唱者演唱所述歌曲使用的伴奏为同一伴奏；以及用于根据所述原唱音调对所述声音信号中的演唱音调进行调节处理，得到经过调节后的声音信号；所述扬声器用于输出所述调节后的声音信号。 20. 根据权利要求19所述的终端设备，其特征在于：所述扬声器具体用于按照所述原唱者演唱所述歌曲时使用的伴奏，输出所述调节后的声音信号。 21. 根据权利要求19或20所述的终端设备，其特征在于：所述CPU具体用于在从所述原唱音频数据中提取所述原唱音调之前，接收所述用户在演唱所述歌曲时，所述用户发出的声音信号。 22. 根据权利要求19至21任一项所述的终端设备，其特征在于：所述麦克风具体用于以演唱帧为单位，接收所述用户在演唱所述歌曲时，所述用户发出的声音信号，所述声音信号包括多个演唱帧；所述扬声器具体用于以所述演唱帧为单元，输出所述调节后的声音信号。 23. 根据权利要求22所述的终端设备，其特征在于：所述CPU具体用于从所述原唱音频数据提取所述原唱帧，并从所述原唱帧中提取所述原唱帧的原唱音调，其中，所述原唱帧对应的伴奏和所述演唱帧对应的伴奏为同一伴奏；以及用于根据原唱帧的原唱音调对所述演唱帧的演唱音调进行调节处理，得到调节后的演唱帧。 24. 根据权利要求23所述的终端设备，其特征在于：所述CPU具体用于基于所述演唱帧的演唱音调与所述原唱帧的原唱音调的比值，得到所述演唱帧的音调调节比例β；以及利用所述音调调节比例β基于实时音频变调算法对所述演唱帧的演唱音调的进行调节处理，得到所述调节后的演唱帧。 25. 根据权利要求23或24所述的终端设备，其特征在于：所述原唱帧和所述演唱帧的时长均为T，所述T的取值位于10ms 至30ms之间。 26. 根据权利要求23至25任一项所述的终端设备，其特征在于：所述CPU还用于计算所述调节后的演唱帧中第M个演唱频段的能量E0(m)，所述调节后的演唱帧被划分为F个演唱频段，所述第M个演唱频段为所述F个演唱频段中的一个演唱频段，2≤F≤30且F为整数，M取[1,F]范围内的整数；以及计算所述原唱帧中第M个原唱频段的能量E1(m)，所述原唱帧被划分为F个原唱频段，所述第M个原唱频段位于所述F个原唱频段中；并根据所述第M个原唱频段的能量E1(m)对所述第M个演唱频段的能量E0(m)进行调节处理，得到经过调节后的所述第M个演唱频段；对于所述F个演唱频段中的每一个演唱频段，所述CPU还用于按照对所述第M个演唱频段的处理方法进行处理。

说明书

说明书一种音调调节方法、装置及终端设备
技术领域
本发明涉及音频技术领域，尤其涉及一种音调调节方法、装置及终端设备。
背景技术
唱歌是民众十分喜爱的娱乐活动，当前人们可以选择在KTV内唱歌，也可以选择通过唱吧、K歌达人等歌唱软件一展歌喉。对于业余爱好者来说，在能够按照所点歌曲的原唱者演唱时的伴奏进行演唱的前提下(或者说既不抢拍也不慢拍)，还存在音调不准的问题，比如该唱高音的时候声音高不上去，该唱低音的时候声音低不下来。唱歌音调不准影响了人们的唱歌体验。在实时演唱的过程中，演唱者的音调不准是多样的，有时演唱的音调比原唱的音调高，有时演唱的音调比原唱的音调低，当前KTV内的K歌系统，唱吧、K歌达人等歌唱软件均对实时演唱中的音调不准现象无能为力。
发明内容
本发明提供一种音调调节方法和装置，用于实现将用户实时演唱时唱的不准的音调调节到准确的音调上，以提升用户的演唱体验。
第一方面，本发明实施例提供一种音调调节方法，该方法包括：
接收用户在演唱歌曲时所述用户发出的声音信号；
从原唱音频数据中提取原唱音调，所述原唱音频数据是指所述歌曲的原唱者演唱所述歌曲的音频数据，其中，所述用户按照所述原唱者演唱所述歌曲时使用的伴奏，演唱所述歌曲；
根据所述原唱音调对所述声音信号中的演唱音调进行调节处理，得到经过调节后的声音信号；
输出所述调节后的声音信号。
结合第一方面，在第一方面的第一种实施方式下，所述接收用户在演唱歌曲时所述用户发出的声音信号，具体包括：
通过麦克风接收所述用户在演唱所述歌曲时，所述用户发出的声音信号。
结合第一方面或第一方面的第一种实施方式，在第一方面的第二种实施方式下，所述输出所述调节后的声音信号，具体包括：
通过扬声器输出所述调节后的声音信号。
结合第一方面、第一方面的第一种实施方式或第一方面的第二种实施方式，在第一方面的第三种实施方式下，所述输出所述调节后的声音信号，具体包括：
按照所述原唱者演唱所述歌曲时使用的伴奏，输出所述调节后的声音信号。
结合第一方面或者第一方面的第一种实施方式至第一方面的第三种实施方式中的任一种实施方式，在第一方面的第四种实施方式下，
所述接收用户在演唱歌曲时所述用户发出的声音信号是在所述从原唱音频数据中提取原唱音调之前执行的。
结合第一方面或者第一方面的第一种实施方式至第一方面的第四种实施方式中的任一种实施方式，在第一方面的第五种实施方式下，
所述接收用户在演唱歌曲时所述用户发出的声音信号，具体包括：
以演唱帧为单位，接收所述用户在演唱所述歌曲时，所述用户发出的声音信号，所述声音信号包括多个演唱帧；
所述输出所述调节后的声音信号,具体包括：
以所述演唱帧为单元，输出所述调节后的声音信号。
结合第一方面的第五种实施方式，在第一方面的第六种实施方式下，所述根据所述原唱音调对所述声音信号中的演唱音调进行调节处理，得到经过调节后的声音信号，具体包括：
根据原唱帧的原唱音调对所述演唱帧的演唱音调进行调节处理，得到调节后的演唱帧；
所述从原唱音频数据中提取原唱音调，具体包括：
从所述原唱音频数据提取所述原唱帧，并从所述原唱帧中提取所述原唱帧的原唱音调，其中，所述原唱帧对应的伴奏和所述演唱帧对应的伴奏为同一伴奏。
结合第一方面的第六种实施方式，在第一方面的第七种实施方式下，所述根据原唱帧的原唱音调对所述演唱帧的演唱音调进行调节处理，得到调节后的演唱帧，具体包括：
基于所述演唱帧的演唱音调与所述原唱帧的原唱音调的比值，得到所述演唱帧的音调调节比例β；
利用所述音调调节比例β基于实时音频变调算法对所述演唱帧的演唱音调的进行调节处理，得到所述调节后的演唱帧。
结合第一方面的第六种实施方式或者第一方面的第七种实施方式，在第一方面的第八种实施方式下，所述原唱帧和所述演唱帧的时长均为T，所述T的取值位于10ms至30ms之间。
结合第一方面的第六种实施方式至第一方面的第八种实施方式中的任一种实施方式，在第一方面的第九种实施方式下，所述根据原唱帧的原唱音调对所述演唱帧的演唱音调进行调节处理，得到调节后的演唱帧之后，所述方法还包括：
所述调节后的演唱帧被划分为F个演唱频段，对所述F个演唱频段中的每一演唱频段，均按照下述针对第M个演唱频段的方法进行处理，其中，所述第M个演唱频段为所述F个演唱频段中的一个演唱频段：
计算所述调节后的演唱帧中第M个演唱频段的能量E0(m)，2≤F ≤30且F为整数，M取[1,F]范围内的整数；
计算所述原唱帧中第M个原唱频段的能量E1(m)，所述原唱帧被划分为F个原唱频段，所述第M个原唱频段位于所述F个原唱频段中；
根据所述第M个原唱频段的能量E1(m)对所述第M个演唱频段的能量E0(m)进行调节处理，得到经过调节后的所述第M个演唱频段。
第二方面，本发明实施例提供一种音调调节装置，包括：
接收单元，用于接收用户在演唱歌曲时所述用户发出的声音信号；
提取单元，用于从原唱音频数据中提取原唱音调，所述原唱音频数据是指所述歌曲的原唱者演唱所述歌曲的音频数据，其中，所述用户演唱所述歌曲使用的伴奏与所述原唱者演唱所述歌曲使用的伴奏为同一伴奏；
音调调节单元，用于根据所述原唱音调对所述声音信号中的演唱音调进行调节处理，得到经过调节后的声音信号；
输出单元，用于输出所述调节后的声音信号。
结合第二方面，在第二方面的第一种实施方式下，所述输出单元具体用于按照所述原唱者演唱所述歌曲时使用的伴奏，输出所述调节后的声音信号。
结合第二方面或第二方面的第一种实施方式，在第二方面的第二种实施方式下，在所述提取单元从所述原唱音频数据中提取所述原唱音调之前，所述接收单元具体用于接收所述用户在演唱所述歌曲时，所述用户发出的声音信号。
结合第二方面、第二方面的第一种实施方式或第二方面的第二种实施方式，在第二方面的第三种实施方式下，所述接收单元具体用于以演唱帧为单位，接收所述用户在演唱所述歌曲时，所述用户发出的声音信号，所述声音信号包括多个演唱帧；
所述输出单元具体用于以所述演唱帧为单元，输出所述调节后的声音信号。
结合第二方面的第三种实施方式，在第二方面的第四种实施方式下，所述音调调节单元具体用于根据原唱帧的原唱音调对所述演唱帧的演唱音调进行调节处理，得到调节后的演唱帧；
所述提取单元具体用于从所述原唱音频数据提取所述原唱帧，并从所述原唱帧中提取所述原唱帧的原唱音调，其中，所述原唱帧对应的伴奏和所述演唱帧对应的伴奏为同一伴奏。
结合第二方面的第四种实施方式，在第二方面的第五种实施方式下，所述音调调节单元具体用于基于所述演唱帧的演唱音调与所述原唱帧的原唱音调的比值，得到所述演唱帧的音调调节比例β；以及利用所述音调调节比例β基于实时音频变调算法对所述演唱帧的演唱音调的进行调节处理，得到所述调节后的演唱帧。
结合第二方面的第四种实施方式或第二方面的第五种实施方式，在第二方面的第六种实施方式下，所述原唱帧和所述演唱帧的时长均为T，所述T的取值位于10ms至30ms之间。
结合第二方面的第四种实施方式至第二方面的第六种实施方式中任一种实施方式，在第二方面的第七种实施方式下，还包括第一计算单元、第二计算单元和能量计算单元：
所述第一计算单元，用于计算所述调节后的演唱帧中第M个演唱频段的能量E0(m)，所述调节后的演唱帧被划分为F个演唱频段，所述第M个演唱频段为所述F个演唱频段中的一个演唱频段，2≤F≤ 30且F为整数，M取[1,F]范围内的整数；
所述第二计算单元，用于计算所述原唱帧中第M个原唱频段的能量E1(m)，所述原唱帧被划分为F个原唱频段，所述第M个原唱频段位于所述F个原唱频段中；
所述能量调节单元，用于根据所述第M个原唱频段的能量E1(m) 对所述第M个演唱频段的能量E0(m)进行调节处理，得到经过调节后的所述第M个演唱频段；
对于所述F个演唱频段中的每一演唱频段，所述第一计算单元、所述第二计算单元和所述能量计算单元均还用于按照对所述第M个演唱频段的处理方式进行处理。
第三方面，本发明实施例还提供一种终端设备，包括中央处理器 CPU、麦克风和扬声器；
所述麦克风用于接收用户在演唱歌曲时所述用户发出的声音信号；
所述CPU用于从原唱音频数据中提取原唱音调，所述原唱音频数据是指所述歌曲的原唱者演唱所述歌曲的音频数据，其中，所述用户演唱所述歌曲使用的伴奏与所述原唱者演唱所述歌曲使用的伴奏为同一伴奏；以及用于根据所述原唱音调对所述声音信号中的演唱音调进行调节处理，得到经过调节后的声音信号；
所述扬声器用于输出所述调节后的声音信号。
结合第三方面，在第三方面的第一种实施方式下，所述扬声器具体用于按照所述原唱者演唱所述歌曲时使用的伴奏，输出所述调节后的声音信号。
结合第三方面或第三方面的第一种实施方式，在第三方面的第二种实施方式下，所述CPU具体用于在从所述原唱音频数据中提取所述原唱音调之前，接收所述用户在演唱所述歌曲时，所述用户发出的声音信号。
结合第三方面、第三方面的第一种实施方式或第三方面的第二种实施方式，在第三方面的第三种实施方式下，所述麦克风具体用于以演唱帧为单位，接收所述用户在演唱所述歌曲时，所述用户发出的声音信号，所述声音信号包括多个演唱帧；
所述扬声器具体用于以所述演唱帧为单元，输出所述调节后的声音信号。
结合第三方面的第三种实施方式，在第三方面的第四种实施方式下，所述CPU具体用于从所述原唱音频数据提取所述原唱帧，并从所述原唱帧中提取所述原唱帧的原唱音调，其中，所述原唱帧对应的伴奏和所述演唱帧对应的伴奏为同一伴奏；以及用于根据原唱帧的原唱音调对所述演唱帧的演唱音调进行调节处理，得到调节后的演唱帧。
结合第三方面的第四种实施方式，在第三方面的第五种实施方式下，所述CPU具体用于基于所述演唱帧的演唱音调与所述原唱帧的原唱音调的比值，得到所述演唱帧的音调调节比例β；以及利用所述音调调节比例β基于实时音频变调算法对所述演唱帧的演唱音调的进行调节处理，得到所述调节后的演唱帧。
结合第三方面的第四种实施方式或第三方面的第五种实施方式，在第三方面的第六种实施方式下，所述原唱帧和所述演唱帧的时长均为T，所述T的取值位于10ms至30ms之间。
结合第三方面的第四种实施方式至第三方面的第六种实施方式中的任一种实施方式，在第三方面的第七种实施方式下，所述CPU还用于计算所述调节后的演唱帧中第M个演唱频段的能量E0(m)，所述调节后的演唱帧被划分为F个演唱频段，所述第M个演唱频段为所述 F个演唱频段中的一个演唱频段，2≤F≤30且F为整数，M取[1,F] 范围内的整数；以及计算所述原唱帧中第M个原唱频段的能量E1(m)，所述原唱帧被划分为F个原唱频段，所述第M个原唱频段位于所述F 个原唱频段中；并根据所述第M个原唱频段的能量E1(m)对所述第M 个演唱频段的能量E0(m)进行调节处理，得到经过调节后的所述第M 个演唱频段；
对于所述F个演唱频段中的每一个演唱频段，所述CPU还用于按照对所述第M个演唱频段的处理方法进行处理。
可知，本发明实施例提供的音调调节方法，包括：接收用户在演唱歌曲时该用户发出的声音信号；根据该歌曲的原唱者演唱所述歌曲时，该原唱者演唱的原唱音频数据中的原唱音调，对该声音信号中的演唱音调进行调节处理，得到并输出调节后的声音信号。采用本发明提供的技术方案，根据歌曲的原唱者原唱该歌曲的音调，对用户在根据原唱者演唱该歌曲的伴奏演唱该歌曲时，该用户唱跑调的音进行调节，以便将该用户唱的不准的音调调节到准确的音调上，以提升用户的演唱体验。
附图说明
为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
图1a为本发明实施例提供的一种音调调节方法的方法流程图；
图1b为本发明实施例提供的另一种音调调节方法的方法流程图；
图2a为本发明实施例提供的一种音调调节装置的结构示意图；
图2b为本发明实施例提供的另一种音调调节装置的结构示意图；
图3为本发明实施例提供的一种终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
实施例一
本发明实施例提供的音调调节方法适用于KTV的K歌系统，手机、 PAD等智能终端上安装的K歌软件等。为了便于说明，下面以KTV的K 歌系统为例进行说明，应当理解的是，下述技术方案同样适用于手机、 PAD等智能终端上安装的K歌软件。
参见附图1a,本发明实施例提供的音调调节方法，具体包括下述步骤：
S101、接收用户在演唱歌曲时所述用户发出的声音信号；
需要说明的是，所述接收用户在演唱歌曲时所述用户发出的声音信号，是以演唱帧为单位，一个演唱帧接着一个演唱帧的依次接收的；所述演唱帧的时长为T，所述T的取值位于10ms至30ms之间。通常用户演唱一首歌时会产生成千上万个演唱帧，为了对所述用户演唱的整首歌的声音信号进行处理，就需要对所述用户演唱该歌时产生的成千上万个演唱帧，按照这成千上万个演唱帧的产生顺序一个演唱帧一个演唱帧的依次接收。
值得注意的是，所述接收用户在演唱歌曲时所述用户发出的声音信号是通过声音接收设备获取的，优选的，使用麦克风获取所述用户发出的声音信号。
S103、从原唱音频数据中提取原唱音调，所述原唱音频数据是指所述歌曲的原唱者演唱所述歌曲的音频数据，其中，所述用户按照所述原唱者演唱所述歌曲时使用的伴奏，演唱所述歌曲；
鉴于步骤S101是以演唱帧为单位，接收所述用户在演唱所述歌曲时，所述用户发出的声音信号的。为了对步骤S101获取的演唱帧进行音调调节处理，步骤S103需要先从所述原唱音频数据中提取出原唱帧，其中，该原唱帧的时长也为T，以便根据所述原唱帧的原唱音调对所述演唱帧的演唱音调进行音调调节处理。值得注意的是，所述原唱帧对应的伴奏和所述演唱帧对应的伴奏是相同的。
需要说明的是，所述用户发出的声音信号的衡量参数不仅包括音调，还包括音量、音色等。但是在本发明提供的技术方案，是依据原唱音调对用户的演唱音调进行调节，也即，本发明提供的技术方案关注的是音调，所以需要从所述原唱音频数据中提取原唱音调，并以该原唱音调为参考，对用户的演唱音调进行调节。
所述用户按照所述原唱者演唱所述歌曲时使用的伴奏，演唱所述歌曲，是指所述用户在演唱所述歌曲时节奏和所述原唱者演唱所述歌曲的节奏是一样的，没有抢拍或者慢拍。
另外，需要对原唱音频数据进行解释说明，比如在KTV里点了一首歌手1演唱的歌曲《A》，则该歌手1为原唱者，该歌手1演唱所述《A》时录制的声音信号即为原唱音频数据。即便是所述《A》还被歌手2 演唱过，但是因为点的是歌手1演唱的版本而非歌手2演唱的版本，所以歌手2不是本发明实施例所述的原唱者。本发明实施例中，所述用户点的歌曲是哪位歌手演唱的，该歌手即为原唱者，同时该歌手在录音棚录制所述歌曲时发出的声音信号即为原唱音频数据。
值得注意的是，步骤S103是在步骤101之后执行的。
S105、根据所述原唱音调对所述声音信号中的演唱音调进行调节处理，得到经过调节后的声音信号；
具体的，所述根据所述原唱音调对所述声音信号中的演唱音调进行调节处理，得到经过调节后的声音信号，在技术实现上表现为：根据原唱帧的原唱音调对所述演唱帧的演唱音调进行调节处理，得到调节后的演唱帧。因为在发明实施例中，对声音信号来说，无论其接收、输出还是处理，均是以帧为单位进行的。需要说明的是，在所述步骤 S105之前，本发明实施例提供的技术方案还包括：从所述声音信号中提取所述演唱音调。所述从所述声音信号中提取所述演唱音调，在技术实现上具体为：从所述原唱音频数据提取所述原唱帧，并从所述原唱帧中提取所述原唱帧的原唱音调，其中，所述原唱帧对应的伴奏和所述演唱帧对应的伴奏为同一伴奏。
在本发明实施例提供的技术方案中，所述原唱帧的原唱音调通过下述方法获取：
首先，根据所述原唱帧内所有样点的样点值，按照线性预测LPC 模型对所述原唱帧进行共振峰剥离处理，去除所述原唱帧的共振峰，得到所述原唱帧的残差信号ε1；然后，基于所述原唱帧的残差信号ε1，按照音调检测技术进行检测，得到所述原唱帧的原唱音调P1。
需要说明的是，在使用音调检测技术对所述原唱帧的残差信号ε1进行检测前，优选的，对残差信号进行截止频率为500Hz-800Hz左右的低通滤波，以便消除所述原唱帧的残差信号ε1内的高频噪声和高次谐波成分。另外，为了防止使用音调检测算法检测后，所述原唱帧的音调P1可能出现野点，优选的，在得到所述原唱帧的音调P1后，在对所述原唱帧的音调P1进行平滑后处理。
类似的，在本发明实施例提供的技术方案中，所述演唱帧的演唱音调通过下述方法获取：
首先，根据所述演唱帧内所有样点的样点值，按照线性预测LPC 模型对所述演唱帧进行共振峰剥离处理，去除所述演唱帧的共振峰，得到所述演唱帧的残差信号ε0；然后，基于所述演唱帧的残差信号ε0，按照音调检测技术进行检测，得到所述演唱帧的演唱音调P0。
值得注意的是，在使用音调检测技术对所述演唱帧的残差信号ε0进行检测前，优选的，对残差信号进行截止频率为500Hz-800Hz左右的低通滤波，以便消除所述演唱帧的残差信号ε0内的高频噪声和高次谐波成分。另外，为了防止使用音调检测算法检测后，所述演唱帧的演唱音调P0可能出现野点，优选的，在得到所述演唱帧的演唱音调P0后，在对所述演唱帧的演唱音调P0进行平滑后处理。
需要说明的是，所述根据原唱帧的原唱音调对所述演唱帧的演唱音调进行调节处理，得到调节后的演唱帧，具体是指：基于所述演唱帧的演唱音调P0与所述原唱帧的原唱音调P1的比值，得到所述演唱帧的音调调节比例β；利用所述音调调节比例β基于实时音频变调算法对所述演唱帧的演唱音调P0的进行调节处理，得到所述调节后的演唱帧。其中，β小于1，表示需要对所述演唱帧的音调P0进行升调处理； β大于1，表示需要对所述演唱帧的音调P0进行降调处理；β等于1时，表示不需要对所述演唱帧的音调P0进行调节处理。关于实时音频变调算法，目前比较成熟的音频变调算法有频域插值、相位声码器和时域算法等。优选的，本实施例采用时域算法，其中，时域算法具体包括重采样算法(Resample)和同步叠加算法(Synchronized Overlap-and-Add，SOLA)。以调节比例β和所述演唱帧的残差信号ε0为输入，进行重采样实时变调处理，样点数变化为原来样点数的β倍，假设步骤S101中接收到的所述演唱帧的样点数为H，则重采样后，样点数变化为H*β，导致语速也变为原来的β倍；重采样后的样点送入到SOLA模块后，又变回原来的样点数H，同时语速也变回原来的语速。
值得注意的是，所述利用所述音调调节比例β基于实时音频变调算法对所述演唱帧的演唱音调P0的进行调节处理，得到所述调节后的演唱帧，具体是指，利用所述音调调节比例β基于实时音频变调算法对所述演唱帧的残差信号ε0进行调节处理，得到所述调节后的演唱帧的残差信号ε0'。
在得到所述调节后的演唱帧的残差信号ε0'之后，本发明实施例提供的技术方案还包括：根据线性预测LPC模型将所述演唱帧的共振峰和所述调节后的演唱帧的残差信号ε0'进行LPC合成处理，得到所述调节后的演唱帧内所有样点的样点值。
值得注意的是，从所述声音信号中提取所述演唱音调使用的音调检测技术和步骤S103中从所述原唱音频数据中提取所述原唱音调使用的音调检测技术是相同的。目前的音调检测技术发展的比较成熟，常见的有基于短时自相关法的音频检测算法和基于短时平均幅度差函数的音频检测算法。如果步骤S103使用的是基于短时自相关法的音频检测算法，则从所述声音信号中提取所述演唱音调使用的也是基于短时自相关法的音频检测算法；如果步骤S103使用的是基于短时平均幅度差函数的音频检测算法，则从所述声音信号中提取所述演唱音调使用的也是基于短时平均幅度差函数的音频检测算法。
S107、输出所述调节后的声音信号。
值得注意的是，所述输出所述调节后的声音信号的执行主体是扬声器，所述调节后的声音信号是被扬声器以演唱帧为单位，一个演唱帧接着一个演唱帧按照接收时的先后顺序依次输出的，应当理解的是，此处的演唱帧和步骤S101中的演唱帧时相同的。
需要说明的是，所述调节后的声音信号，是按照所述原唱者演唱所述歌曲时的伴奏输出的。以对一个演唱帧为例对本发明提供的技术方案进行说明，接收一个演唱帧，以该演唱帧对应的伴奏对应的原唱帧为参考帧，对该演唱帧进行音调调节处理，得到调节后的演唱帧，该调节后的演唱帧和该演唱帧对应的伴奏对应的原唱帧对应的伴奏是相同的。从而说明，对该演唱帧进行音调调节处理是非常快的，快到对用户来说，是感觉不到演唱发出的声音信号和扬声器输出的声音信号之间的时延的，用户会误以为自己发出的声音直接通过扬声器被输出了。
作为本发明的一个优选的实施例，在步骤106得到经过调节后的声音信号之后、步骤S107输出所述调节后的声音信号之前，所述音调调节方法还包括：对所述调节后的声音信号以演唱帧为单位进行美化处理。具体的，所述对所述调节后的声音信号进行美化处理包括对所述调节后的声音信号进行谐波增强处理以及自适应的能量均衡调节处理，以使经美化处理后的所述声音信号内的所述用户的声音更加饱满有力、通透明亮。
需要说明的是，参见附图1b，为了自适应的均衡所述演唱帧内各频段的能量，需要执行下述步骤：
其中，所述调节后的演唱帧被划分为F个演唱频段，对所述F个演唱频段中的每一演唱频段，均按照下述针对第M个演唱频段的方法进行处理，其中，所述第M个演唱频段为所述F个演唱频段中的一个演唱频段：
S111、计算所述调节后的演唱帧中第M个演唱频段的能量E0(m)， 2≤F≤30且F为整数，M取[1,F]范围内的整数；
需要说明的是，在所述计算所述调节后的演唱帧中的第M个演唱频段的能量E0(m)之前，所述方法还包括下述步骤：根据所述调节后的演唱帧内所有样点的样点值，做N'点的快速傅里叶FFT变换，得到N'个演唱频点和所述N'个演唱频点中演唱频点k0的频点值G0(k0)， k0＝0,1,2，…，N'-1。其中，所述N'大于所述调节后的演唱帧内包括的样点数且所述N'为2的幂数；G0(k0)＝k0/N'*采样率，该采样率是指K歌系统的采样率。
将所述N'个演唱频点划分为所述F个演唱频段。需要说明的是，所述F的取值越大，所述第q演唱帧内被划分的频段越多，则各频段的能量被调节的越细，同时系统的功耗也越大，所以，所述F的取值要综合考虑上述因素。
值得注意的是，所述计算所述调节后的演唱帧中的第M个演唱频段的能量E0(m)，具体使用下述公式：
E 0 ( m ) = 1 k 0 , m h - k 0 , m l + 1 Σ k = k 0 , m l k 0 , m h | G 0 ( k 0 ) | 2 ]]>
其中，所述第M个频段的频带范围为其中，k0,ml表示所述第q演唱帧中所述第M个频段的下限频点，k0,mh表示所述第q演唱帧中所述第M个频段的上限频点。
S113、计算所述原唱帧中第M个原唱频段的能量E1(m)，所述原唱帧被划分为F个原唱频段，所述第M个原唱频段位于所述F个原唱频段中；
需要说明的是，在所述计算所述原唱帧中的第M个原唱频段的能量E1(m)之前，所述方法还包括下述步骤：根据所述原唱帧内所有样点的样点值，做N'点的快速傅里叶FFT变换，得到N'个原唱频点和所述N'个原唱频点中原唱频点k1的频点值G1(k1)，k1＝0,1,2，…，N'-1；将所述N'个原唱频点划分为所述F个原唱频段。
值得注意的是，所述计算所述原唱帧中的第M个原唱频段的能量E1(m)，具体使用下述公式：
E 1 ( m ) = 1 k 1 , m h - k 1 , m l + 1 Σ k = k 1 , m l k 1 , m h | G 1 ( k 1 ) | 2 ]]>
其中，所述第M个频段的频带范围为其中，k1,ml表示所述第q原唱帧中所述第M个频段的下限频点，k1,mh表示所述第q原唱帧中所述第M个频段的上限频点。
S115、根据所述第M个原唱频段的能量E1(m)对所述第M个演唱频段的能量E0(m)进行调节处理，得到经过调节后的所述第M个演唱频段。
具体的，所述根据所述第M个原唱频段的能量E1(m)对所述第M 个演唱频段的能量E0(m)进行调节处理，得到经过调节后的所述第M 个演唱频段，包括：根据所述第M个原唱频段的能量E1(m)对所述第 M个演唱频段的能量E0(m)确定所述第M个演唱频段的调节增益
dBm；
其中，dBm＝10log(E1(m)/E0(m))；
使用所述第M个演唱频段的调节增益dBm设置所述第M个演唱频段的滤波器，并使用设置后的所述第M个演唱频段的滤波器对所述第M个演唱频段进行滤波处理，得到经滤波处理后的所述第M个演唱频段，输出经滤波处理后的所述第M个演唱频段。
值得注意的是，本发明实施例所述的方法还包括下述步骤：
在所述F个演唱频段是根据所述F个演唱频段中每一演唱频段的频率大小，按照从小到大的顺序排序的时，所述第一演唱频段的滤波器为低频搁架滤波器或者低通滤波器；所述第F演唱频段的滤波器为高频搁架滤波器或高通滤波器；在所述F大于或者等于3时，所述第二演唱频段的滤波器至所述第F-1频段的滤波器为峰值滤波器或带通滤波器；
在所述F个演唱频段是根据所述F个演唱频段中每一演唱频段的频率大小，按照从大到小的顺序排序的时，所述第一演唱频段的滤波器为高频搁架滤波器或高通滤波器；所述第F演唱频段的滤波器为低频搁架滤波器或者低通滤波器；在所述F大于或者等于3时，所述第二演唱频段的滤波器至所述第F-1频段的滤波器为峰值滤波器或带通滤波器。
进一步的，本发明实施例提供的技术方案中，在根据原唱帧的原唱音调对演唱帧的演唱音调进行调节处理前，优选的，对所述演唱帧内所有样点的样点值按照短时帧过零率检测算法进行清音检测，确定在所述演唱帧内所述用户发出的声音为非清音。清音检测的目的在于，如果通过检测判断出来所述用户发出的声音为清音，则不必对所述演唱帧进行音调调节处理。
本发明实施例提供的音调调节方法是以帧为单位执行的，所以本发明实施例提供的技术方案也可以表达为：获取一个演唱帧，以该演唱帧对应的原唱帧的原唱音调为参考，对该演唱帧的演唱音调进行音调调节处理，得到并输出调节后的演唱帧。如果依次接收到两个以上的演唱帧，则按照接收所述两个以上的演唱帧的顺序依次对所述两个以上的演唱帧中的每一个演唱帧按照上述本发明实施例提供的音调调节方法的执行流程进行处理。
可知，本发明实施例提供的音调调节方法，包括：接收用户在演唱歌曲时该用户发出的声音信号；根据该歌曲的原唱者演唱所述歌曲时，该原唱者演唱的原唱音频数据中的原唱音调，对该声音信号中的演唱音调进行调节处理，得到并输出调节后的声音信号。采用本发明提供的技术方案，根据歌曲的原唱者演唱该歌曲的音调，对用户在根据原唱者演唱该歌曲的伴奏演唱该歌曲时，该用户唱跑调的音进行调节，以便将该用户唱的不准的音调调节到准确的音调上，以提升用户的演唱体验。
进一步的，本发明实施例提供的技术方案在对用户发出的声音信号进行调节处理后，还对该声音信号进行谐波增强、自适应的能量均衡调节等美化处理，使得经处理后的用户的声音信号更加饱满有力、通透明亮。
实施例二
参见附图2a,本发明实施例提供的一种音调调节装置20的结构示意图，该音调调节装置20为实施例一所述的音调调节方法的执行主体。该音调调节装置20安装在KTV的K歌系统中，或者该音调调节装置 20位于唱吧、K歌达人等K歌软件中。
具体的，参见附图2a，音调调节装置20包括：
接收单元21用于接收用户在演唱歌曲时所述用户发出的声音信号；
需要说明的是，接收单元21是以演唱帧为单位，一个演唱帧接着一个演唱帧的，依次接收用户在演唱歌曲时发出的声音信号的；所述演唱帧的时长为T，所述T的取值位于10ms至30ms之间。通常用户演唱一首歌时会产生成千上万个演唱帧，为了对所述用户演唱的整首歌的声音信号进行处理，就需要对所述用户演唱该歌时产生的成千上万个演唱帧，按照这成千上万个演唱帧的产生顺序一个演唱帧一个演唱帧的依次接收。
提取单元22用于从原唱音频数据中提取原唱音调，所述原唱音频数据是指所述歌曲的原唱者演唱所述歌曲的音频数据，其中，所述用户演唱所述歌曲使用的伴奏与所述原唱者演唱所述歌曲使用的伴奏为同一伴奏；
鉴于接收单元21是以演唱帧为单位，接收所述用户在演唱所述歌曲时发出的声音信号的。为了对接收单元21接收的演唱帧进行音调调节处理，提取单元22需要先从所述原唱音频数据中提取出原唱帧，其中，该原唱帧的时长也为T，以便根据所述原唱帧的原唱音调对所述演唱帧的演唱音调进行音调调节处理。值得注意的是，所述原唱帧对应的伴奏和所述演唱帧对应的伴奏是相同的。
需要说明的是，所述用户发出的声音信号的衡量参数不仅包括音调，还包括音量、音色等。但是在本发明提供的技术方案，是依据原唱音调对用户的演唱音调进行调节，也即，本发明提供的技术方案关注的是音调，所以需要提取单元22从所述原唱音频数据中提取原唱音调，并以该原唱音调为参考，由音调调节单元23对用户的演唱音调进行调节。
所述用户按照所述原唱者演唱所述歌曲时使用的伴奏，演唱所述歌曲，是指所述用户在演唱所述歌曲时节奏和所述原唱者演唱所述歌曲的节奏是一样的，没有抢拍或者慢拍。
另外，需要对原唱音频数据进行解释说明，比如在KTV里点了一首歌手1演唱的歌曲《A》，则该歌手1为原唱者，该歌手1演唱所述《A》时录制的声音信号即为原唱音频数据。即便是所述《A》还被歌手2 演唱过，但是因为点的是歌手1演唱的版本而非歌手2演唱的版本，所以歌手2不是本发明实施例所述的原唱者。本发明实施例中，所述用户点的歌曲是哪位歌手演唱的，该歌手即为原唱者，同时该歌手在录音棚录制所述歌曲时发出的声音信号即为原唱音频数据。
值得注意的是，在提取单元22从所述原唱音频数据中提取所述原唱音调之前，接收单元21具体用于接收所述用户在演唱所述歌曲时，所述用户发出的声音信号。
音调调节单元23用于根据所述原唱音调对所述声音信号中的演唱音调进行调节处理，得到经过调节后的声音信号；
具体的,音调调节单元23用于根据原唱帧的原唱音调对所述演唱帧的演唱音调进行调节处理，得到调节后的演唱帧。值得注意的是, 在发明实施例中，对声音信号来说，无论其接收、输出还是处理，均是以帧为单位进行的。所以相应的,提取单元22还具体用于从所述原唱音频数据提取所述原唱帧，以及具体用于从所述原唱帧中提取所述原唱帧的原唱音调，其中，所述原唱帧对应的伴奏和所述演唱帧对应的伴奏为同一伴奏。
需要说明的是,所述原唱帧和所述演唱帧的时长均为T，所述T的取值位于10ms至30ms之间。
值得注意的是,音调调节单元23具体用于基于所述演唱帧的演唱音调与所述原唱帧的原唱音调的比值，得到所述演唱帧的音调调节比例β；利用所述音调调节比例β基于实时音频变调算法对所述演唱帧的演唱音调的进行调节处理，得到所述调节后的演唱帧。其中，β 小于1，表示需要对所述演唱帧的音调进行升调处理；β大于1，表示需要对所述演唱帧的音调进行降调处理；β等于1时，表示不需要对所述演唱帧的音调进行调节处理。关于实时音频变调算法，目前比较成熟的音频变调算法有频域插值、相位声码器和时域算法等。优选的，本实施例采用时域算法，其中，时域算法具体包括重采样算法 (Resample)和同步叠加算法(Synchronized Overlap-and-Add， SOLA)。
输出单元27用于输出所述调节后的声音信号。
需要说明的是,输出单元27具体用于按照所述原唱者演唱所述歌曲时使用的伴奏，输出所述调节后的声音信号。
值得注意的是,输出单元27具体用于以演唱帧为单位输出所述调节后的声音信号的.
作为本发明的一个优选的实施例,参见附图2b所述的音调调节装置200，还包括第一计算单元204、第二计算单元205和能量调节单元206.
其中，第一计算单元204用于计算所述调节后的演唱帧中第M个演唱频段的能量E0(m)，所述调节后的演唱帧被划分为F个演唱频段，所述第M个演唱频段为所述F个演唱频段中的一个演唱频段，2≤F ≤30且F为整数，M取[1,F]范围内的整数；
需要说明的是，在所述计算所述调节后的演唱帧中的第M个演唱频段的能量E0(m)之前，第一计算单元204还用于根据所述调节后的演唱帧内所有样点的样点值，做N'点的快速傅里叶FFT变换，得到N' 个演唱频点和所述N'个演唱频点中演唱频点k0的频点值G0(k0)， k0＝0,1,2，…，N'-1；以及用于将所述N'个演唱频点划分为所述F个演唱频段；其中，所述N'大于所述调节后的演唱帧内包括的样点数且所述N'为2的幂数；G0(k0)＝k0/N'*采样率，该采样率是指K歌系统的采样率。
需要说明的是，所述F的取值越大，所述第q演唱帧内被划分的频段越多，则各频段的能量被调节的越细，同时系统的功耗也越大，所以，所述F的取值要综合考虑上述因素。
值得注意的是，第一计算单元204具体用于使用下述公式(1)计算所述调节后的演唱帧中的第M个演唱频段的能量E0(m)：
公式(1)： E 0 ( m ) = 1 k 0 , m h - k 0 , m l + 1 Σ k = k 0 , m l k 0 , m h | G 0 ( k 0 ) | 2 ]]>
其中，所述第M个频段的频带范围为其中，k0,ml表示所述第q演唱帧中所述第M个频段的下限频点，k0,mh表示所述第q演唱帧中所述第M个频段的上限频点。
第二计算单元205用于计算所述原唱帧中第M个原唱频段的能量 E1(m)，所述原唱帧被划分为F个原唱频段，所述第M个原唱频段位于所述F个原唱频段中；
需要说明的是，在所述计算所述原唱帧中的第M个原唱频段的能量E1(m)之前，第二计算单元205还用于根据所述原唱帧内所有样点的样点值，做N'点的快速傅里叶FFT变换，得到N'个原唱频点和所述N'个原唱频点中原唱频点k1的频点值G1(k1)，k1＝0,1,2，…，N'-1；将所述N'个原唱频点划分为所述F个原唱频段。
值得注意的是，第二计算单元205具体用于使用下述公式(2)计算所述原唱帧中的第M个原唱频段的能量E1(m).
公式(2): E 1 ( m ) = 1 k 1 , m h - k 1 , m l + 1 Σ k = k 1 , m l k 1 , m h | G 1 ( k 1 ) | 2 ]]>
其中，所述第M个频段的频带范围为其中，k1,ml表示所述第q原唱帧中所述第M个频段的下限频点，k1,mh表示所述第q原唱帧中所述第M个频段的上限频点。
能量调节单元206用于根据所述第M个原唱频段的能量E1(m)对所述第M个演唱频段的能量E0(m)进行调节处理，得到经过调节后的所述第M个演唱频段；
值得注意的是，能量调节单元206具体用于根据所述第M个原唱频段的能量E1(m)对所述第M个演唱频段的能量E0(m)确定所述第M 个演唱频段的调节增益dBm；其中，dBm＝10log(E1(m)/E0(m))；使用所述第M个演唱频段的调节增益dBm设置所述第M个演唱频段的滤波器，并使用设置后的所述第M个演唱频段的滤波器对所述第M个演唱频段进行滤波处理，得到经滤波处理后的所述第M个演唱频段。
相应的，输出单元207还用于输出经滤波处理后的所述第M个演唱频段。
需要说明的是，对于所述F个演唱频段中的每一演唱频段，第一计算单元204、第二计算单元205、能量计算单元206和输出单元207 均还用于按照对所述第M个演唱频段的处理方式进行处理。
可知，本发明实施例提供的音调调节装置，用于根据歌曲的原唱者演唱该歌曲的音调，对用户在根据原唱者演唱该歌曲的伴奏演唱该歌曲时，该用户唱跑调的音进行调节，以便将该用户唱的不准的音调调节到准确的音调上，以提升用户的演唱体验。
进一步的，本发明实施例提供的音调调节装置，还用于根据原唱者的声音能量对用户发出的声音信号进行自适应的能量均衡调节等美化处理，使得经处理后的用户的声音信号更加饱满有力、通透明亮。
实施例三
参见附图3，为本发明实施例提供的一种终端设备300的结构示意图，该终端设备300可以执行实施例一所述的音调调节方法。具体的，如图3所示，所述终端设备300包括：中央处理器CPU301，麦克风306，扬声器307，至少一个网络接口304或者其他用户接口303，存储器305，至少一个通信总线302。所述通信总线302用于实现这些组件之间的连接通信。该终端设备300可选的包含用户接口303，包括显示器(例如，触摸屏、LCD、CTR、全息成像(Holographic)或者投影(Projector) 等)，键盘或者点击设备(例如，鼠标，轨迹球(trackbal l),触感板或者触摸屏等)。
存储器305可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器305的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施例中，存储器305存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集:
操作系统3051，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；
应用程序模块3052，包含各种应用程序，例如桌面(launcher)、媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。
在本发明实施例中，通过调用存储器305存储的程序或指令，麦克风306用于接收用户在演唱歌曲时所述用户发出的声音信号；
需要说明的是，麦克风306是以演唱帧为单位，一个演唱帧接着一个演唱帧的，依次接收用户在演唱歌曲时发出的声音信号的；所述演唱帧的时长为T，所述T的取值位于10ms至30ms之间。通常用户演唱一首歌时会产生成千上万个演唱帧，为了对所述用户演唱的整首歌的声音信号进行处理，就需要对所述用户演唱该歌时产生的成千上万个演唱帧，按照这成千上万个演唱帧的产生顺序一个演唱帧一个演唱帧的依次接收。
CPU301用于从原唱音频数据中提取原唱音调，所述原唱音频数据是指所述歌曲的原唱者演唱所述歌曲的音频数据，其中，所述用户演唱所述歌曲使用的伴奏与所述原唱者演唱所述歌曲使用的伴奏为同一伴奏；以及用于根据所述原唱音调对所述声音信号中的演唱音调进行调节处理，得到经过调节后的声音信号；
鉴于麦克风306是以演唱帧为单位接收所述用户在演唱所述歌曲时发出的声音信号的。为了对麦克风306接收的演唱帧进行音调调节处理，CPU301需要先从所述原唱音频数据中提取出原唱帧，其中，该原唱帧的时长也为T，以便根据所述原唱帧的原唱音调对所述演唱帧的演唱音调进行音调调节处理。值得注意的是，所述原唱帧对应的伴奏和所述演唱帧对应的伴奏是相同的。
需要说明的是，所述用户发出的声音信号的衡量参数不仅包括音调，还包括音量、音色等。但是在本发明提供的技术方案，是依据原唱音调对用户的演唱音调进行调节，也即，本发明提供的技术方案关注的是音调，所以需要CPU301从所述原唱音频数据中提取原唱音调，并以该原唱音调为参考，对用户的演唱音调进行调节。
所述用户按照所述原唱者演唱所述歌曲时使用的伴奏，演唱所述歌曲，是指所述用户在演唱所述歌曲时节奏和所述原唱者演唱所述歌曲的节奏是一样的，没有抢拍或者慢拍。
另外，需要对原唱音频数据进行解释说明，比如在KTV里点了一首歌手1演唱的歌曲《A》，则该歌手1为原唱者，该歌手1演唱所述《A》时录制的声音信号即为原唱音频数据。即便是所述《A》还被歌手2 演唱过，但是因为点的是歌手1演唱的版本而非歌手2演唱的版本，所以歌手2不是本发明实施例所述的原唱者。本发明实施例中，所述用户点的歌曲是哪位歌手演唱的，该歌手即为原唱者，同时该歌手在录音棚录制所述歌曲时发出的声音信号即为原唱音频数据。
值得注意的是，在CPU301从所述原唱音频数据中提取所述原唱音调之前，麦克风306具体用于接收所述用户在演唱所述歌曲时，所述用户发出的声音信号。
具体的,CPU301用于根据原唱帧的原唱音调对所述演唱帧的演唱音调进行调节处理，得到调节后的演唱帧。值得注意的是,在发明实施例中，对声音信号来说，无论其接收、输出还是处理，均是以帧为单位进行的。所以相应的,CPU301还具体用于从所述原唱音频数据提取所述原唱帧，以及具体用于从所述原唱帧中提取所述原唱帧的原唱音调，其中，所述原唱帧对应的伴奏和所述演唱帧对应的伴奏为同一伴奏。
需要说明的是,所述原唱帧和所述演唱帧的时长均为T，所述T的取值位于10ms至30ms之间。
值得注意的是,CPU301具体用于基于所述演唱帧的演唱音调与所述原唱帧的原唱音调的比值，得到所述演唱帧的音调调节比例β；利用所述音调调节比例β基于实时音频变调算法对所述演唱帧的演唱音调的进行调节处理，得到所述调节后的演唱帧。其中，β小于1，表示需要对所述演唱帧的音调进行升调处理；β大于1，表示需要对所述演唱帧的音调进行降调处理；β等于1时，表示不需要对所述演唱帧的音调进行调节处理。关于实时音频变调算法，目前比较成熟的音频变调算法有频域插值、相位声码器和时域算法等。优选的，本实施例采用时域算法，其中，时域算法具体包括重采样算法(Resample) 和同步叠加算法(Synchronized Overlap-and-Add，SOLA)。
扬声器307用于输出所述调节后的声音信号。
值得注意的是，扬声器307具体用于按照所述原唱者演唱所述歌曲时使用的伴奏，输出所述调节后的声音信号。扬声器307具体用于以所述演唱帧为单元，输出所述调节后的声音信号。
需要说明的是，所述原唱帧和所述演唱帧的时长均为T，所述T的取值位于10ms至30ms之间。
作为本发明的另一个实施例，CPU301还用于计算所述调节后的演唱帧中第M个演唱频段的能量E0(m)，所述调节后的演唱帧被划分为F个演唱频段，所述第M个演唱频段为所述F个演唱频段中的一个演唱频段，2≤F≤30且F为整数，M取[1,F]范围内的整数；以及计算所述原唱帧中第M个原唱频段的能量E1(m)，所述原唱帧被划分为 F个原唱频段，所述第M个原唱频段位于所述F个原唱频段中；并根据所述第M个原唱频段的能量E1(m)对所述第M个演唱频段的能量 E0(m)进行调节处理，得到经过调节后的所述第M个演唱频段；
对于所述F个演唱频段中的每一个演唱频段，所述CPU还用于按照对所述第M个演唱频段的处理方法进行处理。
其中上述实施例之间可以相互参见。
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。