一种3D音频质量客观评价方法.pdf

上传人:li****8 文档编号:4289249 上传时间:2018-09-13 格式:PDF 页数:17 大小:591.20KB
返回 下载 相关 举报
摘要
申请专利号:

CN201210125344.6

申请日:

2012.04.25

公开号:

CN102664017A

公开日:

2012.09.12

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G10L 19/00申请日:20120425|||公开

IPC分类号:

G10L19/00; G10L15/10; H04S3/00

主分类号:

G10L19/00

申请人:

武汉大学

发明人:

胡瑞敏; 杨玉红; 李登实; 成鸿飞; 余洪江; 赵云; 翟晴; 高丽; 王松

地址:

430072 湖北省武汉市武昌珞珈山武汉大学

优先权:

专利代理机构:

武汉科皓知识产权代理事务所(特殊普通合伙) 42222

代理人:

薛玲

PDF下载: PDF下载
内容摘要

本发明是一种3D音频质量客观评价方法,经过双耳合成后,分别提取多声道信号的音色感知特征参数、水平声场感知特征参数和高度声场感知特征参数这三种底层声学特征参数,最后通过3D声场心理认知模型的处理以达到拟合主观评价的结果,从而实现客观评价方法与主观评价方法的最大相关。本方法考虑了双耳对三维空间内的声源信息的音色及声场的感知特征参数,客观评价结果更接近三维感知声场的主观评价得分。

权利要求书

1.一种3D音频质量客观评价方法,其特征在于,包含以下步骤:步骤1,将多声道信号的参考序列下混得到参考信号的双耳合成信号,将多声道信号的测试序列下混得到待测信号的双耳合成信号;步骤2,根据步骤1所得参考信号的双耳合成信号和待测信号的双耳合成信号,计算得到待测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数; 步骤3,随机选取若干组步骤2所得待测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数作为3D声场心理认知模型的输入,以预设的相应主观评价分数作为3D声场心理认知模型的输出,经过训练得到3D声场心理认知模型,将步骤2所得其他待测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数输入训练后的3D声场心理认知模型,得到音频质量客观评价结果。2.根据权利要求1所述的一种3D音频质量客观评价方法,其特征在于:在步骤1中,采用头相关传输函数实现下混,得到双耳合成信号。3.根据权利要求1或2所述的一种3D音频质量客观评价方法,其特征在于:采用ITU-R BS.1387-1标准的感知音频质量客观评价模块实现计算待测信号的音色感知特征参数,包括如下步骤,步骤1-1,通过FFT变换将双耳合成信号变换为频域信号,对频域信号计算平方幅值得到能量信号,模拟人外耳和中耳听觉效应对能量信号进行滤波处理,得到滤波后的能量信号;步骤1-2,将滤波后的能量信号进行临界带分组,得到临界带分组信号;所述临界带分组处理模拟了人耳基底膜对不同频带信号的响应差异;步骤1-3,根据心理声学理论对临界带分组信号进行临界带扩展得到激励样本,并计算得到调制样本;步骤1-4,对激励样本经过时域和频域平滑处理,然后通过电平和模式调整,得到频谱适应样本,并计算掩蔽阈值;步骤1-5,根据上述四个步骤的计算结果计算每帧音色感知特征参数值,最后通过平均计算得到待测信号的音色感知特征参数。4.根据权利要求1或2所述的一种3D音频质量客观评价方法,其特征在于:所述待测信号的水平声场感知特征参数包括双耳声级差异、双耳时间差异和双耳互相关系数,计算水平声场感知特征参数包括如下步骤,步骤2-1,通过FFT变换将双耳合成信号变换为频域信号,将参考信号和待测信号的频域信号通过一个Gammatone滤波器组划分为24个频段的巴克带,模拟外耳和中耳滤波对划分的巴克带进行加权,得到参考信号的激励模式和待测信号的激励模式;步骤2-2,计算参考信号的激励模式和待测信号的激励模式的归一化互相关函数,得到参考信号和待测信号之间的双耳时间差异、参考信号和待测信号之间的双耳互相关系数,通过计算参考信号的激励模式和待测信号的激励模式的声强比值的对数值,得到参考信号和待测信号之间的双耳声级差异。5.根据权利要求1或2所述的一种3D音频质量客观评价方法,其特征在于:所述待测信号的高度感知特征参数包括高度角,计算高度感知特征参数包括如下步骤,    步骤3-1,分离待测信号的双耳合成信号的左右声道,并分别进行快速傅里叶变换,得到待测信号的频谱信号;步骤3-2,将待测信号的频谱信号通过一个高斯滤波器滤波,得到滤波后的频谱信号;步骤3-3,在待测信号的滤波后的频谱信号中检测频谱的波峰和波谷,将出现频谱的波峰波谷的位置和头相关传输函数数据库中的不同高度角的波峰波谷位置进行对比,估计得到待测信号的高度角。6.根据权利要求1或2所述的一种3D音频质量客观评价方法,其特征在于:所述3D声场心理认知模型使用BP神经网络,在3D声场心理认知模型中BP神经网络使用最速下降法。

说明书

一种3D音频质量客观评价方法

技术领域

本发明涉及语音音频质量客观评测领域,尤其涉及3D音频和空间音频质量客观评价方
法优化。

背景技术

人类的听觉中,除了对声音的响度、音调和音色等主观属性的感觉外,还包括对声音的
空间听觉,也就是对声音空间属性或特征的主观感觉,3D音频就是一种强调了人耳对声音的
空间属性主观感受的音频信号。随着3D音频在多媒体领域和娱乐产业中的广泛应用,如何
评价3D音频设备的听音感受和音频质量就成了一个亟待关注的研究点。

目前已经有许多音频系统性能评价方法,大致可分为主观和客观评价两大类。ITU组织
针对二维环绕声效评价早在1996年和2003年发布了ITU-RBS.1116-1和BS.1534-1两种宽带
音频质量主观评价标准。随后,NHK针对其22.2多声道系统在2006年提出了基于语义区分
的三维感知声场主观评价方法。

由于主观评价是以人作为主体直接参与评价,其评价结果相对更直接、更合理。传统的
音频质量主观评价方法比较典型的有平均意见得分(Mean Opinion Score:MOS)评价方法,
MOS评价方法是用五个等级来评价音频质量等级:优(5分)、良(4分)、一般(3分)、差
(2分)、坏(1分)。但是主观评价的主要问题是耗时费力,代价大。这使得研究者寻找一种
通过建立预测人感知音频质量的模型和方法进行音频质量的客观评价,其结果应该与主观听
觉测试越接近越好。

目前国际主流上的音频质量客观评价方法是ITU-R BS.1387-1(PEAQ),PEAQ客观评价方
法是ITU综合已有的六种评价方法:Disturbance Index(DIX),Noise-to-Mask Ratio(NMR),
Perceptual Audio Quality Measure(PAQM),Perceptual Evaluation(PERCEVAL),Perceptual 
Objective Measure(POM)and The Toolbox Approach后提出的一项针对单声道的音频信号的客
观评价方法。根据ITU-RBS.562标准将音频质量等级以5级递减表示:无法感知(5分)、可
感知但不恼人(4分)、轻微恼人的(3分)、恼人的(2分)、非常恼人的(1分)。则通过参
考信号和待测信号评分相减得到客观评价得分ODG,分值范围为0到-4之间。PEAQ在评价
音频质量的音色感知声学属性上与主观评价相近,但是PEAQ只能对单声道信号进行客观评
价,不能表征3D音频的空间感知特征参数。

发明内容

本发明的目的是提供3D音频质量客观评价技术方案,使得客观评价的结果更符合人对
3D音频的主观感知效果。

基于以上目的,本发明提供一种3D音频质量客观评价方法,包含以下步骤:

步骤1,将多声道信号的参考序列下混得到参考信号的双耳合成信号,将多声道信号的测试
序列下混得到待测信号的双耳合成信号;

步骤2,根据步骤1所得参考信号的双耳合成信号和待测信号的双耳合成信号,计算得到待
测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数;

步骤3,随机选取若干组步骤2所得待测信号的音色感知特征参数、水平声场感知特征参数、
高度感知特征参数作为3D声场心理认知模型的输入,以预设的相应主观评价分数作为3D声
场心理认知模型的输出,经过训练得到3D声场心理认知模型,将步骤2所得其他待测信号
的音色感知特征参数、水平声场感知特征参数、高度感知特征参数输入训练后的3D声场心
理认知模型,得到音频质量客观评价结果。

而且,在步骤1中,采用头相关传输函数实现下混,得到双耳合成信号。

而且,采用ITU-R BS.1387-1标准的感知音频质量客观评价模块实现计算待测信号的音
色感知特征参数,包括如下步骤,

步骤1-1,通过FFT变换将双耳合成信号变换为频域信号,对频域信号计算平方幅值得到
能量信号,模拟人外耳和中耳听觉效应对能量信号进行滤波处理,得到滤波后的能量信号;

步骤1-2,将滤波后的能量信号进行临界带分组,得到临界带分组信号;所述临界带分组
处理模拟了人耳基底膜对不同频带信号的响应差异;

步骤1-3,根据心理声学理论对临界带分组信号进行临界带扩展得到激励样本,并计算得
到调制样本;

步骤1-4,对激励样本经过时域和频域平滑处理,然后通过电平和模式调整,得到频谱适
应样本,并计算掩蔽阈值;

步骤1-5,根据上述四个步骤的计算结果计算每帧音色感知特征参数值,最后通过平均计
算得到待测信号的音色感知特征参数。

而且,所述待测信号的水平声场感知特征参数包括双耳声级差异、双耳时间差异和双耳
互相关系数,计算水平声场感知特征参数包括如下步骤,

步骤2-1,通过FFT变换将双耳合成信号变换为频域信号,将参考信号和待测信号的频域
信号通过一个Gammatone滤波器组划分为24个频段的巴克带,模拟外耳和中耳滤波对划分
的巴克带进行加权,得到参考信号的激励模式和待测信号的激励模式;

步骤2-2,计算参考信号的激励模式和待测信号的激励模式的归一化互相关函数,得到参
考信号和待测信号之间的双耳时间差异、参考信号和待测信号之间的双耳互相关系数,通过
计算参考信号的激励模式和待测信号的激励模式的声强比值的对数值,得到参考信号和待测
信号之间的双耳声级差异。

而且,所述待测信号的高度感知特征参数包括高度角,计算高度感知特征参数包括如下
步骤,

步骤3-1,分离待测信号的双耳合成信号的左右声道,并分别进行快速傅里叶变换,得到
待测信号的频谱信号;

步骤3-2,将待测信号的频谱信号通过一个高斯滤波器滤波,得到滤波后的频谱信号;

步骤3-3,在待测信号的滤波后的频谱信号中检测频谱的波峰和波谷,将出现频谱的波峰
波谷的位置和头相关传输函数数据库中的不同高度角的波峰波谷位置进行对比,估计得到待
测信号的高度角。

而且,所述3D声场心理认知模型使用BP神经网络,在3D声场心理认知模型中BP神
经网络使用最速下降法。

本发明技术方案评价了3D音频质量多个属性,包括整体音频质量(BAQ),音色保真度
(TF),3维前方空间保真度(3DFSF),3维环绕空间保真度(3DSSF)和3维高度空间保真度
(3DESF),其中通过音色感知模型的PEAQ测度的MOVs值用来表征整体音频质量(GAQ)
和音色保真度(TF),而通过水平声场感知模型计算的水平声场感知特征参数双耳互相关系
数(Inter-Aural Cross-Correlation:IACC),双耳时间差异(Interaural Time Difference:ITD)
和双耳声级差异(Interaural Time Difference:ITD)作为表征3维前方空间保真度(3DFSF)
和3维环绕空间保真度(3DSSF)的评测参数,通过高度感知模型计算的高度角θ作为评价3
维高度空间保真度(3DESF)的评价参数。

附图说明

图1是本发明实施例的流程图。

图2是本发明实施例的音色感知模型框图。

图3是本发明实施例的水平声场感知模型结构框图。

图4是本发明实施例的高度感知模型结构框图。

图5是本发明实施例的3D声场心理认知模型结构框图。

具体实施方式

以下结合附图和实施例详细说明本发明技术方案。

本发明实施例提供的方法包括以下步骤,流程图参见图1:

步骤1,将多声道信号的参考序列下混得到参考信号的双耳合成信号,将多声道信号的
测试序列下混得到待测信号的双耳合成信号。可以采用头相关传输函数实现下混,得到双耳
合成信号。

实施例在步骤1将三维重建的多声道信号的参考序列和测试序列经过双耳信号模拟发生
器,双耳信号表示各声道的输入与对应扬声器位置的头相关冲击响应(Head Related Impulse 
Responses:HRIRs)卷积模拟生成对应双耳接收的两路信号。设N为声道总数,参考和待测
信号双耳信号合成如式(1)所示。

L ^ TestH L ^ RefH R ^ TestH R ^ RefH = H ch 1 _ l H ch 2 _ l L H chN _ l H ch 1 _ r H ch 2 _ r H chN _ r ch 1 test ch 1 Ref ch 2 test ch 2 Ref M M chN test chN Ref . . . ( 1 ) ]]>

其中Hch1_l,表示第1至N个声道信号抵达左耳的头相关传输函数(Head 
Related Transfer Function:HRTF),Hch1_r,表示第1至N个声道信号抵达
右耳的头相关传输函数。ch1test,ch2test...chNtest表示第1至N个声道待测信号的双耳合成信号,
ch1Ref,ch2Ref...chNRef表示第1至N个声道参考信号的双耳合成信号,和分别表示左
右耳的输入信号,上式中头相关冲击响应表示时域而头相关传输函数表示频域。其中,
和分别表示左耳的输入待测信号和输入参考信号、和分别表示右耳的输入待测
信号输入的参考信号。

不失一般性,在下文中,将上述双耳合成信号ch1test~chNtest和ch1ref~chNref分别用待测信
号的双耳合成信号stest和参考信号的双耳合成信号sref表示。

步骤2,根据步骤1所得参考信号的双耳合成信号和待测信号的双耳合成信号,计算得
到待测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数。

实施例将计算音色感知特征参数、水平声场感知特征参数、高度感知特征参数的具体过
程分别实现为音色感知模型、水平声场感知模型和高度感知模型。用步骤1所得用待测信号
的双耳合成信号stest和参考信号的双耳合成信号sref分别作为音色感知模型、水平声场感知模
型和高度感知模型的输入,即可输出得到相应的音色感知特征参数、水平声场感知特征参数、
高度感知特征参数。

图2说明本发明所述方法音色感知模型框图,参考信号和待测信号的双耳合成信号stest和
sref输入音色感知模型,实施例中音色感知模型采用ITU-RBS.1387-1标准的PEAQ模块来评
价,输出10个表征音频音色的特征参数MOVs,该模型是基于FFT的人耳模型,具体实现
为现有技术。

为便于实施参考起见,提供实施例计算音色感知特征参数的具体步骤如下所述:

步骤1-1,时频变换,即通过FFT变换将双耳合成信号变换为频域信号;然后进行外耳
和中耳滤波。

参考信号的双耳合成信号sref为时域信号,将参考信号的双耳合成信号sref通过短时傅里
叶变换,得到参考信号的频域信号Sref;同样的,待测信号的双耳合成信号stesf为时域信号,
将待测信号的双耳合成信号stest通过短时傅里叶变换,得到待测信号的频域信号Stest。实施例
中输入的参考信号的时域信号和待测信号的时域信号采样率为Fs=48kHz,通过短时傅里叶变
换得到的频域信号,帧长为NF=2048个点。下文为便于用公式描述,将参考信号和待测信号
的频域信号都以序列的方式表示为F[kf,n1],其中n1表示信号帧数,kf表示信号频率(下同)。

实施例进行的外耳和中耳滤波,包括对频域信号计算平方幅值得到能量信号,模拟人外
耳和中耳听觉效应对能量信号进行滤波处理。

外耳和中耳的频率响应通过传输函数来模拟,得到Sref和Stest的外耳加权FFT输出
Fe[kf,n1],即滤波处理后的能量信号。外耳传输函数W(f)/dB如下:

W ( f ) / dB = - 0.6 · 3.64 · ( f 1000 ) - 0.8 + 6.5 · e 0.6 · ( f 1000 - 3.3 ) 2 - 10 - 3 · ( f 1000 ) 3.6 - - - ( 2 ) ]]>

式中,频率f的单位是HZ,外耳和中耳的传输函数表示了外耳和中耳对声音的衰减和滤
波过程。便于计算缘故,用W[kf]表示窗函数对应于输入信号的序列表示方式,则需要对W(f)
进行如下式的转换:

W [ k f ] = W ( kF s N F ) . . . ( 3 ) ]]>

上式中,k为采样点下标,则有参考信号和待测信号的外耳加权输出Fe[kf,n1]

F e [ k f , n 1 ] = | F [ k f , n 1 ] | × 10 W [ k f } 20 . . . ( 4 ) ]]>

步骤1-2,临界带分组,包括将步骤1-1所得滤波后的能量信号进行临界带分组,得到临
界带分组信号;所述临界带分组处理模拟了人耳基底膜对不同频带信号的响应差异。

本步骤为模拟内耳基底膜的频率特性,频谱被分配到数个互不交叠的子带中,首先将参
考信号和待测信号的频域信号建立从频域到Bark域的映射:

Z 1 / Bark = 7 · ar sinh ( f / Hz 650 ) . . . ( 5 ) ]]>

其中Z1为Bark带个数,f为人类听觉可闻范围:80Hz--18000Hz,ar sinh(.)是反正弦函
数。Zwicker and Feldtkeller在1967年根据认为听觉特性提出可以将频率划分为活干个临界频
带,以及Bark域测度,规定了频率映射到Bark域的规则。所谓临界带分组其实是把DFT能
量向量分组对应到临界带,其中能量向量用DFT频域值的平方幅值来表示,这是一种映射关
系。

根据公式Pe[k1,n1]=|Fe[kf,n1]|2求得外耳加权FFT输出的能量值,这个过程得到每个频带
的子带频谱能量值Pe[k1,n1]。

实施例还添加内部噪声,给每个子带添加一个频率偏移量PThres,第k1个子带的频率偏
移量记为PThres[k1],得到音高样本Pp[k1,n1],作为临界带分组信号。计算公式如下:

P Thres [ k 1 ] = 10 0.4 - 0.364 × ( f c [ k 1 ] 1000 ) - 0.8 . . . ( 6 ) ]]>

P p [ k 1 , n 1 ] = P e [ k 1 , n 1 ] + P Thres [ k 1 ] - - - ( 7 ) ]]>

其中,fc[k1]表示第k1个子带的中心频率。

步骤1-3,时域和频域扩展,根据心理声学理论对步骤1-2所得临界带分组信号进行临界
带扩展得到激励样本,并计算得到调制样本。

频域扩展在Bark域上进行。将音高样本Pp[k1,n1]经由一个扩展函数分配至整个听域空间,
那么第k1个子带的能量就是各个子带能力在该子带贡献的加和;引入归一化因子,消除扩展
函数在各个子带中引入的增益,得到未拖尾的激励样本Eunsmeared[k1,n1],根据未拖尾的激励样
本Eunsmeared[k1,n1]计算调制能量和包络大小得到调制样本。为了模拟向前掩蔽,将各个子带的
能量在时间上低通滤波器平滑,得到激励样本E[k1,n1]。

步骤1-4,激励样本处理,包括对激励样本经过时域和频域平滑处理,然后通过电平和模
式调整,得到频谱适应样本,并计算掩蔽阈值。

本步骤要对参考信号和待测信号的激励样本进行电平适应和模式适应处理。为补偿参考
信号和待测信号的响度差异和线性失真,待测信号和参考信号的平均电平要适应调整。适应
分为电平适应和模式适应两个步骤,最终获得参考信号和待测信号的频谱适应样本。

其次是调制计算部分,首先根据未拖尾的激励样本Eunsmeared[k1,n1]计算平均响度
和计算简化响度的差值计算公式如下:

E der [ k 1 , n 1 ] = a · E der [ k 1 , n 1 - 1 ] + ( 1 - a ) · F s N F / 2 · | E [ k 1 , n 1 ] 0.3 - E [ k 1 , n 1 - 1 ] 0.3 | . . . ( 8 ) ]]>

E [ k 1 , n 1 ] = a · E [ k 1 , n 1 - 1 ] + ( 1 - a ) · E [ k 1 , n 1 ] 0.3 . . . ( 9 ) ]]>

式中τ表示时间常数,E[k1,n1]表示激励样本模式。

然后可得到各子带包络,子带包络表示每一个滤波通道的包络大小,计算公式如下:
子带包络将用于PEAQ模型中的MOVs计算。

最后是响度计算部分,在响度计算中先是通过计算每帧音频信号的响度,最后求平均得
到总响度,响度计算还包括噪声响度。

步骤1-5,模型输出参数(MOVs)的计算,包括根据上述四个步骤的计算结果(即参考
信号和待测信号的激励样本、调制样本、频谱适应样本和子带包络、响度值、噪声值等参数)
计算每帧音色感知特征参数值,最后通过平均计算得到待测信号的音色感知特征参数。

根据实验结果,本发明实施例使用的PEAQ模块提取的共有10个MOVs作为音色感知
特征参数,即音色感知保真度的底层声学参数。这10个评价3D音频的音色感知特征参数有
助于拟合主观测试结果,分别为:噪掩比TotalNMR、加窗后的调制差异WinModDiff、平均
调制差异AvgModDiff、响度失真RmsNoiseLoud、参考信号带宽BandwidthRef、待测信号带
宽Bandwidthtest、平均块失真ADB、差错信号谐波结构EHS、最大检测概率MFPD和相对
干扰帧RelDisFrames。

对于每一个MOVs的详细计算过程为现有技术,可参考ITU的BS.1387-1标准。在本实
施例中分别以平均调制差异AvgModDiff计算,待测信号带宽Bandwidthtest和参考信号带宽
BandwidthRef为例说明MOVs的计算过程。

待测信号平均调制差异AvgModDiff,也称为暂态包络差异,也即是调制差异是通过计算
每个巴克带滤波通道的调制差异也即是本地调制差异(local modulation differences),并求平
均可得,如下式所示:

ModDiff [ k 1 , n 1 ] = w · | Mod test [ k 1 , n 1 ] - Mod Ref [ k 1 , n 1 ] offset + Mod Ref [ k 1 , n 1 ] ]]>

.........(10)

w = 1.0 | Mod test [ k 1 , n 1 ] > Mod Ref [ k 1 , n 1 ] w = 0.1 | Mod test [ k 1 , n 1 ] < Mod Ref [ k 1 , n 1 ] ]]>

其中,Modtest[k1,n1]和ModRef[k1,n1]是在步骤1-4具体计算中已经提到的待测信号和参考
信号的子带包络,其中,offset表示偏移量,一般设定为0.01,w是加权因子,根据参考信号
和待测信号子带包络相对大小而确定。那么对瞬态调制差异求平均即可得到所求平均调制差
异:

ModDiff [ n 1 ] = 100 Z 1 Σ k 1 = 0 Z 1 - 1 ModDiff [ k 1 , n 1 ] . . . ( 11 ) ]]>

待测信号带宽Bandwidthtest、参考信号带宽BandwidthRef参数由参考信号和待测信号的
FFT输出(以dB为单位)计算而来。具体方法为:

(1)在待测信号中,找出21.6kHz以上信号的最大幅值(单位dB)作为参考门限。

(2)在参考信号中,从21.6kHz开始往低频搜索,找到第一个超过参考门限10dB的样点,
记下此样点的索引号KR[n1],作为参考信号的带宽。

(3)在待测信号中,从上步记下的索引KR[n1]号开始往低频搜索,找到第一个超过参考门
限5dB的样点,记下此时的索引号为KR[n1],作为待测信号的带宽。

取KR[n1]的时域平均即为两个输入信号的最终带宽,上面计算的是瞬态的带宽,对所有
帧求平均后,公式如下:

W T = 1 N 1 Σ n = 0 N 1 - 1 K R [ n 1 ] . . . ( 12 ) ]]>

WT表示信号整体平均带宽,N1表示帧数,当然,这里要注意,如果通过上述方法计算的
带宽没有超过8.1khz,则忽略该帧数据的带宽。

图3是本发明实施例中的水平声场感知模型框图,参考信号和待测信号的双耳合成信号
stest和sref输入环绕双耳模型,经过滤波和频带扩展输出人耳基底膜的激励模式;然后根据认
知模型得到水平声场感知特征参数。

为便于实施参考起见,提供实施例计算水平声场感知特征参数的具体步骤如下所述:

步骤2-1,通过FFT变换将参考信号和待测信号的双耳合成信号变换为频域信号,将参考
信号和待测信号的频域信号通过一个Gammatone滤波器组划分为24个频段的巴克带,模拟
外耳和中耳滤波对划分的巴克带进行加权,得到参考信号的激励模式和待测信号的激励模式。

本发明实施例使用4阶的Patterson-Holdsworth滤波器组(也称为Gammatone滤波器组),
与PEAQ中的基于FFT的人耳感知模型相比,Gammatone滤波器组能很好地模拟听觉实验中
的生理数据,能够体现基底膜尖锐的滤波特性。考虑到Gammatone滤波器组与人耳基底膜两
者在冲激响应、幅频特性等方面的相似性,可以采用一组中心频率呈对数均匀分布的
Gammatone滤波器组来模拟基底膜。

Gammatone滤波器用一个因果的冲激响应函数Gammatone函数来描述其滤波器特性,
其时域表示如式13所示:

g(t)=Bntn-1e-2πBtcos(2πfot+φ)u(t).........(13)

其中:g(t)是Gammatone函数缩写,t是时间变量,φ表示Gammatone滤波器的初始相
位。t<0时u(t)=0,t>0时u(t)=1,n为Gammatone滤波器的阶数,参数B=b×ERB(fo),
b1=1.019是为了让Gammatone函数更好地与生理数据相符而引入的参数,ERB(fo)为
Gammatone滤波器的等价矩形带宽,它同Gammatone滤波器中心频率fo的关系是:

ERB(fo)=24.7+0.108fo.........(14)

不同的特征频率对应不同的Gammatone滤波器中心频率,这个关系可以把不同
Gammatone滤波器和不同的基底膜位置对应起来,从而实现对基底膜每个位置质点运动状态
的仿真。使用Gammatone滤波器组对双耳合成信号进行滤波,则输出结果为待测信号的激励
模式和参考信号的激励模式,可以分别用表示,式中k2和n2分别表示
Gammatone滤波器组频带和时间的索引。

步骤2-2,计算参考信号的激励模式和待测信号的激励模式的归一化互相关函数,得到参
考信号和待测信号之间的双耳时间差异、参考信号和待测信号之间的双耳互相关系数,通过
计算参考信号的激励模式和待测信号的激励模式的声强比值的对数值,得到参考信号和待测
信号之间的双耳声级差异。

所述待测信号和参考信号的激励模式输入认知模型,得到表征水平声场感知特征参数:
双耳声级差异(ILD),双耳时间差异(ITD),双耳互相关系数(IACC)。参考信号和待测信号的
ITD主要用于低频(低于1500HZ)声源方向定位,ITD可以通过计算基于时间窗的归一化互
相关函数(Normalized Cross-correlation Function:NCF)来计算,参考信号和待测信号的
ITD,IACC的计算方法是一样的,以待测信号为例,互相关函数的计算是用长度约为20ms的
7/8重叠矩形窗,待测信号的互相关函数如下式:

NCF k 2 , n 2 [ d ] = Σ l X L , k 2 , n 2 [ l ] X R , k 2 , n 2 [ l + d ] Σ l X L , k 2 , n 2 2 [ l ] X R , k 2 , n 2 2 [ l ] . . . ( 15 ) ]]>

上式中d表示样本间的时间延时,l表示离散序列索引,和分别表示待
测信号左右声道频谱序列,表示待测信号的频谱序列经过d延时后的结果。

则IACC定义为所有计算样本间延时d的NCF最大值,而ITD即是该最大值所对应的d
值,也即是:

IACC [ k 2 , n 2 ] = max | NCF k 2 , n 2 [ d ] | d = - N 2 d = + N 2 . . . ( 16 ) ]]>

ITD [ k 2 , n 2 ] arg d max | NCF k 2 , n 2 [ d ] | d = - N 2 d = + N 2 . . . ( 17 ) ]]>

其中,IACC[k2,n2]和ITD[k2,n2]分别表示双耳互相关系数序列和双耳时间差序列。N2是
样本延时d的范围,理论上几乎涵盖了所有ITD值,以样本数来表示。可感知的声源方向变
化可以用基于单位圆的两个位置之间的欧式距离来近似计算。一般的,对于两个不同的方位
角θ1、θ2之间的距离可以用以下公式计算:

( cos θ 1 - cos θ 2 ) 2 + ( sin θ 1 - sin θ 2 ) = 2 2 - 2 cos ( θ 1 - θ 2 ) . . . ( 18 ) ]]>

从而,根据待测信号和参考信号之间的ITD的差别,两声源方向的感知距离计算如下:

ΔITD [ k 2 , n 2 ] = 2 - 2 cos π f s / N max ( ITD test [ k 2 , n 2 ] - ITD ref [ k 2 , n 2 ] ) . . . ( 19 ) ]]>

其中,ITDtest[k2,n2]和ITDref[k2,n2]表示待测信号和参考信号的双耳时间差序列,fs是
采样率,而Nmax是样本间ITD的最大值,因此可视作限制上述公式中余弦函数的输入在
0-π之间的归一化因子。

在某些情况下,如果IACC值太小以至于不能产生稳定的可感知声源方向,ITD值便不
易计算。因此,我们需要加入一个确定性因子p[k2,n2]来考虑可计算的ITD确定性,该确定
性可通过经近似相切反曲函数处理的IACC非线性变换建模得到:

p [ k 2 , n 2 ] = { 1 + e - S ( | IACC [ k 2 , n 2 ] | ) - T k } - 1 . . . ( 20 ) ]]>

S和Tk分别是斜度和阀值,Tk在不同的频带取不同的值。因此经过确定性因子的建模,
ITD失真值ITDDist[k2,n2]计算如下:

ITDDist [ k 2 , n 2 ] = 1 2 ( p test [ k 2 , n 2 ] + p ref [ k 2 , n 2 ] ) × ΔITD [ k 2 , n 2 ] . . . ( 21 ) ]]>

其中,pref[k2,n2]和ptest[k2,n2]分别表示参考信号和待测信号的确定性因子。

IACC表示清晰声源宽度,根据上述计算的IACC[k2,n2],不难计算IACC失真值
IACCDist[k2,n2],与计算ITD不同这里计算互相关系数使用的窗函数长度为50ms:

IACCDist[k2,n2]=w2×|IACCtest[k2,n2]-IACCref[k2,n2]|.........(22)

其中,IACCtest[k2,n2]和IACCref[k2,n2]分别表示待测信号和参考信号的双耳互相关系数、
w2表示加权系数。

参考信号和待测信号的ILD主要用于高频(高于2500HZ)声源方向定位,用于描述左
右耳接收到声压级的差异,ILD是高频声音方向感知测度的重要线索,因此,待测信号和参
考信号之间的ILD差异可以反映高频音频信号可感知的声音方向降质程度。ILD的计算公式
如下:

ILD [ k 2 , n 2 ] = 10 log 10 ( Σ l X L , k 2 , n 2 2 [ l ] Σ l X R , k 2 , n 2 2 [ l ] ) . . . ( 23 ) ]]>

ILD值ILD[k2,n2]为10倍于第n2时间帧第k2频带的左右耳输入信号XR和XL强度比值的
对数值,且强度值是由长度为10ms的3/4重叠矩形窗计算。ILD的计算区别于ITD,首先,
根据ILD不同,两处声源的可感知差异可由ILD的对数域值(DB功率)来表征;其次,针对基
于ILD的声源方向定位判断,会考虑声音强度的权重。因此ILD失真测度ILDDist[k2,n2]如
下所示:

ILDDist [ k 2 , n 2 ] = w 3 [ k 2 ] × log 10 ( Σ l X T , k 2 , n 2 2 [ l ] × | ILD test [ k 2 , n 2 ] - ILD ref [ k 2 , n 2 ] | ) . . . ( 24 ) ]]>

其中,w3[k2]是非线性权重因子,表示映射每个频带的ILD失真相对重要度,ILDtest[k2,n2]
和ILDref[k2,n2]分别表示待测信号和参考信号的双耳声级差。综合上述的ILD,ITD和IACC
将作为水平声场感知特征参数输入到3D心理认知模型中处理。

图4是本发明实施例的高度感知模型结构框图,待测信号的双耳合成信号stest和sref经过
声道分离,分别以单声道(包括左右声道)作为高度感知模型的输入信号,然后经过FFT变
换,高斯滤波,波峰和波谷检测,并采用估计器与HRTF数据库中的高度角信息进行对比,
确定一次实验中待测信号的高度感知特征参数:声源的高度角θ。

为便于实施参考起见,提供实施例计算高度感知特征参数的具体步骤如下所述:

步骤3-1,分离待测信号的双耳合成信号的左右声道,并分别进行快速傅里叶变换,得到
待测信号的频谱信号;

步骤3-2,将待测信号的频谱信号通过一个高斯滤波器滤波,得到滤波后的频谱信号;

步骤3-3,在待测信号的滤波后的频谱信号中检测频谱的波峰和波谷,将出现频谱的波峰
波谷的位置和头相关传输函数数据库中的不同高度角的波峰波谷位置进行对比,估计得到待
测信号的高度角。

在高度角θ的计算中,需要提供一个参考的数据库,数据库中包含头相关传输函数(Head 
Related Transfer Function,HRTF).估计器中用到的HRTF数据库是KEMAR数据库,该数据
库来自麻省理工学院媒体实验室在假人工头(KEMAR)上测得的HRTF数据。在KEMAR
模拟系统中搭建一个人工头放置在距离扬声器中垂线1.5米的位置接受双耳输入信号,人工
头悬空并对称,左右耳输入信号假设是一致的,由估计器来估计声音事件的高度角。HRTFs
是在无回声和无混响的听音室里,在中垂面上在-40°和90°之间以没10°为步长进行测量的,
在KEMAR数据库有44100Hz的采样率和65个采样点的谱分辨率。

用于定位的谱线索主要集中于4k~16kHz,且决定前向声场方位的谱线索包含一个在
4k~8kHz之间低于截止频率的八度音波谷(定义为N1)和一个能量增加且频率高于13kHz
的八音度波谷;而上方声场方位的谱线索是在7k~9kHz之间的1/4八度音波峰(定义为P1)。
随着声源的高度角在-45°和45°之间变化的时候,频谱的波谷在6k~10kHz之间也随着变化。
多次实验的结果表明头传输函数的参数主要由第一个和第二个频谱波谷和第一个频谱波峰组
成。

在频谱的波峰和波谷检测中,在5kHz以上的波峰和波谷对于感知高度角的贡献是比较
大的,因此提取在频率范围4kHz以上的谱峰,根据具体位置对波峰和波谷进行标注(如P1,
N1,P2,N2,....)。在提取波峰和波谷之前,应该用高斯滤波器对谱波动进行平滑处理:

H w ( k 3 ) = Σ n 3 = - N 3 N 3 H ( k 3 + n 3 ) W ( n 3 ) . . . ( 25 ) ]]>

W ( n 3 ) = 1 2 π σ e - n 3 2 2 σ 2 . . . ( 26 ) ]]>

H(k3+n3)是不同高度角的频谱,Hw(k3)是经过高斯滤波器后的频谱,W(n3)是高斯滤
波器,k3和n3表征离散频点,为了使得信号更平滑,式中的n3和σ的设置依赖于采样率,
在KEMAR曲线中N3和σ分别赋值为4和1.3,所述的频谱的波峰和波谷被定义为水平谱的相
对极大值和极小值,且其中水平谱被归一化至0dB以使得峰值和谷值和声音音量相互独立。

在高度角θ估计中,为了能从HRTF数据库中的抽取出和实际单耳信号谱匹配度最高的
HRTF曲线,需要对比不同HRTF曲线的波峰和波谷从而在数据库里找到最匹配的高度角θ对应
的HRTF曲线。估计器计算过程如下描述,每个单耳信号和每个HRTF谱都有一套波峰属性和
波谷属性:N和P,而k代表频带索引,因此有


Signal={kNi,kPi}.........(28)

其中,表示不同高度角的HRTF谱,kNi和kPi分别表示波峰和波谷索引,表示
不同高度角,Signal表示一组波峰和波谷。

上式中,由于体现了声源高度定位最重要的频率段是在4000Hz和15000Hz之间,因此只
有在4000Hz和15000Hz之间的波峰和波谷用来分析估计。每个HRTF曲线都赋予一个值,
用来表示各自声源信号频谱的波峰和波谷的频谱距离,也即是


上式中,为声源信号频谱的波峰和波谷的频谱距离,wi表示加权因子。设ki和kj表
示波峰或波谷的索引,若ki=kj则wi=1;若|ki-kj|=1则wi=0.5;若|ki-kj|=2则wi=0.25;
其他情况下,wi=0。w值在两个波峰频率相等时取最大值,且随着两个波峰频率不同而下降。
信号谱中的每个波峰和波谷都用来从HRTF中搜索最相近的波峰和波谷,在算法中计算HRTF
数据库中每个高度角对应波谷和声源波谷的频谱距离最后的最大值所对应的
HRTF高度角即是所估计的高度角θ,也即是


如果有多个角度有同样的值,则在该时间窗下的高度角θ为这些角度的平均值。

步骤3,随机选取若干组步骤2所得待测信号的音色感知特征参数、水平声场感知特征
参数、高度感知特征参数作为3D声场心理认知模型的输入,以预设的相应主观评价分数作
为3D声场心理认知模型的输出,经过训练得到3D声场心理认知模型,将步骤2所得其他待
测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数输入训练后的3D
声场心理认知模型,得到音频质量客观评价结果。随机选取的比例可以由本领域技术人员自
行指定,一般是取一半待测信号的的音色感知特征参数、水平声场感知特征参数、高度感知
特征参数作为3D声场心理认知模型的输入进行训练,将另一半待测信号的音色感知特征参
数、水平声场感知特征参数、高度感知特征参数输入训练后的3D声场心理认知模型,得到
音频质量客观评价结果。

图5是本发明实施例的3D声场心理认知模型结构框图,将之前所述的音色感知模型、
水平声场感知模型和高度感知模型所得到的音色感知特征参数、水平声场感知特征参数、高
度感知特征参数共14个参数作为BP神经网络的输入,经过神经网络后得到最终单一的音频
质量客观评价分数。

实施例通过运用人工BP神经网络模型实现融合,基本实施过程如下:建立BP神经网络
模型,其结构如图5所示,图中N表示节点。节点激活函数采用sigmoid函数,即
其中e为数学常数,x为该函数的输入。

该模型包含14个输入,并且神经网络模型的隐层中有5个节点。预先建立序列集,将原
始的12个参考序列作为参考信号,利用不同的多声道压缩编码系统对12个序列进行编解码,
得到12×12=144个作为待测信号的测试序列。可以预先由专家对每个测试序列进行主观评价,
得到主观评价分数,本发明中作为已知量输入即可。随机取其中72个测试序列作为训练用的
待测信号,将根据这72个待测信号和参考信号的双耳合成信号所得音色感知特征参数、水平
声场感知特征参数、高度感知特征参数作为输入,以预设的相应主观评价分数作为输出,对
模型映射过程中输入层的两个限制因子amin[i]和amax[i]、输入层的加权系数wx[i]、输出层的
加权系数wy[j]以及输出层的两个限制因子bmin和bmax进行训练,得到一系列系数集合,3D声
场心理认知模型形成。剩余的72个测试序列作为评价用的待测信号,使用训练过的神经网络
进行客观质量评价得到客观评分,即将根据剩余72个待测信号和参考信号的双耳合成信号所
得音色感知特征参数、水平声场感知特征参数、高度感知特征参数作为输入,训练过的神经
网络的输出即是音频质量客观评价分数。

将音色特征参数、水平声场感知特征参数和高度感知特征参数共14个参数作为神经网络
模型的输入a[i]输入给神经网络模型,映射到失真索引(Distortion Index:DI):

DI = w y [ J ] + Σ j = 0 J - 1 ( w y [ j ] × sig ( w x [ I , j ] + Σ i = 0 I - 1 w x [ i , j ] × x [ i ] - a min [ i ] a max [ i ] - a min [ i ] ) ) . . . ( 31 ) ]]>

式中,I=14,J=5,则wy[J]表示j=5时候的输出层加权系数,wx[I,j]表示i=14时的输入
层加权系数,x[i]表示输入,wx[i,j]表示输入层加权系数;i取0,1,K,I-1,j取0,1,K,J-1,
利用失真索引DI,最终计算出音频质量客观评价分数ODG:

ODG=bmin+(bmax-bmin)×sig(DI).........(32)

该分数即为本发明所提出的评价3D音频质量的最终得分。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技
术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不
会偏离本发明的精神或者超越所附权利要求书所定义的范围。

一种3D音频质量客观评价方法.pdf_第1页
第1页 / 共17页
一种3D音频质量客观评价方法.pdf_第2页
第2页 / 共17页
一种3D音频质量客观评价方法.pdf_第3页
第3页 / 共17页
点击查看更多>>
资源描述

《一种3D音频质量客观评价方法.pdf》由会员分享,可在线阅读,更多相关《一种3D音频质量客观评价方法.pdf(17页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102664017 A (43)申请公布日 2012.09.12 C N 1 0 2 6 6 4 0 1 7 A *CN102664017A* (21)申请号 201210125344.6 (22)申请日 2012.04.25 G10L 19/00(2006.01) G10L 15/10(2006.01) H04S 3/00(2006.01) (71)申请人武汉大学 地址 430072 湖北省武汉市武昌珞珈山武汉 大学 (72)发明人胡瑞敏 杨玉红 李登实 成鸿飞 余洪江 赵云 翟晴 高丽 王松 (74)专利代理机构武汉科皓知识产权代理事务 所(特殊普通合伙) 422。

2、22 代理人薛玲 (54) 发明名称 一种3D音频质量客观评价方法 (57) 摘要 本发明是一种3D音频质量客观评价方法,经 过双耳合成后,分别提取多声道信号的音色感知 特征参数、水平声场感知特征参数和高度声场感 知特征参数这三种底层声学特征参数,最后通过 3D声场心理认知模型的处理以达到拟合主观评 价的结果,从而实现客观评价方法与主观评价方 法的最大相关。本方法考虑了双耳对三维空间内 的声源信息的音色及声场的感知特征参数,客观 评价结果更接近三维感知声场的主观评价得分。 (51)Int.Cl. 权利要求书2页 说明书12页 附图2页 (19)中华人民共和国国家知识产权局 (12)发明专利申请。

3、 权利要求书 2 页 说明书 12 页 附图 2 页 1/2页 2 1.一种3D音频质量客观评价方法,其特征在于,包含以下步骤: 步骤1,将多声道信号的参考序列下混得到参考信号的双耳合成信号,将多声道信号的 测试序列下混得到待测信号的双耳合成信号; 步骤2,根据步骤1所得参考信号的双耳合成信号和待测信号的双耳合成信号,计算得 到待测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数; 步骤3,随机选取若干组步骤2所得待测信号的音色感知特征参数、水平声场感知特征 参数、高度感知特征参数作为3D声场心理认知模型的输入,以预设的相应主观评价分数作 为3D声场心理认知模型的输出,经过训练得。

4、到3D声场心理认知模型,将步骤2所得其他待 测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数输入训练后的3D 声场心理认知模型,得到音频质量客观评价结果。 2.根据权利要求1所述的一种3D音频质量客观评价方法,其特征在于:在步骤1中, 采用头相关传输函数实现下混,得到双耳合成信号。 3.根据权利要求1或2所述的一种3D音频质量客观评价方法,其特征在于:采用ITU-R BS.1387-1标准的感知音频质量客观评价模块实现计算待测信号的音色感知特征参数,包 括如下步骤, 步骤1-1,通过FFT变换将双耳合成信号变换为频域信号,对频域信号计算平方幅值得 到能量信号,模拟人外耳和中耳听。

5、觉效应对能量信号进行滤波处理,得到滤波后的能量信 号; 步骤1-2,将滤波后的能量信号进行临界带分组,得到临界带分组信号;所述临界带分 组处理模拟了人耳基底膜对不同频带信号的响应差异; 步骤1-3,根据心理声学理论对临界带分组信号进行临界带扩展得到激励样本,并计算 得到调制样本; 步骤1-4,对激励样本经过时域和频域平滑处理,然后通过电平和模式调整,得到频谱 适应样本,并计算掩蔽阈值; 步骤1-5,根据上述四个步骤的计算结果计算每帧音色感知特征参数值,最后通过平均 计算得到待测信号的音色感知特征参数。 4.根据权利要求1或2所述的一种3D音频质量客观评价方法,其特征在于:所述待测 信号的水平声。

6、场感知特征参数包括双耳声级差异、双耳时间差异和双耳互相关系数,计算 水平声场感知特征参数包括如下步骤, 步骤2-1,通过FFT变换将双耳合成信号变换为频域信号,将参考信号和待测信号的频 域信号通过一个Gammatone滤波器组划分为24个频段的巴克带,模拟外耳和中耳滤波对划 分的巴克带进行加权,得到参考信号的激励模式和待测信号的激励模式; 步骤2-2,计算参考信号的激励模式和待测信号的激励模式的归一化互相关函数,得到 参考信号和待测信号之间的双耳时间差异、参考信号和待测信号之间的双耳互相关系数, 通过计算参考信号的激励模式和待测信号的激励模式的声强比值的对数值,得到参考信号 和待测信号之间的双。

7、耳声级差异。 5.根据权利要求1或2所述的一种3D音频质量客观评价方法,其特征在于:所述待测 信号的高度感知特征参数包括高度角,计算高度感知特征参数包括如下步骤, 步骤3-1,分离待测信号的双耳合成信号的左右声道,并分别进行快速傅里叶变 权 利 要 求 书CN 102664017 A 2/2页 3 换,得到待测信号的频谱信号; 步骤3-2,将待测信号的频谱信号通过一个高斯滤波器滤波,得到滤波后的频谱信号; 步骤3-3,在待测信号的滤波后的频谱信号中检测频谱的波峰和波谷,将出现频谱的波 峰波谷的位置和头相关传输函数数据库中的不同高度角的波峰波谷位置进行对比,估计得 到待测信号的高度角。 6.根据。

8、权利要求1或2所述的一种3D音频质量客观评价方法,其特征在于:所述3D 声场心理认知模型使用BP神经网络,在3D声场心理认知模型中BP神经网络使用最速下降 法。 权 利 要 求 书CN 102664017 A 1/12页 4 一种 3D 音频质量客观评价方法 技术领域 0001 本发明涉及语音音频质量客观评测领域,尤其涉及3D音频和空间音频质量客观 评价方法优化。 背景技术 0002 人类的听觉中,除了对声音的响度、音调和音色等主观属性的感觉外,还包括对声 音的空间听觉,也就是对声音空间属性或特征的主观感觉,3D音频就是一种强调了人耳对 声音的空间属性主观感受的音频信号。随着3D音频在多媒体领。

9、域和娱乐产业中的广泛应 用,如何评价3D音频设备的听音感受和音频质量就成了一个亟待关注的研究点。 0003 目前已经有许多音频系统性能评价方法,大致可分为主观和客观评价两大类。ITU 组织针对二维环绕声效评价早在1996年和2003年发布了ITU-RBS.1116-1和BS.1534-1 两种宽带音频质量主观评价标准。随后,NHK针对其22.2多声道系统在2006年提出了基 于语义区分的三维感知声场主观评价方法。 0004 由于主观评价是以人作为主体直接参与评价,其评价结果相对更直接、更合理。传 统的音频质量主观评价方法比较典型的有平均意见得分(Mean Opinion Score:MOS)评。

10、价 方法,MOS评价方法是用五个等级来评价音频质量等级:优(5分)、良(4分)、一般(3分)、 差(2分)、坏(1分)。但是主观评价的主要问题是耗时费力,代价大。这使得研究者寻找 一种通过建立预测人感知音频质量的模型和方法进行音频质量的客观评价,其结果应该与 主观听觉测试越接近越好。 0005 目前国际主流上的音频质量客观评价方法是ITU-R BS.1387-1(PEAQ), PEAQ客观评价方法是ITU综合已有的六种评价方法:Disturbance Index(DIX), Noise-to-Mask Ratio(NMR),Perceptual Audio Quality Measure(PA。

11、QM),Perceptual Evaluation(PERCEVAL),Perceptual Objective Measure(POM)and The Toolbox Approach 后提出的一项针对单声道的音频信号的客观评价方法。根据ITU-RBS.562标准将音频质量 等级以5级递减表示:无法感知(5分)、可感知但不恼人(4分)、轻微恼人的(3分)、恼人 的(2分)、非常恼人的(1分)。则通过参考信号和待测信号评分相减得到客观评价得分 ODG,分值范围为0到-4之间。PEAQ在评价音频质量的音色感知声学属性上与主观评价相 近,但是PEAQ只能对单声道信号进行客观评价,不能表征3D音频的。

12、空间感知特征参数。 发明内容 0006 本发明的目的是提供3D音频质量客观评价技术方案,使得客观评价的结果更符 合人对3D音频的主观感知效果。 0007 基于以上目的,本发明提供一种3D音频质量客观评价方法,包含以下步骤: 0008 步骤1,将多声道信号的参考序列下混得到参考信号的双耳合成信号,将多声道信 号的测试序列下混得到待测信号的双耳合成信号; 0009 步骤2,根据步骤1所得参考信号的双耳合成信号和待测信号的双耳合成信号,计 说 明 书CN 102664017 A 2/12页 5 算得到待测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数; 0010 步骤3,随机选取若干。

13、组步骤2所得待测信号的音色感知特征参数、水平声场感知 特征参数、高度感知特征参数作为3D声场心理认知模型的输入,以预设的相应主观评价分 数作为3D声场心理认知模型的输出,经过训练得到3D声场心理认知模型,将步骤2所得其 他待测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数输入训练后 的3D声场心理认知模型,得到音频质量客观评价结果。 0011 而且,在步骤1中,采用头相关传输函数实现下混,得到双耳合成信号。 0012 而且,采用ITU-R BS.1387-1标准的感知音频质量客观评价模块实现计算待测信 号的音色感知特征参数,包括如下步骤, 0013 步骤1-1,通过FFT变换将。

14、双耳合成信号变换为频域信号,对频域信号计算平方幅 值得到能量信号,模拟人外耳和中耳听觉效应对能量信号进行滤波处理,得到滤波后的能 量信号; 0014 步骤1-2,将滤波后的能量信号进行临界带分组,得到临界带分组信号;所述临界 带分组处理模拟了人耳基底膜对不同频带信号的响应差异; 0015 步骤1-3,根据心理声学理论对临界带分组信号进行临界带扩展得到激励样本,并 计算得到调制样本; 0016 步骤1-4,对激励样本经过时域和频域平滑处理,然后通过电平和模式调整,得到 频谱适应样本,并计算掩蔽阈值; 0017 步骤1-5,根据上述四个步骤的计算结果计算每帧音色感知特征参数值,最后通过 平均计算得。

15、到待测信号的音色感知特征参数。 0018 而且,所述待测信号的水平声场感知特征参数包括双耳声级差异、双耳时间差异 和双耳互相关系数,计算水平声场感知特征参数包括如下步骤, 0019 步骤2-1,通过FFT变换将双耳合成信号变换为频域信号,将参考信号和待测信号 的频域信号通过一个Gammatone滤波器组划分为24个频段的巴克带,模拟外耳和中耳滤波 对划分的巴克带进行加权,得到参考信号的激励模式和待测信号的激励模式; 0020 步骤2-2,计算参考信号的激励模式和待测信号的激励模式的归一化互相关函数, 得到参考信号和待测信号之间的双耳时间差异、参考信号和待测信号之间的双耳互相关系 数,通过计算参。

16、考信号的激励模式和待测信号的激励模式的声强比值的对数值,得到参考 信号和待测信号之间的双耳声级差异。 0021 而且,所述待测信号的高度感知特征参数包括高度角,计算高度感知特征参数包 括如下步骤, 0022 步骤3-1,分离待测信号的双耳合成信号的左右声道,并分别进行快速傅里叶变 换,得到待测信号的频谱信号; 0023 步骤3-2,将待测信号的频谱信号通过一个高斯滤波器滤波,得到滤波后的频谱信 号; 0024 步骤3-3,在待测信号的滤波后的频谱信号中检测频谱的波峰和波谷,将出现频谱 的波峰波谷的位置和头相关传输函数数据库中的不同高度角的波峰波谷位置进行对比,估 计得到待测信号的高度角。 00。

17、25 而且,所述3D声场心理认知模型使用BP神经网络,在3D声场心理认知模型中BP 说 明 书CN 102664017 A 3/12页 6 神经网络使用最速下降法。 0026 本发明技术方案评价了3D音频质量多个属性,包括整体音频质量(BAQ),音色保 真度(TF),3维前方空间保真度(3DFSF),3维环绕空间保真度(3DSSF)和3维高度空间保真 度(3DESF),其中通过音色感知模型的PEAQ测度的MOVs值用来表征整体音频质量(GAQ)和 音色保真度(TF),而通过水平声场感知模型计算的水平声场感知特征参数双耳互相关系数 (Inter-Aural Cross-Correlation:I。

18、ACC),双耳时间差异(Interaural Time Difference: ITD)和双耳声级差异(Interaural Time Difference:ITD)作为表征3维前方空间保真度 (3DFSF)和3维环绕空间保真度(3DSSF)的评测参数,通过高度感知模型计算的高度角 作为评价3维高度空间保真度(3DESF)的评价参数。 附 图说明 0027 图1是本发明实施例的流程图。 0028 图2是本发明实施例的音色感知模型框图。 0029 图3是本发明实施例的水平声场感知模型结构框图。 0030 图4是本发明实施例的高度感知模型结构框图。 0031 图5是本发明实施例的3D声场心理认知模。

19、型结构框图。 具体实施方式 0032 以下结合附图和实施例详细说明本发明技术方案。 0033 本发明实施例提供的方法包括以下步骤,流程图参见图1: 0034 步骤1,将多声道信号的参考序列下混得到参考信号的双耳合成信号,将多声道信 号的测试序列下混得到待测信号的双耳合成信号。可以采用头相关传输函数实现下混,得 到双耳合成信号。 0035 实施例在步骤1将三维重建的多声道信号的参考序列和测试序列经过双耳信 号模拟发生器,双耳信号表示各声道的输入与对应扬声器位置的头相关冲击响应(Head Related Impulse Responses:HRIRs)卷积模拟生成对应双耳接收的两路信号。设N为声 。

20、道总数,参考和待测信号双耳信号合成如式(1)所示。 0036 0037 其中H ch1_l ,表示第1至N个声道信号抵达左耳的头相关传输函数 (Head Related Transfer Function:HRTF),H ch1_r ,表示第1至N个声道 信号抵达右耳的头相关传输函数。ch1 test ,ch2 test .chN test 表示第1至N个声道待测信号 的双耳合成信号,ch1 Ref ,ch2 Ref .chN Ref 表示第1至N个声道参考信号的双耳合成信号, 和分别表示左右耳的输入信号,上式中头相关冲击响应表示时域而头相关传输函数表 示频域。其中,和分别表示左耳的输入待测信。

21、号和输入参考信号、和分别 说 明 书CN 102664017 A 4/12页 7 表示右耳的输入待测信号输入的参考信号。 0038 不失一般性,在下文中,将上述双耳合成信号ch1 test chN test 和ch1 ref chN ref 分 别用待测信号的双耳合成信号s test 和参考信号的双耳合成信号s ref 表示。 0039 步骤2,根据步骤1所得参考信号的双耳合成信号和待测信号的双耳合成信号,计 算得到待测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数。 0040 实施例将计算音色感知特征参数、水平声场感知特征参数、高度感知特征参数的 具体过程分别实现为音色感知模。

22、型、水平声场感知模型和高度感知模型。用步骤1所得用 待测信号的双耳合成信号s test 和参考信号的双耳合成信号s ref 分别作为音色感知模型、水 平声场感知模型和高度感知模型的输入,即可输出得到相应的音色感知特征参数、水平声 场感知特征参数、高度感知特征参数。 0041 图2说明本发明所述方法音色感知模型框图,参考信号和待测信号的双耳合成信 号s test 和s ref 输入音色感知模型,实施例中音色感知模型采用ITU-RBS.1387-1标准的PEAQ 模块来评价,输出10个表征音频音色的特征参数MOVs,该模型是基于FFT的人耳模型,具体 实现为现有技术。 0042 为便于实施参考起见。

23、,提供实施例计算音色感知特征参数的具体步骤如下所述: 0043 步骤1-1,时频变换,即通过FFT变换将双耳合成信号变换为频域信号;然后进行 外耳和中耳滤波。 0044 参考信号的双耳合成信号s ref 为时域信号,将参考信号的双耳合成信号s ref 通过 短时傅里叶变换,得到参考信号的频域信号S ref ;同样的,待测信号的双耳合成信号s tesf 为 时域信号,将待测信号的双耳合成信号s test 通过短时傅里叶变换,得到待测信号的频域信 号S test 。实施例中输入的参考信号的时域信号和待测信号的时域信号采样率为F s 48kHz, 通过短时傅里叶变换得到的频域信号,帧长为N F 20。

24、48个点。下文为便于用公式描述,将 参考信号和待测信号的频域信号都以序列的方式表示为Fk f ,n 1 ,其中n 1 表示信号帧数,k f 表示信号频率(下同)。 0045 实施例进行的外耳和中耳滤波,包括对频域信号计算平方幅值得到能量信号,模 拟人外耳和中耳听觉效应对能量信号进行滤波处理。 0046 外耳和中耳的频率响应通过传输函数来模拟,得到S ref 和S test 的外耳加权FFT输 出F e k f ,n 1 ,即滤波处理后的能量信号。外耳传输函数W(f)/dB如下: 0047 0048 式中,频率f的单位是HZ,外耳和中耳的传输函数表示了外耳和中耳对声音的衰 减和滤波过程。便于计算。

25、缘故,用Wk f 表示窗函数对应于输入信号的序列表示方式,则需 要对W(f)进行如下式的转换: 0049 0050 上式中,k为采样点下标,则有参考信号和待测信号的外耳加权输出 F e k f ,n 1 为 说 明 书CN 102664017 A 5/12页 8 0051 0052 步骤1-2,临界带分组,包括将步骤1-1所得滤波后的能量信号进行临界带分组, 得到临界带分组信号;所述临界带分组处理模拟了人耳基底膜对不同频带信号的响应差 异。 0053 本步骤为模拟内耳基底膜的频率特性,频谱被分配到数个互不交叠的子带中,首 先将参考信号和待测信号的频域信号建立从频域到Bark域的映射: 0054。

26、 0055 其中Z 1 为Bark带个数,f为人类听觉可闻范围:80Hz-18000Hz,ar sinh(.)是反 正弦函数。Zwicker and Feldtkeller在1967年根据认为听觉特性提出可以将频率划分为 活干个临界频带,以及Bark域测度,规定了频率映射到Bark域的规则。所谓临界带分组其 实是把DFT能量向量分组对应到临界带,其中能量向量用DFT频域值的平方幅值来表示,这 是一种映射关系。 0056 根据公式P e k 1 ,n 1 |F e k f ,n 1 | 2 求得外耳加权FFT输出的能量值,这个过程得 到每个频带的子带频谱能量值P e k 1 ,n 1 。 005。

27、7 实施例还添加内部噪声,给每个子带添加一个频率偏移量PThres,第k 1 个子带的 频率偏移量记为P Thres k 1 ,得到音高样本P p k 1 ,n 1 ,作为临界带分组信号。计算公式如下: 0058 0059 0060 其中,f c k 1 表示第k 1 个子带的中心频率。 0061 步骤1-3,时域和频域扩展,根据心理声学理论对步骤1-2所得临界带分组信号进 行临界带扩展得到激励样本,并计算得到调制样本。 0062 频域扩展在Bark域上进行。将音高样本P p k 1 ,n 1 经由一个扩展函数分配至整个 听域空间,那么第k 1 个子带的能量就是各个子带能力在该子带贡献的加和;。

28、引入归一化因 子,消除扩展函数在各个子带中引入的增益,得到未拖尾的激励样本E unsmeared k 1 ,n 1 ,根据 未拖尾的激励样本E unsmeared k 1 ,n 1 计算调制能量和包络大小得到调制样本。为了模拟向前 掩蔽,将各个子带的能量在时间上低通滤波器平滑,得到激励样本Ek 1 ,n 1 。 0063 步骤1-4,激励样本处理,包括对激励样本经过时域和频域平滑处理,然后通过电 平和模式调整,得到频谱适应样本,并计算掩蔽阈值。 0064 本步骤要对参考信号和待测信号的激励样本进行电平适应和模式适应处理。为补 偿参考信号和待测信号的响度差异和线性失真,待测信号和参考信号的平均电。

29、平要适应调 整。适应分为电平适应和模式适应两个步骤,最终获得参考信号和待测信号的频谱适应样 本。 0065 其次是调制计算部分,首先根据未拖尾的激励样本E unsmeared k 1 ,n 1 计算平均响度 和计算简化响度的差值计算公式如下: 0066 说 明 书CN 102664017 A 6/12页 9 0067 0068 式中表示时间常数,Ek 1 ,n 1 表示激励样本模式。 0069 然后可得到各子带包络,子带包络表示每一个滤波通道的包络大小,计算公式如 下:子带包络将用于PEAQ模型中的MOVs计算。 0070 最后是响度计算部分,在响度计算中先是通过计算每帧音频信号的响度,最后求。

30、 平均得到总响度,响度计算还包括噪声响度。 0071 步骤1-5,模型输出参数(MOVs)的计算,包括根据上述四个步骤的计算结果(即 参考信号和待测信号的激励样本、调制样本、频谱适应样本和子带包络、响度值、噪声值等 参数)计算每帧音色感知特征参数值,最后通过平均计算得到待测信号的音色感知特征参 数。 0072 根据实验结果,本发明实施例使用的PEAQ模块提取的共有10个MOVs作为音色感 知特征参数,即音色感知保真度的底层声学参数。这10个评价3D音频的音色感知特征参 数有助于拟合主观测试结果,分别为:噪掩比TotalNMR、加窗后的调制差异WinModDiff、平 均调制差异AvgModDi。

31、ff、响度失真RmsNoiseLoud、参考信号带宽BandwidthRef、待测信号 带宽Bandwidthtest、平均块失真ADB、差错信号谐波结构EHS、最大检测概率MFPD和相对干 扰帧RelDisFrames。 0073 对于每一个MOVs的详细计算过程为现有技术,可参考ITU的BS.1387-1标准。在 本实施例中分别以平均调制差异AvgModDiff计算,待测信号带宽Bandwidthtest和参考信 号带宽BandwidthRef为例说明MOVs的计算过程。 0074 待测信号平均调制差异AvgModDiff,也称为暂态包络差异,也即是调制差异 是通过计算每个巴克带滤波通道的。

32、调制差异也即是本地调制差异(local modulation differences),并求平均可得,如下式所示: 0075 0076 .(10) 0077 0078 其中,Mod test k 1 ,n 1 和Mod Ref k 1 ,n 1 是在步骤1-4具体计算中已经提到的待测信 号和参考信号的子带包络,其中,offset表示偏移量,一般设定为0.01,w是加权因子,根据 参考信号和待测信号子带包络相对大小而确定。那么对瞬态调制差异求平均即可得到所求 平均调制差异: 0079 0080 待测信号带宽Bandwidthtest、参考信号带宽BandwidthRef参数由参考信号和待 测信号。

33、的FFT输出(以dB为单位)计算而来。具体方法为: 0081 (1)在待测信号中,找出21.6kHz以上信号的最大幅值(单位dB)作为参考门限。 说 明 书CN 102664017 A 7/12页 10 0082 (2)在参考信号中,从21.6kHz开始往低频搜索,找到第一个超过参考门限10dB的 样点,记下此样点的索引号K R n 1 ,作为参考信号的带宽。 0083 (3)在待测信号中,从上步记下的索引K R n 1 号开始往低频搜索,找到第一个超过 参考门限5dB的样点,记下此时的索引号为K R n 1 ,作为待测信号的带宽。 0084 取K R n 1 的时域平均即为两个输入信号的最终。

34、带宽,上面计算的是瞬态的带宽, 对所有帧求平均后,公式如下: 0085 0086 W T 表示信号整体平均带宽,N 1 表示帧数,当然,这里要注意,如果通过上述方法计 算的带宽没有超过8.1khz,则忽略该帧数据的带宽。 0087 图3是本发明实施例中的水平声场感知模型框图,参考信号和待测信号的双耳合 成信号s test 和s ref 输入环绕双耳模型,经过滤波和频带扩展输出人耳基底膜的激励模式;然 后根据认知模型得到水平声场感知特征参数。 0088 为便于实施参考起见,提供实施例计算水平声场感知特征参数的具体步骤如下所 述: 0089 步骤2-1,通过FFT变换将参考信号和待测信号的双耳合成。

35、信号变换为频域信号, 将参考信号和待测信号的频域信号通过一个Gammatone滤波器组划分为24个频段的巴克 带,模拟外耳和中耳滤波对划分的巴克带进行加权,得到参考信号的激励模式和待测信号 的激励模式。 0090 本发明实施例使用4阶的Patterson-Holdsworth滤波器组(也称为Gammatone 滤波器组),与PEAQ中的基于FFT的人耳感知模型相比,Gammatone滤波器组能很好地模拟 听觉实验中的生理数据,能够体现基底膜尖锐的滤波特性。考虑到Gammatone滤波器组与 人耳基底膜两者在冲激响应、幅频特性等方面的相似性,可以采用一组中心频率呈对数均 匀分布的Gammaton。

36、e滤波器组来模拟基底膜。 0091 Gammatone滤波器用一个因果的冲激响应函数Gammatone函数来描述其滤波器特 性,其时域表示如式13所示: 0092 g(t)B n t n-1 e -2Bt cos(2f o t+)u(t).(13) 0093 其中:g(t)是Gammatone函数缩写,t是时间变量,表示Gammatone滤波器的 初始相位。t0时u(t)0,t0时u(t)1,n为Gammatone滤波器的阶数,参数B bERB(f o ),b 1 1.019是为了让Gammatone函数更好地与生理数据相符而引入的参数, ERB(f o )为Gammatone滤波器的等价矩形。

37、带宽,它同Gammatone滤波器中心频率f o 的关系 是: 0094 ERB(f o )24.7+0.108f o .(14) 0095 不同的特征频率对应不同的Gammatone滤波器中心频率,这个关系可以把不同 Gammatone滤波器和不同的基底膜位置对应起来,从而实现对基底膜每个位置质点运动状 态的仿真。使用Gammatone滤波器组对双耳合成信号进行滤波,则输出结果为待测信号的 激励模式和参考信号的激励模式,可以分别用表示,式中k 2 和n 2 分别表示 Gammatone滤波器组频带和时间的索引。 0096 步骤2-2,计算参考信号的激励模式和待测信号的激励模式的归一化互相关函。

38、数, 说 明 书CN 102664017 A 10 8/12页 11 得到参考信号和待测信号之间的双耳时间差异、参考信号和待测信号之间的双耳互相关系 数,通过计算参考信号的激励模式和待测信号的激励模式的声强比值的对数值,得到参考 信号和待测信号之间的双耳声级差异。 0097 所述待测信号和参考信号的激励模式输入认知模型,得到表征水平声场感知特征 参数:双耳声级差异(ILD),双耳时间差异(ITD),双耳互相关系数(IACC)。参考信号和待 测信号的ITD主要用于低频(低于1500HZ)声源方向定位,ITD可以通过计算基于时间窗 的归一化互相关函数(Normalized Cross-correl。

39、ation Function:NCF)来计算,参考信号 和待测信号的ITD,IACC的计算方法是一样的,以待测信号为例,互相关函数的计算是用长 度约为20ms的7/8重叠矩形窗,待测信号的互相关函数如下式: 0098 0099 上式中d表示样本间的时间延时,l表示离散序列索引,和分别 表示待测信号左右声道频谱序列,表示待测信号的频谱序列经过d延时后的结 果。 0100 则IACC定义为所有计算样本间延时d的NCF最大值,而ITD即是该最大值所对应 的d值,也即是: 0101 0102 0103 其中,IACCk 2 ,n 2 和ITDk 2 ,n 2 分别表示双耳互相关系数序列和双耳时间差序 。

40、列。N 2 是样本延时d的范围,理论上几乎涵盖了所有ITD值,以样本数来表示。可感知的声 源方向变化可以用基于单位圆的两个位置之间的欧式距离来近似计算。一般的,对于两个 不同的方位角 1 、 2 之间的距离可以用以下公式计算: 0104 0105 从而,根据待测信号和参考信号之间的ITD的差别,两声源方向的感知距离计算 如下: 0106 0107 其中,ITD test k 2 ,n 2 和ITD ref k 2 ,n 2 表示待测信号和参考信号的双耳时间差序列, f s 是采样率,而N max 是样本间ITD的最大值,因此可视作限制上述公式中余弦函数的输 入在0-之间的归一化因子。 0108。

41、 在某些情况下,如果IACC值太小以至于不能产生稳定的可感知声源方向,ITD值 便不易计算。因此,我们需要加入一个确定性因子pk 2 ,n 2 来考虑可计算的ITD确定性,该 确定性可通过经近似相切反曲函数处理的IACC非线性变换建模得到: 0109 0110 S和T k 分别是斜度和阀值,T k 在不同的频带取不同的值。因此经过确定性因子的 说 明 书CN 102664017 A 11 9/12页 12 建模,ITD失真值ITDDistk 2 ,n 2 计算如下: 0111 0112 其中,p ref k 2 ,n 2 和p test k 2 ,n 2 分别表示参考信号和待测信号的确定性因子。

42、。 0113 IACC表示清晰声源宽度,根据上述计算的IACCk 2 ,n 2 ,不难计算IACC失真值 IACCDistk 2 ,n 2 ,与计算ITD不同这里计算互相关系数使用的窗函数长度为50ms: 0114 IACCDistk 2 ,n 2 w 2 |IACC test k 2 ,n 2 -IACC ref k 2 ,n 2 |.(22) 0115 其中,IACC test k 2 ,n 2 和IACC ref k 2 ,n 2 分别表示待测信号和参考信号的双耳互相 关系数、w 2 表示加权系数。 0116 参考信号和待测信号的ILD主要用于高频(高于2500HZ)声源方向定位,用于描。

43、 述左右耳接收到声压级的差异,ILD是高频声音方向感知测度的重要线索,因此,待测信号 和参考信号之间的ILD差异可以反映高频音频信号可感知的声音方向降质程度。ILD的计 算公式如下: 0117 0118 ILD值ILDk 2 ,n 2 为10倍于第n 2 时间帧第k 2 频带的左右耳输入信号X R 和X L 强度比值的对数值,且强度值是由长度为10ms的3/4重叠矩形窗计算。ILD的计算区别 于ITD,首先,根据ILD不同,两处声源的可感知差异可由ILD的对数域值(DB功率)来表 征;其次,针对基于ILD的声源方向定位判断,会考虑声音强度的权重。因此ILD失真测度 ILDDistk 2 ,n 。

44、2 如下所示: 0119 0120 其中,w 3 k 2 是非线性权重因子,表示映射每个频带的ILD失真相对重要度, ILD test k 2 ,n 2 和ILD ref k 2 ,n 2 分别表示待测信号和参考信号的双耳声级差。综合上述的 ILD,ITD和IACC将作为水平声场感知特征参数输入到3D心理认知模型中处理。 0121 图4是本发明实施例的高度感知模型结构框图,待测信号的双耳合成信号s test 和 s ref 经过声道分离,分别以单声道(包括左右声道)作为高度感知模型的输入信号,然后经 过FFT变换,高斯滤波,波峰和波谷检测,并采用估计器与HRTF数据库中的高度角信息进行 对比,。

45、确定一次实验中待测信号的高度感知特征参数:声源的高度角。 0122 为便于实施参考起见,提供实施例计算高度感知特征参数的具体步骤如下所述: 0123 步骤3-1,分离待测信号的双耳合成信号的左右声道,并分别进行快速傅里叶变 换,得到待测信号的频谱信号; 0124 步骤3-2,将待测信号的频谱信号通过一个高斯滤波器滤波,得到滤波后的频谱信 号; 0125 步骤3-3,在待测信号的滤波后的频谱信号中检测频谱的波峰和波谷,将出现频谱 的波峰波谷的位置和头相关传输函数数据库中的不同高度角的波峰波谷位置进行对比,估 计得到待测信号的高度角。 0126 在高度角的计算中,需要提供一个参考的数据库,数据库中。

46、包含头相关传输函 数(Head Related Transfer Function,HRTF).估计器中用到的HRTF数据库是KEMAR数 说 明 书CN 102664017 A 12 10/12页 13 据库,该数据库来自麻省理工学院媒体实验室在假人工头(KEMAR)上测得的HRTF数据。在 KEMAR模拟系统中搭建一个人工头放置在距离扬声器中垂线1.5米的位置接受双耳输入 信号,人工头悬空并对称,左右耳输入信号假设是一致的,由估计器来估计声音事件的高度 角。HRTFs是在无回声和无混响的听音室里,在中垂面上在-40和90之间以没10为 步长进行测量的,在KEMAR数据库有44100Hz的采。

47、样率和65个采样点的谱分辨率。 0127 用于定位的谱线索主要集中于4k16kHz,且决定前向声场方位的谱线索包含一 个在4k8kHz之间低于截止频率的八度音波谷(定义为N1)和一个能量增加且频率高于 13kHz的八音度波谷;而上方声场方位的谱线索是在7k9kHz之间的1/4八度音波峰(定 义为P1)。随着声源的高度角在-45和45之间变化的时候,频谱的波谷在6k10kHz 之间也随着变化。多次实验的结果表明头传输函数的参数主要由第一个和第二个频谱波谷 和第一个频谱波峰组成。 0128 在频谱的波峰和波谷检测中,在5kHz以上的波峰和波谷对于感知高度角的贡献 是比较大的,因此提取在频率范围4k。

48、Hz以上的谱峰,根据具体位置对波峰和波谷进行标注 (如P1,N1,P2,N2,)。在提取波峰和波谷之前,应该用高斯滤波器对谱波动进行平滑 处理: 0129 0130 0131 H(k 3 +n 3 )是不同高度角的频谱,H w (k 3 )是经过高斯滤波器后的频谱,W(n 3 )是高斯 滤波器,k 3 和n 3 表征离散频点,为了使得信号更平滑,式中的n 3 和的设置依赖于采样率, 在KEMAR曲线中N 3 和分别赋值为4和1.3,所述的频谱的波峰和波谷被定义为水平谱的 相对极大值和极小值,且其中水平谱被归一化至0dB以使得峰值和谷值和声音音量相互独 立。 0132 在高度角估计中,为了能从HRTF数据库中的抽取出和实际单耳信号谱匹配度 最高的HRTF曲线,需要对比不同HRTF曲线的波峰和波谷从而在数据库里找到最匹配的高 度角对应的HRTF曲线。估计器计算过程如下描述,每个单耳信号和每个HRTF谱都有一 套波峰属性和波谷属性:N和P,而k代表频带索引,因此有 0133 0134 Signalk Ni ,k Pi .(28) 0135 其中,表示不同高度角的HRTF谱,k Ni 和k Pi 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 乐器;声学


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1