用于确定检测点和声源之间的方向的方法和系统技术领域
本发明涉及确定检测点和声源之间的方向,特别涉及一种用于确定检
测点和诸如视频会议中的发言参与者之类的主动发言人之间的方向的方法
和系统。
背景技术
视频电话会议系统用于创建在位于不同位置的两个或两个以上的人或
者两组或两组以上的人之间的虚拟会议。确定检测点和声源间的方向在视
频会议中是很有用的。这样的确定可用于例如视频会议系统中的自动摄像
机指向。在视频会议端点(视频会议网站的终端设备)的一种典型情况的
会议室为:一些会议参与者坐在桌前或围着桌子观看端点显示设备,而位
于显示设备附近的摄像机拍摄会议室的画面。如果在房间里有许多参与
者,在远端侧的会议室中观看会议室画面的人可能难以确定发言人或听取
几位发言人间的讨论。因此,优选找出室内的主动发言人的位置并将摄像
机自动指向和引导到该参与者。此外,摄像机可以变焦,以获得发言人的
合适的画面。
美国专利No.5,778,082示出了背景技术中声源定位的一个示例,除了
别的方面以外,其说明了使用成对的两个空间分离的麦克风来获取声源的
方向的方法和系统。通过检测代表声源的声音的麦克风的各个信号的起
点,可确定在接收到的声信号之间的时间延迟,然后可计算声源的方向。
这一原理已在图1中说明。按间距D设置的两个麦克风A和B从声
源C接收声信号。入射角θ表示检测点(麦克风A和B之间的中点)和源
C之间的方向。时间延迟τ表示在麦克风A和B处的声信号到达时间之间
的差异。这一时间延迟是作为分别由麦克风A和B提供的信号的互相关的
最大值点来计算。此处,“最大值点”是指与麦克风信号的互相关的最大
值对应的内容,即时间。
然后以计算角θ,其中c是声速,τ是计算的时间延
迟,D是麦克风之间的距离。
上述技术背景的方法有一定的缺陷。特别是已经证明,由麦克风自身
产生的噪音对产生角度的确定有不利影响。因此,一直以来,必须使用昂
贵的高品质麦克风来获取足够精确和可靠的在检测点和主动发言人之间的
方向确定。
发明内容
本发明的目的在于克服背景技术方案的至少某些缺点。
本发明由所附的权利要求定义。
附图说明
当研究下面的详细说明和附图时,将很容易地获得对本发明及其优点
更完整的理解。然而,详细说明和附图不应被解释为限制本发明的范围。
图1是示出了在背景技术中的方向确定的原理的示意图;
图2是示出了用于确定检测点和声源之间的方向的方法和系统的某些
方面的示意图;
图3是示出了用于确定检测点和声源之间的方向的系统的第一实施例
的原理的示意框图;
图4是示出了用于确定检测点和声源之间的方向的系统的第二实施例
的原理的示意框图;
图5是示出了用于确定检测点和声源之间的方向的系统的第三实施例
的原理的示意框图;
图6是说明用于确定检测点和声源之间的方向的方法的第一实施例的
原理的示意流程图;和
图7是说明用于确定检测点和声源之间的方向的方法的第二实施例的
原理的示意流程图。
具体实施方式
下面,将通过参照附图说明优选实施例来讨论本发明。然而,本领域
的技术人员将意识到在由权利要求定义的本发明的范围内,存在其它应用
和修改。
在上面的技术背景部分已经提到图1。
图2是示出了用于确定检测点和声源之间的方向的方法和系统的某些
方面的示意图。
在图2中,假定源于声源的声平面波冲击关于中央检测点190对称的
线性麦克风阵列。因此,麦克风阵列包括在一直线上排列的一些麦克风元
件,并且从检测点到阵列的一个侧面的任何麦克风元件的距离与到另一个
侧面的相应的麦克风元件的距离是相同的。为了说明起见,示出了四个麦
克风元件:第一对麦克风元件110、120和第二对麦克风元件130、140。
此外,为了说明起见,设立了直角坐标系,使麦克风阵列和平面声波的位
置跨越x-y平面,并且与检测点对应的原点位于麦克风阵列的中心。
在这个示例中,以更普遍的方面来看,在麦克风阵列中有M对麦克风
元件,即,麦克风元件的总数为2M。
第i个麦克风的位置是xi,
i∈{-M;-(M-1),…(M-1),M}。
在图2的示例说明中,M=2,即麦克风阵列中有4个麦克风元件。
此外,在图2中,xi=iΔ,M=2。然而,M可以假定为2、3、4、5或更
大的任何整数。
在下面将展示是检测点190和声源之间的方向表示的到达角度θ的数
学推导。
在时刻t,第i个麦克风的声压由下式给出
p ( t , i ) = s ( t - x i sin ( θ ) c ) * a i ( t , θ ) + n i ( t ) - - - ( 1 ) ]]>
式中,s(t)是随时间变化的源声信号,c是在通常是空气的声源和麦克
风间的介质中的声速,ai(t,θ)是第i个麦克风的随角度变化的脉冲响应,
ni(t)是第i个麦克风自身的噪声,*表示卷积运算符。
现在假设时间被认为是处于离散的点而不是作为连续变量,并且麦克
风的信号已经以采样频率1/Ts离散化(并可能量化,即模数转换)。
为了说明简单起见,进一步假设每一个麦克风的脉冲响应等于狄拉克
δ函数,即a(t,θ)=δ(t),推出了在第i个麦克风处的声压的如下表达式:
p ( n , i ) = s ( [ n - x i sin ( θ ) T s c ] T s ) + n i ( n T s ) - - - ( 2 ) ]]>
执行傅立叶变换,产生如下表达式
P ( ω , i ) = S ( ω ) e - j k x x i + N i ( ω ) - - - ( 3 ) ]]>
式中,ω=2πfTs和c为声速。
现在,能估计检测点和声源之间的方向即到达角,即可确定θ。
假定麦克风的噪音信号和声音源是不相关的(这是一个合理的假
设),将在负x平面的傅立叶域麦克风信号(如果s是实数,则对应于利
用负频率分量)复共轭并用信号乘以在正x平面中的其余傅立叶域麦克风
信号,得到阵列交叉谱
S x ( ω , θ ) = Π i = 1 M P ( ω , - i ) * P ( ω , i ) ≈ S ( ω ) 2 M e - j 2 k x Σ i = 1 M x i + Σ i = 1 M | N | i 2 ( ω ) - - - ( 4 ) ]]>
可以很容易地看出,当麦克风数量增加时,信噪比将会增大。计算傅
立叶逆变换,得出
R x ( n ) = 1 2 π ∫ - π π S x ( ω , θ ) e jωn dω ]]>
= R s 2 M ( [ n - 2 sin ( θ ) Σ i = 1 M x i T s c ] T s ) + Σ i = 1 M σ i 2 δ ( n ) . - - - ( 5 ) ]]>
Rs2M是与其自身做M次卷积的源的自相关函数。
通过定位Rx的最大值的位置,可以得出到达角度θ。
θ = arc sin ( c T s 2 Σ i = 1 M x i [ arg max n R x ( n ) ] ) . - - - ( 6 ) ]]>
对于其中M=2的阵列配置,即,在两对麦克风的情况下,可通过下
式得出最大值:
θ = arc sin ( c T s 6 Δ [ arg max n R x ( n ) ] ) . - - - ( 7 ) ]]>
上述推理基本上涉及如图2中示意性地示出的麦克风的配置。然而,
应当理解的是,当阅读下面的方法和系统的实施例的公开时,在适当时,
上述教义、原理、推理及假设也可单独应用或组合应用。
图3是示出了用于确定检测点190和声源之间的方向θ的系统100的
第一实施例的原理的示意框图。
声源并被未示出。然而,入射线184示出了源自声源的入射声波的方
向。假定声源和检测点190之间的距离比麦克风之间的任何距离大很多,
认为入射角θ对所有的麦克风都相同是合理的。
系统包括接收源于声源的声信号的、关于检测点190对称设置的第一
对麦克风元件110、120。
该系统还包括也接收源于声源的声信号的、关于检测点190对称设置
的第二对麦克风元件130、140。
在示出的实施例中,将第一对麦克风元件(110、120)和第二对麦克
风元件(130、140)设置在位于检测点190的线性麦克风阵列180中。更
具体地说,如也可以从图3所示理解的那样,可按如下方式设置麦克风阵
列180:麦克风元件成对地关于通过检测点的入射轴182对称设置。
如图所示,第一对麦克风元件(110、120)可以是里面的一对麦克风
元件,即它们被设置为更接近于检测点190。此外,第二对麦克风元件
(130、140)可以是外面的一对麦克风元件,即它们被设置在离检测点
190更远的距离处。
第一对麦克风元件中的每一个麦克风元件通讯式连接到第一互相关器
210的相应的输入,其中第一互相关器210被配置为计算两个输入麦克风
信号的互相关。结果,第一互相关器210输出第一互相关信号。
第二对麦克风元件中的每一个麦克风元件通讯式连接到第二互相关器
220的相应的输入,其中第二互相关器220被配置为计算两个输入麦克风
信号的互相关。结果,第二互相关器220输出第二互相关信号。
使用表达“通讯式连接”是为了强调可能设置或可能不设置中间电路
来处理在图3中所示的麦克风和其余电路之间的元件等。这类中间电路可
包括从例如放大器、滤波器、离散器件、量化器、采样器、A/D转换器、
信号处理器等中选择的任意数量的元件。
将第一互相关信号和第二互相关信号送入卷积器310的相应的输入,
卷积器后面是方向计算器410。卷积器310和方向计算器410被配置为基
于第一互相关信号和第二互相关信号计算检测点和声源之间的方向。
更具体地说,卷积器310被配置为将第一互相关信号和第二互相关信
号进行卷积。
更具体地说,在一个实施例中,卷积器310被配置为在频域内执行第
一互相关信号和第二互相关信号的卷积。可替代地,卷积器可被配置为在
时域内执行卷积。
方向计算器410被配置为通过识别卷积结果的最大值点来计算检测点
和声源之间的方向。
更具体地说,方向计算器410可被配置为基于识别的最大值点计算入
射角,其中入射角表示检测点和声源之间的方向。
为了说明本发明的原理,将表示为互相关器、卷积器和方向计算器的
元件作为独立的功能模块进行说明。技术人员会意识到,这样的功能模块
可以作为软件中的处理指令来实现。在这种情况下,互相关器、卷积器和
方向计算器可以是控制处理装置的软件模块,其中处理装置输入输入信
号、根据本公开对这些输入信号进行处理并计算出表示所需要的方向或角
度的值作为输出信号。处理指令可存放在在存储器或存储装置中。特别
地,本发明提供的功能模块和/或其它功能性部件可通过数字信号处理器来
实现。可能存在其它的替代,例如诸如FPGA之类的专用集成电路可用于
实际实现本发明。
系统的一个特殊实施例在视频会议中有特别应用。在这样的一个实施
例中,声源可以是视频会议中的主动参与者,即会议中的主动发言人。此
外,检测点与诸如视频会议端点之类的视频会议设备中的可变方向的摄像
机的位置完全或大体上吻合。系统还包括摄像机控制器,摄像机控制器被
配置为除其它方面外还控制摄像机特别是其例如绕大体上是垂直轴和/或水
平轴的旋转,以使它指向由所公开的方法和系统计算的方向,即指向朝向
声源的方向,其中声源在这种情况下是主动会议参与者。这使得该主动参
与者的图像可由摄像机拍摄。为了改善对主动参与者的图像的拍摄,可以
使用变焦来选择图像的合适的细节。
图4是示出了用于确定检测点190和声源之间的方向的系统101的第
二实施例的原理的示意框图。
图4所示的系统101对应于在图3中所示的系统100,并且使用相同
的参考数字来说明相同的或相应的元件。
然而,图4所示的系统101还包括第三对麦克风元件150、160,其中
第三对麦克风元件150、160关于检测点190成对对称设置并接收源于声
源(未示出)的声信号。
此外,系统101包括第三互相关器230,其中第三互相关器230被配
置为计算由第三对麦克风元件150、160提供的信号的互相关,生成第三
互相关信号。
此外,在系统101中,在这个示例中作为第一卷积器310提及的卷积
器310、第二卷积器320和方向计算器410被配置为基于第一互相关信
号、第二互相关信号和第三互相关信号计算检测点和声源之间的方向。
更具体地说,卷积器310被配置为计算第一互相关信号和第二互相关
信号的卷积。将称作第一卷积信号的这个卷积的结果作为第一输入送到第
二卷积器320。将第三互相关信号作为第二输入送到第二卷积器320。将
第二卷积器320的输出作为输入送到方向计算器410,其中方向计算器
410配置为通过识别第二卷积器的输出结果的最大值点来计算检测点和声
源之间的方向。
可以理解的是,可在本发明的范围内再次使用在线性麦克风阵列中加
入另一对麦克风元件并进一步增加用于计算所加入的一对麦克风元件的互
相关的互相关器以及修改卷积器和方向计算器的设置的原理,以做到也基
于进一步的互相关器的输出来计算指示入射方向或入射角的值的方向计算
器的输出信号。
因此,在M对麦克风元件的情况下,其中M是大于2的整数,M对
麦克风元件关于检测点成对对称设置,接收源于声源的声信号。那么,该
系统还包括被称作第一互相关器、第二互相关器等直至第M互相关器的
M个互相关器。每个互相关器被配置为计算由相应的麦克风元件对提供的
信号的互相关,生成M个互相关信号。
此外,在系统中设置M-1个卷积器。第一卷积器被配置为计算第一互
相关信号和第二互相关信号的卷积,第二卷积器配置为计算第一卷积信号
和第三互相关信号的卷积,依此类推。第(M-1)卷积器配置为计算第
(M-2)卷积信号和第M互相关信号的卷积。
此外,仍然是在M对麦克风元件的情况下,方向计算器410被配置为
还基于第M互相关来计算检测点声源之间的方向。更具体地说,如上所规
定的那样,方向计算器被配置为基于第(M-1)卷积器的输出来计算检测
点和声源之间的方向。
图5是示出了用于确定检测点190和声源间的方向的系统102的第三
实施例的原理的示意框图。
系统102大体上对应于图4所示的系统101,并且使用相同的参考数
字来说明图中相同的或相应的元件。然而,在图5中已表明,在相邻的麦
克风之间的距离不必相同,只要每一对麦克风元件关于检测点190在一直
线上对称地设置(或关于通过检测点190的入射轴对称地设置)即可。例
如,麦克风元件110和130之间的距离(等于麦克风元件120和140之间
的距离)可以小于麦克风元件130和150之间的距离(等于麦克风元件
140和160之间的距离)。技术人员应意识到,其它的可能性也存在。
图6是说明用于确定检测点和声源之间的方向的方法的第一实施例的
原理的示意流程图。
所述方法在初始步骤600开始。
在第一接收步骤610,在第一对麦克风元件处接收源于声源的声信
号,其中第一对麦克风元件关于检测点对称设置。
第一对麦克风元件和第二对麦克风元件可以在一直线上设置在位于检
测点的线性麦克风阵列内,通过这种设置,麦克风元件关于通过检测点的
入射轴成对地对称分布。第一对麦克风元件可以是里面的一对麦克风元
件,第二对麦克风元件可以是外面的一对麦克风元件。
接着,在第二接收步骤620,在第二对麦克风元件处接收源于声源的
声信号,其中第二对麦克风元件也关于检测点对称设置。
接着,在第一互相关信号计算步骤630,计算作为由第一对麦克风元
件提供的信号的互相关的第一互相关信号。
接着,在第二互相关信号计算步骤640,计算作为由第二对麦克风元
件提供的信号的互相关的第二互相关信号。
可以通过先计算每一个麦克风信号的傅立叶变换并将一个麦克风信号
的傅立叶表达式乘以在麦克风对中的另一个麦克风对信号的复共轭傅里叶
表达式而在频域内方便地计算互相关信号。计算这个乘积的傅立叶逆变换
得到麦克风信号的时域互相关。
可替代地,可以在时域内通过将一个麦克风信号与通过麦克风对中的
另一个麦克风提供的时间反转信号卷积而计算互相关信号。
接着,在卷积计算步骤650,计算第一互相关信号和第二互相关信号
的卷积,生成第一卷积信号。
这样的第一互相关信号和第二互相关信号的卷积可在频域内执行。更
具体地说,如果已通过傅立叶变换提供了互相关信号,则可以通过相乘然
后对结果执行傅立叶逆变换而方便地在傅立叶域(频域)执行卷积。另
外,可以在时域执行卷积。
接着,在方向计算步骤660,基于第一互相关信号和第二互相关信号
计算检测点a与声源之间的方向。更具体地说,基于在步骤650生成的第
一卷积信号计算方向。
在一个实施例中,方向计算步骤660可包括识别第一卷积信号的最大
值点。最大值点代表与第一信号卷积的最大值对应的内容,即时间。可以
通过搜索的方法执行识别最大值点。
更具体地,在方向计算步骤660,可以基于确定的最大值点计算入射
角度,其中入射角度表示检测点和声源之间的方向。
已经在前文通过参照图2公开了有关该方法的进一步细节、特别是计
算角度,即朝向声源的方向的进一步的情况。
可以理解的是,图6中的步骤的示出顺序是出于解释目的提出的,可
以使用脱离已示出顺序的顺序来得到相同的结果。例如,接收声信号的步
骤610和步骤620可以同时进行或并行进行。如果接收步骤是在不同的时
间点执行,则它们之间的时间差与研究的声信号的性质相比应保持为较
小。在这种情况下,第一对麦克风元件和在第二对麦克风元件处的接收顺
序可以互换。同样,可以理解,如果需要,第一互相关信号和第二互相关
信号的计算可以以任何顺序进行,或同时或并行进行。
图7是说明用于使用第一对麦克风元件、第二对麦克风元件和第三对
麦克风元件来确定检测点和声源之间的方向的方法的原理的示意流程图。
第一对麦克风元件、第二对麦克风元件和第三对麦克风元件可以在一
直线上设置在位于所述检测点的线性麦克风阵列内,通过这种设置,麦克
风元件关于通过检测点的入射轴成对地对称地设置,即上文中参照图4或
图5说明的方式。
所述方法在初始步骤700开始。
在第一接收步骤710,在第一对麦克风元件处接收源于声源的声信
号。
接着,在第二接收步骤720,在第二对麦克风元件处接收源于声源的
声信号。
接着,在第三接收步骤730,在第三对麦克风元件处接收源于声源的
声信号。
接着,在第一互相关信号计算步骤740,计算作为由第一对麦克风元
件提供的信号的互相关的第一互相关信号。
接着,在第二互相关信号计算步骤750,计算作为由第二对麦克风元
件提供的信号的互相关的第二互相关信号。
接着,在第三互相关信号计算步骤760,计算作为由第三对麦克风元
件提供的信号的互相关的第三互相关信号。
例如,如上参照图3、图4、图5或图6说明的那样,可以方便地在
频域或时域内计算互相关信号。
接着,在第一卷积计算步骤770,计算第一互相关信号和第二互相关
信号的卷积,生成第一卷积信号。
接着,在第二卷积计算步骤780,计算第一卷积信号和第三互相关信
号的卷积,生成第二卷积信号。
例如如上参照图3、图4、图5或图6说明的那样,可以方便地在频
域或时域内计算卷积信号。
接着,在方向计算步骤790,基于第一互相关信号、第二互相关信号
和第三互相关信号计算检测点与声源之间的方向。更具体地说,基于在步
骤780生成的第二卷积信号计算方向。
方向计算步骤790可以以与参照图6说明的对应的方式包括确定第二
卷积信号的最大值点。
在本方法的再另一个实施例中,在M对麦克风元件处接收源于声源的
声信号,其中M对麦克风元件关于检测点成对地对称设置,其中M是大
于2的整数。整数M可以是例如3、4或5。可替代地,整数M可以是大
于5的另一个整数。计算由每一对麦克风元件提供的信号的互相关,生成
M个互相关信号。此外,计算检测点和声源之间的方向的步骤是基于M
个互相关信号。
在这种情况下,该方法包括计算互相关信号的M个步骤,每一个步骤
都对应于相应的一对麦克风。这些步骤可称作计算互相关信号的第一步
骤、第二步骤等等、直至第M步骤。计算相关信号的的M个步骤生成M
个互相关信号。
此外,该方法包括计算卷积的M-1个步骤。计算卷积的第一个步骤计
算第一互相关信号和第二互相关信号的卷积,生成第一卷积信号。计算卷
积的第二个步骤计算第一卷积信号和第三互相关信号的卷积,依此类推。
最后,计算卷积的第(M-1)步骤计算第(M-2)卷积信号与第M互相关
信号的卷积。
此外,在仍然是M对麦克风元件的情况下,计算方向的步骤也是基于
M个互相关信号计算检测点和声源之间的方向。更具体地说,如以上规定
的那样,方向可基于第(M-1)卷积步骤的输出来计算。
因此,结合由线性的、对称的麦克风阵列中里面的那对麦克风元件提
供的信号的已经计算好的卷积的互相关,卷积过程可以递归性地用于下一
对外面的麦克风元件。
在本方法的一个特别有用的应用中,声源是视频会议的主动参与者,
并且检测点与视频会议设备中的可变方向的摄像机的位置相吻合。在这种
情况下,该方法还包括控制摄像机指向计算的方向以用摄像机拍摄主动参
与者。
如上所述,确定检测点和声源之间的方向的方法和系统在视频会议中
是非常有用的,例如用于将摄像机自动指向在视频会议系统中的主动参与
者(发言人)。然而,确定检测点和声源之间的方向也可用于其它一些应
用中,例如用于电视节目或电影的制作中,舞台剧或在音乐表演期间的舞
台设置中,以及监控、监测或安全技术中。
与在背景部分中提到的用于到达角度估测的常规的时间延迟技术相
比,本发明产生了更高的信噪比。因此,本发明允许使用具有更高的噪音
水平的便宜的麦克风,而不牺牲整体性能和精度。
另外,使用采用本发明的原理的高品质麦克风允许在确定到达方向上
有更好的性能和准确性,在源具有弱输出信号或如果源位于距离检测点相
当远的位置的情况下也是如此。
应当理解,所说明的方法和系统是完全对应的,所述方法的任何可能
已具体说明的特征应视为也公开给了系统说明中的对等物,反之亦然。
鉴于上述的教义,对本发明做出大量修改和变化是可能的。因此,可
以理解的是,在附加的权利要求的范围内,本发明可以以不同于此处具体
说明的方式实现。