一种视频会议装置.pdf

摘要
申请专利号：	CN200880016175.4	申请日：	2008.05.01
公开号：	CN101682810A	公开日：	2010.03.24
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):H04R 3/02申请公布日:20100324\|\|\|实质审查的生效IPC(主分类):H04R 3/02申请日:20080501\|\|\|公开
IPC分类号：	H04R3/02; H03H17/06; H04N7/15; H04B3/23; H04R1/40; H04M1/60; H04R3/00; H04M3/56	主分类号：	H04R3/02
申请人：	雅马哈株式会社
发明人：	石桥利晃; 田中良
地址：	日本静冈县
优先权：	2007.5.16 JP 130589/2007
专利代理机构：	北京天昊联合知识产权代理有限公司	代理人：	陈源;张天舒
PDF下载：	PDF下载

内容摘要

本发明提供一种视频会议装置，其在扬声器、麦克风以及摄像机被布置在监视器的近旁的情况下，可以抑制回声消除器的处理负担。在回声消除器(19)的前级提供预滤波部件(18)。预滤波部件(18)具有LPF(181)、固定滤波器(182)以及后处理器(183)。控制部件(14)在固定滤波器(182)中设置对应于由信号选择部件(17)所选择的声音采集束信号的滤波系数。设置该滤波系数是为了模拟从扬声器反馈到麦克风的声音传输系统的传递函数。将输入到扬声器的声音信号(输入声音信号)的低频带(例如，1kHz或者更低)分量输入到固定滤波器(182)，并且产生伪信号。由后处理器(183)来去除该伪信号(反馈分量)，并且产生经校正的声音采集束信号(MSs)。

权利要求书

1.  一种视频会议装置，其包括：
获取图像的图像获取部件；
发出声音的发声部件；
采集声音的声音采集部件；
声音采集信号处理部件，其对由声音采集部件采集的声音信号进行信号处理，以输出声音采集信号；
输入信号处理部件，其对从外部输入的输入信号进行信号处理，并且将经过信号处理的输入信号输入到发声部件；
固定滤波器，其根据滤波系数对输入信号进行滤波；
滤波系数设置部件，设置伪滤波系数作为固定滤波器的滤波系数，所述伪滤波系数用于模拟从发声部件延伸到声音采集部件的声音传输系统的传递函数；
后处理器，其通过从声音采集信号中减去固定滤波器的输出信号来产生经校正的声音采集信号；以及
自适应回声消除器，其从由后处理器产生的经校正的声音采集信号中减去由自适应滤波器对输入信号进行处理而获得的伪回声信号。

2.  根据权利要求1所述的视频会议装置，其中声音采集部件具有其中排列有多个麦克风的麦克风阵列；
其中所述声音采集信号处理部件包括：
声音采集束产生部件，其通过对由多个麦克风获取的声音信号进行延迟处理并对延迟的声音信号进行合成来在多个方向上产生具有声音采集方向性的多个声音采集束信号；以及
信号选择部件，其用于根据多个声音采集束信号的音量电平来感测讲话者的方向，并且在讲话者的方向上输出声音采集束信号以作为声音采集信号；
其中滤波系数设置部件将多个滤波系数中与信号选择部件所选择的声音采集束信号相对应的滤波系数设置给固定滤波器作为伪滤波系数，所述多个滤波系数对应于由声音采集束产生部件产生的多个声音采集束信号的声音采集的方向性。

3.  根据权利要求1所述的视频会议装置，其还包括：
带通滤波器，其布置在固定滤波器的前级，以仅允许输入信号的预定频带通过。

4.  根据权利要求3所述的视频会议装置，其中带通滤波器是其通带低于1kHz的低通滤波器。

5.  根据权利要求2所述的视频会议装置，其中图像获取部件根据由信号选择部件感测到的讲话者的方向来改变拍摄条件。

6.  根据权利要求2所述的视频会议装置，其中信号选择部件还包括：带通滤波器，其允许人类语音的主要分量的频带通过，并且根据受到带通滤波器的带通滤波处理的多个声音采集束信号的信号电平来感测讲话者的方向。

说明书

一种视频会议装置
技术领域
本发明涉及一种视频会议装置，其中在与监视器近旁布置扬声器、麦克风以及摄像机。
背景技术
近年来，用于举行远程通信会议的通信会议装置开始广泛使用。所述通信会议装置将由麦克风获取的声音传输到目的端，并且从目的端接收声音。同样，当前传输/接收视频数据的视频会议装置正变得普遍(例如，参见专利文献1)。在专利文献1中所述的装置中，可以切换并传输所获取的整个会议室的图像以及所获取的处于放大模式的讲话者的图像。
在视频会议中，每个参加会议者在讲话的同时看显示目的端视频的监视器是很自然的。因此，通常将扬声器、麦克风以及摄像机布置在监视器的附近。
专利文献1：JP-A-2-202275
发明内容
本发明要解决的技术问题
但是，在专利文献1中的设备中，麦克风被布置在每个讲话者的位置处，以指定讲话者的位置。在这种情况下，必须提供与讲话者数量一样数量的麦克风，并且该装置需要较高成本并且不具有通用性。
同时，可以考虑的是在监视器附近布置定向麦克风。在这种情况下，扬声器与麦克风的布置相互靠近，从而使反馈的声音变大并且因此增大了回声消除器的处理负担。
本发明的目的是提供一种视频会议装置，其可以在扬声器、麦克风以及摄像机布置在监视器的近旁的情况下抑制回声消除器的处理负担。
解决技术问题的方法
本发明的视频会议装置包括：获取图像的图像获取部件；发出声音的发声部件；采集声音的声音采集部件；声音采集信号处理部件，对由声音采集部件采集的声音信号进行信号处理以输出声音采集信号；输入信号处理部件，对从外部输入的输入信号进行信号处理，并且将经过信号处理的输入信号输入到发声部件；固定滤波器，根据滤波系数对输入信号进行滤波；滤波系数设置部件，设置一个伪滤波系数作为固定滤波器的滤波系数，所述伪滤波系数用于模拟从发声部件延伸到声音采集部件的声音传输系统的传递函数；后处理器，通过从声音采集信号中减去固定滤波器的输出信号来产生经校正的声音采集信号；以及自适应回声消除器，从由后处理器产生的经校正的声音采集信号减去由自适应滤波器处理输入信号而获得的伪回声信号。
在这种结构中，在自适应回声消除器的前级布置预滤波部件(固定滤波器、后处理器)以消除预定频带中的反馈分量。假设使用从发声部件直到声音采集部件的声音传输系统的传递函数的情况下，预先设置滤波系数。由于在自适应回声消除器的前级去除了很难接受因声音采集方向性的改变而产生的影响的反馈分量，因此即使在扬声器、麦克风以及摄像机被布置在靠近监视器的附近的情况下也能抑制自适应回声消除器的处理负担。特别地，在低频带中尤其有利。
优选地，相互靠近地布置图像获取部件、发声部件以及声音采集部件。
优选地，使发声部件和声音采集部件与视频会议装置的主体形成整体。
优选地，使图像获取部件与视频会议装置的主体形成整体。
优选地，声音采集部件具有排列有多个麦克风的麦克风阵列。所述声音采集信号处理部件包括：声音采集束产生部件，其用于通过对由多个麦克风获取的声音信号进行延迟处理并且将延迟的声音信号合成来在多个方向上产生具有声音采集方向性的多个声音采集束信号；以及信号选择部件，用于根据多个声音采集束信号的音量电平来感测讲话者的方向，并且输出讲话者所在方向的声音采集束信号作为声音采集信号。滤波系数设置部件从多个滤波系数中将与信号选择部件选择的声音采集束信号相对应的滤波系数设置给固定滤波器作为伪滤波系数，所述多个滤波系数与声音采集束产生部件产生的多个声音采集束信号的声音选择方向性相对应。
在这种结构中，所述声音采集部件由麦克风阵列配置，所述麦克风阵列中排列有多个麦克风。通过对由麦克风获取的声音信号进行延迟并且合成这些声音信号来形成分别在预定方向上具有明确方向性的多个声音采集束信号。通过比较多个声音采集束信号的电平，来选择其电平最高的声音采集束信号作为讲话者的方向。滤波系数设置部件存储与各声音采集束信号相对应的多个滤波系数，并且实时地改变伪滤波系数。
优选地，视频会议装置还包括带通滤波器，在固定滤波器的前级提供该带通滤波器以使只有输入信号的预定频带可以通过。
在这种结构中，所述带通滤波器还用作预滤波器。因此，在回声消除器的前级去除了预定频带的反馈信号。
优选地，所述带通滤波器是低通滤波器，其通带小于1kHz。
在这种结构中，将所述带通滤波器的通带设置为1kHz或者更小，并且通过固定滤波器和后处理器仅去除低频带的反馈分量。在高频带(1kHz或者更大)中，回绕程度根据声音采集方向性的方向具有很大的不同，从而仅低频带被去除。
优选地，图像获取部件根据由信号选择部件所感测到的讲话者的方向来改变拍摄条件。
优选地，信号选择部件还包括带通滤波器，其允许人类语音的主要分量频带通过，并且根据受到带通滤波器的带通滤波处理的多个声音采集束信号的信号电平来感测讲话者的方向。
本发明的优点
根据本发明，提供了用于对几乎不受声音采集方向性改变的影响的反馈分量进行初步消除的滤波器。因此，即使在扬声器、麦克风和摄像机布置在监视器近旁的情况下，也能抑制自适应回声消除器的处理负担。
附图说明
图1是视频会议装置的外部示图；
图2是示出视频会议装置的结构的方框图；
图3是示出由视频会议装置形成的声音采集束区域的示图；
图4是示出图2所示的信号选择部件17的结构的方框图；
图5A和5B是示出反馈信号的电平的示图。
参考数字和符号的描述
11摄像机
SP1至SP8扬声器
M1至M12麦克风
具体实施方式
以下将参考附图来描述根据本发明的实施例的视频会议装置。
图1是示出视频会议装置的外部示图，并且图2是示出视频会议装置的结构的方框图。所述视频会议装置包括：扬声器SP1至SP8、麦克风M1至M12以及摄像机11，并且这些元件可以被布置在监视器2的近旁，或者作为集成的情况将这些元件布置在监视器2上。
扬声器SP1至SP8排成一条直线以构成扬声器阵列。麦克风M1至M12排成一条直线以构成麦克风阵列。在这种情况下，在本实施例中，说明了其中扬声器的数量被设置为8并且麦克风的数量被设置为12的示例，但是数量不限于该示例。并且，扬声器和麦克风的排列间隔不限于等间隔。
如图2所示，除扬声器SP1至SP8、麦克风M1至M12以及摄像机11之外，视频会议装置还包括输入/输出I/F 12、图像数据处理部件13、控制部件14、A/D转换部件15、声音采集束产生部件16、信号选择部件17、预滤波部件18、回声消除器19、发声控制部件20以及D/A转换部件21。
控制部件14连接到摄像机11、声音采集束产生部件16、信号选择部件17、预滤波部件18以及发声控制部件20，并且控制视频会议装置的协调。例如，控制部件14响应于对遥控器(未示出)的用户操作来设置摄像机11的拍摄范围、控制声音采集电平以及发声电平等。而且，控制器部件14设置预滤波部件18的固定滤波器182的滤波系数。在控制部件14中装有存储器，其用于记录固定滤波器182的多个滤波系数。
输入/输出I/F 12连接到网络终端、音频终端以及视频终端。输入/输出I/F 12通过这些终端向目的视频会议装置发送/从目的视频会议装置接收声音和视频。当通过网络终端执行发送/接收时，输入/输出I/F 12以适用于网络通信的数据格式发送/接收声音和视频数据。将所接收的视频数据输出到图像数据处理部件13。将所接收的声音数据转换为数字声音信号，并且输出到回声消除器19、预滤波部件18以及发声控制部件20。
而且，输入/输出I/F 12以适用于网络通信的数据格式将从图像数据处理部件13输入的视频数据发送到目的视频会议装置。并且，输入/输出I/F 12以适用于网络通信的数据格式将从回声消除器19输入的数字声音信号发送到目的视频会议装置。
摄像机11在参加会议者就坐于自己装置前面的范围内获取图像，并且向图像数据处理部件13输出视频信号。当摄像机11装配有摇摄、俯仰拍摄、变焦功能时，由控制部件14来设置拍摄范围。此外，由控制部件14来设置拍摄条件等(对比度等)。
图像数据处理部件13将从摄像机11输入的视频信号转换为视频数据(压缩的数据)，并且向输入/输出I/F 12输出该视频信号。并且，图像数据处理部件13对从输入/输出I/F 12输入的视频数据进行解码，并且向监视器2输出该视频数据来作为视频信号。
麦克风阵列的麦克风M1至M12采集位于其各自单元前面的参加会议者(讲话者)发出的声音，并且产生经过声音采集的声音信号。
A/D转换部件15具有声音采集放大器151和A/D转换器152，从而分别对应于麦克风M1至M12。声音采集放大器151放大经过声音采集的声音信号。A/D转换器152将放大的经过声音采集的声音信号转换为数字声音信号，并且将该声音信号输出到声音采集束产生部件16。
声音采集束产生部件16对从A/D转换部件15输入的各数字声音信号进行预定的延迟处理，并且接着合成各延迟的信号。因此，声音采集束产生部件16产生声音采集束信号MB1至MB4来作为其中对从特定区域到达的声音进行了强调的束信号。如图3所示，在声音采集束信号MB1至MB4中，分别将预定宽度沿长表面侧(其上布置有麦克风M1至M12)不同的多个区域设置为声音采集束区域(由声音采集束信号所强调的特定空间和方向)。在这种情况下，声音采集束数量和所述区域的位置不限制于该示例。控制部件14可以通过分别控制每个数字声音信号的延迟量来改变声音采集束区域。
信号选择部件17从声音采集束信号MB1至MB4中选择其电平最高的信号，并且将该声音采集束信号输出到预滤波部件18以作为主要的声音采集束信号MS。并且，信号选择部件17将所选择的声音采集束信号通知给控制部件14。
图4示出了信号选择部件17的主要结构的方框图。
信号选择部件17具有BPF(带通滤波器)171、全波整流电路172、峰值检测电路173、电平比较器174以及信号选择电路175。
BPF 171是其通带对应于人类语音的主要分量频带的带通滤波器。BPF 171对声音采集束信号MB1至MB4进行带通滤波处理，并且将处理所得的声束信号输出到全波整流电路172。全波整流电路172对声音采集束信号MB1至MB4进行全波整流(绝对值)。峰值检测电路173分别检测经过全波整流的声音采集束信号MB1至MB4的峰值，并且输出峰值数据Ps1至Ps4。电平比较器174比较峰值数据Ps1至Ps4，并且将选择命令数据给到信号选择电路175，该选择命令数据表示应该选择与电平最高的峰值数据相对应的声音采集束信号。而且，电平比较器174将选择命令数据给到控制部件14，该选择命令数据表示应该选择与电平最高的峰值数据相对应的声音采集束信号。信号选择电路175选择由选择命令数据表示的声音采集束信号，并且向预滤波部件18输出该声音采集束信号，以作为主要的声音采集束信号MS。
该选择是基于这样的事实进行的，其中对应于讲话者所处声音采集区域的声音采集束信号的信号电平大于对应于其他区域的声音采集束信号的信号电平。
控制部件14根据从电平比较器174输入的选择命令数据来改变摄像机11的拍摄条件。例如，控制部件14设置摄像机11的摇摄、俯仰拍摄、变焦，以获取与所选择的声音采集束信号相对应的区域的图像。而且，控制部件14根据选择命令数据来设置预滤波部件18中的固定滤波器182的滤波系数。
预滤波部件18具有LPF(低通滤波器)181、固定滤波器182以及后处理器183。LPF 181是其通带为低频带(例如，1kHz或者更小)的低通滤波器。LPF 181对从回声消除器19输入的信号(即从其他单元输入的输入声音信号)进行低通滤波处理，并且向固定滤波器182输出处理所得的信号。
固定滤波器182是FIR滤波器，并且其滤波系数由控制部件14设置。控制部件14设置其滤波系数，该滤波系数模拟从扬声器(SP1至SP8)到麦克风(M1至M12)的回声传输路径。将使用图5描述滤波系数的细节。固定滤波器182对受到LPF 181的带限的输入声音信号进行滤波，并且产生模拟了从扬声器到麦克风的反馈信号的伪信号。在这种情况下，LPF 181的功能可以在固定滤波器182中实现。
预滤波部件18通过后处理器183从主要的声音采集束信号MS中减去所述伪信号。因此，预滤波部件18产生从中去除了低频带反馈分量的经校正的声音采集束信号MSs。
回声消除器19具有自适应滤波器191和后处理器192。自适应滤波器191基于输入声音信号来产生伪反馈声音信号，该伪反馈声音信号模拟从扬声器阵列反馈到麦克风阵列的反馈声音信号。后处理器192从预滤波部件18输出的经校正的声音采集束信号MSs中减去所述伪反馈声音信号，并且向输入/输出I/F 12输出结果信号作为输出声音信号。因此，消除了回声分量。并且，将输出的声音信号输入到自适应滤波器191，并且接着，自适应滤波器191根据输入的输出声音信号来更新滤波系数，以消除回声分量。
发声控制部件20对输入的声音信号进行预定延迟处理，并且接着将延迟的信号输入到D/A转换部件21中的各D/A转换器211。D/A转换器211将输入的声音信号转换为模拟声音信号，并且将该模拟声音信号输入到AMP 212。AMP 212放大该模拟声音信号并且将其输入到扬声器SP1至SP8，并且接着扬声器SP1至SP8发出声音。
发声控制部件20可通过分别对将要输入到扬声器阵列的各扬声器的声音信号进行延迟处理来形成在预定方向上具有明确方向性的发声束。并且，发声控制部件20可形成发声束以使发声束聚焦于预定位置。尽管各扬声器与焦点之间的实际距离各不相同，但是可以延迟声音信号，以使这些声音以这些扬声器好象均排列于与焦点等距的位置的定时被发出。
接着，图5A和5B是示出反馈信号的电平的图示。在图5A所示的曲线图中，横坐标表示频率而纵坐标表示电平。图5A示出了在使用视频会议装置中的扬声器阵列来输出将焦点置于预定前方位置的发声束(白噪声)时，麦克风阵列的声音采集电平(主要的声音采集束信号的电平)。图5B示出了从上表面侧看视频会议装置时，视频会议装置的声音采集方向和发声的焦点位置。在图5B中，将视频会议装置的中央位置假设为原点，将页面的向右的方向假设为X方向，将向左的方向假设为-X方向，将向上的方向假设为-Y方向，并且将向下的方向假设为Y方向。而且，将X轴设为0度，而将Y轴设为90度。
从扬声器阵列发出的声音(白噪声)聚焦于点A(0，42)。该点A(0，42)表示在Y方向上距视频会议装置的中央位置的距离为42cm的点。图5A示出了当声音采集束方向为0度、30度和60度时声音采集信号的电平，并且同时分别输出聚焦于点A的发声束。如图5A所示，反馈电平在所有角度均达到300至400Hz附近的最大值。并且，根据角度的不同，在1kHz或更大的频带的频率特性显著不同。因此，在预滤波部件18中，通过LPF 181截去1kHz或更大的频率，并且通过固定滤波器182来将滤波系数仅设置为小于1kHz的频带。
控制部件14记录声音采集束在每个角度的滤波系数。即，控制部件14分别记录每个声音采集束信号MB1至MB4中的与声音采集角度相对应的滤波系数。如图5A中所示的频率特性，滤波系数具有模拟反馈声音的特性。
控制部件14根据从信号选择部件17的电平比较器174输入的选择命令数据，在固定滤波器182中设置与所选择的声音采集束信号相对应的滤波系数。因此，经校正的声音采集束信号MSs给出已从主要的声音采集束信号MS中减去了低频带(低于1kHz)反馈分量的信号。因此，回声消除器19中的反馈分量变得相对较小，并且减小了处理负担。
而且，控制部件14可在固定滤波器182中预设确定的单独的滤波系数。例如，在图5A所示的曲线中，可设置与在30度方向上设置声音采集束时的频率特性相对应的滤波系数。