《用于控制音频会议的方法和装置.pdf》由会员分享,可在线阅读,更多相关《用于控制音频会议的方法和装置.pdf(28页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104219400A43申请公布日20141217CN104219400A21申请号201310208248222申请日20130530H04M3/56200601H04L12/1820060171申请人华为技术有限公司地址518129广东省深圳市龙岗区坂田华为总部办公楼72发明人王宾苗磊王喆74专利代理机构北京龙双利达知识产权代理有限公司11329代理人毛威张亮54发明名称用于控制音频会议的方法和装置57摘要提供一种控制音频会议的方法和装置,能够使近端用户能够容易地从远端用户中辨识出实际说话者,该方法包括获取音效位置调整信息,所述音效位置调整信息包括指示至少两个远端用户的话。
2、音特性的话音识别信息、指示所述远端用户的发言频率的发言频率信息、指示所述远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个,其中,所述话音识别信息用于确定所述远端用户之间在音频会议区域中的音效位置间隔;根据所述音效位置调整信息,确定所述远端用户在所述音频会议区域中的音效位置。51INTCL权利要求书4页说明书17页附图6页19中华人民共和国国家知识产权局12发明专利申请权利要求书4页说明书17页附图6页10申请公布号CN104219400ACN104219400A1/4页21一种用于控制音频会议的方法,其特征在于,所述方法包括获取音效位置调整信息,所述音效位置调整信。
3、息包括指示至少两个远端用户的话音特性的话音识别信息、指示所述远端用户的发言频率的发言频率信息、指示所述远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个,其中,所述话音识别信息用于确定所述远端用户之间在音频会议区域中的音效位置间隔;根据所述音效位置调整信息,调整所述远端用户在所述音频会议区域中的音效位置。2根据权利要求1所述的方法,其特征在于,所述音效位置调整信息包括所述话音识别信息,以及所述根据所述音效位置调整信息,调整所述远端用户在音频会议区域中的音效位置,包括如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第。
4、四远端用户的话音识别信息之间的差异,则调整远端用户在所述音频会议区域中的音效位置,使所述第一远端用户与所述第二远端用户之间在所述音频会议区域中的音效位置间隔小于所述第三远端用户与所述第四远端用户之间在所述音频会议区域中的音效位置间隔,其中,所述第一远端用户与所述第二远端用户在所述音频会议区域中的音效位置相邻,所述第三远端用户与所述第四远端用户在所述音频会议区域中的音效位置相邻。3根据权利要求1或2所述的方法,其特征在于,所述话音识别信息包括声音频率、声音频率方差、共振峰的频率或线性预测系数LPC。4根据权利要求1所述的方法,其特征在于,所述音效位置调整信息包括所述发言频率信息,以及所述根据所述。
5、音效位置调整信息,调整所述远端用户在音频会议区域中的音效位置,包括根据所述发言频率信息,确定发言频率最高的第五远端用户;增大所述第五远端用户的相邻用户与所述第五远端用户之间在所述音频会议区域中的音效位置间隔。5根据权利要求4所述的方法,其特征在于,所述增大所述第五远端用户的相邻用户与所述第五远端用户之间在所述音频会议区域中的音效位置间隔包括调换所述第五远端用户与第六远端用户在音频会议区域中的音效位置,并增大所述第五远端用户调换音效位置后的相邻用户与所述第五远端用户之间在所述音频会议区域中的音效位置间隔,其中,所述第六远端用户在调换音效位置前只有一个相邻用户。6根据权利要求5所述的方法,其特征在。
6、于,所述调换所述第五远端用户与第六远端用户在音频会议区域中的音效位置包括调换所述第五远端用户与所述第六远端用户在音频会议区域中的音效位置,其中,所述第五远端用户与所述第六远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧。7根据权利要求1所述的方法,其特征在于,所述音效位置调整信息包括所述发言顺序信息,以及所述根据所述音效位置调整信息,调整所述远端用户在音频会议区域中的音效位置,权利要求书CN104219400A2/4页3包括根据所述发言顺序信息,确定第七远端用户与第八远端用户交替发言,其中,所述第七远端用户与所述第八远端用户在音频会议区域中的音效位置相邻,且位于所述近端用户的左。
7、右两侧中的同一侧;增大所述第七远端用户与所述第八远端用户之间在音频会议区域中的音效位置间隔。8根据权利要求7所述的方法,其特征在于,所述增大所述第七远端用户与所述第八远端用户之间在音频会议区域中的音效位置间隔包括调换所述第七远端用户与第九远端用户的在所述音频会议区域中的音效位置,其中,所述第七远端与所述第九远端用户在所述音频会议区域中的音效位置相邻;或调换所述第八远端用户与第十远端用户在所述音频会议区域中的音效位置,其中,所述第八远端与所述第十远端用户在所述音频会议区域中的音效位置相邻。9根据权利要求8所述的方法,其特征在于,所述调换所述第七远端用户与第九远端用户在音频会议区域中的音效位置包括。
8、调换所述第七远端用户与第九远端用户在所述音频会议区域中的音效位置,其中,所述第七远端与所述第九远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧;或调换所述第八远端用户与第十远端用户在所述音频会议区域中的音效位置,其中,所述第八远端与所述第十远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧。10根据权利要求1所述的方法,其特征在于,所述音频会议区域包括判定区域和工作区域;所述获取音效位置调整信息包括在所述音频会议区域中的判定区域,确定新加入音频会议的远端用户的话音识别信息;以及所述根据所述音效位置调整信息,调整所述远端用户在音频会议区域中的音效位置,包括根据所述音。
9、效位置调整信息,调整所述远端用户在音频会议区域中的工作区域的音效位置。11一种用于控制音频会议的装置,其特征在于,所述装置包括获取单元,用于获取音效位置调整信息,并向处理单元传输所述音效位置调整信息,所述音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示所述远端用户的发言频率的发言频率信息、指示所述远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个,其中,所述话音识别信息用于确定所述远端用户之间在音频会议区域中的音效位置间隔;处理单元,用于从所述获取单元获取所述音效位置调整信息,并根据所述音效位置调整信息,调整所述远端用户在所述音频会议区域中的音。
10、效位置。12根据权利要求11所述的装置,其特征在于,所述音效位置调整信息包括所述话音识别信息,以及所述处理单元具体用于如果第一远端用户的话音识别信息与第二远端用户的话音识权利要求书CN104219400A3/4页4别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异,则调整远端用户在所述音频会议区域中的音效位置,使所述第一远端用户与所述第二远端用户之间在所述音频会议区域中的音效位置间隔小于所述第三远端用户与所述第四远端用户之间在所述音频会议区域中的音效位置间隔,其中,所述第一远端用户与所述第二远端用户在所述音频会议区域中的音效位置相邻,所述第三远端用户与所述第四。
11、远端用户在所述音频会议区域中的音效位置相邻。13根据权利要求11或12所述的装置,其特征在于,所述话音识别信息包括声音频率、声音频率方差、共振峰的频率或线性预测系数LPC。14根据权利要求11所述的装置,其特征在于,所述音效位置调整信息包括所述发言频率信息,以及所述处理单元具体用于根据所述发言频率信息,确定发言频率最高的第五远端用户;用于增大所述第五远端用户的相邻用户与所述第五远端用户之间在所述音频会议区域中的音效位置间隔。15根据权利要求14所述的装置,其特征在于,所述处理单元具体用于调换所述第五远端用户与第六远端用户在音频会议区域中的音效位置,并增大所述第五远端用户调换音效位置后的相邻用户。
12、与所述第五远端用户之间在所述音频会议区域中的音效位置间隔,其中,所述第六远端用户在调换音效位置前只有一个相邻用户。16根据权利要求15所述的装置,其特征在于,所述处理单元具体用于调换所述第五远端用户与所述第六远端用户在音频会议区域中的音效位置,其中,所述第五远端用户与所述第六远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧。17根据权利要求11所述的装置,其特征在于,所述音效位置调整信息包括所述发言顺序信息,以及所述处理单元具体用于根据所述发言顺序信息,确定第七远端用户与第八远端用户交替发言,其中,所述第七远端用户与所述第八远端用户在音频会议区域中的音效位置相邻,且位于所述近端。
13、用户的左右两侧中的同一侧;用于增大所述第七远端用户与所述第八远端用户之间在音频会议区域中的音效位置间隔。18根据权利要求17所述的装置,其特征在于,所述处理单元具体用于调换所述第七远端用户与第九远端用户的在所述音频会议区域中的音效位置,其中,所述第七远端与所述第九远端用户在所述音频会议区域中的音效位置相邻;或用于调换所述第八远端用户与第十远端用户在所述音频会议区域中的音效位置,其中,所述第八远端与所述第十远端用户在所述音频会议区域中的音效位置相邻。19根据权利要求18所述的装置,其特征在于,所述处理单元具体用于调换所述第七远端用户与第九远端用户在所述音频会议区域中的音效位置,其中,所述第七远端。
14、与所述第九远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧;或用于调换所述第八远端用户与第十远端用户在所述音频会议区域中的音效位置,其中,所述第八远端与所述第十远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧。20根据权利要求11所述的装置,其特征在于,所述音频会议区域包括判定区域和工权利要求书CN104219400A4/4页5作区域,所述判定区域用于确定新加入音频会议的远端用户的话音识别信息,所述工作区域用于设置已加入音频会议的远端用户的音效位置,以及所述获取单元具体用于在所述音频会议区域中的判定区域,确定新加入音频会议的远端用户的话音识别信息;以及所述处理单。
15、元具体用于根据所述音效位置调整信息,调整所述远端用户在音频会议区域中的工作区域的音效位置。权利要求书CN104219400A1/17页6用于控制音频会议的方法和装置技术领域0001本发明涉及通信领域,并且更具体地,涉及用于控制音频会议的方法和装置。背景技术0002音频会议系统为处于不同地点的人们提供了方便的交流平台,减少了不必要的交通费用,同时保证了沟通的及时性。通常,在音频会议中,会存在个会议终端(例如,电话机,以下简称终端),每个终端供一个或多个用户(或者说,与会者)使用,在传统的音频会议系统中,在终端回放接收到的声音时,将所有终端的声音都混音在一起,导致所有声音对于用户而言均来自同一个方。
16、向,不仅造成声音的清晰度降低,而且各终端的用户(或者说,近端用户)不能从其他终端的用户(或者说,远端用户)中辨识实际说话,即,在不熟悉远端用户的声音的情况下,无法通过声音来识别当前的说话者,严重影响会议的效果。针对这一突出问题,三维(3D,THREEDIMENSIONAL)音频会议系统可以提供很好的解决方案,即,对接收到的多路音频流进行3D声音方位处理,将不同远端用户的声音放到不同的声像位置(或者说,音效位置),从而使近端用户可以根据声像位置识别当前的说话者。0003但是,例如,在间隔较小的两个相邻远端用户的话音特性差别较小时,近端用户仍然不能良好地辨识说话者的声像位置,因此,需要提供一种方案。
17、,能够使近端用户容易地从远端用户中辨识出实际说话者。发明内容0004本发明实施例提供一种控制音频会议的方法和装置,能够使近端用户能够容易地从远端用户中辨识出实际说话者。0005第一方面,提供了一种用于控制音频会议的方法,该方法包括获取音效位置调整信息,该音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示该远端用户的发言频率的发言频率信息、指示该远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个,其中,该话音识别信息用于确定该远端用户之间在音频会议区域中的音效位置间隔;根据该音效位置调整信息,调整该远端用户在该音频会议区域中的音效位置。0006在一。
18、种可能的实施方式中,该音效位置调整信息包括该话音识别信息,以及该根据该音效位置调整信息,调整该远端用户在音频会议区域中的音效位置,包括如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异,则调整远端用户在该音频会议区域中的音效位置,使该第一远端用户与该第二远端用户之间在该音频会议区域中的音效位置间隔小于该第三远端用户与该第四远端用户之间在该音频会议区域中的音效位置间隔,其中,该第一远端用户与该第二远端用户在该音频会议区域中的音效位置相邻,该第三远端用户与该第四远端用户在该音频会议区域中的音效位置相邻。0007结。
19、合第一方面和第一种可能的实施方式,在第二种可能的实施方式中,该音效位说明书CN104219400A2/17页7置调整信息包括该发言频率信息,以及该根据该音效位置调整信息,调整该远端用户在音频会议区域中的音效位置,包括根据该发言频率信息,确定发言频率最高的第五远端用户;增大该第五远端用户的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔。0008结合第一方面、第一种可能的实施方式和第二种可能的实施方式,在第三种可能的实施方式中,该音效位置调整信息包括该发言顺序信息,以及该根据该音效位置调整信息,调整该远端用户在音频会议区域中的音效位置,包括根据该发言顺序信息,确定第七远端用户与第八远。
20、端用户交替发言,其中,该第七远端用户与该第八远端用户在音频会议区域中的音效位置相邻,且位于该近端用户的左右两侧中的同一侧;增大该第七远端用户与该第八远端用户之间在音频会议区域中的音效位置间隔。0009结合第一方面、第一种可能的实施方式、第二种可能的实施方式和第三种可能的实施方式,在第四种可能的实施方式中,该音频会议区域包括判定区域和工作区域;该获取音效位置调整信息包括在该音频会议区域中的判定区域,确定新加入音频会议的远端用户的话音识别信息;以及该根据该音效位置调整信息,调整该远端用户在音频会议区域中的音效位置,包括根据该音效位置调整信息,调整该远端用户在音频会议区域中的工作区域的音效位置。00。
21、10第二方面,提供了一种用于控制音频会议的装置,该装置包括获取单元,用于获取音效位置调整信息,并向处理单元传输该音效位置调整信息,该音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示该远端用户的发言频率的发言频率信息、指示该远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个,其中,该话音识别信息用于确定该远端用户之间在音频会议区域中的音效位置间隔;处理单元,用于从该获取单元获取该音效位置调整信息,并根据该音效位置调整信息,调整该远端用户在该音频会议区域中的音效位置。0011在一种可能的实施方式中,该音效位置调整信息包括该话音识别信息,以及该处理单。
22、元具体用于如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异,则调整远端用户在该音频会议区域中的音效位置,使该第一远端用户与该第二远端用户之间在该音频会议区域中的音效位置间隔小于该第三远端用户与该第四远端用户之间在该音频会议区域中的音效位置间隔,其中,该第一远端用户与该第二远端用户在该音频会议区域中的音效位置相邻,该第三远端用户与该第四远端用户在该音频会议区域中的音效位置相邻。0012结合第二方面和第一种可能的实施方式,在第二种可能的实施方式中,该音效位置调整信息包括该发言频率信息,以及该处理单元具体用于根据。
23、该发言频率信息,确定发言频率最高的第五远端用户;用于增大该第五远端用户的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔。0013结合第二方面、第一种可能的实施方式和第二种可能的实施方式,在第三种可能的实施方式中,该音效位置调整信息包括该发言顺序信息,以及该处理单元具体用于根据该发言顺序信息,确定第七远端用户与第八远端用户交替发言,其中,该第七远端用户与该第八远端用户在音频会议区域中的音效位置相邻,且位于该近端用户的左右两侧中的同一说明书CN104219400A3/17页8侧;用于增大该第七远端用户与该第八远端用户之间在音频会议区域中的音效位置间隔。0014结合第二方面、第一种可能。
24、的实施方式、第二种可能的实施方式和第三种可能的实施方式,在第四种可能的实施方式中,该音频会议区域包括判定区域和工作区域,该判定区域用于确定新加入音频会议的远端用户的话音识别信息,该工作区域用于设置已加入音频会议的远端用户的音效位置,以及该获取单元具体用于在该音频会议区域中的判定区域,确定新加入音频会议的远端用户的话音识别信息;以及该处理单元具体用于根据该音效位置调整信息,调整该远端用户在音频会议区域中的工作区域的音效位置。0015根据本发明实施例的控制音频会议的方法和装置,获取音效位置调整信息,所述音效位置调整信息包括以下中信息中的至少一个指示至少两个远端用户的话音特性的话音识别信息、指示所述。
25、远端用户的发言频率的发言频率信息、指示所述远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息。根据所述音效位置调整信息调整远端用户的音效位置,从而能够使近端用户容易地从远端用户中辨识出实际说话者。附图说明0016为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。0017图1是根据本发明实施例的控制音频会议的方法的示意性流程图。0018图2A是表示根据话音识别信息调整各远端用户的音效位置前的音效位。
26、置分配情况的一例的示意图,图2B是表示根据话音识别信息调整各远端用户的音效位置后的音效位置分配情况的示意图,图2C是表示根据话音识别信息调整各远端用户的音效位置前的音效位置分配情况的另一例的示意图,图2D是表示根据话音识别信息调整各远端用户的音效位置后的音效位置分配情况的另一例的示意图,图2E是表示根据话音识别信息调整各远端用户的音效位置前的音效位置分配情况的再一例的示意图,图2F是表示根据话音识别信息调整各远端用户的音效位置后的音效位置分配情况的再一例的示意图。0019图3A是表示根据发言频率信息调整各远端用户的音效位置前的音效位置分配情况的一例的示意图,图3B是表示根据发言频率信息调整各远。
27、端用户的音效位置后的音效位置分配情况的一例的示意图,图3C是表示根据发言频率信息调整各远端用户的音效位置后的音效位置分配情况的另一例的示意图。0020图4A是表示根据发言顺序信息调整各远端用户的音效位置前的音效位置分配情况的一例的示意图,图4B是表示根据发言频率信息调整各远端用户的音效位置后的音效位置分配情况的一例的示意图,图4C是表示根据发言频率信息调整各远端用户的音效位置后的音效位置分配情况的另一例的示意图。0021图5是根据本发明实施例的控制音频会议的装置的示意性框图。0022图6是根据本发明实施例的控制音频会议的设备的示意性结构图。具体实施方式0023下面将结合本发明实施例中的附图,对。
28、本发明实施例中的技术方案进行清楚、完说明书CN104219400A4/17页9整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。0024图1示出了是根据本发明实施例的控制音频会议的方法100的示意性流程图。如图1所示,该方法100包括0025S110,获取音效位置调整信息,该音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示该远端用户的发言频率的发言频率信息、指示该远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一。
29、个,其中,该话音识别信息用于确定该远端用户之间在音频会议区域中的音效位置间隔;0026S120,根据该音效位置调整信息,调整该远端用户在该音频会议区域中的音效位置。0027在本发明实施例中,参与音频会议的与会者可以通过多个(至少两个)终端设备(例如,电话机等,即,本发明实施例的控制音频会议的方法100的实施主体的一例),进行音频会议,并且,各终端设备可以通过各种通信网络相连。终端设备可以获取用户(以下,为了便于理解,称为近端用户)的语音信息,生成音频数据,并(通过服务器)将该音频数据发送给其他终端设备。0028并且,终端设备可以(通过服务器)从其他终端设备获取其他与会者(以下,为了便于理解,称。
30、为远端用户)的音频数据,并通过例如3D声音方位处理等技术,还原远端用户的声音,并分别从不同音效位置向近端用户呈现各远端用户的声音。0029这里,需要说明的是,在本发明实施例中,“音效位置”也可以称为声像位置,是指近端用户通过听觉感知的远端用户的虚拟位置。0030可选地,在本发明实施例中,该音频会议区域包括判定区域和工作区域,该判定区域用于确定新加入音频会议的远端用户的话音识别信息,该工作区域用于设置已加入音频会议的远端用户的音效位置,以及,0031该获取音效位置调整信息包括0032在该音频会议区域中的判定区域,确定新加入音频会议的远端用户的话音识别信息;以及0033该根据该音效位置调整信息,调。
31、整该远端用户在音频会议区域中的音效位置,包括0034根据该音效位置调整信息,调整该远端用户在音频会议区域中的工作区域的音效位置。0035具体地说,终端设备可以将近端用户前方的区域划分为判定区域和工作区域两种,其中,判定区域可以用于获取新加入音频会议的远端用户的话音识别信息(VIF,VOICEIDENTIFICATIONFACTOR),这里,新加入音频会议的远端用户可以是在音频会议创建阶段加入的远端用户,也可以是在音频会议进行阶段加入的远端用户,本发明并未特别限定。工作区域用于设置远端用户的声像音效位置,并且,不同工作区域中的远端用户的配置可以相互独立,即,对于远端用户在一个工作区域中的音效位置。
32、分配,可以不依据其他工作区域中的远端用户的各参数。0036如图2A所示,在本发明实施例中,例如,可以将在近端用户正前方的区域作为判说明书CN104219400A5/17页10定区域,从而是工作区域位于该判定区域的两侧。从而,可以根据该VIF将该新加入音频会议的远端用户分配至工作区域,其中,根据VIF将远端用户分配至工作区域的方法可以与现有技术相同,这里,为了避免赘述,省略其说明。0037应理解,以上列举的工作区域与判定区域的音效位置关系仅为示例性说明,本发明并不限定于此,例如,判定区域也可以配置在两个工作区域之间的任一音效位置,即,判定区域不位于近端用户的正前方,从而使两个工作区域的大小可以不。
33、一致。或者,也可以将判定区域设置在最靠近近端用户的音效位置,从而仅形成一个工作区域和与其相邻的判定区域。以下,为了便于理解,以判定区域设置在近端用户正前方,工作区域位于该判定区域(或者说,近端用户)两侧为例,进行说明。0038在本发明实施例中,音效位置调整信息可以包括话音识别信息(即,情况1)、发言频率信息(即,情况2)、发言顺序信息(即,情况3)和用户操作信息(即,情况4),下面,分别对各情况下的调整远端用户的音效位置的过程进行说明。应理解,以上列举的各情况仅为本发明的示例性说明,并不限定于此,例如,还可以根据以上列举的四个信息中的至少两个信息调整远端用户的音效位置。0039情况10040在。
34、本发明实施例中,在会议建立阶段,可以随机地将各远端用户分配到各声像音效位置,其后,获取来自其他终端设备的音频数据;也可以预先根据现有技术中的方法将各远端用户随机分配到各声像音效位置,其后获取来自其他终端设备的音频数据;还可以不为各远端用户分配声像音效位置,而直接获取来自其他终端设备的音频数据,本发明并未特别限定。图2A示出了根据发言频率信息调整各远端用户的音效位置前的音效位置分配情况的一例。0041从而,在S110A,可以从来自其他终端设备的音频数据中获取各远端用户的话音识别信息(VIF,VOICEIDENTIFICATIONFACTOR)。0042可选地,在本发明是示例中宏,该话音识别信息包。
35、括声音频率、声音频率方差、共振峰的频率或线性预测系数LPC。0043具体地说,该VIF可以是音频数据中的声音频率(PITCH),由于人的声音频率通常具有一定程度的独特性,因此,可以使用该声音频率作为VIF,同理,该VIF也可以是声音频率的方差。该VIF可以是线性预测系数(LPC,LINEARPREDICTIVECOEFFICIENTS),线性预测系数又称声道截面函数,是声道中由声门至唇部各点的横截面积,由于,人的线性预测系数通常具有一定程度的独特性,因此,可以使用该线性预测系数作为VIF。0044可选地,在本发明实施例中,该音效位置调整信息包括该话音识别信息,以及0045该根据该音效位置调整信。
36、息,调整该远端用户在音频会议区域中的音效位置,包括0046如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异,则调整远端用户在该音频会议区域中的音效位置,使该第一远端用户与该第二远端用户之间在该音频会议区域中的音效位置间隔小于该第三远端用户与该第四远端用户之间在该音频会议区域中的音效位置间隔,其中,该第一远端用户与该第二远端用户在该音频会议区域中的音效位置相邻,该第三远端用户与该第四远端用户在该音频会议区域中的音效位置相邻。说明书CN104219400A106/17页110047具体地说,在S120A,可以根。
37、据各远端用户的VIF,确定各相邻远端用户之间话音识别信息的差异,例如,图2A中远端用户A01的VIF(记作,VIF(A01)与远端用户A03的VIF(记作,VIF(A03)之间的差异可以表示为|VIF(A01)VIF(A03)|;0048同理,远端用户A01的VIF与远端用户A04的VIF(记作,VIF(A04)之间的差异可以表示为|VIF(A01)VIF(A04)|;0049远端用户A06的VIF(记作,VIF(A06)与远端用户A05的VIF(记作,VIF(A05)之间的差异可以表示为|VIF(A06)VIF(A05)|;0050远端用户A06的VIF与远端用户A02的VIF(记作,VIF。
38、(A02)之间的差异可以表示为|VIF(A06)VIF(A02)|。0051例如,如果|VIF(A01)VIF(A03)|VIF(A01)VIF(A04)|,则可以使A01与A03之间的间距(P1)大于A01与A04之间的间距(P2),即如图2B所示,可以使P1P2。0052同理,如果|VIF(A02)VIF(A06)|VIF(A06)VIF(A05)|,则可以使A02与A06之间的间距(P4)大于A06与A05之间的间距(P5),即如图2B所示,可以使P4P5。0053应理解,以上列举的根据话音识别信息调整各远端用户在该音频会议区域中的音效位置的方法仅为示例性说明,本发明并不限定于此,例如,。
39、如图2C所示,音频会议的区域仅包括一个工作区域的情况下,调整各相邻远端用户之间的距离时,可以对所有相邻远端用户之间的VIF的差异,并且,可以根据差异的大小进行排序,为VIF差异最大的相邻远端用户分配最大的间距,为VIF差异最小的相邻远端用户分配最小的间距。0054例如,如果|VIF(A01)VIF(A03)|VIF(A01)VIF(A04)|,0055且,|VIF(A01)VIF(A04)|VIF(A04)VIF(A02)|,0056且,|VIF(A04)VIF(A02)|VIF(A02)VIF(A06)|,0057|VIF(A02)VIF(A06)|VIF(A06)VIF(A05)|,005。
40、8则如图2D所示,可以使P1P2P3P4P5。0059并且,在会议进行阶段,例如,如图2E所示,远端用户包括A01A07,如果会议进行过程A06提前离开会议,则可以计算剩余相关远端用户(这里,是指与A06处于同一工作区域的A02、A07和A05)之间的VIF差异,并结合当前的方位音效位置分配情况进行音效位置修正调整。例如,当A06离开会议后,A07与A05成为相邻远端用户,需要计算远端用户A07的VIF(记作,VIF(A07)与VIF(A05)的差异,可以表示为|VIF(A07)VIF(A05)|;并且,VIF(A07)与VIF(A02)的差异,可以表示为|VIF(A07)VIF(A02)|;。
41、0060例如,如果|VIF(A07)VIF(A05)|VIF(A07)VIF(A02)|,则可以使A07与A05之间的间距(P6)大于A07与A02之间的间距(P7),即如图2F所示,可以使P6P7。0061或者,还可以根据近端用户的识别能力预先设定多个阈值范围,以及与该多个阈值范围相对应的多个音效位置间隔值,并根据如上所述确定的相邻远端VIF差异所处的阈值范围,确定所适用的间隔值,并调整该远端用户的音效位置。0062根据本发明实施例的控制音频会议的方法,通过扩大话音特性差别较小的相邻远端用户之间的声像距离,能够使近端用户能够容易地从远端用户中辨识出实际说话者。说明书CN104219400A1。
42、17/17页120063情况20064在会议进行阶段,可以记录各远端用户的发言次数以及该发言在会议中对应时间,例如,可以记录各远端用户在预设时间段内的语音帧数,以确定各远端用户在预设时间段内的发言频率(语音帧数与预设时间的比值),从而,在S110B,可以将该发言频率作为发言频率信息VAF(VOICEACTIVITYFACTOR)。以上,列举了将发言频率直接作为发言频率信息的实施例,但本发明并不限定于此,例如,也可以计算在预设时间段内,各远端用户的发言次数在总发言次数中的比例(或者说,发言比例,即,各远端用户的语音帧数与总语音帧数的比值),将该发言比例作为发言频率信息。0065可选地,在本发明实。
43、施例中,该音效位置调整信息包括该发言频率信息,以及0066该根据该音效位置调整信息,调整该远端用户在音频会议区域中的音效位置,包括0067根据该发言频率信息,确定发言频率最高的第五远端用户;0068增大该第五远端用户的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔。0069具体地说,在S120B,可以确定各工作区域中,在预设时间段内的发言次数最多(语音帧数最多,或者说,发言频率最大、发言比例最大)的远端用户。例如,如图3A所示,在远端用户A01、远端用户A02和远端用户A03中,将远端用户A01在预设时间段内的语音帧数记作N1,发言频率记作M1,发言比例记作K1,将远端用户A02。
44、在预设时间段内的语音帧数记作N2,发言频率记作M2,发言比例记作K2,将远端用户A03在预设时间段内的语音帧数记作N3,发言频率记作M3,发言比例记作K3;0070例如,如果,N2N1,且N2N3,或0071M2M1,且M2M3,或0072K2K1,且K2K3,则可以确定远端用户A02(第五远端用户的一例)在预设时间段内的发言次数最多。从而,如图3B所示,可以直接增大远端用户A02与远端用户A01之间的间隔,以及远端用户A02与远端用户A03之间的间隔,例如,可以将A01向上移动,将A02向上移动。0073可选地,在本发明实施例中,该增大该第五远端用户的相邻用户与该第五远端用户之间的间隔。包括。
45、0074调换该第五远端用户与第六远端用户在音频会议区域中的音效位置,并增大该第五远端用户调换音效位置后的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔,其中,该第六远端用户在调换音效位置前只有一个相邻用户。0075并且,该调换该第五远端用户与第六远端用户在音频会议区域中的音效位置包括0076调换该第五远端用户与该第六远端用户在音频会议区域中的音效位置,其中,该第五远端用户与该第六远端用户在该音频会议区域中位于该近端用户的左右两侧中的同一侧。0077具体地说,例如,如图3C所示,可以调换远端用户A02与远端用户A01的音效位置,以达到增大远端用户A02与远端用户A03之间的间隔的目。
46、的,其后,可以增大远端用户A02与远端用户A01之间的间隔,即,将A02向上移动,或,将A01向下移动。说明书CN104219400A128/17页130078应理解,以上列举的增大该第五远端用户(远端用户A02)的相邻用户与该第五远端用户(远端用户A02)之间的间隔的方法仅为本发明的示例性说明,本发明并不限定于此,例如,还可以调换远端用户A02与远端用户A03的音效位置,其后,增大远端用户A02与远端用户A03之间的间隔。并且,当该第五远端用户(远端用户A02)所处的工作区域设置有四个以上远端用户时,可以调换第五远端用户与位于该工作区域边缘的第六远端用户的音效位置,其后,增大该第五远端用户与。
47、相邻远端用户之间的间隔。0079并且,由于近端用户能够较好的区分出来自其左右两侧的声音,在会议建立阶段,例如,存在VIF差异较小的远端用户可能被分配至分别由于近端用户左右两侧的相邻音效位置的情况,即,近端用户左右两侧的工作区域彼此独立配置,因此,在本发明实施例中,例如,在第五远端用户位于近端用户左侧时,可以禁止调换第五远端用户与位于近端用户右侧的远端用户的音效位置,以避免远端用户音效位置移动前后声像音效位置差别过大影响对此远端用户的识别。0080根据本发明实施例的控制音频会议的方法,通过扩大发言频率较高的远端用户与其相邻用户之间的声像距离,能够使近端用户能够容易地从远端用户中辨识出实际说话者。。
48、0081情况30082在会议进行阶段,可以记录各远端用户的发言以及该发言在会议中对应时间,从而,在S110C中,可以根据各远端用户的发言以及该发言在会议中对应时间,确定指示该远端用户的发言顺序的发言顺序信息,作为该发言顺序信息,例如,可以是交替发言频率ACF(ATTENDEECORRELATIONFACTOR),在从T1T8时刻,如果图4A所示的远端用户A01A05有如下所示说话顺序0083A01(T1)A03(T2)A04(T3)A05(T4)A03(T5)A05(T6)A03(T7)A05(T8),0084则例如,两个相邻远端用户A03、A05之间在每个时刻的ACF可以为00850(T1)。
49、0(T2)0(T3)0(T4)1(T5)2(T6)3(T7)4(T8)0086可选地,在本发明实施例中,该音效位置调整信息包括该发言顺序信息,以及0087该根据该音效位置调整信息,调整该远端用户在音频会议区域中的音效位置,包括0088根据该发言顺序信息,确定第七远端用户与第八远端用户交替发言,其中,该第七远端用户与该第八远端用户在音频会议区域中的音效位置相邻,且位于该近端用户的左右两侧中的同一侧;0089增大该第七远端用户与该第八远端用户之间在音频会议区域中的音效位置间隔。0090具体地说,在S120C中,可以判定A03与A05之间的ACF是否大于预设的阈值(例如,3,表示两个相邻远端用户在连续的三个时刻交替发言),如果大于该阈值,则可以确定A03(第七远端用户的一例)与A05(第八远端用户的一例)为交替发言的相邻用户,从而,如图4B所示,可以直接增大该A03与A05之间的间隔,即,将A03向下移动,将A05向上移动。0091可选地,在本发明实施例中,该增大该第七远端用户与该第八远端用户之间在音频会议区域中的音效位置间隔包括说明书CN104219400A139/17页140092调换该第七远端用户与第九远端用户的在该音频会议区域中的音效位置。