用于控制音频会议的方法和装置.pdf

摘要
申请专利号：	CN201310208248.2	申请日：	2013.05.30
公开号：	CN104219400A	公开日：	2014.12.17
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):H04M 3/56申请日:20130530\|\|\|公开
IPC分类号：	H04M3/56; H04L12/18	主分类号：	H04M3/56
申请人：	华为技术有限公司
发明人：	王宾; 苗磊; 王喆
地址：	518129 广东省深圳市龙岗区坂田华为总部办公楼
优先权：
专利代理机构：	北京龙双利达知识产权代理有限公司 11329	代理人：	毛威;张亮
PDF下载：	PDF下载

内容摘要

提供一种控制音频会议的方法和装置，能够使近端用户能够容易地从远端用户中辨识出实际说话者，该方法包括：获取音效位置调整信息，所述音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示所述远端用户的发言频率的发言频率信息、指示所述远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个，其中，所述话音识别信息用于确定所述远端用户之间在音频会议区域中的音效位置间隔；根据所述音效位置调整信息，确定所述远端用户在所述音频会议区域中的音效位置。

权利要求书

1.  一种用于控制音频会议的方法，其特征在于，所述方法包括：
获取音效位置调整信息，所述音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示所述远端用户的发言频率的发言频率信息、指示所述远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个，其中，所述话音识别信息用于确定所述远端用户之间在音频会议区域中的音效位置间隔；
根据所述音效位置调整信息，调整所述远端用户在所述音频会议区域中的音效位置。

2.  根据权利要求1所述的方法，其特征在于，所述音效位置调整信息包括所述话音识别信息，以及
所述根据所述音效位置调整信息，调整所述远端用户在音频会议区域中的音效位置，包括：
如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异，则调整远端用户在所述音频会议区域中的音效位置，使所述第一远端用户与所述第二远端用户之间在所述音频会议区域中的音效位置间隔小于所述第三远端用户与所述第四远端用户之间在所述音频会议区域中的音效位置间隔，其中，所述第一远端用户与所述第二远端用户在所述音频会议区域中的音效位置相邻，所述第三远端用户与所述第四远端用户在所述音频会议区域中的音效位置相邻。

3.  根据权利要求1或2所述的方法，其特征在于，所述话音识别信息包括声音频率、声音频率方差、共振峰的频率或线性预测系数LPC。

4.  根据权利要求1所述的方法，其特征在于，所述音效位置调整信息包括所述发言频率信息，以及
所述根据所述音效位置调整信息，调整所述远端用户在音频会议区域中的音效位置，包括：
根据所述发言频率信息，确定发言频率最高的第五远端用户；
增大所述第五远端用户的相邻用户与所述第五远端用户之间在所述音频会议区域中的音效位置间隔。

5.  根据权利要求4所述的方法，其特征在于，所述增大所述第五远端用户的相邻用户与所述第五远端用户之间在所述音频会议区域中的音效位置间隔包括：
调换所述第五远端用户与第六远端用户在音频会议区域中的音效位置，并增大所述第五远端用户调换音效位置后的相邻用户与所述第五远端用户之间在所述音频会议区域中的音效位置间隔，其中，所述第六远端用户在调换音效位置前只有一个相邻用户。

6.  根据权利要求5所述的方法，其特征在于，所述调换所述第五远端用户与第六远端用户在音频会议区域中的音效位置包括：
调换所述第五远端用户与所述第六远端用户在音频会议区域中的音效位置，其中，所述第五远端用户与所述第六远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧。

7.  根据权利要求1所述的方法，其特征在于，所述音效位置调整信息包括所述发言顺序信息，以及
所述根据所述音效位置调整信息，调整所述远端用户在音频会议区域中的音效位置，包括：
根据所述发言顺序信息，确定第七远端用户与第八远端用户交替发言，其中，所述第七远端用户与所述第八远端用户在音频会议区域中的音效位置相邻，且位于所述近端用户的左右两侧中的同一侧；
增大所述第七远端用户与所述第八远端用户之间在音频会议区域中的音效位置间隔。

8.  根据权利要求7所述的方法，其特征在于，所述增大所述第七远端用户与所述第八远端用户之间在音频会议区域中的音效位置间隔包括：
调换所述第七远端用户与第九远端用户的在所述音频会议区域中的音效位置，其中，所述第七远端与所述第九远端用户在所述音频会议区域中的音效位置相邻；或
调换所述第八远端用户与第十远端用户在所述音频会议区域中的音效位置，其中，所述第八远端与所述第十远端用户在所述音频会议区域中的音效位置相邻。

9.  根据权利要求8所述的方法，其特征在于，所述调换所述第七远端用户与第九远端用户在音频会议区域中的音效位置包括：
调换所述第七远端用户与第九远端用户在所述音频会议区域中的音效位置，其中，所述第七远端与所述第九远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧；或
调换所述第八远端用户与第十远端用户在所述音频会议区域中的音效位置，其中，所述第八远端与所述第十远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧。

10.  根据权利要求1所述的方法，其特征在于，所述音频会议区域包括判定区域和工作区域；
所述获取音效位置调整信息包括：
在所述音频会议区域中的判定区域，确定新加入音频会议的远端用户的话音识别信息；以及
所述根据所述音效位置调整信息，调整所述远端用户在音频会议区域中的音效位置，包括：
根据所述音效位置调整信息，调整所述远端用户在音频会议区域中的工作区域的音效位置。

11.  一种用于控制音频会议的装置，其特征在于，所述装置包括：
获取单元，用于获取音效位置调整信息，并向处理单元传输所述音效位置调整信息，所述音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示所述远端用户的发言频率的发言频率信息、指示所述远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个，其中，所述话音识别信息用于确定所述远端用户之间在音频会议区域中的音效位置间隔；
处理单元，用于从所述获取单元获取所述音效位置调整信息，并根据所述音效位置调整信息，调整所述远端用户在所述音频会议区域中的音效位置。

12.  根据权利要求11所述的装置，其特征在于，所述音效位置调整信息包括所述话音识别信息，以及
所述处理单元具体用于如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异，则调整远端用户在所述音频会议区域中的音效位置，使所述第一远端用户与所述第二远端用户之间在所述音频会议区域中的音效位置间隔小于所述第三远端用户与所述第四远端用户之间在所述音频会议区域中的音效位置间隔，其中，所述第一远端用户与所述第二远端用户在所述音频会议区域中的音效位置相邻，所述第三远端用户与所述第四远端用户在所述音频会议区域中的音效位置相邻。

13.  根据权利要求11或12所述的装置，其特征在于，所述话音识别信息包括声音频率、声音频率方差、共振峰的频率或线性预测系数LPC。

14.  根据权利要求11所述的装置，其特征在于，所述音效位置调整信息包括所述发言频率信息，以及
所述处理单元具体用于根据所述发言频率信息，确定发言频率最高的第五远端用户；
用于增大所述第五远端用户的相邻用户与所述第五远端用户之间在所述音频会议区域中的音效位置间隔。

15.  根据权利要求14所述的装置，其特征在于，所述处理单元具体用于调换所述第五远端用户与第六远端用户在音频会议区域中的音效位置，并增大所述第五远端用户调换音效位置后的相邻用户与所述第五远端用户之间在所述音频会议区域中的音效位置间隔，其中，所述第六远端用户在调换音效位置前只有一个相邻用户。

16.  根据权利要求15所述的装置，其特征在于，所述处理单元具体用于调换所述第五远端用户与所述第六远端用户在音频会议区域中的音效位置，其中，所述第五远端用户与所述第六远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧。

17.  根据权利要求11所述的装置，其特征在于，所述音效位置调整信息包括所述发言顺序信息，以及
所述处理单元具体用于根据所述发言顺序信息，确定第七远端用户与第八远端用户交替发言，其中，所述第七远端用户与所述第八远端用户在音频会议区域中的音效位置相邻，且位于所述近端用户的左右两侧中的同一侧；
用于增大所述第七远端用户与所述第八远端用户之间在音频会议区域中的音效位置间隔。

18.  根据权利要求17所述的装置，其特征在于，所述处理单元具体用于调换所述第七远端用户与第九远端用户的在所述音频会议区域中的音效位置，其中，所述第七远端与所述第九远端用户在所述音频会议区域中的音效位置相邻；或
用于调换所述第八远端用户与第十远端用户在所述音频会议区域中的音效位置，其中，所述第八远端与所述第十远端用户在所述音频会议区域中的音效位置相邻。

19.  根据权利要求18所述的装置，其特征在于，所述处理单元具体用于调换所述第七远端用户与第九远端用户在所述音频会议区域中的音效位置，其中，所述第七远端与所述第九远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧；或
用于调换所述第八远端用户与第十远端用户在所述音频会议区域中的音效位置，其中，所述第八远端与所述第十远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧。

20.  根据权利要求11所述的装置，其特征在于，所述音频会议区域包括判定区域和工作区域，所述判定区域用于确定新加入音频会议的远端用户的话音识别信息，所述工作区域用于设置已加入音频会议的远端用户的音效位置，以及
所述获取单元具体用于在所述音频会议区域中的判定区域，确定新加入音频会议的远端用户的话音识别信息；以及
所述处理单元具体用于根据所述音效位置调整信息，调整所述远端用户在音频会议区域中的工作区域的音效位置。

说明书

用于控制音频会议的方法和装置
技术领域
本发明涉及通信领域，并且更具体地，涉及用于控制音频会议的方法和装置。
背景技术
音频会议系统为处于不同地点的人们提供了方便的交流平台，减少了不必要的交通费用，同时保证了沟通的及时性。通常，在音频会议中，会存在个会议终端（例如，电话机，以下简称终端），每个终端供一个或多个用户（或者说，与会者）使用，在传统的音频会议系统中，在终端回放接收到的声音时，将所有终端的声音都混音在一起，导致所有声音对于用户而言均来自同一个方向，不仅造成声音的清晰度降低，而且各终端的用户（或者说，近端用户）不能从其他终端的用户（或者说，远端用户）中辨识实际说话，即，在不熟悉远端用户的声音的情况下，无法通过声音来识别当前的说话者，严重影响会议的效果。针对这一突出问题，三维（3D，Three Dimensional）音频会议系统可以提供很好的解决方案，即，对接收到的多路音频流进行3D声音方位处理，将不同远端用户的声音放到不同的声像位置（或者说，音效位置），从而使近端用户可以根据声像位置识别当前的说话者。
但是，例如，在间隔较小的两个相邻远端用户的话音特性差别较小时，近端用户仍然不能良好地辨识说话者的声像位置，因此，需要提供一种方案，能够使近端用户容易地从远端用户中辨识出实际说话者。
发明内容
本发明实施例提供一种控制音频会议的方法和装置，能够使近端用户能够容易地从远端用户中辨识出实际说话者。
第一方面，提供了一种用于控制音频会议的方法，该方法包括：获取音效位置调整信息，该音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示该远端用户的发言频率的发言频率信息、指示该远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个，其中，该话音识别信息用于确定该远端用户之间在音频会议区域中的音效位置间隔；根据该音效位置调整信息，调整该远端用户在该音频会议区域中的音效位置。
在一种可能的实施方式中，该音效位置调整信息包括该话音识别信息，以及该根据该音效位置调整信息，调整该远端用户在音频会议区域中的音效位置，包括：如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异，则调整远端用户在该音频会议区域中的音效位置，使该第一远端用户与该第二远端用户之间在该音频会议区域中的音效位置间隔小于该第三远端用户与该第四远端用户之间在该音频会议区域中的音效位置间隔，其中，该第一远端用户与该第二远端用户在该音频会议区域中的音效位置相邻，该第三远端用户与该第四远端用户在该音频会议区域中的音效位置相邻。
结合第一方面和第一种可能的实施方式，在第二种可能的实施方式中，该音效位置调整信息包括该发言频率信息，以及该根据该音效位置调整信息，调整该远端用户在音频会议区域中的音效位置，包括：根据该发言频率信息，确定发言频率最高的第五远端用户；增大该第五远端用户的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔。
结合第一方面、第一种可能的实施方式和第二种可能的实施方式，在第三种可能的实施方式中，该音效位置调整信息包括该发言顺序信息，以及该根据该音效位置调整信息，调整该远端用户在音频会议区域中的音效位置，包括：根据该发言顺序信息，确定第七远端用户与第八远端用户交替发言，其中，该第七远端用户与该第八远端用户在音频会议区域中的音效位置相邻，且位于该近端用户的左右两侧中的同一侧；增大该第七远端用户与该第八远端用户之间在音频会议区域中的音效位置间隔。
结合第一方面、第一种可能的实施方式、第二种可能的实施方式和第三种可能的实施方式，在第四种可能的实施方式中，该音频会议区域包括判定区域和工作区域；该获取音效位置调整信息包括：在该音频会议区域中的判定区域，确定新加入音频会议的远端用户的话音识别信息；以及该根据该音效位置调整信息，调整该远端用户在音频会议区域中的音效位置，包括：根据该音效位置调整信息，调整该远端用户在音频会议区域中的工作区域的音效位置。
第二方面，提供了一种用于控制音频会议的装置，该装置包括：获取单元，用于获取音效位置调整信息，并向处理单元传输该音效位置调整信息，该音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示该远端用户的发言频率的发言频率信息、指示该远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个，其中，该话音识别信息用于确定该远端用户之间在音频会议区域中的音效位置间隔；处理单元，用于从该获取单元获取该音效位置调整信息，并根据该音效位置调整信息，调整该远端用户在该音频会议区域中的音效位置。
在一种可能的实施方式中，该音效位置调整信息包括该话音识别信息，以及该处理单元具体用于如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异，则调整远端用户在该音频会议区域中的音效位置，使该第一远端用户与该第二远端用户之间在该音频会议区域中的音效位置间隔小于该第三远端用户与该第四远端用户之间在该音频会议区域中的音效位置间隔，其中，该第一远端用户与该第二远端用户在该音频会议区域中的音效位置相邻，该第三远端用户与该第四远端用户在该音频会议区域中的音效位置相邻。
结合第二方面和第一种可能的实施方式，在第二种可能的实施方式中，该音效位置调整信息包括该发言频率信息，以及该处理单元具体用于根据该发言频率信息，确定发言频率最高的第五远端用户；用于增大该第五远端用户的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔。
结合第二方面、第一种可能的实施方式和第二种可能的实施方式，在第三种可能的实施方式中，该音效位置调整信息包括该发言顺序信息，以及该处理单元具体用于根据该发言顺序信息，确定第七远端用户与第八远端用户交替发言，其中，该第七远端用户与该第八远端用户在音频会议区域中的音效位置相邻，且位于该近端用户的左右两侧中的同一侧；用于增大该第七远端用户与该第八远端用户之间在音频会议区域中的音效位置间隔。
结合第二方面、第一种可能的实施方式、第二种可能的实施方式和第三种可能的实施方式，在第四种可能的实施方式中，该音频会议区域包括判定区域和工作区域，该判定区域用于确定新加入音频会议的远端用户的话音识别信息，该工作区域用于设置已加入音频会议的远端用户的音效位置，以及该获取单元具体用于在该音频会议区域中的判定区域，确定新加入音频会议的远端用户的话音识别信息；以及该处理单元具体用于根据该音效位置调整信息，调整该远端用户在音频会议区域中的工作区域的音效位置。
根据本发明实施例的控制音频会议的方法和装置，获取音效位置调整信息，所述音效位置调整信息包括以下中信息中的至少一个：指示至少两个远端用户的话音特性的话音识别信息、指示所述远端用户的发言频率的发言频率信息、指示所述远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息。根据所述音效位置调整信息调整远端用户的音效位置，从而能够使近端用户容易地从远端用户中辨识出实际说话者。
附图说明
为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的控制音频会议的方法的示意性流程图。
图2a是表示根据话音识别信息调整各远端用户的音效位置前的音效位置分配情况的一例的示意图，图2b是表示根据话音识别信息调整各远端用户的音效位置后的音效位置分配情况的示意图，图2c是表示根据话音识别信息调整各远端用户的音效位置前的音效位置分配情况的另一例的示意图，图2d是表示根据话音识别信息调整各远端用户的音效位置后的音效位置分配情况的另一例的示意图，图2e是表示根据话音识别信息调整各远端用户的音效位置前的音效位置分配情况的再一例的示意图，图2f是表示根据话音识别信息调整各远端用户的音效位置后的音效位置分配情况的再一例的示意图。
图3a是表示根据发言频率信息调整各远端用户的音效位置前的音效位置分配情况的一例的示意图，图3b是表示根据发言频率信息调整各远端用户的音效位置后的音效位置分配情况的一例的示意图，图3c是表示根据发言频率信息调整各远端用户的音效位置后的音效位置分配情况的另一例的示意图。
图4a是表示根据发言顺序信息调整各远端用户的音效位置前的音效位置分配情况的一例的示意图，图4b是表示根据发言频率信息调整各远端用户的音效位置后的音效位置分配情况的一例的示意图，图4c是表示根据发言频率信息调整各远端用户的音效位置后的音效位置分配情况的另一例的示意图。
图5是根据本发明实施例的控制音频会议的装置的示意性框图。
图6是根据本发明实施例的控制音频会议的设备的示意性结构图。
具体实施方式
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
图1示出了是根据本发明实施例的控制音频会议的方法100的示意性流程图。如图1所示，该方法100包括：
S110，获取音效位置调整信息，该音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示该远端用户的发言频率的发言频率信息、指示该远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个，其中，该话音识别信息用于确定该远端用户之间在音频会议区域中的音效位置间隔；
S120，根据该音效位置调整信息，调整该远端用户在该音频会议区域中的音效位置。
在本发明实施例中，参与音频会议的与会者可以通过多个（至少两个）终端设备（例如，电话机等，即，本发明实施例的控制音频会议的方法100的实施主体的一例），进行音频会议，并且，各终端设备可以通过各种通信网络相连。终端设备可以获取用户（以下，为了便于理解，称为近端用户）的语音信息，生成音频数据，并（通过服务器）将该音频数据发送给其他终端设备。
并且，终端设备可以（通过服务器）从其他终端设备获取其他与会者（以下，为了便于理解，称为远端用户）的音频数据，并通过例如3D声音方位处理等技术，还原远端用户的声音，并分别从不同音效位置向近端用户呈现各远端用户的声音。
这里，需要说明的是，在本发明实施例中，“音效位置”也可以称为声像位置，是指近端用户通过听觉感知的远端用户的虚拟位置。
可选地，在本发明实施例中，该音频会议区域包括判定区域和工作区域，该判定区域用于确定新加入音频会议的远端用户的话音识别信息，该工作区域用于设置已加入音频会议的远端用户的音效位置，以及，
该获取音效位置调整信息包括：
在该音频会议区域中的判定区域，确定新加入音频会议的远端用户的话音识别信息；以及
该根据该音效位置调整信息，调整该远端用户在音频会议区域中的音效位置，包括：
根据该音效位置调整信息，调整该远端用户在音频会议区域中的工作区域的音效位置。
具体地说，终端设备可以将近端用户前方的区域划分为判定区域和工作区域两种，其中，判定区域可以用于获取新加入音频会议的远端用户的话音识别信息（VIF，Voice Identification Factor），这里，新加入音频会议的远端用户可以是在音频会议创建阶段加入的远端用户，也可以是在音频会议进行阶段加入的远端用户，本发明并未特别限定。工作区域用于设置远端用户的声像音效位置，并且，不同工作区域中的远端用户的配置可以相互独立，即，对于远端用户在一个工作区域中的音效位置分配，可以不依据其他工作区域中的远端用户的各参数。
如图2a所示，在本发明实施例中，例如，可以将在近端用户正前方的区域作为判定区域，从而是工作区域位于该判定区域的两侧。从而，可以根据该VIF将该新加入音频会议的远端用户分配至工作区域，其中，根据VIF将远端用户分配至工作区域的方法可以与现有技术相同，这里，为了避免赘述，省略其说明。
应理解，以上列举的工作区域与判定区域的音效位置关系仅为示例性说明，本发明并不限定于此，例如，判定区域也可以配置在两个工作区域之间的任一音效位置，即，判定区域不位于近端用户的正前方，从而使两个工作区域的大小可以不一致。或者，也可以将判定区域设置在最靠近近端用户的音效位置，从而仅形成一个工作区域和与其相邻的判定区域。以下，为了便于理解，以判定区域设置在近端用户正前方，工作区域位于该判定区域（或者说，近端用户）两侧为例，进行说明。
在本发明实施例中，音效位置调整信息可以包括话音识别信息（即，情况1）、发言频率信息（即，情况2）、发言顺序信息（即，情况3）和用户操作信息（即，情况4），下面，分别对各情况下的调整远端用户的音效位置的过程进行说明。应理解，以上列举的各情况仅为本发明的示例性说明，并不限定于此，例如，还可以根据以上列举的四个信息中的至少两个信息调整远端用户的音效位置。
情况1
在本发明实施例中，在会议建立阶段，可以随机地将各远端用户分配到各声像音效位置，其后，获取来自其他终端设备的音频数据；也可以预先根据现有技术中的方法将各远端用户随机分配到各声像音效位置，其后获取来自其他终端设备的音频数据；还可以不为各远端用户分配声像音效位置，而直接获取来自其他终端设备的音频数据，本发明并未特别限定。图2a示出了根据发言频率信息调整各远端用户的音效位置前的音效位置分配情况的一例。
从而，在S110a，可以从来自其他终端设备的音频数据中获取各远端用户的话音识别信息（VIF，Voice Identification Factor）。
可选地，在本发明是示例中宏，该话音识别信息包括声音频率、声音频率方差、共振峰的频率或线性预测系数LPC。
具体地说，该VIF可以是音频数据中的声音频率（Pitch），由于人的声音频率通常具有一定程度的独特性，因此，可以使用该声音频率作为VIF，同理，该VIF也可以是声音频率的方差。该VIF可以是线性预测系数（LPC，Linear Predictive Coefficients），线性预测系数又称声道截面函数，是声道中由声门至唇部各点的横截面积，由于，人的线性预测系数通常具有一定程度的独特性，因此，可以使用该线性预测系数作为VIF。
可选地，在本发明实施例中，该音效位置调整信息包括该话音识别信息，以及
该根据该音效位置调整信息，调整该远端用户在音频会议区域中的音效位置，包括：
如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异，则调整远端用户在该音频会议区域中的音效位置，使该第一远端用户与该第二远端用户之间在该音频会议区域中的音效位置间隔小于该第三远端用户与该第四远端用户之间在该音频会议区域中的音效位置间隔，其中，该第一远端用户与该第二远端用户在该音频会议区域中的音效位置相邻，该第三远端用户与该第四远端用户在该音频会议区域中的音效位置相邻。
具体地说，在S120a，可以根据各远端用户的VIF，确定各相邻远端用户之间话音识别信息的差异，例如，图2a中远端用户A01的VIF（记作，VIF（A01））与远端用户A03的VIF（记作，VIF（A03））之间的差异可以表示为：|VIF（A01）－VIF（A03）|；
同理，远端用户A01的VIF与远端用户A04的VIF（记作，VIF（A04））之间的差异可以表示为：|VIF（A01）－VIF（A04）|；
远端用户A06的VIF（记作，VIF（A06））与远端用户A05的VIF（记作，VIF（A05））之间的差异可以表示为：|VIF（A06）－VIF（A05）|；
远端用户A06的VIF与远端用户A02的VIF（记作，VIF（A02））之间的差异可以表示为：|VIF（A06）－VIF（A02）|。
例如，如果|VIF（A01）－VIF（A03）|＜|VIF（A01）－VIF（A04）|，则可以使A01与A03之间的间距（P1）大于A01与A04之间的间距（P2），即如图2b所示，可以使P1＞P2。
同理，如果|VIF（A02）－VIF（A06）|＜|VIF（A06）－VIF（A05）|，则可以使A02与A06之间的间距（P4）大于A06与A05之间的间距（P5），即如图2b所示，可以使P4＞P5。
应理解，以上列举的根据话音识别信息调整各远端用户在该音频会议区域中的音效位置的方法仅为示例性说明，本发明并不限定于此，例如，，如图2c所示，音频会议的区域仅包括一个工作区域的情况下，调整各相邻远端用户之间的距离时，可以对所有相邻远端用户之间的VIF的差异，并且，可以根据差异的大小进行排序，为VIF差异最大的相邻远端用户分配最大的间距，为VIF差异最小的相邻远端用户分配最小的间距。
例如，如果|VIF（A01）－VIF（A03）|＜|VIF（A01）－VIF（A04）|，
且，|VIF（A01）－VIF（A04）|＜|VIF（A04）－VIF（A02）|，
且，|VIF（A04）－VIF（A02）|＜|VIF（A02）－VIF（A06）|，
|VIF（A02）－VIF（A06）|＜|VIF（A06）－VIF（A05）|，
则如图2d所示，可以使P1＞P2＞P3＞P4＞P5。
并且，在会议进行阶段，例如，如图2e所示，远端用户包括A01～A07，如果会议进行过程A06提前离开会议，则可以计算剩余相关远端用户（这里，是指与A06处于同一工作区域的A02、A07和A05）之间的VIF差异，并结合当前的方位音效位置分配情况进行音效位置修正调整。例如，当A06离开会议后，A07与A05成为相邻远端用户，需要计算远端用户A07的VIF（记作，VIF（A07））与VIF（A05）的差异，可以表示为：|VIF（A07）－VIF（A05）|；并且，VIF（A07）与VIF（A02）的差异，可以表示为：|VIF（A07）－VIF（A02）|；
例如，如果|VIF（A07）－VIF（A05）|＜|VIF（A07）－VIF（A02）|，则可以使A07与A05之间的间距（P6）大于A07与A02之间的间距（P7），即如图2f所示，可以使P6＞P7。
或者，还可以根据近端用户的识别能力预先设定多个阈值范围，以及与该多个阈值范围相对应的多个音效位置间隔值，并根据如上所述确定的相邻远端VIF差异所处的阈值范围，确定所适用的间隔值，并调整该远端用户的音效位置。
根据本发明实施例的控制音频会议的方法，通过扩大话音特性差别较小的相邻远端用户之间的声像距离，能够使近端用户能够容易地从远端用户中辨识出实际说话者。
情况2
在会议进行阶段，可以记录各远端用户的发言次数以及该发言在会议中对应时间，例如，可以记录各远端用户在预设时间段内的语音帧数，以确定各远端用户在预设时间段内的发言频率（语音帧数与预设时间的比值），从而，在S110b，可以将该发言频率作为发言频率信息VAF（Voice Activity Factor）。以上，列举了将发言频率直接作为发言频率信息的实施例，但本发明并不限定于此，例如，也可以计算在预设时间段内，各远端用户的发言次数在总发言次数中的比例（或者说，发言比例，即，各远端用户的语音帧数与总语音帧数的比值），将该发言比例作为发言频率信息。
可选地，在本发明实施例中，该音效位置调整信息包括该发言频率信息，以及
该根据该音效位置调整信息，调整该远端用户在音频会议区域中的音效位置，包括：
根据该发言频率信息，确定发言频率最高的第五远端用户；
增大该第五远端用户的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔。
具体地说，在S120b，可以确定各工作区域中，在预设时间段内的发言次数最多（语音帧数最多，或者说，发言频率最大、发言比例最大）的远端用户。例如，如图3a所示，在远端用户A01、远端用户A02和远端用户A03中，将远端用户A01在预设时间段内的语音帧数记作n₁，发言频率记作m₁，发言比例记作k₁，将远端用户A02在预设时间段内的语音帧数记作n₂，发言频率记作m₂，发言比例记作k₂，将远端用户A03在预设时间段内的语音帧数记作n₃，发言频率记作m₃，发言比例记作k₃；
例如，如果，n₂＞n₁，且n₂＞n₃，或
m₂＞m₁，且m₂＞m₃，或
k₂＞k₁，且k₂＞k₃，则可以确定远端用户A02（第五远端用户的一例）在预设时间段内的发言次数最多。从而，如图3b所示，可以直接增大远端用户A02与远端用户A01之间的间隔，以及远端用户A02与远端用户A03之间的间隔，例如，可以将A01向上移动，将A02向上移动。
可选地，在本发明实施例中，该增大该第五远端用户的相邻用户与该第五远端用户之间的间隔。包括：
调换该第五远端用户与第六远端用户在音频会议区域中的音效位置，并增大该第五远端用户调换音效位置后的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔，其中，该第六远端用户在调换音效位置前只有一个相邻用户。
并且，该调换该第五远端用户与第六远端用户在音频会议区域中的音效位置包括：
调换该第五远端用户与该第六远端用户在音频会议区域中的音效位置，其中，该第五远端用户与该第六远端用户在该音频会议区域中位于该近端用户的左右两侧中的同一侧。
具体地说，例如，如图3c所示，可以调换远端用户A02与远端用户A01的音效位置，以达到增大远端用户A02与远端用户A03之间的间隔的目的，其后，可以增大远端用户A02与远端用户A01之间的间隔，即，将A02向上移动，或，将A01向下移动。
应理解，以上列举的增大该第五远端用户（远端用户A02）的相邻用户与该第五远端用户（远端用户A02）之间的间隔的方法仅为本发明的示例性说明，本发明并不限定于此，例如，还可以调换远端用户A02与远端用户A03的音效位置，其后，增大远端用户A02与远端用户A03之间的间隔。并且，当该第五远端用户（远端用户A02）所处的工作区域设置有四个以上远端用户时，可以调换第五远端用户与位于该工作区域边缘的第六远端用户的音效位置，其后，增大该第五远端用户与相邻远端用户之间的间隔。
并且，由于近端用户能够较好的区分出来自其左右两侧的声音，在会议建立阶段，例如，存在VIF差异较小的远端用户可能被分配至分别由于近端用户左右两侧的相邻音效位置的情况，即，近端用户左右两侧的工作区域彼此独立配置，因此，在本发明实施例中，例如，在第五远端用户位于近端用户左侧时，可以禁止调换第五远端用户与位于近端用户右侧的远端用户的音效位置，以避免远端用户音效位置移动前后声像音效位置差别过大影响对此远端用户的识别。
根据本发明实施例的控制音频会议的方法，通过扩大发言频率较高的远端用户与其相邻用户之间的声像距离，能够使近端用户能够容易地从远端用户中辨识出实际说话者。
情况3
在会议进行阶段，可以记录各远端用户的发言以及该发言在会议中对应时间，从而，在S110c中，可以根据各远端用户的发言以及该发言在会议中对应时间，确定指示该远端用户的发言顺序的发言顺序信息，作为该发言顺序信息，例如，可以是交替发言频率ACF（Attendee correlation Factor），在从t1～t8时刻，如果图4a所示的远端用户A01～A05有如下所示说话顺序：
A01（t1）→A03（t2）→A04（t3）→A05（t4）→A03（t5）→A05（t6）→A03（t7）→A05（t8），
则例如，两个相邻远端用户A03、A05之间在每个时刻的ACF可以为：
0（t1）→0（t2）→0（t3）→0（t4）→1（t5）→2（t6）→3（t7）→4 （t8）
可选地，在本发明实施例中，该音效位置调整信息包括该发言顺序信息，以及
该根据该音效位置调整信息，调整该远端用户在音频会议区域中的音效位置，包括：
根据该发言顺序信息，确定第七远端用户与第八远端用户交替发言，其中，该第七远端用户与该第八远端用户在音频会议区域中的音效位置相邻，且位于该近端用户的左右两侧中的同一侧；
增大该第七远端用户与该第八远端用户之间在音频会议区域中的音效位置间隔。
具体地说，在S120c中，可以判定A03与A05之间的ACF是否大于预设的阈值（例如，3，表示两个相邻远端用户在连续的三个时刻交替发言），如果大于该阈值，则可以确定A03（第七远端用户的一例）与A05（第八远端用户的一例）为交替发言的相邻用户，从而，如图4b所示，可以直接增大该A03与A05之间的间隔，即，将A03向下移动，将A05向上移动。
可选地，在本发明实施例中，该增大该第七远端用户与该第八远端用户之间在音频会议区域中的音效位置间隔包括：
调换该第七远端用户与第九远端用户的在该音频会议区域中的音效位置，其中，该第七远端与该第九远端用户在该音频会议区域中的音效位置相邻；或
调换该第八远端用户与第十远端用户在该音频会议区域中的音效位置，其中，该第八远端与该第十远端用户在该音频会议区域中的音效位置相邻。
并且，该调换该第七远端用户与第九远端用户在音频会议区域中的音效位置包括：
调换该第七远端用户与第九远端用户在该音频会议区域中的音效位置，其中，该第七远端与该第九远端用户在该音频会议区域中位于该近端用户的左右两侧中的同一侧；或
调换该第八远端用户与第十远端用户在该音频会议区域中的音效位置，其中，该第八远端与该第十远端用户在该音频会议区域中位于该近端用户的左右两侧中的同一侧。
具体地说，例如，如图4c所示，可以调换远端用户A03与远端用户A01 的音效位置，以达到增大远端用户A03与远端用户A05之间的间隔的目的。
并且，由于近端用户能够较好的区分出来自其左右两侧的声音，在会议建立阶段，例如，存在VIF差异较小的远端用户可能被分配至分别由于近端用户左右两侧的相邻音效位置的情况，即，近端用户左右两侧的工作区域彼此独立配置，因此，在本发明实施例中，可以禁止调换近端用户左右两侧的远端用户的音效位置，以避免远端用户音效位置移动前后声像音效位置差别过大影响对此远端用户的识别。例如，可以禁止调换图4a中A05与A02的音效位置。
同理，在本发明实施例中，如果图4a所示的各远端用户A01～A05有如下所示说话顺序：
A03（t1）→A04（t2）→A01（t3）→A03（t4）→A02（t5）→A05（t6）→A02（t7）→A05（t8），
则例如，两个相邻远端用户A02、A05之间在每个时刻的ACF可以为：
0（t1）→0（t2）→0（t3）→0（t4）→1（t5）→2（t6）→3（t7）→4（t8）
可以判定A02与A05之间的ACF大于预设的阈值（例如，3，表示两个相邻远端用户在连续的三个时刻交替发言），即，可以确定A02（第七远端用户的一例）与A05（第八远端用户的一例）为交替发言的相邻用户，但是，由于A02与A05分别位于近端用户的左右两侧，近端用户能够容易地区分出说话者，因此无需进行音效位置调整。
需要说明的是，在本发明实施例中，如果两个相邻远端用户在预设时间内未交替发言，则可以将二者之间的ACF清零。
根据本发明实施例的控制音频会议的方法，通过扩大交替发言的相邻远端用户之间的声像距离，能够使近端用户能够容易地从远端用户中辨识出实际说话者。
情况4
在S110d中，在会议建立阶段或会议进行阶段，可以获取近端用户的针对各远端用户的音效位置分配的操作信息。
在S120d中，可以根据该操作信息调整各远端用户的音效位置。
根据本发明实施例的控制音频会议的方法，能够为近端用户提供个性化服务，使近端用户根据自己的主观判断来设置远端用户的声像音效位置，能够使近端用户能够容易地从远端用户中辨识出实际说话者。
应理解，以上分别列举了根据音识别信息（即，情况1）、发言频率信息（即，情况2）、发言顺序信息（即，情况3）和用户操作信息（即，情况4），调整远端用户的音效位置的过程。但本发明并不限定于此，上述各信息也可以组合使用，例如，在会议建立阶段根据音识别信息调整各远端用户之间的间隔后，可以根据发言顺序信息和/或发言频率信息调整该间隔。再例如，根据发言顺序信息和/或发言频率信息调整的间隔大小，可以根据用户操作信息来调整。
上文中，结合图1至图4c，详细描述了根据本发明实施例的控制音频会议的方法，下面，将结合图5，详细描述根据本发明实施例的根据本发明实施例的控制音频会议的装置。
图5示出了根据本发明实施例的控制音频会议的装置200的示意性框图。如图5所示，该装置200包括：
获取单元210，用于获取音效位置调整信息音效位置，并向处理单元220传输该音效位置调整信息，该音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示该远端用户的发言频率的发言频率信息、指示该远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个，其中，该话音识别信息用于确定该远端用户之间在音频会议区域中的音效位置间隔；
处理单元220，用于从该获取单元210获取该音效位置调整信息，并根据该音效位置调整信息，调整该远端用户在该音频会议区域中的音效位置。
在本发明实施例中，参与音频会议的与会者可以通过多个终端设备（例如，电话机等）进行音频会议，并且，各终端设备可以通过各种通信网络相连。终端设备可以获取用户（以下，为了便于理解，称为近端用户）的语音信息，生成音频数据，并（通过服务器）将该音频数据发送给其他终端设备。本发明实施例的控制音频会议的装置200可以设置在该终端设备中，也可以独立设置并与该终端设备连接，以与该终端设备传输相关处理数据（例如，音效位置调整信息、指示远端用户在音频会议区域中的音效位置的指示信息）。
可选地，在本发明实施例中，该音频会议区域包括判定区域和工作区域，该判定区域用于确定新加入音频会议的远端用户的话音识别信息，该工作区域用于设置已加入音频会议的远端用户的音效位置，以及，该获取单元210具体用于在该音频会议区域中的判定区域，确定新加入音频会议的远端用户的话音识别信息；以及
该处理单元220具体用于根据该音效位置调整信息，调整该远端用户在音频会议区域中的工作区域的音效位置。
具体地说，处理单元220可以将近端用户前方的区域划分为判定区域和工作区域两种，其中，判定区域可以用于获取新加入音频会议的远端用户的话音识别信息，这里，新加入音频会议的远端用户可以是在音频会议创建阶段加入的远端用户，也可以是在音频会议进行阶段加入的远端用户，本发明并未特别限定。工作区域用于设置远端用户的声像音效位置，并且，不同工作区域中的远端用户的配置可以相互独立，即，对于远端用户在一个工作区域中的音效位置分配，可以不依据其他工作区域中的远端用户的各参数。
如图2a所示，在本发明实施例中，例如，可以将在近端用户正前方的区域作为判定区域，从而是工作区域位于该判定区域的两侧。从而，可以根据该VIF将该新加入音频会议的远端用户分配至工作区域，其中，根据VIF将远端用户分配至工作区域的方法可以与现有技术相同，这里，为了避免赘述，省略其说明。
应理解，以上列举的工作区域与判定区域的音效位置关系仅为示例性说明，本发明并不限定于此，例如，判定区域也可以配置在两个工作区域之间的任一音效位置，即，判定区域不位于近端用户的正前方，从而使两个工作区域的大小可以不一致。或者，也可以将判定区域设置在最靠近近端用户的音效位置，从而仅形成一个工作区域和与其相邻的判定区域。以下，为了便于理解，以判定区域设置在近端用户正前方，工作区域位于该判定区域（或者说，近端用户）两侧为例，进行说明。
可选地，该处理单元220具体用于如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异，则调整该远端用户的音效位置，使该第一远端用户与该第二远端用户之间的间隔小于该第三远端用户与该第四远端用户之间的间隔，其中，该第一远端用户与该第二远端用户相邻，该第三远端用户与该第四远端用户相邻。
具体地说，处理单元220可以根据各远端用户的VIF，确定各相邻远端用户之间话音识别信息的差异，例如，图2a中远端用户A01的VIF（记作，VIF（A01））与远端用户A03的VIF（记作，VIF（A03））之间的差异可以表示为：|VIF（A01）－VIF（A03）|；
同理，远端用户A01的VIF与远端用户A04的VIF（记作，VIF（A04））之间的差异可以表示为：|VIF（A01）－VIF（A04）|；
远端用户A06的VIF（记作，VIF（A06））与远端用户A05的VIF（记作，VIF（A05））之间的差异可以表示为：|VIF（A06）－VIF（A05）|；
远端用户A06的VIF与远端用户A02的VIF（记作，VIF（A02））之间的差异可以表示为：|VIF（A06）－VIF（A02）|。
例如，如果|VIF（A01）－VIF（A03）|＜|VIF（A01）－VIF（A04）|，则处理单元220可以使A01与A03之间的间距（P1）大于A01与A04之间的间距（P2），即如图2b所示，处理单元220可以使P1＞P2。
同理，如果|VIF（A02）－VIF（A06）|＜|VIF（A06）－VIF（A05）|，则处理单元220可以使A02与A06之间的间距（P4）大于A06与A05之间的间距（P5），即如图2b所示，处理单元220可以使P4＞P5。
以上，列举了判定区域设置在近端用户正前方而工作区域位于该判定区域两侧时，根据话音识别信息设置远端用户音效位置的实施例，在例如，如图2c所示，音频会议的区域仅包括一个工作区域的情况下，确定各相邻远端用户之间的距离时，可以对所有相邻远端用户之间的VIF的差异，并且，可以根据差异的大小进行排序，为VIF差异最大的相邻远端用户分配最大的间距，为VIF差异最小的相邻远端用户分配最小的间距。
例如，如果|VIF（A01）－VIF（A03）|＜|VIF（A01）－VIF（A04）|，
且，|VIF（A01）－VIF（A04）|＜|VIF（A04）－VIF（A02）|，
且，|VIF（A04）－VIF（A02）|＜|VIF（A02）－VIF（A06）|，
|VIF（A02）－VIF（A06）|＜|VIF（A06）－VIF（A05）|，
则如图2d所示，处理单元220可以使P1＞P2＞P3＞P4＞P5。
并且，在会议进行阶段，例如，如图2e所示，远端用户包括A01～A07，如果会议进行过程A06提前离开会议，则可以计算剩余相关远端用户（这里，是指与A06处于同一工作区域的A02、A07和A05）之间的VIF差异，并结合当前的方位音效位置分配情况进行音效位置修正调整。例如，当A06离开会议后，A07与A05成为相邻远端用户，需要计算远端用户A07的VIF（记作，VIF（A07））与VIF（A05）的差异，可以表示为：|VIF（A07）－VIF（A05）|；并且，VIF（A07）与VIF（A02）的差异，可以表示为：|VIF（A07）－VIF（A02）|；
例如，如果|VIF（A07）－VIF（A05）|＜|VIF（A07）－VIF（A02）|，则处理单元220可以使A07与A05之间的间距（P6）大于A07与A02之间的间距（P7），即如图2f所示，处理单元220可以使P6＞P7。
根据本发明实施例的控制音频会议的装置，通过扩大话音特性差别较小的相邻远端用户之间的声像距离，能够使近端用户能够容易地从远端用户中辨识出实际说话者。
可选地，在本发明实施例中，该处理单元220具体用于根据该发言频率信息，确定发言频率最高的第五远端用户；
用于增大该第五远端用户的相邻用户与该第五远端用户之间的间隔。
具体地说，处理单元220可以确定各工作区域中，在预设时间段内的发言次数最多（语音帧数最多，或者说，发言频率最大、发言比例最大）的远端用户。例如，如图3a所示，在远端用户A01、远端用户A02和远端用户A03中，将远端用户A01在预设时间段内的语音帧数记作n₁，发言频率记作m₁，发言比例记作k₁，将远端用户A02在预设时间段内的语音帧数记作n₂，发言频率记作m₂，发言比例记作k₂，将远端用户A03在预设时间段内的语音帧数记作n₃，发言频率记作m₃，发言比例记作k₃；
例如，如果，n₂＞n₁，且n₂＞n₃，或
m₂＞m₁，且m₂＞m₃，或
k₂＞k₁，且k₂＞k₃，则处理单元220可以确定远端用户A02（第五远端用户的一例）在预设时间段内的发言次数最多。从而，如图3b所示，处理单元220可以直接增大远端用户A02与远端用户A01之间的间隔，以及远端用户A02与远端用户A03之间的间隔，例如，处理单元220可以将A01向上移动，将A02相上移动。
可选地，在本发明实施例中，该处理单元220具体用于调换该第五远端用户与第六远端用户的音效位置，并增大该第五远端用户调换音效位置后的相邻用户与该第五远端用户之间的间隔，其中，该第六远端用户在调换音效位置前只有一个相邻用户。
并且，该处理单元220具体用于调换该第五远端用户与该第六远端用户的音效位置，其中，该第五远端用户与该第六远端用户位于该近端用户的左右两侧中的同一侧。
具体地说，例如，如图3c所示，处理单元220可以调换远端用户A02与远端用户A01的音效位置，以达到增大远端用户A02与远端用户A03之间的间隔的目的，其后，可以增大远端用户A02与远端用户A01之间的间隔，例如，处理单元220可以将A02向上移动，或者，处理单元220可以将A01向下移动。
应理解，以上列举的增大该第五远端用户（远端用户A02）的相邻用户与该第五远端用户（远端用户A02）之间的间隔的方法仅为本发明的示例性说明，本发明并不限定于此，例如，还可以调换远端用户A02与远端用户A03的音效位置，其后，增大远端用户A02与远端用户A03之间的间隔。并且，当该第五远端用户（远端用户A02）所处的工作区域设置有四个以上远端用户时，可以调换第五远端用户与位于该工作区域边缘的第六远端用户的音效位置，其后，增大该第五远端用户与相邻远端用户之间的间隔。
并且，由于近端用户能够较好的区分出来自其左右两侧的声音，在会议建立阶段，例如，存在VIF差异较小的远端用户可能被分配至分别由于近端用户左右两侧的相邻音效位置的情况，即，近端用户左右两侧的工作区域彼此独立配置，因此，在本发明实施例中，例如，在第五远端用户位于近端用户左侧时，可以禁止调换第五远端用户与位于近端用户右侧的远端用户的音效位置，以避免远端用户音效位置移动前后声像音效位置差别过大影响对此远端用户的识别。
根据本发明实施例的控制音频会议的装置，通过扩大发言频率较高的远端用户与其相邻用户之间的声像距离，能够使近端用户能够容易地从远端用户中辨识出实际说话者。
可选地，在本发明实施例中，该处理单元220具体用于根据该发言顺序信息，确定第七远端用户与第八远端用户交替发言，其中，该第七远端用户与该第八远端用户相邻，且位于该近端用户的左右两侧中的同一侧；
用于增大该第七远端用户与该第八远端用户之间的间隔。
在会议进行阶段，获取单元210可以记录各远端用户的发言以及该发言在会议中对应时间，从而，获取单元210可以根据各远端用户的发言以及该发言在会议中对应时间，确定指示该远端用户的发言顺序的发言顺序信息，作为该发言顺序信息，例如，可以是交替发言频率，在从t1～t8时刻，如果图4a所示的远端用户A01～A05有如下所示说话顺序：
A01（t1）→A03（t2）→A04（t3）→A05（t4）→A03（t5）→A05（t6）→A03（t7）→A05（t8），
则例如，两个相邻远端用户A03、A05之间在每个时刻的ACF可以为：
0（t1）→0（t2）→0（t3）→0（t4）→1（t5）→2（t6）→3（t7）→4（t8）
其后，处理单元220可以判定A03与A05之间的ACF是否大于预设的阈值（例如，3，表示两个相邻远端用户在连续的三个时刻交替发言），如果大于该阈值，则可以确定A03（第七远端用户的一例）与A05（第八远端用户的一例）为交替发言的相邻用户，从而，如图4b所示，可以直接增大该A03与A05之间的间隔，即，将A03向下移动，将A05向上移动。
可选地，在本发明实施例中，该处理单元220具体用于调换该第七远端用户与第九远端用户的音效位置，其中，该第七远端与该第九远端用户相邻；或
用于调换该第八远端用户与第十远端用户的音效位置，其中，该第八远端与该第十远端用户相邻。
并且，该处理单元220具体用于调换该第七远端用户与第九远端用户的音效位置，其中，该第七远端与该第九远端用户位于该近端用户的左右两侧中的同一侧；或
用于调换该第八远端用户与第十远端用户的音效位置，其中，该第八远端与该第十远端用户位于该近端用户的左右两侧中的同一侧。
具体地说，例如，如图4c所示，处理单元220可以调换远端用户A03与远端用户A01的音效位置，以达到增大远端用户A03与远端用户A05之间的间隔的目的。
并且，由于近端用户能够较好的区分出来自其左右两侧的声音，在会议建立阶段，例如，存在VIF差异较小的远端用户可能被分配至分别由于近端用户左右两侧的相邻音效位置的情况，即，近端用户左右两侧的工作区域彼此独立配置，因此，在本发明实施例中，可以禁止调换近端用户左右两侧的远端用户的音效位置，以避免远端用户音效位置移动前后声像音效位置差别过大影响对此远端用户的识别。。例如，处理单元220可以禁止调换图4a中 A05与A02的音效位置。
同理，在本发明实施例中，如果图4a所示的各远端用户A01～A05有如下所示说话顺序：
A03（t1）→A04（t2）→A01（t3）→A03（t4）→A02（t5）→A05（t6）→A02（t7）→A05（t8），
则例如，两个相邻远端用户A02、A05之间在每个时刻的ACF可以为：
0（t1）→0（t2）→0（t3）→0（t4）→1（t5）→2（t6）→3（t7）→4（t8）
处理单元220可以判定A02与A05之间的ACF大于预设的阈值（例如，3，表示两个相邻远端用户在连续的三个时刻交替发言），即，可以确定A02（第七远端用户的一例）与A05（第八远端用户的一例）为交替发言的相邻用户，但是，由于A02与A05分别位于近端用户的左右两侧，近端用户能够容易地区分出说话者，因此无需进行音效位置调整。
需要说明的是，在本发明实施例中，如果两个相邻远端用户在预设时间内未交替发言，则处理单元220可以将二者之间的ACF清零。
根据本发明实施例的控制音频会议的装置，通过扩大交替发言的相邻远端用户之间的声像距离，能够使近端用户能够容易地从远端用户中辨识出实际说话者。
可选地，在本发明实施例中，在会议建立阶段或会议进行阶段，获取单元210可以获取近端用户的针对各远端用户的音效位置分配的操作信息。
其后，处理单元220可以根据该操作信息调整各远端用户的音效位置。
根据本发明实施例的控制音频会议的装置，能够为近端用户提供个性化服务，使近端用户根据自己的主观判断来设置远端用户的声像音效位置，能够使近端用户能够容易地从远端用户中辨识出实际说话者。
根据本发明实施例的控制音频会议的装置200是本发明实施例的控制音频会议的方法100中的实施主体，并且，该控制音频会议的装置200中的各单元及模块和上述其他操作和/或功能分别为了实现图1中的方法100的相应流程，为了简洁，在此不再赘述。
上文中，结合图1至图4c，详细描述了根据本发明实施例的控制音频会议的方法，下面，将结合图6，详细描述根据本发明实施例的根据本发明实施例的控制音频会议的设备。
图6示出了根据本发明实施例的控制音频会议的设备300的示意性结构图。如图6所示，该设备300包括：
总线310；
与所述总线相连的处理器320；
与所述总线相连的存储器330；
其中，所述处理器通过所述总线，调用所述存储器中存储的程序，以用于获取音效位置调整信息，该音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示该远端用户的发言频率的发言频率信息、指示该远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个，其中，该话音识别信息用于确定该远端用户之间在音频会议区域中的音效位置间隔；
用于根据该音效位置调整信息，调整该远端用户在该音频会议区域中的音效位置。
可选地，该音效位置调整信息包括该话音识别信息，以及
该处理器320具体用于如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异，则调整远端用户在该音频会议区域中的音效位置，使该第一远端用户与该第二远端用户之间在该音频会议区域中的音效位置间隔小于该第三远端用户与该第四远端用户之间在该音频会议区域中的音效位置间隔，其中，该第一远端用户与该第二远端用户在该音频会议区域中的音效位置相邻，该第三远端用户与该第四远端用户在该音频会议区域中的音效位置相邻。
可选地，该话音识别信息包括声音频率、声音频率方差、共振峰的频率或线性预测系数LPC。
可选地，该音效位置调整信息包括该发言频率信息，以及
该处理器320具体用于根据该发言频率信息，确定发言频率最高的第五远端用户；
用于增大该第五远端用户的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔。
可选地，该处理器320具体用于调换该第五远端用户与第六远端用户在音频会议区域中的音效位置，并增大该第五远端用户调换音效位置后的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔，其中，该第六远端用户在调换音效位置前只有一个相邻用户。
可选地，该处理器320具体用于调换该第五远端用户与该第六远端用户在音频会议区域中的音效位置，其中，该第五远端用户与该第六远端用户在该音频会议区域中位于该近端用户的左右两侧中的同一侧。
可选地，该音效位置调整信息包括该发言顺序信息，以及
该处理器320具体用于根据该发言顺序信息，确定第七远端用户与第八远端用户交替发言，其中，该第七远端用户与该第八远端用户在音频会议区域中的音效位置相邻，且位于该近端用户的左右两侧中的同一侧；
增大该第七远端用户与该第八远端用户之间在音频会议区域中的音效位置间隔。
可选地，该处理器320具体用于调换该第七远端用户与第九远端用户的在该音频会议区域中的音效位置，其中，该第七远端与该第九远端用户在该音频会议区域中的音效位置相邻；或
调换该第八远端用户与第十远端用户在该音频会议区域中的音效位置，其中，该第八远端与该第十远端用户在该音频会议区域中的音效位置相邻。
可选地，该处理器320具体用于调换该第七远端用户与第九远端用户在该音频会议区域中的音效位置，其中，该第七远端与该第九远端用户在该音频会议区域中位于该近端用户的左右两侧中的同一侧；或
调换该第八远端用户与第十远端用户在该音频会议区域中的音效位置，其中，该第八远端与该第十远端用户在该音频会议区域中位于该近端用户的左右两侧中的同一侧。
可选地，该音频会议区域包括判定区域和工作区域；以及
该处理器320具体用于在该音频会议区域中的判定区域，确定新加入音频会议的远端用户的话音识别信息；以及
该处理器320具体用于根据该音效位置调整信息，确定该远端用户在音频会议区域中的工作区域的音效位置。
在本发明实施例中，处理器320控制设备300的操作，处理器320还可以称为CPU。存储器330可以包括只读存储器和随机存取存储器，并向处理器320提供指令和数据。存储器330的一部分还可以包括非易失行随机存取存储器（NVRAM）。处理器320可以实现或者执行本发明方法实施例中的公开的各步骤及逻辑框图。通用处理器320可以是微处理器或者该处理器也可以是任何常规的处理器。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用解码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器330。该总线系统310除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线310。
在实现过程中，上述方法的各步骤可以通过处理器310中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器330，处理器320读取存储器330中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。
根据本发明实施例的控制音频会议的设备300是本发明实施例的控制音频会议的方法100中的实施主体，并且，该控制音频会议的设备200中的各单元及模块和上述其他操作和/或功能分别为了实现图1中的方法100的相应流程，为了简洁，在此不再赘述。
根据本发明实施例的控制音频会议的设备，通过获取指示远端用户的话音特性的话音识别信息，能够确定相邻远端用户之间的话音特性差别，通过获取指示远端用户的发言频率的发言频率信息，能够确定发言频率较高的远端用户，通过获取指示远端用户的发言顺序的发言顺序信息，能够确定交流频率较高的远端用户，通过获取指示近端用户的操作的用户操作信息，能够确定近端用户的主观感受，即近端用户是否能够从远端用户中辨识出实际说话者，从而，通过根据该话音识别信息、发言频率信息、发言顺序信息或用户操作信息，调整远端用户的音效位置，能够使近端用户容易地从远端用户中辨识出实际说话者。
应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

资源描述

《用于控制音频会议的方法和装置.pdf》由会员分享，可在线阅读，更多相关《用于控制音频会议的方法和装置.pdf（28页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN104219400A43申请公布日20141217CN104219400A21申请号201310208248222申请日20130530H04M3/56200601H04L12/1820060171申请人华为技术有限公司地址518129广东省深圳市龙岗区坂田华为总部办公楼72发明人王宾苗磊王喆74专利代理机构北京龙双利达知识产权代理有限公司11329代理人毛威张亮54发明名称用于控制音频会议的方法和装置57摘要提供一种控制音频会议的方法和装置，能够使近端用户能够容易地从远端用户中辨识出实际说话者，该方法包括获取音效位置调整信息，所述音效位置调整信息包括指示至少两个远端用户的话。

2、音特性的话音识别信息、指示所述远端用户的发言频率的发言频率信息、指示所述远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个，其中，所述话音识别信息用于确定所述远端用户之间在音频会议区域中的音效位置间隔；根据所述音效位置调整信息，确定所述远端用户在所述音频会议区域中的音效位置。51INTCL权利要求书4页说明书17页附图6页19中华人民共和国国家知识产权局12发明专利申请权利要求书4页说明书17页附图6页10申请公布号CN104219400ACN104219400A1/4页21一种用于控制音频会议的方法，其特征在于，所述方法包括获取音效位置调整信息，所述音效位置调整信。

3、息包括指示至少两个远端用户的话音特性的话音识别信息、指示所述远端用户的发言频率的发言频率信息、指示所述远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个，其中，所述话音识别信息用于确定所述远端用户之间在音频会议区域中的音效位置间隔；根据所述音效位置调整信息，调整所述远端用户在所述音频会议区域中的音效位置。2根据权利要求1所述的方法，其特征在于，所述音效位置调整信息包括所述话音识别信息，以及所述根据所述音效位置调整信息，调整所述远端用户在音频会议区域中的音效位置，包括如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第。

4、四远端用户的话音识别信息之间的差异，则调整远端用户在所述音频会议区域中的音效位置，使所述第一远端用户与所述第二远端用户之间在所述音频会议区域中的音效位置间隔小于所述第三远端用户与所述第四远端用户之间在所述音频会议区域中的音效位置间隔，其中，所述第一远端用户与所述第二远端用户在所述音频会议区域中的音效位置相邻，所述第三远端用户与所述第四远端用户在所述音频会议区域中的音效位置相邻。3根据权利要求1或2所述的方法，其特征在于，所述话音识别信息包括声音频率、声音频率方差、共振峰的频率或线性预测系数LPC。4根据权利要求1所述的方法，其特征在于，所述音效位置调整信息包括所述发言频率信息，以及所述根据所述。

5、音效位置调整信息，调整所述远端用户在音频会议区域中的音效位置，包括根据所述发言频率信息，确定发言频率最高的第五远端用户；增大所述第五远端用户的相邻用户与所述第五远端用户之间在所述音频会议区域中的音效位置间隔。5根据权利要求4所述的方法，其特征在于，所述增大所述第五远端用户的相邻用户与所述第五远端用户之间在所述音频会议区域中的音效位置间隔包括调换所述第五远端用户与第六远端用户在音频会议区域中的音效位置，并增大所述第五远端用户调换音效位置后的相邻用户与所述第五远端用户之间在所述音频会议区域中的音效位置间隔，其中，所述第六远端用户在调换音效位置前只有一个相邻用户。6根据权利要求5所述的方法，其特征在。

6、于，所述调换所述第五远端用户与第六远端用户在音频会议区域中的音效位置包括调换所述第五远端用户与所述第六远端用户在音频会议区域中的音效位置，其中，所述第五远端用户与所述第六远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧。7根据权利要求1所述的方法，其特征在于，所述音效位置调整信息包括所述发言顺序信息，以及所述根据所述音效位置调整信息，调整所述远端用户在音频会议区域中的音效位置，权利要求书CN104219400A2/4页3包括根据所述发言顺序信息，确定第七远端用户与第八远端用户交替发言，其中，所述第七远端用户与所述第八远端用户在音频会议区域中的音效位置相邻，且位于所述近端用户的左。

7、右两侧中的同一侧；增大所述第七远端用户与所述第八远端用户之间在音频会议区域中的音效位置间隔。8根据权利要求7所述的方法，其特征在于，所述增大所述第七远端用户与所述第八远端用户之间在音频会议区域中的音效位置间隔包括调换所述第七远端用户与第九远端用户的在所述音频会议区域中的音效位置，其中，所述第七远端与所述第九远端用户在所述音频会议区域中的音效位置相邻；或调换所述第八远端用户与第十远端用户在所述音频会议区域中的音效位置，其中，所述第八远端与所述第十远端用户在所述音频会议区域中的音效位置相邻。9根据权利要求8所述的方法，其特征在于，所述调换所述第七远端用户与第九远端用户在音频会议区域中的音效位置包括。

8、调换所述第七远端用户与第九远端用户在所述音频会议区域中的音效位置，其中，所述第七远端与所述第九远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧；或调换所述第八远端用户与第十远端用户在所述音频会议区域中的音效位置，其中，所述第八远端与所述第十远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧。10根据权利要求1所述的方法，其特征在于，所述音频会议区域包括判定区域和工作区域；所述获取音效位置调整信息包括在所述音频会议区域中的判定区域，确定新加入音频会议的远端用户的话音识别信息；以及所述根据所述音效位置调整信息，调整所述远端用户在音频会议区域中的音效位置，包括根据所述音。

9、效位置调整信息，调整所述远端用户在音频会议区域中的工作区域的音效位置。11一种用于控制音频会议的装置，其特征在于，所述装置包括获取单元，用于获取音效位置调整信息，并向处理单元传输所述音效位置调整信息，所述音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示所述远端用户的发言频率的发言频率信息、指示所述远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个，其中，所述话音识别信息用于确定所述远端用户之间在音频会议区域中的音效位置间隔；处理单元，用于从所述获取单元获取所述音效位置调整信息，并根据所述音效位置调整信息，调整所述远端用户在所述音频会议区域中的音。

10、效位置。12根据权利要求11所述的装置，其特征在于，所述音效位置调整信息包括所述话音识别信息，以及所述处理单元具体用于如果第一远端用户的话音识别信息与第二远端用户的话音识权利要求书CN104219400A3/4页4别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异，则调整远端用户在所述音频会议区域中的音效位置，使所述第一远端用户与所述第二远端用户之间在所述音频会议区域中的音效位置间隔小于所述第三远端用户与所述第四远端用户之间在所述音频会议区域中的音效位置间隔，其中，所述第一远端用户与所述第二远端用户在所述音频会议区域中的音效位置相邻，所述第三远端用户与所述第四。

11、远端用户在所述音频会议区域中的音效位置相邻。13根据权利要求11或12所述的装置，其特征在于，所述话音识别信息包括声音频率、声音频率方差、共振峰的频率或线性预测系数LPC。14根据权利要求11所述的装置，其特征在于，所述音效位置调整信息包括所述发言频率信息，以及所述处理单元具体用于根据所述发言频率信息，确定发言频率最高的第五远端用户；用于增大所述第五远端用户的相邻用户与所述第五远端用户之间在所述音频会议区域中的音效位置间隔。15根据权利要求14所述的装置，其特征在于，所述处理单元具体用于调换所述第五远端用户与第六远端用户在音频会议区域中的音效位置，并增大所述第五远端用户调换音效位置后的相邻用户。

12、与所述第五远端用户之间在所述音频会议区域中的音效位置间隔，其中，所述第六远端用户在调换音效位置前只有一个相邻用户。16根据权利要求15所述的装置，其特征在于，所述处理单元具体用于调换所述第五远端用户与所述第六远端用户在音频会议区域中的音效位置，其中，所述第五远端用户与所述第六远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧。17根据权利要求11所述的装置，其特征在于，所述音效位置调整信息包括所述发言顺序信息，以及所述处理单元具体用于根据所述发言顺序信息，确定第七远端用户与第八远端用户交替发言，其中，所述第七远端用户与所述第八远端用户在音频会议区域中的音效位置相邻，且位于所述近端。

13、用户的左右两侧中的同一侧；用于增大所述第七远端用户与所述第八远端用户之间在音频会议区域中的音效位置间隔。18根据权利要求17所述的装置，其特征在于，所述处理单元具体用于调换所述第七远端用户与第九远端用户的在所述音频会议区域中的音效位置，其中，所述第七远端与所述第九远端用户在所述音频会议区域中的音效位置相邻；或用于调换所述第八远端用户与第十远端用户在所述音频会议区域中的音效位置，其中，所述第八远端与所述第十远端用户在所述音频会议区域中的音效位置相邻。19根据权利要求18所述的装置，其特征在于，所述处理单元具体用于调换所述第七远端用户与第九远端用户在所述音频会议区域中的音效位置，其中，所述第七远端。

14、与所述第九远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧；或用于调换所述第八远端用户与第十远端用户在所述音频会议区域中的音效位置，其中，所述第八远端与所述第十远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧。20根据权利要求11所述的装置，其特征在于，所述音频会议区域包括判定区域和工权利要求书CN104219400A4/4页5作区域，所述判定区域用于确定新加入音频会议的远端用户的话音识别信息，所述工作区域用于设置已加入音频会议的远端用户的音效位置，以及所述获取单元具体用于在所述音频会议区域中的判定区域，确定新加入音频会议的远端用户的话音识别信息；以及所述处理单。

15、元具体用于根据所述音效位置调整信息，调整所述远端用户在音频会议区域中的工作区域的音效位置。权利要求书CN104219400A1/17页6用于控制音频会议的方法和装置技术领域0001本发明涉及通信领域，并且更具体地，涉及用于控制音频会议的方法和装置。背景技术0002音频会议系统为处于不同地点的人们提供了方便的交流平台，减少了不必要的交通费用，同时保证了沟通的及时性。通常，在音频会议中，会存在个会议终端（例如，电话机，以下简称终端），每个终端供一个或多个用户（或者说，与会者）使用，在传统的音频会议系统中，在终端回放接收到的声音时，将所有终端的声音都混音在一起，导致所有声音对于用户而言均来自同一个方。

16、向，不仅造成声音的清晰度降低，而且各终端的用户（或者说，近端用户）不能从其他终端的用户（或者说，远端用户）中辨识实际说话，即，在不熟悉远端用户的声音的情况下，无法通过声音来识别当前的说话者，严重影响会议的效果。针对这一突出问题，三维（3D，THREEDIMENSIONAL）音频会议系统可以提供很好的解决方案，即，对接收到的多路音频流进行3D声音方位处理，将不同远端用户的声音放到不同的声像位置（或者说，音效位置），从而使近端用户可以根据声像位置识别当前的说话者。0003但是，例如，在间隔较小的两个相邻远端用户的话音特性差别较小时，近端用户仍然不能良好地辨识说话者的声像位置，因此，需要提供一种方案。

17、，能够使近端用户容易地从远端用户中辨识出实际说话者。发明内容0004本发明实施例提供一种控制音频会议的方法和装置，能够使近端用户能够容易地从远端用户中辨识出实际说话者。0005第一方面，提供了一种用于控制音频会议的方法，该方法包括获取音效位置调整信息，该音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示该远端用户的发言频率的发言频率信息、指示该远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个，其中，该话音识别信息用于确定该远端用户之间在音频会议区域中的音效位置间隔；根据该音效位置调整信息，调整该远端用户在该音频会议区域中的音效位置。0006在一。

18、种可能的实施方式中，该音效位置调整信息包括该话音识别信息，以及该根据该音效位置调整信息，调整该远端用户在音频会议区域中的音效位置，包括如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异，则调整远端用户在该音频会议区域中的音效位置，使该第一远端用户与该第二远端用户之间在该音频会议区域中的音效位置间隔小于该第三远端用户与该第四远端用户之间在该音频会议区域中的音效位置间隔，其中，该第一远端用户与该第二远端用户在该音频会议区域中的音效位置相邻，该第三远端用户与该第四远端用户在该音频会议区域中的音效位置相邻。0007结。

19、合第一方面和第一种可能的实施方式，在第二种可能的实施方式中，该音效位说明书CN104219400A2/17页7置调整信息包括该发言频率信息，以及该根据该音效位置调整信息，调整该远端用户在音频会议区域中的音效位置，包括根据该发言频率信息，确定发言频率最高的第五远端用户；增大该第五远端用户的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔。0008结合第一方面、第一种可能的实施方式和第二种可能的实施方式，在第三种可能的实施方式中，该音效位置调整信息包括该发言顺序信息，以及该根据该音效位置调整信息，调整该远端用户在音频会议区域中的音效位置，包括根据该发言顺序信息，确定第七远端用户与第八远。

20、端用户交替发言，其中，该第七远端用户与该第八远端用户在音频会议区域中的音效位置相邻，且位于该近端用户的左右两侧中的同一侧；增大该第七远端用户与该第八远端用户之间在音频会议区域中的音效位置间隔。0009结合第一方面、第一种可能的实施方式、第二种可能的实施方式和第三种可能的实施方式，在第四种可能的实施方式中，该音频会议区域包括判定区域和工作区域；该获取音效位置调整信息包括在该音频会议区域中的判定区域，确定新加入音频会议的远端用户的话音识别信息；以及该根据该音效位置调整信息，调整该远端用户在音频会议区域中的音效位置，包括根据该音效位置调整信息，调整该远端用户在音频会议区域中的工作区域的音效位置。00。

21、10第二方面，提供了一种用于控制音频会议的装置，该装置包括获取单元，用于获取音效位置调整信息，并向处理单元传输该音效位置调整信息，该音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示该远端用户的发言频率的发言频率信息、指示该远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个，其中，该话音识别信息用于确定该远端用户之间在音频会议区域中的音效位置间隔；处理单元，用于从该获取单元获取该音效位置调整信息，并根据该音效位置调整信息，调整该远端用户在该音频会议区域中的音效位置。0011在一种可能的实施方式中，该音效位置调整信息包括该话音识别信息，以及该处理单。

22、元具体用于如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异，则调整远端用户在该音频会议区域中的音效位置，使该第一远端用户与该第二远端用户之间在该音频会议区域中的音效位置间隔小于该第三远端用户与该第四远端用户之间在该音频会议区域中的音效位置间隔，其中，该第一远端用户与该第二远端用户在该音频会议区域中的音效位置相邻，该第三远端用户与该第四远端用户在该音频会议区域中的音效位置相邻。0012结合第二方面和第一种可能的实施方式，在第二种可能的实施方式中，该音效位置调整信息包括该发言频率信息，以及该处理单元具体用于根据。

23、该发言频率信息，确定发言频率最高的第五远端用户；用于增大该第五远端用户的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔。0013结合第二方面、第一种可能的实施方式和第二种可能的实施方式，在第三种可能的实施方式中，该音效位置调整信息包括该发言顺序信息，以及该处理单元具体用于根据该发言顺序信息，确定第七远端用户与第八远端用户交替发言，其中，该第七远端用户与该第八远端用户在音频会议区域中的音效位置相邻，且位于该近端用户的左右两侧中的同一说明书CN104219400A3/17页8侧；用于增大该第七远端用户与该第八远端用户之间在音频会议区域中的音效位置间隔。0014结合第二方面、第一种可能。

24、的实施方式、第二种可能的实施方式和第三种可能的实施方式，在第四种可能的实施方式中，该音频会议区域包括判定区域和工作区域，该判定区域用于确定新加入音频会议的远端用户的话音识别信息，该工作区域用于设置已加入音频会议的远端用户的音效位置，以及该获取单元具体用于在该音频会议区域中的判定区域，确定新加入音频会议的远端用户的话音识别信息；以及该处理单元具体用于根据该音效位置调整信息，调整该远端用户在音频会议区域中的工作区域的音效位置。0015根据本发明实施例的控制音频会议的方法和装置，获取音效位置调整信息，所述音效位置调整信息包括以下中信息中的至少一个指示至少两个远端用户的话音特性的话音识别信息、指示所述。

25、远端用户的发言频率的发言频率信息、指示所述远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息。根据所述音效位置调整信息调整远端用户的音效位置，从而能够使近端用户容易地从远端用户中辨识出实际说话者。附图说明0016为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。0017图1是根据本发明实施例的控制音频会议的方法的示意性流程图。0018图2A是表示根据话音识别信息调整各远端用户的音效位置前的音效位。

26、置分配情况的一例的示意图，图2B是表示根据话音识别信息调整各远端用户的音效位置后的音效位置分配情况的示意图，图2C是表示根据话音识别信息调整各远端用户的音效位置前的音效位置分配情况的另一例的示意图，图2D是表示根据话音识别信息调整各远端用户的音效位置后的音效位置分配情况的另一例的示意图，图2E是表示根据话音识别信息调整各远端用户的音效位置前的音效位置分配情况的再一例的示意图，图2F是表示根据话音识别信息调整各远端用户的音效位置后的音效位置分配情况的再一例的示意图。0019图3A是表示根据发言频率信息调整各远端用户的音效位置前的音效位置分配情况的一例的示意图，图3B是表示根据发言频率信息调整各远。

27、端用户的音效位置后的音效位置分配情况的一例的示意图，图3C是表示根据发言频率信息调整各远端用户的音效位置后的音效位置分配情况的另一例的示意图。0020图4A是表示根据发言顺序信息调整各远端用户的音效位置前的音效位置分配情况的一例的示意图，图4B是表示根据发言频率信息调整各远端用户的音效位置后的音效位置分配情况的一例的示意图，图4C是表示根据发言频率信息调整各远端用户的音效位置后的音效位置分配情况的另一例的示意图。0021图5是根据本发明实施例的控制音频会议的装置的示意性框图。0022图6是根据本发明实施例的控制音频会议的设备的示意性结构图。具体实施方式0023下面将结合本发明实施例中的附图，对。

28、本发明实施例中的技术方案进行清楚、完说明书CN104219400A4/17页9整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。0024图1示出了是根据本发明实施例的控制音频会议的方法100的示意性流程图。如图1所示，该方法100包括0025S110，获取音效位置调整信息，该音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示该远端用户的发言频率的发言频率信息、指示该远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一。

29、个，其中，该话音识别信息用于确定该远端用户之间在音频会议区域中的音效位置间隔；0026S120，根据该音效位置调整信息，调整该远端用户在该音频会议区域中的音效位置。0027在本发明实施例中，参与音频会议的与会者可以通过多个（至少两个）终端设备（例如，电话机等，即，本发明实施例的控制音频会议的方法100的实施主体的一例），进行音频会议，并且，各终端设备可以通过各种通信网络相连。终端设备可以获取用户（以下，为了便于理解，称为近端用户）的语音信息，生成音频数据，并（通过服务器）将该音频数据发送给其他终端设备。0028并且，终端设备可以（通过服务器）从其他终端设备获取其他与会者（以下，为了便于理解，称。

30、为远端用户）的音频数据，并通过例如3D声音方位处理等技术，还原远端用户的声音，并分别从不同音效位置向近端用户呈现各远端用户的声音。0029这里，需要说明的是，在本发明实施例中，“音效位置”也可以称为声像位置，是指近端用户通过听觉感知的远端用户的虚拟位置。0030可选地，在本发明实施例中，该音频会议区域包括判定区域和工作区域，该判定区域用于确定新加入音频会议的远端用户的话音识别信息，该工作区域用于设置已加入音频会议的远端用户的音效位置，以及，0031该获取音效位置调整信息包括0032在该音频会议区域中的判定区域，确定新加入音频会议的远端用户的话音识别信息；以及0033该根据该音效位置调整信息，调。

31、整该远端用户在音频会议区域中的音效位置，包括0034根据该音效位置调整信息，调整该远端用户在音频会议区域中的工作区域的音效位置。0035具体地说，终端设备可以将近端用户前方的区域划分为判定区域和工作区域两种，其中，判定区域可以用于获取新加入音频会议的远端用户的话音识别信息（VIF，VOICEIDENTIFICATIONFACTOR），这里，新加入音频会议的远端用户可以是在音频会议创建阶段加入的远端用户，也可以是在音频会议进行阶段加入的远端用户，本发明并未特别限定。工作区域用于设置远端用户的声像音效位置，并且，不同工作区域中的远端用户的配置可以相互独立，即，对于远端用户在一个工作区域中的音效位置。

32、分配，可以不依据其他工作区域中的远端用户的各参数。0036如图2A所示，在本发明实施例中，例如，可以将在近端用户正前方的区域作为判说明书CN104219400A5/17页10定区域，从而是工作区域位于该判定区域的两侧。从而，可以根据该VIF将该新加入音频会议的远端用户分配至工作区域，其中，根据VIF将远端用户分配至工作区域的方法可以与现有技术相同，这里，为了避免赘述，省略其说明。0037应理解，以上列举的工作区域与判定区域的音效位置关系仅为示例性说明，本发明并不限定于此，例如，判定区域也可以配置在两个工作区域之间的任一音效位置，即，判定区域不位于近端用户的正前方，从而使两个工作区域的大小可以不。

33、一致。或者，也可以将判定区域设置在最靠近近端用户的音效位置，从而仅形成一个工作区域和与其相邻的判定区域。以下，为了便于理解，以判定区域设置在近端用户正前方，工作区域位于该判定区域（或者说，近端用户）两侧为例，进行说明。0038在本发明实施例中，音效位置调整信息可以包括话音识别信息（即，情况1）、发言频率信息（即，情况2）、发言顺序信息（即，情况3）和用户操作信息（即，情况4），下面，分别对各情况下的调整远端用户的音效位置的过程进行说明。应理解，以上列举的各情况仅为本发明的示例性说明，并不限定于此，例如，还可以根据以上列举的四个信息中的至少两个信息调整远端用户的音效位置。0039情况10040在。

34、本发明实施例中，在会议建立阶段，可以随机地将各远端用户分配到各声像音效位置，其后，获取来自其他终端设备的音频数据；也可以预先根据现有技术中的方法将各远端用户随机分配到各声像音效位置，其后获取来自其他终端设备的音频数据；还可以不为各远端用户分配声像音效位置，而直接获取来自其他终端设备的音频数据，本发明并未特别限定。图2A示出了根据发言频率信息调整各远端用户的音效位置前的音效位置分配情况的一例。0041从而，在S110A，可以从来自其他终端设备的音频数据中获取各远端用户的话音识别信息（VIF，VOICEIDENTIFICATIONFACTOR）。0042可选地，在本发明是示例中宏，该话音识别信息包。

35、括声音频率、声音频率方差、共振峰的频率或线性预测系数LPC。0043具体地说，该VIF可以是音频数据中的声音频率（PITCH），由于人的声音频率通常具有一定程度的独特性，因此，可以使用该声音频率作为VIF，同理，该VIF也可以是声音频率的方差。该VIF可以是线性预测系数（LPC，LINEARPREDICTIVECOEFFICIENTS），线性预测系数又称声道截面函数，是声道中由声门至唇部各点的横截面积，由于，人的线性预测系数通常具有一定程度的独特性，因此，可以使用该线性预测系数作为VIF。0044可选地，在本发明实施例中，该音效位置调整信息包括该话音识别信息，以及0045该根据该音效位置调整信。

36、息，调整该远端用户在音频会议区域中的音效位置，包括0046如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异，则调整远端用户在该音频会议区域中的音效位置，使该第一远端用户与该第二远端用户之间在该音频会议区域中的音效位置间隔小于该第三远端用户与该第四远端用户之间在该音频会议区域中的音效位置间隔，其中，该第一远端用户与该第二远端用户在该音频会议区域中的音效位置相邻，该第三远端用户与该第四远端用户在该音频会议区域中的音效位置相邻。说明书CN104219400A106/17页110047具体地说，在S120A，可以根。

37、据各远端用户的VIF，确定各相邻远端用户之间话音识别信息的差异，例如，图2A中远端用户A01的VIF（记作，VIF（A01）与远端用户A03的VIF（记作，VIF（A03）之间的差异可以表示为|VIF（A01）VIF（A03）|；0048同理，远端用户A01的VIF与远端用户A04的VIF（记作，VIF（A04）之间的差异可以表示为|VIF（A01）VIF（A04）|；0049远端用户A06的VIF（记作，VIF（A06）与远端用户A05的VIF（记作，VIF（A05）之间的差异可以表示为|VIF（A06）VIF（A05）|；0050远端用户A06的VIF与远端用户A02的VIF（记作，VIF。

40、8则如图2D所示，可以使P1P2P3P4P5。0059并且，在会议进行阶段，例如，如图2E所示，远端用户包括A01A07，如果会议进行过程A06提前离开会议，则可以计算剩余相关远端用户（这里，是指与A06处于同一工作区域的A02、A07和A05）之间的VIF差异，并结合当前的方位音效位置分配情况进行音效位置修正调整。例如，当A06离开会议后，A07与A05成为相邻远端用户，需要计算远端用户A07的VIF（记作，VIF（A07）与VIF（A05）的差异，可以表示为|VIF（A07）VIF（A05）|；并且，VIF（A07）与VIF（A02）的差异，可以表示为|VIF（A07）VIF（A02）|；。

41、0060例如，如果|VIF（A07）VIF（A05）|VIF（A07）VIF（A02）|，则可以使A07与A05之间的间距（P6）大于A07与A02之间的间距（P7），即如图2F所示，可以使P6P7。0061或者，还可以根据近端用户的识别能力预先设定多个阈值范围，以及与该多个阈值范围相对应的多个音效位置间隔值，并根据如上所述确定的相邻远端VIF差异所处的阈值范围，确定所适用的间隔值，并调整该远端用户的音效位置。0062根据本发明实施例的控制音频会议的方法，通过扩大话音特性差别较小的相邻远端用户之间的声像距离，能够使近端用户能够容易地从远端用户中辨识出实际说话者。说明书CN104219400A1。

42、17/17页120063情况20064在会议进行阶段，可以记录各远端用户的发言次数以及该发言在会议中对应时间，例如，可以记录各远端用户在预设时间段内的语音帧数，以确定各远端用户在预设时间段内的发言频率（语音帧数与预设时间的比值），从而，在S110B，可以将该发言频率作为发言频率信息VAF（VOICEACTIVITYFACTOR）。以上，列举了将发言频率直接作为发言频率信息的实施例，但本发明并不限定于此，例如，也可以计算在预设时间段内，各远端用户的发言次数在总发言次数中的比例（或者说，发言比例，即，各远端用户的语音帧数与总语音帧数的比值），将该发言比例作为发言频率信息。0065可选地，在本发明实。

43、施例中，该音效位置调整信息包括该发言频率信息，以及0066该根据该音效位置调整信息，调整该远端用户在音频会议区域中的音效位置，包括0067根据该发言频率信息，确定发言频率最高的第五远端用户；0068增大该第五远端用户的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔。0069具体地说，在S120B，可以确定各工作区域中，在预设时间段内的发言次数最多（语音帧数最多，或者说，发言频率最大、发言比例最大）的远端用户。例如，如图3A所示，在远端用户A01、远端用户A02和远端用户A03中，将远端用户A01在预设时间段内的语音帧数记作N1，发言频率记作M1，发言比例记作K1，将远端用户A02。

44、在预设时间段内的语音帧数记作N2，发言频率记作M2，发言比例记作K2，将远端用户A03在预设时间段内的语音帧数记作N3，发言频率记作M3，发言比例记作K3；0070例如，如果，N2N1，且N2N3，或0071M2M1，且M2M3，或0072K2K1，且K2K3，则可以确定远端用户A02（第五远端用户的一例）在预设时间段内的发言次数最多。从而，如图3B所示，可以直接增大远端用户A02与远端用户A01之间的间隔，以及远端用户A02与远端用户A03之间的间隔，例如，可以将A01向上移动，将A02向上移动。0073可选地，在本发明实施例中，该增大该第五远端用户的相邻用户与该第五远端用户之间的间隔。包括。

45、0074调换该第五远端用户与第六远端用户在音频会议区域中的音效位置，并增大该第五远端用户调换音效位置后的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔，其中，该第六远端用户在调换音效位置前只有一个相邻用户。0075并且，该调换该第五远端用户与第六远端用户在音频会议区域中的音效位置包括0076调换该第五远端用户与该第六远端用户在音频会议区域中的音效位置，其中，该第五远端用户与该第六远端用户在该音频会议区域中位于该近端用户的左右两侧中的同一侧。0077具体地说，例如，如图3C所示，可以调换远端用户A02与远端用户A01的音效位置，以达到增大远端用户A02与远端用户A03之间的间隔的目。

46、的，其后，可以增大远端用户A02与远端用户A01之间的间隔，即，将A02向上移动，或，将A01向下移动。说明书CN104219400A128/17页130078应理解，以上列举的增大该第五远端用户（远端用户A02）的相邻用户与该第五远端用户（远端用户A02）之间的间隔的方法仅为本发明的示例性说明，本发明并不限定于此，例如，还可以调换远端用户A02与远端用户A03的音效位置，其后，增大远端用户A02与远端用户A03之间的间隔。并且，当该第五远端用户（远端用户A02）所处的工作区域设置有四个以上远端用户时，可以调换第五远端用户与位于该工作区域边缘的第六远端用户的音效位置，其后，增大该第五远端用户与。

47、相邻远端用户之间的间隔。0079并且，由于近端用户能够较好的区分出来自其左右两侧的声音，在会议建立阶段，例如，存在VIF差异较小的远端用户可能被分配至分别由于近端用户左右两侧的相邻音效位置的情况，即，近端用户左右两侧的工作区域彼此独立配置，因此，在本发明实施例中，例如，在第五远端用户位于近端用户左侧时，可以禁止调换第五远端用户与位于近端用户右侧的远端用户的音效位置，以避免远端用户音效位置移动前后声像音效位置差别过大影响对此远端用户的识别。0080根据本发明实施例的控制音频会议的方法，通过扩大发言频率较高的远端用户与其相邻用户之间的声像距离，能够使近端用户能够容易地从远端用户中辨识出实际说话者。。

48、0081情况30082在会议进行阶段，可以记录各远端用户的发言以及该发言在会议中对应时间，从而，在S110C中，可以根据各远端用户的发言以及该发言在会议中对应时间，确定指示该远端用户的发言顺序的发言顺序信息，作为该发言顺序信息，例如，可以是交替发言频率ACF（ATTENDEECORRELATIONFACTOR），在从T1T8时刻，如果图4A所示的远端用户A01A05有如下所示说话顺序0083A01（T1）A03（T2）A04（T3）A05（T4）A03（T5）A05（T6）A03（T7）A05（T8），0084则例如，两个相邻远端用户A03、A05之间在每个时刻的ACF可以为00850（T1）。

49、0（T2）0（T3）0（T4）1（T5）2（T6）3（T7）4（T8）0086可选地，在本发明实施例中，该音效位置调整信息包括该发言顺序信息，以及0087该根据该音效位置调整信息，调整该远端用户在音频会议区域中的音效位置，包括0088根据该发言顺序信息，确定第七远端用户与第八远端用户交替发言，其中，该第七远端用户与该第八远端用户在音频会议区域中的音效位置相邻，且位于该近端用户的左右两侧中的同一侧；0089增大该第七远端用户与该第八远端用户之间在音频会议区域中的音效位置间隔。0090具体地说，在S120C中，可以判定A03与A05之间的ACF是否大于预设的阈值（例如，3，表示两个相邻远端用户在连续的三个时刻交替发言），如果大于该阈值，则可以确定A03（第七远端用户的一例）与A05（第八远端用户的一例）为交替发言的相邻用户，从而，如图4B所示，可以直接增大该A03与A05之间的间隔，即，将A03向下移动，将A05向上移动。0091可选地，在本发明实施例中，该增大该第七远端用户与该第八远端用户之间在音频会议区域中的音效位置间隔包括说明书CN104219400A139/17页140092调换该第七远端用户与第九远端用户的在该音频会议区域中的音效位置。

展开阅读全文