应用于视频会议的静音指示的方法及装置.pdf

摘要
申请专利号：	CN201010591692.3	申请日：	2010.12.16
公开号：	CN102025972A	公开日：	2011.04.20
当前法律状态：	实审	有效性：	审中
法律详情：	发明专利申请公开后的驳回IPC(主分类):H04N7/15申请公开日:20110420\|\|\|实质审查的生效IPC(主分类):H04N 7/15申请日:20101216\|\|\|公开
IPC分类号：	H04N7/15	主分类号：	H04N7/15
申请人：	中兴通讯股份有限公司
发明人：	吴永明
地址：	518057 广东省深圳市南山区科技南路55号
优先权：
专利代理机构：	北京康信知识产权代理有限责任公司 11240	代理人：	余刚;吴孟秋
PDF下载：	PDF下载

内容摘要

本发明提供了应用于视频会议的静音指示方法及装置，该方法包括：多点会议单元MCU对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；所述MCU获取所述终端的检测结果，其中，所述检测结果包括下列任意之一：声音激活状态和声音未激活状态；当所述检测结果为声音激活状态时，所述MCU在发送给所述终端的视频信号中叠加所述静音视频指示。采用本发明能够改善视频会议的沟通体验，让视频会议使用简单高效。

权利要求书

1：一种应用于视频会议的静音指示方法，其特征在于，包括：多点会议单元 MCU 对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；所述 MCU 获取所述终端的检测结果，其中，所述检测结果包括下列任意之一：声音激活状态和声音未激活状态；当所述检测结果为声音激活状态时，所述 MCU 在发送给所述终端的视频信号中叠加所述静音视频指示。
2：根据权利要求 1 所述的方法，其特征在于，所述 MCU 对参与视频会议的终端发送的音频媒体流进行声音激活检测，包括：所述 MCU 周期性对所述音频媒体流进行声音激活检测。
3：根据权利要求 1 或 2 所述的方法，其特征在于，所述 MCU 获取所述终端的检测结果，包括：若所述音频媒体流的声音参数高于所述声音激活检测的门限值时，所述 MCU 确定所述检测结果为声音激活状态；若所述音频媒体流的声音参数不高于所述声音激活检测的门限值时，所述 MCU 确定所述检测结果为声音未激活状态。
4：根据权利要求 3 所述的方法，其特征在于，所述 MCU 在发送给所述终端的视频信号中叠加所述静音视频指示，包括：所述 MCU 在发送给所述终端的视频信号中叠加文字或图标，所述文字或图标用于指示所述终端被静音。
5：根据权利要求 4 所述的方法，其特征在于，所述 MCU 在发送给所述终端的视频信号中叠加所述静音视频指示，包括：所述 MCU 在发送给所述终端的每个视频帧进行叠加所述静音视频指示的重复处理，直至取消所述静音视频指示。
6：一种应用于视频会议的静音指示装置，其特征在于，设置于多点会议单元 MCU 中，包括：检测模块，用于对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；获取模块，用于获取所述终端的检测结果，其中，所述检测结果包括下列任意之一：声音激活状态和声音未激活状态；叠加模块，用于当所述检测结果为声音激活状态时，在发送给所述终端的视频信号中叠加所述静音视频指示。
7：根据权利要求 6 所述的装置，其特征在于，所述检测模块还用于周期性对所述音频媒体流进行声音激活检测。
8：根据权利要求 6 或 7 所述的装置，其特征在于，所述获取模块包括：第一确定子模块，用于若所述音频媒体流的声音参数高于所述声音激活检测的门限值时，确定所述检测结果为声音激活状态；第二确定子模块，用于若所述音频媒体流的声音参数不高于所述声音激活检测的门限值时，确定所述检测结果为声音未激活状态。
9：根据权利要求 8 所述的装置，其特征在于，所述叠加模块还用于在发送给所述终端的视频信号中叠加文字或图标，所述文字或图标用于指示所述终端被静音。 2
10：根据权利要求 9 所述的装置，其特征在于，所述叠加模块还用于在发送给所述终端的每个视频帧进行叠加所述静音视频指示的重复处理，直至取消所述静音视频指示。

说明书

应用于视频会议的静音指示的方法及装置
    【技术领域】
     本发明涉及通信领域，具体而言，涉及一种应用于视频会议的静音指示方法及装置。背景技术
     视频会议系统是支持声音、视频远程双向传送的多媒体通信系统，它用来帮助身处异地的使用者完成实时双向的面对面可视沟通。
     国际电信联盟 (ITU)、互联网工程任务组 (IETF)、第三代合作伙伴项目 (3GPP) 等标准组织各自从事多媒体标准化的开发。 ITU 目前开发了 ITU-T H.320、 ITU-T H.323、ITU-TH.324 等多个多媒体通信标准，其中，ITU-T H.320 是针对窄带电路交换网络的多媒体通信应用，ITU-T H.323 是针对 IP 网络的多媒体通信应用，而 ITU-T H.324 是针对非常低速的网络的多媒体通信应用，如 PSTN(Public Switched Telephone Network，公共交换电话网 ) 网络和移动网络。 IETF 则负责制定会话初始协议 SIP 和基于此协议的多媒体会议标准。 3GPP 是负责制定 IP 多媒体子系统 IMS 的标准，它在 IETF 标准基础上也制定了一套基于 IMS 网络的多媒体会议标准，这个标准和 IETF 制定的基于 SIP 的标准是非常接近的。图 1 描述了视频会议通信的基本原理。终端 101 是用户使用的设备，包括终端 1 ～ n。每个终端内包含编解码器，编解码负责完成声音、视频等媒体的压缩编码和解码；终端还连接麦克风，摄像头，显示器，声音播放子系统，用来完成声音、视频的输入和输出；终端还包括用户输入接口，用户通过输入接口向终端输入指令和信息。在召开视频会议时，终端 101 和 MCU(Multipoint Conference Unit，多点会议单元 )102 建立连接，包括控制信令、音频、视频的双向通信，为了节省网络带宽，音频和视频一般采用压缩编码的格式在网络上传送。
     MCU 102 用来完成多方会议通信。参加多方会议通信的终端 101 和 MCU 102 建立连接，进行控制信令、音频、视频的双向通信。 MCU 102 负责完成媒体流的交换和混合。对于声音媒体流，MCU 102 通常为每个终端 101 输出一个经过混音合成的声音媒体流，混音合成一般选择输入的音量最大的几路声音媒体流进行叠加。对于视频，MCU 102 可以为某个终端发送另一个终端的单画面视频流，如果 MCU 102 支持多画面功能，也能够把多个终端来的视频合成为一个多画面图像，然后发送给某个或某些终端。
     在视频会议中，为了满足用户对会议管理的需要，一般均提供会议控制功能。图 1 中的会议控制软件 103 用来完成会议控制功能。会议控制软件 103 的一个重要的功能是对终端进行静音控制，为了达到好的声音沟通效果，通常会对当前不需要发言的终端进行静音操作，一个终端被静音后，参与同一个会议的其它终端无法听到该终端的发言。
     如果被静音的终端未被通知自身被静音，该终端的用户会尝试进行发言操作，但是在其它终端侧的用户又听不到他的发言，会误解为系统故障，引起易用性的下降。
     传统的音频会议系统中，一般是通过给被静音的终端播放一种特殊的提示音的，例如间隔地播放 “嘟” 音。这种做法的缺点是提示不够直观，而且一定程度上干扰正常会议声音的收听。
     针对相关技术中静音提示采用提示音方式，不够直观，而且一定程度上干扰正常会议声音的收听的问题，目前尚未提出有效的解决方案。发明内容
     本发明旨在提供一种应用于视频会议的静音指示方法及装置，以解决相关技术中静音提示采用提示音方式，不够直观，而且一定程度上干扰正常会议声音的收听的问题。
     根据本发明的一个方面，提供了一种应用于视频会议的静音指示方法，包括：多点会议单元 MCU 对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；所述 MCU 获取所述终端的检测结果，其中，所述检测结果包括下列任意之一：声音激活状态和声音未激活状态；当所述检测结果为声音激活状态时，所述 MCU 在发送给所述终端的视频信号中叠加所述静音视频指示。
     优选的，所述 MCU 对参与视频会议的终端发送的音频媒体流进行声音激活检测，包括：所述 MCU 周期性对所述音频媒体流进行声音激活检测。
     优选的，所述 MCU 获取所述终端的检测结果，包括：若所述音频媒体流的声音参数高于所述声音激活检测的门限值时，所述 MCU 确定所述检测结果为声音激活状态；若所述音频媒体流的声音参数不高于所述声音激活检测的门限值时，所述 MCU 确定所述检测结果为声音未激活状态。
     优选的，所述 MCU 在发送给所述终端的视频信号中叠加所述静音视频指示，包括：所述 MCU 在发送给所述终端的视频信号中叠加文字或图标，所述文字或图标用于指示所述终端被静音。
     优选的，所述 MCU 在发送给所述终端的视频信号中叠加所述静音视频指示，包括：所述 MCU 在发送给所述终端的每个视频帧进行叠加所述静音视频指示的重复处理，直至取消所述静音视频指示。
     根据本发明的另一方面，提供了一种应用于视频会议的静音指示装置，设置于多点会议单元 MCU 中，包括：检测模块，用于对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；获取模块，用于获取所述终端的检测结果，其中，所述检测结果包括下列任意之一：声音激活状态和声音未激活状态；叠加模块，用于当所述检测结果为声音激活状态时，在发送给所述终端的视频信号中叠加所述静音视频指示。
     优选的，所述检测模块还用于周期性对所述音频媒体流进行声音激活检测。
     优选的，所述获取模块包括：第一确定子模块，用于若所述音频媒体流的声音参数高于所述声音激活检测的门限值时，确定所述检测结果为声音激活状态；第二确定子模块，用于若所述音频媒体流的声音参数不高于所述声音激活检测的门限值时，确定所述检测结果为声音未激活状态。
     优选的，所述叠加模块还用于在发送给所述终端的视频信号中叠加文字或图标，所述文字或图标用于指示所述终端被静音。优选的，所述叠加模块还用于在发送给所述终端的每个视频帧进行叠加所述静音视频指示的重复处理，直至取消所述静音视频指示。
     在本发明实施例中， MCU 对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测，当检测结果为声音激活状态时， MCU 在发送给终端的视频信号中叠加静音视频指示。本发明实施例中，当某个终端被静音后，如果该终端的用户尝试发言时，在接收的视频信号中，就会显示一个静音视频指示消息，例如显示 “你当前被禁止发言，请先进行申请发言操作”。本发明实施例的目的是改善视频会议的沟通体验，让视频会议使用简单高效。本发明实施例的优点是，提示信息直观，提示信息内容可以丰富准确，提示信息是动态出现，正常情况下没有提示，确保对用户的干扰最小。附图说明此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
     图 1 是根据相关技术的视频会议通信的基本原理示意图；
     图 2 是根据本发明实施例的应用于视频会议的静音指示方法的处理流程图；
     图 3 是根据本发明实施例的支持视频叠加静音提示信息的 MCU 装置及相应处理流程示意图；
     图 4 是根据本发明实施例的支持视频叠加静音提示信息的另外一个 MCU 装置及相应处理流程示意图；
     图 5 是根据本发明实施例的具体实施例的处理流程图；
     图 6 是根据本发明实施例的采用视频叠加方式的静音提示的显示效果图；
     图 7 是根据本发明实施例的采用视频插入方式的静音提示的显示效果图；
     图 8 是根据本发明实施例的应用于视频会议的静音指示装置的结构示意图；
     图 9 是根据本发明实施例的获取模块的结构示意图。
     具体实施方式
     下面将参考附图并结合实施例，来详细说明本发明。
     下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。
     传统的音频会议系统中，一般是通过给被静音的终端播放一种特殊的提示音的，例如间隔地播放 “嘟” 音。这种做法的缺点是提示不够直观，而且一定程度上干扰正常会议声音的收听。
     为解决上述技术问题，本发明实施例提供了一种应用于视频会议的静音指示方法，处理流程如图 2 所示，包括：
     步骤 202、多点会议单元 MCU 对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；
     步骤 204、 MCU 获取终端的检测结果，其中，检测结果包括下列任意之一：声音激活状态和声音未激活状态；步骤 206、当检测结果为声音激活状态时， MCU 在发送给终端的视频信号中叠加静音视频指示。
     在本发明实施例中， MCU 对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测，当检测结果为声音激活状态时， MCU 在发送给终端的视频信号中叠加静音视频指示。本发明实施例中，当某个终端被静音后，如果该终端的用户尝试发言时，在接收的视频信号中，就会显示一个静音视频指示消息，例如显示 “你当前被禁止发言，请先进行申请发言操作”。本发明实施例的目的是改善视频会议的沟通体验，让视频会议使用简单高效。本发明实施例的优点是，提示信息直观，提示信息内容可以丰富准确，提示信息是动态出现，正常情况下没有提示，确保对用户的干扰最小。
     优选的， MCU 对参与视频会议的终端发送的音频媒体流进行声音激活检测 VAD，包括：MCU 周期性对音频媒体流进行声音激活检测。 MCU 持续地对音频媒体流进行声音激活检测，每隔一段时间 T1，输出一次声音激活状态的检测结果。检测结果为两个状态，一个是声音激活态，另一个是声音未激活态。 T1 可以作为可调节的 MCU 配置项。
     优选的， MCU 获取终端的检测结果，包括：若音频媒体流的声音参数高于声音激活检测的门限值时， MCU 确定检测结果为声音激活状态；若音频媒体流的声音参数不高于声音激活检测的门限值时， MCU 确定检测结果为声音未激活状态。 VAD 检测的门限值可根据具体情况调节。实施时，根据步骤 204 的判断结果， MCU 可以选择在发送给终端的视频信号中叠加 ( 或插入 ) 静音视频指示或取消叠加 ( 或插入 ) 视频静音指示。 MCU 检查终端是否被静音，如果被静音，则进一步判断当前终端的发送的音频媒体流是否为激活状态，如果是声音激活状态，则需要向该终端发送静音视频指示，其它条件为停止发送静音视频指示。其中，被静音是指在 MCU 内部的声音处理，能够在视频会议中阻止参与视频会议的其它终端收听到该终端的声音。
     优先的，步骤 206 在实施时， MCU 在发送给终端的视频信号中叠加静音视频指示，包括：MCU 在发送给终端的视频信号中叠加文字或图标，文字或图标用于指示终端被静音。文字或图标的内容、字体、文字大小、颜色、显示位置等属性可以作为可调节的配置项。
     实施时， MCU 在发送给终端的每个视频帧中进行叠加静音视频指示的重复处理，直至取消静音视频指示。取消静音视频指示则不对视频帧进行叠加处理。
     由上述说明可以获知，插入静音视频指示后， MCU 用静音提示视频流替换正常的会议视频流。静音提示视频流包含文字或图标信息，用来指示终端被静音。取消静音视频指示则恢复发送正常的会议视频流。
     图 3 描述了一个基于本发明实施例的支持视频叠加静音提示信息的 MCU 装置及相应处理流程。网络接口模块 301 负责和终端的通信，负责收发声音、视频媒体流。网络接口模块 301 将接收的音频流 (1) 送给音频解码模块 302，音频解码模块 302 将压缩的音频格式解码为原始格式音频码流，然后将原始格式音频码流 (2) 分别送给混音模块 303 和声音激活检测模块 304，混音模块 303 负责将多路终端来的音频流进行混合处理，达到多方通话的效果，混音模块 303 将混音后的音频码流 (4) 送给音频编码模块 305，音频
     编码模块 305 负责对原始音频进行压缩编码，将编码后的音频流 (3) 送给网络接口模块 301。网络接口模块 301 将接收的视频流 (5) 送给视频解码模块 306。声音激活检测模块 304 负责对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测，在本实施例中， T1 取值为 1000ms，声音激活检测模块 304 每隔 1000ms 将语音激活状态 (7) 上报给主控模块 307。主控模块 307 负责判断是否需要进行视频静音指示，在终端被静音的情况下，如果收到声音激活的状态指示，则需要向终端发送静音视频指示，其它情况下为停止发送静音视频指示。主控模块 307 将是否发送静音视频指示 (8) 的命令发送给图形叠加模块 308，视频解码模块 306 将发送给终端的原始格式的视频码流 (6) 发送至图形叠加模块 308。图形叠加模块 308 负责将静音提示信息叠加到发送给终端的原始格式的视频码流中，然后将叠加后的原始格式视频码流 (9) 送给视频编码器 309，视频编码器 309 将原始格式的视频码流压缩编码后，送给网络接口模块 301，由网络接口模块 301 发送给终端。用户可以通过设备配置的方式，将音量比较门限、音量大小计算样本数或相应的时间区间、提示文字内容、文字颜色、字体大小、字体类型、提示文字显示在视频帧中的位置预先设置到 MCU 设备中。
     图 4 描述了另外一个基于本发明实施例的支持视频插入方式的静音提示信息的 MCU 装置和处理流程。网络接口模块 401 负责和终端的通信，负责收发声音、视频媒体流。网络接口模块 401 将接收的音频流 (1) 送给音频解码模块 402，音频解码模块 402 将压缩的音频格式解码为原始格式音频码流，然后将原始格式音频码流 (2) 分别送给混音模块 403 和声音激活检测模块 404，混音模块 403 负责将多路终端来的音频流进行混合处理，达到多方通话的效果，混音模块 303 将混音后的音频码流 (4) 送给音频编码模块 405，音频编码模块 405 负责对原始音频进行压缩编码，将编码后的音频流 (3) 送给网络接口模块 401。视频混合和交换模块 406 接收终端发送来的视频流 (5)，将多个终端的视频合成为一个多画面视频，或是选择某个终端的视频输入交换给其它终端，视频混合和交换模块 406 的输出视频流 (6) 送给视频切换模块 407。声音激活检测模块 404 负责对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测，在本实施例中， T1 取值为 1000ms，声音激活检测模块 404 每隔 1000ms 将语音激活状态 (8) 上报给主控模块 409。主控模块 409 负责判断是否需要进行视频静音指示，在终端被静音的情况下，如果收到声音激活的状态指示，则需要向终端发送静音视频指示，其它情况下为停止发送静音视频指示。主控模块 409 将是否发送静音视频指示 (9) 的命令发送给视频切换模块 407。视频切换模块 407 根据主控模块 409 的命令，选择正常的会议视频流 (6) 或静音提示视频流 (7) 发送给终端。视频提示模块 410 用来输出静音提示视频流 (7)。采用插入静音视频提示的优点是可节省媒体计算资源。通常视频叠加操作比较消耗 CPU 资源。
     图 5 为本发明实施例的处理流程图，该流程图是基于图 3 的 MCU 实施例来说明的。
     步骤 501、接受终端输入的原始格式的音频流数据，例如接收相当于持续时间为 100ms 的音频数据；
     步骤 502、利用最新接收的音频流数据进行声音激活检测，依赖于 VAD 算法，计算可能需要使用保存的历史音频流数据和先前的计算结果；VAD 判决门限可由用户配置，可调节判决灵敏度；步骤 503、输出声音激活状态；
     步骤 501 至步骤 503 的执行主体可以设置为 VAD 模块，步骤 503 执行结束后，返回到 501 重复执行；后续将声音激活状态输出至主控模块，由主控模块执行后续步骤 511 至步骤 515 ；
     步骤 511、接收输入并更新声音激活状态；
     步骤 512、判断是否为声音激活态，如果为声音激活态，执行步骤 513，如果为非声音激活态，执行步骤 515 ；
     步骤 513、判断此终端是否被静音，如果被静音，执行步骤 514，否则执行步骤 515 ；
     步骤 514、发送请求叠加提示消息，通知视频叠加模块进行视频叠加，返回到步骤 511 重复执行；
     步骤 515、发送取消叠加提示消息，通知视频叠加模块取消视频叠加，返回到步骤 512 重复执行；
     后续将请求叠加提示消息或者取消叠加提示消息输出至视频叠加模块，由视频叠加模块执行后续步骤 521 至步骤 524 ；
     步骤 521、视频叠加模块根据主控模块的输入，更新视频叠加状态；
     步骤 522、视频叠加模块判断是否进行视频叠加，如果是执行步骤 523，否则执行步骤 524 ；
     步骤 523、视频叠加模块将提示信息叠加到发送给终端的视频信号中，提示信息可以是表达静音的图标或描述性的文字串；提示文字的内容、字体、文字大小、颜色、显示位置等属性可以作为可调节的配置项；
     步骤 524、视频叠加模块不进行叠加处理。
     采用本发明实施例提供的静音指示方法，能够在视频中生成静音提示，例如，图 6 为采用视频叠加方式的静音提示的一种显示效果，外层矩形方框表示电视屏幕，人物图标用来表示终端收看的视频信号，底部的文字侧为叠加的静音提示信息，比如，你当前被禁止发言，请先申请发言。再例如，图 7 为采用视频插入方式的静音提示的显示效果，外层矩形方框表示电视屏幕。
     基于同一发明构思，本发明实施例还提供了一种应用于视频会议的静音指示装置，其结构如图 8 所示，设置于多点会议单元 MCU 中，包括：
     检测模块 801，用于对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；
     获取模块 802，用于获取终端的检测结果，其中，检测结果包括下列任意之一：声音激活状态和声音未激活状态；
     叠加模块 803，用于当检测结果为声音激活状态时，在发送给终端的视频信号中叠加所述静音视频指示。
     在一个实施例中，检测模块 801 还可以用于周期性对音频媒体流进行声音激活检测。
     在一个实施例中，如图 9 所示，获取模块 802 可以包括：
     第一确定子模块 901，用于若音频媒体流的声音参数高于声音激活检测的门限值时，确定检测结果为声音激活状态；
     第二确定子模块 902，用于若音频媒体流的声音参数不高于声音激活检测的门限值时，确定检测结果为声音未激活状态。
     在一个实施例中，叠加模块 803 还可以用于在发送给终端的视频信号中叠加文字或图标，文字或图标用于指示终端被静音。
     在一个实施例中，叠加模块 803 还可以用于在发送给终端的每个视频帧进行叠加静音视频指示的重复处理，直至取消静音视频指示。
     从以上的描述中，可以看出，本发明实现了如下技术效果：
     在本发明实施例中， MCU 对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测，当检测结果为声音激活状态时， MCU 在发送给终端的视频信号中叠加静音视频指示。本发明实施例中，当某个终端被静音后，如果该终端的用户尝试发言时，在接收的视频信号中，就会显示一个静音视频指示消息，例如显示 “你当前被禁止发言，请先进行申请发言操作”。本发明实施例的目的是改善视频会议的沟通体验，让视频会议使用简单高效。本发明实施例的优点是，提升信息直观，提示信息内容可以丰富准确，提示信息是动态出现，正常情况下没有提示，确保对用户的干扰最小。显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
     以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

资源描述

《应用于视频会议的静音指示的方法及装置.pdf》由会员分享，可在线阅读，更多相关《应用于视频会议的静音指示的方法及装置.pdf（15页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN102025972A43申请公布日20110420CN102025972ACN102025972A21申请号201010591692322申请日20101216H04N7/1520060171申请人中兴通讯股份有限公司地址518057广东省深圳市南山区科技南路55号72发明人吴永明74专利代理机构北京康信知识产权代理有限责任公司11240代理人余刚吴孟秋54发明名称应用于视频会议的静音指示的方法及装置57摘要本发明提供了应用于视频会议的静音指示方法及装置，该方法包括多点会议单元MCU对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；所述MCU获取所述终端的检测结。

2、果，其中，所述检测结果包括下列任意之一声音激活状态和声音未激活状态；当所述检测结果为声音激活状态时，所述MCU在发送给所述终端的视频信号中叠加所述静音视频指示。采用本发明能够改善视频会议的沟通体验，让视频会议使用简单高效。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书7页附图5页CN102025986A1/2页21一种应用于视频会议的静音指示方法，其特征在于，包括多点会议单元MCU对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；所述MCU获取所述终端的检测结果，其中，所述检测结果包括下列任意之一声音激活状态和声音未激活状态；当所述检测结果为声。

3、音激活状态时，所述MCU在发送给所述终端的视频信号中叠加所述静音视频指示。2根据权利要求1所述的方法，其特征在于，所述MCU对参与视频会议的终端发送的音频媒体流进行声音激活检测，包括所述MCU周期性对所述音频媒体流进行声音激活检测。3根据权利要求1或2所述的方法，其特征在于，所述MCU获取所述终端的检测结果，包括若所述音频媒体流的声音参数高于所述声音激活检测的门限值时，所述MCU确定所述检测结果为声音激活状态；若所述音频媒体流的声音参数不高于所述声音激活检测的门限值时，所述MCU确定所述检测结果为声音未激活状态。4根据权利要求3所述的方法，其特征在于，所述MCU在发送给所述终端的视频信号中叠加。

4、所述静音视频指示，包括所述MCU在发送给所述终端的视频信号中叠加文字或图标，所述文字或图标用于指示所述终端被静音。5根据权利要求4所述的方法，其特征在于，所述MCU在发送给所述终端的视频信号中叠加所述静音视频指示，包括所述MCU在发送给所述终端的每个视频帧进行叠加所述静音视频指示的重复处理，直至取消所述静音视频指示。6一种应用于视频会议的静音指示装置，其特征在于，设置于多点会议单元MCU中，包括检测模块，用于对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；获取模块，用于获取所述终端的检测结果，其中，所述检测结果包括下列任意之一声音激活状态和声音未激活状态；叠加模块，用于当所述检。

5、测结果为声音激活状态时，在发送给所述终端的视频信号中叠加所述静音视频指示。7根据权利要求6所述的装置，其特征在于，所述检测模块还用于周期性对所述音频媒体流进行声音激活检测。8根据权利要求6或7所述的装置，其特征在于，所述获取模块包括第一确定子模块，用于若所述音频媒体流的声音参数高于所述声音激活检测的门限值时，确定所述检测结果为声音激活状态；第二确定子模块，用于若所述音频媒体流的声音参数不高于所述声音激活检测的门限值时，确定所述检测结果为声音未激活状态。9根据权利要求8所述的装置，其特征在于，所述叠加模块还用于在发送给所述终端的视频信号中叠加文字或图标，所述文字或图标用于指示所述终端被静音。权利。

6、要求书CN102025972ACN102025986A2/2页310根据权利要求9所述的装置，其特征在于，所述叠加模块还用于在发送给所述终端的每个视频帧进行叠加所述静音视频指示的重复处理，直至取消所述静音视频指示。权利要求书CN102025972ACN102025986A1/7页4应用于视频会议的静音指示的方法及装置技术领域0001本发明涉及通信领域，具体而言，涉及一种应用于视频会议的静音指示方法及装置。背景技术0002视频会议系统是支持声音、视频远程双向传送的多媒体通信系统，它用来帮助身处异地的使用者完成实时双向的面对面可视沟通。0003国际电信联盟ITU、互联网工程任务组IETF、第三代合。

7、作伙伴项目3GPP等标准组织各自从事多媒体标准化的开发。ITU目前开发了ITUTH320、ITUTH323、ITUTH324等多个多媒体通信标准，其中，ITUTH320是针对窄带电路交换网络的多媒体通信应用，ITUTH323是针对IP网络的多媒体通信应用，而ITUTH324是针对非常低速的网络的多媒体通信应用，如PSTNPUBLICSWITCHEDTELEPHONENETWORK，公共交换电话网网络和移动网络。IETF则负责制定会话初始协议SIP和基于此协议的多媒体会议标准。3GPP是负责制定IP多媒体子系统IMS的标准，它在IETF标准基础上也制定了一套基于IMS网络的多媒体会议标准，这个标。

8、准和IETF制定的基于SIP的标准是非常接近的。0004图1描述了视频会议通信的基本原理。终端101是用户使用的设备，包括终端1N。每个终端内包含编解码器，编解码负责完成声音、视频等媒体的压缩编码和解码；终端还连接麦克风，摄像头，显示器，声音播放子系统，用来完成声音、视频的输入和输出；终端还包括用户输入接口，用户通过输入接口向终端输入指令和信息。在召开视频会议时，终端101和MCUMULTIPOINTCONFERENCEUNIT，多点会议单元102建立连接，包括控制信令、音频、视频的双向通信，为了节省网络带宽，音频和视频一般采用压缩编码的格式在网络上传送。0005MCU102用来完成多方会议通。

9、信。参加多方会议通信的终端101和MCU102建立连接，进行控制信令、音频、视频的双向通信。MCU102负责完成媒体流的交换和混合。对于声音媒体流，MCU102通常为每个终端101输出一个经过混音合成的声音媒体流，混音合成一般选择输入的音量最大的几路声音媒体流进行叠加。对于视频，MCU102可以为某个终端发送另一个终端的单画面视频流，如果MCU102支持多画面功能，也能够把多个终端来的视频合成为一个多画面图像，然后发送给某个或某些终端。0006在视频会议中，为了满足用户对会议管理的需要，一般均提供会议控制功能。图1中的会议控制软件103用来完成会议控制功能。会议控制软件103的一个重要的功能是。

10、对终端进行静音控制，为了达到好的声音沟通效果，通常会对当前不需要发言的终端进行静音操作，一个终端被静音后，参与同一个会议的其它终端无法听到该终端的发言。0007如果被静音的终端未被通知自身被静音，该终端的用户会尝试进行发言操作，但是在其它终端侧的用户又听不到他的发言，会误解为系统故障，引起易用性的下降。说明书CN102025972ACN102025986A2/7页50008传统的音频会议系统中，一般是通过给被静音的终端播放一种特殊的提示音的，例如间隔地播放“嘟”音。这种做法的缺点是提示不够直观，而且一定程度上干扰正常会议声音的收听。0009针对相关技术中静音提示采用提示音方式，不够直观，而且一。

11、定程度上干扰正常会议声音的收听的问题，目前尚未提出有效的解决方案。发明内容0010本发明旨在提供一种应用于视频会议的静音指示方法及装置，以解决相关技术中静音提示采用提示音方式，不够直观，而且一定程度上干扰正常会议声音的收听的问题。0011根据本发明的一个方面，提供了一种应用于视频会议的静音指示方法，包括多点会议单元MCU对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；所述MCU获取所述终端的检测结果，其中，所述检测结果包括下列任意之一声音激活状态和声音未激活状态；当所述检测结果为声音激活状态时，所述MCU在发送给所述终端的视频信号中叠加所述静音视频指示。0012优选的，所述MC。

12、U对参与视频会议的终端发送的音频媒体流进行声音激活检测，包括所述MCU周期性对所述音频媒体流进行声音激活检测。0013优选的，所述MCU获取所述终端的检测结果，包括若所述音频媒体流的声音参数高于所述声音激活检测的门限值时，所述MCU确定所述检测结果为声音激活状态；若所述音频媒体流的声音参数不高于所述声音激活检测的门限值时，所述MCU确定所述检测结果为声音未激活状态。0014优选的，所述MCU在发送给所述终端的视频信号中叠加所述静音视频指示，包括所述MCU在发送给所述终端的视频信号中叠加文字或图标，所述文字或图标用于指示所述终端被静音。0015优选的，所述MCU在发送给所述终端的视频信号中叠加所。

13、述静音视频指示，包括所述MCU在发送给所述终端的每个视频帧进行叠加所述静音视频指示的重复处理，直至取消所述静音视频指示。0016根据本发明的另一方面，提供了一种应用于视频会议的静音指示装置，设置于多点会议单元MCU中，包括检测模块，用于对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；获取模块，用于获取所述终端的检测结果，其中，所述检测结果包括下列任意之一声音激活状态和声音未激活状态；叠加模块，用于当所述检测结果为声音激活状态时，在发送给所述终端的视频信号中叠加所述静音视频指示。0017优选的，所述检测模块还用于周期性对所述音频媒体流进行声音激活检测。0018优选的，所述获取模块。

14、包括第一确定子模块，用于若所述音频媒体流的声音参数高于所述声音激活检测的门限值时，确定所述检测结果为声音激活状态；第二确定子模块，用于若所述音频媒体流的声音参数不高于所述声音激活检测的门限值时，确定所述检测结果为声音未激活状态。0019优选的，所述叠加模块还用于在发送给所述终端的视频信号中叠加文字或图标，所述文字或图标用于指示所述终端被静音。说明书CN102025972ACN102025986A3/7页60020优选的，所述叠加模块还用于在发送给所述终端的每个视频帧进行叠加所述静音视频指示的重复处理，直至取消所述静音视频指示。0021在本发明实施例中，MCU对参与视频会议且已被静音的终端发送的。

15、音频媒体流进行声音激活检测，当检测结果为声音激活状态时，MCU在发送给终端的视频信号中叠加静音视频指示。本发明实施例中，当某个终端被静音后，如果该终端的用户尝试发言时，在接收的视频信号中，就会显示一个静音视频指示消息，例如显示“你当前被禁止发言，请先进行申请发言操作”。本发明实施例的目的是改善视频会议的沟通体验，让视频会议使用简单高效。本发明实施例的优点是，提示信息直观，提示信息内容可以丰富准确，提示信息是动态出现，正常情况下没有提示，确保对用户的干扰最小。附图说明0022此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本。

16、发明的不当限定。在附图中0023图1是根据相关技术的视频会议通信的基本原理示意图；0024图2是根据本发明实施例的应用于视频会议的静音指示方法的处理流程图；0025图3是根据本发明实施例的支持视频叠加静音提示信息的MCU装置及相应处理流程示意图；0026图4是根据本发明实施例的支持视频叠加静音提示信息的另外一个MCU装置及相应处理流程示意图；0027图5是根据本发明实施例的具体实施例的处理流程图；0028图6是根据本发明实施例的采用视频叠加方式的静音提示的显示效果图；0029图7是根据本发明实施例的采用视频插入方式的静音提示的显示效果图；0030图8是根据本发明实施例的应用于视频会议的静音指示。

17、装置的结构示意图；0031图9是根据本发明实施例的获取模块的结构示意图。具体实施方式0032下面将参考附图并结合实施例，来详细说明本发明。0033下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。0034传统的音频会议系统中，一般是通过给被静音的终端播放一种特殊的提示音的，例如间隔地播放“嘟”音。这种做法的缺点是提示不够直观，而且一定程度上干扰正常会议声音的收听。0035为解决上述技术问题，本发明实施例提供了一种应用于视频会议的静音指示方法，处理流程如图2所示，包括0036步骤202、多点会议单元MCU对参与视频会议且已。

18、被静音的终端发送的音频媒体流进行声音激活检测；0037步骤204、MCU获取终端的检测结果，其中，检测结果包括下列任意之一声音激活状态和声音未激活状态；说明书CN102025972ACN102025986A4/7页70038步骤206、当检测结果为声音激活状态时，MCU在发送给终端的视频信号中叠加静音视频指示。0039在本发明实施例中，MCU对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测，当检测结果为声音激活状态时，MCU在发送给终端的视频信号中叠加静音视频指示。本发明实施例中，当某个终端被静音后，如果该终端的用户尝试发言时，在接收的视频信号中，就会显示一个静音视频指示消息，例。

19、如显示“你当前被禁止发言，请先进行申请发言操作”。本发明实施例的目的是改善视频会议的沟通体验，让视频会议使用简单高效。本发明实施例的优点是，提示信息直观，提示信息内容可以丰富准确，提示信息是动态出现，正常情况下没有提示，确保对用户的干扰最小。0040优选的，MCU对参与视频会议的终端发送的音频媒体流进行声音激活检测VAD，包括MCU周期性对音频媒体流进行声音激活检测。MCU持续地对音频媒体流进行声音激活检测，每隔一段时间T1，输出一次声音激活状态的检测结果。检测结果为两个状态，一个是声音激活态，另一个是声音未激活态。T1可以作为可调节的MCU配置项。0041优选的，MCU获取终端的检测结果，包。

20、括若音频媒体流的声音参数高于声音激活检测的门限值时，MCU确定检测结果为声音激活状态；若音频媒体流的声音参数不高于声音激活检测的门限值时，MCU确定检测结果为声音未激活状态。VAD检测的门限值可根据具体情况调节。0042实施时，根据步骤204的判断结果，MCU可以选择在发送给终端的视频信号中叠加或插入静音视频指示或取消叠加或插入视频静音指示。MCU检查终端是否被静音，如果被静音，则进一步判断当前终端的发送的音频媒体流是否为激活状态，如果是声音激活状态，则需要向该终端发送静音视频指示，其它条件为停止发送静音视频指示。其中，被静音是指在MCU内部的声音处理，能够在视频会议中阻止参与视频会议的其它终。

21、端收听到该终端的声音。0043优先的，步骤206在实施时，MCU在发送给终端的视频信号中叠加静音视频指示，包括MCU在发送给终端的视频信号中叠加文字或图标，文字或图标用于指示终端被静音。文字或图标的内容、字体、文字大小、颜色、显示位置等属性可以作为可调节的配置项。0044实施时，MCU在发送给终端的每个视频帧中进行叠加静音视频指示的重复处理，直至取消静音视频指示。取消静音视频指示则不对视频帧进行叠加处理。0045由上述说明可以获知，插入静音视频指示后，MCU用静音提示视频流替换正常的会议视频流。静音提示视频流包含文字或图标信息，用来指示终端被静音。取消静音视频指示则恢复发送正常的会议视频流。0。

22、046图3描述了一个基于本发明实施例的支持视频叠加静音提示信息的MCU装置及相应处理流程。网络接口模块301负责和终端的通信，负责收发声音、视频媒体流。网络接口模块301将接收的音频流1送给音频解码模块302，音频解码模块302将压缩的音频格式解码为原始格式音频码流，然后将原始格式音频码流2分别送给混音模块303和声音激活检测模块304，混音模块303负责将多路终端来的音频流进行混合处理，达到多方通话的效果，混音模块303将混音后的音频码流4送给音频编码模块305，音频说明书CN102025972ACN102025986A5/7页8编码模块305负责对原始音频进行压缩编码，将编码后的音频流3送。

23、给网络接口模块301。网络接口模块301将接收的视频流5送给视频解码模块306。声音激活检测模块304负责对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测，在本实施例中，T1取值为1000MS，声音激活检测模块304每隔1000MS将语音激活状态7上报给主控模块307。主控模块307负责判断是否需要进行视频静音指示，在终端被静音的情况下，如果收到声音激活的状态指示，则需要向终端发送静音视频指示，其它情况下为停止发送静音视频指示。主控模块307将是否发送静音视频指示8的命令发送给图形叠加模块308，视频解码模块306将发送给终端的原始格式的视频码流6发送至图形叠加模块308。图形叠。

24、加模块308负责将静音提示信息叠加到发送给终端的原始格式的视频码流中，然后将叠加后的原始格式视频码流9送给视频编码器309，视频编码器309将原始格式的视频码流压缩编码后，送给网络接口模块301，由网络接口模块301发送给终端。用户可以通过设备配置的方式，将音量比较门限、音量大小计算样本数或相应的时间区间、提示文字内容、文字颜色、字体大小、字体类型、提示文字显示在视频帧中的位置预先设置到MCU设备中。0047图4描述了另外一个基于本发明实施例的支持视频插入方式的静音提示信息的MCU装置和处理流程。网络接口模块401负责和终端的通信，负责收发声音、视频媒体流。网络接口模块401将接收的音频流1送。

25、给音频解码模块402，音频解码模块402将压缩的音频格式解码为原始格式音频码流，然后将原始格式音频码流2分别送给混音模块403和声音激活检测模块404，混音模块403负责将多路终端来的音频流进行混合处理，达到多方通话的效果，混音模块303将混音后的音频码流4送给音频编码模块405，音频编码模块405负责对原始音频进行压缩编码，将编码后的音频流3送给网络接口模块401。视频混合和交换模块406接收终端发送来的视频流5，将多个终端的视频合成为一个多画面视频，或是选择某个终端的视频输入交换给其它终端，视频混合和交换模块406的输出视频流6送给视频切换模块407。声音激活检测模块404负责对参与视频会。

26、议且已被静音的终端发送的音频媒体流进行声音激活检测，在本实施例中，T1取值为1000MS，声音激活检测模块404每隔1000MS将语音激活状态8上报给主控模块409。主控模块409负责判断是否需要进行视频静音指示，在终端被静音的情况下，如果收到声音激活的状态指示，则需要向终端发送静音视频指示，其它情况下为停止发送静音视频指示。主控模块409将是否发送静音视频指示9的命令发送给视频切换模块407。视频切换模块407根据主控模块409的命令，选择正常的会议视频流6或静音提示视频流7发送给终端。视频提示模块410用来输出静音提示视频流7。采用插入静音视频提示的优点是可节省媒体计算资源。通常视频叠加操。

27、作比较消耗CPU资源。0048图5为本发明实施例的处理流程图，该流程图是基于图3的MCU实施例来说明的。0049步骤501、接受终端输入的原始格式的音频流数据，例如接收相当于持续时间为100MS的音频数据；0050步骤502、利用最新接收的音频流数据进行声音激活检测，依赖于VAD算法，计算可能需要使用保存的历史音频流数据和先前的计算结果；VAD判决门限可由用户配置，可调节判决灵敏度；说明书CN102025972ACN102025986A6/7页90051步骤503、输出声音激活状态；0052步骤501至步骤503的执行主体可以设置为VAD模块，步骤503执行结束后，返回到501重复执行；后续将。

28、声音激活状态输出至主控模块，由主控模块执行后续步骤511至步骤515；0053步骤511、接收输入并更新声音激活状态；0054步骤512、判断是否为声音激活态，如果为声音激活态，执行步骤513，如果为非声音激活态，执行步骤515；0055步骤513、判断此终端是否被静音，如果被静音，执行步骤514，否则执行步骤515；0056步骤514、发送请求叠加提示消息，通知视频叠加模块进行视频叠加，返回到步骤511重复执行；0057步骤515、发送取消叠加提示消息，通知视频叠加模块取消视频叠加，返回到步骤512重复执行；0058后续将请求叠加提示消息或者取消叠加提示消息输出至视频叠加模块，由视频叠加模块。

29、执行后续步骤521至步骤524；0059步骤521、视频叠加模块根据主控模块的输入，更新视频叠加状态；0060步骤522、视频叠加模块判断是否进行视频叠加，如果是执行步骤523，否则执行步骤524；0061步骤523、视频叠加模块将提示信息叠加到发送给终端的视频信号中，提示信息可以是表达静音的图标或描述性的文字串；提示文字的内容、字体、文字大小、颜色、显示位置等属性可以作为可调节的配置项；0062步骤524、视频叠加模块不进行叠加处理。0063采用本发明实施例提供的静音指示方法，能够在视频中生成静音提示，例如，图6为采用视频叠加方式的静音提示的一种显示效果，外层矩形方框表示电视屏幕，人物图标用。

30、来表示终端收看的视频信号，底部的文字侧为叠加的静音提示信息，比如，你当前被禁止发言，请先申请发言。再例如，图7为采用视频插入方式的静音提示的显示效果，外层矩形方框表示电视屏幕。0064基于同一发明构思，本发明实施例还提供了一种应用于视频会议的静音指示装置，其结构如图8所示，设置于多点会议单元MCU中，包括0065检测模块801，用于对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；0066获取模块802，用于获取终端的检测结果，其中，检测结果包括下列任意之一声音激活状态和声音未激活状态；0067叠加模块803，用于当检测结果为声音激活状态时，在发送给终端的视频信号中叠加所述静音视。

31、频指示。0068在一个实施例中，检测模块801还可以用于周期性对音频媒体流进行声音激活检测。0069在一个实施例中，如图9所示，获取模块802可以包括0070第一确定子模块901，用于若音频媒体流的声音参数高于声音激活检测的门限值说明书CN102025972ACN102025986A7/7页10时，确定检测结果为声音激活状态；0071第二确定子模块902，用于若音频媒体流的声音参数不高于声音激活检测的门限值时，确定检测结果为声音未激活状态。0072在一个实施例中，叠加模块803还可以用于在发送给终端的视频信号中叠加文字或图标，文字或图标用于指示终端被静音。0073在一个实施例中，叠加模块803。

32、还可以用于在发送给终端的每个视频帧进行叠加静音视频指示的重复处理，直至取消静音视频指示。0074从以上的描述中，可以看出，本发明实现了如下技术效果0075在本发明实施例中，MCU对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测，当检测结果为声音激活状态时，MCU在发送给终端的视频信号中叠加静音视频指示。本发明实施例中，当某个终端被静音后，如果该终端的用户尝试发言时，在接收的视频信号中，就会显示一个静音视频指示消息，例如显示“你当前被禁止发言，请先进行申请发言操作”。本发明实施例的目的是改善视频会议的沟通体验，让视频会议使用简单高效。本发明实施例的优点是，提升信息直观，提示信息内容。

33、可以丰富准确，提示信息是动态出现，正常情况下没有提示，确保对用户的干扰最小。0076显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。0077以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。说明书CN102025972ACN102025986A1/5页11图1图2说明书附图CN102025972ACN102025986A2/5页12图3图4说明书附图CN102025972ACN102025986A3/5页13图5说明书附图CN102025972ACN102025986A4/5页14图6图7说明书附图CN102025972ACN102025986A5/5页15图8图9说明书附图CN102025972A。

展开阅读全文