应用于视频会议的静音指示的方法及装置 【技术领域】
本发明涉及通信领域,具体而言,涉及一种应用于视频会议的静音指示方法及装置。 背景技术
视频会议系统是支持声音、视频远程双向传送的多媒体通信系统,它用来帮助 身处异地的使用者完成实时双向的面对面可视沟通。
国际电信联盟 (ITU)、互联网工程任务组 (IETF)、第三代合作伙伴项目 (3GPP) 等 标 准 组 织 各 自 从 事 多 媒 体 标 准 化 的 开 发。 ITU 目 前 开 发 了 ITU-T H.320、 ITU-T H.323、ITU-TH.324 等多个多媒体通信标准,其中,ITU-T H.320 是针对窄带电路交换网 络的多媒体通信应用,ITU-T H.323 是针对 IP 网络的多媒体通信应用,而 ITU-T H.324 是 针对非常低速的网络的多媒体通信应用,如 PSTN(Public Switched Telephone Network,公 共交换电话网 ) 网络和移动网络。 IETF 则负责制定会话初始协议 SIP 和基于此协议的多 媒体会议标准。 3GPP 是负责制定 IP 多媒体子系统 IMS 的标准,它在 IETF 标准基础上 也制定了一套基于 IMS 网络的多媒体会议标准,这个标准和 IETF 制定的基于 SIP 的标准 是非常接近的。 图 1 描述了视频会议通信的基本原理。 终端 101 是用户使用的设备,包括终端 1 ~ n。 每个终端内包含编解码器,编解码负责完成声音、视频等媒体的压缩编码和解 码 ;终端还连接麦克风,摄像头,显示器,声音播放子系统,用来完成声音、视频的输 入和输出 ;终端还包括用户输入接口,用户通过输入接口向终端输入指令和信息。 在召 开视频会议时,终端 101 和 MCU(Multipoint Conference Unit,多点会议单元 )102 建立连 接,包括控制信令、音频、视频的双向通信,为了节省网络带宽,音频和视频一般采用 压缩编码的格式在网络上传送。
MCU 102 用来完成多方会议通信。 参加多方会议通信的终端 101 和 MCU 102 建立连接,进行控制信令、音频、视频的双向通信。 MCU 102 负责完成媒体流的交换和 混合。 对于声音媒体流,MCU 102 通常为每个终端 101 输出一个经过混音合成的声音媒 体流,混音合成一般选择输入的音量最大的几路声音媒体流进行叠加。 对于视频,MCU 102 可以为某个终端发送另一个终端的单画面视频流,如果 MCU 102 支持多画面功能, 也能够把多个终端来的视频合成为一个多画面图像,然后发送给某个或某些终端。
在视频会议中,为了满足用户对会议管理的需要,一般均提供会议控制功能。 图 1 中的会议控制软件 103 用来完成会议控制功能。 会议控制软件 103 的一个重要的功 能是对终端进行静音控制,为了达到好的声音沟通效果,通常会对当前不需要发言的终 端进行静音操作,一个终端被静音后,参与同一个会议的其它终端无法听到该终端的发 言。
如果被静音的终端未被通知自身被静音,该终端的用户会尝试进行发言操作, 但是在其它终端侧的用户又听不到他的发言,会误解为系统故障,引起易用性的下降。
传统的音频会议系统中,一般是通过给被静音的终端播放一种特殊的提示音 的,例如间隔地播放 “嘟” 音。 这种做法的缺点是提示不够直观,而且一定程度上干扰 正常会议声音的收听。
针对相关技术中静音提示采用提示音方式,不够直观,而且一定程度上干扰正 常会议声音的收听的问题,目前尚未提出有效的解决方案。 发明内容
本发明旨在提供一种应用于视频会议的静音指示方法及装置,以解决相关技术 中静音提示采用提示音方式,不够直观,而且一定程度上干扰正常会议声音的收听的问 题。
根据本发明的一个方面,提供了一种应用于视频会议的静音指示方法,包括 : 多点会议单元 MCU 对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检 测 ;所述 MCU 获取所述终端的检测结果,其中,所述检测结果包括下列任意之一 :声 音激活状态和声音未激活状态 ;当所述检测结果为声音激活状态时,所述 MCU 在发送给 所述终端的视频信号中叠加所述静音视频指示。
优选的,所述 MCU 对参与视频会议的终端发送的音频媒体流进行声音激活检 测,包括 :所述 MCU 周期性对所述音频媒体流进行声音激活检测。
优选的,所述 MCU 获取所述终端的检测结果,包括 :若所述音频媒体流的声音 参数高于所述声音激活检测的门限值时,所述 MCU 确定所述检测结果为声音激活状态 ; 若所述音频媒体流的声音参数不高于所述声音激活检测的门限值时,所述 MCU 确定所述 检测结果为声音未激活状态。
优选的,所述 MCU 在发送给所述终端的视频信号中叠加所述静音视频指示,包 括 :所述 MCU 在发送给所述终端的视频信号中叠加文字或图标,所述文字或图标用于指 示所述终端被静音。
优选的,所述 MCU 在发送给所述终端的视频信号中叠加所述静音视频指示,包 括 :所述 MCU 在发送给所述终端的每个视频帧进行叠加所述静音视频指示的重复处理, 直至取消所述静音视频指示。
根据本发明的另一方面,提供了一种应用于视频会议的静音指示装置,设置于 多点会议单元 MCU 中,包括 :检测模块,用于对参与视频会议且已被静音的终端发送的 音频媒体流进行声音激活检测 ;获取模块,用于获取所述终端的检测结果,其中,所述 检测结果包括下列任意之一 :声音激活状态和声音未激活状态 ;叠加模块,用于当所述 检测结果为声音激活状态时,在发送给所述终端的视频信号中叠加所述静音视频指示。
优选的,所述检测模块还用于周期性对所述音频媒体流进行声音激活检测。
优选的,所述获取模块包括 :第一确定子模块,用于若所述音频媒体流的声音 参数高于所述声音激活检测的门限值时,确定所述检测结果为声音激活状态 ;第二确定 子模块,用于若所述音频媒体流的声音参数不高于所述声音激活检测的门限值时,确定 所述检测结果为声音未激活状态。
优选的,所述叠加模块还用于在发送给所述终端的视频信号中叠加文字或图 标,所述文字或图标用于指示所述终端被静音。优选的,所述叠加模块还用于在发送给所述终端的每个视频帧进行叠加所述静 音视频指示的重复处理,直至取消所述静音视频指示。
在本发明实施例中, MCU 对参与视频会议且已被静音的终端发送的音频媒体流 进行声音激活检测,当检测结果为声音激活状态时, MCU 在发送给终端的视频信号中叠 加静音视频指示。 本发明实施例中,当某个终端被静音后,如果该终端的用户尝试发言 时,在接收的视频信号中,就会显示一个静音视频指示消息,例如显示 “你当前被禁止 发言,请先进行申请发言操作”。 本发明实施例的目的是改善视频会议的沟通体验,让 视频会议使用简单高效。 本发明实施例的优点是,提示信息直观,提示信息内容可以丰 富准确,提示信息是动态出现,正常情况下没有提示,确保对用户的干扰最小。 附图说明 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本 发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。 在附图 中:
图 1 是根据相关技术的视频会议通信的基本原理示意图 ;
图 2 是根据本发明实施例的应用于视频会议的静音指示方法的处理流程图 ;
图 3 是根据本发明实施例的支持视频叠加静音提示信息的 MCU 装置及相应处理 流程示意图 ;
图 4 是根据本发明实施例的支持视频叠加静音提示信息的另外一个 MCU 装置及 相应处理流程示意图 ;
图 5 是根据本发明实施例的具体实施例的处理流程图 ;
图 6 是根据本发明实施例的采用视频叠加方式的静音提示的显示效果图 ;
图 7 是根据本发明实施例的采用视频插入方式的静音提示的显示效果图 ;
图 8 是根据本发明实施例的应用于视频会议的静音指示装置的结构示意图 ;
图 9 是根据本发明实施例的获取模块的结构示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
下文中将参考附图并结合实施例来详细说明本发明。 需要说明的是,在不冲突 的情况下,本申请中的实施例及实施例中的特征可以相互组合。
传统的音频会议系统中,一般是通过给被静音的终端播放一种特殊的提示音 的,例如间隔地播放 “嘟” 音。 这种做法的缺点是提示不够直观,而且一定程度上干扰 正常会议声音的收听。
为解决上述技术问题,本发明实施例提供了一种应用于视频会议的静音指示方 法,处理流程如图 2 所示,包括 :
步骤 202、多点会议单元 MCU 对参与视频会议且已被静音的终端发送的音频媒 体流进行声音激活检测 ;
步骤 204、 MCU 获取终端的检测结果,其中,检测结果包括下列任意之一 :声 音激活状态和声音未激活状态 ;步骤 206、当检测结果为声音激活状态时, MCU 在发送给终端的视频信号中叠 加静音视频指示。
在本发明实施例中, MCU 对参与视频会议且已被静音的终端发送的音频媒体流 进行声音激活检测,当检测结果为声音激活状态时, MCU 在发送给终端的视频信号中叠 加静音视频指示。 本发明实施例中,当某个终端被静音后,如果该终端的用户尝试发言 时,在接收的视频信号中,就会显示一个静音视频指示消息,例如显示 “你当前被禁止 发言,请先进行申请发言操作”。 本发明实施例的目的是改善视频会议的沟通体验,让 视频会议使用简单高效。 本发明实施例的优点是,提示信息直观,提示信息内容可以丰 富准确,提示信息是动态出现,正常情况下没有提示,确保对用户的干扰最小。
优选的, MCU 对参与视频会议的终端发送的音频媒体流进行声音激活检测 VAD,包括 :MCU 周期性对音频媒体流进行声音激活检测。 MCU 持续地对音频媒体流 进行声音激活检测,每隔一段时间 T1,输出一次声音激活状态的检测结果。 检测结果为 两个状态,一个是声音激活态,另一个是声音未激活态。 T1 可以作为可调节的 MCU 配 置项。
优选的, MCU 获取终端的检测结果,包括 :若音频媒体流的声音参数高于声音 激活检测的门限值时, MCU 确定检测结果为声音激活状态 ;若音频媒体流的声音参数不 高于声音激活检测的门限值时, MCU 确定检测结果为声音未激活状态。 VAD 检测的门 限值可根据具体情况调节。 实施时,根据步骤 204 的判断结果, MCU 可以选择在发送给终端的视频信号中 叠加 ( 或插入 ) 静音视频指示或取消叠加 ( 或插入 ) 视频静音指示。 MCU 检查终端是否 被静音,如果被静音,则进一步判断当前终端的发送的音频媒体流是否为激活状态,如 果是声音激活状态,则需要向该终端发送静音视频指示,其它条件为停止发送静音视频 指示。 其中,被静音是指在 MCU 内部的声音处理,能够在视频会议中阻止参与视频会议 的其它终端收听到该终端的声音。
优先的,步骤 206 在实施时, MCU 在发送给终端的视频信号中叠加静音视频指 示,包括 :MCU 在发送给终端的视频信号中叠加文字或图标,文字或图标用于指示终端 被静音。 文字或图标的内容、字体、文字大小、颜色、显示位置等属性可以作为可调节 的配置项。
实施时, MCU 在发送给终端的每个视频帧中进行叠加静音视频指示的重复处 理,直至取消静音视频指示。 取消静音视频指示则不对视频帧进行叠加处理。
由上述说明可以获知,插入静音视频指示后, MCU 用静音提示视频流替换正常 的会议视频流。 静音提示视频流包含文字或图标信息,用来指示终端被静音。 取消静音 视频指示则恢复发送正常的会议视频流。
图 3 描述了一个基于本发明实施例的支持视频叠加静音提示信息的 MCU 装置及 相应处理流程。 网络接口模块 301 负责和终端的通信,负责收发声音、视频媒体流。 网 络接口模块 301 将接收的音频流 (1) 送给音频解码模块 302,音频解码模块 302 将压缩的 音频格式解码为原始格式音频码流,然后将原始格式音频码流 (2) 分别送给混音模块 303 和声音激活检测模块 304,混音模块 303 负责将多路终端来的音频流进行混合处理,达 到多方通话的效果,混音模块 303 将混音后的音频码流 (4) 送给音频编码模块 305,音频
编码模块 305 负责对原始音频进行压缩编码,将编码后的音频流 (3) 送给网络接口模块 301。 网络接口模块 301 将接收的视频流 (5) 送给视频解码模块 306。 声音激活检测模块 304 负责对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测,在本实 施例中, T1 取值为 1000ms,声音激活检测模块 304 每隔 1000ms 将语音激活状态 (7) 上 报给主控模块 307。 主控模块 307 负责判断是否需要进行视频静音指示,在终端被静音的 情况下,如果收到声音激活的状态指示,则需要向终端发送静音视频指示,其它情况下 为停止发送静音视频指示。 主控模块 307 将是否发送静音视频指示 (8) 的命令发送给图 形叠加模块 308,视频解码模块 306 将发送给终端的原始格式的视频码流 (6) 发送至图形 叠加模块 308。 图形叠加模块 308 负责将静音提示信息叠加到发送给终端的原始格式的视 频码流中,然后将叠加后的原始格式视频码流 (9) 送给视频编码器 309,视频编码器 309 将原始格式的视频码流压缩编码后,送给网络接口模块 301,由网络接口模块 301 发送给 终端。 用户可以通过设备配置的方式,将音量比较门限、音量大小计算样本数或相应的 时间区间、提示文字内容、文字颜色、字体大小、字体类型、提示文字显示在视频帧中 的位置预先设置到 MCU 设备中。
图 4 描述了另外一个基于本发明实施例的支持视频插入方式的静音提示信息的 MCU 装置和处理流程。 网络接口模块 401 负责和终端的通信,负责收发声音、视频媒 体流。 网络接口模块 401 将接收的音频流 (1) 送给音频解码模块 402,音频解码模块 402 将压缩的音频格式解码为原始格式音频码流,然后将原始格式音频码流 (2) 分别送给混 音模块 403 和声音激活检测模块 404,混音模块 403 负责将多路终端来的音频流进行混合 处理,达到多方通话的效果,混音模块 303 将混音后的音频码流 (4) 送给音频编码模块 405,音频编码模块 405 负责对原始音频进行压缩编码,将编码后的音频流 (3) 送给网络 接口模块 401。 视频混合和交换模块 406 接收终端发送来的视频流 (5),将多个终端的视 频合成为一个多画面视频,或是选择某个终端的视频输入交换给其它终端,视频混合和 交换模块 406 的输出视频流 (6) 送给视频切换模块 407。 声音激活检测模块 404 负责对参 与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测,在本实施例中, T1 取值为 1000ms,声音激活检测模块 404 每隔 1000ms 将语音激活状态 (8) 上报给主控模 块 409。 主控模块 409 负责判断是否需要进行视频静音指示,在终端被静音的情况下,如 果收到声音激活的状态指示,则需要向终端发送静音视频指示,其它情况下为停止发送 静音视频指示。 主控模块 409 将是否发送静音视频指示 (9) 的命令发送给视频切换模块 407。 视频切换模块 407 根据主控模块 409 的命令,选择正常的会议视频流 (6) 或静音提 示视频流 (7) 发送给终端。 视频提示模块 410 用来输出静音提示视频流 (7)。 采用插入 静音视频提示的优点是可节省媒体计算资源。 通常视频叠加操作比较消耗 CPU 资源。
图 5 为本发明实施例的处理流程图,该流程图是基于图 3 的 MCU 实施例来说明 的。
步骤 501、接受终端输入的原始格式的音频流数据,例如接收相当于持续时间为 100ms 的音频数据 ;
步骤 502、利用最新接收的音频流数据进行声音激活检测,依赖于 VAD 算法, 计算可能需要使用保存的历史音频流数据和先前的计算结果 ;VAD 判决门限可由用户配 置,可调节判决灵敏度 ;步骤 503、输出声音激活状态 ;
步骤 501 至步骤 503 的执行主体可以设置为 VAD 模块,步骤 503 执行结束后, 返回到 501 重复执行 ;后续将声音激活状态输出至主控模块,由主控模块执行后续步骤 511 至步骤 515 ;
步骤 511、接收输入并更新声音激活状态 ;
步骤 512、判断是否为声音激活态,如果为声音激活态,执行步骤 513,如果为 非声音激活态,执行步骤 515 ;
步骤 513、判断此终端是否被静音,如果被静音,执行步骤 514,否则执行步骤 515 ;
步骤 514、发送请求叠加提示消息,通知视频叠加模块进行视频叠加,返回到步 骤 511 重复执行 ;
步骤 515、发送取消叠加提示消息,通知视频叠加模块取消视频叠加,返回到步 骤 512 重复执行 ;
后续将请求叠加提示消息或者取消叠加提示消息输出至视频叠加模块,由视频 叠加模块执行后续步骤 521 至步骤 524 ;
步骤 521、视频叠加模块根据主控模块的输入,更新视频叠加状态 ;
步骤 522、视频叠加模块判断是否进行视频叠加,如果是执行步骤 523,否则执 行步骤 524 ;
步骤 523、视频叠加模块将提示信息叠加到发送给终端的视频信号中,提示信息 可以是表达静音的图标或描述性的文字串 ;提示文字的内容、字体、文字大小、颜色、 显示位置等属性可以作为可调节的配置项 ;
步骤 524、视频叠加模块不进行叠加处理。
采用本发明实施例提供的静音指示方法,能够在视频中生成静音提示,例如, 图 6 为采用视频叠加方式的静音提示的一种显示效果,外层矩形方框表示电视屏幕,人 物图标用来表示终端收看的视频信号,底部的文字侧为叠加的静音提示信息,比如,你 当前被禁止发言,请先申请发言。 再例如,图 7 为采用视频插入方式的静音提示的显示 效果,外层矩形方框表示电视屏幕。
基于同一发明构思,本发明实施例还提供了一种应用于视频会议的静音指示装 置,其结构如图 8 所示,设置于多点会议单元 MCU 中,包括 :
检测模块 801,用于对参与视频会议且已被静音的终端发送的音频媒体流进行声 音激活检测 ;
获取模块 802,用于获取终端的检测结果,其中,检测结果包括下列任意之一 : 声音激活状态和声音未激活状态 ;
叠加模块 803,用于当检测结果为声音激活状态时,在发送给终端的视频信号中 叠加所述静音视频指示。
在一个实施例中,检测模块 801 还可以用于周期性对音频媒体流进行声音激活 检测。
在一个实施例中,如图 9 所示,获取模块 802 可以包括 :
第一确定子模块 901,用于若音频媒体流的声音参数高于声音激活检测的门限值时,确定检测结果为声音激活状态 ;
第二确定子模块 902,用于若音频媒体流的声音参数不高于声音激活检测的门限 值时,确定检测结果为声音未激活状态。
在一个实施例中,叠加模块 803 还可以用于在发送给终端的视频信号中叠加文 字或图标,文字或图标用于指示终端被静音。
在一个实施例中,叠加模块 803 还可以用于在发送给终端的每个视频帧进行叠 加静音视频指示的重复处理,直至取消静音视频指示。
从以上的描述中,可以看出,本发明实现了如下技术效果 :
在本发明实施例中, MCU 对参与视频会议且已被静音的终端发送的音频媒体流 进行声音激活检测,当检测结果为声音激活状态时, MCU 在发送给终端的视频信号中叠 加静音视频指示。 本发明实施例中,当某个终端被静音后,如果该终端的用户尝试发言 时,在接收的视频信号中,就会显示一个静音视频指示消息,例如显示 “你当前被禁止 发言,请先进行申请发言操作”。 本发明实施例的目的是改善视频会议的沟通体验,让 视频会议使用简单高效。 本发明实施例的优点是,提升信息直观,提示信息内容可以丰 富准确,提示信息是动态出现,正常情况下没有提示,确保对用户的干扰最小。 显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通 用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所 组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而可以将它 们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或 者将它们中的多个模块或步骤制作成单个集成电路模块来实现。 这样,本发明不限制于 任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的 技术人员来说,本发明可以有各种更改和变化。 凡在本发明的精神和原则之内,所作的 任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。