用于在音频通信中将语音数据与背景数据分离的方法和装置技术领域
本发明通常涉及在通信中抑制声学噪声。特别地,本发明涉及用于在音频通信中
将语音数据与背景数据分离的方法和装置。
背景技术
本节旨在向读者介绍可能与下面描述和/或要求保护的本公开的各方面有关的技
术的各方面。相信该讨论有助于向读者提供背景信息以便于更好地理解本公开的各方面。
因此,应当理解的是,要在该角度阅读这些陈述,而不是作为对现有技术的承认。
音频通信,尤其是无线通信可能在嘈杂环境中(例如在具有高交通量的街道上或
者酒吧里)进行。在这种情况下,由于背景噪声,通信中的一方通常很难听懂语音。因此,音
频通信中的一个重要课题是抑制不期望的背景噪声并且同时保持目标语音,这将有益于提
高语音可懂度。
存在在收听人的通信设备上实现抑制的噪声抑制的远端实现,以及在讲话人的通
信设备上实现的近端实现。可以理解的是,所提及的收听人或讲话人的通信设备可以是智
能电话、平板等。从商业角度来看,远端实现更具吸引力。
现有技术包括为音频通信提供噪声抑制的多个已知的解决方案。
在这方面,已知的解决方案之一称为语音增强。Y.Ephraim和D.Malah撰写的参考
文献“Speech enhancement using a minimum mean square error short-time spectral
amplitude estimator”IEEE声学语音信号处理学报,32,1109-1121,1984(在下文中称为参
考文献1)中讨论了一个示例性方法。然而,这样的语音增强的解决方案具有一些缺点。语音
增强仅抑制由固定噪声(即,具有时间不变频谱特性的嘈杂声音)表示的背景。
另一个已知的解决方案称为在线源分离。L.S.R Simon和E.Vincent于2012年3月
的以色列特拉维夫市的潜变量分析与信号分离国际会议中撰写的参考文献“A general
framework for online audio source separation”(在下文中称为参考文献2)中讨论了
一个示例性方法。在线源分离的解决方案允许处理非固定背景,这通常基于两个源:语音和
背景的高级频谱模型。然而,在线源分离强烈依赖于源模型是否良好表示要分离的实际源
的事实。
因此,仍然存在增强用于将语音数据与音频通信的背景数据分离的音频通信中的
噪声抑制以使语音质量得以提高的需要。
发明内容
本发明公开描述了用于在音频通信中将语音数据与背景数据分离的方法和装置。
根据第一方面,提出一种用于在音频通信中将语音数据与背景数据分离的方法和
装置。该方法包括:将语音模型应用到音频通信,以用于将语音数据与音频通信的背景数据
分离;以及在音频通信期间根据语音数据和背景数据更新语音模型。
在实施例中,将经更新的语音模型应用到音频通信。
在实施例中,根据呼叫者的呼叫频率和呼叫持续时间应用与音频通信的呼叫者相
关联的语音模型。
在实施例中,根据呼叫者的呼叫频率和呼叫持续时间应用不与音频通信的呼叫者
相关联的语音模型。
在实施例中,该方法还包括在音频通信之后存储经更新的语音模型,以在与用户
的下个音频通信中使用。
在实施例中,该方法还包括在音频通信之后根据呼叫者的呼叫频率和呼叫持续时
间将语音模型改变为与音频通信的呼叫者相关联。
根据第二方面,提出一种用于在音频通信中将语音数据与背景数据分离的装置。
该装置包括:应用单元,用于将语音模型应用到音频通信,以用于将语音数据与音频通信的
背景数据分离;以及更新单元,用于在音频通信期间根据语音数据和背景数据更新语音模
型。
在实施例中,应用单元将经更新的语音模型应用到音频通信。
在实施例中,应用单元根据呼叫者的呼叫频率和呼叫持续时间应用与音频通信的
呼叫者相关联的语音模型。
在实施例中,应用单元根据呼叫者的呼叫频率和呼叫持续时间应用不与音频通信
的呼叫者相关联的语音模型。
在实施例中,该装置还包括存储单元,用于在音频通信之后存储经更新的语音模
型,以在与用户的下个音频通信中使用。
在实施例中,该装置还包括改变单元,用于在音频通信之后根据呼叫者的呼叫频
率和呼叫持续时间将语音模型改变为与音频通信的呼叫者相关联。
根据第三方面,提出一种可从通信网络下载和/或记录在计算机可读取的介质上
和/或可由处理器执行的计算机程序产品。该计算机程序产品包括用于实现根据本发明公
开的第二方面的方法的步骤的程序代码指令。
根据第四方面,提出一种非临时性计算机可读介质,包括在其上记录并且能够由
处理器运行的计算机程序产品。该非临时性计算机可读介质包括用于实现根据本发明公开
的第二方面的方法的步骤的程序代码指令。
应当理解的是,将在本发明的以下详细描述中找到本发明的更多方面和优点。
附图说明
包括附图以与用于解释实施例原理的描述一起提供对本发明的实施例的进一步
理解。本发明不限于实施例。
附图中:
图1是示出根据本发明的实施例的用于在音频通信中将语音数据与背景数据分离
的方法的流程图;
图2图示了可以实现本公开的示例性系统;
图3是示出用于在音频通信中将语音数据与背景数据分离的示例性处理的图;以
及
图4是根据本发明的实施例的用于在音频通信中将语音数据与背景数据分离的装
置的框图。
具体实施方式
现在将结合附图详细描述本发明的实施例。在以下描述中,为了简明,可以省略对
已知功能和配置的一些详细描述。
图1是示出根据本发明的实施例的用于在语音通信中将语音数据与背景数据分离
的方法的流程图。
如图1所示,在步骤S101,将语音模型应用到音频通信,以用于将语音数据与语音
通信的背景数据分离。
语音模型可以使用任何已知的音频源分离算法来将语音数据与音频通信的背景
数据分离,诸如A.Ozerov、E.Vincent和F.Bimbot撰写的参考文献“A general flexible
framework for the handling of prior information in audio source separation”
IEEE视频、语音和语言处理学报,第20卷,第4期,第1118-1133页,2012(在下文中称为参考
文献3)中描述的语音模型。在这个意义上,这里的术语“模型”是指本技术领域中的任何算
法/方法/方案/处理。
语音模型还可以是频谱源模型,其可以被理解为描述感兴趣的音频源(这里为语
音或特定讲话者的语音)的特性频谱图案的字典。例如,对于非负矩阵分解(NMF)源频谱模
型,这些频谱图案与非负系数组合以描述特定时间帧处的混合物中的对应源(这里为语
音)。对于高斯混合模型(GMM)源频谱模型,仅选择一个最可能的频谱图案来描述特定时间
帧处的混合物中的对应源(这里为语音)。
可以与音频通信的呼叫者相关联地应用语音模型。例如,根据呼叫者的先前音频
通信,与音频通信的该呼叫者相关联地应用语音模型。在这种情况下,语音模型可以称为
“讲话者模型”。关联可以基于呼叫者的ID,例如,呼叫者的电话号码。
数据库可以被构建为包含与音频通信的呼叫历史中的N个呼叫者相对应的N个语
音模型。
在开始音频通信时,从数据库中选择被分配给呼叫者的讲话者模型并将其应用到
音频通信。可以基于其呼叫频率和总呼叫持续时间从呼叫历史中的所有呼叫者中选择N个
呼叫者。也就是说,较频繁地呼叫以及具有较长的累积呼叫持续时间的呼叫者将具有用于
被包括在利用讲话者模型分配的N个呼叫者的列表中的优先级。可以根据用于音频通信的
通信设备的存储器容量来设置数量N,其例如可以是5、10、50、100等等。
不与音频通信的呼叫者相关联的普通语音模型可以根据用户的呼叫频率或总呼
叫持续时间被分配给不在呼叫历史中的呼叫者。也就是说,新的呼叫者可以被分配普通语
音模型。在呼叫历史中但不经常呼叫的呼叫者也可以被分配普通语音模型。
类似于讲话者模型,普通语音模型可以是任何已知的音频源分离算法,以将语音
数据与音频通信的背景数据分离。例如,其可以是源频谱模型,或者如NMF或GMM的一些普遍
模型的特性频谱图案的字典。普通语音模型与讲话者模型之间的区别在于普通语音模型从
一些语音样本(诸如来自多个不同讲话者的语音样本的数据集)离线学习(或训练)。因此,
在讲话者模型倾向于描述特定呼叫者的语音和发音的同时,普通语音模型倾向于描述通常
的人类语音而不关注于特定讲话者。
可以将多个普通语音模型设置为与不同类别的讲话者相对应,例如,按照男/女
和/或成人/小孩。在这种情况下,检测讲话者类别以确定讲话者的性别和/或平均年龄。根
据检测结果,可以选择合适的普通语音模型。
在步骤S102,在音频通信期间根据语音数据和背景数据更新语音模型。
通常,以上适应可以基于使用已知的频谱源模型适应算法对音频通信的“仅语音
(无噪声)”段和“仅背景”段的检测。下面将参考特定系统给出这方面的更详细的描述。
经更新的语音模型将用于当前音频通信。
该方法还可以包括步骤S103,在音频通信之后,将经更新的语音模型存储在数据
库中,以在与用户的下个音频通信中使用。在语音模型为讲话者模型的情况下,如果数据库
中有足够空间,则经更新的语音模型将被存储在数据库中。如果语音模型是讲话者模型,则
该方法还可以包括例如根据呼叫频率和总呼叫持续时间,将经更新的普通语音模型存储在
数据库中作为语音模型。
根据实施例的方法,在开始音频通信时,例如根据到来呼叫的呼叫者ID,将首先检
查对应的讲话者模型是否已经存储在语音模型数据库中。如果讲话者模型已经在数据库
中,则将使用讲话者模型作为用于该音频通信的语音模型。可以在音频通信期间更新讲话
者模型。这是因为,例如,呼叫者的发音可能由于一些疾病而改变。
如果在语音模型数据库中没有对应的讲话者模型,则将使用普通语音模型作为用
于该音频通信的语音模型。也可以在呼叫期间更新普通语音模型以更好地适应该呼叫者。
对于普通语音模型,可以确定普通语音模型是否可以在呼叫结束时改变为与音频通信的呼
叫者相关联的讲话者模型。例如,例如根据呼叫者的呼叫频率和总呼叫持续时间,如果确定
普通语音模型应被改变为呼叫者的讲话者模型,则将该普通语音模型存储在数据库中作为
与该呼叫者相关联的讲话者模型。可以理解的是,如果数据库具有有限空间,则可以丢弃变
得较不频繁的一个或多个讲话者模型。
图2图示了可以实现本公开的示例性系统。系统可以是涉及两方或更多方之间的
音频通信的任何种类的通信系统,诸如电话系统或移动通信系统。在图2的系统中,描述了
在线源分离的远端实现。然而,可以理解的是,本发明的实施例也可以以诸如近端实现之类
的其他方式来实现。
如图2所示,语音模型数据库包含最多N个讲话者模型。如图2所示,讲话者模型与
相应的呼叫者相关联,诸如马克思的模型、安娜的模型、鲍勃的模型、约翰的模型等。
对于讲话者模型,所有先前呼叫者的总呼叫持续时间根据他们的ID来累积。通过
每个呼叫者的“总呼叫持续时间”,其意味着该呼叫者呼叫了的总时间,即“时间_呼叫_1+时
间_呼叫_2+...+时间_呼叫_K”。因此,在某种意义上,“总呼叫持续时间”反映呼叫者的信息
呼叫频率和呼叫持续时间二者。呼叫持续时间用于识别最频繁的呼叫者以用于分配讲话者
模型。在实施例中,“总呼叫持续时间”可以仅在时间窗口内(例如在过去12个月内)计算。这
将有助于丢弃过去呼叫很多但一段时间不再呼叫的那些呼叫者的讲话者模型。
可以理解的是,其他算法也可以用于识别最频繁的呼叫者。例如,为此目的可以考
虑呼叫频率和/或呼叫时间的组合。将不给出进一步的细节。
如图2所示,数据库还包含不与音频通信的特定呼叫者相关联的普通语音模型。可
以根据一些语音信号数据集对普通语音模型进行训练。
当新的呼叫进入时,通过使用与呼叫者相对应的呼叫者模型或者不依赖于呼叫者
的普通语音模型,从数据库应用语音模型。
如图2所示,当鲍勃正在呼叫时,从数据库中选择呼叫者模型“鲍勃的模型”,并将
其应用到该呼叫,因为该呼叫者模型根据呼叫历史被分配给鲍勃。
在该实施例中,鲍勃的模型可以是背景源模型,其也是源频谱模型。背景源模型可
以是特性频谱图案的字典(例如,NMF或GMM)。因此,背景源模型的结构可以与语音源模型完
全相同。主要区别在于模型参数值,例如,背景模型的特性频谱图案应描述背景,而语音模
型的特性频谱图案应描述语音。
图3是示出在音频通信中将语音数据与背景数据分离的示例性处理的图。
在图3所示的处理中,在呼叫期间,执行以下步骤:
1.启动检测器以用于检测以下三个状态中的当前信号状态:
a.仅语音。
b.仅背景
c.语音+背景。
本领域中已知的检测器可以用于以上目的,例如,Shafran,I.和Rose,R.2003年在
IEEE声学、语音和信号处理国际会议(ICASSP)的会议录第1卷432-435中撰写的参考文献
“Robust speech detection and segmentation for real-time ASR applications”(在
下文中称为参考文献4)中讨论的检测器。与音频事件检测的许多其他方法一样,该方法主
要依赖于以下步骤。将信号切割成时间帧,并且对于每个帧计算一些特征,例如,Mel频率倒
谱系数(MFCC)的向量。分类器,例如基于多个GMM的分类器,每个GMM表示一个事件(这里有
三个事件:“仅语音”、“仅背景”和“语音+背景”),然后被应用到每个特征向量以检测给定的
时间的对应音频事件。该分类器,例如基于GMM的分类器,需要根据一些音频数据进行离线
预训练,其中音频事件标签是已知的(例如,由人标记)。
2.在“仅语音”状态中,例如使用参考文献2中描述的算法,讲话者源模型在线学
习。在线学习意味着模型(这里为讲话者模型)参数需要连续更新,连同可在呼叫进行中获
得的新的信号观察结果。换句话说,该算法只能使用过去的声音样本,并且不应存储太多的
先前声音样本(这是由于设备存储器限制)。根据参考文献2中描述的方法,使用从小固定数
(例如10个)的最近帧提取的统计信息来平稳地更新讲话者模型(根据参考文献2其为NMF模
型)参数。
3.在“仅背景”状态中,例如使用参考文献2中描述的算法,对背景源模型进行在线
学习。与前一项中描述的讲话者模型完全一样地执行该在线背景源模型学习。
4.在“语音+背景”状态中,假设背景源模型是固定的,例如使用Z.Duan、
G.J.Mysore和P.Smaragdis在潜变量分析和源分离国际会议(LVA/ICA)2012年,施普林格中
的“Online PLCA for real-time semi-supervised source separation”(在下文中称为
参考文献5)中描述的算法,使讲话者模型在线适应。该方法类似于在以上的步骤2和3中说
明的方法。它们之间的唯一区别在于该在线适应是根据源的混合物(“语音+背景”)进行的,
而不是纯净源(“仅语音或仅背景”)。为了以上目的,应用与在线学习(项2和3)类似的处理。
区别在于,在这种情况下,对讲话者源模型和背景源模型进行联合解码,并且讲话者模型持
续更新,而背景模型保持固定。
替选地,假设讲话者源模型是固定的,则可以使背景源模型适应。然而,更新讲话
者源模型可能更有利,因为在“通常的嘈杂情况”中,相比无背景段(“仅语音”检测),通常更
可能具有无语音段(“仅背景”检测)。换句话说,可以对背景源模型进行足够良好训练(关于
无语音段)。因此,关于“语音+背景”段,使讲话者源模型适应可能更有利。
5.最后,将源分离持续应用到估计纯净语音(参见图3)。该源分离处理基于维纳滤
波器,其为具有从两个模型(讲话者源模型和背景源模型)和嘈杂语音中估计的参数的自适
应滤波器。参考文献2和5在这方面给出了更多细节。将不提供进一步信息。
在呼叫结束时,执行以下步骤:
1.更新该用户的总呼叫持续时间。如果持续时间已被存储,则可以通过增加该持
续时间来简单地完成,或者如果该用户第一次呼叫,则通过当前呼叫持续时间对其进行初
始化来简单地完成。
2.如果讲话者的语音模型已经在模型数据库中,则在数据库中对其进行更新。
3.否则,如果语音模型不在数据库中,则仅在数据库由少于N个讲话者模型组成的
情况下或者在该讲话者在前N个呼叫持续时间中的情况下等等(在任何情况下,从数据库中
移除较不频繁的讲话者的模型,使得其中总有最多N个模型),将讲话者模型添加到数据库。
要注意的是,本发明依赖于同一人使用同一电话号码的假设,这通常是移动电话
的情况。对于家庭固定电话,其可能不太正确,因为例如所有家庭成员都可能使用这样的电
话。然而,在家庭电话的情况下,背景抑制并不那么重要。事实上,通常可能简单地关闭音乐
或者请其他人安静地讲话。换句话说,在大多数情况下,当背景抑制为必要时,该假设成立,
而如果不是必要的(实际上,一个人可以借用一些其他人的移动电话来讲话),则所提出的
系统不会因为连续的讲话者模型重新适应新条件而失败。
本发明的实施例提供一种用于在音频通信中将语音数据与背景数据分离的装置。
图4是根据本发明的实施例的用于在音频通信中将语音数据与背景数据分离的装置的框
图。
如图4所示,用于在音频通信中将语音数据与背景数据中分离的装置400包括应用
单元401,用于将语音模型应用到音频通信,以用于将语音数据与音频通信的背景数据分
离;以及更新单元402,用于在音频通信期间根据语音数据和背景数据更新语音模型。
装置400还可以包括存储单元403,用于在音频通信之后存储经更新的语音模型,
以在与用户的下个音频通信中使用。
装置400还可以包括改变单元404,用于在音频通信之后,根据呼叫者的呼叫频率
和呼叫持续时间,将语音模型改变为与音频通信的呼叫者相关联。
本发明的实施例提供一种可从通信网络下载和/或记录在计算机可读取的介质上
和/或可由处理器执行的计算机程序产品,包括用于实现上述方法的步骤的程序代码指令。
本发明的实施例提供一种非临时性计算机可读介质,包括在其上记录并且能够由
处理器运行的计算机程序产品,包括用于实现上述方法的步骤的程序代码指令。
应当理解的是,本发明可以以各种形式的硬件、软件、固件、专用处理器或其组合
来实现。此外,软件优选地实现为有形地体现在程序存储设备上的应用程序。应用程序可以
被上传到包括任何合适架构的机器并由其执行。优选地,机器在具有诸如一个或多个中央
处理单元(CPU)、随机存取存储器(RAM)和输入/输出(I/O)接口的硬件的计算机平台上实
现。计算机平台还包括操作系统和微指令代码。在此描述的各种过程和功能可以是微指令
代码的一部分或者是经由操作系统执行的应用程序的一部分(或其组合)。此外,诸如附加
数据存储设备和打印设备之类的各种其他外围设备可以连接到计算机平台。
还应当理解的是,由于附图中描绘的一些组成系统组件和方法步骤优选以软件实
现,所以系统组件(或处理步骤)之间的实际连接可以根据对本发明进行编程的方式而不
同。鉴于在此的教导,相关领域的普通技术人员将能够想到本发明的这些和类似的实现方
式或配置。