个人助理应用访问方法及系统 【技术领域】
本发明涉及应用访问技术领域, 特别涉及一种个人助理应用访问方法及系统。背景技术 计算机技术的普及发展促成了智能手机时代的到来, 智能手机除具备传统手机的 通话功能外, 还实现了计算机的多数功能, 如个人信息管理、 网络交互 ( 如电子邮件、 即时 通讯 ) 以及其他各类增值服务 ( 如股票交易、 新闻检索、 电子购物 ) 等。融合 3C(Computer、 Communication、 Consumer) 的智能手机成为人们日常生活中不可或缺的助手, 担当着越来 越重要的职责。 传统多级菜单设置下通过逐级选定实现交互的模式已经不适应功能日益复 杂的智能手机应用, 用户迫切需要一种更自然的交互模式, 以便高效快捷地实现应用程序 的准确定位。
发明内容
本发明实施例针对上述现有技术存在的问题, 提供一种个人助理应用访问方法及 系统, 以提高人机交互效率。
本发明实施例提供如下技术方案 :
一种个人助理应用访问方法, 包括 :
接收用户输入的语音信号 ;
识别所述语音信号中的命令内容及参数 ;
根据所述命令内容确定需要访问的应用, 并根据所述参数对所述应用进行操作。
优选地, 所述方法还包括 :
在根据所述参数对所述应用进行操作之前, 根据所述语音信号对所述用户进行身 份认证, 以确定所述用户是否为合法用户 ;
向所述应用的应用服务提供第三方发送身份认证结果, 或者如果所述用户为合法 用户, 则根据所述参数对所述应用进行操作。
优选地, 所述方法还包括 :
在根据所述语音信号对所述用户进行身份认证之前, 检查所述应用是否为需要通 过身份认证保护的应用 ;
如果是, 则执行所述根据所述语音信号对所述用户进行身份认证的步骤。
优选地, 所述方法还包括 :
如果所述应用为需要通过身份认证保护的应用, 则对所述应用的直接调用方式进 行修正。
优选地, 所述方法还包括 :
如果所述应用为需要通过身份认证保护的应用, 则在对用户进行身份认证之前, 检查所述应用的保护级别, 并获取与所述保护级别对应的认证阈值 ;
所述对所述用户进行身份认证包括 : 根据所述认证阈值对所述用户进行身份认证。 优选地, 所述对用户进行身份认证, 以确定所述用户是否为合法用户包括 :
从所述语音信号中对应所述命令内容的语音段提取声纹特征序列 ;
将所述声纹特征序列与背景模型进行匹配, 得到第一相似度 ;
将所述声纹特征序列与注册用户的声纹模型进行匹配, 得到第二相似度 ;
根据得到的第一相似度和第二相似度计算似然比 ;
如果所述似然比大于所述认证阈值, 则确定所述用户是合法用户。
优选地, 所述方法还包括 :
如果所述用户是合法用户, 则根据所述声纹特征序列对所述声纹模型进行更新。
可选地, 所述注册用户的声纹模型为 : 与所述命令内容相关的用户声纹模型 ; 或 者文本无关的用户声纹模型。
优选地, 所述识别所述语音信号中的命令内容及参数包括 :
从所述语音信号中提取声学特征序列 ;
对所述声学特征序列进行连续语音解码, 得到最优字串序列 ;
对所述最优字串序列进行文本语义分析, 得到命令内容及参数。
一种个人助理应用访问系统, 包括 :
接收单元, 用于接收用户输入的语音信号 ;
语音识别单元, 用于识别所述语音信号中的命令内容及参数 ;
应用确定单元, 用于根据所述命令内容确定需要访问的应用 ;
命令执行单元, 用于根据所述参数对所述应用进行操作。
优选地, 所述系统还包括 :
认证单元, 用于在所述命令执行单元根据所述参数对所述应用进行操作之前, 根 据所述接收单元接收的语音信号对所述用户进行身份认证, 以确定所述用户是否为合法用 户;
认证结果发送单元, 用于向所述应用的应用服务提供第三方发送身份认证结果 ; 或者
所述命令执行单元具体用于在所述认证单元确定所述用户为合法用户后, 根据所 述参数对所述应用进行操作。
优选地, 所述系统还包括 :
检查单元, 用于在所述认证单元根据所述语音信号对所述用户进行身份认证之 前, 检查所述应用是否为需要通过身份认证保护的应用, 如果是, 则通知所述认证单元执行 所述根据所述语音信号对所述用户进行身份认证的操作。
优选地, 所述系统还包括 :
修正单元, 用于在所述检查单元检查到所述应用为需要通过身份认证保护的应用 时, 对所述应用的直接调用方式进行修正。
优选地, 所述检查单元, 还用于在所述应用为需要通过身份认证保护的应用时, 在 所述认证单元对用户进行身份认证之前, 检查所述应用的保护级别, 并获取与所述保护级 别对应的认证阈值 ;
相应地, 所述认证单元具体用于根据所述检查单元获取的认证阈值对所述用户进
行身份认证。
优选地, 所述认证单元包括 :
声纹特征提取子单元, 用于从所述语音信号中对应所述命令内容的语音段提取声 纹特征序列 ;
第一匹配子单元, 用于将所述声纹特征序列与背景模型进行匹配, 得到第一相似 度;
第二匹配子单元, 用于将所述声纹特征序列与注册用户的声纹模型进行匹配, 得 到第二相似度 ;
计算子单元, 用于根据得到的第一相似度和第二相似度计算似然比 ;
确定子单元, 用于在所述似然比大于所述认证阈值时, 确定所述用户是合法用户。
优选地, 所述系统还包括 :
模型更新单元, 用于在所述确定子单元确定所述用户是合法用户后, 根据所述声 纹特征提取子单元提取的声纹特征序列对所述声纹模型进行更新。
优选地, 所述语音识别单元包括 :
声学特征提取子单元, 用于从所述语音信号中提取声学特征序列 ;
语音解码子单元, 用于对所述声学特征序列进行连续语音解码, 得到最优字串序 列;
语义分析子单元, 用于对所述最优字串序列进行文本语义分析, 得到命令内容及 参数。
本发明实施例个人助理应用访问方法及系统, 通过语音识别等技术识别用户输入 的语音信号中的命令内容及参数, 根据所述命令内容确定需要访问的应用, 并根据所述参 数对所述应用进行操作, 也就是说, 将用户自然的语音信号转化为可执行的应用程序指令, 实现复杂应用程序的高效快捷的命令定向, 提高人机交互效率, 从而更好地实现智能设备 的私人虚拟助理职能。
进一步地, 通过声纹认证等技术在后台验证用户身份的有效性, 还可实现对个人 助理上应用的有效保护。
进一步地, 还可以根据用户的实际需要, 通过弹性身份认证方式, 实现对不同应用 的不同级别保护。 附图说明
为了更清楚地说明本发明实施的技术方案, 下面将对实施例中所需要使用的附图 作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本发明的一些实施例, 对于本领域普 通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
图 1 是本发明实施例个人助理应用访问方法的流程图 ;
图 2 是本发明实施例个人助理应用访问方法的另一流程图 ;
图 3 是本发明实施例中对用户进行身份认证的流程图 ;
图 4 是本发明实施例个人助理应用访问方法的另一流程图 ;
图 5 是本发明实施例个人助理应用访问系统的一种结构示意图 ;
图 6 是本发明实施例个人助理应用访问系统的另一种结构示意图 ;图 7 是本发明实施例个人助理应用访问系统的另一种结构示意图。具体实施方式
下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。基于 本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例, 都属于本发明保护的范围。
由于随着智能手机的普及和移动通讯技术的发展, 移动设备的功能日益增强, 更 多地承担起私人助理的角色, 用户在其上可实现众多个性化操作。而语音交互作为最自然 的交互方式之一, 可以在智能手机上可以发挥重要的作用。 为此, 本发明实施例个人助理应 用访问方法及系统, 通过语音识别等技术将用户自然的语音命令转化为可执行的应用程序 指令, 实现复杂应用程序的高效快捷的命令定向, 从而更好地实现智能设备的私人虚拟助 理职能。
如图 1 所示, 是本发明实施例个人助理应用访问方法的流程图, 包括以下步骤 :
步骤 101, 接收用户输入的语音信号。 本发明实施例个人助理应用访问方法, 支持用户以随意说的方式指示应用操作, 也就是说, 用户输入的语音信号可以是 “打电话给 XXX|” , “给 XXX 发邮件” , “去淘宝” 等自然 说的口令。该语音命令是连续的语音信号。在本发明实施例中, 可以将用户输入的语音信 号采样为一系列离散能量值存入数据缓存区。
步骤 102, 识别所述语音信号中的命令内容及参数。
从步骤 101 采集的语音能量值中提取出具有高表征力的声学特征, 具体地, 可以 选用语音识别领域常用特征, 比如 MFCC(Mel Frequency Cepstrum Coefficient, Mel 频 率倒谱系数 ) 特征, 按照时序顺序依次对窗长 25ms 帧移 10ms 的短帧语音做频谱变换得到 M( 比如 M = 39) 维 MFCC 参数, 将原始的易受噪音干扰的语音能量信号转换为具有更高鲁棒 性的特征。
经过声学特征提取, 连续语音能量信号可以表征为一系列的特征矢量 O = (O1, O2, ..., OT), 其中 T 为语音总帧数, 这些特征矢量组成了一个声学特征序列。
当然, 为了进一步提高系统的鲁棒性, 在上述过程中, 还可以先对接收的用户输入 的语音信号做前端降噪处理, 以减少信道噪声及背景噪声的干扰, 提高语音信噪比, 进而提 高后续系统对该信号的处理能力。
在提取出声学特征序列后, 通过连续语音解码确定最优字串序列。具体地可采用 传统经典算法实现, 比如 Token Passing 算法等。
然后, 对上述最优字串序列进行文本语义分析, 得到命令内容及相应参数。
在本发明实施例中, 可以采用基于文法规则匹配的算法从输入的连续语句中分别 提取命令内容及对应参数。具体可以包括以下步骤 :
1. 系统预置应用程序调用规则, 该规则由系统预先从海量文本数据中归纳总结得 到。如 “短消息” 发送指令规则中包括确定的指令内容及可替换的命令参数等, 比如 :
a).[ 发送 | 发 | 发给 ][ 个 | 一个 ][$message][ 给 ]{$host : 联系人 } ;
b).[ 给 ]{$host : 联系人 }[ 发送 | 发 | 发给 ][ 个 | 一个 ][$message] ;
c).[ 告诉 | 通知 | 知会 ]{$host : 联系人 }。
在实际应用中, 可以将所有规则统一放入一个规则库中。
2. 对给定的连续输入的语句命令, 对其遍历规则库中的规则进行匹配, 获取匹配 度最高的规则作为优选结果。
3. 根据选定的规则形式, 确定命令内容并从连续语句相应位置提取命令参数。
需要说明的是, 本发明实施例并不仅限于上述语音识别过程来识别所述语音信号 的命令内容及参数, 还可以采用其它语音识别的方式, 对此不再一一举例。
步骤 103, 根据所述命令内容确定需要访问的应用, 并根据所述参数对所述应用进 行操作。
本发明实施例个人助理应用访问方法, 支持用户以随意说的方式指示应用操作。
比如, 用户输入的语音信号为 “打电话给张三” , 通过上述步骤 102, 可以识别该语 音信号的命令内容为 “打电话” , 相应的参数为 “张三” ; 则根据该命令内容启动个人助理上 的通话应用, 如果通讯录中有 “张三” 的号码, 还可以自动拨打该号码 ; 如果没有相应的号 码, 则可以只进入拨号的应用, 并向用户展现相应的界面。
再比如, 用户输入的语音信号为 “去淘宝” , 通过上述步骤 102, 可以识别该语音信 号的命令内容为 “去” , 相应的参数为 “淘宝” ; 则在个人设备上搜索 “淘宝” 客户端并通过客 户端登陆访问。 再比如, 用户输入的语音信号为 “查询合肥天气” , 通过上述步骤 102, 可以识别该 语音信号的命令内容为 “查询” , 相应的参数为 “合肥天气” , 则根据该命令内容启动个人助 理上的无线上网功能, 并在调用的浏览器内填入参数执行搜索功能。
另外, 还可以允许用户自定义设置应用程序语音命令调用的关键字词等。
可见, 本发明实施例个人助理应用访问方法, 通过语音识别等技术识别用户输入 的语音信号中的命令内容及参数, 根据所述命令内容确定需要访问的应用, 并根据所述参 数对所述应用进行操作, 从而实现复杂应用程序的高效快捷的命令定向, 更好地实现智能 设备的私人虚拟助理职能。
需要说明的是, 上述个人助理可以是智能手机或其它类似设备。
由于功能强大的个人助理应用大大便利了用户的日常生活, 促使人们越来越习惯 于在个人助理上处理各种可能涉及用户个人信息的应用操作, 如电子购物, 股票交易等, 因 此相应的用户数据安全在信息发展的当今显得更为重要。为此, 本发明实施例个人助理应 用访问方法, 还可进一步通过声纹认证等技术在后台验证用户身份的有效性, 实现对个人 助理上应用的有效保护, 进而保证用户信息的安全性。
如图 2 所示, 是本发明实施例个人助理应用访问方法的另一流程图, 包括以下步 骤:
步骤 201, 接收用户输入的语音信号。
步骤 202, 识别所述语音信号中的命令内容及参数。
步骤 203, 根据所述命令内容确定需要访问的应用。
步骤 204, 根据所述语音信号对所述用户进行身份认证, 以确定所述用户是否为合 法用户。
步骤 205, 根据身份认证结果执行相应语音命令。
具体地, 可以向应用服务提供第三方提供身份认证结果, 比如与应用服务提供第 三方签有相应协议, 将身份认证结果发送给应用服务提供第三方, 应用服务提供第三方就 无需再对该用户进行身份认证。或者, 对本地端应用, 在确认所述用户为合法用户后, 根据 所述参数对所述应用进行操作。
需要说明的是, 上述步骤 204 中对所述用户进行身份认证的过程可以在系统后台 进行, 而且, 上述步骤 204 也可以在步骤 203 之前进行。
另外, 如果身份认证结果是所述用户不是合法用户, 则可以向用户返回并显示用 户身份不合法的提示信息, 或者对用户指令提供受限的访问权限。
在本发明实施例中, 可以采用传统的声纹识别技术, 对用户进行身份认证。比如, 可以采用 GMM-UBM(Gaussian Mixture Model-Universal Background Model, 基于高斯混合 模型以及通用背景模型 ) 算法, 通过分别计算用户输入的语音信号中的命令内容所对应的 语音段的声纹特征序列和用户声纹模型的匹配得分、 以及该声纹行征序列和背景模型的匹 配得分的比值, 确定该比值与设定的认证阈值的大小关系, 确定所述用户是否为合法用户。
另外, 需要说明的是, 为了方便用户的使用, 有选择性地保护某些应用的安全性, 可以允许用户通过自定义方式设置需要通过身份认证保护的应用。 相应地, 在上述步骤 203 和步骤 204 之间, 还需要检查所述应用是否为需要通过身 份认证保护的应用。如果是, 再执行步骤 204 ; 否则, 可以直接根据所述参数对所述应用进 行操作。
另外, 为了方便用户的使用, 个人设备上的应用可能不仅会提供语音调用方式, 而 且还提供非语音调用方式, 比如, 通过键盘输入命令调用相应应用。针对这种情况, 为了防 止非法用户避开语音方式调用受保护的应用, 在本发明实施例中, 还可进一步对设置了需 要通过身份认证保护的应用的直接调用方式进行修正, 比如在对该应用非语音调用时要求 进行密码验证, 或者提供受限功能等, 从而可以确保对该应用程序的有效保护。
下面详细说明本发明实施例中对用户进行身份认证的过程。
如图 3 所示, 是本发明实施例中对用户进行身份认证的流程图, 包括以下步骤 :
步骤 301, 从所述语音信号中对应所述命令内容的语音段提取声纹特征序列。
考虑到用户输入的语音信号中不仅包含有语音命令, 还包含有随机变化的命令参 数及用于连接的辅助词等信息, 因此, 可以首先从该语音信号中提取出相对固定的语音命 令信息, 比如前面所述的命令内容, 并据此通过文本相关的声纹认证技术提高用户身份认 证的准确度。
为此, 在本发明实施例中, 可以采用语音信号处理领域传统的关键词提取方法, 如 基于 Filler 模型的非关键词信号吸收或者关键词匹配等技术处理, 从所述语音信号中提 取出所述命令内容。 然后, 确定用户输入的语音信号中与该命令内容对应的语音段, 从该语 音段中提取声纹特征序列。
另外, 还可以基于前面语音识别的结果, 得到所述命令内容。然后, 确定用户输入 的语音信号中与该命令内容对应的语音段, 从该语音段中提取声纹特征序列。
上述声纹特征序列包含一组声纹特征。该声纹特征主要有 : 谱包络参数语音特 征, 基音轮廓、 共振峰频率带宽特征, 线性预测系数, 倒谱系数等。 考虑到上述声纹特征的可 量化性、 训练样本的数量和系统性能的评价等问题, 可以选用 MFCC 特征, 对窗长 25ms 帧移
10ms 的每帧语音数据做短时分析得到 MFCC 参数及其一阶二阶差分, 共计 39 维。 这样, 每句 语音信号可以量化为一个 39 维声纹特征矢量序列 X。
步骤 302, 将所述声纹特征序列与背景模型进行匹配, 得到第一相似度。
所述背景模型用于描述说话人声纹的共性, 可以采用基于多说话人数据训练具有 1024 甚至更多高斯数的复杂混合高斯模型, 以更好地兼容各说话人的特异性。
具体地, 帧数为 T 的声纹特征矢量序列 X 相应于背景模型 (UBM) 的似然度为 :
其中, cm 是第 m 个高斯的加权系数, 满足μm 以及∑ m 分别是第 m 个高斯的均值和方差。其中 N(.) 满足正态分布, 用于计算 t 时刻的声纹特征矢量 Xt 在单高斯分 量上的似然度 :
步骤 303, 将所述声纹特征序列与注册用户的声纹模型进行匹配, 得到第二相似度。 所述注册用户声纹模型可以直接选择文本无关的模型, 还可以细化选择语音命令 内容相关的模型。
在该步骤中, 可以首先根据上述命令内容获取注册用户相应的声纹模型, 如果系 统预置了该声纹模型则根据上述公式 (2) 的方式计算所述声纹特征序列与注册用户的文 本相关声纹模型的似然度 p(X|U)。 否则选择计算所述声纹特征序列与注册用户的文本无关 通用声纹模型的似然度 p(X|U)
该说话人声纹模型可以是根据用户注册时录入的语音在线训练得到的混合高斯 模型。
考虑到注册用语音样本往往有限, 因此可以以上述背景模型为初始模型, 通过各 种自适应方法根据说话人的少量语音样本调整模型部分参数, 比如基于 MAP(Maximum A Posterior, 最大后验概率 ) 的自适应算法等, 将用户声纹共性自适应为当前说话人个性, 具体过程如下 :
(1) 从用户录入的注册语音信号中提取声纹特征。 (2) 利用所述声纹特征自适应更新背景模型混合高斯的均值 μm。 具体地, 新高斯均值 计算为样本统计量和原始高斯均值的加权平均, 即:
其中, xt 表示第 t 帧声纹特征, γm(xt) 表示第 t 帧声纹特征落于第 m 个高斯的概 的更新力度。一般来率, τ 是遗忘因子, 用于平衡历史均值以及语音样本对新高斯均值说, τ 值越大, 则新高斯均值主要受原始均值制约 ; 若 τ 值较小, 则新高斯均值主要由样本统计量决定, 更多的体现了新样本分布的特点。
(3) 复制背景模型方差作为所述注册用户的声纹模型方差。
(4) 生成所述注册用户的声纹模型。
上述模型训练中可以采用系统预置的背景模型作为初始模型。
步骤 304, 根据得到的第一相似度和第二相似度计算似然比。
似然比为 :其中, p(X|U) 为所述声纹特征与注册用户的声纹模型的似然度, p(X|UBM) 为所述 声纹特征与背景模型的似然度。
步骤 305, 如果所述似然比大于设定的认证阈值, 则确定所述用户是合法用户。
上述认证阈值可以是系统针对所有应用预设的一个值, 当然也可以由用户来设 定, 对不同的应用, 该认证阈值可以相同, 也可以不同, 以便对不同的应用起到不同的保护 等级, 具体将在后面详细描述。 当然, 本发明实施例个人助理应用访问方法中, 还可以采用其它方式对用户进行 身份认证, 对此本发明实施例不做限定。
可见, 本发明实施例个人助理应用访问方法, 不仅可以实现复杂应用程序的高效 快捷的命令定向, 而且, 还可以通过声纹认证等技术在后台验证用户身份的有效性, 实现对 个人助理上应用的有效保护, 进而保证用户信息的安全性。
在实际应用中, 不同应用的安全性要求可能是不同的, 因此, 为了更好地满足用户 对不同应用的不同级别保护, 还可以采用弹性身份认证方式, 根据用户主动设置的应用保 护级别采用不同的身份认证标准。比如 :
1. 对一些通用程序或者没有设置保护级别的应用程序, 不进行身份认证即直接响 应, 以提高系统处理效率。
2. 对某些涉及到用户信息但保密性要求不高的应用, 即设置为一般保护的应用程 序采用较为宽松的身份认证准则, 以保证有效用户以较高的通过率确认。
3. 对某些涉及到用户信息高度机密的应用, 即设置为重要保护的应用程序采用严 格的身份认证, 以确保可以拒绝绝大多数仿冒者的非法请求。
当然, 本发明实施例个人助理应用访问方法并不仅限于上述弹性身份认证方式, 具体可根据实际需要来设置, 比如, 只设两种保护级别, 即需要认证和不需要认证, 相应地, 对用户访问相应的应用时, 则同样对应两种情况 : 即需要认证和不需要认证。当然, 对需要 保护的不同应用, 也可以设定多个不同的保护级别。
由前面图 3 所示对用户进行身份认证的流程可以看出, 身份认证的松紧度主要取 决于设定的认证阈值的大小。为此, 可以针对不同的保护级别, 设定不同的认证阈值。一 般来说, 保护级别越高, 对应的认证阈值越大, 要求用户在访问相应的应用时尽可能按照注 册时录入的语音信号 ( 即密码 ) 的发音输入语音信号, 以确保拒绝大多数仿冒者的非法请 求; 而对于某些涉及到用户信息但保密要求不高的应用, 可以设置较低的保护级别, 对应于 较小的认证阈值, 允许用户在访问相应的应用时输入的语音信号的发音与注册时录入的语
音信号的发音存在一定的变化, 以保证有效用户较高的认证通过率。
如图 4 所示, 是本发明实施例个人助理应用访问方法的另一流程图, 包括以下步 骤:
步骤 401, 接收用户输入的语音信号。
步骤 402, 识别所述语音信号中的命令内容及参数。
步骤 403, 根据所述命令内容确定需要访问的应用。
步骤 404, 检查所述应用的保护级别, 并获取与所述保护级别对应的认证阈值。
所述应用的保护级别可以由用户自己设定, 由系统根据保护级别要求自动设置对 应参数。另外还可以由用户主动设置系统参数以满足个性化需求。为了方便用户的使用, 实现对应用程序有效保护的用户个性化定制, 可以设置一应用程序保护库, 用于记录需要 保护的应用程序及保护级别。在该应用程序保护库中, 可以建立应用程序与命令内容之间 的对应关系, 提供应用程序的保护级别, 建立各种命令内容相关的用户声纹模型等。
上述应用程序保护库的访问可以仅对有权限的用户开放, 提供添加、 删除、 更改等 操作。 比如, 在该应用程序保护库中用户可自由添加各类应用程序, 并自定义其对应的命令 内容, 如 “电话” , “短信” , “邮件” , “股票” 等等。为了提供交互的便利性, 还可以允许同一应 用程序对应多个命令内容, 比 “短消息” 和 “短信” 可以对应同一应用程序。另外, 还可以根 据大众使用习惯, 提供默认参数值供用户选择。 步骤 405, 根据所述认证阈值对所述用户进行身份认证, 以确定所述用户是否为合 法用户。
具体身份认证过程可参照前面图 3 所示流程, 在此不再赘述。
步骤 406, 根据身份认证结果执行相应语音命令。
具体地, 可以向应用服务提供第三方提供身份认证结果或者对本地端应用在所述 用户为合法用户时根据所述参数对所述应用进行操作。
可见, 本发明实施例个人助理应用访问方法, 不仅可以实现复杂应用程序的高效 快捷的命令定向, 而且, 还可以根据用户的实际需要, 通过弹性身份认证方式, 实现对不同 应用的不同级别保护, 进而保证用户信息的安全性。
由前面图 3 所示对用户进行身份认证的流程可以看出, 身份认证的效果主要取决 于背景模型和注册用户的声纹模型的精确度。因此, 在本发明个人助理应用访问方法的其 它实施例中, 还可以包括以下步骤 : 如果所述用户是合法用户, 则根据对用户进行身份认证 时, 从所述语音信号中对应所述命令内容的语音段提取声纹特征序列对所述用户的声纹模 型进行更新。
上述声纹模型更新的过程可以在对所述应用进行操作完成后进行, 也可以通过后 台同步进行。
同样地, 对注册用户声纹模型的更新可以采用自适应方法调整模型部分参数, 如 基于 MAP(Maximum A Posterior, 最大后验概率 ) 的自适应算法等。 若系统不存在文本相关 的注册用户声纹模型, 则设置文本无关的用户声纹模型为初始化模型, 否则设置原文本相 关用户声纹模型为初始化模型, 并利用采集到的语音数据更新模型参数, 具体过程如下 :
(1) 从用户录入的注册语音信号中提取声纹特征。
(2) 利用所述声纹特征自适应更新背景模型混合高斯的均值 μm。
具体地, 新高斯均值计算为样本统计量和原始高斯均值的加权平均, 即:
其中, xt 表示第 t 帧声纹特征, γm(xt) 表示第 t 帧声纹特征落于第 m 个高斯的概 的更新力度。一般来 主要率, τ 是遗忘因子, 用于平衡历史均值以及语音样本对新高斯均值 说, τ 值越大, 则新高斯均值主要受原始均值制约 ; 若 τ 值较小, 则新高斯均值由样本统计量决定, 更多的体现了新样本分布的特点。
(3) 保持原注册用户的声纹模型方差不变。
相应地, 本发明实施例还提供一种个人助理应用访问系统, 如图 5 所示, 是该系统 的一种结构示意图。
在该实施例中, 所述系统包括 : 接收单元 501, 语音识别单元 502, 应用确定单元 503 和命令执行单元 504。其中 : 接收单元 501, 用于接收用户输入的语音信号 ;
语音识别单元 502, 用于识别所述语音信号中的命令内容及参数 ;
应用确定单元 503, 用于根据所述命令内容确定需要访问的应用 ;
命令执行单元 504, 用于根据所述参数对所述应用进行操作
在该实施例中, 所述用户输入的语音信号可以是 “打电话给 XXX” , “给 XXX 发邮 件” , “去淘宝” 等自然说的口令。
在本发明实施例中, 语音接收单元 501 将用户输入的语音信号采样为一系列离散 能量值存入数据缓存区。然后语音识别单元 502 从这些能量值中提取出具有高表征力的 声学特征, 经过声学特征提取, 连续语音能量信号可以表征为一系列的特征矢量 O = (O1, O2, ..., OT), 其中 T 为语音总帧数, 这些特征矢量组成了一个声学特征序列。当然, 为了进 一步提高系统的鲁棒性, 在上述过程中, 还可以先对接收的用户输入的语音信号做前端降 噪处理, 以减少信道噪声及背景噪声的干扰, 提高语音信噪比, 进而提高后续系统对该信号 的处理能力。
语音识别单元 502 在提取出上述声学特征序列后, 通过连续语音解码确定最优字 串序列。然后, 对所述最优字串序列进行文本语义分析, 即可得到命令内容及相应参数。
所述语音识别单元 502 的一种具体结构可以包括以下各子单元 :
声学特征提取子单元, 用于从所述语音信号中提取声学特征序列 ;
语音解码子单元, 用于对所述声学特征序列进行连续语音解码, 得到最优字串序 列;
语义分析子单元, 用于对所述最优字串序列进行文本语义分析, 得到命令内容及 参数。
需要说明的是, 语音识别单元 502 并不仅限于上述语音识别过程及结构来识别所 述语音信号的命令内容及参数, 还可以采用其它语音识别的方式, 对此不再一一举例。
在具体应用中, 可以在所述系统中预先建立命令内容与应用的对应关系, 一个应
用可以对应多个命令内容, 比如, “登录” 、 “上” “去” 等命令内容可以对应同一个登录网站的 应用或客户端, 而具体登录哪个网站或调用哪个客户端则由识别出的参数来决定, 比如 “淘 宝” 、 “百度” 等。这样, 应用确定单元 503 可以根据上述对应关系查找到所述命令内容对应 的应用。然后, 命令执行单元 504 根据语音识别单元 502 识别出的参数对所述应用进行操 作。
本发明实施例个人助理应用访问系统, 通过语音识别等技术识别用户输入的语音 信号中的命令内容及参数, 根据所述命令内容确定需要访问的应用, 并根据所述参数对所 述应用进行操作, 从而实现复杂应用程序的高效快捷的命令定向, 更好地实现智能设备的 私人虚拟助理职能。
需要说明的是, 该系统可以通过硬件及辅助软件的方式实现, 可以应用于智能手 机或其它类似个人助理设备中。
如图 6 所示, 是本发明实施例个人助理应用访问系统的另一种结构示意图。
与图 5 所示实施例不同的是, 在该实施例中, 所述系统还进一步包括 : 认证单元 601, 用于在所述命令执行单元 504 根据所述参数对所述应用进行操作之前, 根据接收单元 501 接收的语音信号对所述用户进行身份认证, 以确定所述用户是否为合法用户。
相应地, 在该实施例中, 命令执行单元 504 需要在认证单元 601 确定所述用户为合 法用户后, 根据所述参数对所述应用进行操作, 包括向应用程序服务提供第三方发送身份 认证结果, 或者是调用执行本地应用程序等。
在本发明系统另一实施例中, 所述系统还可进一步包括 : 认证结果发送单元 ( 未 图示 ), 用于向所述应用的应用服务提供第三方发送身份认证结果。
上述认证单元 601 对所述用户进行身份认证的过程可以在系统后台进行。具体 地, 上述认证单元 601 可以采用传统的文本相关声纹识别技术, 对用户进行身份认证。比 如, 可以采用 GMM-UBM 算法, 通过分别计算用户输入的语音信号中的命令内容所对应的语 音段的声纹特征序列和用户声纹模型的匹配得分、 以及该声纹行征序列和背景模型的匹配 得分的比值, 确定该比值与设定的认证阈值的大小关系, 确定所述用户是否为合法用户。
在认证单元 601 的一种具体实施例中, 该认证单元 601 可以包括以下各子单元 :
声纹特征提取子单元, 用于从所述语音信号中对应所述命令内容的语音段提取声 纹特征序列 ;
第一匹配子单元, 用于将所述声纹特征序列与背景模型进行匹配, 得到第一相似 度;
第二匹配子单元, 用于将所述声纹特征序列与注册用户的声纹模型进行匹配, 得 到第二相似度 ;
计算子单元, 用于根据得到的第一相似度和第二相似度计算似然比 ;
确定子单元, 用于在所述似然比大于所述认证阈值时, 确定所述用户是合法用户。
需要说明的是, 所述注册用户的声纹模型可以是与所述命令内容相关的用户声纹 模型 ; 或者文本无关的用户声纹模型。
上述认证单元 601 对用户进行身份认证的详细过程可参照前面实施例中的描述, 在此不再赘述。
当然, 认证单元 601 还可以采用其它方式对用户进行身份认证, 对此本发明实施例不做限定。
可见, 本发明实施例个人助理应用访问系统, 不仅可以实现复杂应用程序的高效 快捷的命令定向, 而且, 还可以通过声纹认证等技术在后台验证用户身份的有效性, 实现对 个人助理上应用的有效保护, 进而保证用户信息的安全性。
在实际应用中, 不同应用的安全性要求可能是不同的, 因此, 为了更好地满足用户 对不同应用的不同级别保护, 还可以采用弹性身份认证方式, 根据用户主动设置的应用保 护级别采用不同的身份认证标准。
如图 7 所示, 是本发明实施例个人助理应用访问系统的另一种结构示意图。
与图 6 所示实施例不同的是, 在该实施例中, 所述系统还进一步包括 : 检查单元 701, 用于在所述认证单元 601 根据所述语音信号对所述用户进行身份认证之前, 检查所述 应用是否为需要通过身份认证保护的应用, 如果是, 则通知所述认证单元 601 执行所述根 据所述语音信号对所述用户进行身份认证的操作。
在实际应用中, 不同应用的安全性要求可能是不同的, 因此, 为了更好地满足用户 对不同应用的不同级别保护, 还可以采用弹性身份认证方式, 根据用户主动设置的应用保 护级别采用不同的身份认证标准。
为此, 在本发明系统的另一实施例中, 图 7 所示的检查单元 701 还可用于在所述应 用为需要通过身份认证保护的应用时, 继续检查所述应用的保护级别, 并获取与所述保护 级别对应的认证阈值。
相应地, 在该实施例中, 认证单元 601 需要根据检查单元 701 获取的认证阈值对所 述用户进行身份认证。具体认证过程可参照前面图 3 所示流程, 在此不再详细描述。
可见, 本发明实施例个人助理应用访问系统, 不仅可以实现复杂应用程序的高效 快捷的命令定向, 而且, 还可以根据用户的实际需要, 通过弹性身份认证方式, 实现对不同 应用的不同级别保护, 进而保证用户信息的安全性。
由于用户身份认证的效果主要取决于背景模型和注册用户的声纹模型的精确度。 因此, 在上述本发明个人助理应用访问系统图 6、 图 7 所示实施例中, 还可进一步包括 : 模型 更新单元 ( 未图示 ), 用于在认证单元 601 确定所述用户是合法用户 ( 比如, 可以由认证单 元 601 中的确定子单元确定所述用户是合法用户 ) 后, 根据从所述语音接收单元 501 接收 的语音信号中提取的声纹特征序列 ( 比如, 由认证单元 601 中的声纹特征提取子单元提取 的声纹特征序列 ) 对所述声纹模型进行更新。
需要说明的是, 在实际应用中, 上述模型更新单元可以作为独立的模块, 从语音接 收单元 501 接收的语音信号中提取的声纹特征序列, 并根据该声纹特征序列对所述用户进 行身份认证 ; 上述模型更新单元也可以与所述认证单元 601 集成在一个模块上, 具体如何 实现本发明实施例不做限定。
另外, 为了方便用户的使用, 个人设备上的应用可能不仅会提供语音调用方式, 而 且还提供非语音调用方式, 比如, 通过键盘输入命令调用相应应用。针对这种情况, 为了防 止非法用户避开语音方式调用受保护的应用, 在本发明系统另一实施例中, 还可进一步包 括: 修正单元 ( 未图示 ), 用于在所述检查单元 701 检查到所述应用为需要通过身份认证保 护的应用时, 对所述应用的直接调用方式进行修正, 比如在对该应用非语音调用时要求进 行密码验证, 或者提供受限功能等, 从而可以确保对该应用程序的有效保护。本说明书中的各个实施例均采用递进的方式描述, 各个实施例之间相同相似的部 分互相参见即可, 每个实施例重点说明的都是与其他实施例的不同之处。 尤其, 对于系统实 施例而言, 由于其基本相似于方法实施例, 所以描述得比较简单, 相关之处参见方法实施例 的部分说明即可。以上所描述的系统实施例仅仅是示意性的, 其中所述作为分离部件说明 的单元及模块可以是或者也可以不是物理上分开的。另外, 还可以根据实际的需要选择其 中的部分或者全部单元和模块来实现本实施例方案的目的。 本领域普通技术人员在不付出 创造性劳动的情况下, 即可以理解并实施。
以上公开的仅为本发明的优选实施方式, 但本发明并非局限于此, 任何本领域的 技术人员能思之的没有创造性的变化, 以及在不脱离本发明原理前提下所作的若干改进和 润饰, 都应落在本发明的保护范围内。