用于有表现力的语言、 发育失调和情绪评估的系统和方法 技术领域 本发明总体上涉及自动化语言评估, 具体而言, 涉及通过分析儿童使用的音素 (phone)、 音素状 (phone-like) 声音和原音素评估关键儿童的有表现力的语言发展, 涉及 分析记录以辅助检测诸如孤独症的疾病和失调, 并涉及检测情绪。
背景技术 如’ 520 申请中更详细论述的, 幼儿周围的语言环境是儿童发展的关键。在三岁 时, 儿童的语言和词汇能力例如能够表明年龄稍长后在诸如阅读和数学的学术主题中的智 力和考试成绩。提高语言能力通常获得更高的智商 (IQ) 以及改进的识字和学校技能。
暴露于听觉丰富或倾听语言的环境中, 其中, 在儿童和成年人之间以大量交互谈 话的形式说到很多词汇, 较大数量的肯定之于禁止可以促进儿童语言能力和 IQ 的提升。年 幼儿童周围的语言环境对儿童语言能力和 IQ 的效果可能特别明显。
在人生的头四年中, 部分由于儿童大脑的发育和成熟, 儿童经历高度密集的讲话 和语言发展时期。即使在儿童开始上学或读书之后, 儿童的大部分语言能力和词汇也是从 与他人进行谈话中发展起来的, 词汇包括已知的单词 ( 易于接受的词汇 ) 和儿童在讲话时 使用的单词 ( 有表现力的词汇 )。
除了听其他人对他们讲话并应答 ( 即, 会话 ) 之外, 儿童的语言发展还可能受到儿 童自己讲话的促进。 儿童自己讲话是认知作用的动态指标, 尤其是在儿童一生的头几年。 已 经开发出了研究技术, 涉及到统计幼儿的发声和讲话以及讲话的长度, 以估计儿童的认知 发展。当前收集信息的过程可以包括通过观察者和 / 或录制儿童讲话的录音获得数据。分 析数据以提供可以用于分析儿童的语言环境的量度, 可以修改量度以促进儿童语言开发和 IQ 的提升。
不过, 存在观察者可能是侵入性的, 对儿童行为有影响, 成本高昂, 且不能充分获 得关于儿童自然环境和发展的信息。此外, 使用录音和记录是获得与儿童语言环境相关联 的数据的成本高且耗时的过程。 分析这些的数据以识别规范的儿语、 统计单词数目、 确定讲 话的平均长度和其他发声度量并确定所说内容也是非常耗时的。
即使对于电子分析系统而言, 同时单词数目和确定所说内容也可能尤其消耗时间 和资源, 因为每个单词都是连同其含义一起被识别的。因此, 需要这样的方法和系统, 其独 立于内容获得并分析与儿童语言环境相关联的数据并以及时的方式, 基于数据报告量度。 分析还应当包括自动评估儿童的有表现力的语言发展。
除了自动评估儿童的有表现力的语言发展之外, 还需要开发特定的量度和方法以 确定儿童的特定发育失调。 如上所述, 希望这样一种测试, 在提供观察者方面其非侵入性非 常大, 且成本低, 同时产生大量数据。 通过分析讲话能够检测到的这种感兴趣的发育失调之 一是孤独症。对语言发展有贡献的另一项因素可能是情绪。在儿童处在情绪有压力的环境 因此, 用于检测受检者交互的情绪内容的系统 中时, 他们的学习和语言发展可能受到影响。 和方法可能合乎辅助语言开发的需要。
发明内容 用于有表现力的语言发展的系统和方法的某些实施例提供了以较快且有成本效 率的方式提供与关键儿童的语言环境和发展相关联的度量的方法和系统。 可以使用度量来 促进语言环境的改善、 关键儿童的语言发展和 / 或跟踪儿童语言技能的发展。在本发明的 一个实施例中, 提供了一种用于产生与关键儿童的语言环境相关联的度量的方法。可以捕 获来自语言环境的录音。可以将录音分成多个片段。可以针对多个片段的每个标识片段 ID。片段 ID 可以标识记录片段中的音频源。可以从片段中识别关键儿童片段。关键儿童 片段的每个可能具有关键儿童作为片段 ID。 可以部分基于至少一个关键儿童片段估计关键 儿童片段特性。可以独立于关键儿童片段的内容估计关键儿童片段特性。可以利用关键儿 童片段特性确定与语言环境和 / 或语言发展相关联的至少一个度量。度量的范例包括在预 设时间中关键儿童所说的单词或发声数量以及谈话轮数。 可以将至少一个度量输出到输出 设备。
在一些实施例中, 可以从片段中识别出成年人片段。每个成年人片段可以具有成 年人作为片段 ID。 可以部分基于至少一个成年人片段估计成年人片段特性。 可以独立于成 年人片段的内容估计成年人片段特性。 可以利用成年人片段特性确定与语言环境相关联的 至少一个度量。
在用于有表现力的语言发展的系统和方法的一个实施例中, 提供了一种用于提供 与关键儿童的语言环境相关联的量度的系统。该系统可以包括录音机和基于处理器的设 备。录音机可以适于从语言环境捕获录音并向基于处理器的设备的提供录音。基于处理器 的设备可以包括具有音频引擎的应用, 其适于将录音分割成片段并针对每个片段标识片段 ID。至少一个片段可以与关键儿童片段 ID 相关联。音频引擎可以进一步适于部分基于至 少一个片段估计关键儿童的片段特性, 利用关键儿童片段特性确定与语言环境或语言发展 相关联的至少一个度量, 并向输出设备输出至少一个度量。音频引擎可以独立于片段内容 估计关键儿童的片段特性。
在用于有表现力的语言发展的系统和方法的一个实施例中, 分析关键儿童的发声 以识别特定音素、 音素状声音和原音素的出现次数, 并计算音素、 音素状声音和原音素的频 率分布或持续时间分布。可以独立于发声的内容进行分析。可以使用为用于从成年人语音 识别内容的自动语音识别系统而设计的音素解码器识别音素、 音素状声音和原音素。使用 关键儿童的实足年龄选择基于年龄的模型, 该模型使用音素、 音素状声音和原音素的分布, 以及与每个音素、 音素状声音和原音素相关联的基于年龄的权重来评估关键儿童的有表现 力的语言发展。评估可能获得标准分数、 估计的发育年龄或估计的讲话度量的平均长度。
在一个实施例中, 一种评估关键儿童有表现力的语言发展的方法包括处理在关键 儿童的语言环境中获取的录音以识别记录中对应于关键儿童发声的片段。 该方法还包括向 片段应用成年人自动语音识别音素解码器以识别多个双音素类别的每个的每次发生。 双音 素类别的每个都对应于预定义的语音序列。 该方法还包括确定双音素类别的分布并使用基 于年龄的模型中的分布以评估关键儿童的有表现力语言发展。
在另一实施例中, 一种用于评估关键儿童语言发展的系统包括基于处理器的设 备, 该设备包括具有音频引擎的应用, 用于处理在关键儿童语言环境中获取的录音以识别
记录中对应于关键儿童发声的片段。该系统还包括成年人自动语音识别音素解码器, 用于 处理对应于关键儿童发声的片段, 以识别多个双音素类别的每个的每次发生。双音素类别 的每个都对应于预定义的语音序列。 该系统还包括用于确定双音素类别的分布并使用基于 年龄的模型中的分布以评估关键儿童的有表现力语言发展的有表现力语言评估部件。 基于 关键儿童的实足年龄选择基于年龄的模型, 基于年龄的模型包括与双音素类别的每个相关 联的权重。
在用于有表现力的语言发展的系统和方法的一个实施例中, 一种用于在自然语言 环境中检测孤独症的方法包括使用麦克风、 录音机和计算机, 利用软件编程控制用于专门 目的的计算机, 该目的是处理由麦克风和录音机组合捕获的记录。编程控制计算机以执行 包括如下操作的方法 : 利用为了专门目的而编程控制的计算机将麦克风和录音机组合捕获 的音频信号分割成多个记录片段。该方法还包括判断多个记录片段中哪个对应于关键儿 童。 该方法还包括提取关键儿童记录的声学参数并将所述关键儿童记录的声学参数与已知 的针对儿童的声学参数进行比较。该方法返回孤独症可能性的确定结果。
在另一实施例中, 一种用于检测孤独症的方法包括转换录音以在从显示器、 打印 输出和音频输出构成的组中选择的输出机构上显示孤独症指示, 通过将录音与通过分析在 自然语言环境中捕获的多个录音的透明参数开发的模型进行比较来执行录音的转换。
此外, 另一个实施例包括一种利用麦克风、 录音机和计算机检测自然语言环境中 失调的方法, 利用软件编程控制用于专门目的的计算机, 所述专门目的是处理由所述麦克 风和录音机组合捕获的记录。编程控制计算机以执行一种方法。该方法包括利用为了专门 目的而编程控制的计算机将麦克风和录音机组合捕获的音频信号分割成多个记录片段 ; 判 断多个记录片段的哪个对应于关键受检者 ; 多个记录片段中判定为对应于关键受检者的哪 个被分类为关键受检者记录 ; 提取所述关键受检者记录的声学参数 ; 将所述关键受检者记 录的声学参数与已知的针对受检者的声学参数进行比较 ; 并且确定失调的可能性。
在又一实施例中, 一种检测失调的方法包括转换录音以在从显示器、 打印输出和 音频输出构成的组中选择的输出机构上显示孤独症指示, 通过将录音与通过分析在自然语 言环境中捕获的多个录音的透明参数开发的模型进行比较来执行录音的转换。 对于多个录 音的每个而言, 分析包括将录音分成多个记录片段, 其中录音是由麦克风和录音机组合捕 获的 ; 判断多个记录片段的哪个对应于关键受检者 ; 多个记录片段中判定为对应于关键受 检者的哪个被分类为关键受检者记录 ; 以及提取所述关键受检者记录的声学参数。
在一个实施例中, 一种生成自动语言特性识别系统的方法包括接收多个录音。对 录音进行分段以针对每个录音生成多个音频片段。 根据每个音频片段的音频特性对多个音 频片段分群以形成多个音频片段群。
在一个实施例中, 一种使用自动语言特性识别系统对语音解码的方法包括接收多 个录音, 以及对多个录音的每个进行分段以生成针对每个录音的第一多个音频片段。该方 法还包括根据每个音频片段的音频特性对多个录音的每个音频片段分群以形成多个音频 片段群。 该方法还包括接收新录音, 对新录音分段以为新录音生成第二多个音频片段 ; 以及 判断第二多个音频片段的每个片段对应于多个音频片段群的哪个群。
在一个实施例中, 一种确定讲话情绪的方法包括在包括具有音频引擎的应用的基 于处理器的设备处接收讲话。该方法还包括从讲话提取与情绪相关的声学特征。该方法还包括将与情绪相关的声学特征与表示情绪的多个模型比较。 还包括基于比较和输出与所选 模型对应的情绪从多个模型选择模型。
在一个实施例中, 一种利用麦克风、 录音机和计算机检测自然语言环境中关键儿 童的孤独症的方法包括如下步骤, 利用软件编程控制用于专门目的的计算机, 所述专门目 的是处理由所述麦克风和录音机组合捕获的记录 : 利用为了专门目的而编程控制的计算机 将麦克风和录音机组合捕获的音频信号分割成多个记录片段。 该方法还包括判断多个记录 片段中哪个对应于关键儿童。 该方法还包括将多个记录片段中确定为对应于关键儿童的哪 个分类为关键儿童记录。 此外, 该方法包括提取所述关键儿童记录的基于音素的特征 ; 将所 述关键儿童记录的基于音素的特征与已知的针对儿童的基于音素的特征比较 ; 以及基于所 述比较确定孤独症的可能性。在一种替代方案中, 比较包括逻辑回归分析。在另一种替代 方案中, 比较包括线性判别分析 (Linear Discriminate Analysis)。 在一种替代方案中, 该 方法还包括变换用户的显示以显示孤独症的可能性。在另一种替代方案中, 该方法还包括 变换信息存储设备以存储孤独症的可能性。此外, 可以通过多个特征矢量表示基于音素的 特征。 此外, 比较可以包括将多个特征矢量与已知的针对儿童的基于音素的特征比较, 以返 回多个结果, 其中针对多个特征矢量的每个有多个结果中的结果, 对多个结果求平均以用 于确定。此外, 可以对多个特征矢量求平均以获得用于比较的单个特征矢量。 提到这些实施例不是要限制或界定本发明, 而是要提供本发明实施例的范例以帮 助理解。在具体实施方式中论述了实施例, 通过研究具体实施方式和附图可以进一步理解 本发明的各实施例。
附图说明
在参考附图阅读以下详细描述时, 本发明的这些和其他特征、 方面和优点会得到 更好理解, 附图中 :
图 1 示出了根据本发明的一个实施例的关键儿童的语言环境 ;
图 2a 是根据本发明的一个实施例的衣袋中的录音机的前视图 ;
图 2b 是图 2a 的录音机和口袋的侧视图 ;
图 3 是根据本发明的一个实施例的记录处理系统 ;
图 4 是根据本发明的一个实施例用于处理录音的方法的流程图 ;
图 5 是根据本发明的一个实施例用于执行另一录音处理的方法的流程图 ;
图 6 示出了根据本发明的一个实施例的片段中的声能 ;
图 7-12 是屏幕快照, 示出了根据本发明的一个实施例提供到输出设备的量度 ;
图 13 示出了实足年龄和特定音素之间的相关性 ;
图 14 示出了图 13 的一些音素和实足年龄之间的非线性关系 ;
图 15a 和 15b 在这里统称为图 15, 是示出了根据本发明的一个实施例用于有表现 力语言索引 z 分数的权重的表格 ;
图 16 为方框图, 示出了根据本发明的一个实施例用于评估语言发展的系统 ;
图 17 为方框图, 示出了用于检测个体中的失调或疾病的方法的一个实施例 ;
图 18 为方框图, 示出了用于为正常个体和具有正被讨论的失调或疾病的个体群 体生成趋向的方法的一个实施例 ;图 19 示出了捕获并转换成图解表示的声信号 ; 图 20 示出了针对共振峰带宽能够如何标记清晰发音水平的经验显示的图解表示; 图 21 示出了发音发展的 12 个声学参数 ;
图 22 示出了非声学参数的范例 ;
图 23 示出了开发用于检测孤独症的模型使用的数据集 ;
图 24 示出了孤独症和正常发育儿童的声学参数的趋势图 ;
图 25 示出了孤独症、 正常发育以及语言延迟儿童的声学参数的趋势图 ;
图 26 示出了正常发育以及语言延迟儿童的声学参数的趋势图 ;
图 27 示出了正常和孤独症儿童的非声学参数 ;
图 28 示出了孤独症、 正常发育以及语言延迟儿童的声学参数的趋势图 ;
图 29 示出了正常发育以及语言延迟儿童的声学参数的趋势图 ;
图 30 示出了确定正常发育和孤独症个体时使用逻辑回归分析的结果 ;
图 31 示出了表格, 示出了采用检测孤独症的系统和方法的一个实施例的机器的 精确度 ;
图 32 示出了 K- 均值群的例示 ; 图 33 示出了用于确定讲话时情绪的方法 ; 图 34 示出了在分析之前检测矢量组合的检出率之于后验概率截止阈值的图表 ; 图 35 示出了在组合之前检测矢量分析的检出率之于后验概率截止阈值的图表。以及
具体实施方式
本发明的特定方面和实施例涉及用于监测和分析语言环境、 发声和关键儿童发育 的系统和方法。这里使用的关键儿童可以是儿童、 成年人, 例如具有发育问题的成年人, 或 对其语言发展感兴趣的任何个体。 可以监测关键儿童的语言环境和语言发展而无需对关键 儿童的活动施加人为限制或需要第三方观察者。 可以分析语言环境以独立于内容识别指向 关键儿童或由关键儿童发声的单词或其他噪音。内容可以包括诸如单词和讲话的发声含 义。分析可以包括儿童和另一个人, 例如成年人之间的响应次数 ( 在这里称为 “交谈的轮 数” ), 以及儿童和 / 或另一个人所说单词的数目, 独立于讲话的内容。
语言环境可以包括自然语言环境或其他环境, 例如临床或研究环境。自然语言环 境能够包括关键儿童在其正常日常活动期间周围的区域, 包含声音源, 声音源可以包括关 键儿童、 其他儿童、 成年人、 电子设备和背景噪声。临床或研究环境可能包括包含预选的或 自然声音源的受控环境或位置。
在本发明的一些实施例中, 关键儿童可以佩戴一种布制物品, 包括位于口袋中的 记录设备, 口袋附着于或与布制物品集成。可以配置记录设备以记录和存储预定量时间内 与儿童的语言环境相关联的音频。录音可以包括噪声、 沉默、 关键儿童说的单词或其他声 音、 其他人说的单词、 来自诸如电视和收音机的电子设备的声音, 或来自任何源的任何声音 或单词。 记录设备的位置优选使其能够记录关键儿童的单词和噪声以及涉及关键儿童的谈 话而不会干扰关键儿童的正常活动。在预设量时间期间或之后, 可以独立于内容分析记录设备上存储的录音以提供与关键儿童的语言环境或语言发展相关的特性。例如, 可以分析 录音以识别片段并利用最小持续时间高斯混合模型 (MD-GMM) 分配片段 ID 或每个音频片段 的源。
每个音频片段的源可以包括关键儿童、 成年人、 另一位儿童、 电子设备或能够产生 声音的任何人或对象。源还可以包括与特定人或设备无关的一般源。这种一般源的范例包 括噪音、 沉默和交叠的声音。 在一些实施例中, 利用不同类型源的模型分析每个音频片段以 识别源。 模型可以包括与每个源共同关联的音频特性。 在一些实施例中, 为了检测音频信号 的源类型, 检测沉默。任何非沉默片段仍然可以包含一些短的沉默期间, 例如像 “p” 和 “t” 的爆破辅音中涉及的暂停。这样的短暂低能量区域可能不包含关于信号源类型的信息 ; 于 是, 将从非沉默片段的似然计算去除它。可以进一步分析将关键儿童或成年人识别为源的 音频片段, 例如, 通过确定与关键儿童和 / 或成年人相关联的特定特性, 以提供与关键儿童 的语言环境或语言发展相关联的量度。
在本发明的一些实施例中, 关键儿童是年龄介于零岁和四岁之间的儿童。幼儿产 生的声音在若干方面中都与成年人讲话不同。例如, 儿童可以产生并不相当于单词的有意 义声音 ; 对于儿童讲话来说, 从辅音到元音的共振峰过渡或反之, 比成年人讲话的过渡较不 显著, 并且由于儿童声道的物理变化, 儿童的语音在所关心的年龄范围内有所变化。 可以识 别儿童和成年人语音之间的差异并用于分析儿童语音并将儿童语音与成年人语音区分开, 例如在识别特定音频片段的源中使用。 本发明的某些实施例使用的是独立于内容分析语音的系统而不是使用语音识别 以确定内容的系统。这些实施例大大减少了音频文件的处理时间并需要比使用完整的语 音识别系统显著廉价的系统。在一些实施例中, 可以使用语音识别处理, 通过独立于内容 分析发声来产生关键儿童语言环境和语言发展的量度。在一个实施例中, 推荐的记录时间 为十二小时, 最小时间为 10 小时。为了处理记录的语音并及时提供有意义的反馈, 调节本 发明的某些实施例以半实时或低于半实时地处理记录。例如, 可以在不到六小时内处理 二十四小时的记录。于是, 可以整夜地处理记录, 在次日早晨就获得结果。根据感兴趣的量 度和 / 或语言环境, 其他记录时间长度可能足以产生与关键儿童的语言环境和 / 或语言发 展相关联的量度。在一些情况下, 例如, 在临床或研究环境中, 一到两小时的记录时间可能 是足够的。针对这种记录时间的处理可能小于一个小时。
音频采集
如上所述, 可以使用记录设备来采集、 记录和存储与关键儿童的语言环境和语言 发展相关联的音频。 记录设备可以是适于采集和存储音频并位于儿童语言环境中或周围的 任何类型的设备。在一些实施例中, 记录设备包括连接到存储设备并位于关键儿童常常所 在的一个或多个房间中的一个或多个麦克风。在其他实施例中, 记录设备位于儿童佩戴的 布制物品中。
图 1 示出了语言环境 102 中佩戴布制物品 104 的关键儿童, 例如儿童 100, 布制物 品 104 包括口袋 106。口袋 106 可以包括记录设备 ( 未示出 ), 适于记录来自语言环境 102 的音频。语言环境 102 可以是儿童 100 周围的区域, 包括音频源 ( 未示出 ), 包括一个或多 个成年人、 其他儿童和 / 或电子设备, 例如电视、 收音机、 玩具、 背景噪声或产生声音的任何 其他源。语言环境 102 的范例包括自然语言环境和临床或研究语言环境。布制物品 104 可
以是儿童 100 正常衣服上的马甲、 儿童 100 的正常衣服或关键儿童通常穿戴的任何布制物 品。
在一些实施例中, 将记录器放在关键儿童胸部中心或附近。 不过, 其他放置也是可 能的。口袋 106 中的记录设备可以是能够记录与儿童语言环境相关联的音频的任何设备。
记录设备的一个范例是 LENA 系统的数字记录器。数字记录器可以较小且重量轻, 并可以放在口袋 106 中。口袋 106 能够以不引人注目的方式将记录器保持在适当的位置, 使得记录器不会分散关键儿童、 与关键儿童交互的其他儿童和成年人的注意力。 图 2a 和 2b 示出了包括记录器 108 的口袋 106 的一个实施例。可以将口袋 106 设计成将记录器 108 保 持在适当的位置并使声音干扰最小化。口袋 106 可以包括由主体 112 和外罩 114 形成的内 部区域 110, 外罩 114 经由缝合 116 或另一连接机构连接到主体 112。主体 112 可以是衣服 的一部分或使用缝合或其他方式附着于布制物品 104。伸展层 118 可以位于内部区域 110 中并经由缝合 116 或其他连接机构附着于主体 112 和外罩 114。记录器 108 可以位于主体 112 和伸展层 118 之间。伸展层 118 可以由适于伸展的织物制成, 但提供压紧记录器 108 的 力, 以将记录器 108 保持在其位置。例如, 伸展层可以由尼龙和弹力纤维的混合物制成, 例 如 85%的尼龙、 15%的弹力纤维, 这有助于将记录器保持在适当的位置。 外罩 114 可以覆盖 伸展层 118, 并可以包括至少一个开口, 记录器 108 的麦克风位于那里。可以用提供特定期 望声学性质的材料覆盖开口。在一个实施例中, 材料为 100%的棉。
口袋 106 也可以包括揿钮连接器 120, 由此打开和闭合外罩 114 以安装或移除记录 器 108。在一些实施例中, 作为用揿钮连接器 120 的补充或替代, 可以用拉链替换缝合 116 中的至少一个, 以提供对记录器 108 的访问。
如果记录器 108 包括多个麦克风, 那么口袋 106 可以包括多个开口, 对应于记录器 108 上麦克风的位置。口袋 106 的特定尺度可能随着记录器 108 的设计改变或随着麦克风 数量或类型的变化而变化。在一些实施例中, 口袋 106 相对于关键儿童的嘴定位麦克风以 提供特定的声学性能并以不会导致摩擦噪音的方式固定麦克风 ( 以及任选的记录器 108)。 可以打开记录器 108, 之后记录音频, 包括关键儿童、 其他儿童和成年人的语音, 以及儿童遇 到的其他类型的声音, 包括电视、 玩具、 环境噪声等。可以在记录器 108 中存储音频。在一 些实施例中, 可以从口袋 106 周期性地拿出记录器, 并可以分析存储的音频。
例示性录音分析系统实现
可以在多种不同系统上实现根据本发明各实施例分析来自记录器的录音的方法。 图 3 中示出了一个这种系统的范例。该系统包括连接到基于处理器的设备 200 的记录器 108, 设备 200 包括处理器 202 和计算机可读介质, 例如存储器 204。 可以经由导线或以无线 方式将记录器 108 连接到基于处理器的设备 200。 在一些实施例中, 经由 USB 电缆将记录器 108 连接到设备 200。设备 200 可以是任何类型的基于处理器的设备, 其范例包括计算机和 服务器。存储器 204 可以适于存储计算机可执行代码和数据。计算机可执行代码可以包括 应用 206, 例如数据分析应用, 其可用于观察、 产生和输出数据分析。 应用 206 可以包括音频 引擎 208, 如下文更详细所述, 音频引擎可以适于执行根据本发明各实施例的方法, 以分析 录音并产生与之关联的量度。在一些实施例中, 音频引擎 208 可以是独立的应用, 可以与应 用 206 分开地, 任选地与应用 206 同时执行。存储器 204 还可以包括数据存储器 210, 其适 于存储由应用 206 或音频引擎 208 产生的或用户输入的数据。在一些实施例中, 数据存储器 210 可以与设备 200 分开, 但经由导线或无线连接而连接到设备 200。
设备 200 可以与输入设备 212 和输出设备 214 通信。输入设备 212 可以适于接收 用户输入并将用户输入发送到设备 200。输入设备 212 的范例包括键盘、 鼠标、 扫描仪和网 络连接。用户输入可以包括让处理器 202 执行与应用 206 或音频引擎 208 相关联的各种功 能的命令。输出设备 214 可以适于提供来自应用 206 或音频引擎 208 的数据或可视输出。 在一些实施例中, 输出设备 214 能够显示图形用户界面 (GUI), 其包括一个或多个可选择的 按钮, 它们与应用 206 或音频引擎 208 提供的各种功能相关联。输出设备 214 的范例包括 监视器、 网络连接和打印机。输入设备 212 可以用于设置或以其他方式配置音频引擎 208。 例如, 在设置或配置期间, 可以向音频引擎 208 提供关键儿童的年龄以及与关键儿童的学 习环境相关联的其他信息并存储在本地存储器 210 中。
可以将记录器 108 上存储的音频文件上载到设备 200 并存储在本地存储器 210 中。在一个实施例中, 以所有权格式上载音频文件, 防止从设备 200 回放语音或访问语音的 内容, 由此促进讲话人的身份保护。在其他实施例中, 不经编码即上载音频文件, 以允许在 本地存储器 210 中存储并回放文件或文件的部分。
在一些实施例中, 基于处理器的设备 200 为网络服务器, 组合输入设备 212 和输出 设备 214 以形成计算机系统, 其经由网络连接向设备 200 发送并从设备 200 接收数据。输 入设备 212 和输出设备 214 可用于远程访问应用 206 和音频引擎 208, 并令其执行根据本发 明各实施例的各种功能。记录器 108 可以连接到输入设备 212 和输出设备 214, 记录器 108 上存储的音频文件可以通过诸如因特网或内部网的网络被上载到设备 200, 在设备 200 中 处理音频文件并向输出设备 214 提供量度。在一些实施例中, 可以在本地存储器 210 中存 储从远程输入设备 212 和输出设备 214 接收的音频文件, 并接下来访问音频文件, 用于研究 的目的, 例如在儿童的学习环境上或以其他方式。
为了减少记录器 108 上需要的存储器的量, 可以压缩音频文件。在一个实施例中, 使用 DVI-4 ADPCM 压缩方案。如果使用一种压缩方案, 那么在文件上载到设备 200 之后将 其解压到正常线性 PCM 音频格式。
用于录音分析的例示性方法
可以使用根据本发明各种实施例的各种方法分析录音。图 4 示出了基于来自关键 儿童语言环境的录音分析和提供量度的方法的一个实施例。仅仅出于例示的目的, 参考图 3 所示的系统描述这种方法的要素。该方法的其他系统实现也是可能的。
在方框 302 中, 音频引擎 208 将录音分成一个或多个音频片段并为来自从记录器 108 接收的录音的音频片段的每个标识片段 ID 或源。在此将这种过程称为 “分段” 或 “片段 ID” 。音频片段可以是特定持续时间并包括在该持续时间期间与儿童语言环境相关联的声 学特征的录音部分。录音可以包括若干音频片段, 每个片段都与片段 ID 或源相关联。源可 以是产生音频片段之内的声音的个人或设备。例如, 音频片段可以包括关键儿童产生的声 音, 将关键儿童标识为该音频片段的源。源也可以包括其他儿童、 成年人、 电子设备、 噪音、 叠加的声音和沉默。电子设备可以包括电视、 收音机、 电话、 玩具和提供记录的或模拟的声 音 ( 例如人的语音 ) 的任何设备。
可以标识与每个音频片段相关联的源以辅助进一步对记录进行分类和分析。 本发 明的一些实施例提供的一些量度包括关于特定源的数据并忽略来自其他源的数据。例如,可以将与指向关键儿童的实时语音关联的音频片段与和电子设备关联的音频片段区分开, 因为已经证明实时语音比暴露于来自电子设备的语音是儿童语言发展的更好标志和更好 促进。
为了执行分段以产生音频片段并为每个片段识别源, 可以使用与关键儿童、 其他 儿童、 成年男性、 成年女性、 噪音、 TV 噪音、 沉默和交叠对应的若干模型。替代实施例可以使 用更多、 更少或不同的模型来进行分段并标识对应的片段 ID。一种这样的技术独立地执行 分段和片段 ID。另一种技术执行分段并同时为每个片段标识片段 ID。
传统上, 曾使用具有最小持续时间约束的隐藏马尔可夫模型 (HMM) 同时进行分段 并标识片段 ID。可以提供若干 HMM 模型, 每个模型对应于一个源。该模型的结果可以是具 有与每个源相关联的似然分数的源序列。可以利用维特比算法或动态程序设计搜索最佳 序列, 并基于分数为每个片段标识 “最好的” 源。不过, 对于一些片段而言, 这种方式可能很 复杂, 部分是因为它使用了从一个片段到另一个的转移概率, 即, 每个片段之间的转移。转 移概率与每个源的持续时间建模相关。HMM 持续时间模型可能具有分立的几何分布或连续 的指数分布, 可能不适合有关的声源。大部分录音可以包括其持续时间具有高度变化的片 段。尽管在本发明的一些实施例中可以使用 HMM 模型, 但可以使用替代技术进行分段和片 段 ID。 本发明一些实施例中用于进行分割和片段 ID 的替代技术是最小持续时间高斯混 合模型 (MD-GMM)。MD-GMM 的每个模型可以包括与来自不同源的声音相关联的标准或特性。 MD-GMM 模型的范例包括 : 关键儿童模型, 包括来自关键儿童的声音的特性 ; 成年人模型, 包 括来自成年人的声音的特性 ; 电子设备模型, 包括来自电子设备的声音的特性 ; 噪音模型, 包括可归因于噪音的声音的特性 ; 其他儿童模型, 包括来自除关键儿童之外的儿童的声音 的特性 ; 父辈模型, 包括成年人声音的复杂性水平语音标准 ; 年龄依从性关键儿童模型, 包 括不同年龄关键儿童的声音的特性 ; 以及高声 / 清晰度检测模型, 包括指向关键儿童的声 音的特性。一些模型包括额外的模型。例如, 成年人模型可以包括 : 成年男性模型, 包括成 年男性的声音特性 ; 以及成年女性模型, 包括成年女性的声音特性。可以使用模型, 通过将 每个片段中的声音与每种模型的标准加以比较并判断一个或多个模型是否存在预设精确 度的匹配, 确定每个片段中的声音源。
在本发明的一些实施例中, 在将录音转换成帧或片段序列时开始 MD-GMM 技术。利 用最大 log 似然算法, 为每种源识别持续时间为 2*D 的片段, 其中 D 是最小持续时间约束。 识别每个片段的最大分数。对于每个识别的片段, 与最大分数相关联的源与片段相关。
音频引擎 208 可以使用最大似然 MD-GMM 处理录音以执行分段和片段 ID。音频引 擎 208 可以搜索在最小持续时间约束下所有可能的片段序列, 以识别具有最大似然的片段 序列。MD-GMM 的一个可能优点是, 比最小持续时间两倍 (2*D) 长的任何片段都可以等价地 分解成若干持续时间介于最小持续时间 (D) 和两倍最小持续时间 (2*D) 之间的片段, 使得 最大似然搜索过程忽略所有比 2*D 长的片段。这能够减少搜索空间和处理时间。以下是使 用最大似然 MD-GMM 的一种实施的解释。其他实施也是可能的 :
1. 声 学 特 征 提 取 - 利 用 特 征 提 取 算 法, 例 如 MFCC(Mel 频 率 对 数 倒 频 谱 系 数 (mel-frequency cepstrum coefficient)), 将 音 频 流 转 换 成 特 征 矢 量 流 {X1, X2, …, n XT|Xi ∈ R }。
2. 针对片段 {X1, X2,…, XS} 的 log 似然计算 : 其中 fc(X1) 是类别 c 中的帧 X 的似然下文描述了最大似然 MD-GMM 搜索的一种流程 :
3. 搜索变量的初始化 : S(c, 0, 0) = 0, c = 1,…, C, 其中 c 是针对所有片段类别 的索引。通常, 搜索变量 S(c, b, n) 代表针对直到帧 b-1 的片段序列的最大 log 似然, 加上 类别 c 中从帧 b 到帧 n 的片段的 log 似然。
4.N = 1,…, T 的分数帧, 即所有特征帧 :
S(c, b, n) = S(c, b, n-1)+log(fc(Xn),c, n-b < 2*Dc, 即, 帧 n 处的当前分数可以是从帧 n-1 处的先前分数导出的。保留针对小于两倍最小持续时间的片段的搜索变量。
5. 保留在帧 n 处最佳结果的记录 ( 类似地, 将考虑低于两倍最小持续时间的片 段):
S*(n) = max S(c, b, n)
c, b, 2*Dc > 9n-b) > Dc
B*(n) = arg max S(c, b, n) b, (c, b, 2*Dc > (n-b) > Dc
C*(n) = arg max S(c, b, n)
c, (c, b, 2*Dc > (n-b) > Dc
6. 针对在帧 n 开始的片段对新搜索变量进行初始化 :
S(c, n, n) = S*(n),
7. 重复步骤 4 到步骤 6, 直到最后的帧 T。
8. 回溯以得到最大似然片段序列。
最大似然片段序列的最后片段为 (C*(T), B*(T), T), 即, 从帧 B*(T) 开始, 到帧 T 结束的片段, 类别 ID 为 C*(T)。可以利用以下回溯流程获得最佳序列中的剩余片段 :
8.1. 回溯的初始化 :
t = T, m=1
S(m) = C*(t), B*(t), t)
8.2. 重复进行回溯, 直到 t 0
C_current = C*(t)
t = B*(t)
如果 C*(t) = C_current, 则不进行任何操作, 否则,
m = m+1, S(m) = (C*(t), B*(t), t)
可以执行额外的处理以进一步细化与作为源的关键儿童或成年人相关联的片段 的标识。如上所述, 语言环境可以包括各种源, 在源实际是不同的人或设备时, 一开始可以 将各种源识别为关键儿童或成年人。例如, 一开始可能将来自除关键儿童之外的儿童的声 音识别为来自关键儿童的声音。可能将来自电子设备的声音与来自成年人的实时语音混 淆。此外, 可能检测到一些成年人声音指向除了关键儿童之外的另一个人。本发明的某些 实施例可以实施用于进一步处理和细化分段和片段 ID 的方法, 以减少或消除不精确的源 识别, 并识别指向关键儿童的成年人语音。
进一步的处理可以与上述初始 MD-GMM 模型同时或在其之后发生。图 5 示出了调 节方法的一个实施例, 用于通过修改与初始 MD-GMM 之后的 MD-GMM 相关联的模型进一步处 理录音。在方框 402 中, 音频引擎 208 利用第一 MD-GMM 处理录音。例如, 根据上述 MD-GMM 处理录音以执行初始分段和片段 ID。
在方框 404 中, 音频引擎 208 修改 MD-GMM 的至少一个模型。音频引擎 208 可以自 动选择 MD-GMM 的一个或多个模型以基于预设步骤进行修改。在一些实施例中, 如果音频引 擎 208 检测到特定类型的片段可能需要进一步考查, 它选择与检测到的片段类型最相关的 MD-GMM 模型进行修改 ( 或用于修改 )。可以修改与 MD-GMM 相关联的任何模型。可以修改 的模型范例包括 : 具有年龄依从性关键儿童模型的关键儿童模型 ; 电子设备模型 ; 可以进 一步修改关键儿童模型和 / 或成年人模型的高声 / 清晰度模型 ; 以及可以进一步修改关键 儿童模型和 / 或成年人模型的父辈模型。
在方框 406 中, 音频引擎 208 再次使用 MD-GMM 的修改模型处理录音。第二过程可 能导致基于修改的模型的不同分段和 / 或片段 ID, 提供与每个片段相关联的源的更精确识 别。
在方框 408 中, 音频引擎 208 判断是否需要额外的模型修改。在一些实施例中, 音 频引擎 208 分析新的分段和 / 或片段 ID 以判断任何片段或片段组是否需要额外的考查。 在 一些实施例中, 音频引擎 208 访问数据存储器 210 中与语言环境相关联的数据, 使用其判断 是否需要额外的模型修改, 例如基于儿童当前年龄的关键儿童修改。如果需要额外的模型 修改, 该过程返回到方框 404, 进行额外的 MD-GMM 模型修改。如果不需要额外的模型修改, 该过程前进到方框 410 以分析片段声音。下文描述了根据本发明各实施例修改示范性模型 的某些实施例。在本发明的某些实施例中可以修改下文所述之外的其他模型。
年龄依从性关键儿童模型 (age-dependent key child model)
在本发明的一些实施例中, 音频引擎 208 可以与初始 MD-GMM 同时或在之后实施年 龄依从性关键儿童模型, 以修改 MD-GMM 的关键儿童模型, 以更精确地区分识别其他儿童是 源的片段和关键儿童是源的片段。例如, 可以修改 MD-GMM 以在初始或后续分段和片段 ID 期间实施年龄依从性关键儿童模型。
关键儿童模型可能依赖于年龄, 因为关键儿童发声的音频特性, 包括讲话和其他 声音, 随着记录器 108 可能被使用的时间而显著变化。尽管在 MD-GMM 之内使用两个独立的 模型 ( 一个用于关键儿童, 一个用于其他儿童 ) 可以识别关键儿童的语音, 但使用年龄依从 性关键儿童模型进一步帮助减少关键儿童语音和其他儿童语音之间的混淆。 在一个实施例 中, 年龄依从性关键儿童模型为 : 1) 小于一岁, 2) 一岁大, 3) 两岁大, 以及 4) 三岁大。替代 实施例可以使用其他年龄分组和 / 或可以使用不同年龄组的分组。例如, 其他实施例可以 使用月龄组或月龄和年龄组的组合。 每个模型包括与对该年龄组的儿童共同识别的声音相 关联的特性。
在本发明的一个实施例中, 在设置或配置期间经由输入设备 212 向设备 200 提供 关键儿童的年龄。音频引擎 208 接收关键儿童的年龄并基于关键儿童的年龄选择一种或多 种关键儿童模型。例如, 如果关键儿童是一年零十个月大, 音频引擎 208 可以基于关键儿童 的年龄选择关键儿童模型 2( 一岁模型 ) 和关键儿童模型 3( 两岁模型 ) 或仅选择关键儿童 模型 2。音频引擎 208 可以通过修改 MD-GMM 模型实施选定的关键儿童模型, 以执行初始或后续分段和片段 ID。
电子设备模型
为了更精确地确定指向关键儿童的成年人单词的数目, 可以这样识别电子设备以 电子方式产生的包括声音的任何片段, 声音例如是单词或语音, 而不是不精确地识别为成 年人产生的实时语音。 电子设备能够包括电视、 收音机、 电话、 音频系统、 玩具或产生录音或 模拟人语音的任何电子设备。在本发明的一些实施例中, 音频引擎 208 可以修改 MD-GMM 中 的电子设备模型, 以更精确地识别来自电子设备源的片段, 并将它们与来自实时成年人的 片段分开, 而无需确定片段的内容, 且无需限制讲话者的环境 ( 例如, 需要从语言环境去除 或禁止电子设备 )。
音频引擎 208 可以适于与初始 MD-GMM 过程同时或在之后修改并使用修改的电子 设备模型。在一些实施例中, 可以在执行第一 MD-GMM 过程之后实施电子设备模型, 并用于 调节 MD-GMM, 以利用针对同一录音的 MD-GMM 进行额外的判断。 音频引擎 208 能够检查利用 第一 MD-GMM 分段的片段, 以进一步识别可靠的电子片段。可靠的电子片段可以是更可能与 电子设备源相关联且包括特定标准的片段。例如, 音频引擎 208 能够判断一个或多个片段 是否包括与来自电子设备的声音共同关联的标准。在一些实施例中, 标准包括 (1) 比预定 时间更长的片段或比预定阈值更响 ; 或 (2) 具有预设源模式的一系列片段。一个预定周期 的范例是五秒钟。一种预设源模式的范例可能包括如下内容 :
片段 1- 电子设备源 ;
片段 2- 除电子设备源之外的源 ( 例如, 成年人 ) ;
片段 3- 电子设备源 ;
片段 4- 除电子设备源之外的源 ; 以及
片段 5- 电子设备源。
可以使用可靠的电子设备片段调节 MD-GMM 以包括自适应电子设备模型, 用于进 一步处理。例如, 音频引擎 208 可以使用规则的 K- 均值算法作为初始模型并利用期望最大 化 (EM) 算法调谐其。自适应电子设备模型中的高斯型曲线的数量可以与反馈电子设备数 据的量成正比并且不超过上限。在一个实施例中, 上限为 128。
音频引擎 208 可以通过向序列的每个帧应用自适应电子设备模型再次执行 MD-GMM, 以针对与电子设备源相关联的帧确定新的自适应电子设备 log 似然分数。可以将 新的分数与为那些帧先前存储的 log 似然分数进行比较。音频引擎 208 可以基于比较选择 更大的 log 似然分数。可以使用更大的 log 似然分数以确定针对那些帧的片段 ID。
在一些实施例中, 可以利用在所有帧上移动的预设数量的相继等长度调节窗口应 用使用自适应电子设备模型的 MD-GMM 修改。可以将记录信号分成具有预设长度的交叠帧。 根据本发明的一个实施例, 帧长的范例为 25.6 毫秒, 具有 10 毫秒的偏移, 导致 15.6 毫秒的 帧交叠。自适应电子设备模型可以使用利用预设数量调节窗口获得的本地数据。在本发明 的一些实施例中可以使用 30 分钟的调节窗口大小。相继等长度调节窗口的一种预设数量 的范例为三个。在一些实施例中, 调节窗口的移动不交叠。可以分析每个调节窗口之内的 帧以提取特征的矢量, 将来用于统计分析、 建模和分类算法中。 可以重复自适应电子设备模 型以进一步修改 MD-GMM 过程。例如, 可以将该过程重复三次。
高声 / 清晰度检测模型为了选择对识别讲话者最有用的帧, 本发明的一些实施例使用帧水平近 / 远检测 或高声 / 清晰度检测模型。可以在执行初始 MD-GMM 过程之后使用似然比检验 (LRT) 执行 高声 / 清晰度检测模型。在帧水平下, 使用 LRT 识别并丢弃可能混淆识别过程的帧。对于 每个帧, 计算每个模型的似然性。 计算最大可能模型似然性和沉默似然性之间的差异, 将该 差异与预定阈值进行比较。 基于该比较, 丢弃该帧或用于片段 ID。 例如, 如果差异符合或超 过预定阈值, 那么使用该帧 ; 但如果差异小于预定阈值, 那么丢弃帧。 在一些实施例中, 根据 LRT 对帧加权。
音频引擎 208 能够使用 LRT 识别指向关键儿童的片段。例如, 音频引擎 208 能够 通过确定成年人语音或与片段相关联的声音的高声 / 清晰度来判断成年人语音是否指向 关键儿童或其他人。一旦执行了分段和片段 ID, 就以类似于帧水平下使用的方式使用 LRT 执行片段水平的近 / 远检测。对于每个片段, 计算每个模型的似然性。计算最大可能模型 似然性和沉默似然性之间的差异, 将该差异与预定阈值进行比较。 基于比较, 丢弃片段或进 一步处理。
父辈模型
在向儿童讲话时, 有时成年人使用儿童语言或 “父辈” 语言。可能不精确地将包括 父辈特征的片段与作为源的儿童或关键儿童相关联, 因为语音的特定特性可能类似于关键 儿童或其他儿童的特性。音频引擎 208 可以修改关键儿童模型和 / 或成年人模型以识别包 括父辈特征的片段并将片段与成年人源相关联。例如, 可以修改模型以允许音频引擎 208 检查片段中包括的语音的复杂性, 以识别父辈特征。由于成年人语音的复杂性通常比儿童 语音高得多, 所以可以将包括较复杂语音的片段的源识别为成年人。如果共振峰结构形成 良好, 清晰发音水平良好, 且发声有充分长时间 - 与成年人一般提供的语音一致, 语音可能 是复杂的。 来自儿童的语音可以包括清晰度和发育较差且发声通常持续时间较少的共振峰 结构。此外, 音频引擎 208 能够分析共振峰频率以识别包括父辈特征的片段。在成年人使 用父辈特征时, 片段的共振峰频率通常不变化。可以确定包括这种识别出的父辈特征的片 段的源是成年人。
可以进一步修改 MD-GMM 模型并进一步处理记录预设的迭代次数, 或直到音频引 擎 208 判定片段 ID 已经以可接受水平的置信度被判定。在完成分段和片段 ID 时, 可以进 一步分析识别的片段以提取与关键儿童的语言环境相关联的特性。
儿童发声、 哭泣、 呆板声音 / 固定信号检测 ( 分类 )
在执行分段和片段 ID 期间或之后, 音频引擎 208 可以将关键儿童音频片段分成一 个或多个类别。音频引擎 208 分析关键儿童被识别为源的每个片段并基于每个片段中的声 音确定类别。类别可以包括发声、 哭泣、 呆板的声音和固定信号声音。发声可以包括单词、 短语、 边际音节 (marginal syllable), 包括基本辅音 - 元音序列、 讲话、 音素、 序列音素、 音 素状的声音、 原音素、 通常称为咂舌声的颤唇音、 规范音节、 重复的唠叨、 间距变化 (pitch variation) 或对儿童语言发展有贡献的任何有意义声音, 至少表示儿童口头传达或利用该 能力发出声音的尝试。 呆板的声音包括与呼吸和消化相关的非口唇声音, 例如咳嗽、 喷嚏和 打嗝。固定信号声音与对环境的自发反应相关, 包括笑声、 呻吟、 叹息和咂嘴声。
哭泣是一种固定信号声音, 但是被独立检测的, 因为哭泣可能是沟通的手段。
音频引擎 208 可以利用基于规则的分析和 / 或统计处理对关键儿童音频片段分类。基于规则的分析可以包括利用一个或多个规则分析每个关键儿童片段。对于一些规则 而言, 音频引擎 208 可以分析片段的能量水平或能量水平过渡。基于预设持续时间的规则 范例是包括预设持续时间上或更多时间的能量串, 将其识别为哭泣或尖叫声而非发声, 但 包括小于预设持续时间的能量串的片段被分类为发声。基于与发声和哭泣共同关联的特 性, 一种预设持续时间的范例是三秒。图 6 示出了与关键儿童相关联的片段中声音的能量 水平并示出了一系列辅音 (/b/) 和元音 (/a/) 序列。使用三秒钟的预设持续时间, 能量串 表示发声, 因为它们少于三秒。
第二条规则可以是将片段分类成包括从辅音到元音的共振峰过渡或反之的发声。 图 6 示出了从辅音 /b/ 到元音 /a/, 然后回到辅音 /b/ 的共振峰过渡, 表示规范音节, 从而表 示发声。可以进一步处理不包括这种过渡的片段以确定分类。
第三条规则可以是, 如果共振峰带宽窄于预设带宽, 将片段分类成发声。 在一些实 施例中, 基于与发声相关联的公共带宽, 预设带宽为 1000Hz。
第四条规则可以是将包括具有一串具有预设阈值以上的第一频谱峰的能量的片 段分类为哭泣。在一些实施例中, 基于哭泣中共同的特性, 预设阈值为 1500Hz。
第五条规则可以是确定频谱倾斜 (tilt) 的斜率并将其与预设阈值比较。在诸如 300 到 3000Hz 的较低频率下, 比诸如 6000 到 8000Hz 的较高频率下, 发声常常包括更多能 量。 在与预设斜率阈值相比时, 预计从频谱的一部分到频谱结束预计下降 30dB, 表示具有负 斜率的频谱倾斜和发声。可以将斜率较为平坦的片段分类为哭泣, 因为对于哭泣而言可能 不存在频谱倾斜。可以具有正斜率的片段分类为呆板声音。 第六条规则可以是将片段的熵与熵阈值进行比较。 可以将具有较低熵水平的片段 分类为发声。由于能量的随机性, 可以将具有高熵水平的片段分类为哭泣或呆板声音。
第七条规则可以是将片段间距与阈值比较。 可以将间距 (pitch) 介于 250 到 600Hz 之间的片段分类为发声。可以将间距超过 600Hz 的片段分类为哭泣或尖叫, 可以将小于 250Hz 的间距分类为咆哮。
第八条规则可以是确定间距轮廓 (pitch contour)。可以将间距增大的片段分类 为幸福的声音。可以将间距减小的片段分类为生气的声音。
第九条规则可以是判断辅音和元音的存在。 可以将具有辅音和元音混合的片段分 类为发声。可以将具有所有或大部分辅音的片段分类为呆板的声音或固定信号声音。
可以与其他规则独立地或同时地实施根据本发明各实施例的规则。例如, 在一些 实施例中, 音频引擎 208 仅实施一条规则, 而在其他实施例中, 音频引擎 208 实施两条或更 多规则。作为基于规则的分析的补充或替代, 可以进行统计处理。
统计处理可以包括利用 2000 或更多高斯型曲线处理具有 MD-GMM 的片段, 其中利 用 Mel 频率对数倒频谱系数 (MFCC) 和子带频谱质心 (SSC) 生成模型。可以利用若干具有 系数的滤波器库提取 MFCC。在一个实施例中, 使用具有 36 个系数的 40 个滤波器库。可以 利用滤波器库生成 SSC 以捕获共振峰。在 300 到 7500Hz 的范围中, 用于捕获共振峰的滤波 器库数量可以是 7 个。其他统计处理可以包括使用与一种或多种以下片段特性相关联的统 计数值 :
共振峰 (formant) ;
共振峰带宽 ;
间距 ;
合声 (voicing) 百分比 ;
频谱熵 ;
以 dB 为单位的最大频谱能量 ;
最大频谱能量的频率 ; 以及
频谱倾斜。
可以向 MFCC-SCC 组合增加关于片段特性的统计数值以提供额外的分类改善。
随着儿童年龄的变化, 由于儿童声道的成长, 与每个关键儿童片段类别相关联的 特性可能变化。 在本发明的一些实施例中, 作为上述技术的补充或替代, 可以使用年龄依从 性模型对关键儿童片段进行分类。例如, 可以针对每个年龄组生成发声、 哭泣和固定信号 / 呆板声音模型。在一个实施例中, 与如下组使用 12 种不同模型 : 组 1 对应于 1 到 2 个月大, 组 2 对应于 3 到 4 个月大, 组 3 对应于 5 到 6 个月大, 组 4 对应于 7 到 8 个月大, 组 5 对应 于 9 到 10 个月大, 组 6 对应于 11 到 12 个月大, 组 7 对应于 13 到 14 个月大, 组 8 对应于 15 到 18 个月大, 组 9 对应于 19 到 22 个月大, 组 10 对应于 23 到 26 个月大, 组 11 对应于 27 到 30 个月大, 组 12 对应于 31 到 48 个月大。在替代实施例中, 可以针对从 1 个月到 48 个 月年龄的每个月生成发声、 哭泣和固定信号 / 呆板声音模型。这种模型将包括 144 个模型, 每个类别 48 种模型。替代实施例可以使用不同数量的组或将不同年龄范围与组关联。
音频引擎 208 也可以识别成年人作为源的片段。与成年人源相关联的片段可以包 括表示谈话的声音或能够提供用于表示从成年人指向关键儿童的单词量或数量的估计的 量度的数据。在一些实施例中, 音频引擎 208 还识别成年人源片段到关键儿童源片段的发 生, 以识别谈话。
在方框 304 中, 音频引擎 208 独立于内容, 从至少一些关键儿童为源的片段估计关 键儿童片段特性。例如, 可以无需确定或分析关键儿童片段中声音的内容就确定特性。关 键儿童片段特性可以包括与一种或多种关键儿童片段类别相关联的任何类型的特性。 特性 的范例包括哭泣持续时间、 尖叫和咆哮次数、 规范音节的存在和个数、 重复唠叨的存在和次 数、 音素的存在和个数、 原音素、 音素状声音、 单词或发声统计或任何可识别的发声或声音 要素。
可以通过分析哭泣类别中分类的片段估计哭泣长度。 哭泣的长度通常随着儿童年 龄或成熟而减小, 可以是儿童发育相对进展的指标。
可以通过分析分类为发声的片段, 基于间距、 频谱强度和发声困难估计尖叫和咆 哮的次数。儿童能够发出尖叫声和咆哮可以表示儿童语言能力的进展, 因为其指出了关键 儿童控制间距和声音强度的能力。
可以基于共振峰轮廓, 针对较尖锐的共振峰过渡, 通过分析发声类别中的片段来 估计规范音节的存在和数量, 规范音节例如是辅音和元音序列。
可以通过分析在发声类别中分类的片段并应用与共振峰过渡、 持续时间和合声 (voicing) 相关的规则估计重复唠叨的存在和次数。 儿语可以包括特定的辅音 / 元音组合, 包括三个浊音停止和两个鼻音停止。 在一些实施例中, 也可以确定规范儿语的存在和次数。 不论重复与否, 在生成的音节的 15%是规范的时候, 可能发生规范的儿语。可以确定音素、 原音素、 或音素状声音的存在、 持续时间和数量。随着关键儿童的语言发展, 音素的频率和持续时间增大或减小或以其他方式呈现出与成年人语音相关联的模式。
可以通过分析在发声类别中分类的片段估计关键儿童发出的单词或其他发声 数量。在一些实施例中, 利用音素解码器估计元音数量和辅音数量并与诸如能量水平和 MD-GMM log 似然差异的其他片段参数组合。 可以将最小二乘法应用于该组合以估计儿童所 说的单词数量。在本发明的一个实施例中, 音频引擎 208 估计在发生类别中分类的每个片 段中元音和辅音的数量并将其与和关键儿童的母语相关联的特性进行比较, 以估计关键儿 童所讲的单词数量。例如, 可以将针对母语每个单词的辅音和元音平均数量与辅音和元音 数量比较, 以估计单词数量。也可以使用其他量度 / 特性, 包括音素、 原音素和音素状声音。
在方框 306 中, 音频引擎 208 独立于内容估计与成年人为源的所识别片段相关联 的特性。 特性的范例包括成年人所说单词的数量、 成年人讲话的持续时间和若干父辈特征。 可以利用与上文结合关键儿童所讲单词数量所述的类似方法估计成年人所讲的单词数量。 检测成年人单词统计的方法的一个范例依据的是人注释的单词统计, 使用最小二乘线性回 归进行训练。也可以由人注释的单词统计指导或训练模型。可以通过分析成年人源片段中 的能量的量估计成年人语音的持续时间。
语言环境度量
在方框 308 中, 音频引擎 208 能够利用关键儿童片段特性和 / 或成年人片段特性 确定与语言环境相关联的一个或多个度量。例如, 音频引擎 208 能够通过分析与每个片段 相关联的特性和时间来确定若干谈话轮次或 “轮换” 。 在一些实施例中, 可以将音频引擎 208 配置成自动确定一种或多种量度。在其他实施例中, 音频引擎 208 从输入设备 212 接收命 令以确定特定量度。
量度可以包括基于特性的关键儿童语言环境的任何可量化测量。 量度也可以是将 该特性与针对其他与关键儿童具有类似属性, 例如年龄的其他人同种特性的统计平均值进 行比较。 量度的范例包括关键儿童每天表达的平均发声次数、 所有实测天数的平均发声、 每 月的发声次数、 一天每小时的发声次数、 在选定时间期间从成年人指向儿童的单词数量, 以 及谈话的轮次。
在一些实施例中, 量度可能涉及关键儿童的发育年龄。 与预期水平相比, 作为识别 儿童发育中延迟和特质的替代或补充, 可以开发出量度, 其可以估计这种特质和发育延迟 的原因。原因的范例包括发育的医疗条件, 例如孤独症或听力问题。
在方框 310 中, 音频引擎 208 向输出设备 114 输出至少一个度量。例如, 音频引擎 208 可以响应于从输入设备 212 接收的命令, 向输出设备 214 输出与每天儿童所讲的单词数 量相关联的度量, 在输出设备中向用户显示该度量。图 7-12 是示出了输出设备 214 上显示 的量度范例的屏幕快照。图 7 示出了图解发声报告, 示出了可归因于关键儿童的每天发声 次数。图 8 示出了图解发声时间线, 示出了一天中每小时的发声次数。图 9 示出了图解成 年人单词报告, 示出了选定月份期间指向关键儿童的成年人单词数量。图 10 示出了图解单 词时间线, 示出了可归因于关键儿童的一天中每小时的单词数量。图 11 示出了讲话权获取 报告的图解表示, 示出了每月选定天中关键儿童经历的谈话轮次数量。图 12 示出了选定量 的时间内针对特定特性关键儿童的语言进展的图解表示。
快照
在一个实施例中, 向用户提出一系列问题以得到关于关键儿童语言技能的信息。问题基于儿童学习讲话时实现的公知里程碑。 问题的范例包括儿童当前是否表达特定的发 声, 例如儿语、 单词、 短语和句子。一旦用户以预定方式对问题做出响应, 不提出任何新问 题, 基于对问题的响应为用户提供讲话者的发育快照。 在一个实施例中, 一旦输入三个 “否” 答案, 表示儿童未表现出特定技能, 系统停止并确定发育快照。可以周期性地重复提问, 并 基于答案, 在一些实施例中基于来自记录处理的数据对快照显影。快照的范例可以包括图 12 中所示的语言发展图。在替代实施例中, 通过分析记录的语音并使用获得的信息自动回 答问题, 从而自动回答一系列问题。
本发明的某些实施例不需要向很多语音识别系统需要的那样要求关键儿童或其 他讲话者训练系统。通过将该系统做出的特定判断与审查抄本做出的判断进行比较, 一开 始可以为根据本发明一些实施例的记录系统设定基准。为了对分段器的性能设定基准, 比 较 1) 关键儿童相对于非关键儿童以及 2) 成年人相对于非成年人的识别, 以及与片段相关 联的讲话者 / 源的识别精确度。
尽管上文描述了处理记录的语音以获得量度, 例如字数和谈话轮次, 其他类型的 处理也是可能的, 包括在常规语音识别系统中使用本发明的特定方面。可以处理记录的语 音文件以识别特定单词或单词序列, 或者可以保存或共享语音。 例如, 可以保存儿童第一次 说出 “mama” 或 “dada” , 就像保存儿童照片或经由 e-mail 与家庭成员分享。
有表现力的语言评估
每种语言都具有独特的一组含义上有对比性的声音, 称为音素清单。英语有 42 个 音素, 24 个辅音因素和 18 个元音音素。 音素是一种语言中能够传达出含义区别的最小语音 单位。如果其在最小单词对中的存在与含义的差异相关联, 则认为声音是音素。例如, 我们 知道 /t/ 和 /p/ 是英语的音素, 因为它们在相同环境中的存在导致含义变化 ( 例如, “cat” 和 “cap” 具有不同含义 )。遵循语言学惯例, 在斜线之间表示音素, 例如 /r/。
自动评估关键儿童的语言发展的一个实施例使用了来自用于从成年人语音识别 内容的自动语音识别 (“ASR” ) 系统的音素解码器。一个范例是来自 Carnegie Mellon University 提供的 Sphinx ASR 系统的音素检测器部件。 音素解码器识别一组音素或语音, 包括辅音状的音素, 例如 “t” 和 “r” 以及元音状的音素, 例如 “er” 和 “ey” 。ASR 音素是音 素的近似 ; 它们在声学上类似于真实音素, 但它们并非始终听上去像本地讲话者分类为音 素那样。在这里将这些伪音素称为 “音素” 或 “音素类别” , 并使用引号表示。例如, “r” 表 示音素或音素状的声音。
由于成年人语音和儿童发声之间的显著差异, 来自被设计成识别成年人语音的模 型未成功用于处理儿童发声。在单词发音和语言模型两个方面, 儿童发声比成年人语音更 加多变。 儿童从非常年幼的年龄时高度非结构化的语音模式变换为更大年龄更加结构化的 模式, 最终变得类似于成年人的语音, 尤其是在 14 岁左右。于是, 在应用于大约 6 岁年龄之 下的儿童发声或语音时, 被设计成识别成年人语音的 ASR 系统不能工作。即使是那些针对 儿童语音设计的 ASR 系统也未很好地工作。例外限于提示儿童发出特定预定单词的系统。
儿童语音的变化还使得难以开发针对 ASR 系统的模型以处理儿童发声。大部分 ASR 系统识别音素和单词。非常年幼的儿童 ( 小于 12 个月年龄 ) 不会发出真正的音素。他 们发出原音素, 它们可能在声学上看起来, 听起来像音素, 但不够规则, 不足以成为音素, 且 可能不传达含义。儿童的音素频率分布与成年人的音素频率分布非常不同。例如, 非常年幼的儿童不能发出音素 /r/, 因此不会出现很多 “r” 音素。不过, 随 着时间推移, 出现越来越多的 “r” 音素 ( 至少对于说英语的儿童来说 ), 直到儿童实际发出 /x/ 音素为止。非常年幼的儿童可能不会将含义归于原音素或音素。大约在他们开始讲话 时 ( 通常在 12 个月年龄左右 ), 儿童开始发出真正的音素, 但即使那时, 也可能仅有非常了 解儿童的人能够识别音素。 不过, 即使在儿童能够发出真实音素之前, 也可以使用儿童的发 声评估儿童的语言发展。
尽管成年人 ASR 模型对儿童语音效果不好, 但本发明的一个实施例使用针对成年 人语音设计的 ASR 系统的音素解码器, 因为目的是独立于儿童语音的内容评估儿童的语言 发展。尽管儿童不发出真实音素, 但迫使音素解码器挑选与儿童发出的每个音素匹配最好 的音素类别。通过选择适当的音素类别加以考虑, 可以使用成年人 ASR 音素解码器评估儿 童的发声或语音。
如对于 “r” 音素所示, 在音素频率和实足年龄之间有某种相关性。相关性可以是 正的或负的。对于不同年龄范围, 该关系有所变化并且对于一些音素而言是非线性的。图 13 示出了选定音素和实足年龄之间的相关性。如图 13 所示, 在年龄和 “r” 音素之间存在正 相关, 在年龄和 “b” 音素之间存在负相关。如图 14 所示, 在所关心的年龄范围内, 相关性可 以是非线性的。例如, 对于 0 到 6 个月, 7 到 13 个月以及 14 到 20 个月的年龄, “l” 音素的 相关性是正的, 但之后对于 21 到 30 个月和 31+ 个月的年龄, 变为负的。
为了评估儿童的语言发展, 一个实施例使用了在儿童语言环境中获取的一个或多 个记录。处理每个记录以识别记录中与具有高置信度的儿童对应的片段。典型地, 在儿童 发出最少 3000 个音素的持续时间中该记录大约为 12 小时。如上文更详细所述, 可以使用 多个模型识别关键儿童片段, 包括, 但不限于基于年龄的关键儿童模型、 其他儿童的模型、 成年男性模型、 成年女性模型、 电子设备模型、 沉默模型和高声 / 清晰度模型。使用这些模 型允许在儿童的语言环境中获取记录, 而不需要在受控或临床环境中获取记录。
音素解码器处理高置信度关键儿童片段 ( 即, 视为充分清晰的关键儿童片段 ), 并 针对每个音素类别做出频率统计。 针对特定音素的频率统计代表在高置信度关键儿童片段 中检测到特定音素的次数。针对特定音素类别 n 的音素参数 PCn 代表针对该音素类别的频 率统计除以所有音素类别中音素的总数。一个具体实施例使用了 46 个音素类别, 其中 39 个音素类别对应于语音 ( 参见图 13), 7 个音素类别对应于非语音或噪音 ( 填补类别 ), 例如 对应于呼吸、 咳嗽、 笑声、 咂嘴声、 “uh” 、 “uhum” 、 “um” 或沉默的声音。其他实施例可以使用 除了 Sphinx 解码器之外的音素解码器。由于不同的音素解码器可以识别不同的音素类别 和 / 或不同的非音素类别, 所以使用的特定音素和非音素类别可以与图 12 和 13 所示的不 同。为了计算针对关键儿童的有表现力的语言索引 z 分数, ELZ( 关键儿童 ), 在以下方程中 使用音素参数 PCn :
ELZ( 关键儿童 ) = b1(AGE)*PC1+b2(AGE)*PC2+… +b46(AGE)*PC46(1)
有表现力的语言索引包括与关键儿童年龄 (AGE) 下每个音素类别 n 相关联的权重 bn(age)。例如, b1(12) 对应于与 12 个月年龄的音素类别 1 相关联的权重, b2(18) 对应于 与 18 个月年龄的音素类别 2 相关联的权重。有表现力的语言索引方程中的权重 bn(age) 对于不同年龄可能不同, 因此对于从 2 个月到 48 个月每个月龄有不同方程。在一个实施例 中, 针对 12 个月大儿童的方程使用图 15 中 “12 个月” 列中所示的权重。下面讨论针对权重bn(age) 的值的推导。
为了增强可判读性并符合语音语言病理学家 (“SLP” ) 执行的语言评估中通用的 格式, 例如 PLS-4( 幼儿园语言尺度 -4) 和 REEL-3( 易于接受的有表现力突发语言 -3), 可以 对有表现力的语言索引进行标准化。这个步骤是任选的。方程 (2) 将分布从平均值= 0 和 标准偏差= 1 修改为平均值= 100 和标准偏差= 15, 以对有表现力的语言索引进行标准化 并生成有表现力的语言标准分数 ELSS。
ELSS = 100+15*ELZ(Key Child)(2)
SLP 执行的语言评估工具通常从所观测行为的次数估计发育年龄。利用所关心年 龄范围中大的儿童样本, 将发育年龄定义为获得给定原始次数的中值年龄。在该系统的一 个实施例中, 音素概率分布不产生所观测行为的原始次数, 以替代方式产生发育年龄作为 对儿童实足年龄的向上或向下调节。在这一实施例中, 调节的大小既与有表现力的语言标 准分数 (ELSS) 成比例又与针对儿童的实足年龄观测的 ELSS 的变化成比例。
应用边界条件以防止无意义的发育年龄估计。 边界条件将与平均值之间标准偏差 大于 2.33 的任何估计 ( 大致等于第 1 和第 99 百分位 ) 设置为第 1 或第 99 百分位。下文 在方程 (3) 中示出了基于年龄的平滑化变化估计。下文论述方程 (3) 中所示的除年龄之外 的值的确定。
SDAGE = 0.25+0.02*Age(3)
为了确定儿童有表现力的语言发展年龄 ELDA, 如下文在方程 (4) 中所示调节儿童 的实足年龄。下文讨论方程 (4) 中所示恒定值的确定。
ELDA = Chronological Age+Constant*SDAGE*ELSS(4)
在一个针对 12 个月大的实施例中, 利用实足年龄 12 和常数 7.81, 如下所示计算有 表现力的语言发展年龄 :
ELDA = 12+7.81*SDAGE*ELSS(5)
系统能够输出儿童的 EL 标准分数, ELSS 和儿童的 EL 发展年龄, ELDA。或者, 系统 能够将儿童的实足年龄与计算的发育年龄比较, 并基于该比较, 在两者之间的差异超过阈 值时输出标志或其他指示符。例如, 如果 ELSS 比正常值低超过 1.5 倍标准偏差, 那么可以 输出消息, 指出可以延迟语言发展或表示需要进一步评估。
通过将 EL 标准分数与 EL 发育年龄与从 SLP 执行的评估导出的结果比较来测试 EL 模型的有效性。EL 发育年龄与实足年龄 (r = 0.95) 和来自在 r = 0.92 处 SLP 执行的评 估的年龄估计很好地相关。EL 标准分数是潜在有表现力的语言延迟的精确预测值。使用 77.5 的阈值分数 ( 低于平均值 1.5 倍标准偏差 ), EL 标准分数在一项研究中基于 SLP 评估 正确识别了下降到阈值以下的 68%的儿童。 被识别为可能有延迟的百分之三十二的儿童具 有低于平均值的 EL 分数, 但不满足 77.5 阈值分数。基于其 EL 分数, 仅有 2%的非延迟儿童 被识别为具有可能的延迟。
增大 EL 评估精确度的一种方式是对从三个或更多记录期间导出的 EL 分数求平均 值。一个实施例对针对同一关键儿童在不同天做出的三项记录导出的三个 EL 分数求平均 值。由于模型是基于月龄的, 所以应当在时间上相当密集地获取记录。对三个或更多 EL 分 数求平均值增加了 EL 分数和 SLP 评估分数之间的相关性, 从 r = 0.74 增加到 r = 0.82。
将 EL 发育年龄与来自父母问卷的结果组合还提高了 EL 评估的精确度。 LENA 发育快照问卷是问卷的一个范例, 使用针对父母的一系列问题获得关于儿童语言发展重要里程 碑的信息, 例如识别出儿童何时开始呀呀学语, 使用特定词汇或造句。 LENA 发育快照基于问 题的答案计算发育年龄。应当在记录期间发生时或非常接近这个时间完成问卷。通过对问 卷计算的发育年龄和 EL 评估计算的发育年龄求平均值, 计算的估计值和 SLP 估计值之间的 相关性增加到大约 r = 0.82。 如果对三个或更多 EL 分数和问卷结果求平均值, 那么相关性 更大, 大约为 r = 0.85。除了简单求平均值之外的方法将可能产生更高的相关性。如果问 卷包括涉及易于接受的语言发展以及有表现力的语言发展的问题, 那么相关性可以更大。
尽管以上范例检测单个音素并使用单个音素的频率分布来估计标准分数和发育 年龄, 但也可能以类似方式使用针对特定音素序列的频率分布。例如, 可以在对于针对不 同年龄的不同单音素和音素序列包括不同权重的方程中使用单音素和音素序列的频率分 布。在一个实施例中, 可以使用双音素序列代替单音素, 在另一实施例中, 可以使用三音素 序列。在又一实施例中, 可以使用音素和双音素或音素、 双音素和三音素的组合。本发明不 限于用于音素、 双音素或三音素。
双音素 ( 或使用多于一个音素 ) 允许结合序列信息。在语言中, 音素倾向于按照 逻辑序列发生 ; 因此, 通过不仅分析音素而且分析音素序列获得了额外的分辨率。双音素 被定义为解码序列中的每对相邻音素。例如, 解码音素序列 “P A T” 包含音素对 “P-A” 和 “A-T” 。从以上范例可知, 在这种情况下三音素序列是 “P A T” 。注意, 包括单音素, 作为与 讲话开始或停止标志配对的单音素。 然后使用双音素频率作为上文针对单音素情形所述的同样类型线性回归模型的 输入。引入双音素或三音素还带来了挑战性的技术问题, 即, 双音素的维度 ( 双音素的总 数 ) 显著大于单音素 (n 的平方之于 n), 三音素的维度 (n 次幂之于 3) 比双音素和单音素大 更多。 给定 46 个音素类别加上讲话开始和结束标志, 可能的音素对的总数为 48*48 = 2304。 包括线性回归的这种高维输入可能是有问题的 ; 预测值的绝对数量可能容易导致训练的回 归模型过度拟合到训练数据, 使得与新样本的一般化较差。 利用充分量的数据, 这个问题可 能停止存在。大尺度使得模型尺度更大, 需要多得多的数据来训练。主成分分析 (PCA) 用 于将大尺度减小到小尺度。对于双音素, 当前数据表明维度从 2000 减小到大约 50 给出了 最佳结果。
为了解决这个问题, 在一个替代实施例中, 使用主成分分析 (PCA) 将双音素空间 的尺度从超过 2300 减小到 100 以下。PCA 是用于数据压缩、 尺度减小等的数据驱动的统计 分析工具。具有大部分数据 “扩展” 或 “分布” 的数据的低得多尺度的子空间是要搜索的主 分量子空间。对于一维子空间, 可以将数据 “扩展” 量化为方差。大量的试验表明, 将双音素 PCA 空间减小到 50 尺度提供了最佳结果。将超过 2300 个双音素组合减少到 50 个主分量, 以用作预测基于 SLP 的分数的多重线性回归中的预测器, 完全如上文在多音素情形中所述 那样。与单音素 (r = 0.72, p < .01) 相比, 估计的双音素方式改善了与基于 SLP 的有表现 力语言合成分数的相关性 (r = 0.75, p < .01), 两者都低于留下一个儿童交叉确认的方法。
以下是对 PCA 的简述。对于一组数据 {xi|i = 1,…, n}, 可以通过以下方式构造 PCA 最佳线性变换 :
1. 计算协方差矩阵 S =∑ (xi-m)(xi-m)T, 其中 m 是数据集的平均值。
2. 计算经分类的本征值和关联的本征矢量 :
[λ1, λ2,…, λn], [v1,…, vn], 其中 Svi = λivi 且 λi ≥ λi+1。 3. 为了减小线性变换之后的尺度, 可以选择前 m 个分量以构造线性变换, 其中 m< n。 4. 新特征会是 y = [v1,…, vm]Tx。
在实际试验中, 在去除平均值和不去除平均值的情况下尝试第一步。对于当前的 数据, 它们之间没有基本差异。
另一替代实施例使用音素持续时间而不是音素频率。在这一实施例中, 音素解码 器确定每种音素类别的时间长度或持续时间。针对特定音素类别 n 的音素持续时间参数 PCn 表示针对该音素类别的持续时间除以所有音素类别中音素的总持续时间。为了计算针 对关键儿童的有表现力的语言索引 z 分数, 在类似于方程 (1) 但使用不同权重的方程中使 用音素持续时间参数。可以通过类似于用于计算频率分布权重的方式计算权重。
估计的讲话平均长度
语音和语言专业人员传统上使用 “讲话平均长度” (MLU) 作为儿童语言复杂性 的指标。这种测量一开始由 Brown 定型, 假设由于儿童讲话长度随着年龄而增加, 能够通 过了解儿童讲话或语句的平均长度来导出儿童有表现力的语言发展的合理估计。参见 Brown, R., A First Language : The Early Stages, Cambridge, Mass., Harvard University Press(1973)。Brown 等人将讲话长度与发育里程碑关联起来 ( 例如, 生产性地使用抑扬顿 挫的形态 ), 报告了与 MLU 相关联的语言发展的相容阶段。讲话长度被认为是直到 4 到 5 个 词素的 MLU 的儿童语言复杂性的可靠指标。
为了基于音素频率分布辅助开发 MLU 等效度量, 录制设备为 55 个 15 到 48 个月年 龄的儿童计算 MLU( 大致每个月龄两个儿童 )。 录制设备遵循 Miller 和 Chapman 中描述的录 制和词素统计准则, 其又基于 Brown 的原始规则。参见 Miller, J.F.Chapman, R.S., ″ The Relation between Age and Mean Length of Utterance in Morphemes″, Journal of Speech and Hearing Research, Vol.24, pp.154-161(1981)。他们在每个文件中识别 50 个 关键儿童的讲话并统计每次讲话时的词素数目。 通过将每个录制文件中的词素总数除以 50 计算 MLU。
除了有表现力的语言标准分数 (ELSS) 和发育年龄 (ELDA) 之外, 系统还生成估计 的讲话平均长度 (EMLU)。 在一个实施例中, 类似于有表现力的语言估计 ELZ 的估计, 通过从 音素频率或音素持续时间分布直接预测人导出的 MLU 值可以产生 EMLU。在另一实施例中, 可以利用发育年龄, 基于简单线性回归产生 EMLU, 以预测人导出的 MLU 值。例如,
EMLU = 0.297+0.067*ELDA(6)。
方程值的推导
为了辅助开发这里所述的用于分析儿童语音的各种模型, 收集了在其语言环境中 从 2 到 48 个月龄的 336 个儿童的超过 18000 小时的记录。录制数百小时的这些记录, SLP 执行超过 1900 次标准儿童评估, 包括 PLS-4 和 / 或 REEL-3 评估。大多数记录对应于表现 出正常语言发展的儿童。这种数据用于确定方程 (1)、 (2)-(5) 和 (6) 中的值。
例如, 将针对每个儿童的观测和评估一起求平均值并转换成标准 z 分数, 以产 生针对特定年龄的每个儿童的有表现力的语言指标值。连同多重线性回归一起, 使用从 Sphinx 音素解码器输出的音素类别信息以确定用于每个年龄的有表现力语言索引的适当
权重。 使用迭代过程确定用于方程 (1) 的一组权重 (b1(AGE) 到 b46(AGE))。在第一步 中, 将针对特定月龄儿童的数据分组到一起, 以确定针对每个年龄组的一组权重。例如, 来 自 6 个月大的数据用于生成针对 6 个月大的有表现力语言索引的一组权重。在下一步中, 将类似年龄儿童的数据分组到一起以确定针对每个年龄组的不同组权重。例如, 来自 5、 6 和 7 个月大的数据用于生成针对 6 个月大的有表现力语言索引的不同组权重。在后续步骤 中, 包括针对其他年龄范围的儿童的数据。例如, 来自 4、 5、 6、 7 和 8 个月大的数据用于生成 针对 6 个月大等的有表现力语言索引的不同组权重。针对所有年龄月份并跨越越来越宽的 年龄范围重复这个过程。 使用动态程序设计方法选择最佳年龄范围和针对每个月龄组的权 重。例如, 在一个实施例中, 在 12 个月年龄时, 在图 15 中的表格中示出了从 6 个月年龄到 18 个月年龄的年龄带和权重。图 15 还示出了针对另一范例的权重, 针对 6 个月年龄的关 键儿童, 年龄带从 3 个月到 9 个月, 以及针对 18 个月的关键儿童的权重, 年龄带从 11 个月 到 25 个月。尽管这些范例中的年龄范围是对称的, 但年龄范围不必是对称的, 对于所关心 年龄范围的末尾, 通常不是对称的。
经由留下一个交叉确认 (LOOCV) 的方法测试计算的权重。对每个儿童执行一次以 上迭代过程 (N = 336), 在每次迭代中, 从训练数据集丢弃目标儿童。然后使用所得的模型 为目标儿童预测分数。于是, 使用来自每位参加者的数据生成 N-1 轮中的模型参数。为了 证实该模型, 考虑所有模型间求平均的预测均方误差。最终的年龄模型包括适当年龄范围 中的所有儿童。
示范性 EL 系统
图 16 示出了针对示范性系统的方框图, 该系统计算 EL 分数和如上所述的发育年 龄。图示的系统包括数字记录器 1602, 用于记录与儿童的语言环境相关联的音频。由特征 提取部件 1604 以及分段和片段 ID 部件 1606 处理记录的音频以提取高置信度的关键儿童 片段。用于识别来自成年人语音的内容的基于模型的音素解码器 1608 处理高置信度关键 儿童片段 1607。音素解码器向 EL 部件 1610 提供关于特定音素的频率分布的信息。如上所 述, EL 部件使用该信息计算 EL 分数, 估计发育年龄和 / 或估计讲话的平均长度。报告和显 示部件 1612 酌情输出 EL 信息。
尽管图 16 示出了利用处理在儿童语言环境中获取的记录的系统 ( 例如 LENA 系 统 ) 处理记录, EL 评估能够利用以任何方式产生的关键儿童片段工作, 包括在临床或研究 环境中获取的记录或使用自动和人工处理的组合产生的片段。
孤独症检测
在一个实施例中, 用于检测孤独症的系统和方法使用上述自动语言处理系统和方 法。处理在自然语言环境中捕获的记录并生成那些已知主题的语言发展模型。使用足够大 的样本, 可以确定语言发展中的趋势。这被称为规范性趋势。通常, 如果有希望研究的特定 发育失调, 那么研究失调个体和正常个体的语言并发展出趋势。这里所述的方法是使用语 言分析如何可以检测特定发育失调、 孤独症的范例。 不过, 可以将该方法和系统应用于多种 失调和疾病, 例如孤独症和阿尔茨海默病。可以通过本实施例检测可通过分析语言检测的 所有疾病和失调。
在孤独症的情况下, 在孤独症频谱失调 (ASD) 中描述了个体语音中的畸变。在
大量研究中已经表明, 孤独症确实与声音质量、 韵律和其他语音特征的异常相关。参见 R.Paul, A.Augustyn, A.Klin, F.R.Volkmar, Journal of Autism and Developmental Disorders 35, 205(2005) ; W.Pronovost, M.P.Wakstein, D.J.Wakstein, Exceptional Children 33, 19(1966) ; 以及 S.J.Sheinkopf, P.Mundy, D.K.Oiler, M.Steffens, Journal of Autism and Developmental Disorders 30, 345(2000)。 不过, 这些语音特征不容易检测 或识别 ; 因此, 孤独症的定义 (DSM-IV-TR, APA, 2000) 不包括这样的特征包括什么的描述。
在这一实施例中, 可以基于正性标记, 基于先前不能执行的语音特性, 肯定地 检测孤独症。通常, 利用 “负性标记” , 例如协同注意的欠缺, 检测孤独症。例如, 参见 : S.Baron-Cohen, J.J Allen, C.Gillberg, The British Journal of Psychiatry 161, 839(1992) ; K.A.Loveland , S.H.Landry , Journal of Autism and Developmental Disorders 16, 335(1986) ;以 及 P.Mundy, C.Kasari, M.Sigman, Infant Behavior and Development 15, 377(1992)。
可以将确定儿童孤独症使用的方法描述为使用透明参数的儿童语言分析 (CSATP)。 大致上, 透明参数是可以从声音信号提取并在语言或所发出声音的含义方面独立 于声音信号实际内容的那些参数。下文进一步论述透明参数。CSATP 包括若干步骤 : 分段 ; VOC, CRY 和 VEGFIX 分类和发声次数 ; 声学分析 ; 透明参数的提取 ; 以及数据集分类。 利用这 种方法和正常语言发育、 延迟语言发育以及孤独症儿童的充分大小样本, 可以针对这些组 发展出语言趋势。参见以上相对于音频引擎 208 的 VOC、 CRY 和 VEGFIX 分类的论述, 分类可 以将关键儿童音频片段分成一个或多个类别。
图 17 和 18 分别示出了检测孤独症的方法以及生成趋势以用于检测孤独症的方法 中的方法的流程图。如上所述参考图 4 和方框 304 执行方框 1810 和 1835 的分段。在方框 1810 中, 对针对个体关键儿童的数据进行分段, 在方框 1835 中, 对正常、 延迟和孤独症儿童 的多条记录进行分段。在分段期间, 针对特定一条记录识别讲话者。在已经识别了讲话者 之后, 进一步分析来自相关讲话者的语言, 在这种情况下, 讲话者为关键儿童。图 19 在顶部 图中示出了分段过程, 并进一步将关键儿童片段分解成 VOC、 CRY 和 VEGFIX 片段。
然后分别在方框 1815 和 1840 中将在方框 1810 和 1835 中被识别为属于关键儿童 的片段分解为发声 (VOC)、 哭泣 (CRY) 以及呆板声音和固定信号声音 (VEGFIX)。 根据儿童的 年龄, 发声包括各种语音。在 0 到 4 个月之间, 发声仅包括元音状的声音。在 5 个月左右, 儿童开始发出由非常基本的辅音 - 元音序列构成的边际音节。一些儿童做出被称为咂舌声 的唇颤音, 也被视为发声。在七个月左右, 儿童的发声可以包括规范音节和重复的唠叨, 这 是构造很好的辅音和元音序列。 在这个阶段, 儿童可以利用间距的变化, 产生高间距的尖叫 声和低间距且发声困难的咆哮。在一岁左右, 儿童开始说孤立的单词, 但一直儿语到 18 个 月左右。到两岁, 儿童将具有相当大的口语词汇。简而言之发声包括对儿童语言发展有贡 献的所有有含义声音。
呆板声音包括所有与呼吸和消化相关的非口头声音, 例如, 咳嗽、 嚏喷和打嗝。固 定信号是与对环境的自发反应相关的声音, 例如笑声、 呻吟、 叹息和咂嘴。集中检测呆板声 音和固定信号声音。消除这些类型的声音, 因为它们不提供关于语言完善度的信息。
应当指出, 哭泣也是一种固定信号。 与其他固定信号不同的是, 哭泣是非常频繁的 ( 取决于年龄 ) 并传达各种情绪感觉和身体需要。尽管在这种具体方法未执行, 可以使用根据所述技术的哭泣分析来检测失调或疾病, 因为在儿童的生命中哭泣也是另一种沟通手 段。
利用 Mel 频率对数倒频谱系数 (MFCC) 和子带频谱质心 (SSC) 通过统计处理执行 儿童语音分类。可以使用其他统计处理技术。
使用 MFCC 是用于自动语音识别的标准现有技术方法。虽然不如 MFCC 普及, 另一 种可用类型的特征是 SSC。 在常规 MFCC 特征中, 对给定子带中的功率谱进行平滑化, 仅保留 功率谱的加权幅度, 而在 SSC 中, 提取每个子带的质心频率。SSC 能够针对语音段跟踪每个 子带中的峰值频率, 而对于非语音段, 其保持在子带的中心。MFCC 自身是比 SSC 更好的特 征, 但 MFCC 和 SSC 的组合针对成年人语音的自动语音识别展示出更好的性能。为各种应用 使用 SSC, 下面列出了它们中的一些 :
成年人语音识别
讲话者验证或识别
冲击音的音色识别
尽管 MFCC 对于提取一般频谱特征是好的, SSC 在检测共振峰时将是有用的。由于 在儿童发声而非在呆板声音 / 固定信号声音中发现了共振峰轨迹 ( 尽管浊音哭泣可能具有 共振峰轨迹 ), 但可以在儿童语音处理中跟踪共振峰轮廓线。
对 于 儿童 语音处理, 使用具 有 2000 个高斯 型 曲线 的固定 边 界高斯 混 合模型 (FB-GMM) 分类器, 即, 针对在先前阶段中识别的每个能量岛执行统计分类。 利用两组特征生 成模型 : MFCC 和 SSC。利用具有 36 个系数的 40 个滤波器库提取 MFCC。利用 7 个滤波器库 生成 SSC 以仅捕获共振峰。由于这项研究中使用的音频具有 16KHz 的采样频率, 所以使用 300 到 7500Hz 范围中的滤波器库。因此, MFCC-SSC 特征具有 (36+7 = )43 的尺度, 利用 δ 信息, 其变为 (43*2 = )86。
在年龄依从性建模的语境中, 目的是对三种语音发声、 哭泣和固定信号 / 呆板声 音进行分类。不过, 儿童的这三个类别随着年龄变化而极大变化。因此, 针对 0 到 48 个月 的整个年龄范围的一个模型将不满足我们的目的。 若干研究表明, 从出生到四岁大, 儿童的 声道可以从大约 5cm 生长到 12cm。其他研究表明, 共振峰频率高度取决于声道的长度。通 过 “声道的开放管道模型” , 由 给出 Fi, 第 i 个共振峰频率和 l, 声道长度之间的关系, 其中 c 是空气中的声速 ( 在体温和适当压力下, 口内部的湿空气 )。这表明声道长 度越大, 共振峰频率越小。因此, 由于婴儿声道的生长迅速, 共振峰频率变化, 因此, 总体语 音特性几乎在年龄的每个月都变化。因此, 针对从 0 到 48 个月儿童的每个月龄生成三个模 型 -/voc/、 /cry/ 和 /vegfix/。
利用年龄依从性发声、 哭泣和固定信号 / 呆板声音模型对儿童年龄的先验知识进 行分类。
在方框 1820 和 1845 中, 对 VOC 岛执行声学分析 ( 与极低能量周期划界的极高能 量周期对应的记录 )。然后利用声学特性进一步分析儿童片段中的岛。从 VOC 岛提取以下 升学特征 :
1. 持续时间分析 : 假设构成儿童语音的每个能量脉冲必须要有特定持续时间, 以 被视为有含义的语音 ( 发声 )。 例如, 如果连续能量段超过 3 秒钟, 假设语音不是发声, 但很可能是某种哭泣或尖叫声 ( 基于其他标准 )。 图 6 示出了发声的范例, 其是一系列辅音元音 序列 (hi-ba-ba-bab-bab)。仅有元音是高能量部分, 而辅音具有低能量。测量高能量部分 的持续时间以确认发声。
2. 规范音节识别 : 在 CV、 VC、 CVC 或 VCV 序列中可能观察到共振峰跃迁 ( 主要针对 F1 和 F2)。图 6 是一系列的 CV 和 CVC 序列, 示出了从 /b/ 到以下元音 /a/, 然后到 /b/ 的共 振峰跃迁。这些类型的共振峰运动表示作为发声部分的规范音节。
3. 清晰度分析 : 共振峰带宽标志着发音的清楚程度。 带宽越窄, 语音越清楚。 预计 哭泣或其他固定信号 ( 例如咂嘴 ) 或呆板声音将比真实的发声具有更宽的带宽。图 20 示 出了对 F1 和 F2 分组如何能够标记清晰度水平的经验显示。基于每个清晰度水平的 “优良 度” 向每个清晰度组分配分数。
4. 情绪强度分析 : 观察到高强度语音 ( 例如以全肺的空气哭泣 ) 具有超过 1500Hz 的第一频谱峰值。 正常发声在较低频率 ( 从 300 到 3000Hz) 将比较高频率 (6000 到 8000Hz) 具有更高能量。于是, 预计从频谱的第一部分到频谱末尾将有 30dB 的下降, 这被称为具有 负斜率的频谱倾斜。对于哭泣, 可能不存在频谱倾斜, 其中频谱相当平坦。具有正斜率的频 谱倾斜 ( 在较低频率下能量低, 在较高频率下能量高 ) 表示非口头声音 ( 例如呼吸、 咂嘴 声 )。 5. 发声困难分析 : 假设几乎由元音构成的正常发声使得频谱呈周期性。另一方 面, 发声困难的声音具有相当随机的频谱, 在频谱中有子谐波。 可以通过频谱的熵测量频谱 的随机性。熵越高, 频谱越随机, 发声困难越大。
6. 间距分析 : 使用间距来检测尖叫声和咆哮。儿童的正常间距介于 250 到 600Hz 的范围中。如果间距超过 600Hz( 可以高达 3000Hz), 将发声标记为尖叫声。类似地, 咆哮是 间距低于 250Hz 的发声。
7. 语调分析 : 语调在确定儿童情绪时具有重要的作用。尖叫声和咆哮是仅在他们 游戏和愉快时才有的发声。那些高或低间距且发声困难的声音的生气版本是哭泣。间距轮 廓线有助于判断语音是生气还是愉快。 通常, 越来越大的间距是愉快声音的标志, 越来越小 的间距是忧愁的声音。
8. 合声分析 : 假设发声几乎由元音构成 ( 合声的语音 ), 交织有辅音 ( 清音化的语 音 )。如果整个语音段是清音化的, 那么假设它是某种呆板声音 / 固定信号声音 ( 例如, 咳 嗽、 清嗓子等 )。
对于这种分析, 利用线性预测性 (LP) 分析检测共振峰和共振峰带宽, 基于自相关 计算间距。最后, 通过应用平滑滤波器 - 中值滤波器提取共振峰和间距轮廓线。利用 1024 点的 FFT 执行其他频谱分析。
在图 17 和 18 的方框 1825 和 1850 中, 提取透明参数。使用这些参数判断受检者 是正常的还是孤独症。图 21 示出了与确定孤独症相关的声学参数。图 21 和 22 示出了可 以从记录提取的其他声学和非声学参数。在本实施例中, 将图 21 和 22 所示的声学参数用 于检测孤独症。或者, 图 22 所示的非声学参数可用于检测孤独症。将这些声学和非声学参 数统称为透明参数。 通过使用本实施例的方法, 已经表明在正常、 延迟和孤独症儿童中观察 到的透明参数之间有差异。 通常, 声学参数与关键儿童生成的那些发声有关, 非声学参数是 涉及交互的那些参数, 尤其是关键儿童和成年人, 以及儿童经历的环境之间的那些交互的
参数。 图 22 中示出了九个非声学参数。以秒为单位的成年人发声长度是指记录上成年 人发声的长度。成年人发生次数是指成年人发出的发声数目。儿童发起的会话次数是指儿 童做出发声并且成年人答复的次数。谈话轮数是指儿童回答成年人发声的次数。儿童发起 的谈话中的谈话轮数是指何时儿童发起谈话并然后对成年人发生做出响应。 谈话轮次中以 秒为单位的儿童发声是指在谈话轮次中儿童发生持续的时间长度。 谈话轮次中的儿童发声 次数是指儿童在谈话轮次中做出的发声次数 ( 可能表示回答的复杂性 )。与成年人的谈话 中的儿童发声长度是在与成年人的谈话中儿童的平均发声长度。 与成年人谈话中的儿童发 声次数是在所述与成年人的谈话中儿童做出的发声次数。
图 21 中所示的十二个声学参数都被在理论上 ( 基于来自声音发展中 30 年研究的 模型 ) 和统计上 ( 如主分量分析所述, PCA) 分入与用于语音的基础设施相关的四组。 将十二 个参数的每个分类为正或负。为了针对个体儿童和记录间发声 ( 流畅性 ) 比率的差异以及 记录长度的差异进行调节, 针对每个参数, 获取标记为正的发声数目与讲话次数的比例。 这 样产生了每个记录一组 12 个数字 ( 每个数字针对一个参数 )。使用这个 12 维矢量预测声 音的发展并在分析中将记录分类为属于典型地发育或孤僻儿童。
如图 23 所示, 使用儿童年龄在 2-48 个月之间跨度的大数据集。在同一集合中有 328 个儿童的 2682 条记录表现出正常发育。有 30 位儿童的 300 条记录表现出语言发展中 的延迟。 有 34 为被诊断为孤独症的儿童的 225 条记录。 从这个数据集, 生成模型和趋势线。
在图 18 的方框 1855 中, 基于被收集的要用作模型的记录生成趋势。如下文将要 解释的, 基于透明参数的分析揭示出预测的声音发展分数。图 24-29 示出了针对预测的声 音发展分数的趋势线和数据点。图 24 示出了孤独症和正常发育儿童的声学参数的趋势图。 灰色点表示正常发育儿童的声音发育分数。灰色线是正常发育儿童的趋势线。星号表示孤 独症儿童的声音发育分数。菱形表示孤独症儿童的平均 ( 基于单个儿童的多条记录 ) 声音 发育分数。黑色趋势线针对孤独症儿童。图 25 示出了孤独症、 正常发育以及语言延迟儿童 的声学参数的趋势图。灰色星表示语言延迟儿童的平均 ( 基于单个儿童的多条记录 ) 声音 发育分数。黑色菱形表示孤独症儿童的平均 ( 基于单个儿童的多条记录 ) 声音发育分数。 灰色趋势线针对语言延迟儿童。黑色趋势线针对孤独症儿童。虚线趋势线针对正常发育儿 童。图 26 示出了正常发育以及语言延迟儿童的声学参数的趋势图。灰色点表示正常发育 儿童的声音发育分数。星号表示语言延迟儿童的声音发育分数。黑色星表示语言延迟儿童 的平均 ( 基于单个儿童的多条记录 ) 声音发育分数。黑色趋势线针对语言延迟儿童。灰色 趋势线针对正常发育儿童。
图 27 示出了正常发育和孤独癖儿童的非声学参数。灰色点表示正常发育儿童的 声音发育分数。灰色线是正常发育儿童的趋势线。星号表示孤独症儿童的声音发育分数。 菱形表示孤独症儿童的平均 ( 基于单个儿童的多条记录 ) 声音发育分数。黑色趋势线针对 孤独症儿童。图 28 示出了孤独症、 正常发育以及语言延迟儿童的声学参数的趋势图。灰色 星表示语言延迟儿童的平均 ( 基于单个儿童的多条记录 ) 声音发育分数。黑色菱形表示孤 独症儿童的平均 ( 基于单个儿童的多条记录 ) 声音发育分数。灰色趋势线针对语言延迟儿 童。黑色趋势线针对孤独症儿童。虚线趋势线针对正常发育儿童。图 29 示出了正常发育 以及语言延迟儿童的声学参数的趋势图。灰色点表示正常发育儿童的声音发育分数。星号
表示语言延迟儿童的声音发育分数。黑色星表示语言延迟儿童的平均 ( 基于单个儿童的多 条记录 ) 声音发育分数。黑色趋势线针对语言延迟儿童。灰色趋势线针对正常发育儿童。 如图 24-29 所示, 可以相对于儿童的月龄投射采用针对群体研究的声学或非声学参数获得 的预测声音发育分数。
预测的声音发育分数的生成根据的是透明参数 ( 包括声学或非声学的 ) 的分析。 例如, 对于声学参数而言, 可以进行多重线性回归 (MLR) 分析以获得发育和组区别两者的 了解。在使用声学参数的一项试验 ( 图 21 中所示 ) 中, 针对典型发育样本相对于年龄在每 条记录内对语音相关声音岛 (SVI, 先前称为 VOC 岛 ) 与语音相关儿童讲话 (SCU) 的 12 个声 学参数比进行回归, 产生相对于发声的声学组织的发育的规范模型。 在开发出模型之后, 使 用其系数计算针对孤独症和语言延迟的记录的发育分数。 对于典型发育的样本和语言延迟 的样本, 而不是孤独症样本, 发现了年龄间发育分数的生长, 孤独症样本的发育分数总体上 也显著低于典型发育样本的分数。图 24-29 示出了分析结果。
在图 17 的方框 1830 中, 将与相关关键儿童相关的数据集与已知主题的趋势线比 较, 以便判断个体是孤独症、 延迟还是正常。如图 30 所示, 使用逻辑回归分析将儿童的最佳 分类基于 12 个声学参数模型化为孤独症或非孤独症。对于正常发育的儿童, 将很高百分比 的正常儿童识别为正常。
在图 31 中, 示出了若干表格, 示出了确定孤独症似然度的各种方法的精确度。使 用逻辑回归和相等的差错率 (EER), 该方法获得高度成功, 同时仅输出少数假阳性。 例如, 在 使用 .98 的概率的情况下, 该系统和方法确定那些主题的 93%被视为正常的, 在确定一些 正常个体为孤独症时仅具有小的差错率。 同时, 在他们真正是孤独症时, 仅有 12%的个体被 确定为正常的, 88%的孤独症个体被正确识别为孤独症。表格的底部行示出了替代线性判 别分析, 并示出了类似结果。
尽管针对检测孤独症时的应用描述了以上系统和方法, 但也可以将其用于与讲话 相关的若干不同疾病和失调。通过捕获关于群体中趋势的信息, 处理信息以确定趋势并将 个体与那些趋势比较, 可以诊断疾病和失调。通常, 该模型 / 趋势生成根据图 18 所述的相 同原理工作。通过在方框 1835 中对声音信号分段以揭示要研究的受检者发出的那些声音, 然后进一步将受检者的声音细分成至少是发声的那些声音以及方框 1840 中没有的那些声 音, 可以精确定位要研究的声音信号。然后通过方框 1845 和 1850 中透明参数的声学分析 和发展, 可以揭示声音信号的特征。从这些特征, 与被研究个体的疾病或失调的流行比较, 可以在方框 1855 中生成趋势或模型, 可将其用于比较新的主题, 以便判断他们是否患有疾 病或失调。根据图 17 以类似方式处理新主题并最终与在方框 1830 中确定的趋势比较。此 外, 尽管以上描述集中在发声数据上, 由于自然语言环境中儿童记录的数据库对于非常年 幼 ( 小于一岁 ) 的儿童会生长, 关于儿童哭泣的数据可以揭示出能够检测孤独症的趋势。
在替代实施例中, 单独使用上述关于儿童语言发展的音素分析或上述音素分析结 合透明特征分析可以检测孤独症 ( 或其他疾病 )。利用音素频率或 PCA( 主成分分析 ) 尺 度减小的双音素分析, 可以通过上述系统和方法的实施例预测人的 SLP 评估分数。可以将 用于 AVA 的基于音素的特征用于孤独症检测, 系统的其余部分不变, 包括 LDA( 线性判别分 析 )、 逻辑回归等。 将基于音素的特征分析加到声学透明特征分析可以相对于孤独症检测提 供额外的分辨率。 此外, 尽管大部分分析集中在发声上, 因为自然语言环境中的儿童记录的数据库对于非常小 ( 小于一岁 ) 的儿童会生长, 但关于儿童哭泣的数据可能揭示趋势。
基于音素的孤独症检测
在替代实施例的范例中, 使用基于音素的特征检测孤独症。还包括了结合用于分 析单个儿童语言的多个记录的替代方法。 该方法包括结合后验概率空间中针对儿童的多个 记录, 与在输入特征空间中合并多个记录相反。 在本范例中这些方法特定地针对孤独症 ; 不 过, 可以将它们用于根据这里所述的任何方法检测其他失调并分析语音。 在本范例中, 基于 音素的特征比上述透明特征产生了更好的结果。 对于区分孤独症与语言延迟, 这尤其真实。
基本有两种类型 : “透明特征” ( 参见以上论述 ) 和分析孤独症时使用的基于音素 的特征, 可以在分析可通过分析语音检测的个体的任何失调或特征时应用这些特征。另一 种可能的分析可以包括透明和基于音素的特征的组合。 因此 “ft-12” 代表 “透明特征” “ft” , 表示透明特征, 12 表示透明特征的数目 ( 如先前实施例中所述 ) ; “biph-50” 表示基于双 音素的特征, 其具有通过 PCA( 主成分分析 ) 的 50 个尺度。 “组合” 分析表示将 “ft-12” 和 “biph-50” 放在一起。
所有三种特征, ft-12、 biph-50 和组合特征都可以是 “年龄归一化的” , 即, 基于针 对集合 -N 中每个月龄组的特征的平均值和标准偏差, 以去除平均值并利用标准偏差缩放 : new_feature = (old_feature-mean)/std。
结合来自单个儿童的多条记录的方法可以有所变化 ; 在本范例中, 考虑到使用的 数据, 判定使用后验概率是最有效的。 先前, 将来自不同记录的年龄归一化特征一起求平均 值, 以形成针对儿童的单个特征矢量。或者, 如在本范例中那样, 可以使用每个个体记录及 其特征矢量来获得后验概率。可以在后验概率空间中进行针对儿童的多条记录的结合。可 以对来自多条记录的后验概率一起求平均, 以获得针对儿童的单个平均后验概率。平均值 可以是 “几何的” 或 “算术的” 。
A. 使用的数据
本范例中使用的数据与上文所述和图 23 所示的数据相同。这种数据包括三组儿 童: 1) 典型发育的或正常儿童 ( 由下面表 1 中的 “N” 或 “n” 表示 ) ; 2) 语言延迟的儿童 ( 由 下面表 1 中的 “D” 或 “d” 表示 ) ; 以及 3) 孤独症儿童 ( 由下面表 1 中的 “A” 或 “a” 表示 )。 在集合 -N 中有 328 个儿童和 2678 条记录, 在集合 -D 中有 30 个儿童和 290 条记录, 在集 合 -A 中有 34 个儿童和 225 条记录。所有记录都是一天时间 ( 比 12 小时长 )。数据的汇总 是:
集合 -A : 孤独症儿童 ; 34 个儿童 ; 225 条记录
集合 -D : 延迟的儿童 ; 30 个儿童 ; 290 条记录
集合 -N : 典型儿童 ; 328 个儿童 ; 2678 条记录
三项基本任务基于集合 -N、 D、 A 的每对以查看它们每对的分类 : 1) 从延迟分类出 孤独症 ; 2) 从正常分类出延迟 ; 以及 3) 从正常分类出孤独症。 对于孤独症检测, 从正常集合 以及延迟集合检测孤独症是实际的重点。 即使对于孤独症之于非孤独症 ( 延迟 + 典型 ), 也 可以相对于从延迟分离出孤独症以及从典型集合分离出孤独症的细节实现额外的分辨率。 以下是六种研究情况的摘要 ( 在表 1 中反映 ) :
a-d : 从集合 -D 到集合 -A, 利用 LOOCV 在集合 -A、 D 上训练和测试 ;
d-n : 从集合 -N 检测集合 -D, 利用 LOOCV 在集合 -D、 N 上训练和测试 ;a-n : 从集合 -N 检测集合 -A, 利用 LOOCV 在集合 -A、 N 上训练和测试 ;
a-dn : 从集合 -D 和 N 检测集合 -A, 利用 LOOCV 在集合 -A、 D、 N 上训练和测试 ;
a-dn_a-d : 训练与 “a-dn” 相同, 不过仅仅检查 “a-d” 的性能 ;
a-dn_a-n : 训练与 “a-dn” 相同, 不过仅仅检查 “a-n” 的性能。
B. 性能度量
在本范例中, 利用 LOOCV( 留下一个交叉确认 ) 测试系统性能。可以使用 LOOCV 确 认除孤独症之外的其他失调或分类的检测, 例如在本公开中其他地方论述的很多失调和分 类。
作为 LOOCV 确认的一部分, 将主题分成两类 : 类别 -c( 对被确认的儿童分类 ) 和其 他, 可以将其称为非 -c 类别。具体而言, 无论儿童是否与一个特征矢量相关或儿童是否与 几个特征矢量相关, 每次都遗漏模型的一个儿童, 一个特征矢量是来自多条记录的某种组 合, 几个特征矢量来自针对该儿童的每条对应记录。
在遗漏儿童时, 在利用其余数据训练模型期间遗漏所有其关联特征矢量。然后将 该模型应用于该儿童, 以获得是类别 c 的后验概率, 给定特征矢量作为观测。该过程通过所 有儿童循环。在结束时, 每个儿童将具有其作为类别 c 的后验概率。
可以基于所有儿童的后验概率绘制 ROC 曲线 ( 接收机操作特性曲线, 这是针对测 试的不同可能割点, 真阳性率与假阳性率比的比较图 )。同时可以计算等差错率。具体而 言, 绘制 ROC 以及计算等差错率的流程如下 :
1.Array_p =按递增顺序分类的唯一性后验概率
2.Threshold_array = [array_p(1..n-1)+array_p(2..n)]/2, 即, 相邻唯一性后 验概率之间的中点
3.Final_threshold_array = [0, threshold_array, 1], 即, 增加 0 和 1 作为阈值
4. 对于从 0 到 1 的每个阈值, 如下操作 :
●利用具体阈值, 可以做出检测决定 : 如果任何儿童的后验概率高于阈值, 将其检 测为类别 c ; 否则, 将该儿童检测为类别非 c
●针对这个阈值的检测差错率和误报警率为 :
检测误差率=类别 c 的儿童被误检测为非 c 的数量 / 类别 c 儿童的数量
误报警率=类别非 c 的儿童被误检测为 c 的数量 / 类别非 c 儿童的数量
5. 可以通过连接在步骤 4 中获得的每个 ( 比率, 阈值 ) 点绘制检测率 (detection_ rate = 1-detection_error_rate) 或 detection_error_rate 相对于后验概率阈值的曲线。
类似地, 可以通过连接在步骤 4 中获得的每个点绘制非 c 检测率 ( = 1-false_ alarm_rate) 或误报警率相对于后验概率阈值的曲线。
6. 等差错率点是步骤 5 中提到的两条曲线的交点。交点的计算是很轻松的, 因为 两条曲线是单调增加或减小的。
等差错率被用作比较所用不同方法和不同特征的性能度量。
图 34 示出了对于 LDA 方法基线中 “a-d” 情形的 ROC。图 35 示出了 biph-50 特征 的 “a-d” 情形的 ROC 以及几何后验概率平均值, 以组合关键儿童的多条记录。
C. 分析技术
在本范例中, 将特征矢量变换成后验概率 ; 不过, 在孤独症检测的语境中解释, 可以将这种技术用于语音的其他分析, 以确定个体的特性或失调。使用两种建模方法执行转 换: 逻辑回归和 LDA( 线性判别分析 )。
逻辑回归使用以下函数将特征矢量转换成后验概率 :
posterior_probability = 1/(1+exp(A*feature_vector+b))
其 中 A 是 线 性 模 型 矢 量, * 是 内 积, b 是 偏 置 参 数。A 和 b 都 可 以 使 用 Newton-Raphson 优化算法利用极大似然法估计。
LDA 自身不能直接提供后验概率。LDA 的目的是找到线性变换, 从而在输出空间中 优化在线性变换或区分的输出空间中优化的 Fisher-Ratio。
一旦确定了最佳 LDA 线性变换, 就可以在高斯 ( 正常 ) 分布的假设下估计每个类 别的数据分布。利用提供的每个类别的先验概率, 可以计算后验概率 :
P(c|x) = P(c)*P(x|c)/P(x), P(x) = sum P(c)*P(x|c),
其中 P(c|x) 是给定观测 x 下是类别 c 的后验概率 ; P(c) 是类别 c 的先验概率 ; 以 及 P(x|c) 是类别 c 的数据分布。
可以在高斯分布的假设下获得数据分布 P(x|c)。 最大似然解是样本平均值和样本 方差。 如上所述, 提供了针对 “a-d” 、 “d-n” 和 “a-n” 情况下的等差错率。不过, 并非人工 调节截止阈值 ( 这可能不精确和相容 ), 而是通过自动算法获得等差错率, 其更加精确且工 作更加相容。此外, 增加针对 “a-dn” 、 “a-dn_a-d” 和 “a-dn_a-n” 情形的性能。新结果在表 1 中。
从基线系统的结果, 能够看到 LDA 工作的相容性比逻辑回归更好。
目前描述的范例的试验包括 :
A. 上文提到的 ( 并在表 1 的检测情况列中反映的 ) 六种检测情况
B. 上述三种特征 (ft-12, biph-50 和组合 )
C. 处在其原始值或年龄归一化值下的三种特征
D. 儿童水平性能, 利用旧方式通过对年龄归一化特征一起求平均值组合儿童的多 条记录
E. 儿童水平性能, 利用新方法对儿童的多条记录的后验概率求平均值。平均值包 括 “几何的” 和 “算术的” 。
D. 记录水平性能
试验基于上述遗漏一个的方法, 即, 在其模型的训练阶段期间遗漏一个儿童的所 有相关联记录, 然后将模型用于遗漏的记录以获得针对该儿童的后验概率。
从表 1 显然看出, 在具有可用数据的本范例语境中, 可以观察到以下情况 :
1. 由于集合 -D(30) 和集合 -A(34) 在样本中受限, 所以一个样本大约为 1/30 = 3%。因此, 一个数据点的背部 ( 位置 ) 可能具有等差错率大约 3%的差异影响。当查看表 格 1 时, 应当记住这种情况。
2. 基本如上所述, 相对于根据透明特征确定孤独症执行 “ft-12” 。
3. 单一记录性能比儿童水平更差。换言之, 可以使用针对儿童的多条记录改进儿 童水平的性能。
4. 针对儿童多条记录的后验概率的几何平均值通常好于算术平均值。
5.Biph-50 显著好于 ft-12, 尤其是对于延迟相对于孤独症。Biph-50 优于 ft-12 的地方是在所有情况下都相容。
6.Ft-12 和 biph-50 的组合稍好于 biph-50( 对于 d-a 情形没到那种程度, 主要针 对 n-d 和 n-a 情况 )。看起来集合 -N 具有大量样本和更宽的年龄范围, 尤其是年轻年龄 2-15, ft-12 对年龄较不敏感, 而 biph-50 对仅存在于集合 -N 中的 2-15 或 2-10 年龄更敏 感。在年龄归一化之后, ft-12 和 biph-50 的组合相对于 biph-50 的优点最小。年龄归一 化显得有助于针对 “d-n” 和 “a-n” 情况而非针对 “a-d” 情况的 biph-50 特征, 其没有低于 10 个月的小孩。直观地, 集合 -N 的非常年轻年龄组可能在数据中具有某种不规则, 导致针 对情况 “a-n” 和 “d-n” 的区分困难。
7. 组合儿童多条记录的后部的新方法比为儿童预测后部的求均值特征 ( 包括 ft-12、 biph-50 及其组合 ) 的旧方法更好。对于 “a-d” 情况, 儿童水平性能比记录水平性 能更差。对于 “a-dn_a-d” 情况, 儿童水平性能比记录水平性能稍好。这支持如下事实 : 训 练数据的量对于一般化很重要。
8.LDA 的相容性高于逻辑回归。
当然, 相信这种分析对于更多数据仍然成立, 不过有可能将不成立, 且针对任何新 组的数据将比较分析技术。
表 1 等差错率 (% ) 比较此外, 可以将后验概率组合到上述分析技术中, 用于确定关键儿童的发育年龄 ; 或 者可以将其用于从分析语音来检测其他失调、 疾病或特性中。
在检测孤独症的方法的一个实施例中, 对检测儿童孤独症感兴趣的一方可以请求 向他们发送测试系统。 作为响应, 可以通过邮件或其他输送手段向他们发送测试系统, 或者 可以由医生或医疗专业人员给他们。 该系统包括记录单元、 指令以及供受检者 ( 关键儿童 ) 穿戴的布衣, 其适于保持记录单元。 然后针对指定时间记录儿童, 通过邮件返回系统或将其 物理地返回到中央处理接收机。中央处理接收机然后从系统接收数据并处理数据。向必要 方返回报告, 必要方可以包括关键儿童的父母、 医生、 其他专业人员等。可以通过低成本的 方式实施这种方法, 因为关键儿童或关键儿童的监护人 / 父母实际在 “租用” 该单元以使用 一次。在使用之后, 可以将同一单元再次用于另一受检者, 该另一受检者将支付 “租金” 费
用、 收集所需的数据、 返回该单元并接收所需的测试结果。
儿童模型和无人监督分析的开发
如上所述, 一些实施例使用为成年人设计的自动语音识别 (ASR) 系统以便识别音 素, 在确定儿童的发育水平时使用。一种这样的 ASR 为 Sphinx 解码器。这种解码器和其他 解码器基于从成年人语音开发的音素模型。尽管儿童语音类似于成年人, 为成年人设计的 ASR 可能不会产生针对儿童的最佳音素检测。成年人 ASR 基于成年人语音。分析的数据是 儿童语音。因此, 在与异类数据, 例如儿童语音比较时, 生成模型所依据的数据可能有局限 或不精确性。为了消除数据模型失配, 可以使用从分析儿童语音创建的模型。
传统上, 可以通过直接训练并生成语音模型来生成针对儿童的语音模型。这样会 解决数据模型失配的问题。 这个过程会涉及到专业人员倾听儿童的录音并对儿童所讲的音 素分类。 不过, 对儿童语音进行标记可能是非常耗时且易出差错的任务, 因为儿童的语音通 常发音不好且有大的变化。因此, 有人监督的儿童语音建模可能是困难且成本高昂的。
相反, 在一个实施例中, 可以将无人监督的分群方法用于儿童语音建模。 这种方法 基于数据的统计特性, 将类似的儿童语音数据分到一起。这种方法可以减少对儿童语音人 工分类的需要。 由于以上方法基于从统计上将受检者的发育与针对已知受检者的发育模型 进行比较, 所以可以从分析排除所讲的实际音素。 相反, 开发出可能表示或不表示实际音素 的语音片段群, 并将受检者的语音与这些群比较。
一种分群的方法是 K- 平均值。下面给出了 K- 平均值算法的简述 :
对于给定的数据集 {xi|i = 1,…, n}, K- 平均值算法试图找到 K 个代表点 {ci|i = 1, …, k}, 其中 k 比 n 小 ( 或小得多 )。Ci 是群质心或群平均值。这是它被称为 K- 平均 值的原因。
对 Ci 进行初始化。可以通过从数据集随机选择或通过其他方法这样做。
对于每个数据点 Xi, 通过测量与每个群质心的距离来找到最近的群, 并将这个数 据点标记为该群。
对于每个群而言, 汇集被标记为该群的所有数据点并计算这个群的平均值。利用 新计算的平均值更新群质心。
迭代步骤 3 和步骤 4, 直到满足一些收敛性判定准则 ( 理论上, 确保迭代收敛到最 小总体数据 “失真” 的至少局部最小值 )。
所获得的儿童语音群被认为是类似音素, 根据以上单音素或双音素分析进行分 析, 用群集模型替代 ASR 成年人模型。然后可以利用群集模型 ( 质心 ) 对儿童语音解码, 以 找出儿童语音的群集标签序列。这非常像使用成年人音素模型的音素解码过程。然后可以 通过与 AVA 分析中使用的音素序列相同的方式使用群标记序列。
图 32 示出了 K- 均值群 ( 质心 ) 的例示。如图所示, 点代表数据点, 星代表群平 均值 ( 质心 ), 黑色线表示由群平均值 ( 质心 ) 定义的不同群间特征空间中的边界。给定 “点” , K- 平均值算法将自动找到最佳的 “星” 。 “最佳” 是从失真最小 ( 至少局部 ) 的意义上 讲的。
下面的表 2 示出了基于无人监督的儿童模型的试验结果。
表2: 成年人模型和无人监督的儿童模型的比较
以上表格示出了无人监督的方法与使用成年人音素模型的方法具有基本相同的 性能。这是对先前利用成年人音素模型进行分析的验证。同时, 这也示出了无人监督方法 的希望和潜力, 因为在选择的群数等方面它可能更加灵活。 尽管示出了特定数量的群, 但对 于给定数据集的最佳群数可能取决于数据集的大小, 并且可以使用各种数量的群。
此外, 可以将基于群的特征分析用于孤独症检测或其他失调 / 疾病的检测。同样, 可以朝向孤独症检测的目的进行基于群的特征、 基于成年人音素模型的特征、 声学透明特 征的组合。目前, 对于孤独症检测而言, 在分析中使用透明特征。参考图 21, 示出了声学参 数的表格。示出的声学参数是从记录中提取的。不过, 这些声学参数基于真实单词观测而 不是分群。在替代性基于群的透明参数分析中, 相对于语音和声音特性发展群。这些特性 可以包括声音的间距、 声音持续时间、 声音的节奏、 声音的组织等。 例如, 对于声音持续时间 而言, 图示的声学参数具有针对短、 中、 长和超长持续时间岛的定义。 相反, 可以通过对实际 声音记录分群确定这些定义并将生成表示所收集数据的群集模型。
通过这种方式, 可以根据关于表示模型所依据的记录数据的群体已知的具体年龄 和任何其他特性精细调谐开发的模型。 在最基本水平上, 语音的特性主要由语音间距、 语音 持续时间和语音组织构成。可以单独根据任意和全部这些特性及其组合进行分群。额外的 语音特性可以包括语音流动、 高声度、 语调和泛音的强度。 语音流动包括讲话的产生速度和 讲话中中断的长度。高声度是与语音相关联的能量的量。语调涉及间距相对于讲话者平均 声音间距的涨落。泛音包括与基音相伴的更高声调, 一般比基音微弱。所有这些特性和更 多特性可用于形成群。
分群允许在没有关于语音特性的预想概念的情况下进行分析并可以揭示先前未 识别的模式。 只要收集的样本足够大 ( 从统计意义上说 ), 通过分群揭示的模式将对群体保 持成立, 并可以在例如疾病和失调 ( 例如孤独症 ) 的发展、 检测, 和语音的其他特性, 例如情 绪, 讲话者的底层动机、 诚实性方面应用于任何类型的语音分析。
情绪 / 压力检测
理论表明父母和护理人表达的情绪可能影响儿童的语言发展。 上述方法和系统使 得它们能够很好地确定情绪对儿童语言发展的效果。图 33 示出了用于确定讲话时情绪的 方法的一个实施例。 出于分析的目的, 假设一次讲话仅包含一种情绪, 或在压力检测的情况 下, 是压力或中立 ( 非压力 )。在接收输入的讲话时, 提取与情绪相关的声学特征。可以将 Mel 频率对数倒频谱系数 (MFCC) 和知觉最小方差无失真响应 (PMVDR) 用作情绪检测的特 征。一旦提取了特征, 就相对于表示情绪的多个模型在特征上对讲话打分。选择具有最大 分数的模型, 将与该模型关联的情绪识别为讲话的情绪状态。可以将高斯混合模型 (GMM) 用于打分, 上文针对分段和片段 ID 任务描述了这种模型。在情绪检测的语境中, 检测有压 力或无压力状况可能比具体情绪检测更简单, 从而, 可能更加精确。 可以利用这里所述的语 音检测和分析系统执行这种方法。
为了利用所述方法和系统进行试验并优化模型大小和特征大小, 需要情绪数据。 使用可经由因特网得到的免费德语情绪数据库。根据上述分段和 ID 系统处理来自 20 个不 同普通美国家庭的二十个全天自然家庭环境记录, 注释针对压力和非压力检测而自动检测 的成年人讲话, 并为此目的获得大约 900 个经人确认的压力 / 非压力标记的讲话。该数据 集被称为 LENA 情绪数据 1。 所述的情绪数据库是唯一的并且对于自然家庭环境中情绪检测 研究与开发以及情绪如何影响儿童讲话和语言发展是有价值的。 ’ 520 申请中描述的用于语 音收集的系统允许在自然语言环境中收集语音, 上述处理技术实现了所记录声音信号的过 滤和分段。
利用德语情绪数据库、 MFCC、 PMVDR 和 GMM, 搜索最优模型尺寸和特征尺寸。对于模 型尺寸, 利用固定的 36- 阶 MFCC 及其导数特征 ( 或 δ 特征, 共 72- 维度 ), 搜索最优 GMM 尺 寸。 如表 3 所示, 针对每种情绪 GMM 模型的 128 条高斯型曲线针对所有情绪检测 (64.57% ) 和压力之于非压力检测 (89.83% ) 的任务给出了最好的检测率。 利用每个 GMM 模型尺寸固 定的 128 个高斯型曲线, 进一步优化 MFCC 的特征尺寸。 如表 4 所示, MFCC 特征尺寸 12(MFCC+ 其 δ = 24 维度 ) 在德语数据库上给出了最好的检测率。还将 PMVDR 与 MFCC 进行比较, 用 于情绪检测任务。表 5 中示出了试验结果。
表3: 模型尺寸优化, 检测率相对于每个模型的高斯型曲线数量
# 高斯型曲线 / 模型 所有情绪 压力相对于无压力
8 56.44% 84.37% 16 56.81% 84.57% 32 60.79% 88.13% 64 64.22% 88.79% 128 64.57% 89.83% 256 60.69% 88.67%表4: 对德语数据库的情绪检测的 MFCC 特征尺寸
表5: 对德语数据库的情绪检测的不同特征MFCC(24) 所有情绪 压力相对于无压力 73.36 92.68 PMVDR(24) 73.80 93.16为了结合更多关于所用特征中情绪的信息, 需要增大特征的维度以包括更多相关 特性。可以使用更高阶的 MFCC 或 PMVDR 并包括更多语境 ( 或相邻 ) 特征帧以覆盖可能与 情绪相关联的语音动力学来实现这一目的。不过, 增加特征维度可能未必改进检测率。原 因在于, 增大的特征维度可能导致模型大小增大, 从而加强模型大小和有限量的训练数据 之间的冲突。尽管增大特征大小可以结合更多有用信息, 但增大特征大小也可能引入一些 不相干的特征或噪声。这可能使得建模过程更加难以收敛到输入特征的相关特性。为了解 决这个问题, 使用线性判别分析 (LDA) 减小特征维度, 以保留来自高或极高维度特征的最 相关信息。或者, 使用能够减少维数的其他形式的分析, 包括特征提取和特征选择技术。表 并最终改善情绪检测率。 6 中的简单测试表明, LDA 有助于减小特征维度和模型大小,
表6: 对 LDA 在德语数据库上检测情绪的简单测试
12 维 MFCC 所有情绪 压力相对于无压力
58.41 84.72 6 维 LDA 58.39 85.30标准 LDA 的输出维度可能受到所涉及类别总数的限制 ( 对于标准 LDA, 实际最大输 出特征数量为 J-1, 如果有 J 个类别 )。对于压力相对于无压力检测, 标准 LDA 仅能够有一 个输出特征, 这可能不够好。 为了解决这个问题, 提出了子类 LDA。 对于每个类别, 可以利用 例如更早所述的例如 K- 平均值算法获得不同子类 ( 或群 )。由于这基本是无人监督的方 法, 所以每个类别根据需要可以有很多子类。 一旦针对每个类别产生了子类, 每个类别对之 间的子类对的总数可能非常大, 导致 LDA 输出的数目几乎无限制。利用这种方法, 在德语数 据库上进行试验。表 7 示出了比较结果, 证实 LDA 改进了情绪检测性能。
表7: 德语数据库上子类 LDA 情绪检测结果
24- 维 MFCC : 获得的最好 MFCC 结果。
34- 维的 LDA : 每个类别具有 5 个子类, 并且在 LDA 中使用了 7 个语境帧。24 维 MFCC 所有情绪 压力相对于无压力 73.36 92.68 34 维 LDA 75.62 94.82德语数据库是执行的情绪数据。Infoture LENA-Emotion-Data-1 以不突出的 方式来自真实自然家庭环境。为了在 Infoture 上测试情绪检测的创意和方法, 可能对 LENA-emotion-Data-1 感兴趣, 因为 Infoture LENA-emotion-Data-1 是在自然语言环境 中收集的。一开始, 在 LENA-Emotion-Data-1 上应用利用德语数据库训练的模型, 进行压 力 / 无压力检测。检测率为 51%, 类似于随机猜测。这大概是由于 LENA-Emotion-Data-1 和从德语数据库训练的模型之间的失配造成的。为了解决这个问题, 直接在 LENA 数据上 测试在 LENA-Emotion-Data-1 上训练的模型。不过, 为了处理有限量的 LENA 数据, 使用遗 漏一个交叉确认方法, 以利用可用的已标记 LENA-Emotion-Data-1, 同时在其测试模型的 训练中不涉及单次测试记录族系。这样给出了表 8 所示的结果, 证实当前的方法可用于像 LENA-Emotion-Data-1 那样的真实自然家庭环境, 以进行压力检测。
表8: LENA-Emotion-Data-1 的遗漏一个交叉确认
使用的特征 压力检测率
MFC-12 68.6% MFC-40 70.5%儿童响应和交互的情绪指标在获得对儿童语言发展的更大解析以及如何进一步 改善儿童的自然语言环境中可能是宝贵的。由于它们具有非侵入属性, 对本系统和方法进 行很好的定位以执行这样的分析。
分析技术的调节
这里提到了若干分析技术以解决发育年龄、 孤独症、 情绪等的检测。 尽管表述的分 析技术被认为是确定这种特性的最好技术, 但它们至少部分基于该分析所依据的所收集数 据的质量和量。因此, 可以互换在分析的各阶段利用的单项技术。例如, 根据其性能特性, 可以互换 LDA 和逻辑回归分析, 像结合针对受检者的多条记录以及选择所用记录特征 ( 透 明特征之于基于音素的特征 ) 的方法那样。
在上述实施例的所有情况下, 可以通过将可用的任何物理或电子介质转换成另一 种状态或东西, 通过输出结果, 来实现所述数据的任何变换的结果。这样的输出包括, 但不 限于产生硬拷贝 ( 纸张 )、 声音、 可视显示 ( 如在监视器、 投影仪等的情况下 )、 触感显示、 电 子介质中的变化等。提供本发明实施例的以上描述仅仅出于例示和描述的目的, 并非意在 穷举或将本发明限制到所公开的精确形式。 对于本领域的技术人员而言很多修改和调整是 显而易见的而且不脱离本发明的精神和范围。