《基于位置标记的语音识别模型.pdf》由会员分享,可在线阅读,更多相关《基于位置标记的语音识别模型.pdf(28页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201380040775.5(22)申请日 2013.07.2361/678,277 2012.08.01 US13/651,566 2012.10.15 USH04M 1/725(2006.01)G10L 15/30(2006.01)G10L 15/183(2006.01)G10L 15/22(2006.01)(71)申请人 谷歌公司地址 美国加利福尼亚州(72)发明人 G陶布曼 B斯特罗普(74)专利代理机构 北京市金杜律师事务所 11256代理人 酆迅(54) 发明名称基于位置标记的语音识别模型(57) 摘要公开了用于使用模型执行语。
2、音识别的方法、系统和包括编码在计算机存储介质上的计算机程序的装置,该模型基于其中说话者做出话语的建筑物内的位置。所述方法、系统和装置包括接收对应于话语的数据和获得用于其中话语被说出的建筑物内的区域的位置标记的动作。进一步的动作包括基于位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于位置标记的权重相关联。此外,动作还包括使用所选择的一个或多个模型和所选择的一个或多个模型的相应权重生成复合模型。所述动作还包括使用复合模型生成话语的转录。(30)优先权数据(85)PCT国际申请进入国家阶段日2015.01.30(86)PCT国际申请的申请数据PCT/US2013/051。
3、626 2013.07.23(87)PCT国际申请的公布数据WO2014/022148 EN 2014.02.06(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书5页 说明书16页 附图6页(10)申请公布号 CN 104509079 A(43)申请公布日 2015.04.08CN 104509079 A1/5 页21.一种计算机实现的方法,包括 :接收对应于话语的数据 ;获得用于其中所述话语被说出的建筑物内的区域的位置标记 ;基于所述位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联 ;使用所选择的一。
4、个或多个模型和所选择的一个或多个模型的相应权重来生成复合模型;使用所述复合模型生成所述话语的转录。2.根据权利要求 1 所述的方法,其中接收对应于所述话语的数据包括 :从客户端设备接收对应于所述话语的数据,其中获得用于其中所述话语被说出的建筑物内的区域的位置标记包括 :从所述客户端设备接收用于其中所述话语被说出的所述建筑物内的所述区域的位置标记。3.根据权利要求 2 所述的方法,其中所述位置标记包括 :基于在所述客户端设备处接收的短程无线电传输的位置数据。4.根据权利要求 1 所述的方法,其中获得所述位置标记包括 :使用位置无关语言模型生成所述话语的一个或多个候选转录 ;基于将所述一个或多个候。
5、选转录与一个或多个位置相关语言模型中的短语进行比较,标识所述建筑物内的一个或多个候选区域。5.根据权利要求 1 所述的方法,其中接收对应于所述话语的数据包括 :从在所述建筑物处的处理系统接收对应于所述话语的数据,并且其中获得用于其中所述话语被说出的建筑物内的区域的位置标记包括 :从在所述建筑物处的所述处理系统接收用于其中所述话语被说出的所述建筑物内的所述区域的位置标记。6.根据权利要求 5 所述的方法,其中所述位置标记包括从所述处理系统获得的位置数据,其中所述处理系统使用被布置在所述建筑物中的麦克风阵列定位所述话语,并且其中所述麦克风阵列可操作地耦合到所述处理系统。7.根据权利要求 1 所述的。
6、方法,其中基于所述位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联包括 :基于所述位置标记选择一个或多个语言模型,其中所述一个或多个语言模型中的每个语言模型与基于所述位置标记的权重相关联;其中使用所选择的一个或多个模型和所选择的一个或多个模型的所述相应权重来生成复合模型包括 :使用所选择的一个或多个语言模型和所选择的一个或多个语言模型的所述相应权重来生成复合语言模型 ;其中使用所述复合模型生成所述话语的转录包括 :使用所述复合语言模型生成所述话语的所述转录。8.根据权利要求 1 所述的方法,其中基于所述位置标记选择用于语音识别的一个或多个模。
7、型,其中每个所选择的一个权 利 要 求 书CN 104509079 A2/5 页3或多个模型与基于所述位置标记的权重相关联包括 :基于所述位置标记选择一个或多个声学模型,其中所述一个或多个声学模型中的每个声学模型与基于所述位置标记的权重相关联;其中使用所选择的一个或多个模型和所选择的一个或多个模型的所述相应权重来生成复合模型包括 :使用所选择的一个或多个声学模型和所选择的一个或多个声学模型的所述相应权重来生成复合声学模型 ;并且其中使用所述复合模型生成所述话语的转录包括 :使用所述复合声学模型生成所述话语的所述转录。9.一种系统,包括 :一个或多个计算机和存储指令的一个或多个存储设备,所述指令。
8、在被所述一个或多个计算机执行时,使得所述一个或多个计算机执行操作,所述操作包括 :接收对应于话语的数据 ;获得用于其中所述话语被说出的建筑物内的区域的位置标记 ;基于所述位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联 ;使用所选择的一个或多个模型和所选择的一个或多个模型的相应权重来生成复合模型;使用所述复合模型生成所述话语的转录。10.根据权利要求 9 所述的系统,其中接收对应于所述话语的数据包括 :从客户端设备接收对应于所述话语的数据,其中获得用于其中所述话语被说出的建筑物内的区域的位置标记包括 :从所述客户端设备接收用于其中所述话语被。
9、说出的所述建筑物内的所述区域的位置标记。11.根据权利要求 10 所述的系统,其中所述位置标记包括 :基于在所述客户端设备处接收的短程无线电传输的位置数据。12.根据权利要求 9 所述的系统,其中获得所述位置标记包括 :使用位置无关语言模型生成所述话语的一个或多个候选转录 ;基于将所述一个或多个候选转录与一个或多个位置相关语言模型中的短语进行比较,标识所述建筑物内的一个或多个候选区域。13.根据权利要求 9 所述的系统,其中接收对应于所述话语的数据包括 :从在所述建筑物处的处理系统接收对应于所述话语的数据,并且其中获得用于其中所述话语被说出的建筑物内的区域的位置标记包括 :从在所述建筑物处的所。
10、述处理系统接收用于其中所述话语被说出的所述建筑物内的所述区域的位置标记。14.根据权利要求 13 所述的系统,其中所述位置标记包括从所述处理系统获得的位置数据,其中所述处理系统使用被布置在所述建筑物中的麦克风阵列定位所述话语,并且其中所述麦克风阵列可操作地耦合到所述处理系统。15.根据权利要求 9 所述的系统,其中基于所述位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个权 利 要 求 书CN 104509079 A3/5 页4或多个模型与基于所述位置标记的权重相关联包括 :基于所述位置标记选择一个或多个语言模型,其中所述一个或多个语言模型中的每个语言模型与基于所述位置标记的权重相。
11、关联;其中使用所选择的一个或多个模型和所选择的一个或多个模型的所述相应权重来生成复合模型包括 :使用所选择的一个或多个语言模型和所选择的一个或多个语言模型的所述相应权重来生成复合语言模型 ;其中使用所述复合模型生成所述话语的转录包括 :使用所述复合语言模型生成所述话语的所述转录。16.根据权利要求 9 所述的系统,其中基于所述位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联包括 :基于所述位置标记选择一个或多个声学模型,其中所述一个或多个声学模型中的每个声学模型与基于所述位置标记的权重相关联;其中使用所选择的一个或多个模型和所选择的一个或多。
12、个模型的所述相应权重来生成复合模型包括 :使用所选择的一个或多个声学模型和所选择的一个或多个声学模型的所述相应权重来生成复合声学模型 ;并且其中使用所述复合模型生成所述话语的转录包括 :使用所述复合声学模型生成所述话语的所述转录。17.一种存储软件的非瞬态的计算机可读介质,所述软件包括由一个或多个计算机可执行的指令,所述指令在所述执行时,使得所述一个或多个计算机执行操作,所述操作包括:接收对应于话语的数据 ;获得用于其中所述话语被说出的建筑物内的区域的位置标记 ;基于所述位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联 ;使用所选择的一个或。
13、多个模型和所选择的一个或多个模型的相应权重来生成复合模型;使用所述复合模型生成所述话语的转录。18.根据权利要求 17 所述的计算机可读介质,其中接收对应于所述话语的数据包括 :从客户端设备接收对应于所述话语的数据,其中获得用于其中所述话语被说出的建筑物内的区域的位置标记包括 :从所述客户端设备接收用于其中所述话语被说出的所述建筑物内的所述区域的位置标记。19.根据权利要求 18 所述的计算机可读介质,其中所述位置标记包括 :基于在所述客户端设备处接收的短程无线电传输的位置数据。20.根据权利要求 17 所述的计算机可读介质,其中获得所述位置标记包括 :使用位置无关语言模型生成所述话语的一个或。
14、多个候选转录 ;基于将所述一个或多个候选转录与一个或多个位置相关语言模型中的短语进行比较,标识所述建筑物内的一个或多个候选区域。21.根据权利要求 17 所述的计算机可读介质,权 利 要 求 书CN 104509079 A4/5 页5其中接收对应于所述话语的数据包括 :从在所述建筑物处的处理系统接收对应于所述话语的数据,并且其中获得用于其中所述话语被说出的建筑物内的区域的位置标记包括 :从在所述建筑物处的所述处理系统接收用于其中所述话语被说出的所述建筑物内的所述区域的位置标记。22.根据权利要求 21 所述的计算机可读介质,其中所述位置标记包括从所述处理系统获得的位置数据,其中所述处理系统使用。
15、被布置在所述建筑物中的麦克风阵列定位所述话语,并且其中所述麦克风阵列可操作地耦合到所述处理系统。23.根据权利要求 17 所述的计算机可读介质,其中基于所述位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联包括 :基于所述位置标记选择一个或多个语言模型,其中所述一个或多个语言模型中的每个语言模型与基于所述位置标记的权重相关联;其中使用所选择的一个或多个模型和所选择的一个或多个模型的所述相应权重来生成复合模型包括 :使用所选择的一个或多个语言模型和所选择的一个或多个语言模型的所述相应权重来生成复合语言模型 ;其中使用所述复合模型生成所述话语的转。
16、录包括 :使用所述复合语言模型生成所述话语的所述转录。24.根据权利要求 17 所述的计算机可读介质,其中基于所述位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联包括 :基于所述位置标记选择一个或多个声学模型,其中所述一个或多个声学模型中的每个声学模型与基于所述位置标记的权重相关联;其中使用所选择的一个或多个模型和所选择的一个或多个模型的所述相应权重来生成复合模型包括 :使用所选择的一个或多个声学模型和所选择的一个或多个声学模型的所述相应权重来生成复合声学模型 ;并且其中使用所述复合模型生成所述话语的转录包括 :使用所述复合声学模型生成所述。
17、话语的所述转录。25.一种客户端设备,包括 :一个或多个处理器和存储指令的一个或多个存储设备,所述指令当由所述一个或多个处理器执行时、可操作用于使得所述一个或多个处理器执行操作,所述操作包括 :在客户端设备处接收话语 ;在所述客户端设备处获得用于其中所述话语被说出的建筑物内的区域的位置标记 ;从所述客户端设备向服务器传送对应于所述话语的数据和用于其中所述话语被说出的所述建筑物内的所述区域的所述位置标记 ;以及在所述客户端设备处接收所述话语的转录,其中使用复合模型生成所述话语的所述转录,并且其中使用一个或多个模型和基于所述位置标记而被选择的所述一个或多个模型的相应权重来生成所述复合模型。26.根。
18、据权利要求 25 所述的客户端设备,其中所述位置标记包括基于在所述客户端设权 利 要 求 书CN 104509079 A5/5 页6备处接收的短程无线电传输的位置数据。27.根据权利要求 25 所述的客户端设备,其中在所述客户端设备处接收所述话语包括 :从在所述建筑物处的处理系统接收对应于所述话语的数据,其中在所述客户端设备处获得用于其中所述话语被说出的建筑物内的区域的位置标记包括 :从在所述建筑物处的所述处理系统接收用于其中所述话语被说出的所述建筑物内的所述区域的位置标记。28.根据权利要求 27 所述的客户端设备,其中所述位置标记包括从所述处理系统获得的位置数据,其中所述处理系统使用被布置。
19、在所述建筑物中的麦克风阵列定位所述话语,并且其中所述麦克风阵列可操作地耦合到所述处理系统。29.根据权利要求 25 所述的客户端设备,其中所述复合模型包括复合声学模型,并且其中所述一个或多个模型和所述一个或多个模型的相应权重包括一个或多个声学模型和所述一个或多个声学模型的相应权重。30.根据权利要求 25 所述的客户端设备,其中所述复合模型包括复合语言模型,并且其中所述一个或多个模型和所述一个或多个模型的相应权重包括一个或多个语言模型和所述一个或多个语言模型的相应权重。权 利 要 求 书CN 104509079 A1/16 页7基于位置标记的语音识别模型0001 相关申请的交叉引用0002 本。
20、申请要求于 2012 年 8 月 1 日提交的序列号为 61/678,277 和于 2012 年 10 月 15日提交的序列号为 13/651,566 的美国临时申请的权益,其整体如同完全记载于此一样通过引用的方式并入。技术领域0003 本说明书总体上涉及自动语音识别。背景技术0004 语音识别通常依赖于所说语言的语音识别模型。然而,对于给定的语言 ( 或给定语言的方言 ),取决于在何处发出词语而不同地使用词语。例如,当人在他们的客厅中时,他们可能频繁地使用与电视节目和媒体播放器的控制相关的词语,而当人在他们的厨房中时,他们可能使用与食物类型或烹饪相关的词语。用于语音识别的典型语言模型通常没有。
21、考虑到在说出词语处的位置特定情境,特别是对于在建筑物 ( 例如在家 ) 内的词语使用的变化。发明内容0005 一般而言,本说明书中所描述的主题的一方面可以包括自动语音识别引擎 (ASR),该自动语音识别引擎使用基于说话者在建筑物中何处做出话语的模型,执行语音识别。在一些实现方式中,该语音识别模型可以是基于两个或更多情境特定模型的复合模型。ASR引擎可以将话语转录成文本,例如用于语音查询,或者通过处理器执行将话语转换成命令。0006 在某些方面,本说明书中所描述的主题可以体现为方法,该方法包括接收对应于话语的数据和获得用于其中该话语被说出的建筑物内的区域的位置标记的动作。进一步的动作包括基于位置。
22、标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于位置标记的权重相关联。此外,所述动作还包括使用所选择的一个或多个模型和所选择的一个或多个模型的相应权重来生成复合模型。所述动作还包括使用复合模型生成话语的转录。0007 主题的另一方面可以体现为方法,该方法包括在客户端设备处接收话语和在客户端设备处获得用于其中该话语被说出的建筑物内的区域的位置标记的动作。所述动作还包括从客户端设备向服务器传送对应于话语和用于其中话语被说出的建筑物内的区域的位置标记的数据。并且所述动作包括在客户端设备处接收话语的转录。在一些方面,使用复合模型生成话语的转录,并且使用一个或多个模型和基于位置。
23、标记而选择的一个或多个模型的相应权重来生成复合模型。0008 其他版本包括相对应的系统、装置和被配置为执行所述方法的动作的计算机程序,该计算机程序编码在计算机存储设备上。0009 这些和其他的版本可以每个可选择地包括以下特征中的一个或多个特征。例如,说 明 书CN 104509079 A2/16 页8一些实现方式涉及到从客户端设备接收对应于话语的数据,从客户端设备接收用于其中该话语被说出的建筑物内的区域的位置标记。该位置标记可以为基于在客户端设备处接收的短程无线电传输的位置数据。0010 一些实现方式涉及到使用位置无关语言模型生成话语的一个或多个候选转录,并且然后基于将一个或多个候选转录与一个。
24、或多个位置相关语言模型中的短语进行比较,标识建筑物内的一个或多个候选区域。0011 某些实现方式涉及到从在建筑物处的处理系统接收对应于话语的数据,并且从在建筑物处的处理系统接收用于其中话语被说出的建筑物内的区域的位置标记。在一些方面,位置标记为从处理系统获得的位置数据。处理系统使用被布置在建筑物中的麦克风阵列定位话语,其中麦克风阵列可操作地耦合到处理系统。0012 此外,在一些实现方式中,所选择的用于语音识别的模型为语言模型,并且复合模型为复合语言模型。在一些实现方式中,所选择的用于语音识别的模型为声学模型,并且复合模型为复合声学模型。并且在一些实现方式中,所选择的用于语音识别的模型为语言模型。
25、和声学模型,并且复合模型为复合语言模型和复合声学模型。0013 在下文的附图和描述中记载了本说明书所描述的主题的一个或多个实施例的细节。所述主题的其他特征、方面以及优点将根据描述、附图和权利要求而变得清楚。附图说明0014 图1a和1b是生成位置相关语音识别模型和使用位置相关语音识别模型执行语音识别的示例系统的图。0015 图2是生成和获得位置相关声学模型以用于在语音识别中使用的样本ASR引擎的组件的图。0016 图 3a 和 3b 是生成和获得位置相关语音模型以用于在语音识别中使用的样本 ASR引擎的组件的图。0017 图 4 是用于使用基于位置标记的语音识别模型来执行语音识别的示例过程的流。
26、程图。0018 在不同附图中相同的附图的标记表示相同的元件。具体实施方式0019 如下所述,ASR 引擎可以基于在建筑物 ( 例如用户的家 ) 中用户做出话语所处的区域 ( 例如房间 ),使语音识别模型偏向,或者选择完全不同的语音识别模型。这可以涉及到若干特征。第一,安装在建筑物中的客户端设备和 / 或应答器系统被用来当用户在建筑物中移动并做出话语时估计他们的位置。第二,在训练阶段期间,ASR 引擎使用位置无关语音识别模型来执行语音识别,并从遍及建筑物的各个位置收集话语的转录。第三,转录可以被用来生成位置相关语音识别模型,该位置相关语音识别模型可以随后被用来执行语音识别。在一些方面,可以将来自。
27、多个用户和 / 或多个建筑物的转录组合以生成聚合的位置相关语音识别模型。例如,可以将处于或者靠近位于各个建筑物的厨房的多个话语的转录组合以生成厨房特定语音识别模型。0020 如在本公开中使用的,位置相关语音识别模型是被偏向于与建筑物的给定区域相说 明 书CN 104509079 A3/16 页9关的主题、词语、噪声和 / 或声学特征 (signature) 的模型。本公开中所使用的区域指的是建筑物的功能部分 ( 例如厨房、餐厅、卧室、客厅、洗手间、办公室 )。在不同的建筑物中,相同类型的区域(例如厨房)可以具有不同的尺寸和声学特性(例如混响),但是可以共享相似的噪声特征和词汇。例如,一室公寓中。
28、的厨房与大的独户住宅中的厨房相比可能具有不同的声学特性,但是仍然可以具有共同的噪声和语义主题。因此,与厨房区域相关联的位置相关模型可以包括与食物和烹饪主题和 / 或在厨房中最常发现的噪声 ( 例如微波炉、搅拌器、洗碗机等 ) 相关的词语。位置无关语音识别模型是不偏向于住宅的任何特定区域的模型。0021 此外,在本公开中,人说出的短语被称为话语。一般而言,话语可以包含一个或多个词语。话语可以表示任何语音通信类型,例如 ( 例如为了操作家庭自动化系统的 ) 基于语音的指令、命令或动作,基于语音的搜索查询、口述 (dictation)、对话系统或者使用经转录的语音或者调用使用经转录的语音来执行动作的。
29、软件应用的任何其他输入。0022 图 1a 示出了生成位置相关语音识别模型和使用位置相关语音识别模型执行语音识别的示例系统 100。图 1a 还示出了语音识别在执行时处理器系统 102 中的数据流。参照图 1a,首先描述了用于执行语音识别方法的一般性描述,然后提供了更详细的描述。0023 初始地,在图 1a 中,当用户 102 位于客厅 120 中时,用户 102 做出话语 104( 即“苹果和香料”)。例如,用户 102 可以具有家庭自动化系统,该家庭自动化系统控制客厅里包括音乐播放器 ( 例如 MP3 播放器 ) 的娱乐系统,用户 102 可以打算播放叫做“苹果 & 香料”乐队的“精选集”。
30、专辑。响应于该话语,客户端设备 106 将话语 104 编码成音频信号,并通过检测来自无线电应答器 112 的信号来获得位置标记。客户端设备 106 然后将音频信号和位置标记 ( 例如无线电应答器 112 的标识符 ) 经由网络 110 发送到处理系统 108。处理系统108 执行接收了位置标记和音频信号的 ASR 引擎 116。0024 假定 ASR 引擎 116 已经被训练,位置确定组件 130 访问位置标记,并获得用户 102在说出话语时的估计位置。在本实施例中,由于位置确定组件 130 接收到无线电应答器110(与客厅相关联)的标识符,因此位置确定组件130会输出与客厅120对应的估计。
31、位置。这一估计位置然后被输出至声学模型生成器 134 和语言模型生成器 140。声学模型生成器134 从声学模型的集合 136 中选择与客厅区域相关联的位置相关声学模型。语言模型生成器 140 从语言模型的集合 142 中选择也与客厅区域相关联的位置相关语言模型 142b。0025 ASR引擎116然后使用所选择的声学模型132和语言模型138来将对应于话语104的音频信号转换成转录。在这一情况下,用于客厅142b的语言模型包括短语“苹果&香料”,ASR 引擎 116 将其识别为针对话语 104 的最佳匹配。例如,客厅语言模型 142b 可以通过用户媒体库 ( 例如电影、音乐、电视节目、视频游。
32、戏等 ) 来编程。应当注意,词语“苹果”和“香料”也在用于厨房 142a 的语言模型中,这在没有附加情境信息的情况下可能导致歧义。有利的是,因为ASR引擎116使语言模型的选择基于位置标记,这表明当说出话语时,用户102在客厅 120 中而不是厨房 122 中,所以,ASR 引擎 116 可以容易地解决歧义。0026 最后,ASR 引擎 116 可以经由输出组件 144 传达转录“苹果 & 香料”。例如,输出组件 144 可以提供去往在处理器系统 108 上执行的媒体播放器控制程序的接口,反过来可以使得媒体播放器排队等候“苹果 & 香料的精选集”专辑以用于重放。0027 更详细地,用户 102。
33、 位于具有多个区域 ( 例如客厅 120 和厨房 122) 的建筑物 ( 例说 明 书CN 104509079 A4/16 页10如在用户的家中 ) 中。当在客厅 102 中时,用户 102 说出话语 104 至客户端设备 106 中 ( 例如“苹果和香料”)。客户端设备 106 是在用户的控制下并且能够通过网络请求和接收资源的电子设备。客户端设备(其示例包括图1a和1b的设备)可以包括一个或多个处理设备,并且可以为或者包括移动电话 ( 例如智能电话 )、膝上型计算机、手持计算机、平板计算机、网络设备、相机、增强通用分组无线业务 (EGPRS) 移动电话,媒体播放器、导航设备、电子邮件设备、可。
34、穿戴式计算机、游戏控制台、交互式或者所谓“智能”电视、或者任何两个或更多这些数据处理设备或者其他数据处理设备的组合。0028 用户 102 可以记录话语 104,例如通过按压客户端设备 106 上的按钮来在说话之前发起对话,说出该、话语,并然后释放移动设备上的按钮。在另一示例中,客户端设备 106可以通过说话者的话语来激活。在另一示例中,用户可以在说出话语之前选择客户端设备106 上的用户接口控制 ( 例如麦克风图标 )。作为又一示例,麦克风可以在用户说话之前被激活,或者可以处于“始终开启(always on)”状态,来允许用户不需要手动激活麦克风就能说话。例如,客户端设备可以使用连续记录缓冲。
35、器。0029 客户端设备 106 然后将用户的话语 104 转换成一系列音频信号 ( 例如样本或波形 ),该音频信号例如可以为两秒 ( 或更多 ) 相对高质量音频 ( 例如 16kHz 无损音频 ) 的片段。例如,客户端设备 106 可以在记录话语时创建声音文件或者数据流。此外,响应于接收到话语 104,客户端设备 106 发起用以获得用于其中话语被说出的建筑物的区域的位置标记的过程。本公开所指的位置标记为指示信号从特定位置获得的相对可能性的数据。0030 在一些实现方式中,例如在图 1a 中示出的示例,位置标记可以为描述从无线电应答器发送的无线电信号的数据 ( 例如无线电应答器标识符和信号强。
36、度 ),该无线电信号由位于建筑物的特定区域中的客户端设备所接收。例如,如下所述,无线电应答器 130 可以被定位在遍及建筑物的各个区域中。无线电应答器可以为任何合适的短程无线电系统,例如蓝牙、近场通信 (NFC) 或者 WiFi。0031 无线电应答器可以被安装在遍及建筑物的各个区域中,并然后与建筑物中的相应区域相关联。例如,无线电应答器 112 可以与客厅区域 120 相关联,无线电应答器 114 可以与厨房区域 122 相关联。可以使用任何合适的手段使无线电应答器与建筑物的不同区域相关联。例如,处理系统 108 可以提供接口,以使得用户可以将每个无线电应答器标记为处于特定类别的房间 ( 例。
37、如厨房、客厅、卧室、办公室、餐厅、浴室 ) 中。在一些实现方式中,处理系统 108 可以呈现网络接口,通过网络接口,用户能够经由网络浏览器进行交互。在其他方面,可以经由客户端设备 106 上的图形用户接口访问处理器系统 108,该图形用户接口例如在客户端设备上执行的移动应用。0032 一旦客户端设备 106 将话语 104 编码成音频信号,并获得用于其中话语被说出的建筑物内的区域的位置标记,客户端设备就经由网络 110 将音频信号和位置标记发送至处理系统 108。在一些实现方式中,客户端设备 106 可以建立与处理系统 108 的通信会话,并在会话期间将音频信号和位置标记发送至处理系统 108。在替代实现方式中,客户端设备106 周期性地 ( 例如每 30 秒、每 1 分钟、每 5 分钟 ) 获得并发送位置标记,而不管是否接收到话语。在其他实现方式中,客户端设备 106 可以在客户端设备 106 识别到改变时发送位置标记,该改变例如是客户端设备检测到 :(i) 新的无线电应答器标识符,(ii) 无线电应答器的相对信号强度改变,或 (iii) 无线电应答器已经停止被检测到。在这样的实现方式中,说 明 书CN 104509079 A。