ImageVerifierCode 换一换
格式:PDF , 页数:29 ,大小:883.29KB ,
资源ID:4314114      下载积分:30 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zhuanlichaxun.net/d-4314114.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(用于扩展现实的高精度3维音频的系统和方法.pdf)为本站会员(00****42)主动上传,专利查询网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知专利查询网(发送邮件至2870692013@qq.com或直接QQ联系客服),我们立即给予删除!

用于扩展现实的高精度3维音频的系统和方法.pdf

1、(10)申请公布号 CN 102413414 A (43)申请公布日 2012.04.11 C N 1 0 2 4 1 3 4 1 4 A *CN102413414A* (21)申请号 201110321276.6 (22)申请日 2011.10.12 12/903,610 2010.10.13 US H04S 3/00(2006.01) (71)申请人微软公司 地址美国华盛顿州 (72)发明人 J弗莱克斯 A巴-泽埃夫 J塔迪夫 (74)专利代理机构上海专利商标事务所有限公 司 31100 代理人胡利鸣 (54) 发明名称 用于扩展现实的高精度3维音频的系统和方 法 (57) 摘要 本发明涉

2、及用于扩展现实的高精度3维音频 的系统和方法。提供了用于提供3D音频的技术, 该3D音频可以用于扩展的现实。3D音频信号可以 基于从听者所在的实际房间中所采集的传感器数 据以及听者在该房间中的实际位置来生成。该3D 音频信号可以包括基于所采集的传感器数据和听 者的位置所确定的多个分量。例如,可以确定虚拟 声音源与听者之间的多个(虚拟)声音路径。该 传感器数据可以用于估计房间中的材料,使得可 以确定这些材料在声音在沿着这些路径传播时可 能对声音造成的影响。在一些实施例中,传感器 数据可以用于收集听者的物理特性,使得可以从 HRTF库中确定合适的HRTF。 (30)优先权数据 (51)Int.Cl

3、. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 2 页 说明书 15 页 附图 11 页 CN 102413427 A 1/2页 2 1.一种方法,包括: 基于传感器数据确定房间的物理特性(302); 确定听者在该房间中的位置(304);以及 基于该房间的物理特性和该听者在该房间中的位置来确定3D音频信号(306)。 2.如权利要求1所述的方法,其特征在于,确定3D音频信号包括: 基于该房间的物理参数以及该听者在该房间中的位置来确定虚拟声音源与该听者之 间的多个声音路径。 3.如权利要求2所述的方法,其特征在于,确定3D音频信号包括: 确定3D音频信号的多个分量,其

4、中为所述多个声音路径中的每个确定分量;以及 将针对该听者的与头部相关的传输函数(HRTF)应用于所述多个分量中的每个(308)。 4.如权利要求1至3中的任一项所述的方法,其特征在于,还包括:基于该传感器数据 估计该房间中的物体的材料,确定3D音频信号是基于该材料将对声音造成的影响的。 5.如权利要求1至4中的任一项所述的方法,其特征在于,确定该听者在该房间中的位 置包括: 收集图像传感器数据;以及 基于该图像传感器数据确定该听者在该房间中的位置和旋转。 6.如权利要求1至5中的任一项所述的方法,其特征在于,确定该听者在该房间中的位 置包括:跟踪该听者在该房间中的位置。 7.如权利要求1至6中

5、任一项所述的方法,其特征在于,还包括: 收集该听者的图像传感器数据; 从该听者的图像传感器数据中确定该听者的物理特性;以及 基于该听者的物理特性从HRTF库中为该听者确定HRTF,确定3D音频信号是基于针对 该听者的HRTF的。 8.如权利要求7所述的方法,其特征在于,还包括: 在第一时间存储该听者的物理特性; 在晚于第一时间的第二时间基于生物测定信息标识出该听者,该生物测定信息不同于 该听者的物理特性;以及 基于针对所标识出的听者所存储的物理特性从该库中选择HRTF。 9.如权利要求1至8中任一项所述的方法,其特征在于,该传感器数据包括来自该听者 上的一个或多个话筒的传感器数据。 10.一种

6、装置,包括: 一个或多个传感器(25,28,31,38); 处理器(32,192,101,259),该处理器(32,192,101,259)耦合到所述一个或多个传感 器;以及 耦合到该处理器的计算机可读存储介质(34,194,102,106,112,143,222),该计算机可 读存储介质其上存储有指令,所述指令在该处理器上执行时致使计算机使用该传感器收集 关于环境和听者的数据;该处理器基于所收集的传感器数据确定该环境的物理特性;该处 理器基于所收集的传感器数据确定该听者在该环境中的位置;该处理器基于该环境的物理 特性以及该听者在该环境中的位置确定3D音频信号的多个分量;该处理器将针对该听者

7、权 利 要 求 书CN 102413414 A CN 102413427 A 2/2页 3 的与头部相关的传输函数(HRTF)应用于所述多个分量中的每个;以及该处理器提供3D音 频信号。 权 利 要 求 书CN 102413414 A CN 102413427 A 1/15页 4 用于扩展现实的高精度 3 维音频的系统和方法 技术领域 0001 本发明涉及用于扩展现实的高精度3维音频的系统和方法。 背景技术 0002 公知的是,人类具有使用他们的耳朵在即使没有任何视觉线索的情况下识别声音 源的能力。人类通过采用从一只耳朵导出的线索并且通过比较在两只耳朵处所接收的线 索(差异线索或双耳线索)来估

8、计源的位置。在这些差异线索之中有到达的时间差和强度 差。单耳线索来自声音源与人类解剖结构之间的交互,在人类解剖结构中,原始源声音在其 进入耳道以前被修改,以供由听觉系统进行处理。 0003 在现实世界情况下,声音实际上是从特定位置处发出的。所期望的可能是,使听者 能够感受到:由音频扬声器产生的声音似乎来自3维空间中的特定位置。一种可能的技术 包括让用户佩戴亦称“头戴式耳机”的“头戴耳机”。也就是说,一个音频扬声器被放置在每 个耳朵之上或附近。该技术可以采用使用“与头部相关的传输函数”(HRTF)来创建音频信 号以制造声音源自3D空间中的某位置这一错觉。在此,制造声音来自3D空间中的某位置 这一

9、错觉的音频信号被称为3D音频信号。 0004 HRTF可以基于自由空间中的声音与到达耳膜时的声音之间的差异来定义。HRTF 描述:给定的声波输入(其被参数化为频率和声音位置)在该声音达到耳膜和内耳以前如 何被头部和耳廓的衍射和反射性质过滤。HRTF可以与人的头部形状和他们耳朵的物理特性 密切相关。因此,HRTF可能因人而显著不同。因此,尽管HRTF可以用于帮助创建3D音频 信号,但是在使HRTF适应于每个用户方面仍然存在挑战。 0005 3D音频的一种可能的应用是在扩展的现实场景中。扩展的现实可以被定义为使 用某种计算机生成的技术来扩展现实世界情况。扩展的现实、以及其他3D应用需要精确的 3-

10、D音频。例如,用户应当能够将声音精确定位为来自虚拟声音源。 0006 尽管存在3D音频技术,但是期望改进。如已经提到的那样,一种改进是为用户提 供精确的HRTF。但是,还期望其它改进。3D音频信号应当是精确的、消费者友好的、节省成 本的,并且与现有音频系统兼容。 发明内容 0007 提供了用于提供3D音频的技术。3D音频可以用在扩展的现实中,但是这不是必需 的。在此所公开的技术是精确的、节省成本的、用户友好的,并且与现有音频系统兼容。技 术可以使用一个或多个传感器来收集描述听者所处的环境(例如房间)以及听者在房间中 的位置的现实世界数据。逼真的3D音频信号可以基于从传感器收集的数据生成。一种选

11、 择是使用传感器来收集描述听者的物理特性(例如头部和耳廓形状和大小)的数据以便为 该听者确定合适的HRTF。 0008 一个实施例包括一种方法,该方法包括:基于传感器数据确定房间的物理特性; 确定听者在该房间中的位置;以及基于该房间的物理特性和听者在该房间中的位置确定 说 明 书CN 102413414 A CN 102413427 A 2/15页 5 3D音频信号。 0009 一个实施例包括一种装置,该装置包括一个或多个传感器、处理器以及计算机可 读存储介质。该计算机可读存储介质其上存储有指令,所述指令在处理器上执行时致使该 处理器使用传感器来收集关于环境和听者的数据。处理器基于传感器数据确

12、定环境的物理 特性以及听者在该环境中的位置。处理器基于环境的物理特性和听者在该环境中的位置来 确定3D音频信号的不同分量。处理器将针对听者的与头部相关的传输函数(HRTF)应用于 3D音频信号的每个分量,并且提供3D音频信号。 0010 一个实施例包括一种用于提供3D音频信号的方法。该方法可以包括:收集传感 器数据,该传感器数据可以包括深度信息。基于深度信息确定听者的物理参数。可以基于 HRTF库确定与头部相关的传输函数(HRTF)该确定可以基于听者的物理参数。可以收 集包括关于房间的深度信息的传感器数据。可以基于该深度信息确定房间的物理参数。可 以在房间中确定听者的位置。可以基于房间的物理参

13、数以及听者在该房间中的位置来确定 虚拟声音源与该听者之间的声音路径。基于房间的物理参数,可以为每个声音路径确定3D 音频信号的分量。针对听者的HRTF可以应用于3D音频信号的每个分量,并且可以提供该 3D音频信号。 0011 提供本发明内容以便以简化形式介绍将在以下的具体实施方式中进一步描述的 一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨 在用于限定所要求保护的主题的范围。 附图说明 0012 图1描绘了运动捕捉系统的示例性实施例。 0013 图2描绘了图1的运动捕捉系统的示例性框图。 0014 图3是用于提供3D音频信号的过程的一个实施例的流程图。 0015

14、 图4A描绘了用于确定房间的模型的过程的流程图。 0016 图4B描绘了用于基于虚拟特性和真实特性来构建房间模型的过程的一个实施例 的流程图。 0017 图5A是用于确定3D音频信号的音频分量的过程的一个实施例的流程图。 0018 图5B描绘了房间的顶视图以以2维示出可能的声音路径。 0019 图6示出了用于确定听者在房间中的位置和旋转的过程的流程图。 0020 图7描述了用于为特定听者确定HRTF的过程的一个实施例。 0021 图8描绘了用于基于之前收集的详细特性来为听者选择HRTF的过程的一个实施 例的流程图。 0022 图9是描绘用于基于这样的数据修改房间模型的过程的一个实施例的流程图。

15、 0023 图10描绘了用于生成3D音频信号的一个实施例的框图。 0024 图11描绘了可以在图1的运动捕捉系统中使用的计算环境的示例框图。 0025 图12描绘了可以在图1的运动捕捉系统中使用的计算环境的另一示例框图。 具体实施方式 0026 提供了用于提供3D音频的技术。3D音频可以用于扩展现实,但是其他应用也是 说 明 书CN 102413414 A CN 102413427 A 3/15页 6 可能的。在此所公开的技术是精确的、节省成本的、用户友好的,并且与现有音频系统兼容。 3D音频信号可以基于从听者所在的实际房间中所收集的传感器数据以及听者在该房间中 的实际位置来生成。该音频信号可

16、以表示“虚拟声音”,该虚拟声音表示来自3D空间中的某 个特定位置的声音。该位置可以表示在视频屏幕上所显示的某个物体、或者甚至听者房间 中的真实实物物体。在一些实施例中,3D音频信号通过一组头戴耳机被提供给听者。该3D 音频信号可以包括多个分量,这些分量基于所收集的传感器数据和听者的位置来确定。例 如,墙壁和家具的位置可以从传感器数据中确定。还可以确定虚拟声音源与听者之间的多 个(虚拟)声音路径。该传感器数据可以用于估计房间中的材料,使得可以确定这些材料 在声音在沿着这些路径传播时可能对声音造成的影响。在一些实施例中,可以分析传感器 数据以确定听者的物理特性,使得可以从HRTF库中确定合适的HR

17、TF。针对听者的HRTF可 以应用于3D音频信号的不同分量。下面讨论其他细节。 0027 在一些实施例中,生成3D音频信号被用于运动捕捉系统中。因此,将描述示例性 的运动捕捉系统。然而,可以理解,本文所描述的技术不限于运动捕捉系统。图1描绘了运 动捕捉和3D音频系统10的示例,其中房间(或其他环境)中的人与应用交互。运动捕捉 和3D音频系统10包括显示器196、深度相机系统20、以及计算环境或装置12。深度相机系 统20可以包括图像相机组件22,该图像相机组件22具有光发射器24、光传感器25、以及 红绿蓝(RGB)相机28。在一个实施例中,光发射器24发射准直光束。准直光束的示例可 包括但不

18、限于,红外(IR)和激光。在一个实施例中,光发射器24是LED。从视野6内的听 者8、物体33、墙壁35等等反射离开的光由光传感器25来检测。在一些实施例中,系统10 使用该信息来确定如何生成3D音频信号。描述该房间的诸如RGB信息(其在下面予以讨 论)之类其他信息可以用于确定如何生成3D音频信号。 0028 亦称为听者的用户站在深度相机系统20的视野6中。听者8佩戴了用来提供3D 音频声音的头戴耳机27。在该示例中,头戴耳机27包括两个音频扬声器37,所述音频扬声 器37之一佩戴在每只耳朵之上或附近。系统10可以提供驱动音频扬声器37的3D音频信 号。该3D音频信号可以使用无线或有线连接来提

19、供。在某个实施例中,系统10将3D音频 信号提供给另一组件,比如高保真度立体声系统、HDTV等等。 0029 对于听者8而言,3D音频信号中的声音可能似乎源自某个虚拟声音源29。作为一 个示例,虚拟声音源29a可以是显示器196上所显示的物体。然而,虚拟声音源29a可以对 应于房间中的某个真实物体29b。例如,可以指示用户将玩偶侏儒(gnome)放置在他们面前 的桌上,其中系统10可以使得对用户而言就好像该玩偶侏儒正在与他们交谈(由于通过头 戴27所播放的3D音频的缘故)。虚拟声音源29甚至可能好像源自房间之外。 0030 在一些实施例中,用户“佩戴”一个或多个话筒31,所述话筒可以被系统10

20、用于 确定房间的声学性质以提供更逼真的3D音频信号。在该示例中,话筒31位于头戴耳机27 上,但是用户可以将话筒31“佩戴”在另一位置处。在一些实施例中,用户“佩戴”一个或多 个惯性传感器38,所述惯性传感器可以被系统10用于确定听者8的位置和旋转。在该示例 中,惯性传感器38位于用户的头上,但是用户可以将惯性传感器38“佩戴”在另一位置处。 例如,惯性传感器38可以集成到头戴耳机27中。在一些实施例中,用户8可以携带相机, 该相机可以用于向系统10提供与深度相机系统20所生成的深度和/或RGB信息类似的深 度和/或RGB信息。 说 明 书CN 102413414 A CN 102413427

21、 A 4/15页 7 0031 线2和4表示视野6的边界。可以定义笛卡儿世界坐标系,其包括:沿着深度相机 系统20的焦距例如水平地延伸的z轴;垂直地延伸的y轴;以及侧向地且水平地延伸的x 轴。注意,附图的透视被修改成简化表示,显示器196在y轴方向上垂直延伸,z轴垂直于y 轴和x轴且与用户所站立的地面平行地从深度相机系统20延伸出来。 0032 一般而言,运动捕捉系统10用于识别、分析和/或跟踪对象。计算环境12可包括 计算机、游戏系统或控制台等等,以及执行应用程序的硬件组件和/或软件组件。 0033 深度相机系统20可以包括相机,该相机用于可视地监视诸如用户之类的一个或 多个物体8,使得可以

22、捕捉、分析并跟踪用户所作出的姿势和/或运动,以执行应用中的一 个或多个控制或动作,比如选中用户界面(UI)中的菜单项。 0034 运动捕捉系统10可以连接到诸如显示器196等可向用户提供视觉和音频输出的 视听设备,如电视机、监视器、高清电视机(HDTV)等,或甚至是墙或其他表面上的投影。还 可以经由单独的设备来提供音频输出。注意,3D音频信号通常通过头戴耳机27来提供。为 驱动显示器,计算环境12可包括提供与应用相关联的视听信号的诸如图形卡之类的视频 适配器和/或诸如声卡之类的音频适配器。显示器196可以通过例如S-视频电缆、同轴电 缆、HDMI电缆、DVI电缆、VGA电缆等等连接到计算环境1

23、2。 0035 图2描绘了图1的运动捕捉和3D音频系统10的示例性框图。系统10包括深度 相机系统20和计算环境12。在该实施例中,计算环境12具有3D音频生成195。计算环境 12输入来自深度相机系统20的深度信息和RGB信息,并且将3D音频信号输出给音频放大 器197。音频放大器197可以是诸如HDTV、立体声系统等等之类的单独设备的一部分。3D 音频生成195可以通过在处理器192上执行指令来实现。注意,硬件执行的实施方式、以及 混合型软件/硬件实施方式也是可能的。 0036 深度相机系统20可被配置成生成深度图像,该深度图像可以包括深度值。深度相 机系统20可以将深度图像组织成“Z层”

24、,或者可以与从深度相机系统20沿其视线延伸的Z 轴垂直的层。深度图像可包括所捕捉的场景的二维(2-D)像素区域,其中该2-D像素区域 中的每个像素具有代表距离图像相机组件22的线性距离(径向距离)的或由像素观察的 3D位置的Z分量(垂直距离)的相关联的深度值。 0037 图像相机组件22可以包括光发射器24和一个或多个光传感器25来捕捉从视野 内的物体反射离开的光的强度。例如,深度相机系统20可使用光发射器24将光发射到物理 空间上并使用光传感器25来检测从物理空间内一个或多个对象的表面所反射的光。在一 些实施例中,深度值基于光强来确定。例如,随着时间的过去,越来越多的光子达到给定的 像素。在

25、收集时间段以后,每个像素处的光强被采样。深度图像中的深度值可以基于每个 像素处的光强来确定。在一些实施例中,光发射器24发射脉冲红外光。在一些实施例中, 光被调制到所期望的频率。 0038 红绿蓝(RGB)相机28可用于捕捉可见光图像。深度相机系统20还可以包括话筒 30,其包括例如接收声波并将其转换成电信号的换能器或传感器。另外,话筒30可用于接 收也可由人提供的诸如声音之类的音频信号,以控制可由计算环境12运行的应用程序。音 频信号可包括人的口声,如说的话、口哨声、喊声及其他发声,以及非口声,如掌声或跺脚。 在一些实施例中,话筒30是话筒阵列,它可具有一起运行的任何数量的话筒。如图1中所

26、述,还可以由用户8佩戴一个或多个话筒31。这些话筒31的输出可以被提供给计算环境 说 明 书CN 102413414 A CN 102413427 A 5/15页 8 12以供由3D音频生成195来使用。如果期望的话,则话筒30的输出也可以由3D音频生成 195来使用。 0039 深度相机系统20可包括与图像相机组件22进行通信的处理器32。处理器32可 以包括可执行例如包括用于生成3D音频信号的指令在内的指令的标准化处理器、专用处 理器、微处理器等等。 0040 深度相机系统20还可包括存储器组件34,存储器组件34可存储可由处理器32执 行的指令、以及存储RGB相机所捕捉的图像或图像帧、或

27、任何其他合适的信息、图像等等。 根据一个示例实施方式,存储器组件34可包括随机存取存储器(RAM)、只读存储器(ROM)、 高速缓存、闪存、硬盘或任何其他合适的有形计算机可读存储组件。存储器组件34可以是 经由总线21与图像捕捉组件22和处理器32通信的单独的组件。根据另一实施例,存储器 组件34可被集成到处理器32和/或图像捕捉组件22中。 0041 深度相机系统20可以通过通信链路36与计算环境12进行通信。通信链路36可 以是有线和/或无线连接。根据一个实施方式,计算环境12可以经由通信链路36向深度 相机系统20提供时钟信号,该时钟信号指出何时从位于深度相机系统20的视野中的物理 空间

28、捕捉图像数据。 0042 此外,深度相机系统20可通过通信链路36向计算环境12提供深度信息和由RGB 相机28捕捉的图像。计算环境12然后可使用深度信息和所捕捉的图像来控制应用。例 如,如图2所示,计算环境12可包括诸如姿势过滤器集合等姿势库190,每一姿势过滤器具 有关于可(在用户移动时)执行的姿势的信息。例如,可以为各种手势(如手的猛击或投 掷)提供姿势过滤器。通过将检测到的运动与每一个过滤器进行比较,可以标识由人执行 的指定的姿势或运动。还可以确定执行运动的程度。 0043 计算环境还可包括处理器192,其用于执行存储在存储器194中的指令以向显示 设备196提供音频-视频输出信号并实

29、现其他功能。 0044 图3是用于提供3D音频信号的过程300的一个实施例的流程图。过程300可以 在系统10内实现,但是可以使用不同的系统。在步骤301,收集传感器数据。该传感器数据 可以包括、但不限于深度信息、GRB数据以及音频数据。例如,可以使用深度相机系统20来 用光传感器25收集其(使用光发射器24)所发射的光。还可以使用RGB相机28。在一个 实施例中,使用由用户8佩戴的一个或多个话筒31来收集传感器数据。也可以使用深度相 机系统20中的话筒30。在一个实施例中,用户8握住相机并且将其在四周移动以收集房间 周围的传感器数据。该数据可以包括深度信息和RGB数据。 0045 在步骤30

30、2,基于传感器数据来确定听者所在的房间或其他环境的物理特性。该传 感器数据可以用于确定诸如墙壁和各个物体位于何处之类的信息。而且,该传感器数据可 以用于估计房间中的材料。例如,传感器数据可以用于确定地面是硬木还是地毯。 0046 在步骤304,确定听者在房间中的位置。在一个实施例中,使用传感器数据来确定 听者的位置。例如,可以使用在步骤302所收集的传感器数据来确定听者的位置。 0047 在步骤306,基于听者在房间中的位置以及该房间的一个或多个物理特性来确定 3D音频信号。作为一个示例,可以确定虚拟声音源与听者之间的多个声音路径。此外,可以 将房间的物理特性作为因素计入。作为一个示例,从硬木

31、地面反射离开的声音将不同于从 地毯反射的声音。因此,对于具有这样的路径的声音路径而言,这可以作为因素计入。在一 说 明 书CN 102413414 A CN 102413427 A 6/15页 9 些实施例中,应用针对听者的HRTF以形成3D音频信号。在一些实施例中,基于传感器确定 的特性来确定针对听者的HRTF。例如,图像相机组件20中的传感器可以捕捉深度和/或 RGB数据。可以存在HRTF库,其中基于匹配过程从该库中选择(或以其他方式确定)合适 的HRTF。 0048 在步骤308中,提供3D音频信号。例如,3D音频信号被提供给用于驱动头戴耳机 27的音频放大器197。注意,过程300可以

32、通过如下方式重复:收集更多传感器数据(301); 重新确定房间的物理特性(步骤302);重新确定听者的位置(步骤304)等等。然而,不需 要连续地重复所有步骤。例如,过程300可以以任何所期望的间隔来重新确定房间特性。可 以预期某些信息保持不变(例如墙壁的位置)。然而,诸如物体位置之类的其他房间信息可 能随时间改变。由于听者的位置可能非常频繁地改变,因此可以仔细地跟踪听者的位置。 0049 图4A描绘了用于确定房间模型的过程400的一个实施例的流程图。过程400可 以用在过程300的步骤301、302和306中。例如,该模型可以从在步骤301所收集的传感 器数据中构建,并且在步骤306被用于确

33、定音频分量。在步骤402,生成房间中的一个或多 个物体的深度图像。在一个实施例中,通过由深度相机系统20将IR射束发射到视野内并 且在一个或多个图像传感器处收集所反射的数据来形成深度图像。然后,处理该传感器数 据以确定深度值(例如与各个物体相距的距离)。注意,由于视野可能是有限的,因此深度 相机系统20可以调节视野并且重复收集附加的深度信息。在一些实施例中,图像相机组件 22由电机来控制,该电机允许移动视野以捕捉房间的更完整的照片。如上所述,用户8可以 握住相机并且将其用于扫描房间以收集深度数据。 0050 在步骤404,生成房间中的一个或多个物体的RGB图像。在一个实施例中,由深度 相机系统

34、20使用红绿蓝(RGB)相机28来形成RGB图像。如上所述,用户8可以握住相机 并且将其用于扫描房间以收集RGB数据。RGB图像可以与深度图像一起从一个以上的数据 收集步骤中形成。步骤402和404是步骤301的一个实施例。 0051 在步骤406,确定房间和该房间中的物体的物理尺寸。还可以确定物体的物理位 置。该信息可以基于在步骤402和404所收集的数据。在一些实施例中,基于所收集的数 据来外插出该物理尺寸。如所述那样,深度相机系统20可能不能不收集整个房间的数据。 例如,参考图1,视野可能不能捕捉整个墙壁35。在这样的情况下,一种选择是对所收集的 数据进行外插以针对没有数据的区域估计墙壁

35、35的位置。步骤406是步骤302的一个实 施例。 0052 在步骤408,对房间中的物体的材料进行估计。作为一个示例,对各件家具、墙壁、 天花板、地面等等的材料进行估计。在一些实施例中,使用深度信息来辅助该确定。例如, 该深度信息可以用于确定地板是光滑的(以及可能确定:是硬木的或是铺了地板砖的)还 是粗糙的(可能确定:是铺了地毯的)。还可以使用RGB信息。注意,不需要估计实际材料, 但是这是一种选择。估计材料的原因是能够确定该材料将如何影响声音。因此,可以确定 和排序可用于确定材料将如何影响声音从物体离开的反射的任何参数。 0053 在步骤410,基于在步骤406和408确定的物理尺寸和材料

36、来构造房间的模型。之 后,可以基于该房间模型生成3D音频信号。例如,该模型可以用在过程300的步骤306。因 此,可以用3D音频信号来扩展用户房间的实际现实。步骤406、408和410是步骤302的一 个实施例。 说 明 书CN 102413414 A CN 102413427 A 7/15页 10 0054 图4B描绘了用于基于虚拟特性和真实特性来构建房间模型的过程450的一个实 施例。作为一个示例,可以使用处理器450来使得对于听者而言好像他们的房间被以某种 方式变换。例如,如果用户玩视频游戏,其中用户想象他们处于监狱牢房中,则处理器450 可以用于构建具有监狱牢房的特性的房间模型。该模型

37、可以使用用户房间的一些实际特 性,比如物体的大小和位置。然而,替代于使用真实物体的实际材料,可以使用虚拟特性。例 如,替代于实际的厚地毯,可以对水泥地面进行建模。因此,听者的房间的现实可以基于该 模型由3D音频信号来扩展。 0055 在步骤452,访问物体在实际房间中的物理尺寸和位置。这些特性可以已经使用过 程400被确定。然而,实际房间特性在期望时可以重新确定。 0056 在步骤454,确定虚拟环境的特性。例如,实现虚拟游戏的软件应用可以提供定义 虚拟环境的参数。在本示例中,该应用可以提供描述墙壁、地面、天花板等等的虚拟材料的 参数。注意,这些参数可以以另一方式来确定。 0057 在步骤45

38、6,将虚拟特性应用于实际房间特性。因此,替代于确定用户的实际地面 是铺了地毯的以及确定声音将如何受到地毯影响,将用户的地面建模为水泥。然后,作出关 于水泥将如何影响声音反射的确定。如果期望的话,则可以让虚拟特性应用于房间中的各 个物体。例如,如果期望让沙发模拟大石(bolder),则可以让石头的特性应用于沙发。 0058 在步骤458,基于来自步骤456的信息来构建用户房间的模型。该模型可以在生成 3D音频信号时使用。例如,该模型可以用在图3的过程300的步骤306。注意,用户房间中 的实际物体(家具、墙壁、天花板等等)可以用于确定该模型。因此,可以通过3D音频信号 来扩展用户的实际房间的现实

39、。 0059 图5A是用于确定3D音频信号的分量的过程500的一个实施例的流程图。过程500 是过程300的步骤306的一个实施例。在步骤502,确定虚拟声音源29的位置。例如,如果 用户与显示器196上所示的虚拟世界交互,则虚拟声音源29可以是该虚拟世界中所显示的 某个物体。然而,虚拟声音源29可以是用户房间中的实际物体或虚拟物体。例如,用户可 以将物体放置在该房间中的所期望的位置处。然后,系统可以标识出该物体的位置。作为 特定的示例,系统可以指示用户将物体放置在用户想要放置的地方。作为响应,用户可以在 桌上放置玩偶侏儒。然后,系统例如通过使用深度相机系统来确定物体的位置。如前面所 讨论的那

40、样,系统可以跟踪用户的物理位置。因此,系统能够通过跟踪用户的运动来确定用 户已经将玩偶侏儒放置在了桌上。可以将其他技术用于该系统以确定虚拟声音源29的实 际位置。虚拟声音源29甚至可以处于房间之外。例如,系统可以使得某人好像在敲门或者 从门的另一侧谈话。 0060 在步骤504,确定虚拟声音源29与听者8之间的声音路径。这可以包括确定直接 路径和一个或多个间接路径。步骤504可以基于已经在过程300的步骤302确定的房间信 息。图5B描绘了房间的顶视图以以2维示出可能的声音路径。注意,系统10可以以3维 确定声音路径;然而使用2维来简化说明。在步骤504以前,系统可以确定听者8和房间中 的其他

41、物体33的位置。作为一个示例,其他物体33可以是沙发。在该示例中,声音路径包 括直接声音路径和两个间接声音路径。一个间接声音路径是包括从一个物体的声音反射的 一阶路径。还描绘了包括从两个物体的反射的二阶路径。在该示例中,物体33阻挡潜在的 一阶路径(其由指向物体33的虚线箭头来指示)。还可以确定三阶和更高阶的路径。注 说 明 书CN 102413414 A CN 102413427 A 8/15页 11 意,可以考虑从墙壁以外的物体离开的反射。图5B的具体视图未描绘离开地面和天花板的 声音反射,但是也可以考虑这些声音路径。 0061 在步骤506,为每个声音路径确定3D音频信号的分量。这些不同

42、分量可以联合以 形成3D音频信号。关于房间中的材料的信息可以用在步骤506。例如,如果已经确定:沿 着一阶路径存在关闭的窗,则可以将声音从玻璃反射离开的影响作为因素计入。另一方面, 可能确定:该窗当前为打开的,在这种情况下,一阶路径可以不加以考虑。作为另一示例,窗 帘可能被关闭,在这种情况下,考虑窗帘对一阶路径上传播的声音的影响。如之前所述,关 于房间的信息可以以任何所期望的间隔更新。因此,当用户进行交互时,所生成的3D音频 信号可能由于诸如用户打开窗、关闭窗帘等等之类的情况而改变。 0062 在步骤508,将针对听者的HRTF应用于每个音频分量。下面讨论为听者确定合适 HRTF的进一步细节。

43、在将HRTF应用于每个音频分量以后,这些分量可以合并以生成3D音 频信号。注意,在输出3D音频信号以前可以执行其他处理。 0063 图6示出了用于确定听者在房间中的位置和旋转的过程600的流程图。例如,过程 600可以用于确定用户的头旋转到哪个方位。过程600是过程300的步骤304的一个实施 例。注意,过程600不一定包括收集用于为听者8确定合适HRTF的信息。该信息可以如下 面所述那样以更加受限的基础来收集。该示例性方法例如可以使用深度相机系统20来实 现。可以扫描用户8来生成模型,比如骨架模型、网格人类模型、或人的任何其他合适的表 示。然后,该模型可以与房间信息一起用于确定用户在该房间中

44、的位置。用户的旋转(例 如用户的头所取向的方位)也可以从该模型中确定。 0064 根据一个实施方式,在步骤602中,例如,从深度相机系统接收深度信息。可以将 深度图像下采样到较低的处理分辨率,使得其可以更容易地用较少的计算开销来使用和处 理。另外,可从深度图像中移除和/或平滑掉一个或多个高变度和/或含噪声的深度值;可 填入和/或重构缺少的和/或移除的深度信息的部分;和/或可对所接收的深度信息执行 任何其他合适的处理,使得该深度信息可用于生成诸如骨架模型等模型。 0065 在判定步骤604,判定深度图像是否包括人类目标。这可以包括对深度图像中的每 一个目标或物体进行泛色填充,将该目标或物体与图案

45、进行比较以判断深度图像是否包括 人类目标。例如,可以如上文所描述的那样将深度图像的选定区域或点中的像素的各种深 度值进行比较,以确定可以定义目标或对象的边缘。可基于所确定的边缘来对Z层的可能Z 值进行泛色填充。例如,与确定的边缘相关联的像素和该边缘内的区域的像素可以彼此相 关联,以定义可以与图案相比较的捕捉区域中的目标或对象,这在下面将更详细地描述。 0066 如果判定步骤604为真,则执行步骤606。如果判断步骤604为假,则在步骤602 中接收附加的深度信息。 0067 每一个目标或对象与其比较的图案可包括一个或多个数据结构,这些数据结构具 有共同地定义人的典型身体的变量集合。可以将与例如

46、视野内的人类目标和非人类目标的 像素相关联的信息与变量进行比较,以标识人类目标。在一个实施例中,可以基于身体部 位,对该集合中的每一个变量赋予权重。例如,图案中的诸如头和/或肩之类的各种身体部 位可以具有与其相关联的权重值,这些权重值可以大于诸如腿之类的其他身体部位的权重 值。根据一个实施方式,当将目标与变量进行比较以判断目标是否可能是人类以及哪些目 标可能是人类时,可以使用权重值。例如,变量和目标之间具有较大的权重值的匹配与具有 说 明 书CN 102413414 A CN 102413427 A 9/15页 12 较小权重值的匹配相比可产生目标是人类的更大似然性。 0068 步骤606包括

47、扫描人类目标以寻找身体部位。可以扫描人类目标,以提供与人的 一个或多个身体部位相关联的诸如长度、宽度等等之类的测量值,以提供该人的准确模型。 在一示例实施例中,人类目标可以被隔离,并且可以创建人类目标的位掩模来扫描一个或 多个身体部位。可以通过例如对人目标进行泛色填充来创建位掩模,以便人类目标可以与 捕捉区域元素中的其他目标或对象分离。然后,可以对于一个或多个身体部位分析位掩码, 以生成人类目标的模型,如骨架模型、网格人类模型等等。 0069 步骤608包括生成人类目标的模型。在一个实施方式中,可以使用由扫描的位掩 模确定的测量值来定义骨架模型中的一个或多个关节。一个或多个关节被用来定义对应于

48、 人类的身体部位的一个或多个骨头。一般而言,每个身体部位可被表征为定义骨架模型的 关节和骨骼的数学向量。身体部位在关节处可以相对于彼此移动。模型可以包括描述用户 的头的旋转的信息,使得得知用户的耳朵的取向。 0070 在步骤610,在用户上的惯性传感器收集数据。在一个实施例中,至少一个惯性传 感器位于用户的头上以允许跟踪用户的头。 0071 在步骤611中,通过每秒钟多次更新人的位置来跟踪模型。随着用户在物理空间 中移动,使用来自深度相机系统的信息来调整骨架模型,以使该骨架模型表示人。来自惯性 传感器的数据也可以用于跟踪用户。具体而言,可以向骨架模型的一个或多个受力面施加 一个或多个力,以将骨

49、架模型调整为更加紧密地对应于物理空间中的人类目标的姿态的姿 态。一般而言,可使用用于跟踪一个或多个人的运动的任何已知技术。 0072 在步骤612,基于对模型的跟踪来确定用户在房间中的位置。在步骤614,基于对 模型的跟踪来确定用户的头的旋转。过程600可以继续跟踪用户,使得位置和旋转可以更 新。 0073 在一些实施例中,基于听者8的物理特性从HRTF库中确定针对用户8的HRTF。这 些物理特性可以基于诸如深度信息和RGB信息之类的来自传感器的输入来确定。图7描述 了用于为特定听者8确定HRTF的过程700的一个实施例。该HRTF可以用在过程300的步 骤306或者过程500的步骤508。注意,HRTF可以在任何时间确定。作为一个示例,为用户 确定一次HRTF,并且将其存储以供反复使用。当然,可能修订HRTF(例如选择新的HRTF)。 0074 在步骤702,系统10指示用户8采取某个位置或姿态。例如,系统指示用户向左 看。在步骤704,系统10收集用户处于该位置的情况下的数据。

copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1