《用于在数字视频中追踪和重塑人形图像的计算机实现的方法和装置.pdf》由会员分享,可在线阅读,更多相关《用于在数字视频中追踪和重塑人形图像的计算机实现的方法和装置.pdf(16页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103348386 A (43)申请公布日 2013.10.09 CN 103348386 A *CN103348386A* (21)申请号 201180057530.4 (22)申请日 2011.11.29 10015108.3 2010.11.29 EP 61/417,654 2010.11.29 US G06T 17/10(2006.01) (71)申请人 马普科技促进协会 地址 德国慕尼黑 (72)发明人 H-P塞德尔 C希尔伯特 T索玛伦 A珍 (74)专利代理机构 中国国际贸易促进委员会专 利商标事务所 11038 代理人 宋海宁 (54) 发明名称 用于。
2、在数字视频中追踪和重塑人形图像的计 算机实现的方法和装置 (57) 摘要 本发明涉及一种用于在数字视频中追踪和重 塑人形图像的计算机实现的方法, 包括涉骤 : 从 该数字视频获取图像的身体模型, 适配该身体模 型的形状, 基于适配的身体模型修改该数字视频 的帧以及输出该数字视频。 (30)优先权数据 (85)PCT申请进入国家阶段日 2013.05.29 (86)PCT申请的申请数据 PCT/EP2011/071247 2011.11.29 (87)PCT申请的公布数据 WO2012/072617 EN 2012.06.07 (51)Int.Cl. 权利要求书 1 页 说明书 9 页 附图 5。
3、 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书9页 附图5页 (10)申请公布号 CN 103348386 A CN 103348386 A *CN103348386A* 1/1 页 2 1. 一种用于在数字视频中追踪和重塑人形图像的计算机实现的方法, 包括以下步骤 : - 从该数字视频获取该图像的身体模型 ; - 适配该身体模型的形状 ; - 基于该适配后的身体模型修改该数字视频的帧 ; 以及 - 输出该数字视频。 2. 根据权利要求 1 的方法, 其中该身体模型包括运动骨架模型和表面网格。 3. 根据权利要求 1 的方法, 其中该身体模型采用普通剥。
4、皮方式来建模依靠姿势的表面 网格适配。 4. 根据权利要求 1 的方法, 其中该模型的姿势和形状参数通过测量该重投影的模型的 轮廓边界和该图像的轮廓边界的偏差而获得。 5. 根据权利要求 4 的方法, 其中获得姿势和形状参数进一步包括最小化在视频帧中的 该图像和重投影到该视频帧上的身体模型之间的偏差。 6. 根据权利要求 5 的方法, 进一步包括提供界面的步骤, 在该界面中用户可明确地标 记要被追踪的额外的图像点, 以及在该界面中可连接破碎的轨迹。 7. 根据权利要求 1 的方法, 进一步包括步骤 : 提供用于设置该身体模型的形状属性的界面, 其中通过将经由界面设置的形状属性映射到形状来适配该。
5、身体模型的该形状。 8. 根据权利要求 7 的方法, 其中该身体模型的该形状属性包括身高、 体重、 胸围、 腰围、 臀围、 腿长和肌肉发达性中至少一个。 9. 根据权利要求 1 的方法, 其中使用该数字视频和其他的传感器设备获得该身体模 型。 10. 根据权利要求 9 的方法, 其中该其他的传感器设备是深度摄像机或用于或者在线 或者离线捕捉 2D 或 3D 静态或时变形状的另一个扫描仪或设备。 11. 根据权利要求 10 的方法, 其中该其他的传感器设备是光学运动捕捉系统、 电磁运 动捕捉、 任何形式的运动捕捉套件或用于姿势评估的外骨骼。 12.根据权利要求1的方法, 其中根据通过其他传感器提。
6、供的视频和/或深度数据实时 追踪该模型的该运动。 13. 根据权利更求 1 的方法, 其中实时输出该数字视频。 14. 一种用于在数字视频中追踪和重塑人形图像的装置, 包括 : - 用于从该数字视频获取该图像的身体模型的模块 ; - 用于适配该身体模型的形状的模块 ; - 用于基于该适配后的身体模型修改该数字视频的帧的模块 ; 以及 - 用于输出该数字视频的装置。 15. 根据权利要求 14 的设备, 其中用于获得身体模型的模块包括深度摄像机或用于或 者在线或者离线捕捉 2D 或 3D 静态或时变形状的另一个扫描仪或设备。 16. 一种根据权利要求 14 的装置的用于以不同形状可视化人类个体的。
7、用途。 17. 一种根据权利要求 14 的装置的用于基于不同的人类个体的图像翘曲人类个体的 图像的用途。 18. 一种计算机可读介质, 包括当被执行时实现根据权利要求 1 的方法的指令。 权 利 要 求 书 CN 103348386 A 2 1/9 页 3 用于在数字视频中追踪和重塑人形图像的计算机实现的方 法和装置 背景技术 0001 照片的数字修整在用于广告或杂志的商业摄影中是必要的操作, 但在摄影爱好者 中也越来越流行。 典型的修整操作目的在于视觉上的完美, 例如通过移除疤痕或胎记、 调整 光线、 改变场景背景、 或者调整身体比例。 然而即使是商业级的图像编辑工具也经常只提供 很基本的操。
8、作功能。因此, 很多高级修整操作, 例如改变外观或身体的比例, 经常需要数小 时的手动工作。为了使得这种高级的编辑操作更便利, 研究者已经开发了采用面部和人体 的参数模型的基于语义的修整工具以便更容易地执行复杂的编辑。 示例为在照片中增加面 部吸引力或半自动地改变一个人的形体的算法。 0002 虽然照片的这种基于语义的修整方式已经很具有挑战性, 但对视频流执行类似的 编辑到目前为止几乎是不可能的。现存的商业视频编辑工具仅仅提供比较基本的操作功 能, 如视频对象分割或视频重定向, 并且这些操作已经需要大量计算。 只有几个基于对象的 视频操作方法略微跨出这些局限, 例如通过允许面部表情改变、 修改。
9、衣服纹理, 或通过使能 视频对象的简单的运动编辑。简单操作人体体形的属性 ( 如体重、 身高或肌肉发达性 ) 的 可能性会在电影和视频后期制作中有很多即时应用。不幸地, 即使是用最高级的基于对象 的视频操作工具, 这样的修整也会占用即使熟练的视频专家数小时的工作。最基本的挑战 是即使在单个视频帧中, 体形操作也必须以整体的方式执行。由于整个身体的外观是密切 相关的, 所以单独地基于本地操作的身体重塑是很困难的。 作为另外一个困难, 视频中的身 体重塑不得不以时空一致性的方式完成。 0003 现有技术 0004 应用类似复杂的编辑到整个视频流仍然是个大的挑战。 先前的方式包括允许用户 修剪和翘曲。
10、视频卷 ( 例如来稳定摄像机或移除特定对象 ) 的系统。还已知用于在通过静态 照相机和卡通动画滤波器捕捉的图像序列中的明显运动的放大算法, 该算法可以在现有的 视频录像中改变运动, 使得它看起来更夸张或更动画。 0005 至少如果面部保持静态, 时空梯度域编辑使能数个高级视频效果, 如重组或面部 替换。在视频流中的特定前景对象的时空分割也会为一些更高级的编辑铺平道路, 如在视 图域中重新安置对象。 然而, 这些方法中没有一个能够以简单的方式完全地重塑人类演员。 0006 因此, 本发明的一个目的是提供用于在数字视频中跟踪和重塑人形图像的方法和 装置。 发明内容 0007 根据独立权利要求的方法。
11、和装置达到这个目的。 在从属权利要求中定义有利的实 施方式。 0008 本发明提供一种系统来快速和简单地操作任意的视频录像中人类演员的体形和 比例。更特别地, 本发明提供一种方法和一种设备来简单地执行视频中人类演员的身体属 性的整体操作。本发明的方法基于已经从实际个体的全身扫描 ( 如激光扫描 ) 学习到的人 说 明 书 CN 103348386 A 3 2/9 页 4 体形状和姿势的 3D 形变模型。可使用任何形式的参数和非参数形状或几何模型使得可以 修改形状或者姿势或者同时修改它们两者。该模型可包括骨架和表面网格。可通过标准的 表面剥皮方法描述该模型的姿势变量。跨年龄、 性别和个人体质的体。
12、形变化可在低维度主 成分分析 (PCA) 参数空间建模。替代的参数的形状模型可基于其他的参数化技术, 如任何 其他的降维技术 (Isomap、 Kernel PCA 等 )。形状操作可基于在这些参数空间修改形状参 数, 或者基于通过学习的或定义的映射被映射到这些空间的参数。 可替代地, 对形状模型的 一般的缩放、 变形或操作方法可被用于修改身体的形状和姿势。回归方案允许映射人类形 状模型的特征到语义上有意义的可被用户修改的标量属性上, 如身高、 体重、 胸围、 肌肉发 达性等。第一步, 无标记运动评估方法可在每个视频帧中拟合该模型到该演员。在困难的 姿势中, 用户可使用手动约束设置来支持这个算。
13、法。一旦追踪到该 3D 模型, 用户可交互地 修改它的形状属性。通过一种基于图像的翘曲 (warp) 手段, 该修改后的模型的形状可被以 时空一致的方式应用到每一视频帧中的该演员上。通过这个手段, 现在人们可方便地执行 视频录像中的人类演员的时空重塑。 0009 本发明的方法对于单筒或者多视角姿势推断两者都是适用的。 0010 本发明的有用性可在单视角和多视角视频序列中证明。例如, 人们可快速和容易 地改变现有的电影和视频录像中演员的外貌。进一步, 人们可改变在受控的多视角视频工 作室中捕捉的演员的物理属性。 这允许为合适地与虚拟背景合成来仔细地计划想要的摄像 机视点, 而同时提供在后期制作中。
14、对演员的形状进行任意的修整的能力。在用户调查中结 果的高视觉保真度也被证实。 附图说明 0011 当与附图一起考虑接下来的本发明的详细的描述, 会使得本发明的这些和其他的 方面和优点更加明显, 其中 : 0012 图 1 显示了电视剧 海滩护卫队 中的一系列图像, 其中修改演员的原始外观 ( 上 排 ) 使得他看起来更加肌肉发达 ( 下排 )。采用根据本发明的一种实施方式的一种方法 / 装置通过简单地增加肌肉发达性控制滑动条的一个值来执行这种编辑。 0013 图 2 显示了用于追踪和重塑形变 3D 人类模型的本发明的系统的一种实施方式的 两个中央处理步骤。 0014 图 3 显示了形变身体模型。
15、 : (a) 该模型跨越的姿势和形状参数空间的采样, 以及 (b) 具有嵌入式人体骨架的通用人类形状。 0015 图 4(a)-(d) 显示了姿势偏差函数的组分 : (a)KLT 特征和它们的跨数个帧的轨迹 ( 黄色 ) ; (b) 在单筒视频的情况下, 附加特征点的轨迹可被手动生成, 或者破碎的轨迹可被 链接 ; (c) 在全局优化中使用轮廓偏差项 ; 该模型未覆盖图像轮廓像素之和, 反之亦然 ( 在 深灰色中的偏差像素 ), (d) 在局部优化中使用轮廓偏差项 - 显示在图像和模型轮廓之间 的对应点和它们的距离 ; (e) 全局姿势优化 : 为腿部和手臂覆盖采样的粒子 ( 模型姿势假 设 。
16、)。 0016 图 5 显示了根据本发明的一个实施方式的允许用户修改一个人的语义形状属性 的重塑界面。 0017 图 6 是一个该演员的形状的基于 MLS 翘曲的例证。放大的区域显示在源模型配置 说 明 书 CN 103348386 A 4 3/9 页 5 ( 左侧 ) 中和目标模型配置 ( 右侧 ) 中的投影变形约束。红点显示源约束位置, 绿点显示目 标位置。翘曲图像来满足目标约束。 0018 图 7 显示了通过修改同一个演员的数个形状属性获得的各种重塑结果。 0019 图 8 显示了 海滩护卫队 演员从他原始的形状 ( 左侧显示 ) 的肌肉发达性的逐 步增加。 0020 图 9 显示了用单。
17、个视频摄像机记录的篮球运动员腰围的变化 - 左侧, 缓慢地增加 腰围 ; 右侧, 腰围增加的远超出了自然的范围, 但变形看起来仍然连贯和可信。 0021 图 10 显示了相对于基于变形的分割的基于 MLS 的图像翘曲。(a) 原始图像, (b) 使用基于 MLS 图像翘曲的变形。人们可能会注意到当人类变形太厉害时背景中的微小伪影 (artifact), 例如篮球场笔直的边缘看起来弯曲了。 (c)使用分割后的人类的修改后的图像 覆盖背景会经常产生更多讨厌的伪影, 如重复的手臂、 重复的腿和鞋。 具体实施方式 0022 发明的系统使用具有将被时空重塑的人类演员的录像的单视角或多视角视频序 列作为输。
18、入 ( 图 2)。对场景类型、 摄像机类型、 背景的外观没有特定的要求。第一步, 使用 现成的视频处理工具分割视频录像中的演员轮廓。 0023 流水线中的第二步是无标识模型拟合。优化 3D 模型的形状和姿势参数两者, 使得 在每个视频帧中它优化地重投影至演员的轮廓中, 后面会有解释。 一旦模型被追踪, 通过简 单地调整对应于单个语义形状属性的滑动条来修改演员的形状参数。 既然形变形状模型的 原始 PCA 参数维度不能直接对应于可信的形状属性, 人们可以认识到从直观属性 ( 如肌肉 发达性或体重 ) 映射到底层的 PCA 空间, 这也会被解释。现在通过调整可信的参数值可执 行重塑。 一旦决定形状。
19、属性的目标集合, 在源自于重投影的修改的身体模型的约束影响下、 通过执行基于图像的翘曲, 它们被应用至输入的视频中的所有帧中的演员, 这也会在后面 解释。 0024 接下来, 回顾 3D 人类形状模型的细节, 并且解释如何将其应用于在数字视频中追 踪演员。 0025 3D 形变身体模型 0026 为了在 3D 中表示演员的姿势和身体比例, 本发明的一个实施方式可采用 SCAPE 模型中的一个变体 (ANGUELOV, D., SRINIVASAN, P., ROLLER ; D., THRUN, S., RODGERS, J., AND DAVIS, J.2005. SCAPE : Shape。
20、 completion and animation of people .In ACM TOG(Proc.SIGGRAPH 05)。该模型可从公共可获得的包括超过 100 个不同姿势的人的 550 份注册的身体扫描 ( 大概 50男性对象和 50的女性对象, 年龄从 17 到 61) 的数据库学 习到 ( 图 3(a)。模型的运动可以通过包括 15 个关节的运动骨架来表示。模型的表面可 由具有大约 6500 个 3D 顶点 vi的三角形网格组成。相对于原始的 SCAPE 模型, 人们不需要 了解每个三角形变换矩阵以表示依赖于姿势的表面变形的特定主题模型。 在这里提出的本 发明的一个实施方式中,。
21、 不需要这种等级的细节来获得真实的重塑结果。 而且, 省略这每个 三角形模型组件就不需要每次模型参数改变时求解大线性系统来重建模型表面了。 这样进 而使得姿势评估加快几个数量级。代替每个三角形变换, 可使用一种普通的剥皮方法来模 型化依赖于姿势的表面适配。为此, 由专业动画师将骨架做成通用形状人类形状模型 ( 图 说 明 书 CN 103348386 A 5 4/9 页 6 3(b)。 0027 类似于原始的 SCAPE 模型, 个体的形状变化可通过主成分分析 (PCA) 表示。最开 始的 20 个 PCA 组分可捕获身体形状变化的 97。从而, 该模型总共具有 N 28 个姿势参 数和 M 。
22、20 个参数 (1, ., M) 来表示身体形状变化。 0028 无标记追踪 0029 一种无标记运动捕捉方法可被用于在单视角或多视角视频序列的每一帧将身体 模型的姿势和形状拟合至人类演员。在输入是任意一个单筒视频序列的情况下, 可以做出 这一简化的假设 : 记录摄像机可以被缩放正交投影忠实地建模。 在多视角视频情况下, 人们 可能期望完全校准的帧同步摄像机, 这是一种合理的假设来在受控的工作室条件下捕获尽 量多的这些序列。 0030 从而, 在时间戳 t 从摄像机 c(c 1, ., C) 看到的视频帧用 It, c表示。在跟踪开 始之前, 人物从每个视频帧的背景分割出来, 产生前景轮廓。为。
23、了达到这个目的, 如果色度 键控是不可能的, 人们可以依赖标准的视频处理工具(如Mocha、 Adobe AfterEffects等), 但要注意其他的视频对象分割方法, 如 王等人, 2005 年 ; 李等人, 2005, 将同样适用。 0031 本发明的运动捕捉方案通过最小化基于图像的偏差函数 E(, , T) 来推断姿势 和形状参数, 即在视频t的每一时间步骤中处罚在3D身体模型和其到每一帧的投影之间的 偏移 : 0032 0033 第一组分 Es测量重映射模型的轮廓边界和分割出的人的轮廓边界间的偏移。第 二组分 Ef测量在图像平面中在跨时间追踪的人的特征点和在视频的先前帧中对应于各自 。
24、的特征点的模型的重投影 3D 顶点位置之间的距离总和。在追踪开始前, 可为整个视频帧集 计算特征轨迹(图4(a)。 为此自动Kanade-Lucas-Tomasi(KLT)特征点检测器和追踪器可 被应用到每一视频帧。 单独的自动特征检测经常不够, 尤其是如果输入是单筒视频 : 由于自 遮挡会容易地破坏踪迹, 或者还没有为重要的但只包括适量的纹理的身体各部分自动找到 特征点。因此, 人们可提供一个界面, 其中用户可明确地标记要被追踪的附加图像点, 以及 其中破碎的轨迹可被链接 ( 图 4(b)。 0034 使用在先前的时间步骤中确定的姿势参数 t-1和形状参数 t-1初始化在视频的 每个时间步骤。
25、t的姿势推断。 为了寻找t和t, 人们可修改Gall等人提出的组合的局部 和全局姿势优化方案 (GALL, J., STOLL, C., DE AGUIAR, E., THEOBALT, C., ROSENHAHN, B., AND SEIDEL, H.-P.2009.Motion capture using simultaneous skeleton tracking and surface estimation In Proc.IEEE CVPR)。 0035 给定在模型表面上的 K 个 3D 点 Vi的集合以及它们在摄像机 c 中时刻 t 的视频帧 Ui, c中的对应位置 ( 这些对在评。
26、估轮廓和特征点偏差时被确定 ), 一个快速的局部优化被首 先执行来确定每个身体部分的姿势参数。在局部优化中, 通过在将模型轮廓上的一组点分 配给图像轮廓上的对应的最接近点计算公式 (1) 中的 Es, 以及对 2D 距离求和 ( 图 4(c)。 0036 每一个 2D 点 Ui, c定义了一条投影线, 可被表示为 plcker 线 Li, c (ni, c; mi, c) Stolfi 1991。通过从身体模型标准姿势在线 Li和 3D 点 vi之间的正交向量的范数给出 偏差对 (t, t)vi, ui, c), 身体模型标准姿势通过连接姿势、 形状和剥皮变换的变换函 说 明 书 CN 103。
27、348386 A 6 5/9 页 7 数 (t, t) 转换得到。寻找公式 (1) 的最接近局部姿势和形状的最佳值, 从而对应于求 解 : 0037 0038 该公式使用泰勒近似线性化和迭代求解。是从齐次坐标到非齐次坐标的投影。 0039 局部姿势最优化非常快, 但是可能在一些情况下会卡在错误的局部极小中。可以 通过运行完整的全局姿势优化防止这种姿势偏差。 然而, 在整个姿势和形状空间上执行时, 全局姿势推断慢得惊人。 因此人们仅仅为了那些没有正确拟合的运动模型的子链来执行全 局姿势优化。通过在阈值之上的肢体特定拟合偏差 E(t, t) 出现局部优化结果中的偏 差。对于全局优化, 人们可使用粒。
28、子滤波器。图 4(d) 覆盖了腿部和手臂的采样的粒子 ( 姿 势假设 )。 0040 在实践中, 人们可以以层次化的方式求解姿势和形状参数。 首先, 人们可以只使用 视频的关键帧的子集求解形状和姿势两者, 在视频中演员展示了足够范围的姿势和形状变 形。原来, 在所有测试序列的前 20 帧形成了帧的一个合适子集。在这个第一优化阶段, 人 们可以单独执行全局姿势和形状优化而不执行局部优化。因此, 人们可以保持形状参数不 变, 并且随后使用联合的局部和全局优化方案求解出所有帧中的姿势。 0041 人们可以为多视角 (C 1) 和单视角 (C 1) 视频序列使用同样的追踪框架。当 可全自动追踪多视角数。
29、据时, 单视角数据可能需要更频繁的手动干预。然而在所有的单筒 测试序列中, 只需要有几分钟的手动用户干预。 请注意单筒姿势追踪是不适定的, 并因此人 们不能保证重建的模型姿势和形状在度量意义上是正确的。然而, 在这里提出的修整应用 中, 只要重投影模型一致性地覆盖所有视频帧中的人物, 这种 3D 姿势偏差是可忍受的。此 外, 为了本文提出的目的, 重投影模型与演员的轮廓精确的对齐不是必需的。 下面描述的基 于图像的翘曲变形在具有小的偏差的情况下也是成功的。 0042 重塑界面 0043 一旦获得了形状和姿势的追踪信息, 可以用交互的重塑界面改变演员的身体形状 ( 参见图 5)。 0044 人类。
30、形状变形 0045 PCA 形状空间参数 语义上并不符合有意义的人类构成维度。修改单个 PCA 参 数 K会同时修改形状方面的组合, 这样人们可能发现在直观上是可信的, 如体重或肌肉强 度。 因此, 人们可以重映射PCA参数到有意义的标量维度上。 幸运地, 人们可能从中了解PCA 模型的扫描数据库对每个测试对象包括一组语义上有意义的属性, 包括 : 身高、 体重、 胸围、 腰围、 臀围、 腿长和肌肉发达性。所有的属性以他们各自的测量单位给出, 如图 5 所示。 0046 与 Allen 等 人 (ALLEN, B., CURLESS, B., AND POPOVI C, Z.2003.“The。
31、 space of human body shapes : reconstruction and parameterization from range scans” In Proc.ACM SIGGRAPH 03, 587-594) 类似, 人们可通过在两个空间之间构建线性映射 S M(M-1)(Q+1) 将 Q 7 语义维度投影到 M 个 PCA 空间维度上 : 0047 说 明 书 CN 103348386 A 7 6/9 页 8 0048 其中 fi是个体的语义属性值, 以及 是对应的 PCA 系数。这个映射使我们能够 为每个语义属性指定偏移量。通过这种方式, 人们可以规定被追 踪的特。
32、定人的每个属性值可以改变多少。例如, 人们可以指定这个人的体重可以增加一定 的千克量。偏移特征值转换成偏移 PCA 参数 Sf, 将其加至这个人的原始的 PCA 系 数来完成该编辑。 0049 某些语义属性彼此隐含地相关。例如, 增加一个女人的身高可能也会导致逐步的 性别改变, 因为男人通常比女人高。在编辑的情况下, 可能并不想要这样的副作用, 即使他 们会看起来更加合理。最后, 问题在于哪些个人品味是允许相关性指明的以及哪些是人们 应该明确制止的。当执行编辑时, 人们可以让用户控制这个决定并给他提供明确地确定或 允许自由确定某些属性维度的可能性。首先, 对任何属性值, 当个别修改某些属性时,。
33、 重塑 界面提供确定哪些参数的合理建议。例如, 一个建议就是当编辑身高时, 应该保留腰围。 0050 一致的视频形变 0051 本发明的重塑界面允许用户从评估的 3D 源形状 生成期望的 3D 目标形状 +( 记住在追踪终止后 在所有帧中是常量 )。这个改变可以自动应用到序列 中的所有图像中。在该系统中, 用户选择的 3D 形状变化为 Mller 等人 (M, HEIDELBERGER, B., TESCHNER, M., AND GROSS, M.2005.Meshless deformations based on shape matching).ACM TOG 24, 3, 471-47。
34、8) 和 Schaefer 等人 (SCHAEFER, S., MCPHAIL, T., AND WARREN, J.2006.Image deformation using moving least squares.ACM TOG 25, 3, 533-540) 介绍的无网格移动最小二乘法 (MLS) 的图像变形提供输入。 0052 通过采用身体模型的所有表面顶点 vi的稀疏子集 S 生成 MLS 图像变形的 2D 变形 约束。为形变身体模型一次性手动定义这个集合 S。人们可以在每个身体部分选择大约 5 到 10 个顶点确定作为结果的 2D MLS 约束从所有可能的摄像机视角都能较好的分布。。
35、一次 完成顶点子集的选择, 然后对所有的场景保持不变。 接下来, 使用视频的单个帧例示了翘曲 处理 ( 图 6)。首先, S 中的每个顶点从标准模型姿势转换成源身体 ( 即通过追踪方法发现 的在姿势和形状中的模型 ) 的姿势和形状。然后, 这些顶点被投影进当前的摄像机图像中, 产生源 2D 变形点 si。然后每一个子集顶点被转换成目标身体 ( 即具有改变形状属性的身 体 ) 的姿势和形状, 以及投影到摄像机图像中以获得目标 2D 变形点 ti: 0053 si Pt(T(t, )vi), 0054 ti Pt(T(t, )vi), (4) 0055 其中 Pt表示在时间 t 的在当前摄像机图像。
36、中的投影。 0056 给出变形约束 si ti, MLS 变形为图像中的每个像素 x 寻找优化的 2D 形变 Mx来 转换这个像素到它的新的位置 x Mx(x)。因此接下来的成本函数被最小化 : 0057 0058 Muller 等人 ( 上面引用 ) 给出了这个最小化问题的封闭解。本发明的系统在 GPU 上采用片段着色器对图像中的所有像素并行计算优化的 2D 变形。当语义形状属性改变时, 这允许重塑界面的用户具有即时的所见即所得反馈。实际上, 通过观察界面中的视频的单 说 明 书 CN 103348386 A 8 7/9 页 9 个帧 ( 典型的是第一个 ), 用户确定合适的重塑参数。 00。
37、59 图 7 显示了在同一个演员上的各种属性修改。一旦用户满意新的形状, 通过点击 一个按键开始对整个序列的翘曲处理。 0060 结果 0061 从三个不同的视频序列执行各种各样的形状编辑 : 1) 来自电视剧 海滩护卫队 的单眼序列显示了海滩上一个男人在慢跑(DVD质量, 分辨率 : 720576, 每秒25帧, 持续时 间 7 秒 ), 图 1 ; 2) 单眼序列显示一个男性篮球运动员 ( 分辨率 : 1920x1080, 每秒 50 帧, 持 续时间 8 秒 ), 图 9 ; 3) 由萨里 (Surrey) 大学友情提供的多视角视频序列显示了一名女性 演员在工作室走动 / 坐在工作室中 。
38、(8 倍高清视频摄像机, 每秒 25 帧, 蓝屏背景, 持续时间 5 秒 ), 图 7。 0062 该序列由此覆盖了广泛的运动、 摄像机角度、 图片格式、 以及真实的和合成的背 景。 全自动追踪该多视角视频序列。 在单眼序列中, 平均39帧中有1帧需要手动用户干预, 例如要追踪的一些其他的位置的说明。在这两种情况下都不需要超过 5 分钟的用户交互。 在单视角序列中, 使用的现成工具从背景中分割出演员, 每帧需要平均 20 秒的时间。在多 视角序列中自动色度键控所有相机视角。 0063 结果图显示了本发明能够在电影和视频产品中典型的多种不同格式的视频数据 上执行大范围的语义引导的身体重塑操作。图。
39、 7 较好地例示出同一个个体的个体形状属性 的修改效果。在所有的情况下, 生成的编辑高度逼真。在图 1 中 海滩护卫队 序列中演员 的肌肉发达性增加了一个显著的量。最终结果看起来非常有说服力, 并且整个序列非常一 致。 0064 图 8 显示了可以容易地获得肌肉发达性逐步的变化。 0065 图 9 显示了从侧面的角度拍摄的篮球运动员。本发明贯穿整个序列对演员腰围的 修改看起来非常自然, 即使对于超过现实中观察到的形状变量之外的极端编辑。 总体而言, 修改后的演员看起来高度可信, 以及非常困难来揭露他们作为修整的结果。请注意这种编 辑不仅与时间一致, 而且在视角上也是正确的。如果没有一个基本的 。
40、3D 模型, 这种结果是 很难实现的。 0066 在多视角数据上的结果 ( 图 7) 例示了当应用到在严格控制的工作室条件下捕获 的录像时, 该系统也很有用。例如, 如果目标是场景合成, 多个预先安排的摄像机可以在蓝 屏前面的设定位置捕获演员。 现在用本发明的系统在任何摄像机角度任意地修改演员的形 状, 使得导演可以在合成时确定是否任何编辑是必要的。作为另外的好处是在多视角数据 上不需要手动干预, 除非用户输入定义这个编辑。附带的视频显示组合形状的编辑和与渲 染的背景合成的几个例子。 0067 在Intel Core 2 Duo CPU, 3.0GHz上使用一个未优化的实现, 它需要大约每帧9。
41、s 来跟踪单眼序列中的演员的姿势, 和在多视角的情况下做同样的处理需要 22s。请注意, 对 每个序列只执行一次跟踪。 在重塑工具中, 可以实时修改形状属性, 并在给定的视频的初始 帧上具有即时的视觉反馈。 用新的形状参数生成视频, 即应用基于图像的翘曲到整个视频, 大约需要 20 毫秒每帧。 0068 用户调查 0069 根据本发明的方法和系统已经在用户调查中进行了评估。 该调查的目的是查明这 说 明 书 CN 103348386 A 9 8/9 页 10 个算法引入的小的伪影对人类观察者来说是否明显。 海滩护卫队 视频 ( 图 1 中示出 ) 被 展示给30个参与者。 向一半的参与者展示原。
42、始视频和要求他们对可见的伪影的量打分。 向 其他一半显示修改后的视频, 其中跑动的男人被渲染得更加肌肉发达, 并且给出同样的问 题。参与者以 7 点 Likert 量表对可见的伪影打分, 其中 1 表示没有伪影, 7 表示非常烦人的 伪影。观看原始视频的第一组对可见的伪影的打分平均在 2.7331.22, 其中 表示标准 偏差。修改后的视频仅仅收到稍微差一点的打分 2.8661.414。这可表明, 本发明引入了 轻微的伪影。这种假设被双因素方差分析法 (ANOVA) 验证为正确的。两组手段相同的零假 设导致非常高的 p 值 0.709 并且, 因此, 这种零假设不应被拒绝。这导出本方法引入的伪。
43、影 的数量非常低的结论, 并且从而双因素方差分析法没有显示出巨大的效果来在试验中拒绝 这种零假设 ( 另一方面, 这也并不表明这种零假设是正确的, 以及也没证明本方法没有引 入伪影 )。 0070 然后, 向所有 30 个参与者并排比较显示原始和修改后的图像, 并且问他们是否可 以认出差异。30 个参与者中的 28 个参与者意识到发明人使得这个跑动的男人更加肌肉发 达, 以及只有 2 个参与者认为发明人改变了背景中的一些东西。这表明本系统能够获得引 人注意的重塑效果而不会引入大量的伪影。 0071 其他的实施方式 0072 本发明也可用于实时或在一些离线处理后预览一个在视频摄像机或其他图像设 。
44、备前移动的人当体形不同时, 他看起来怎么样。 根据这种实施方式, 实时或者离线翘曲移动 的人的视频以查看这个人的不同形状。 0073 例如, 本发明的方法可用于设置或测量设备, 其包括一个或多个记录人的摄像机 和实时 ( 或离线 ) 捕捉这个人的运动的其他设备。然后使用视频数据和 / 或来自于其他传 感器设备的数据拟合统计的身体模型和这个人。例如, 其他的传感器设备可以是深度摄像 机 ( 飞行时间或者类似的 ) 或者其他用于动态几何捕捉的硬件和 / 或运动评估的硬件。其 他硬件也可包括另外一个运动捕捉装置 ( 如光学运动捕捉系统、 电磁运动捕捉、 任何形式 的运动捕捉套件和任何形式的用于姿势评。
45、估的外骨骼等 )。视频数据和 / 或其他传感器可 被用于实时地或者是离线地追踪一个人的运动。 提出的该视频变形算法然后会被应用到一 个或数个视频流, 并且显示具有改变的体形的人的运动。变形的 / 修改的视频的可视化也 可在线或离线完成。 0074 更特别地, 这个人可在包括一个实时深度传感器 ( 如深度摄像机、 立体摄像机、 结 构化的光扫描仪或以实时或接近实时的帧速率提供 2.5D 或 3D 几何的类似的装置 ) 的测量 装置前面移动。统计的身体模型可拟合到该视频和 / 或深度数据。这里, 测得的 2.5D 或 3D 数据可以作为附加信息被追踪和模型拟合程序使用来获得更高的鲁棒性 ( 例如 。
46、2.5D 数据 可变成偏差函数公式 (1) 的部分, 但是也可被模型拟合和追踪程序以其他方式用于确定姿 势和形状参数 )。可从视频和 / 或深度数据实时追踪模型的运动。当基于身体模型的视频 翘曲实时应用时, 用户可在视频流中实时看到他自己。 0075 上面描述的实现方法也可应用到数个通过一个或数个视频摄像机和 / 或其他上 面描述的传感器一起捕捉到的人上。 0076 翘曲的图像 0077 在本发明的另外一个实施方式中, 统计的基于模型的翘曲方法也可被用于翘曲人 说 明 书 CN 103348386 A 10 9/9 页 11 的多个图像。 例如使用上面描述的装置, 站在设置前面的任何人的姿势和。
47、体形都会被测量。 该统计的模型也可拟合到人的任何单个图像, 例如来自显示一个人穿着特定类型的服饰的 目录中的任何图像。 站在摄像机前的这个人的运动和形状参数现在可被发送到拟合到任何 图像的模型上。现在可翘曲图像中的人来匹配设置的传感器前面的人的比例。此外, 可通 过使拟合到这个图像的模型模拟设置前面的人的运动, 将在设置的传感器前面的这个人的 运动发送到图像。 0078 像以前一样, 本发明的这个实施方式可在在线或离线的情况下实现。 0079 在激励视频生成中的应用 0080 这个描述的方法可被用于生成激励图像或视频材料来激励人们获得有关于他们 体形或健身的特定的目标。既然这个方法可以定量地说。
48、明人体参数的改变 ( 例如, 10 千克 多的体重 ), 一个人可以预览他 / 她减肥、 锻炼肌肉或其他物理属性的变化后他或她看起来 怎样。 0081 在电影产品中的应用 0082 对于一些电影产品而言, 要求演员改变他们的外貌, 例如通过训练来获得更多的 肌肉, 或通过减肥或增重。 使用本发明的方法, 当对演员有身体要求时不需要演员经历这些 变化。本发明的方法可以仿真屏幕上想要的演员的外貌, 即使他真正的体形和比例并不符 合期望的样子。 0083 应用非常大的变化到演员属性也是可行的, 例如通过将一个演员变成侏儒, 以及 将另一个演员变成巨人, 即使他们实际上在现实中具有类似的身高。 008。
49、4 在制作广告中的应用 0085 不同文化和群体的人们对体形有着不同的偏好。 广告视频经常专门针对一个文化 环境。 采用提出的方法和设备, 商业或其他类型的推销类的视频可一次录制, 以及之后制作 具有不同重塑的演员的不同版本来满足不同的目标观众的期望。 说 明 书 CN 103348386 A 11 1/5 页 12 图 1 说 明 书 附 图 CN 103348386 A 12 2/5 页 13 图 2 说 明 书 附 图 CN 103348386 A 13 3/5 页 14 图 3 图 4 图 5 说 明 书 附 图 CN 103348386 A 14 4/5 页 15 图 6 图 7 图 8 说 明 书 附 图。