《基于增量主成分分析的特征与模型互匹配人脸跟踪方法.pdf》由会员分享,可在线阅读,更多相关《基于增量主成分分析的特征与模型互匹配人脸跟踪方法.pdf(18页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103310204 A (43)申请公布日 2013.09.18 CN 103310204 A *CN103310204A* (21)申请号 201310267907.X (22)申请日 2013.06.28 G06K 9/00(2006.01) G06K 9/46(2006.01) (71)申请人 中国科学院自动化研究所 地址 100190 北京市海淀区中关村东路 95 号 (72)发明人 吴怀宇 潘春洪 陈艳琴 赵两可 (74)专利代理机构 中科专利商标代理有限责任 公司 11021 代理人 宋焰琴 (54) 发明名称 基于增量主成分分析的特征与模型互匹配人 脸跟。
2、踪方法 (57) 摘要 本发明公开了一种基于在线增量主成分分析 的特征与模型互匹配人脸跟踪方法, 该方法包括 以下步骤 : 对多幅人脸图像进行离线建模, 得到 模型匹配 (CLM) 模型 A ; 对待跟踪人脸视频中的 每一帧进行关键点检测, 所有关键点的集合及其 鲁棒描述子组合为关键点模型 B ; 基于所述关键 点模型 B 对所述待跟踪人脸视频中的每一帧进行 关键点匹配, 获得每一帧人脸图像中初始的人脸 姿态参数组 ; 利用模型 A 对待跟踪人脸视频进行 CLM 人脸跟踪 ; 基于初始人脸姿态参数组和初次 跟踪结果进行再跟踪 ; 更新模型 A 并重复上述步 骤, 得到最终的人脸跟踪结果。 本发。
3、明解决了在进 行 CLM 人脸跟踪时, 由于目标图像中相邻帧间变 化大时出现的跟踪丢失的问题, 从而提高了跟踪 的精准度。 (51)Int.Cl. 权利要求书 4 页 说明书 10 页 附图 3 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书4页 说明书10页 附图3页 (10)申请公布号 CN 103310204 A CN 103310204 A *CN103310204A* 1/4 页 2 1. 一种基于在线增量主成分分析的特征与模型互匹配人脸跟踪方法, 其特征在于, 该 方法包括以下步骤 : 步骤 S1, 对于多幅人脸图像进行离线建模, 得到包括形状模型 s 。
4、和纹理模型 wT的模型 匹配 (CLM) 模型 A ; 步骤 S2, 输入一待跟踪人脸视频, 对于所述待跟踪人脸视频中的每一帧人脸图像进行 关键点检测, 将所得到的所有关键点的集合和这些关键点的鲁棒描述子组合起来作为关键 点模型 B ; 步骤 S3, 基于所述步骤 S2 得到的关键点模型 B, 对于所述待跟踪人脸视频中的每一帧 人脸图像进行关键点匹配, 获得每一帧人脸图像中初始的人脸姿态参数组 (R, T), 其中, R 表示角度参数和 T 表示位移参数 ; 步骤S4, 利用所述模型A对所述待跟踪人脸视频进行CLM人脸跟踪, 得到所述待跟踪人 脸视频每一帧人脸图像中特征点的位置 ; 步骤 S5。
5、, 基于所述步骤 S3 得到的每一帧人脸图像中人脸的姿态参数组和所述步骤 S4 跟踪得到的每一帧人脸图像中特征点的位置, 对所述待跟踪人脸视频中的每一帧人脸图像 进行人脸的再跟踪 ; 步骤S6, 使用增量PCA方法对所述模型A进行更新, 并利用更新后的模型A重复所述步 骤 S1-S5, 得到最终的人脸跟踪结果。 2. 根据权利要求 1 所述的方法, 其特征在于, 所述步骤 S1 进一步包括以下步骤 : 步骤 S11, 根据事先确定的共同的人脸轮廓对所述多幅人脸图像分别进行标定得到多 个标定特征点, 并根据所述多个标定特征点的坐标值建立得到一人脸形状模型 s ; 步骤 12, 基于所述步骤 S1。
6、1 得到的每一个标定特征点, 学习得到能够体现所述每一个 标定特征点对应的具有一定大小区域的纹理特征的纹理模型 wT。 3. 根据权利要求 2 所述的方法, 其特征在于, 所述步骤 S11 进一步包括 : 步骤 S111, 采集 N 张人脸图像, 对于每张人脸图像都依照所述共同的人脸轮廓进行人 为标定, 得到多个标定特征点, 进而得到 N 个人脸形状向量 sm : sm (x1, y1, x2, y2, ., xn, yn)T, 其中, m 表示 N 张人脸图像中的第 m 张人脸图像, xi, yi分别为相应人脸图像中第 i 个 标定特征点的坐标值, n 为所述标定特征点的个数 ; 步骤 S1。
7、12, 用一个平均人脸形状 s0和 u 个正交的人脸形状向量 si进行线性组合得到 所述人脸形状模型 s : 其中, 平均人脸形状 s0为 N 个人脸形状向量 sm的均值, pi是形状参数, 其值为对所述 N 个人脸形状向量 sm进行主成分分析后得到的 u 个特征向量 si所对应 的权值。 4.根据权利要求3所述的方法, 其特征在于, 在所述步骤S112中进行主成分分析前, 对 所述 N 个人脸形状向量 sm分别进行普鲁斯特分析, 以减小运动误差。 5. 根据权利要求 2 所述的方法, 其特征在于, 所述步骤 12 进一步包括以下步骤 : 步骤 S121, 以所述步骤 S11 得到的每一人脸图。
8、像的每一个标定特征点为中心, 取一个 大小为 rr 的区域作为正样本, 在相应图像中的任意其他位置处截取多个同样大小的区 权 利 要 求 书 CN 103310204 A 2 2/4 页 3 域作为负样本 ; 步骤 S122, 基于每个标定特征点所对应的样本组, 利用支持向量机得到每个标定特征 点对应的纹理模型 wT。 6. 根据权利要求 5 所述的方法, 其特征在于, 所述步骤 S122 中 : 首先, 将每个标定特征点所对应的样本组中的每个样本写成以下形式 : 其中, (i) 表示样本的序号,为相应样本中某一位置处的像素值 ; 然后, 利用 SVM 得到每个标定特征点对应的纹理模型 wT:。
9、 y(i) wTx(i)+, 其中, y(i)为 SVM 的输出, wT是学习得到的纹理模型 : wT w1 w2.wrr, 为 SVM 的 偏移量, 对于每个标定特征点所对应的正样本, y(i) 1 ; 负样本, y(i) 0。 7. 根据权利要求 1 所述的方法, 其特征在于, 所述步骤 S2 中的关键点检测包含关键点 的学习和其鲁棒描述子的学习, 所述关键点的学习进一步包括以下步骤 : 步骤 S21, 对于所述待跟踪人脸视频中的每一帧图像, 初步计算得到多个关键点 ; 步骤 S22, 从所述步骤 S21 初步得到的多个关键点中选出具有不变性的关键点, 并将所 述待跟踪人脸视频中所有图像的。
10、不变性关键点组合起来得到关键点集合及这些关键点的 描述子 (fi, xi, yi), 其中, fi表示第 i 个关键点的特征值, (xi, yi) 表示该关键点的坐标 ; 所述关键点的鲁棒描述子的学习进一步包括以下步骤 : 步骤 S23, 将所述步骤 S22 得到的 n 个不变性关键点组成初始关键点集合 A ; 步骤 S24, 对所述待跟踪人脸视频中每一帧图像中的人脸进行姿态旋转、 表情变化、 光 照变化中的一种参数变换, 仿真得到变换后的图像 ; 步骤S25, 将根据所述步骤S21和S22检测得到的变换后的图像的多个不变性关键点组 成关键点集合 B ; 步骤 S26, 对关键点集合 B 里的。
11、每个点 p, 关键点集合 A 进行描述子匹配操作 ; 步骤 S27, 对于经过其他参数变换后的图像重复所述步骤 24 到 26, 最终得到所述特定 人脸图像序列中每一帧图像的完备关键点鲁棒描述子。 8. 根据权利要求 7 所述的方法, 其特征在于, 所述步骤 S26 具体为 : 在关键点集合 A 中, 找到与点 p 位置最近的点 q, 判断点 p 和点 q 反投影到正面三维模 型表面上的三维点 p 和 q 是否为同一个三维点, 若 p 和 q 是同一个三维点且 p 的描述 子和 q 的描述子最为接近, 则把 p 的描述子加入到 q 的描述子中 ; 若 p 和 q 是同一个三维 点且点 p 的描。
12、述子和关键点集合 A 中非 q 的另一个点 x 的描述子最为接近, 则点 q 及其描 述子无效 ; 如果 p 和 q 是同一个三维点且点 p 的描述子和关键点集合 A 中每个点的描述 子都不一样, 则将 p 和 p 的描述子加入到关键点集合 A 中 ; 如果 p 和 q 不是同一个三维点 且 p 的描述子和关键点集合 A 中某个点 s 的某个描述子很接近, 则将点 s 及其描述子从关 键点集合 A 中去掉 ; 如果 p 和 q 不是同一个三维点且 p 的描述子和关键点集合 A 中每个 关键点的描述子都不一样, 则将点 p 及其描述子加入到关键点集合 A 中。 9. 根据权利要求 1 所述的方法。
13、, 其特征在于, 所述步骤 S3 进一步包括以下步骤 : 步骤 S31, 根据所述步骤 S2 得到所述人脸视频的某一帧人脸图像的上一人脸图像帧的 权 利 要 求 书 CN 103310204 A 3 3/4 页 4 关键点, 并在该帧人脸图像中寻找上一人脸图像帧的某一关键点在当前帧中的相应位置附 近的关键点 ; 步骤 S32, 将当前帧中所述关键点的描述子和所述关键点模型 B 中的描述子进行匹配, 将当前帧中与所述关键点模型 B 中的描述子匹配上的 3D 关键点组成集合 V, 将当前帧中与 所述关键点模型 B 中的描述子匹配上的 2D 关键点组成集合 u, 将所述集合 V 经过平面投影 后得到。
14、的 2D 关键点组成集合 u, 比较 u和 u, 得到使得 |u-u | 最小的当前帧图像中 初始的人脸相对于正脸的姿态参数组 (R, T) : 其中, K 为摄像机参数, R 为角度矩阵, T 为位移向量, R|T 为由 R 和 T 组成的增广矩 阵, i 为关键点的序号, Nk为集合 V 和集合 u 的关键点个数的最大值。 10. 根据权利要求 1 所述的方法, 其特征在于, 所述步骤 S4 进一步包括以下步骤 : 步骤 S41, 对所述待跟踪人脸视频中的某一当前帧人脸图像进行脸部检测, 得到初始的 n 个特征点, 并相应地得到每个特征点的大小为 r*r 的响应图像 R(x, y), 其中。
15、, 每个特征点 的响应图像 R(x, y) 为 wTx(i)矩阵化后的结果, wT是根据支持向量机求得的该特征点的纹 理模型 : wT w1 w2.wrr, x(i)为该特征点的第 i 个大小为 r*r 的样本 ; 步骤 S42, 利用所述响应图像 R(x, y), 通过拟合得到所述待跟踪人脸视频每一帧人脸 图像中与所述当前帧人脸图像具有同一含义的特征点的位置 ; 步骤 S43, 基于所述步骤 S3 得到的初始的人脸姿态参数组, 根据拟合得到的特征点的 位置得到校正后的人脸姿态参数组。 11. 根据权利要求 10 所述的方法, 其特征在于, 所述步骤 S42 进一步包括以下步骤 : 步骤 S4。
16、21, 对以所述步骤 S41 中得到的所有特征点中的每一个特征点为中心的大小为 rr的区域进行范围为aa的搜索, 对于每一个特征点, 得到一以其为中心、 直径为(r+a) 的正方形区域 ; 步骤 S422, 通过函数拟合的方式找到当前帧的下一帧或上一帧图像的所述正方形区域 中与所述当前帧人脸图像具有同一含义的特征点的坐标位置。 12. 根据权利要求 1 所述的方法, 其特征在于, 所述步骤 S5 进一步包括以下步骤 : 步骤S51, 根据所述步骤S2和步骤S3得到所述待跟踪人脸视频某一帧人脸图像中的关 键点和初始的人脸姿态参数组 ; 步骤 S52, 基于该帧人脸图像中初始的人脸姿态参数组 (R。
17、, T), 根据所述步骤 S4 的描 述, 在前向或后向上对所述待跟踪人脸视频中的人脸图像进行 CLM 人脸跟踪, 得到每一帧 人脸图像中关键点的位置, 进而根据所述初始的人脸姿态参数组 (R, T) 得到校正后的人脸 姿态参数组, 并利用所述校正后的人脸姿态参数组对所述关键点模型 B 进行更新 ; 步骤S53, 利用更新后的关键点模型B按照所述步骤S3和S4的描述对所述待跟踪人脸 视频中的每一帧人脸图像进行人脸的再跟踪。 13. 根据权利要求 12 所述的方法, 其特征在于, 所述步骤 S52 中, 对所述关键点模型 B 进行更新的步骤进一步包括以下步骤 : 步骤 S521, 对于当前帧图像。
18、, 根据其人脸姿态参数组 (R, T) 判断人脸的姿态 ; 步骤 S522, 根据当前帧图像中的关键点描述子 Fi-(fi, xi, yi) 和关键点模型 B 的匹配情 权 利 要 求 书 CN 103310204 A 4 4/4 页 5 况来更新所述关键点模型 B : 如果当前帧图像的大多数关键点都和所述关键点模型 B 中的关键点匹配, 则将当前帧 中没有匹配上的那些关键点补充到所述关键点模型 B 中 ; 否则不进行所述关键点模型 B 的 补充更新。 14. 根据权利要求 1 所述的方法, 其特征在于, 所述对模型 A 进行更新的步骤进一步包 括以下步骤 : 步骤 S61, 计算表达式 A 。
19、-s0的奇异值分解, 得到 U VT, 其中, A为由所述模型 A 中 的一系列标准正交基 si组成的集合, s0表示所述模型 A 中的平均人脸形状 ; 步骤 S62, 构造一增广矩阵其中, B为放置有根据人脸 姿态参数组(R, T)所得到的人脸特征点的坐标向量的集合, s0为集合B的算术平均值, m 为集合 B中向量的个数, n 为所述人脸特征点的个数, 并根据所述增广矩阵计算得到 与 R :orth() 表示矩阵正交 化操作 ; 步骤 S63, 计算 R 的奇异值分解, 得到 步骤S64, 计算得到一组新的正交基并利用得到的新的正交基对模型A 进行更新。 15. 根据权利要求 14 所述的。
20、方法, 其特征在于, R 的表达式由下式来代替 : 其中, f 为遗忘因子, 其为取值范围为 0 1 的一经验值。 权 利 要 求 书 CN 103310204 A 5 1/10 页 6 基于增量主成分分析的特征与模型互匹配人脸跟踪方法 技术领域 0001 本发明涉及计算机图形图像技术领域, 尤其是一种高鲁棒性的基于在线增量主成 分分析的特征与模型互匹配人脸跟踪方法。 背景技术 0002 近年来, 计算机视觉技术取得了长足的发展, 图像识别与跟踪已经成为计算机领 域一个热门的研究方向。 鲁棒的实时人脸跟踪是智能视频监控和基于视觉的人机交互以及 机器人导航等领域的一个核心。 该技术应用于视频会议。
21、、 公安刑侦、 访问控制、 金融支付、 医 学应用等众多领域。人脸是一个非刚性的识别对象, 在运动中, 其大小、 形状的变化都会影 响跟踪的效果, 所以实时的人脸跟踪是对计算机视觉领域的一个挑战。 0003 目前人脸跟踪技术主要可以分为三类 : 基于特征匹配的跟踪、 基于区域匹配的跟 踪和基于模型匹配的跟踪。 0004 对于基于特征匹配的跟踪 : 该方法进行序列图像运动目标的跟踪, 其包括特征提 取和特征匹配两个过程。在特征提取过程中需要选择适当的跟踪特征, 并且在序列图像的 下一帧中提取这些特征 ; 在特征匹配过程中, 将提取到的当前帧的特征同上一帧, 或者是用 来确定目标物体的特征模板进行。
22、比较, 根据比较结果确定是否是对应物体, 从而完成跟踪 过程。 但是特征点会由于遮挡或光线变化而不可见, 这将导致跟踪失败, 这是基于特征匹配 跟踪的缺点。 0005 对于基于区域匹配的跟踪 : 该方法是把图像中目标物体的连通区域的共有特征信 息作为跟踪检测值的一种方法。在连续的图像中可以采用多种区域信息。基于区域匹配的 跟踪不能根据目标的整体形状来对跟踪结果进行调整, 因此在长时间连续跟踪时, 容易因 误差累积而发生目标丢失的情况。 0006 对于基于模型匹配的跟踪 : 该方法是通过建立模型的方法来表示需要跟踪的目标 物体, 然后在序列图像中跟踪这个模型来达到跟踪的目的。目前主要有两种类型的。
23、可变形 模型, 一种是自由式的可变形模型, 只要满足一些简单的正则化约束条件 ( 如连续性, 平滑 性等 ), 就可以用来跟踪任意形状的目标物体, 这类方法通常也被称为活动轮廓模型 ; 另一 种是参数形式的变形模型, 它使用一个参数公式, 或者是一个原形与一个变形公式来共同 描述目标物体的形状。 0007 由上可见, 目前主流的人脸跟踪技术, 还是不能在保证鲁棒性的前提下去精准地 跟踪到人脸。 发明内容 0008 为了解决现有技术的问题, 本发明的目的是提供一种高鲁棒性的人脸跟踪技术。 0009 为了达成所述目的, 本发明提出了一种高鲁棒性的在线增量主成分分析的特征与 模型互匹配人脸跟踪方法,。
24、 该方法结合了基于特征匹配 ( 关键点匹配 ) 和基于约束局部模 型匹配 (CLM) 的跟踪, 同时加入了在线增量主成分学习, 让 CLM 模型 A 和关键点点模型 B 相 说 明 书 CN 103310204 A 6 2/10 页 7 互匹配, 并实时更新, 使得检测的精准度和鲁棒性地到了很好地保证, 且可以解决较大视角 的人脸跟踪问题。 0010 所述高鲁棒性的在线增量主成分分析的特征与模型互匹配人脸跟踪方法包括以 下步骤 : 0011 步骤 S1, 对于多幅人脸图像进行离线建模, 得到包括形状模型 s 和纹理模型 wT的 模型匹配 (CLM) 模型 A ; 0012 步骤 S2, 输入一。
25、待跟踪人脸视频, 对于所述待跟踪人脸视频中的每一帧人脸图像 进行关键点检测, 将所得到的所有关键点的集合和这些关键点的鲁棒描述子组合起来作为 关键点模型 B ; 0013 步骤 S3, 基于所述步骤 S2 得到的关键点模型 B, 对于所述待跟踪人脸视频中的每 一帧人脸图像进行关键点匹配, 获得每一帧人脸图像中初始的人脸姿态参数组 (R, T), 其 中, R 表示角度参数和 T 表示位移参数 ; 0014 步骤S4, 利用所述模型A对所述待跟踪人脸视频进行CLM人脸跟踪, 得到所述待跟 踪人脸视频每一帧人脸图像中特征点的位置 ; 0015 步骤 S5, 基于所述步骤 S3 得到的每一帧人脸图像。
26、中人脸的姿态参数组和所述步 骤 S4 跟踪得到的每一帧人脸图像中特征点的位置, 对所述待跟踪人脸视频中的每一帧人 脸图像进行人脸的再跟踪 ; 0016 步骤S6, 使用增量PCA方法对所述模型A进行更新, 并利用更新后的模型A重复所 述步骤 S1-S5, 得到最终的人脸跟踪结果。 0017 本发明的有益效果是 : 本发明结合了基于特征匹配 ( 关键点匹配 ) 和基于模型匹 配 (CLM) 的人脸跟踪, 同时加入在线增量学习, 让 CLM 模型 A 和关键点模型 B 相互匹配, 并 实时更新, 使得检测的精准度和鲁棒性得到了很好地保证, 本发明方法可以解决较大视角 的人脸跟踪问题。 附图说明 0。
27、018 图 1 是根据本发明一实施例的基于在线增量主成分学习的特征与模型互匹配人 脸跟踪方法流程图 ; 0019 图 2 是根据本发明方法对正脸进行跟踪的结果示意图 ; 0020 图 3 是根据本发明方法对存在小角度转动的脸部的跟踪结果示意图 ; 0021 图 4 是根据本发明方法对存在较大角度转动的脸部的跟踪结果示意图。 具体实施方式 0022 为使本发明的目的、 技术方案和优点更加清楚明白, 以下结合具体实施例, 并参照 附图, 对本发明进一步详细说明。 0023 图 1 是本发明基于在线增量主成分分析的特征与模型互匹配人脸跟踪方法流程 图, 如图 1 所示, 所述方法包括以下步骤 : 0。
28、024 步骤 S1, 对于多幅人脸图像进行离线建模, 得到模型匹配 (CLM, Constrained Local Model) 模型 A ; 0025 所述 CLM 模型 A 包括形状模型 s 和纹理模型 wT, 因此该步骤中, 得到 CLM 模型 A 的 说 明 书 CN 103310204 A 7 3/10 页 8 步骤进一步包括以下步骤 : 0026 步骤 S11, 根据事先确定的共同的人脸轮廓对所述多幅人脸图像分别进行标定得 到多个标定特征点, 并根据所述多个标定特征点的坐标值建立得到一人脸形状模型 s ; 0027 在一个CLM模型A中, 形状定义为一个由一系列顶点位置组成的网格,。
29、 因此可以用 一系列的顶点的坐标来定义一个人脸形状向量 sm: 0028 sm (x1, y1, x2, y2, ., xn, yn)T (1) 0029 其中, xi, yi分别为相应人脸图像中第 i 个顶点的坐标值, n 为实际采用的顶点的 个数, 可以设为 66, 88 等。 0030 所述顶点的坐标是依照所述事先确定的共同的人脸轮廓人为进行标定的, 所述顶 点又称为标定特征点, 具体来说, 所述步骤 S11 进一步包括以下步骤 : 0031 步骤 S111, 事先采集 N 张人脸图像, 其中, N 是一个大于 n 的正整数, 每张人脸图像 上都依照所述共同的人脸轮廓进行人为标定, 从而。
30、得到多个标定特征点, 所述共同的人脸 轮廓包括眼睛、 鼻子、 嘴和脸部外部的轮廓, 进而根据公式 (1) 可以得到 N 个人脸形状向量 sm, 其中, m 表示 N 张人脸图像中的第 m 张人脸图像。 0032 步骤 S112, 在得到人脸形状向量 sm的基础上, 所述人脸形状模型 s 可以用一个平 均人脸形状 s0加上 u 个正交的人脸形状向量 si 的线性组合来表示, 即 : 0033 0034 其中, pi是形状参数, s0为平均人脸形状, si为相对于平均的人脸形状的变化, pi、 s0和 si均由对采集到的 N 个人脸形状向量 sm进行主成分分析 (Principal Compone。
31、nt Analysis-PCA) 得到 : s0为 N 个人脸形状向量 sm的均值, m 1N ; pi是所述主成分分析后 得到的 u 个特征向量 si所对应的权值。需要注意的是, 在进行主成分分析前, 需要对所述 N 个人脸形状向量 sm 分别进行普鲁斯特分析 (procrustes analysis), 以减小偏转、 尺度、 平 移等误差, 所述普鲁斯特分析为现有技术中常用的分析方法, 在此不做赘述。 0035 步骤 12, 基于所述步骤 S11 得到的每一个标定特征点, 学习得到能够体现所述每 一个标定特征点对应的具有一定大小区域的纹理特征的纹理模型 wT。 0036 所述纹理模型的建立。
32、可以采取多种方式进行, 在本发明一实施例中, 采用支持向 量机 (Support Vector Machine-SVM) 来建立所述纹理模型, 具体过程包括 : 0037 步骤 S121, 以所述步骤 S11 得到的每一人脸图像的每一个标定特征点为中心, 截 取一个大小为 rr 的区域作为正样本, 在相应图像中的任意其他位置处截取多个 rr 大 小的区域作为负样本, 这样对于 N 幅人脸图像就会得到具有同一含义的标定特征点 ( 比如 在不同的人脸图像中, 指代左眼角的标定特征点认为是具有同一含义的标定特征点 ) 的 N 个正样本和多个负样本 ; 0038 步骤 S122, 基于每个标定特征点所。
33、对应的样本组, 利用支持向量机 (SVM) 得到每 个标定特征点对应的纹理模型 wT。 0039 该步骤中, 首先将每个标定特征点所对应的样本组中的每个样本 ( 包括正样本和 负样本 ) 写成数学形式 : 0040 0041 其中, (i) 表示相应样本的序号,为相应样本中某一位置处的像素值。 说 明 书 CN 103310204 A 8 4/10 页 9 0042 然后, 利用 SVM 得到每个标定特征点对应的纹理模型 wT。 0043 对于 SVM 而言, 其学习过程可以表示为 : 0044 y(i) wTx(i)+ (4) 0045 其中, y(i)为 SVM 的输出, wT是学习得到的。
34、纹理模型 : wT w1 w2.wrr, 为 SVM 的偏移量, 对于每个标定特征点所对应的正样本, y(i) 1 ; 负样本, y(i) 0。 0046 接下来进行关键点模型 B 的构建与离线的关键点匹配, 该部分包括步骤 S2-S3, 其 主要是为了获得稳定有效的关键点, 通过仿真人脸表面的各种形变, 尽可能地学习对这些 形变鲁棒的关键点, 从而获得稳定的关键点匹配。 0047 步骤 S2, 输入一待跟踪人脸视频, 对于所述待跟踪人脸视频中的每一帧人脸图像 进行关键点检测, 将所得到的所有关键点的集合和这些关键点的鲁棒描述子组合起来作为 关键点模型 B ; 0048 关键点的检测通常使用的。
35、方法是根据图像中的关键点进行识别检测。相比直、 曲 线片段和点状, 利用关键点来识别图像信息的优点是能够在出现拥挤 ( 遮挡 )、 大的尺度和 方向变化的情况下依然可以做出较好的匹配。 0049 由于人脸所存在的特性, 关键点的学习存在着许多问题 : 1, 不同的角度、 表情、 光 照变化会产生人脸形状的几何和光学上的扭曲形变 ; 2, 人脸上的纹理比背景的少, 区别存 在难度 ( 关键点相对少 ) ; 3, 关键点在三维上的位置估计不够精确。但是, 采用不变特征点 作为关键点可以有效解决上述问题, 具体为 : 将利用已有的3D人脸模型检测出的3D关键点 集和利用多视角图像检测出的 2D 关键。
36、点集进行模拟形变, 从而找出稳定的 2D 关键点。 0050 所述关键点检测的步骤包含关键点的学习和其鲁棒描述子的学习, 其中鲁棒描述 子的学习是为了保证关键点的稳定性。 0051 所述关键点的学习进一步包括以下步骤 : 0052 步骤 S21, 对于所述人脸图像序列中的每一帧图像, 使用现有技术中常用的关键点 计算方法, 比如 Fast 算法, 初步计算得到多个关键点 ; 0053 步骤 S22, 从所述步骤 S21 得到的多个关键点中选出具有不变性的关键点, 并将所 述待跟踪人脸视频中的所有图像的不变性关键点组合起来得到关键点集合及这些关键点 的描述子 (fi, xi, yi), 其中, 。
37、fi表示第 i 个关键点的特征值, (xi, yi) 表示该关键点的坐标 ; 0054 所述不变性关键点为经过姿态旋转、 表情变化和 / 或光照变化后仍为关键点的关 键点, 该步骤中使用参数集 (Pose, Shape, Light) 的变化, 来模拟人脸的姿态旋转、 表情变 化和光照变化, 其中, Pose 指的是小范围的姿态旋转引起的局部遮挡, Shape 指的是非刚 性的人脸表情变化, Light 指的是光照引起的复杂变化, 如阴影等 ; 令 W(k0; Pose, Shape, Light) 表示图像 I0上的某一关键点 k0在上述三种变换下得到的点 k 所对应的位置, 如果 该关键点。
38、 k0在上述变换后仍然被检查为关键点, 并且满足下式, 就认为关键点 k0对于上述 变换具有不变性 : 0055 Fk0-Fk t (5) 0056 其中, Fk0为关键点 k0的特征值, Fk为点 k 的特征值, t 为允许的定位误差上限。 0057 目前得到的关键点集合中的关键点描述子并不具有鲁棒性, 接下来需要通过学习 的方法取得关键点的鲁棒描述子。在本发明一实施例中, 所述关键点鲁棒描述子的学习采 用增量学习的方法。由上文可知, 关键点作为检测图像的主要识别因子, 应该具有不变性 说 明 书 CN 103310204 A 9 5/10 页 10 ( 比如对于方向、 尺度、 旋转等的不变。
39、性 )。但是在很多情况下, 关键点的局部外观表现可 能会在方向和尺度上发生变化, 有时甚至存在仿射变形, 因此为了更准确地对关键点进行 匹配, 需要对关键点进行有效的区分描述, 提取出其局部方向、 尺度和旋转的框架估计, 形 成描述子, 比如 sift 就是一种可以采用的描述子, 利用该描述子能够对关键点进行重新采 样。 0058 所述关键点的鲁棒描述子的学习包括以下步骤 : 0059 步骤 S23, 按照所述步骤 S21 和 S22 的描述, 对于所述待跟踪人脸视频中的每一帧 图像进行关键点检测, 得到 n 个不变性关键点, 这 n 个不变性关键点构成初始关键点集合 A ; 0060 步骤 。
40、S24, 对所述图像中的人脸进行某一种参数变换, 仿真得到变换后的图像, 其 中, 所述参数为 shape、 pose 或 light ; 0061 步骤 S25, 按照所述步骤 S21 和 S22 的描述, 对变换后的图像进行关键点检测得到 多个不变性关键点, 这些不变性关键点构成关键点集合 B ; 0062 步骤 S26, 对关键点集合 B 里的每个点 p, 与关键点集合 A 进行描述子匹配操作 : 0063 在关键点集合 A 中, 找到与点 p 位置最近的点 q, 比较点 p 和点 q 反投影到正面三 维模型表面上的三维点 p 和 q , 判断 p 和 q 是不是同一个三维点, 如果 p。
41、 和 q 是同一 个三维点且 p 的描述子和 q 的描述子最为接近, 则表示这个描述子是有效的, 则把 p 的描述 子加入到 q 的描述子中, 如此 q 就多了一个描述子 ; 如果 p 和 q 是同一个三维点且点 p 的 描述子和集合 A 中非 q 的另一个点 x 的描述子最为接近, 则点 q 及其描述子无效 ; 如果 p 和 q 是同一个三维点且点 p 的描述子和集合 A 中每个点的描述子都不一样, 则说明它的描 述子被错误的分类为背景了, 所以将 p 和 p 的描述子加入到集合 A 中 ; 如果 p 和 q 不是同 一个三维点且 p 的描述子和集合 A 中某个点 s 的某个描述子很接近, 。
42、这表明点 s 容易引起 误匹配, 所以将点 s 及其描述子从集合 A 中去掉 ; 如果 p 和 q 不是同一个三维点且 p 的描 述子和集合 A 中每个关键点的描述子都不一样, 则将点 p 及其描述子加入到集合 A 中 ; 0064 步骤 S27, 对于经过其他不同参数变换后的图像重复所述步骤 24 到 26, 最终得到 所述待跟踪人脸视频中每一帧图像的完备的关键点鲁棒描述子。 0065 得到了所有关键点集合及其鲁棒描述子后就得到了关键点模型 B。 0066 步骤 S3, 基于所述步骤 S2 得到的关键点模型 B, 对于所述待跟踪人脸视频中的每 一帧人脸图像进行关键点匹配, 获得每一帧人脸图像。
43、中初始的人脸姿态参数组, 其中, 所述 姿态参数组包括角度参数 R 和位移参数 T : (R, T) ; 0067 所述关键点匹配的过程是比较差异性的过程, 通常匹配的对象是前后图像帧变化 比较小的图像序列。 0068 具体地, 所述步骤 S3 进一步包括以下步骤 : 0069 步骤 S31, 根据所述步骤 S2 得到所述人脸视频的某一帧人脸图像的上一人脸图像 帧的关键点, 并在该帧人脸图像中寻找上一人脸图像帧的某一关键点在当前帧中的相应位 置附近的关键点 ; 0070 步骤 S32, 将当前帧中所述关键点的描述子和所述关键点模型 B 中的描述子进行 匹配, 将当前帧中利用已有的3D人脸模型检。
44、测出的能够与所述关键点模型B中的描述子匹 配上的3D关键点组成集合V, 将当前帧中与所述关键点模型B中的描述子匹配上的2D关键 说 明 书 CN 103310204 A 10 6/10 页 11 点组成集合 u, 将所述集合 V 通过选择姿态参数组 (R, T), 以及摄像头的内参数 K( 该参数可 以通过标定的方法事先确定 ), 得到所述集合 V 经过平面投影后的 2D 关键点集合 u, 比较 u和 u, 求取使得 |u-u | 最小的该帧图像中初始的人脸相对于正脸的姿态参数组 (R, T) : 0071 0072 其中, K 为摄像机参数, R 为角度矩阵, T 为位移向量, R|T 为由。
45、 R 和 T 组成的增 广矩阵, Vi 为能够匹配所述关键点模型 B 中的描述子的 3D 关键点集合, ui 为能够匹配所述 关键点模型 B 中的描述子的 2D 关键点集合, i 为关键点的序号, Nk为集合 V 和集合 ut的关 键点个数的最大值。 0073 接下来进行 CLM 人脸跟踪, 该部分主要通过步骤 S4 来实现。 0074 步骤S4, 利用所述模型A对所述待跟踪人脸视频进行CLM人脸跟踪, 得到所述待跟 踪人脸视频每一帧人脸图像中特征点的位置, 并进而基于所述步骤 S3 得到的初始的人脸 姿态参数组, 得到所述待跟踪人脸视频每一帧人脸图像校正后的人脸姿态参数组 ; 0075 该步。
46、骤通过拟合操作来实现人脸特征点的跟踪, 所述拟合其实就是对一模型进行 参数调整, 得到一实例模型, 并使所述实例模型与新的输入图片相匹配的过程, 这是一个能 量最小化问题。 0076 所述步骤 S4 进一步包括以下步骤 : 0077 步骤 S41, 对所述待跟踪人脸视频中的某一当前帧人脸图像进行脸部检测, 得到初 始的 n 个特征点, 并相应地得到每个特征点的响应图像 R(x, y) ; 0078 该步骤中, 首先利用现有技术中常用的 Viola-Jones 方法对该帧人脸图像进行脸 部检测, 得到一个小范围的脸部区域 ; 然后在该脸部区域内, 初始化一个脸部轮廓模型, 该 模型可以是上文提到。
47、的 s0。这样, 根据所述初始化的脸部轮廓模型就得到该帧人脸图像的 初始的 n 个特征点。 0079 其中, 每个特征点的响应图像 R(x, y) 为 wTx(i)矩阵化后的结果, 其中, wT是根据 SVM 求得的该特征点的纹理模型 : wT w1 w2.wrr, x(i)为该特征点的第 i 个大小为 r*r 的样本, 可见, 所述响应图像 R(x, y) 的大小为 r*r, 其实, 所述响应图像相当于用纹理模型 wT在样本中进行滤波所得到的结果。 0080 步骤 S42, 利用所述响应图像 R(x, y), 通过拟合得到所述待跟踪人脸视频每一帧 人脸图像中与所述当前帧人脸图像具有同一含义的。
48、特征点的位置 ; 0081 所述拟合进一步包括以下步骤 : 0082 步骤 S421, 对以所述步骤 S41 中得到的所有特征点中的每一个特征点为中心的大 小为 rr 的区域进行范围为 aa 的搜索, 对于每一个特征点, 得到一以其为中心、 直径为 (r+a) 的正方形区域 ; 0083 , 而学习时样本的范围是, 其也即拟合过程中响应图像的大小步骤 S422, 在已知当 前帧的特征点的情况下, 通过函数拟合的方式找到当前帧的下一帧或上一帧图像的所述正 方形区域中与所述当前帧人脸图像具有同一含义的特征点的坐标位置。 0084 对于所述拟合, 需要找到能够使在下一帧或上一帧图像中拟合得到的每个特。
49、征点 的正样本与相应响应图像 R(x, y) 的均方差降到最低的函数参数最优解。为了使这个最优 说 明 书 CN 103310204 A 11 7/10 页 12 解能达到全局化而非局部性的目的, 在本发明一实施例中, 采用二次函数进行拟合, 此时就 需要找到能够使得(8)式所表示的目标函数中的均方差值最小的(7)式中的函数参数a, b, c, 在本发明一实施例中, 可通过二次规划的方法来求得函数参数 a, b, c的最 优解。 0085 r(x, y) a (x-x0)2+b (y-y0)2+c (7) 0086 0087 其中, r(x, y) 为拟合得到的某一特征点的正样本, 由于某一特征点的正样本以该 特征点为。