一种基于多模态序列融合的动作识别方法.pdf

上传人:n****g 文档编号:4540715 上传时间:2018-10-18 格式:PDF 页数:10 大小:1.70MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410337744.2

申请日:

2014.07.15

公开号:

CN104156693A

公开日:

2014.11.19

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06K 9/00申请日:20140715|||公开

IPC分类号:

G06K9/00; G06K9/66

主分类号:

G06K9/00

申请人:

天津大学

发明人:

刘安安; 苏育挺; 马莉

地址:

300072 天津市南开区卫津路92号

优先权:

专利代理机构:

天津市北洋有限责任专利代理事务所 12201

代理人:

温国林

PDF下载: PDF下载
内容摘要

本发明公开了一种基于多模态序列融合的动作识别方法,包括以下步骤:获得原始视频多种模态下的信息,并进行预处理获取初始RGB图像序列及初始深度图像序列,以及获取骨架特征序列;对初始RGB图像序列进行背景建模,通过得到的背景建模结果来提取第一人体区域外接矩形,同时提取初始深度图像序列上相应位置的第二人体区域外接矩形;在第一、第二人体区域外接矩形上分别提取人体动作特征,得到RGB模态和深度模态下的特征向量;根据得到的RGB-LBP、D-LBP特征向量序列,以及骨架特征序列,通过多视角判别模型来进行动作识别。本发明能够将多种模态的序列信息进行互补融合,能够有效提高动作识别准确率。

权利要求书

1.  一种基于多模态序列融合的动作识别方法,其特征在于,所述方法包括以下步骤:
获得原始视频多种模态下的信息,并进行预处理,获取初始RGB图像序列、初始深度图像序列,以及获取骨架特征序列;
对所述初始RGB图像序列进行背景建模,通过得到的背景建模结果来提取第一人体区域外接矩形,同时提取所述初始深度图像序列上相应位置的第二人体区域外接矩形;
在第一、第二人体区域外接矩形上分别提取人体动作特征,得到RGB模态和深度模态下的RGB-LBP、D-LBP特征向量序列;
根据所述RGB-LBP、D-LBP特征向量序列,以及所述骨架特征序列,通过多视角判别模型来进行动作识别。

2.
  根据权利要求1所述的一种基于多模态序列融合的动作识别方法,其特征在于,所述根据所述RGB-LBP、D-LBP特征向量序列,以及所述骨架特征序列,通过多视角判别模型来进行动作识别的步骤具体为:
(1)所述多视角判别模型的表示:
多视角判别模型的条件概率模型可以表示为:
P(Y|X,θ)=ΣHP(Y,H|X,θ)=1ZΣHe(θT·φ(Y,H,X))]]>
其中,X是观测序列,Y是序列标记,H是隐状态变量,θ是权重向量,且θ={θ12},θ1和θ2表示权重,T表示转置,φ(Y,X,H)是特征函数,表示由图模型中节点位置以及节点之间的关联而决定的序列特征,Z是归一化的分配函数,用来进行概率归一化;
(2)所述多视角判别模型的学习:
目标函数为:
minθL(θ)=12||θ||2-Σi=1Nlogp(Yi,Xi;θ)]]>
其中,Xi表示观测样例,Yi表示观测样例真实的标注,使得上式取得最小值的θ值,即是最优参数θ;
(3)所述多视角判别模型的判断:在所述多视角判别模型参数已经确定之后,判断观测序列X的分类最优标记Y*,确定动作类别,

说明书

一种基于多模态序列融合的动作识别方法
技术领域
本发明涉及计算机视觉、人体动作识别领域,尤其涉及一种基于多模态序列融合的动作识别方法。
背景技术
人体动作识别在智能视频监控、人机交互、视频检索等领域中具有广阔的应用前景,已逐渐成为计算机视觉领域的研究热点。现有技术中的很多研究工作主要是利用普通RGB摄像机获得的图像序列来进行动作识别,并在一些经典的数据库上验证了其有效性。然而,由于光照变化、人体外形的多样性、遮挡等因素的干扰,人体动作识别仍然是一项具有挑战性的工作。
近年来,将深度图像序列引入人体动作识别领域成为了一个新兴的热点问题。这主要是由于深度摄像机的成本大大降低,尤其是微软推出的3D体感摄影机Kinect,其成本低廉、所摄取的图像分辨率高。与彩色图像相比,深度图像能直接反映物体表面的三维特征,且不受光照变化、阴影、环境变化等因素的干扰。此外,深度图像表示物体在3D空间中的坐标,可以很好的克服遮挡或重叠问题。人体骨架可以用来有效地表征人体区域及轮廓信息,它能反映出人体运动的轨迹,包含很多运动信息,骨架信息能够直接反映人体的位置信息,且不会受到光照、阴影、遮挡等因素的干扰。
RGB信息、深度信息、骨架信息、热传感信息等分别代表着同一个场景的不同形式,通过将这些不同模态的信息融合进行序列建模,可以提升动作识别的准确率。但是由于不同模态的信息于不同的流形空间且值域不同,直接将其融合并不能得到最佳效果。所以,如何进一步多模态序列进行互补融合,是人体动作识别中亟待解决的问题。
发明内容
本发明提供了一种基于多模态序列融合的动作识别方法,本发明实现了RGB信息与深度信息的互补,显著地提高了动作识别的准确率,详见下文描述:
一种基于多模态序列融合的动作识别方法,所述方法包括以下步骤:获得原始视频多种模态下的信息,并进行预处理。包括对原始视频的RGB图像序列和深度图像序列进行预处理,获取初始RGB图像序列及初始深度图像序列,以及获取骨架特征序列;
对初始RGB图像序列进行背景建模,通过得到的背景建模结果来提取第一人体区域外接矩形,同时提取初始深度图像序列上相应位置的第二人体区域外接矩形;
在第一、第二人体区域外接矩形上分别提取人体动作特征,得到RGB模态和深度模态下的特征向量;
根据步骤103中得到的RGB-LBP、D-LBP特征向量序列,以及步骤101中得到的骨架特征序列,通过多视角判别模型来进行动作识别。。
所述根据RGB-LBP、D-LBP特征向量,以及骨架特征序列,通过多视角判别模型来进行动作识别的步骤具体为:
(1)多视角判别模型的表示:
多视角判别模型的条件概率模型可以表示为:
P(Y|X,θ)=ΣHP(Y,H|X,θ)=1ZΣHe(θT·φ(Y,H,X))]]>
其中,X是观测序列,Y是序列标记,H是隐状态变量,θ是权重向量且θ={θ12},θ1和θ2表示权重,T表示转置,φ(Y,X,H)是特征函数,表示由图模型中节点位置以及节点之间的关联而决定的序列特征,Z是归一化的分配函数,用来进行概率归一化。
(2)多视角判别模型的学习:
目标函数为:
minθL(θ)=12||θ||2-Σi=1Nlogp(Yi,Xi;θ)]]>
其中,Xi表示观测样例,Yi表示观测样例真实的标注,使得上式取得最小值的θ值,即是最优参数θ。
(3)多视角判别模型的判断:在多视角判别模型参数已经确定之后,判断观测序列X的分类最优标记Y*,确定动作类别,
本发明提供的技术方案的有益效果是:本方法根据得到的RGB-LBP、D-LBP特征向量,以及骨架特征序列,通过多视角判别模型的学习和判断来进行动作识别。本发明能够将RGB信息、深度信息和骨架信息进行互补,可以显著的提高动作识别的准确率。
附图说明
图1为基于多模态序列融合的动作识别方法的流程图;
图2为LBP特征算法示意图;
图3为多视角判别模型的示意图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
为了将多模态序列进行互补融合,提高动作识别的准确率,本发明实施例提供了一种基于多模态序列融合的动作识别方法,参见图1,详见下文描述:
101:获得原始视频多种模态下的信息,并进行预处理。包括对原始视频的RGB图像序列和深度图像序列进行预处理,获取初始RGB图像序列及初始深度图像序列,以及获取骨架特征序列;
对于同一动作序列,可以用不同模态进行表示,如RGB信息、深度信息、骨架信息、热传感信息等模态。本实验中选用RGB信息、深度信息和骨架信息三种模态。具体实现时,本发明实施例对此不做限制。
本发明实施例首先采用参考文献[1]中的高斯滤波方法,对原始视频的RGB图像序列和深度图像序列进行预处理。为了减小背景对目标的干扰,再对深度图像序列进行进一步处理,若深度像素值大于阈值T1或小于阈值T2时,认为此像素值不是有效值,将其标记为0。
Dk(x,y)=Dk(x,y),T2Dk(x,y)T10,else]]>
其中,Dk(x,y)代表第k帧时,深度图像中像素(x,y)点处的深度值。阈值T1和阈值T2满足关系T1>T2,其具体数值可以根据实际情况来设定,在本实验中设置T1=3500,T2=2000。具体实现时,本发明实施例对此不做限制。至此,得到初始RGB图像序列及初始深度图像序列。
本发明实施例采用Kinect SDK工具[2]获取人体20个骨架点所对应的位置坐标,将其串联得到骨架特征序列,作为骨架信息模态。具体实现时,本发明实例对获取骨架特征的方式不做限制。
102:对初始RGB图像序列进行背景建模,通过得到的背景建模结果来提取第一人体区域外接矩形,同时提取初始深度图像序列上相应位置的第二人体区域外接矩形;
由于特征检测是在每帧图像上遍历进行的,为此首先从初始RGB图像序列的每一帧中提取前景区域。由于本方法研究对象所处的环境比较理想,背景几乎无变化,因此可以 采用最常用的背景差法来提取前景目标。背景差法实现简单、运算速度快,适用于摄像机静止的场景,并需要得到当前场景的静止背景图像。具体步骤为:
1)获得当前场景中不包含目标对象的静止背景图像B;
2)将当前帧(即第k帧)图像fk(x,y)与背景图像B进行差值运算,得到差分图像Ck(x,y),
Ck(x,y)=|fk(x,y)-B|。
3)对上述差分图像Ck(x,y)进行二值化,得到二值化图像Rk(x,y),其中阈值T3可以根据实际情况来设定,在本实验中设置T3=30。具体实现时,本发明实施例对此不做限制。

4)对二值化图像Rk(x,y)进行形态学滤波方法,并通过连通性分析,最终检测和分割出第一人体区域外接矩形,同时提取深度图像序列上相应位置的第二人体区域外接矩形。
其中,提取出的二值化图像Rk(x,y)可能会出现空洞、毛刺等现象,采用参考文献[3]中提出的形态学滤波方法,可以消除孤立噪声点并修复目标区域的空洞。再经过连通性分析,最终检测和分割出人体区域外接矩形,同时提取深度图像序列上相应位置的人体区域外接矩形。
103:在第一、第二人体区域外接矩形上分别提取人体动作特征,得到RGB模态和深度模态下的特征向量;
人体动作特征有多种提取和表示方法,常见的有梯度方向直方图特征(Histograms of Oriented Gradients,HOG)、光流直方图特征(Histogram of Optical Flows,HOF)、局部二值模式(Local Binary Patterns,LBP)等。不失一般性的,本方法使用参考文献[4]中提出的LBP特征来描述人体动作视觉特征。具体提取方法如下:
LBP是一种用来描述图像局部纹理特征的算子。LBP算子定义如下,在3*3像素的窗口内,以窗口中心像素为阈值,将相邻的8个像素的灰度值与其进行比较,若相邻的8个像素的像素值大于中心像素值,则该像素点的位置被标记为1,否则为0。用公式可以表示为:
f(I(X0),I(Xi))=1ifI(Xi)-I(X0)&GreaterEqual;T40ifI(Xi)-I(X0)<T4,i=1,2,...,8]]>
其中,I(X0)表示X0点处的像素灰度值,I(Xi),i=1,2,...,8表示Xi点处的像素灰度值。其中阈值T4可以根据实际情况来设定,在本实验中设置T4=0。具体实现时,本发明实施例对此不做限制。
按照一定的顺序将上述得到的二值化结果组成一个8位的二进制数,再转化为一个十进制整数,即为此中心像素点的LBP值,如图2所示。将整个图像逐行扫描后,可以得到LBP响应图像,这个图像的直方图即为LBP特征。将第一、第二人体区域外接矩形分别执行上述操作,最终分别得到图像的RGB-LBP(RGB图像的局部二值模式)和D-LBP(深度图像的局部二值模式)特征向量。
104:根据步骤103中得到的RGB-LBP、D-LBP特征向量序列,以及步骤101中得到的骨架特征序列,通过多视角判别模型来进行动作识别。
传统的特征级融合和决策级融合[5]并不能很好的解决多模态时序信息融合的问题,这是由于以下两个原因:第一,尽管RGB图像和深度图像有同样的时间标记,但是并不完全同步;第二,决策级融合没有考虑到每个序列的上下文信息。为了解决这个问题,本方法采用参考文献[6]提出的耦合的多视角判别模型进行多模态序列融合问题的研究,其图模型结构如图3所示。
多视角判别模型是一种视角融合和动作识别的时序模型,在本实验中,将多种模态的特征向量序列分别输入到此模型中,进行多模态融合和模型学习,进行动作识别。
(1)多视角判别模型的表示:
设每个训练样本或测试样本含有M个模态的序列:X={x1,x2,...,xm,...,xM},其中,是第m个模态的观测序列,m=1,2,...,M,T是观测序列的长度。M可以取任意整数,代表着M种模态(例如:RGB信息、深度信息、骨架信息等)。
不失一般性的,选取RGB信息、深度信息和骨架信息三种模态进行实验,即M=3。即为步骤103中所提取的RGB-LBP和D-LBP特征序列、以及步骤101中得到的骨架特征序列。
每个X都与一个标签Y对应,其中代表着所有动作的种类。
为了得到观测序列xm的特征,使用一个隐状态变量H={h1,h2,...,hm,hm+1...,hM},其中,hm={h1m,h2m,...,htm,ht+1m,...,hTm}]]>是与xm相对应的隐状态,是第m个模态的有限离散集。同理,hm+1={h1m+1,h2m+1,...,htm+1,ht+1m+1,...,hTm+1}]]>
令G={γ,εps}表示一个无向图,多视角判别模型可看作是其因式分解的条件概率分布。其中γ表示图的顶点,εps表示图的两条边,其中εp代表着每个视角的时间上下文关系,εs代表着不同视角之间的联系。
多视角判别模型的条件概率模型可以表示为:
P(Y|X,θ)=ΣHP(Y,H|X,θ)=1ZΣHe(θT&CenterDot;φ(Y,H,X))]]>
其中,X是观测序列,Y是序列标记,H是隐状态变量,θ是权重向量且θ={θ12},θ1和θ2表示权重,T表示转置,φ(Y,X,H)是特征函数,表示由图模型中节点位置以及节点之间的关联而决定的序列特征,Z是归一化的分配函数,用来进行概率归一化。
引入两个特征函数fk(·)及gk(·),特征函数φ(Y,X,H)可表示为:
θT&CenterDot;φ(Y,X,H)=Σ(t,m)&Element;γΣkθ1kfk(Y,htm,xm)+Σ(t,t+1,m,m+1)&Element;&epsiv;Σkθ2kgk(Y,htm,ht+1m+1,X)]]>
其中,ε=εp∪εs是观测序列,θ1kfk(·)表示由一个隐状态变量决定的特征函数,θ2kgk(·)代表由一对隐状态变量决定的特征函数。k是序列标记集合的任意元素,表示待比较的标记。θ1,k是模型参数向量θ1的一维,下标表示该θ1,k对应序列类别标记为Y时的权重。θ2,k是模型参数向量θ2的一维,下标表示该θ2,k对应序列类别标记为Y时的权重。
(2)多视角判别模型的学习:
为了寻找最优参数θ,根据条件似然准则,目标函数可以定义为:
minθL(θ)=12||θ||2-Σi=1Nlogp(Yi,Xi;θ)]]>
其中,Xi表示观测样例,Yi表示观测样例真实的标注。使得上式取得最小值的θ值,即是最优参数θ。
该问题可以参考非凸正则束方法[7]进行求解。
(3)多视角判别模型的判断:
在多视角判别模型参数已经确定之后,可以判断观测序列X的分类最优标记Y*,确定动作类别。具体实现公式如下:
Y*=argmaxpY(Y|X;θ*)]]>
即Y*是能使函数p(Y|X;θ*)取得最大值的参数值,具体可参考文献[8]中的动态规划算法。
通过将多视角判别模型应用于多种模态序列融合的动作识别问题中,可以有效提高动作识别的准确率。
参考文献
[1]Lin,H.C.,Wang,L.L.,&Yang,S.N.Automatic determination of the spread parameter in Gaussian smoothing,Pattern Recognition Letters,17(12),pp:1247-1252,1996.
[2]Webb J,Ashley J.Beginning Kinect Programming with the Microsoft Kinect SDK[M].Apress,2012.
[3]Comer,Mary L.,and Edward J.Delp,Morphological operations for color image processing,Journal of electronic imaging,8(3),pp:279-289,1999.
[4]Ojala T,Pietikainen M,Maenpaa T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2002,24(7):971-987.
[5]L.Wu,S.L.Oviatt and P.R.Cohen,Multimodal integration-a statistical view,IEEE Transactions on Multimedia,1999.
[6]Song Y,Morency L,Davis R.Multi-view latent variable discriminative models for action recognition[C].Computer Vision and Pattern Recognition(CVPR),2012IEEE Conference on.IEEE,2012:2120-2127.
[7]Do T M T,Artières T.Large margin training for hidden markov models with partially observed states[C].Proceedings of the26th Annual International Conference on Machine Learning.ACM,
[8]R Bellman,Dynamic Programming,Princeton,NJ,Princeton University Press,1957.
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

一种基于多模态序列融合的动作识别方法.pdf_第1页
第1页 / 共10页
一种基于多模态序列融合的动作识别方法.pdf_第2页
第2页 / 共10页
一种基于多模态序列融合的动作识别方法.pdf_第3页
第3页 / 共10页
点击查看更多>>
资源描述

《一种基于多模态序列融合的动作识别方法.pdf》由会员分享,可在线阅读,更多相关《一种基于多模态序列融合的动作识别方法.pdf(10页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 104156693 A (43)申请公布日 2014.11.19 CN 104156693 A (21)申请号 201410337744.2 (22)申请日 2014.07.15 G06K 9/00(2006.01) G06K 9/66(2006.01) (71)申请人 天津大学 地址 300072 天津市南开区卫津路 92 号 (72)发明人 刘安安 苏育挺 马莉 (74)专利代理机构 天津市北洋有限责任专利代 理事务所 12201 代理人 温国林 (54) 发明名称 一种基于多模态序列融合的动作识别方法 (57) 摘要 本发明公开了一种基于多模态序列融合的动 作识。

2、别方法, 包括以下步骤 : 获得原始视频多种 模态下的信息, 并进行预处理获取初始 RGB 图像 序列及初始深度图像序列, 以及获取骨架特征序 列 ; 对初始 RGB 图像序列进行背景建模, 通过得 到的背景建模结果来提取第一人体区域外接矩 形, 同时提取初始深度图像序列上相应位置的第 二人体区域外接矩形 ; 在第一、 第二人体区域外 接矩形上分别提取人体动作特征, 得到 RGB 模态 和深度模态下的特征向量 ; 根据得到的 RGB-LBP、 D-LBP 特征向量序列, 以及骨架特征序列, 通过多 视角判别模型来进行动作识别。本发明能够将多 种模态的序列信息进行互补融合, 能够有效提高 动作识。

3、别准确率。 (51)Int.Cl. 权利要求书 1 页 说明书 6 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书6页 附图2页 (10)申请公布号 CN 104156693 A CN 104156693 A 1/1 页 2 1. 一种基于多模态序列融合的动作识别方法, 其特征在于, 所述方法包括以下步骤 : 获得原始视频多种模态下的信息, 并进行预处理, 获取初始 RGB 图像序列、 初始深度图 像序列, 以及获取骨架特征序列 ; 对所述初始 RGB 图像序列进行背景建模, 通过得到的背景建模结果来提取第一人体区 域外接矩形, 同时提取所。

4、述初始深度图像序列上相应位置的第二人体区域外接矩形 ; 在第一、 第二人体区域外接矩形上分别提取人体动作特征, 得到 RGB 模态和深度模态 下的 RGB-LBP、 D-LBP 特征向量序列 ; 根据所述 RGB-LBP、 D-LBP 特征向量序列, 以及所述骨架特征序列, 通过多视角判别模 型来进行动作识别。 2. 根据权利要求 1 所述的一种基于多模态序列融合的动作识别方法, 其特征在于, 所 述根据所述 RGB-LBP、 D-LBP 特征向量序列, 以及所述骨架特征序列, 通过多视角判别模型 来进行动作识别的步骤具体为 : (1) 所述多视角判别模型的表示 : 多视角判别模型的条件概率模。

5、型可以表示为 : 其中, X是观测序列, Y是序列标记, H是隐状态变量, 是权重向量, 且1,2, 1和 2表示权重, T 表示转置, (Y,X,H) 是特征函数, 表示由图模型中节点位置以及节 点之间的关联而决定的序列特征, Z 是归一化的分配函数, 用来进行概率归一化 ; (2) 所述多视角判别模型的学习 : 目标函数为 : 其中, Xi表示观测样例, Yi表示观测样例真实的标注, 使得上式取得最小值的 值, 即 是最优参数 ; (3) 所述多视角判别模型的判断 : 在所述多视角判别模型参数已经确定之后, 判断观 测序列 X 的分类最优标记 Y*, 确定动作类别, 权 利 要 求 书 C。

6、N 104156693 A 2 1/6 页 3 一种基于多模态序列融合的动作识别方法 技术领域 0001 本发明涉及计算机视觉、 人体动作识别领域, 尤其涉及一种基于多模态序列融合 的动作识别方法。 背景技术 0002 人体动作识别在智能视频监控、 人机交互、 视频检索等领域中具有广阔的应用前 景, 已逐渐成为计算机视觉领域的研究热点。现有技术中的很多研究工作主要是利用普通 RGB摄像机获得的图像序列来进行动作识别, 并在一些经典的数据库上验证了其有效性。 然 而, 由于光照变化、 人体外形的多样性、 遮挡等因素的干扰, 人体动作识别仍然是一项具有 挑战性的工作。 0003 近年来, 将深度图。

7、像序列引入人体动作识别领域成为了一个新兴的热点问题。这 主要是由于深度摄像机的成本大大降低, 尤其是微软推出的 3D 体感摄影机 Kinect, 其成本 低廉、 所摄取的图像分辨率高。与彩色图像相比, 深度图像能直接反映物体表面的三维特 征, 且不受光照变化、 阴影、 环境变化等因素的干扰。此外, 深度图像表示物体在 3D 空间中 的坐标, 可以很好的克服遮挡或重叠问题。人体骨架可以用来有效地表征人体区域及轮廓 信息, 它能反映出人体运动的轨迹, 包含很多运动信息, 骨架信息能够直接反映人体的位置 信息, 且不会受到光照、 阴影、 遮挡等因素的干扰。 0004 RGB 信息、 深度信息、 骨架。

8、信息、 热传感信息等分别代表着同一个场景的不同形式, 通过将这些不同模态的信息融合进行序列建模, 可以提升动作识别的准确率。但是由于不 同模态的信息于不同的流形空间且值域不同, 直接将其融合并不能得到最佳效果。 所以, 如 何进一步多模态序列进行互补融合, 是人体动作识别中亟待解决的问题。 发明内容 0005 本发明提供了一种基于多模态序列融合的动作识别方法, 本发明实现了 RGB 信息 与深度信息的互补, 显著地提高了动作识别的准确率, 详见下文描述 : 0006 一种基于多模态序列融合的动作识别方法, 所述方法包括以下步骤 : 获得原始视 频多种模态下的信息, 并进行预处理。包括对原始视频。

9、的 RGB 图像序列和深度图像序列进 行预处理, 获取初始 RGB 图像序列及初始深度图像序列, 以及获取骨架特征序列 ; 0007 对初始 RGB 图像序列进行背景建模, 通过得到的背景建模结果来提取第一人体区 域外接矩形, 同时提取初始深度图像序列上相应位置的第二人体区域外接矩形 ; 0008 在第一、 第二人体区域外接矩形上分别提取人体动作特征, 得到 RGB 模态和深度 模态下的特征向量 ; 0009 根据步骤 103 中得到的 RGB-LBP、 D-LBP 特征向量序列, 以及步骤 101 中得到的骨 架特征序列, 通过多视角判别模型来进行动作识别。 。 0010 所述根据 RGB-。

10、LBP、 D-LBP 特征向量, 以及骨架特征序列, 通过多视角判别模型来 进行动作识别的步骤具体为 : 说 明 书 CN 104156693 A 3 2/6 页 4 0011 (1) 多视角判别模型的表示 : 0012 多视角判别模型的条件概率模型可以表示为 : 0013 0014 其中, X 是观测序列, Y 是序列标记, H 是隐状态变量, 是权重向量且 1,2, 1和 2表示权重, T 表示转置, (Y,X,H) 是特征函数, 表示由图模型中节点位 置以及节点之间的关联而决定的序列特征, Z 是归一化的分配函数, 用来进行概率归一化。 0015 (2) 多视角判别模型的学习 : 001。

11、6 目标函数为 : 0017 0018 其中, Xi表示观测样例, Yi表示观测样例真实的标注, 使得上式取得最小值的 值, 即是最优参数 。 0019 (3) 多视角判别模型的判断 : 在多视角判别模型参数已经确定之后, 判断观测序 列 X 的分类最优标记 Y*, 确定动作类别, 0020 本发明提供的技术方案的有益效果是 : 本方法根据得到的 RGB-LBP、 D-LBP 特征向 量, 以及骨架特征序列, 通过多视角判别模型的学习和判断来进行动作识别。 本发明能够将 RGB 信息、 深度信息和骨架信息进行互补, 可以显著的提高动作识别的准确率。 附图说明 0021 图 1 为基于多模态序列。

12、融合的动作识别方法的流程图 ; 0022 图 2 为 LBP 特征算法示意图 ; 0023 图 3 为多视角判别模型的示意图 ; 具体实施方式 0024 为使本发明的目的、 技术方案和优点更加清楚, 下面对本发明实施方式作进一步 地详细描述。 0025 为了将多模态序列进行互补融合, 提高动作识别的准确率, 本发明实施例提供了 一种基于多模态序列融合的动作识别方法, 参见图 1, 详见下文描述 : 0026 101 : 获得原始视频多种模态下的信息, 并进行预处理。包括对原始视频的 RGB 图 像序列和深度图像序列进行预处理, 获取初始 RGB 图像序列及初始深度图像序列, 以及获 取骨架特征。

13、序列 ; 0027 对于同一动作序列, 可以用不同模态进行表示, 如 RGB 信息、 深度信息、 骨架信息、 热传感信息等模态。本实验中选用 RGB 信息、 深度信息和骨架信息三种模态。具体实现时, 本发明实施例对此不做限制。 0028 本发明实施例首先采用参考文献 1 中的高斯滤波方法, 对原始视频的 RGB 图像 序列和深度图像序列进行预处理。为了减小背景对目标的干扰, 再对深度图像序列进行进 一步处理, 若深度像素值大于阈值T1或小于阈值T2时, 认为此像素值不是有效值, 将其标记 说 明 书 CN 104156693 A 4 3/6 页 5 为 0。 0029 0030 其中, Dk(。

14、x,y) 代表第 k 帧时, 深度图像中像素 (x,y) 点处的深度值。阈值 T1和阈 值T2满足关系T1T2, 其具体数值可以根据实际情况来设定, 在本实验中设置T13500,T2 2000。具体实现时, 本发明实施例对此不做限制。至此, 得到初始 RGB 图像序列及初始深 度图像序列。 0031 本发明实施例采用Kinect SDK工具2获取人体20个骨架点所对应的位置坐标, 将其串联得到骨架特征序列, 作为骨架信息模态。 具体实现时, 本发明实例对获取骨架特征 的方式不做限制。 0032 102 : 对初始 RGB 图像序列进行背景建模, 通过得到的背景建模结果来提取第一人 体区域外接矩。

15、形, 同时提取初始深度图像序列上相应位置的第二人体区域外接矩形 ; 0033 由于特征检测是在每帧图像上遍历进行的, 为此首先从初始 RGB 图像序列的每一 帧中提取前景区域。 由于本方法研究对象所处的环境比较理想, 背景几乎无变化, 因此可以 采用最常用的背景差法来提取前景目标。 背景差法实现简单、 运算速度快, 适用于摄像机静 止的场景, 并需要得到当前场景的静止背景图像。具体步骤为 : 0034 1) 获得当前场景中不包含目标对象的静止背景图像 B ; 0035 2) 将当前帧 ( 即第 k 帧 ) 图像 fk(x,y) 与背景图像 B 进行差值运算, 得到差分图 像 Ck(x,y), 。

16、0036 Ck(x,y) |fk(x,y)-B|。 0037 3) 对上述差分图像 Ck(x,y) 进行二值化, 得到二值化图像 Rk(x,y), 其中阈值 T3可 以根据实际情况来设定, 在本实验中设置 T3 30。具体实现时, 本发明实施例对此不做限 制。 0038 0039 4) 对二值化图像 Rk(x,y) 进行形态学滤波方法, 并通过连通性分析, 最终检测和 分割出第一人体区域外接矩形, 同时提取深度图像序列上相应位置的第二人体区域外接矩 形。 0040 其中, 提取出的二值化图像 Rk(x,y) 可能会出现空洞、 毛刺等现象, 采用参考文献 3中提出的形态学滤波方法, 可以消除孤立。

17、噪声点并修复目标区域的空洞。 再经过连通性 分析, 最终检测和分割出人体区域外接矩形, 同时提取深度图像序列上相应位置的人体区 域外接矩形。 0041 103 : 在第一、 第二人体区域外接矩形上分别提取人体动作特征, 得到 RGB 模态和 深度模态下的特征向量 ; 0042 人体动作特征有多种提取和表示方法, 常见的有梯度方向直方图特征 (Histograms of Oriented Gradients,HOG)、 光流直方图特征 (Histogram of Optical Flows,HOF)、 局部二值模式 (Local Binary Patterns,LBP) 等。不失一般性的, 本方。

18、法使用 说 明 书 CN 104156693 A 5 4/6 页 6 参考文献 4 中提出的 LBP 特征来描述人体动作视觉特征。具体提取方法如下 : 0043 LBP 是一种用来描述图像局部纹理特征的算子。LBP 算子定义如下, 在 3*3 像素的 窗口内, 以窗口中心像素为阈值, 将相邻的 8 个像素的灰度值与其进行比较, 若相邻的 8 个 像素的像素值大于中心像素值, 则该像素点的位置被标记为 1, 否则为 0。用公式可以表示 为 : 0044 0045 其中, I(X0) 表示 X0点处的像素灰度值, I(Xi),i 1,2,., 8 表示 Xi点处的像素 灰度值。其中阈值 T4可以根。

19、据实际情况来设定, 在本实验中设置 T4 0。具体实现时, 本 发明实施例对此不做限制。 0046 按照一定的顺序将上述得到的二值化结果组成一个 8 位的二进制数, 再转化为一 个十进制整数, 即为此中心像素点的 LBP 值, 如图 2 所示。将整个图像逐行扫描后, 可以得 到 LBP 响应图像, 这个图像的直方图即为 LBP 特征。将第一、 第二人体区域外接矩形分别执 行上述操作, 最终分别得到图像的 RGB-LBP(RGB 图像的局部二值模式 ) 和 D-LBP( 深度图像 的局部二值模式 ) 特征向量。 0047 104 : 根据步骤 103 中得到的 RGB-LBP、 D-LBP 特征。

20、向量序列, 以及步骤 101 中得到 的骨架特征序列, 通过多视角判别模型来进行动作识别。 0048 传统的特征级融合和决策级融合 5 并不能很好的解决多模态时序信息融合的 问题, 这是由于以下两个原因 : 第一, 尽管 RGB 图像和深度图像有同样的时间标记, 但是并 不完全同步 ; 第二, 决策级融合没有考虑到每个序列的上下文信息。为了解决这个问题, 本 方法采用参考文献 6 提出的耦合的多视角判别模型进行多模态序列融合问题的研究, 其 图模型结构如图 3 所示。 0049 多视角判别模型是一种视角融合和动作识别的时序模型, 在本实验中, 将多种模 态的特征向量序列分别输入到此模型中, 进。

21、行多模态融合和模型学习, 进行动作识别。 0050 (1) 多视角判别模型的表示 : 0051 设每个训练样本或测试样本含有 M 个模态的序列 : X x1,x2,.,xm,.,xM, 其 中,是第 m 个模态的观测序列, m 1,2,.,M, T 是观测序列的长 度。M 可以取任意整数, 代表着 M 种模态 ( 例如 : RGB 信息、 深度信息、 骨架信息等 )。 0052 不失一般性的, 选取 RGB 信息、 深度信息和骨架信息三种模态进行实验, 即 M 3。 即为步骤 103 中所提取的 RGB-LBP 和 D-LBP 特征序列、 以及步骤 101 中得到的 骨架特征序列。 0053 。

22、每个 X 都与一个标签 Y 对应, 其中代表着所有动作的种类。 0054 为 了 得 到 观 测 序 列 xm的 特 征,使 用 一 个 隐 状 态 变 量 H h1,h2,.,hm,hm+1.,hM, 其中,是与 xm相对应的隐状态, 是第 m 个模态的有限离散集。同理, 0055 令 G ,p,s 表示一个无向图, 多视角判别模型可看作是其因式分解的条 件概率分布。其中 表示图的顶点, p,s表示图的两条边, 其中 p代表着每个视角的 说 明 书 CN 104156693 A 6 5/6 页 7 时间上下文关系, s代表着不同视角之间的联系。 0056 多视角判别模型的条件概率模型可以表示。

23、为 : 0057 0058 其中, X 是观测序列, Y 是序列标记, H 是隐状态变量, 是权重向量且 1,2, 1和 2表示权重, T 表示转置, (Y,X,H) 是特征函数, 表示由图模型中节点位 置以及节点之间的关联而决定的序列特征, Z 是归一化的分配函数, 用来进行概率归一化。 0059 引入两个特征函数 fk() 及 gk(), 特征函数 (Y,X,H) 可表示为 : 0060 0061 其中, p s是观测序列, 1kfk() 表示由一个隐状态变量决定的特 征函数, 2kgk( ) 代表由一对隐状态变量决定的特征函数。k 是序列标记集合 的任意元素, 表示待比较的标记。1,k是。

24、模型参数向量 1的一维, 下标表示该 1,k对应 序列类别标记为 Y 时的权重。2,k是模型参数向量 2的一维, 下标表示该 2,k对应序列 类别标记为 Y 时的权重。 0062 (2) 多视角判别模型的学习 : 0063 为了寻找最优参数 , 根据条件似然准则, 目标函数可以定义为 : 0064 0065 其中, Xi表示观测样例, Yi表示观测样例真实的标注。使得上式取得最小值的 值, 即是最优参数 。 0066 该问题可以参考非凸正则束方法 7 进行求解。 0067 (3) 多视角判别模型的判断 : 0068 在多视角判别模型参数已经确定之后, 可以判断观测序列X的分类最优标记Y*, 确。

25、 定动作类别。具体实现公式如下 : 0069 0070 即Y*是能使函数p(Y|X ; *)取得最大值的参数值, 具体可参考文献8中的动态 规划算法。 0071 通过将多视角判别模型应用于多种模态序列融合的动作识别问题中, 可以有效提 高动作识别的准确率。 0072 参考文献 0073 1Lin,H.C.,Wang,L.L.,&Yang,S.N.Automatic determination of the spread parameter in Gaussian smoothing,Pattern Recognition Letters,17(12),pp:1247-125 2,1996. 0。

26、074 2Webb J,Ashley J.Beginning Kinect Programming with the Microsoft Kinect SDKM.Apress,2012. 0075 3Comer,Mary L.,and Edward J.Delp,Morphological operations for color 说 明 书 CN 104156693 A 7 6/6 页 8 image processing,Journal of electronic imaging,8(3),pp:279-289,1999. 0076 4Ojala T,Pietikainen M,Maenp。

27、aa T.Multiresolution gray-scale and rotation invariant texture classifi cation with local binary patternsJ.Pattern Analysis and Machine Intelligence,IEEE Transactions on,2002,24(7):971-987. 0077 5L.Wu,S.L.Oviatt and P.R.Cohen,Multimodal integration-a statistical view,IEEE Transactions on Multimedia,。

28、1999. 0078 6Song Y,Morency L,Davis R.Multi-view latent variable discriminative models for action recognitionC.Computer Vision and Pattern Recognition(CVPR),2012IEEE Conference on.IEEE,2012:2120-2127. 0079 7Do T M T,Artires T.Large margin training for hidden markov models with partially observed stat。

29、esC.Proceedings of the26th Annual International Conference on Machine Learning.ACM, 0080 8R Bellman,Dynamic Programming,Princeton,NJ,Princeton University Press,1957. 0081 本领域技术人员可以理解附图只是一个优选实施例的示意图, 上述本发明实施例 序号仅仅为了描述, 不代表实施例的优劣。 0082 以上所述仅为本发明的较佳实施例, 并不用以限制本发明, 凡在本发明的精神和 原则之内, 所作的任何修改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。 说 明 书 CN 104156693 A 8 1/2 页 9 图 1 图 2 说 明 书 附 图 CN 104156693 A 9 2/2 页 10 图 3 说 明 书 附 图 CN 104156693 A 10 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1