一种行人检测方法.pdf

上传人:a3 文档编号:4540986 上传时间:2018-10-18 格式:PDF 页数:14 大小:835.33KB
返回 下载 相关 举报
摘要
申请专利号:

CN201410393335.4

申请日:

2014.08.11

公开号:

CN104166861A

公开日:

2014.11.26

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||专利申请权的转移IPC(主分类):G06K 9/66登记生效日:20170814变更事项:申请人变更前权利人:叶茂变更后权利人:成都六活科技有限责任公司变更事项:地址变更前权利人:610065 四川省成都市锦江区莲桂西路168号1栋4单元5楼15号变更后权利人:610041 四川省成都高新区科园二路1号C楼105号|||实质审查的生效IPC(主分类):G06K 9/66申请日:20140811|||公开

IPC分类号:

G06K9/66; G06K9/46

主分类号:

G06K9/66

申请人:

叶茂

发明人:

叶茂; 王梦伟; 李旭东; 彭明超; 苟群森

地址:

610065 四川省成都市锦江区莲桂西路168号1栋4单元5楼15号

优先权:

专利代理机构:

成都宏顺专利代理事务所(普通合伙) 51227

代理人:

周永宏

PDF下载: PDF下载
内容摘要

一种行人检测方法,包括:准备训练卷积神经网络所需的行人正样本集以及负样本集;对样本集预处理并且归一化为统一尺度,并生成数据文件;设计卷积神经网络的结构,进行训练,获取网络收敛时的权重连接矩阵;对视频进行自适应背景建模,获取每一帧中运动目标的信息,首先对于检测到的运动目标区域进行粗选,排除高度和宽度比值不符合要求的区域,产生候选区域;将每一个候选区域输入到卷积神经网络中,判断是否有行人存在。

权利要求书

1.  一种行人检测方法,其特征在于,包括以下步骤:
步骤S1:准备训练卷积神经网络所需的行人正样本集以及负样本集;
步骤S2:对样本集预处理并且归一化为统一尺度,并生成数据文件;
步骤S3:设计卷积神经网络的结构,进行训练,获取网络收敛时的权重连接矩阵;
步骤S4:对视频进行自适应背景建模,获取每一帧中运动目标的信息,首先对于检测到的运动目标区域进行粗选,排除高度和宽度比值不符合要求的区域,产生候选区域;
所述目标信息包括目标位置和目标大小;
步骤S5:将每一个候选区域输入到卷积神经网络中,判断是否有行人存在。

2.
  根据权利要求1的一种行人检测方法,其特征在于,所述步骤S2包括以下分步骤:
步骤S21:对搜集到的样本进行裁剪,使其边缘区域占比较小;所述占比较小是指行人边缘和样本图像边缘之间的距离较小,一般为5个像素点;
步骤S22:将正样本集标记为1,将负样本集标记为0;
步骤S23:将样本文件进行随机打包,提取每一幅图片的R、G、B像素数值,保存为数据文件;所述R表示红色,所述G表示绿色,所述B表示蓝色。

3.
  根据权利要求1的一种行人检测方法,其特征在于,所述步骤S3设计卷积神经网络的结构具体包括以下分步骤:
步骤S31:设计一个具有两层卷积操作层、两层池化操作层、一层全连接层、一层soft max分类器、一层逻辑回归对象层的卷积神经网络;
步骤S32:各个神经元的激活函数采用f(x)=max(0,x)代替传统的sigmoid函数和正弦双曲函数加快网络收敛速度;
步骤S33:每一次迭代取一个数据,然后以128个样本为单位利用BP算法对卷积神经网络进行训练,直到网络达到收敛;
所述迭代过程中每一个样本对应着图像处理器GPU中的每一个线程。

4.
  根据权利要求3的一种行人检测方法,其特征在于,步骤S3所述训练包括以下分步骤:
步骤31’:初始化卷积神经网络的所有权重;
步骤32’:通过将每一个训练样本输入到网络模型中计算实际的网络输出;
步骤33’:计算网络实际输出和样本期望输出的差作为网络模型的误差;
步骤34’:按照极小化误差的方法反向依次调整各层的权值矩阵,循环执行步骤32’、步骤33’、步骤34’直到网络达到收敛。

5.
  根据权利要求1的一种行人检测方法,其特征在于,所述步骤S4具体包括以下分步骤:
步骤S41:根据视频中的每一帧图像进行背景更新;
步骤S42:对视频中的每一帧图像利用自适应背景更新方法进行建模,获取所有可能的候选运动目标区域;
步骤S43:根据检测到的运动目标区域的宽高比排除不符合要求的区域:a<(h/w)<b;
其中,a、b为预先设定的阈值,h、w分别是目标区域的高度和宽度;
步骤S44:将获取的候选区域信息存到向量中。

6.
  根据权利要求5的一种行人检测方法,其特征在于,所述自适应背景更新模型公式:Bn+1(x,y)=αBn(x,y)+(1-α)In(x,y);
其中,Bn+1(x,y)、Bn(x,y)分别代表时刻n+1、n位置(x,y)处背景的像素值,In(x,y)代表时刻n位置(x,y)处图像像素数值,α为预先设定的阈值,且0<α<1。

7.
  根据权利要求1的一种行人检测方法,其特征在于,所述步骤S5中包括对向量中的每一个成员利用步骤S3构建好的的卷积神经网络模型进行特征提取,利用soft max分类器进行目标分类,进而检测行人是否存在。

8.
  根据权利要求1的一种行人检测方法,其特征在于,所述步骤S2尺度为64*128像素。

说明书

一种行人检测方法
技术领域
本发明属于计算机视觉和模式识别领域,具体涉及一种适用于智能视频监控的行人检测方法。
背景技术
智能视频监控技术是计算机视觉领域近年来新兴的一个研究方向,它是一种基于机器学习和人工智能的计算机视觉技术,以视频场景中的行人、车辆等运动物体为主要研究分析对象。在智能视频监控研究领域,关于行人的检测技术的研究备受行业的关注。
在安全和法律方面,智能视频监控系统通过对从监控摄像机传来的监控场景的视频信息进行处理分析,对场景中可疑的人和事件进行预警,从而阻止犯罪、群体性事件的发生,以保障人民群众的生命和财产安全;在交通应用上,智能视频监控系统通过分析交通监控视频监测交通中行人的违法或不安全行为,根据实时交通状况合理分配警力,达到效率最大化;在商业活动中,智能视频监控系统可以实时统计各购物场所和娱乐场所人数,监视公众场合中行人的阻塞情况和拥挤程度,控制人群密度,以免发生踩踏事件;在军事上的应用包括测量冲突地区的难民流入流量,监视和平谈判,和军事基地是否存在异常人员。在针对行人的视频监控场景中,人是活动主体,所以监控系统必须能实时地检测出行人;在出现行人姿势变换,人和环境遮挡,光照变化等情况时,也应该能正常工作。
国外在行人检测方面的研究工作开展得较早,主要研究内容包括行人分类技术、行人识别技术、行人跟踪技术、行人意图分析与预测、人车碰撞机理研究等。这些研究单位主要使用机器视觉算法和传感器结合的方式来进行行人检测与识别。目前国外行人检测所使用的主流方法仍然是计算机视觉算法和传感器结合。与国外相比存在明显的差距,我国目前针对行人安全检测的研究大多集中在运动行人的检测和跟踪方面,且实验场景大都比较理想,对复杂环境和混合交通下的行人检测还没取得实时性、鲁棒性、高效性都比较好的算法。在行人检测的技术方法上,国内普遍采用基于单目视觉的方法,利用人体边缘、纹理、形状等特征建立模板并综合运用支持向量机、级联分类器这些机器学习方法。
现有的基于模式识别的行人检测技术在产生具有较高鲁棒性的行人检测器 上主要面临四大问题:1)从特定的场景下提取该场景下行人样本,需逐一地手工裁切出行人样本,需花费大量的时间等;2)如除去1)所述问题,使用国内外开源的行人样本库产生得到的行人检测器只具备普适性,无法在特定场景下获得理想的效果;3)对于现代生活中较为丰富的视频场景,怎样才能获得适应于各类场景而且据又能高效鲁棒的行人检测器;4)大部分行人识别方法没有充分利用行人特征,只是使用部分特征进行检测,不能够保证高效性。
CN102043953A公开了一种针对特定场景下行人检测的方法,通过利用特定背景下的行人图像对SVM行人分类器进行训练,主要利用了行人的头肩梯度直方图特征和局部二值化模型特征,然后对利用背景差分模型获取的候选窗口进行检测获取行人的存在与否。
该发明但实际上该发明具有以下三个缺点:1)该专利利用的背景差分模型获取候选检测窗口过程中,并没有对背景进行实时更新,只是选取视频中没有行人的第一帧视频帧作为背景,当场景有较大变化时不能够保证鲁棒性;2)训练SVM行人分类器时并没有充分利用行人的特征,只是利用了头肩这一个整体性特征,没有利用行人的整个轮廓像素信息,使得该方法无法适用于多个场景,特征提取不够充分,训练时没有充分利用已有样本,准确性无法保证;3)SVM分类器对于样本线性可分的情况效果较好,但是对于样本线性不可分的情况就不够理想,而且SVM对于大规模的训练样本无法实施。
CN103324955A公开了一种基于视频处理的行人检测方法,通过对背景建模、筛选前景,确定候选行人区域,提取候选区域的HOG特征,然后利用行人SVM分类器对其进行分类。
该发明实际上该发明是行人检测领域内一种公认的基础方法:基于HOG+SVM行人分类方法。但是由于提取HOG特征时要进行图像的灰度化操作,并没有较好地利用图像的RGB像素信息,另外该发明也不适用于多场景下行人检测。
发明内容
本发明针对现有行人检测方法的不足进行改进,以产生适应于场景多变的鲁棒、高效的行人检测器,提出了一种行人检测方法。
本发明的方案具体包括以下步骤:
步骤S1:准备训练卷积神经网络所需的行人正样本集以及负样本集;
步骤S2:对样本集预处理并且归一化为统一尺度,并生成数据文件;
步骤S3:设计卷积神经网络的结构,进行训练,获取网络收敛时的权重连接矩阵;
步骤S4:对视频进行自适应背景建模,获取每一帧中运动目标的信息,首先对于检测到的运动目标区域进行粗选,排除高度和宽度比值不符合要求的区域,产生候选区域;
步骤S5:将每一个候选区域输入到卷积神经网络中,判断是否有行人存在;
进一步地,所述目标信息包括目标位置和目标大小。
本发明提出了一种行人检测方法,具体采用自适应背景差分方法对运动目标进行检测,实时更新背景模型;训练时采用三通道的整个行人RGB彩色图像作为样本,充分利用行人样本的轮廓等信息;使用卷积神经网络代替传统的特征提取、特征分类过程,利用soft max分类器判断是否有行人存在;其中自适应背景差分建模保证了获取运动目标区域的准确性,通过筛选降低目标区域的冗余度,进而保证了检测过程的高效性。
附图说明
图1为现有技术的训练流程图。
图2为现有技术的行人检测流程图。
图3为卷积神经网络训练流程图。
图4为基于卷积神经网络的视频中行人检测流程图。
图5为卷积神经网络结构。
图6是利用自适应背景差分模型检测到的背景。
图7是根据背景进行建模获取的前景图像。
图8是视频中行人检测的效果图。
具体实施方式
本发明实施例提出了一种行人检测方法,如图3所示,包括以下步骤:
步骤S1:准备训练卷积神经网络所需的行人正样本集P(包含正面、侧面、背面)、负样本集N,收集的是行业内公开并公认的效果良好且姿态丰富的正、 负样本数据集和一些监控视频中的行人样本;
步骤S2:对样本集预处理并且归一化为统一尺度,并生成数据文件,用于卷积神经网络的训练;所述尺度为64*128像素;
步骤S3:设计卷积神经网络的结构,进行训练,获取网络收敛时的权重连接矩阵W,用于以后的检测过程;
步骤S4:对视频进行自适应背景建模,获取每一帧中运动目标的信息,首先对于检测到的运动目标区域进行粗选,排除高度h和宽度w比值不符合要求的区域,产生候选区域;所述目标信息包括目标位置和目标大小;所述不符合要求的区域指不在制定宽高比范围内的区域,在步骤S43中具体说明;
步骤S5:将每一个候选区域输入到卷积神经网络中,判断是否有行人存在。
根据本发明进一步的实施例:
上述步骤S1:中包括:搜集的行人样本是多姿态、多光照变化、多背景变化条件下的,充分保证了样本的多样性;
上述步骤S2:中包括:
步骤S21:对搜集到的样本进行裁剪,使其边缘区域占比较小,所述占比较小是指行人边缘和样本图像边缘之间的距离较小,一般为5个像素点;
步骤S22:将正样本集P标记为1,将负样本集N标记为0;
步骤S23:将样本文件进行随机打包,提取每一幅图片的R、G、B像素数值,保存为数据文件用于卷积神经网络训练,所述R表示红色,所述G表示绿色,所述B表示蓝色;为了保证卷积神经网络训练时,网络能够较好的收敛,经过每一次训练过程(由于训练时是依次去取每一个batch样本)误差都能够减少,所以对样本进行随机打包,分为6个数据batch,依次循环取这6个数据batch进行训练,直到收敛
上述步骤S3中包括:
步骤S31:设计一个具有两层卷积操作层、两层池化操作层、一层全连接层、一层soft max分类器、一层逻辑回归对象层的卷积神经网络;
步骤S32:各个神经元的激活函数采用f(x)=max(0,x)代替传统的sigmoid 函数和正弦双曲函数加快网络收敛速度;传统的神经元激活函数主要分为三种:线性函数(f(x)=x)、sigmoid函数和正弦双曲函数,本发明所采用的神经元的激活函数f(x)=max(0,x)是改进的分段线性函数;
步骤S33:每一次迭代取一个数据batch,然后以128个样本为单位利用BP算法对卷积神经网络进行训练(迭代过程中每一个样本对应着图像处理器GPU中的每一个线程),直到网络达到收敛。
上述步骤S4中包括:
步骤S41:根据视频中的每一帧图像进行背景更新,以期对运动目标检测能够取得较好效果;
步骤S42:对视频中的每一帧图像利用自适应背景更新方法进行建模,获取所有可能的候选运动目标区域;
步骤S43:根据检测到的运动目标区域的宽高比排除不合要求的区域,a<(h/w)<b,其中,a、b为预先设定的阈值,h、w分别是目标区域的高度和宽度;
步骤S44:将获取的候选区域信息存到向量中,用于步骤S5进行检测,所述向量是指一个保存候选区域信息的全局变量。
上述步骤S5中包括对向量中的每一个成员利用步骤S3构建好的的卷积神经网络模型进行特征提取,利用soft max分类器进行目标分类,进而检测行人存在与否。
根据本发明的更进一步的实施例:
上述步骤S3中通过对卷积神经网络进行训练得到卷积神经网络行人检测器。卷积神经网络的权值共享网络结构使得它最相似于生物神经元,降低了网络模型的连接复杂度,减少了权值数目,一定程度上提高了模型运算速度。另一方面卷积神经网络可以直接使用图片进行输入,避免了传统的识别方法复杂的特征提取和数据重建过程。卷积神经网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的形变具有高度不变性。
其训练步骤如下:
步骤31’:初始化卷积神经网络的所有权重W;
步骤32’:前向传播过程:通过将每一个训练样本输入到网络模型中计算实际的网络输出;
步骤33’:计算网络实际输出和样本期望输出的差作为网络模型的误差;
步骤34’:按照极小化误差的方法反向依次调整各层的权值矩阵。
循环执行步骤32’、步骤33’、步骤34’直到网络达到收敛。
上述步骤S4中自适应背景差分建模。背景差分建模法,就是将每个输入视频帧和背景图像相比较,如果相同位置的像素特征、像素区域特征或其他特征的差别大于预先设定的阀值,则新视频帧中这些位置的像素点或像素区域就构成前景运动目标区域,若对这些前景像素点做进一步处理,即可得到运动目标位置、大小、形状等信息,以便进行目标检测。
本实施例中具体使用的是基于自适应更新模型进行建模:
Bn+1(x,y)=αBn(x,y)+(1-α)In(x,y);
其中,Bn+1(x,y)、Bn(x,y)分别代表时刻n+1、n位置(x,y)处背景的像素值,In(x,y)代表时刻n位置(x,y)处图像像素数值,α为预先设定的系数,具体取值范围为:0<α<1,即是根据输入的每一个视频帧对原背景图像进行更新,充分保证背景的适应性,特别是在监控区域光照变化强烈时表现出较好效果。
下面详细描述本发明的实施例,所述实施例是基于已实例化的工程项目进行阐述,相关实例图表在附图中示出。
如图3中,对于卷积神经网络的训练,准备的正样本集P包含4万张行人图像,负样本集N包含4万张非行人图像,行人边缘和图像边缘之间一般不超过5个像素点,正负样本集内的图像均归一化为64*128像素。
实例化所使用的卷积神经网络结构:具有两层卷积层(conv1、conv2)、两层池化操作层(pool1、pool2)、一层全连接(fc)、一层soft max分类器层、一层逻辑回归层(用于计算网络输出和样本期望输出的差值),网络结构如图5所示。
其中,conv1层有12个卷积核,每一个卷积核为3×3大小,conv1和输入行 人样本之间全连接,每一个卷积核分别对应输入样本的R、G、B通道图像。conv2层有16个卷积核,每一个卷积核大小为3×3,conv2层与pool1层之间连接方式也为全连接。pool1层、pool2层池化窗口大小为2×2,步长为2。
网络收敛后,使用1560张归一化过的正样本测试图片进行测试,误报的为8张;使用1135张归一化的负行人样本图片进行测试,误报的为7张。
实施例详细步骤如图4所示,首先取视频中的如图6所示的第一帧作为背景,然后取视频中的第二帧,利用自适应背景差分模型对背景建模,获取前景信息如图7所示,得到运动物体的轮廓信息,利用运动物体的区域大小信息筛选排除部分区域,然后对候选区域进行采样输入到卷积神经网络中,获取分类器分类结果,依次检测每一帧图像直到视频帧读取完毕,视频中行人检测的效果图如图8所示。实际上卷积神经网络检测时较为耗时(实施中所用模型为300ms),为了提高检测的速度,由于行人的高度和宽度在一定范围内,先用这一先验知识对自适应背景差分模型获取的运动目标区域进行筛选排除一部分候选区域,得到较优检测区域用于检测。另外,由于检测每一帧时都会对当前帧的背景进行更新,所以当视频场景变化较大时该方法仍然具有较好的鲁棒性。
本发明提出了一种行人检测方法,通过对视频中的每一帧图像进行自适应背景差分建模、筛选候选区域以获取最终候选区域,最后通过对候选区域进行卷积神经网络行人检测器计算,判断出行人的存在与否。其中自适应背景差分建模保证了获取运动目标区域的准确性,通过筛选降低目标区域的冗余度,进而保证了检测过程的高效性。本发明在工程应用上展现了良好的效果,针对卷积神经网络训练收敛较慢的问题,在卷积神经网络训练过程中我们对神经元激活函数进行改进,用激活函数f(x)=max(0,x),为已知的神经网络中的神经元激活函数,代替传统的sigmoid函数,并且在GPU上进行训练,极大地提高了卷积神经网络的收敛速度。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权 利要求范围之内。

一种行人检测方法.pdf_第1页
第1页 / 共14页
一种行人检测方法.pdf_第2页
第2页 / 共14页
一种行人检测方法.pdf_第3页
第3页 / 共14页
点击查看更多>>
资源描述

《一种行人检测方法.pdf》由会员分享,可在线阅读,更多相关《一种行人检测方法.pdf(14页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 104166861 A (43)申请公布日 2014.11.26 CN 104166861 A (21)申请号 201410393335.4 (22)申请日 2014.08.11 G06K 9/66(2006.01) G06K 9/46(2006.01) (71)申请人 叶茂 地址 610065 四川省成都市锦江区莲桂西路 168 号 1 栋 4 单元 5 楼 15 号 (72)发明人 叶茂 王梦伟 李旭东 彭明超 苟群森 (74)专利代理机构 成都宏顺专利代理事务所 ( 普通合伙 ) 51227 代理人 周永宏 (54) 发明名称 一种行人检测方法 (57) 摘要 。

2、一种行人检测方法, 包括 : 准备训练卷积神经 网络所需的行人正样本集以及负样本集 ; 对样本 集预处理并且归一化为统一尺度, 并生成数据文 件 ; 设计卷积神经网络的结构, 进行训练, 获取网 络收敛时的权重连接矩阵 ; 对视频进行自适应背 景建模, 获取每一帧中运动目标的信息, 首先对于 检测到的运动目标区域进行粗选, 排除高度和宽 度比值不符合要求的区域, 产生候选区域 ; 将每 一个候选区域输入到卷积神经网络中, 判断是否 有行人存在。 (51)Int.Cl. 权利要求书 2 页 说明书 5 页 附图 6 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 。

3、说明书5页 附图6页 (10)申请公布号 CN 104166861 A CN 104166861 A 1/2 页 2 1. 一种行人检测方法, 其特征在于, 包括以下步骤 : 步骤 S1 : 准备训练卷积神经网络所需的行人正样本集以及负样本集 ; 步骤 S2 : 对样本集预处理并且归一化为统一尺度, 并生成数据文件 ; 步骤 S3 : 设计卷积神经网络的结构, 进行训练, 获取网络收敛时的权重连接矩阵 ; 步骤 S4 : 对视频进行自适应背景建模, 获取每一帧中运动目标的信息, 首先对于检测 到的运动目标区域进行粗选, 排除高度和宽度比值不符合要求的区域, 产生候选区域 ; 所述目标信息包括目。

4、标位置和目标大小 ; 步骤 S5 : 将每一个候选区域输入到卷积神经网络中, 判断是否有行人存在。 2. 根据权利要求 1 的一种行人检测方法, 其特征在于, 所述步骤 S2 包括以下分步骤 : 步骤 S21 : 对搜集到的样本进行裁剪, 使其边缘区域占比较小 ; 所述占比较小是指行人 边缘和样本图像边缘之间的距离较小, 一般为 5 个像素点 ; 步骤 S22 : 将正样本集标记为 1, 将负样本集标记为 0 ; 步骤 S23 : 将样本文件进行随机打包, 提取每一幅图片的 R、 G、 B 像素数值, 保存为数据 文件 ; 所述 R 表示红色, 所述 G 表示绿色, 所述 B 表示蓝色。 3.。

5、 根据权利要求 1 的一种行人检测方法, 其特征在于, 所述步骤 S3 设计卷积神经网络 的结构具体包括以下分步骤 : 步骤 S31 : 设计一个具有两层卷积操作层、 两层池化操作层、 一层全连接层、 一层 soft max 分类器、 一层逻辑回归对象层的卷积神经网络 ; 步骤 S32 : 各个神经元的激活函数采用 f(x) max(0,x) 代替传统的 sigmoid 函数和 正弦双曲函数加快网络收敛速度 ; 步骤 S33 : 每一次迭代取一个数据, 然后以 128 个样本为单位利用 BP 算法对卷积神经 网络进行训练, 直到网络达到收敛 ; 所述迭代过程中每一个样本对应着图像处理器 GPU。

6、 中的每一个线程。 4. 根据权利要求 3 的一种行人检测方法, 其特征在于, 步骤 S3 所述训练包括以下分步 骤 : 步骤 31 : 初始化卷积神经网络的所有权重 ; 步骤 32 : 通过将每一个训练样本输入到网络模型中计算实际的网络输出 ; 步骤 33 : 计算网络实际输出和样本期望输出的差作为网络模型的误差 ; 步骤34 : 按照极小化误差的方法反向依次调整各层的权值矩阵, 循环执行步骤32 、 步 骤 33 、 步骤 34 直到网络达到收敛。 5. 根据权利要求 1 的一种行人检测方法, 其特征在于, 所述步骤 S4 具体包括以下分步 骤 : 步骤 S41 : 根据视频中的每一帧图像。

7、进行背景更新 ; 步骤 S42 : 对视频中的每一帧图像利用自适应背景更新方法进行建模, 获取所有可能 的候选运动目标区域 ; 步骤 S43 : 根据检测到的运动目标区域的宽高比排除不符合要求的区域 : a(h/w)b ; 其中, a、 b 为预先设定的阈值, h、 w 分别是目标区域的高度和宽度 ; 步骤 S44 : 将获取的候选区域信息存到向量中。 6. 根据权利要求 5 的一种行人检测方法, 其特征在于, 所述自适应背景更新模型公式 : 权 利 要 求 书 CN 104166861 A 2 2/2 页 3 Bn+1(x,y) Bn(x,y)+(1-)In(x,y) ; 其中, Bn+1(。

8、x,y)、 Bn(x,y) 分别代表时刻 n+1、 n 位置 (x,y) 处背景的像素值, In(x,y) 代 表时刻 n 位置 (x,y) 处图像像素数值, 为预先设定的阈值, 且 01。 7. 根据权利要求 1 的一种行人检测方法, 其特征在于, 所述步骤 S5 中包括对向量中的 每一个成员利用步骤 S3 构建好的的卷积神经网络模型进行特征提取, 利用 soft max 分类 器进行目标分类, 进而检测行人是否存在。 8. 根据权利要求 1 的一种行人检测方法, 其特征在于, 所述步骤 S2 尺度为 64*128 像 素。 权 利 要 求 书 CN 104166861 A 3 1/5 页 。

9、4 一种行人检测方法 技术领域 0001 本发明属于计算机视觉和模式识别领域, 具体涉及一种适用于智能视频监控的行 人检测方法。 背景技术 0002 智能视频监控技术是计算机视觉领域近年来新兴的一个研究方向, 它是一种基于 机器学习和人工智能的计算机视觉技术, 以视频场景中的行人、 车辆等运动物体为主要研 究分析对象。在智能视频监控研究领域, 关于行人的检测技术的研究备受行业的关注。 0003 在安全和法律方面, 智能视频监控系统通过对从监控摄像机传来的监控场景的视 频信息进行处理分析, 对场景中可疑的人和事件进行预警, 从而阻止犯罪、 群体性事件的发 生, 以保障人民群众的生命和财产安全 ;。

10、 在交通应用上, 智能视频监控系统通过分析交通监 控视频监测交通中行人的违法或不安全行为, 根据实时交通状况合理分配警力, 达到效率 最大化 ; 在商业活动中, 智能视频监控系统可以实时统计各购物场所和娱乐场所人数, 监视 公众场合中行人的阻塞情况和拥挤程度, 控制人群密度, 以免发生踩踏事件 ; 在军事上的应 用包括测量冲突地区的难民流入流量, 监视和平谈判, 和军事基地是否存在异常人员。 在针 对行人的视频监控场景中, 人是活动主体, 所以监控系统必须能实时地检测出行人 ; 在出现 行人姿势变换, 人和环境遮挡, 光照变化等情况时, 也应该能正常工作。 0004 国外在行人检测方面的研究工。

11、作开展得较早, 主要研究内容包括行人分类技术、 行人识别技术、 行人跟踪技术、 行人意图分析与预测、 人车碰撞机理研究等。这些研究单位 主要使用机器视觉算法和传感器结合的方式来进行行人检测与识别。 目前国外行人检测所 使用的主流方法仍然是计算机视觉算法和传感器结合。与国外相比存在明显的差距, 我国 目前针对行人安全检测的研究大多集中在运动行人的检测和跟踪方面, 且实验场景大都比 较理想, 对复杂环境和混合交通下的行人检测还没取得实时性、 鲁棒性、 高效性都比较好的 算法。 在行人检测的技术方法上, 国内普遍采用基于单目视觉的方法, 利用人体边缘、 纹理、 形状等特征建立模板并综合运用支持向量机。

12、、 级联分类器这些机器学习方法。 0005 现有的基于模式识别的行人检测技术在产生具有较高鲁棒性的行人检测器上主 要面临四大问题 : 1) 从特定的场景下提取该场景下行人样本, 需逐一地手工裁切出行人样 本, 需花费大量的时间等 ; 2) 如除去 1) 所述问题, 使用国内外开源的行人样本库产生得到 的行人检测器只具备普适性, 无法在特定场景下获得理想的效果 ; 3) 对于现代生活中较为 丰富的视频场景, 怎样才能获得适应于各类场景而且据又能高效鲁棒的行人检测器 ; 4) 大 部分行人识别方法没有充分利用行人特征, 只是使用部分特征进行检测, 不能够保证高效 性。 0006 CN1020439。

13、53A 公开了一种针对特定场景下行人检测的方法, 通过利用特定背景下 的行人图像对 SVM 行人分类器进行训练, 主要利用了行人的头肩梯度直方图特征和局部二 值化模型特征, 然后对利用背景差分模型获取的候选窗口进行检测获取行人的存在与否。 0007 该发明但实际上该发明具有以下三个缺点 : 1) 该专利利用的背景差分模型获取 说 明 书 CN 104166861 A 4 2/5 页 5 候选检测窗口过程中, 并没有对背景进行实时更新, 只是选取视频中没有行人的第一帧视 频帧作为背景, 当场景有较大变化时不能够保证鲁棒性 ; 2) 训练 SVM 行人分类器时并没有 充分利用行人的特征, 只是利用。

14、了头肩这一个整体性特征, 没有利用行人的整个轮廓像素 信息, 使得该方法无法适用于多个场景, 特征提取不够充分, 训练时没有充分利用已有样 本, 准确性无法保证 ; 3)SVM 分类器对于样本线性可分的情况效果较好, 但是对于样本线性 不可分的情况就不够理想, 而且 SVM 对于大规模的训练样本无法实施。 0008 CN103324955A 公开了一种基于视频处理的行人检测方法, 通过对背景建模、 筛选 前景, 确定候选行人区域, 提取候选区域的 HOG 特征, 然后利用行人 SVM 分类器对其进行分 类。 0009 该发明实际上该发明是行人检测领域内一种公认的基础方法 : 基于 HOG+SV。

15、M 行人 分类方法。但是由于提取 HOG 特征时要进行图像的灰度化操作, 并没有较好地利用图像的 RGB 像素信息, 另外该发明也不适用于多场景下行人检测。 发明内容 0010 本发明针对现有行人检测方法的不足进行改进, 以产生适应于场景多变的鲁棒、 高效的行人检测器, 提出了一种行人检测方法。 0011 本发明的方案具体包括以下步骤 : 0012 步骤 S1 : 准备训练卷积神经网络所需的行人正样本集以及负样本集 ; 0013 步骤 S2 : 对样本集预处理并且归一化为统一尺度, 并生成数据文件 ; 0014 步骤 S3 : 设计卷积神经网络的结构, 进行训练, 获取网络收敛时的权重连接矩阵。

16、 ; 0015 步骤 S4 : 对视频进行自适应背景建模, 获取每一帧中运动目标的信息, 首先对于 检测到的运动目标区域进行粗选, 排除高度和宽度比值不符合要求的区域, 产生候选区 域 ; 0016 步骤 S5 : 将每一个候选区域输入到卷积神经网络中, 判断是否有行人存在 ; 0017 进一步地, 所述目标信息包括目标位置和目标大小。 0018 本发明提出了一种行人检测方法, 具体采用自适应背景差分方法对运动目标进行 检测, 实时更新背景模型 ; 训练时采用三通道的整个行人 RGB 彩色图像作为样本, 充分利用 行人样本的轮廓等信息 ; 使用卷积神经网络代替传统的特征提取、 特征分类过程, 。

17、利用soft max 分类器判断是否有行人存在 ; 其中自适应背景差分建模保证了获取运动目标区域的准 确性, 通过筛选降低目标区域的冗余度, 进而保证了检测过程的高效性。 附图说明 0019 图 1 为现有技术的训练流程图。 0020 图 2 为现有技术的行人检测流程图。 0021 图 3 为卷积神经网络训练流程图。 0022 图 4 为基于卷积神经网络的视频中行人检测流程图。 0023 图 5 为卷积神经网络结构。 0024 图 6 是利用自适应背景差分模型检测到的背景。 0025 图 7 是根据背景进行建模获取的前景图像。 说 明 书 CN 104166861 A 5 3/5 页 6 00。

18、26 图 8 是视频中行人检测的效果图。 具体实施方式 0027 本发明实施例提出了一种行人检测方法, 如图 3 所示, 包括以下步骤 : 0028 步骤 S1 : 准备训练卷积神经网络所需的行人正样本集 P( 包含正面、 侧面、 背面 )、 负样本集 N, 收集的是行业内公开并公认的效果良好且姿态丰富的正、 负样本数据集和一些 监控视频中的行人样本 ; 0029 步骤 S2 : 对样本集预处理并且归一化为统一尺度, 并生成数据文件, 用于卷积神 经网络的训练 ; 所述尺度为 64*128 像素 ; 0030 步骤 S3 : 设计卷积神经网络的结构, 进行训练, 获取网络收敛时的权重连接矩阵 。

19、W, 用于以后的检测过程 ; 0031 步骤 S4 : 对视频进行自适应背景建模, 获取每一帧中运动目标的信息, 首先对于 检测到的运动目标区域进行粗选, 排除高度h和宽度w比值不符合要求的区域, 产生候选区 域 ; 所述目标信息包括目标位置和目标大小 ; 所述不符合要求的区域指不在制定宽高比范 围内的区域, 在步骤 S43 中具体说明 ; 0032 步骤 S5 : 将每一个候选区域输入到卷积神经网络中, 判断是否有行人存在。 0033 根据本发明进一步的实施例 : 0034 上述步骤 S1 : 中包括 : 搜集的行人样本是多姿态、 多光照变化、 多背景变化条件下 的, 充分保证了样本的多样性。

20、 ; 0035 上述步骤 S2 : 中包括 : 0036 步骤 S21 : 对搜集到的样本进行裁剪, 使其边缘区域占比较小, 所述占比较小是指 行人边缘和样本图像边缘之间的距离较小, 一般为 5 个像素点 ; 0037 步骤 S22 : 将正样本集 P 标记为 1, 将负样本集 N 标记为 0 ; 0038 步骤 S23 : 将样本文件进行随机打包, 提取每一幅图片的 R、 G、 B 像素数值, 保存为 数据文件用于卷积神经网络训练, 所述 R 表示红色, 所述 G 表示绿色, 所述 B 表示蓝色 ; 为 了保证卷积神经网络训练时, 网络能够较好的收敛, 经过每一次训练过程 ( 由于训练时是 。

21、依次去取每一个 batch 样本 ) 误差都能够减少, 所以对样本进行随机打包, 分为 6 个数据 batch, 依次循环取这 6 个数据 batch 进行训练, 直到收敛 0039 上述步骤 S3 中包括 : 0040 步骤 S31 : 设计一个具有两层卷积操作层、 两层池化操作层、 一层全连接层、 一层 soft max 分类器、 一层逻辑回归对象层的卷积神经网络 ; 0041 步骤 S32 : 各个神经元的激活函数采用 f(x) max(0,x) 代替传统的 sigmoid 函 数和正弦双曲函数加快网络收敛速度 ; 传统的神经元激活函数主要分为三种 : 线性函数 (f(x) x)、 si。

22、gmoid 函数和正弦双曲函数, 本发明所采用的神经元的激活函数 f(x) max(0,x) 是改进的分段线性函数 ; 0042 步骤S33 : 每一次迭代取一个数据batch, 然后以128个样本为单位利用BP算法对 卷积神经网络进行训练(迭代过程中每一个样本对应着图像处理器GPU中的每一个线程), 直到网络达到收敛。 0043 上述步骤 S4 中包括 : 说 明 书 CN 104166861 A 6 4/5 页 7 0044 步骤 S41 : 根据视频中的每一帧图像进行背景更新, 以期对运动目标检测能够取 得较好效果 ; 0045 步骤 S42 : 对视频中的每一帧图像利用自适应背景更新方。

23、法进行建模, 获取所有 可能的候选运动目标区域 ; 0046 步骤 S43 : 根据检测到的运动目标区域的宽高比排除不合要求的区域, a(h/ w)b, 其中, a、 b 为预先设定的阈值, h、 w 分别是目标区域的高度和宽度 ; 0047 步骤 S44 : 将获取的候选区域信息存到向量中, 用于步骤 S5 进行检测, 所述向量是 指一个保存候选区域信息的全局变量。 0048 上述步骤S5中包括对向量中的每一个成员利用步骤S3构建好的的卷积神经网络 模型进行特征提取, 利用 soft max 分类器进行目标分类, 进而检测行人存在与否。 0049 根据本发明的更进一步的实施例 : 0050 。

24、上述步骤 S3 中通过对卷积神经网络进行训练得到卷积神经网络行人检测器。卷 积神经网络的权值共享网络结构使得它最相似于生物神经元, 降低了网络模型的连接复杂 度, 减少了权值数目, 一定程度上提高了模型运算速度。 另一方面卷积神经网络可以直接使 用图片进行输入, 避免了传统的识别方法复杂的特征提取和数据重建过程。卷积神经网络 是为识别二维形状而特殊设计的一个多层感知器, 这种网络结构对平移、 比例缩放、 倾斜或 者共他形式的形变具有高度不变性。 0051 其训练步骤如下 : 0052 步骤 31 : 初始化卷积神经网络的所有权重 W ; 0053 步骤 32 : 前向传播过程 : 通过将每一个。

25、训练样本输入到网络模型中计算实际的网 络输出 ; 0054 步骤 33 : 计算网络实际输出和样本期望输出的差作为网络模型的误差 ; 0055 步骤 34 : 按照极小化误差的方法反向依次调整各层的权值矩阵。 0056 循环执行步骤 32 、 步骤 33 、 步骤 34 直到网络达到收敛。 0057 上述步骤 S4 中自适应背景差分建模。背景差分建模法, 就是将每个输入视频帧和 背景图像相比较, 如果相同位置的像素特征、 像素区域特征或其他特征的差别大于预先设 定的阀值, 则新视频帧中这些位置的像素点或像素区域就构成前景运动目标区域, 若对这 些前景像素点做进一步处理, 即可得到运动目标位置、。

26、 大小、 形状等信息, 以便进行目标检 测。 0058 本实施例中具体使用的是基于自适应更新模型进行建模 : 0059 Bn+1(x,y) Bn(x,y)+(1-)In(x,y) ; 0060 其中, Bn+1(x,y)、 Bn(x,y)分别代表时刻n+1、 n位置(x,y)处背景的像素值, In(x,y) 代表时刻 n 位置 (x,y) 处图像像素数值, 为预先设定的系数, 具体取值范围为 : 01, 即是根据输入的每一个视频帧对原背景图像进行更新, 充分保证背景的适应性, 特别是在 监控区域光照变化强烈时表现出较好效果。 0061 下面详细描述本发明的实施例, 所述实施例是基于已实例化的工。

27、程项目进行阐 述, 相关实例图表在附图中示出。 0062 如图 3 中, 对于卷积神经网络的训练, 准备的正样本集 P 包含 4 万张行人图像, 负 样本集 N 包含 4 万张非行人图像, 行人边缘和图像边缘之间一般不超过 5 个像素点, 正负样 说 明 书 CN 104166861 A 7 5/5 页 8 本集内的图像均归一化为 64*128 像素。 0063 实例化所使用的卷积神经网络结构 : 具有两层卷积层 (conv1、 conv2)、 两层池化 操作层 (pool1、 pool2)、 一层全连接 (fc)、 一层 soft max 分类器层、 一层逻辑回归层 ( 用于 计算网络输出和。

28、样本期望输出的差值 ), 网络结构如图 5 所示。 0064 其中, conv1 层有 12 个卷积核, 每一个卷积核为 33 大小, conv1 和输入行人样 本之间全连接, 每一个卷积核分别对应输入样本的 R、 G、 B 通道图像。conv2 层有 16 个卷积 核, 每一个卷积核大小为 33, conv2 层与 pool1 层之间连接方式也为全连接。pool1 层、 pool2 层池化窗口大小为 22, 步长为 2。 0065 网络收敛后, 使用1560张归一化过的正样本测试图片进行测试, 误报的为8张 ; 使 用 1135 张归一化的负行人样本图片进行测试, 误报的为 7 张。 006。

29、6 实施例详细步骤如图4所示, 首先取视频中的如图6所示的第一帧作为背景, 然后 取视频中的第二帧, 利用自适应背景差分模型对背景建模, 获取前景信息如图 7 所示, 得到 运动物体的轮廓信息, 利用运动物体的区域大小信息筛选排除部分区域, 然后对候选区域 进行采样输入到卷积神经网络中, 获取分类器分类结果, 依次检测每一帧图像直到视频帧 读取完毕, 视频中行人检测的效果图如图8所示。 实际上卷积神经网络检测时较为耗时(实 施中所用模型为 300ms), 为了提高检测的速度, 由于行人的高度和宽度在一定范围内, 先用 这一先验知识对自适应背景差分模型获取的运动目标区域进行筛选排除一部分候选区域。

30、, 得到较优检测区域用于检测。 另外, 由于检测每一帧时都会对当前帧的背景进行更新, 所以 当视频场景变化较大时该方法仍然具有较好的鲁棒性。 0067 本发明提出了一种行人检测方法, 通过对视频中的每一帧图像进行自适应背景差 分建模、 筛选候选区域以获取最终候选区域, 最后通过对候选区域进行卷积神经网络行人 检测器计算, 判断出行人的存在与否。其中自适应背景差分建模保证了获取运动目标区域 的准确性, 通过筛选降低目标区域的冗余度, 进而保证了检测过程的高效性。 本发明在工程 应用上展现了良好的效果, 针对卷积神经网络训练收敛较慢的问题, 在卷积神经网络训练 过程中我们对神经元激活函数进行改进,。

31、 用激活函数 f(x) max(0,x), 为已知的神经网络 中的神经元激活函数, 代替传统的 sigmoid 函数, 并且在 GPU 上进行训练, 极大地提高了卷 积神经网络的收敛速度。 0068 本领域的普通技术人员将会意识到, 这里所述的实施例是为了帮助读者理解本发 明的原理, 应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领 域的技术人员来说, 本发明可以有各种更改和变化。 凡在本发明的精神和原则之内, 所作的 任何修改、 等同替换、 改进等, 均应包含在本发明的权利要求范围之内。 说 明 书 CN 104166861 A 8 1/6 页 9 图 1 说 明 书 附 图 CN 104166861 A 9 2/6 页 10 图 2 说 明 书 附 图 CN 104166861 A 10 3/6 页 11 图 3 说 明 书 附 图 CN 104166861 A 11 4/6 页 12 图 4 说 明 书 附 图 CN 104166861 A 12 5/6 页 13 图 5 图 6 图 7 说 明 书 附 图 CN 104166861 A 13 6/6 页 14 图 8 说 明 书 附 图 CN 104166861 A 14 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1