基于位熵率的视觉注意计算方法及系统.pdf

上传人:111****112 文档编号:4556542 上传时间:2018-10-20 格式:PDF 页数:12 大小:1.16MB
返回 下载 相关 举报
摘要
申请专利号:

CN200910243706.X

申请日:

2009.12.23

公开号:

CN101751671A

公开日:

2010.06.23

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06T 7/00申请日:20091223|||公开

IPC分类号:

G06T7/00; G06T7/20; G06T7/40

主分类号:

G06T7/00

申请人:

北京大学

发明人:

王亦洲; 王威; 黄庆明; 高文

地址:

100871 北京市海淀区中关村颐和园路5号

优先权:

专利代理机构:

北京市商泰律师事务所 11255

代理人:

麻吉凤;毛燕生

PDF下载: PDF下载
内容摘要

本发明公开了一种基于位熵率的视觉注意计算方法及系统。所述方法包括:学习稀疏码本,获取稀疏码本基函数;采用所述稀疏码本基函数对图像或视频数据进行滤波,获取多个子带特征图;分别为所述每一子带特征图建立对应的全连接图;在所述每一全连接图上采用随机游走的方法进行信息的传递,在随机游走过程中,依据位熵率作进行显著度度量,进而获取每一所述子带特征图对应的位熵率图;将所述多个位熵率图加起来,获取所述图像或视频数据的显著度图。通过了大量的实验证明,无论是在图像显著度分析还是视频显著度分析,基于本发明获取的分析结果都比现有的其他方法更加精确且有生理学、心理学方面的依据来支撑。

权利要求书

1.  一种基于位熵率的视觉注意计算方法,其特征在于,包括如下步骤:
滤波步骤,采用稀疏码本基函数对图像或视频数据进行滤波,获取多个子带特征图,其中所述稀疏码本基函数是基于学习稀疏码本而获取的;
全连接图建立步骤,分别为所述多个子带特征图的每一子带特征图建立对应的全连接图;
位熵率图获取步骤,在每一所述全连接图上采用随机游走的方法进行信息的传递,在随机游走过程中,依据位熵率进行显著度度量,进而获取每一所述子带特征图对应的位熵率图;
显著度图获取步骤,将所述多个位熵率图加起来,获取所述图像或视频数据的显著度图。

2.
  根据权利要求1所述的基于位熵率的视觉注意计算方法,其特征在于,所述位熵率图获取步骤中,所述位熵率用于确定所述每一子带特征图对应的全连接图中,每个节点i到其他节点的平均信息量SERi表示为:
SERi=πiΣj-PijlogPij]]>
其中,πi是随机游走过程的静止概率,Pij是结点i到结点j的转移概率,i、j均为自然数。

3.
  根据权利要求2所述的基于位熵率的视觉注意计算方法,其特征在于,所述显著度图获取步骤中,基于特征整合理论,将所述多个位熵率图加起来,获取所述图像或视频数据的显著度图。

4.
  根据权利要求3所述的基于位熵率的视觉注意计算方法,其特征在于,所述滤波步骤中,采用独立成分分析方法分别为灰度图像和彩色图像学习稀疏码本。

5.
  根据权利要求4所述的基于位熵率的视觉注意计算方法,其特征在于,所述滤波步骤中,采用所述稀疏码本基函数对视频的每一帧进行滤波,获取每一帧的多个子带特征图,第t帧的第j个子带特征图,依据下式更新:
fj(x,y,t)=|fj(x,y,t)-Στ=1kexp(-τσ)fj(x,y,t-τ)|]]>
其中,fj(x,y,t)是更新前的第t帧的第j个子带特征图,f′j(x,y,t)是更新后的第t帧的第j个子带特征图,σ是特征衰减率,σ设置为1.5,利用第t帧之前的k帧来对第t帧进行更新。

6.
  一种基于位熵率的视觉注意计算系统,其特征在于,包括:
滤波模块,用于采用稀疏码本基函数对图像或视频数据进行滤波,获取多个子带特征图,其中所述稀疏码本基函数是基于学习稀疏码本而获取的;
全连接图建立模块,用于分别为所述多个子带特征图的每一子带特征图建立对应的全连接图;
位熵率图获取模块,用于在每一所述全连接图上采用随机游走的方法进行信息的传递,在随机游走过程中,依据位熵率
进行显著度度量,进而获取每一所述子带特征图对应的位熵率图;
显著度图获取模块,用于将所述多个位熵率图加起来,获取所述图像或视频数据的显著度图。

7.
  根据权利要求6所述的基于位熵率的视觉注意计算系统,其特征在于,所述位熵率图获取模块中,所述位熵率用于确定所述每一子带特征图对应的全连接图中,每个节点i到其他节点的平均信息量,所述位熵率SERi表示为:
SERi=πiΣj-PijlogPij]]>
其中,πi是随机游走过程的静止概率,Pij是结点i到结点j的转移概率。

8.
  根据权利要求7所述的基于位熵率的视觉注意计算系统,其特征在于,所述显著度图获取模块中,基于特征整合理论,将所述多个位熵率图加起来,获取所述图像或视频数据的显著度图。

9.
  根据权利要求8所述的基于位熵率的视觉注意计算系统,其特征在于,所述滤波模块中,采用独立成分分析方法分别为灰度图像和彩色图像学习稀疏码本。

10.
  根据权利要求7所述的基于位熵率的视觉注意计算系统,其特征在于,所述滤波模块中,采用所述稀疏码本基函数对视频数据进行滤波,获取多个子带特征图后,第t帧的第j个子带特征图,依据下式更新:
fj(x,y,t)=|fj(x,y,t)-Στ=1kexp(-τσ)fj(x,y,t-τ)|]]>
其中,fj(x,y,t)是更新前的第t帧的第j个子带特征图,f′j(x,y,t)是更新后的第t帧的第j个子带特征图,σ是特征衰减率,σ设置为1.5,利用第t帧之前的k帧来对第t帧进行更新。

说明书

基于位熵率的视觉注意计算方法及系统
技术领域
本发明涉及图像与视频处理技术,计算机视觉以及视觉感知等多个领域,尤其涉及一种基于位熵率的视觉注意计算方法及系统。
背景技术
选择性注意是指心理资源有选择性的被分配给某些认知加工过程,使得这些认知过程对信息的加工更加快速准确。注意对于协调各种认知加工过程非常重要。人类每一时刻都接受到大量的外界信息,处于被“信息轰炸”的状态中。我们有限的心理资源和神经资源不可能同时处理这么多的信息,只能选择性的处理具有高优先性的信息而忽视低优先性的信息,注意的作用正是体现于此。
选择性注意是一个非常复杂的认知过程,它时时刻刻影响着大脑的信息加工过程。对选择性注意的研究自上个世纪八十年代以来一直是认知科学的热点领域,这一点可以从每年发表的关于注意的文章的数量和质量得到证明。关于注意机制的理论纷繁复杂,但研究者比较认同以下分类:从注意产生的方向来分,选择性注意包括自下而上,数据驱动的过程(bottom-up and data-driven process)和自上而下,目标指引的过程(top-down and goal-directed process);从注意选择的目标来分,选择性注意包括基于空间的注意(space-basedattention),基于特征的注意(feature-based attention)和基于物体的注意(object-based attention)。
选择性注意一般包括静态注意分析和动态注意分析,分别针对静态图像和动态视频中显著区域的检测。在静态注意分析中有两种模型,一种是自下而上任务无关的模型,也称为刺激驱动的模型;另一种是自上而下任务相关的模型,也称为任务驱动的模型。自下而上的方法主要来自于视觉认知心理学方面的一些研究成果。Koch和Ullman在1985年就提出了一个简单的自下而上方法,它把视觉场景中每个位置的刺激显著性响应作为输入并编码成一个显式的二维显著图,沿着此图中显著性下降的顺序提供一种有效的注意扫描方式。自下而上的方法无需考虑任何知识信息,然而我们时刻都在受到自身知识、文化背景的影响。换句话说,我们时时刻刻都是任务驱动的,以自上而下的方法观察周围的事物。因此,已有一些工作将先验知识应用于视觉注意分析中,提高分析结果与眼动实验结果的吻合程度。近年来,越来越多的工作开始致力于动态注意分析。在视频中,每一帧的显著度分布不仅受其自身内容影响,同时受到时间上下文关系的影响,所以运动特征在视频中起着至关重要的作用。
现有的方法存在两方面的问题:一方面,现有的方法有的是基于中心-周围模型有的是基于信息最大化原理的,很少有方法能同时从这两方面来解释;另一方面,现有的方法对视觉注意点的预测并不是特别准确,与真实的眼动数据有很大差距。
发明内容
本发明的目的在于,提供一种视觉注意计算方法及系统,基于本发明,能够获取更加精确的图像或者视频的显著度分析结果,更加符合生理学和心理学的依据。
本发明提供了一种基于位熵率的视觉注意计算方法,包括如下步骤:滤波步骤,采用稀疏码本基函数对图像或视频数据进行滤波,获取多个子带特征图,其中所述稀疏码本基函数是基于学习稀疏码本而获取的;全连接图建立步骤,分别为所述多个子带特征图的每一子带特征图建立对应的全连接图;位熵率图获取步骤,在每一所述全连接图上采用随机游走的方法进行信息的传递,在随机游走过程中,依据位熵率进行显著度度量,进而获取每一所述子带特征图对应的位熵率图;显著度图获取步骤,将所述多个位熵率图加起来,获取所述图像或视频数据的显著度图。上述
上述基于位熵率的视觉注意计算方法,优选所述位熵率图获取步骤中,所述位熵率用于确定所述每一子带特征图对应的全连接图中,每个节点i到其他节点的平均信息量DERi表示为:
SERi=πiΣj-PijlogPij]]>
其中,πi是随机游走过程的静止概率,Pij是结点i到结点j的转移概率,i、j均为自然数。
上述基于位熵率的视觉注意计算方法,优选所述显著度图获取步骤中,基于特征整合理论,将所述多个位熵率图加起来,获取所述图像或视频数据的显著度图。
上述基于位熵率的视觉注意计算方法,优选所述滤波步骤中,采用独立成分分析方法分别为灰度图像和彩色图像学习稀疏码本。
上述基于位熵率的视觉注意计算方法,优选所述滤波步骤中,采用所述稀疏码本基函数对视频的每一帧进行滤波,获取每一帧的多个子带特征图,第t帧的第j个子带特征图,依据下式更新:
fj(x,y,t)=|fj(x,y,t)-Στ=1kexp(-τσ)fj(x,y,t-τ)|]]>
其中,fj(x,y,t)是更新前的第t帧的第j个子带特征图,f′j(x,y,t)是更新后的第t帧的第j个子带特征图,σ是特征衰减率,σ设置为1.5,利用第t帧之前的k帧来对第t帧进行更新。
另一方面,本发明还提供了一种基于位熵率的视觉注意计算系统,包括:滤波模块、全连接图建立模块、位熵率图获取模块和显著度图获取模块。其中,滤波模块用于采用稀疏码本基函数对图像或视频数据进行滤波,获取多个子带特征图,其中所述稀疏码本基函数是基于学习稀疏码本而获取的;全连接图建立模块用于分别为所述多个子带特征图的每一子带特征图建立对应的全连接图;位熵率图获取模块用于在每一所述全连接图上采用随机游走的方法进行信息的传递,在随机游走过程中,依据位熵率进行显著度度量,进而获取每一所述子带特征图对应的位熵率图;显著度图获取模块,用于将所述多个位熵率图加起来,获取所述图像或视频数据的显著度图。
上述基于位熵率的视觉注意计算系统,优选所述位熵率图获取模块中,所述位熵率用于确定所述每一子带特征图对应的全连接图中,每个节点i到其他节点的平均信息量,所述位熵率SERi表示为:
SERi=πiΣj-PijlogPij]]>
其中,πi是随机游走过程的静止概率,Pij是结点i到结点j的转移概率。
上述基于位熵率的视觉注意计算系统,优选所述显著度图获取模块中,基于特征整合理论,将所述多个位熵率图加起来,获取所述图像或视频数据的显著度图。
上述基于位熵率的视觉注意计算系统,优选所述滤波模块中,采用独立成分分析方法分别为灰度图像和彩色图像学习稀疏码本。
上述基于位熵率的视觉注意计算系统,优选所述滤波模块中,采用所述稀疏码本基函数对视频数据进行滤波,获取多个子带特征图后,第t帧的第j个子带特征图,依据下式更新:
fj(x,y,t)=|fj(x,y,t)-Στ=1kexp(-τσ)fj(x,y,t-τ)|]]>
其中,fj(x,y,t)是更新前的第t帧的第j个子带特征图,f′j(x,y,t)是更新后的第t帧的第j个子带特征图,σ是特征衰减率,σ设置为1.5,利用第t帧之前的k帧来对第t帧进行更新。
相对于现有技术中,本发明有如下几个优势:
第一、通过了大量的实验证明,无论是在图像显著度分析还是视频显著度分析,基于本发明获取的分析结果都比现有的其他方法更加精确。
第二、提出的计算方法有生理学、心理学方面的依据来支撑:初期视觉皮层中简单细胞的稀疏编码特性指导本模型采用稀疏码本生成图像的子带特征图,视皮层神经网络中存在着的再生局部连接和长范围的水平连接方式指导本模型在每一个子带特征图上采用了一种全连接的图模型作为基本的表示,一个神经元的行为由周围神经元的总的突触输入来驱动指导我们提出了位熵率。
第三、同时能从视觉注意的两种驱动方式-信息最大化和中心周围模型-来解释本模型。
附图说明
图1为本发明基于位熵率的视觉注意计算方法实施例的步骤流程图;
图2是本发明基于位熵率的视觉注意计算方法的处理过程示意图;
图3是本发明中提取出的关于灰度图像的稀疏码本示意图;
图4A是本发明基于位熵率的视觉注意计算方法对3幅彩色图像的视觉注意点的预测结果;
图4B是本发明基于位熵率的视觉注意计算方法对另外3幅彩色图像的视觉注意点的预测结果;
图5为本发明基于位熵率的视觉注意计算系统实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,图1为本发明基于位熵率的视觉注意计算方法实施例的步骤流程图,包括如下步骤:
滤波步骤110,学习稀疏码本,获取稀疏码本基函数;采用所述稀疏码本基函数对图像或视频数据进行滤波,获取多个子带特征图。
全连接图建立步骤120,分别为所述每一子带特征图建立对应的全连接图。
位熵率图获取步骤130,在所述每一全连接图上采用随机游走的方法进行信息的传递,在随机游走过程中,依据位熵率作进行显著度度量,进而获取每一所述子带特征图对应的位熵率图。
显著度图获取步骤140,将所述多个位熵率图加起来,获取所述图像或视频数据的显著度图。
参照图2,图2为本发明基于位熵率的视觉注意计算方法的处理过程示意图。图2中,a为输入的图像或者视频数据。首先用学习得到的稀疏码本基函数b对输入图像或者视频数据a进行滤波,得到的每一个子带特征图c对应一个稀疏码本;然后为每一个子带特征图c建立了一个全连接图d表示,这种全连接图d表示能够描述图像中较远像素的关系;为了模拟神经网络中各个神经元之间信号(信息)的传递,本方法在每一个对应的全连接图d上采用了随机游走的方法,熵率(Entropy Rate)描述了随机游走过程的平均信息量,把这个总的平均信息量分发到各个图结点上去,提出了一个新的显著度度量-位熵率,同时它也描述了各个结点到所有其他结点的平均信息量,这样对应于每个子带特征图就可以得到一个位熵率图e;最后,把所有的位熵率图加起来就得到了显著度图f。
下面结合图3和图4对上述各个步骤进行详细说明。
滤波步骤110中,稀疏码本学习后,获取稀疏码本基函数,采用该稀疏码本基函数对目标图像或者视频进行滤波,下面对稀疏码本进行说明。
大量证据显示当有刺激出现在细胞感受野的时候只有少量的早期视觉神经元会被激活,为了模拟这种特性,稀疏编码理论被提出来去表示自然图像的内在结构。稀疏码本基函数为Vk,k是对基函数位置、方向和尺度的索引,则图像I可表示为
I=∑kαkBk
αk是基函数的系数,本方法采用αk作为早期视觉特征,它可以通过与基函数对应的滤波函数Gk计算得到:
αk=∑x,yGk(x,y)I(x,y)
本实施例采用独立成分分析方法(Independent ComponentAnalysis,ICA)分别为灰度图像和彩色图像学习了一套稀疏码本,这里的ICA是一种把混合信号分解成统计意义上相互独立的子信号的方法。如图3所示,为本发明中提取出的关于灰度图像的稀疏码本示意图。
全连接图建立步骤120为分别为所述每一子带特征图建立对应的全连接图,具体说明如下:
对应于每一个子带特征图Fk建立了一个全连接图GK={Vk,Ek},其中Vk={vk1,...,vkn}是对应于图像像素处的结点,vki=(xi,yi,fk(xi,yi))有位置和特征响应两个属性,Ek={ekij,i,j=1,...n}是结点之间的加权边,其中ekij=(i,j,wkij)。权重wkij包含特征差异度Φkij和空间距离dij这两项
wkij=Φkij*dij
其中Φkij和dij可以表示为
Φkij=exp{|fk(xi,yi)-fk(xj,yj)|/Mk}
dij=exp{-λ(xi-xj)2+(yi-yj)2/D}]]>
在本模型中Mk是每个子带特征图中的最大特征响应差,D是图像的最大维度(即宽度和高度中的最大值),λ用来调节这两项的重要性,一般设置为5。
位熵率图获取步骤130,说明用于度量显著度的位熵率(SiteEntropy Rate)。
为了模拟神经网络中神经元之间信号的传递,在每一个子带特征图所对应的全连接图上实施了一个随机游走过程(Random Walk),在这个随机游走过程中从结点i到结点j的转移概率是(下面为了描述简单省略掉子带特征图的索引k,如wkij为wij)
Pij=wijΣjwij]]>
随机游走的熵率是用来描述这个随机过程的总的平均信息量的,它同时也描述了所有图结点(神经元)传递的总的信息量,把熵率分解到每一个结点上去,本模型就提出了一个新的概念-位熵率(Site Entropy Rate,SER)-去描述每个结点到其他所有结点的平均信息量
SERi=πiΣj-PijlogPij]]>
其中πi是随机游走过程的静止概率。根据人眼视觉系统信息获取最大化的原理,本模型提出用SER来描述各个结点的视觉显著度。
最后,基于Treisman提出的特征整合理论(Feature-IntegrationTheory,即视觉系统首先会提取初期视觉特征形成特征图,然后特征图集成到一个显著图去指导人们的关注点),显著图由各个特征图所对应的SER图相加来得到(这里重新恢复子带特征图索引k):
Si=ΣkSERki]]>
其中Si是结点i的显著值。
参照图4A和图4B,图4A是本发明基于位熵率的视觉注意计算方法对3幅彩色图像的视觉注意点的预测结果,图4B是本发明基于位熵率的视觉注意计算方法对另外3幅彩色图像的视觉注意点的预测结果。在图4A和图4B中,最左侧的一列为输入的原始图像,中间一列为采用本发明所提供的方法所获取的显著度图,最右边的一列为人们在观测原始图像时由眼动仪测得的注意点数据(眼动数据)。可以看出,显著度图与眼动数据极为相近,这说明了本发明提出的方法对人眼注意点预测比较准确。
显著度图获取步骤140,在神经科学中有证据显示:在信号传递过程中,只有现阶段中不可预料的信号才能传递到下一阶段;同时电生理学有证据显示:神经响应会随着细胞暴露在同一个刺激下的时间长度而急剧下降。基于这些事实,本模型认为如果结点处产生不可预料的信号或者结点处的信号发生了变化,这个结点就是比较显著的。在视频注意分析中,在计算t时刻的显著图的时候应该抵消掉t时刻之前视频帧的影响,具体的说,需要减去过去数帧的加权子带特征图来更新当前帧的子带特征图。fj(x,y,t)是第t帧的第j个子带特征图,用如下式子来更新它:
fj(x,y,t)=|fj(x,y,t)-Στ=1kexp(-τσ)fj(x,y,t-τ)|]]>
其中,f′j(x,y,t)是更新后的第t帧的第j个子带特征图,σ是特征衰减率,σ设置为1.5,利用第t帧之前的k帧来对第t帧进行更新。后续建立全连接图和计算位熵率以及最后的显著度图与图像注意分析一致。
参照图5,图5为本发明基于位熵率的视觉注意计算系统实施例的结构框图,包括如下步骤:
滤波模块52,用于学习稀疏码本,获取稀疏码本基函数;采用所述稀疏码本基函数对图像或视频数据进行滤波,获取多个子带特征图。
全连接图建立模块54,用于分别为所述每一子带特征图建立对应的全连接图。
位熵率图获取模块56,用于在所述每一全连接图上采用随机游走的方法进行信息的传递,在随机游走过程中,依据位熵率作进行显著度度量,进而获取每一所述子带特征图对应的位熵率图。
显著度图获取模块58,用于将所述多个位熵率图加起来,获取所述图像或视频数据的显著度图。
其中,位熵率图获取模块54中,位熵率用于确定所述每一子带特征图对应的全连接图中,每个节点i到其他节点的平均信息量,所述位熵率表示为:
SERi=πiΣj-PijlogPij]]>
πi是随机游走过程的静止概率,Pij是结点i到结点j的转移概率。
在显著度图获取模块58中,可以基于特征整合理论,将所述多个位熵率图加起来,获取所述图像或视频数据的显著度图。
在所述滤波模块52中,采用独立成分分析方法分别为灰度图像和彩色图像学习稀疏码本。
另外,本系统还提出了视频注意分析中当前帧的子带特征图的更新策略。具体说明如下:
滤波模块中,采用所述稀疏码本基函数对视频数据进行滤波,获取多个子带特征图后,第t帧的第j个子带特征图,依据下式更新:
fj(x,y,t)=|fj(x,y,t)-Στ=1kexp(-τσ)fj(x,y,t-τ)|]]>
其中,fj(x,y,t)是更新前的第t帧的第j个子带特征图,f′j(x,y,t)是更新后的第t帧的第j个子带特征图,σ是特征衰减率,σ设置为1.5,利用第t帧之前的k帧来对第t帧进行更新。
需要说明的是,上述实施例基于位熵率的视觉注意计算系统与基于位熵率的视觉注意计算方法原理是类似,相关之处可以参考对于方法实施例的说明。在此不再赘述。
以上对本发明所提供的一种基于位熵率的视觉注意计算方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

基于位熵率的视觉注意计算方法及系统.pdf_第1页
第1页 / 共12页
基于位熵率的视觉注意计算方法及系统.pdf_第2页
第2页 / 共12页
基于位熵率的视觉注意计算方法及系统.pdf_第3页
第3页 / 共12页
点击查看更多>>
资源描述

《基于位熵率的视觉注意计算方法及系统.pdf》由会员分享,可在线阅读,更多相关《基于位熵率的视觉注意计算方法及系统.pdf(12页珍藏版)》请在专利查询网上搜索。

本发明公开了一种基于位熵率的视觉注意计算方法及系统。所述方法包括:学习稀疏码本,获取稀疏码本基函数;采用所述稀疏码本基函数对图像或视频数据进行滤波,获取多个子带特征图;分别为所述每一子带特征图建立对应的全连接图;在所述每一全连接图上采用随机游走的方法进行信息的传递,在随机游走过程中,依据位熵率作进行显著度度量,进而获取每一所述子带特征图对应的位熵率图;将所述多个位熵率图加起来,获取所述图像或视频数。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1