基于多帧的数据流分割的方法和装置 相关申请
本发明涉及下述申请:
-在多个帧上进行运动判定(motion determination)协调的方法和装置(律师文件号IDT 011 WO),
-用于运动物体的深度模型(depth modelling)和提供深度(depth)信息的方法和装置(律师文件号IDT 015 WO),这些申请与本发明具有相同的申请人和申请日。
发明领域
本发明涉及通过参数系或参数的子空间地推导和分析在大信号流中实现分组或分割的方法。尤其涉及视频信号的时空分割的方法。
背景
大信号流(如视频信号或声音信号)的数学参数化法存在统计估计问题和计算容量问题。信号流的分割可以减少这两个问题。
首先,通过将信号流分成两个或更多个特殊相互关联的子组信号或分割信号,可以使产生的数据的数学表述需要更少的独立参数。这就简化了统计模型。
其次,因为更紧凑,每一分割模型还可以更易于控制和解释,例如用于编辑时。
第三,在对信号流进行分割以后,各分割的计算处理可以比对整个数据流的处理在计算上更简单,例如,减少了有效计算所需的高速存储器。
为了从对数据流的分割获得统计、计算上的这些优点,分割过程本身必须是在统计和计算上是有效的。本发明涉及如何获取有关的可靠分割。
然而,本发明还可以应用于其他类型的信号如声音信号,多帧数字视频信号是一种主要的应用,因而将作为例子来描述。
视频编码中分割的使用
在基于模型的视频编码中,图象分割很重要:应当将显示随各组帧而变化的一致相关空间图形的象素组一起建模(model),因为这样提供了最好的压缩、可编辑性和可解释性。
一个分割可以对应于一个物理对象,但也可以仅对应于一部分物理对象,或对应于一组几个这样的物理对象。也可以对应于非有形对象或现象,如阴影。
在基于面向统计模型的视频编码中,分割(‘holon’)的最佳定义不同于编码的目的:对于纯粹的压缩目的,分割理想地对应于经最有效压缩的象素组,但如果目的是为了对以后的视频操作进行编码,如编辑或视频游戏,那么分割就理想地更加与物理对象有关。
分割过程必须是很稳健(robust)的,即,必须明显地提供可接受的、统计有用的分割,可应用于许多相关的图象帧。并且,它在计算上必须适合于cpu时间和存储器要求。
某些现有的分割方法可参见:
Boyer,K.L.,Mirza,M.J.和Ganguly,G.(1994),The Robust Sequential Estimator:A General Approach and its Application to Surface Organization in Range Data.IEEETransactions on Pattern Analysis and Machine Intelligence 16,1994年10月10日,第987-1001页;
Guensel,B.和Panayirci,E.(1994),Segmentation of Range and Intensity ImageUsing Multiscale Markov Random Field Representation.Proceedings,IEEE Intl.Conf.on Image Proc.,Austin Texas,1994年11月13-16日,第II卷,第187-191页,IEEEComputer Soc.Press Los Alamitos,CA,USA;
Dellepiane,S.,Fontanta,F.和Vernazza,G.(1994),A Robust Non-IterativeMethod for Image Labelling Using Context.Proceedings,IEEE Intl.Conf.on ImageProc.,Austin Texas,1994年11月13-16日,第II卷,IEEE第207-211页,ComputerSoc.Press Los Alamitos,CA,USA;
以及
Russ,J.C.(1995)The Image Processing Handbook,第2版,IEEEPress/CRCRPress,伦敦,第347-401页,上述论文在此引述供参考。
视频编码的分割方法主要有两种主要的类型:静态图象分割和基于运动的分割。
静态图象分割是基于在单独的图象中限定空间强度模式。这种类型的分割的缺点是较难区分物体边缘的内部和沿物体边缘的空间的轮廓。
基于运动的分割涉及图象强度是如何在图象之间变化的。在自动视频编码中,分割通常是基于后者,并且是通过运动场的估计分析而获得的。一种已建立的分割方法是估计两个帧之间的运动场(比方说从参考帧R和另一帧n(这里称为‘地址差别’DARn)),并且搜寻具有相似运动的DARn中的象素组。另外,重要的是象素在物理上是至少在其中一个图象内相互靠近。DARn可以有一个、两个或更多个运动维度。
可以使基于运动的分割一般化成基于变化的分割,这里,变化还可以包括‘强度差别’,即,各对帧对之间的强度变化D1Rn,例如,经运动补偿和在不同的色彩信道上。
在将分割用于许多帧的情况下,由于统计过拟合(overfitting)的现象,并且因为选择的帧可以是没有充分代表了问题中其余帧时,将分割基于仅仅一个帧或一对帧是不能令人满意的。然而对分割中实际使用的帧或帧对会是很好的分割时,所获得的分割对其他帧可以表示为很坏的分组。
为了在统计上找到对许多帧均有效的分割,必须搜寻许许多多这样的帧,比方说,5-50个,找到在统计上相关的象素聚类。这样是有缺点的。为了对这些帧单独地进行分割,需要随后协调不同的帧分割结果。每一帧分割对该帧输入数据中的噪声是敏感的。同时,为了存储用于许多独立帧的运动场,可以需要许多存储器,并且为了同时执行对所有这些运动场的分割分析,在计算上是昂贵的。
发明目的
本发明的目的是便于找到信号流中信号的分组,从而分组或分割对数个信号帧具有高统计稳健性和高有效性。
本发明的进一步目的是在使分割中所需数据量下降的有效计算方式下执行多帧分割。
本发明的进一步目的是确保分割可以按照前向或后向更新递归进行。
本发明的再一个目的是能够在分割中采用不同类型的现象-时间运动和强度变化信息以及空间的连续性和间断信息。
本发明的进一步的目的是估计分割信息,以便对后续运动信息和强度变化进行估计以及对这些信息进行双线性(bilinear)建模(modelling)。
本发明的又一个目的是使分割能够部分重叠。
本发明的再一个目的是使分割能够部分透明(transparent)。
本发明的又一个目的是定义分割,从而一方面(对于统计稳定性)在内部系统相似性和严格性而另一方面(对于输入数据的理想描述)在内部不均匀性和灵活性之间具有恰当的平衡。
发明概述
本发明中,分割是根据数个相关帧的变化信息进行的,变化不仅仅在两个帧之间。因而获得的分割在统计上更可靠并具有更高的有效性。
在分割计算中表示许多变化的方式最好是通过公共的参数系或子空间模型,主要是采用根据公共参考位置的双线性模型(modelling)。由于可以忽略某些基于噪声的和其他的不重要的变化类型,这进一步提高了分割的统计准确性和有效性。通过减少分割中需要分析的变化数据的维度,这还减少了分割工作的计算复杂性。
在子空间表述本身是递归更新的情况下,子空间分割可以递归更新,这提供了计算上的优点。
分割中使用的变化信息可以多种多样,可以是运动信息,也可以是密度变化信息。
本发明一般可以应用于信号流。尤其可以应用于数字信号的时空分割和数字声音数据的时间分割。
附图简述
图1描述的是如何沿运动方向(这里,DVRn是将每一象素沿纵向移动)从图象R移动(卷绕)到接近的图象n使一帧大小(具有nv×nh个象素)的运动场排列起来作为一维矢量(具有nv*nh个元素)。
图2描述的是在同时形成两个运动方向的情况下,纵向和横向的两个帧大小(每一帧有nv×nh个象素)的运动场DARn=[DVRn和DHRn]是如何排列起来的。更多维(例如深度变化)可以类似地包括在DARn中。
图3描述的是如何通过两个低阶秩矩阵T*PT的双线性积加上一个剩余矩阵来构成一矩阵D(例如用于许多帧n=1,2,…的运动场DARn)的模型。
图4描述的是从图3得到的有关一个帧的参数。
图5描述的是第三个较佳实施例,其中的运动估计和分割是分开执行的。
图6描述的是第四个较佳实施例,其中的运动估计和分割是同时进行的。
描述
标记和定义下文中,符号‘*’需要时用作乘。符号‘x’用来表示矩阵的维数(例如大小=n行×n列)。黑体字上标字母用来表示数据矩阵,黑体字下标字母用来表示数据矢量。
提取许多运动场的双线性累计
本发明的某些背景在专利申请WO 95/08240和WO 95/34172中给出。有关多帧分割、运动估计和双线性模型之间协调的附加信息在上述专利申请“Methodand Apparatus for Coordination of Motion Determination over Multiple Frames”中给出。对数个帧分割阻塞之间有关深度估计的信息在上述专利申请“Method andApparatus for Depth Modelling and Providing Depth Information of Moving Objects”中给出。
运动场描述了一个图象(比方说是参考帧R)中的象素是如何运动以便逼近另一图象(比方说是n)的。这样一个运动场其自身可以被看成是‘图象’,对每一运动维度具有一定值,例如,对于水平移动的一个图象DHRn(零值=无水平移动,负值=左移,正值=右移),对于垂直移动的一个图象DVRn(零值=无纵向移动,负值=上移,正值=下移)。
如图1所示,每一运动场图象(例如DVRn)可以排列起来,作为具有n个象素元素的一维矢量dn,每一个元素用于已给出移动信息的参照图象中的每一象素。
如图2所示,不同的运动维度可以在一个相同的矢量中一个个地排列起来,并且该矢量具有多重n个象素的元素。
当已经估计了一组这样的运动场矢量时,对于几个帧dn,n=1,2,...,n帧,它们可以作为矩阵D一起分析。
良好地建立起的双线性模型(BLM),可作为逼近相关矢量组的方法(图3)。双线性因子模型(bilinear factor model)可以写成一双线性矩阵乘积加上一剩余矩阵(参见H.Martens & Naes,T.(1989)Multivariate Calibration.J.Wiley & Sons LtdChichester UK,在此引述供参考):
D=T*PT+E (1)这里,
D是要模拟的数据,-它的每一行用于要模拟的每一帧,并且每一列用于要同时模拟的每一象素变量(例如每一象素的一个水平运动元素和一个垂直运动元素。)
T是所谓双线性因子的时间标记,-它对每一已模拟的帧就有一行,而对每一已模拟的双线性因子,(f,=1,2,…nf)则有一列。
PT是所谓的双线性因子的空间标记(score),-它的每一列用于要同时模拟的每一象素变量,以及每一行用于每一双线性因子模型f=1,2,...,nf。上角标T表示‘转置’。
E表示误差或未模拟的剩余-具有相同矩阵维度D。
对于帧R和给定帧n之间的运动场,双线性模型(图4)写成:
dn=tn*PT+en (2)
当来自一组帧或子帧的运动场DARn,n=1,2,...,或这些运动场的修改形式被定义为数据D时,跨越最大有效行空间D的载荷子空间PT多少代表了对序列中的几个帧公共的移动信息。单独用每一帧估计或用许多帧联合估计(见下述)的帧的标记矢量(score vector)tn,n=1,2,...,用来将这一公共运动信息PT传送回每一单独的帧对。
几个不同的帧可以用来从多帧分割的当前上下关系(context)中从D提取双线性模型T*PT,例如,具有或没有自适应前向和后向更新的基于QR规则的加权奇异值分解。下文中,它们将被称为双线性模拟(BLM)或主分量分析(PCA)。
有关双线性模型方法的细节可参见:
Martens,H.and Naes,T.(1989)Multivariate Calibration.J.Wiley & Sons Ltd,Chichester UK,by Martens,M.and Martens,H.1986:Partial Least Squaresregression.In:Statistical procedures in Food Research(J.R.piggott,ed.)ElsevierApplied Sciences London p.293-360,by Jackson,J.E.(1991)A User’s guide toprincipal components.J.Wiley & Sons,Inc.New York,by Jolliffe,I.T.(1986)Principal Component Analysis.Springer Series in Statistics,Springer-Verlag NewYork,by Mardia,K.V.,Kent,J.T.and Bibby,J.M.(1979)Multivariate Analysis.Academic Press,Inc.,New York,by Sharat M.A.,IIIman,D.L.,and Kowalski,B.R.Chemometrics,J.Wiley & Sons,New Youk 1986 and by Kung,S.Y.,Diamantaras,K.I.and Tauer,J.S.(1991)Neural Networks for extracting pure/constrainted/orientedprincipal components.In:R.Vaccaro(ed):SVD and signal processing II.ElsevierScience Publishers 1991,pp57-81.这些文献在此引述供参考。
重要的是要注意,对于本目的,双线性模型不会是完全收敛的或相对于正交性、本征值的分离等来说不会是最佳的;重要的事情是要找到用于逼近数据D的适当的子空间基。
正如上文中标题为“Method and Apparatus for Coordination of MotionDetermination”中所述及的那样,双线性模型可以递增更新。
双线性模型可以在由减去每一列的平均值构成的预处理以后执行。也可以取每一行的中间数据作为平均值。在根据双线性模型进行重构时,必须将这些平均数据加回去。也可以采用更先进的预处理方法,比如,由J.Wiley & Sons Ltd(英国Chichester)的Martens,H和Naes,T(1989)在Multivariate Calibration中描述的乘性散射校正(MSC)及其推广(multiplicative scatter correction and its extensions),在此引述供参考。也可以采用包含平滑标记和载荷(smoothing of score and loadings)或对数据矩阵D中各个数据元素修改的双线性模型参数估计方法。
如果信息对各个帧中的各个象素具有相当的可靠性或有效性,那么该信息可以被用来权衡不同输入数据的相对重要性:可以接着对加权数据(weighted data)执行因子的双线性性提取(bilinear extraction of factors):假设G=运动场DARn,n=1,2,...,(可能在确定列中心(column centering)以后)或对这些运动场修改,从一组帧对或分组帧对,并且假设
D=V帧*G*V象素 (3)
这里,V帧=帧的加权矩阵,例如,diag(1/sn,n=1,2,...),并且
sn=帧n的不确定性标准偏差的估计量
V象素=象素的加权矩阵,例如,diag(1/s象素,象素=1,2,...),并且
s象素=象素pel的不确定性标准偏差的估计量。
这样,具有高不确定性的象素(G中的列)降低加权(weighted down),但仍与其他比较确定的象素一起模拟。另外,确定象素和不确定象素的这种分开可以通过两块而不是一块BLM来实现。可以将不确定的象素从较确定的象素的双线性性模型中除去。可以通过如前述Martens & Naes 1989的主分量回归(principalcomponent regression,PCR)和部分最小平方回归(partial least squares regression,PLSR)所描述的对不确定象素的载荷可用确定象素表的标记(score)的回归来估计。这也适用于将象素从一个分割重新分配到另一分割,这里,重新分配的象素的载荷必须相对于它们的新分割分配来估计。
双线性模型的一个主要目的是实现大量输入数据的紧缩表示。为了实现该目的,模型T*PT中所使用的‘有效’因子数必须少,即,模型必须具有行秩(row rank)。该有效因子数可以用各种方式来估计,例如,如上述Marten & Naes 1989所描述的在改变因子数以后通过交叉有效(cross validation)或从剩余(residual)及杠杆作用(leverage)来估计。
前面定义或估计的载荷(‘伪载荷’)可以用作数据矩阵D的模型的一部分。在这种情况下,通过将D投影到这些伪载荷来估计这些先验因子(a priori factor)的标记(score),并且在该投影(加权回归)以后对剩余数据(residuals)进行双线性模拟。
采用某种加权的或稳健再加权(robustly reweighted)的最小平方最小化,根据线性回归、将dRn投影到PT上,来估计一个个别帧的标记。另外,也可以由如SIMPLEX最佳化(J.A.Nelder和R.Mead,’A simplex method for functionminimization’,Computer Journal,第7卷,第308-313页)根据非线性迭代曲线拟合来进行。在该情况下,准则也可以是基于采用这些标记时所产生的译码强度差错(decoding intensity error)。
正如这里所描述的那样,变化信息dRn表示为参考位置中的运动场DARn,从而它与也在参考位置中表示的双线性载荷P兼容。另外,变化信息可以表示在帧n中象素的位置上,例如,逆向运动场DAnR,并投影到载荷P的兼容形式上,即,用运动场DA将P暂时移动到同一位置上。
在一个公共图象位置上表示来自许多帧的空间信息。
运动的双线性模型的有效性取决于运动场是如何表示的。当某一刚体在一摄像机前的3维空间中移动(平移、旋转,尺度改变(scaling))时,相应的运动场可以用低维度的双线性模型来描述。非刚体的系统运动(例如,开始微笑的脸0也可以近似地用双线性模型来逼近。
然而,当运动场(或其他的变化场)存储在一个给定的代表系统中的D中时,低维度的双线性模型基本上是有效的,从而有关某一对象的所有信息对所有帧来说均被存储在同一象素位置上。这可以通过让一组相关帧中的每一个帧的运动与一个给定的‘参考图象’R相关、并且存储在该参考图象的坐标系统中来实现。该参考图象可以是如序列n=1,2,...,N中第一个、中间或最后的图象或具有来自几个帧的部分的某些合成图象模型。
一个例子是IDLE编译码型(按照WO 95/08240和WO95/34172),这里,几个(连续)帧的运动、强度变化和其他模型变化信息是直接或间接地相对于给定的相关帧组中给定的一类象素(空间‘holon’)的公共的‘扩展参考图象模型’(‘extended reference image model’)来表示的。在已经开始分割以前,整个起始参考图象(例如序列中的第一个帧)被视为一个holon。空间分割的主要目的是接着将该起始空间holon分成各种数据结构,它们每一个自身都是简单的、低维度的数学模型。
运动场估计可以直接从参考图象IR到帧In执行,并且直接在D中分析。另外,运动场可以根据该参考图象的运动(卷绕)形式来估计:Im=移动(IR,由DARm)到In,-局部运动场DAmn被估计并且接着移动回到参考位置,例如通过产生Im的运动场的逆,产生运动估计DARn=DARm+移动(DAmn乘(by)DAmR)。
因此,本发明的一个优点是利用几个帧的运动场的合成紧致的、低秩(low-rank)累计(summary)和其他的变化场来增强和稳定视频编码中的分割。
类似地,分割可以在时间域中进行,以求得找到的某种空间模式的帧的分组。时间分割接着采用从相关时间系列的时间平移形式(例如,通过等式(1)描述的变化场的双线性模拟得到的静态帧标记的时间平移形式)的双线性模拟得到的子空间信息(H.Martens & M.Martens(1992)NIR Spectroscopy-appliedphilosophy.Proceedings,5th Internatl Conf.NIR Spectroscopy(K.I.Hildrum.ed)NorthHolland;pp1-10)。
基于多帧运动的分割的应用
多帧运动场的双线性累计(bilinear summary)可以以几种方式应用在分割中。
在最佳实施例中模拟帧的次序是前向(forward)和顺序(sequential)的。然而,次序也可以按照其他的准则来选择,例如,按照在给定时刻是哪一个帧显示出对模型改进是最需要的和最有潜力的(potential)。
基于双线性模型的分割可以按金字塔方式(pyramidally)使用。一个这样的例子是以减小的分辨率(resolution)的方式对帧进行分割,以便识别序列中的主要的holons,并且接着用这些结果,作为在更高的帧分辨率下同一过程的初步的临时(tentative)输入。
在较佳实施例中,运动估计、双线性模拟和分割可以针对各个已经识别的holon(‘输入holons’)或针对完整的未分割的图象In来进行。在任一种情况下,需要对所获得的运动场作多个holon预处理或后处理、双线建模和分割,以便解决输入的holon之间的重叠。
一个这样的预处理或后处理是基于存储具有不确定holon资格(membership)的相邻象素‘晕圈(halo)’的每一holon的,即,仅可以暂时赋予某一holon的那一个(并且因此也暂时存储在其他的holon中或作为独立的不清楚象素表存储)。在运动估计中,这种临时的晕圈象素是特别处理的,例如,要被所有相关的holon所拟合,并且它们对不同holon的资格是按照运动估计的成功来更新的。这样的晕圈象素具有低权(weight)或在双线性模拟中是被动拟合的(fitted passively)(参见:Principal Component Regression,Martens,H.和Naes,T.(1989),MultivariateCalibration.J.Wiley & Sons Ltd,Chichester UK,在此引述供参考)。
附加变量
原始数据矩阵G(等式(3))中的附加列可以从其他的数据块的‘外标记(externalscores’形成。这种‘外标记’来源是:
来自某些其他数据域的双线性模拟的标记,
(例如,相同holon的运动补偿的强度剩余),
来自其他holon的标记,最好呈非线性表示(见A.Gifi:Nonlinear Multi-variateAnalysis.J.Wiley & Sons Ltd Chichester 1990),使每一量化标记矢量量化并分析,作为指示矩阵(67页)或在顺序级(187页),在此引述供参考,或
来自不同空间分辨率的相同holon的标记,
来自外部数据如声音的标记
(例如这些相同帧的声音振动能量谱的双线性模拟以后)
必须修改这种附加变量的权,从而它们的不确定性变得与要模拟的最终数据矩阵D(等式(1)和(2))中的经加权的象素的不确定性相似。
另一种柔和地组合不确定相似或外部标记而不强迫将信息加入到双线性模型中去的方式是用二次模拟(two-modelling)来替换一块(one-block)双线性模拟,例如PLS回归(见Martens,H.和Naes,T.(1989):Multivariate Calibration.J.Wiley & SonsLtd,Chichester UK),或采用多块或N方式(N-way)模拟,如Parafac(Sharaf,M.A.,IIIman,D.L.和Kowalski,B.R。Chemometrics,J.Wiley & Sons,New York 1986)或Consensus PCA/PLS(参见:Martens,M.和Martens,H.1986在Statistical Procedurein Food Research(J.R.Piggott出版)中的Partial Least Squares Regression,ElsevierApplied Sciences London第293-360页,和Geladi,P.,Martens,H,Marten,M.,Kalvenes,S.和Esbensen,K.(1988)Multivariate Compearison of Laboratory ResultsProceding,Symp.Applied Statistics,Copenhagen,1988年1月25-27日(Per Thorboell出版),Uni.C,Copenhagen第16-30页。这些在此引述供参考)。
这样,不确定象素和外标记如果拟合良好则对模拟有正面贡献,但如果不适合也不会对模拟有强的负面影响。不管怎样,这些不确定的象素和外标记就被加入到所获得的双线性模型中。
来自当前分辨率中和当前域的当前holon模型的标记可以接着用作其他holon或其他分辨率下或其他域中的‘外标记’。
较佳实施例
采用多帧累计(summary)的分割的稳定性可以以不同的方式来实施。
在第一较佳实施例中,双线性分割过程采用自顶向下的方法,除去来自输入holon的分割:不适合于一般holon模型的运动子空间中的象素区域被检测作为局外者(outlier),并从其余的输入holon中分割出去。
在第二个较佳实施例中,分割采用自底向上的方法,试图使稳定的种子点在输入holon中生长成均匀、连贯的分割。
在第三个较佳实施例中,分割与运动估计和运动补偿(图5)分开,其间发生帧的运动场和其他被估计变化数据的双线性模拟。
在第四个较佳实施例中,运动估计和实际分割组合(图6),随后是双线性模拟。
在第五个较佳实施例中,双线性模拟和分割过程是对一整个序列(sequence)完成的。
在第六个较佳实施例中,运动估计、双线性模拟和分割及模型是对各个帧逐渐更新的。
在第七个较佳实施例中,将用于分割的双线性模拟方法扩展成包括附加准则,而不只是说明的协方差,-在这种情况下,空间和时间平滑用作附加准则。还包括在双线性模拟中加入输入数据的行和列的再加权。
在第八个较佳实施例中,双线性模拟与最佳标度改变相组合。从而在模型估计过程中不仅是加权而且是输入数据本身也变化:只要从初始低秩(low-rank)双线性模型的数据元素(element)的预测不给出比元素的输入值有明显更坏的译码结果,其输入值就被其双线性预测所取代。
较佳实施例
第一个较佳实施例:基于有关空间模型的局外(outlier)分析的分割
图5示出的是基于双线性模型的分割的主要结构块:一运动估计器单元EstMov 520,一双线性模拟单元EstBLM 540和一分割单元EstSegm 560,以及在它们之间的数据流。数据流的更详细细节将在第三个较佳实施例中给出。
两个第一实施例代表了分割单元EstSeg 560-自顶向下或自底向上的两种结构。
在第一个较佳实施例中,尽可能原样保留EstSeg单元560的holon输入,但是如果该holon包含比其余holon具有更明显且一致性(consistently)不同的特性的部分,那么,这些部分将被分裂(split)成分开的新的分割。另外,独立的象素,例如沿holon的边缘,其初步分类会有问题,那么这些独立的象素将被去掉,或者被识别为不可靠的局外者。
在下面具有线路编号的伪码中描述实现该自顶向下holon分割的方法:
单个帧分割
首先描述一个单个帧和用于刚性运动物体的检测的方法。
采用再加权的线性最小平方(squares)空间模拟,制作每一个这样的潜在(potential)分割的空间模型:
假设一个给定帧n相对于参考帧R的纵向和横向运动估计量在空间模拟中被当作被回归量(regressand)Y处理:
Y=[DVRnDHRn] (701)。
假设回归量X=[1vh] (702)。
这里v是象素纵向地址的列,而h是它们的横向地址。
那么由仿射变换的运动模型是:
Y=XB+F, (703)
通过再加权的最小平方回归估计3×2回归系数矩阵B:
估计每一象素(行)的不确定性标准偏差s=[spel,pel=1,2,...,n象素](704)
定义初始象素加权的矩阵W,例如,对所有象素表示为:
W=diag(1,1,1,1,......1npels) (705)
当再加权过程是不收敛时 (706)
B=(XTWX)-1XTWY(回归系数估计) (710)
F=Y-XB(剩余) (720)
R=f(F,S)(相对于噪声电平矩阵s的剩余) (730)
这里,Y中每一列的每一象素的剩余f(pel,j)按象素的不定性标准偏差s(pel)划分成:
r(pel,j)=f(pel,j)/s(pel) (735)
W=f(R)(象素的更新加权) (740)
例如,在所有Y变量j=1,2,...上累计的相对剩余的函数:
w(pel,pel)=c/(c+r(pel,1)2+r(pel,2)2+...) (745)
这里,灵敏度系数c=例如1.0。
检查收敛性:例如,B是否稳定? (750)
当再加权过程收敛时结束 (750)
也可以采用除相对剩余的和r(pel,1)2+r(pel,2)2+...以外的其他估计量,例如中值或某些其他的稳健的(robust)距离测度(measure)。
在该过程中,与多数象素所支持的空间模型不能良好拟合的象素将有较显著大的相对剩余R并因此被降低加权,以便减小它们在下一迭代中对系数B的估计量的影响,在下一迭代中它们的剩余将更大,从而它们对收敛时最终空间模型B的估计量影响很小。
具有低最终加权(例如,w(pel,pel)<0.1)的象素被定义为不属于输入holon的局外者,并收集到一个新的分割内。该新的局外分割可以被提供到同样的再加权回归模拟,以检查是否应当进一步分成更小的分割。所得的分割接着代表输出结果565。
在重新定义(740)中象素的加权时,还可以引入相邻的象素,以加强holon的空间连续性。也可以修改先验的加权(705),例如,采用象素的更低的初始加权,而这些象素是由于闭塞而已知潜在无效或由于不满意的双线性模拟而尤其不确定的。
Y中每一元素(pel,j)的不确定性度量s(pel,j)可能已经估计,并且可以用来取代(745)中每一象素的总不确定性。该单独的不确定性度量可以是不对称的,从而可以不同地评估正的和负的剩余。这相应于靠近强度边缘的平坦强度区域中的象素的运动估计量(不对称松弛部分(assymmetric slack))。象素可以移动远离该边缘,而不影响缺乏适合的合成强度,但不能移动到该边缘以外的地方。
(710)中采用的全秩回归(full-rank regression)可以用其他的估计器来取代,例如,如Martens,H.和Naes,T.(1989)在Multivariate Calibration(J.Wiley & Sons Ltd,Chichester UK)中描述的类似于PLS回归或其某些推广的降秩的回归方法(reduced-rank regression method)。
多帧分割
这一基本自顶向下的分割方法可以用作多帧分割:而不是将分割仅基于一个单帧的holon的运动场,采用被回归量(regressand):
Y=[DVRnDHRn]
它可以基于几个帧的运动场:
Y=[DVR1DHR1,DVR2DHR2,...,DVRnDHRk,...] (760)
在该第一个较佳实施例中,它是基于比例载荷空间的,该空间跨越几个模拟帧中holon的这些运动模式:
Y=[PVPH]=[pVR1pVR2,...,pVRJ,pHR1pHR2,...,pHRK] (770)
这里,选择纵向和横向移动的双线性因子数(这里是J和K),从而只采用有效的和可靠的因子(例如由对帧的交叉有效确认所判断的)。例如,应当对因子载荷(PV和PH中的列)取比例,从而它们的不确定性方差是相同的。
回归算子Y还可以被定义成包括强度信息,例如经运动补偿的强度差图象。
Y=[D1R1D1R2D1R3......D1Rn] (775)
这里,D1Rn=为各个彩色度量(例如RGB)定义或定义为类似于亮度的某种累计的帧n与公共参考帧R之间经运动补偿的强度差。另外,可以根据经运动补偿的强度差用作来自双线性性强度因子的载荷(loading)。
使这样的经运动补偿的强度差介于帧n和参考帧R之间的较佳方式是首先在运动估计器EstMov 520中建立帧的运动场,DA=[DVRnDHRn]和相应的深度估计量等,随后用该DARn来移动(卷绕(warp))参考图象,以产生InHat(即基于IR的帧In的近似),接着计算InHat和In之间的强度差,并最终用移动算子的逆DAnR1:D1Rn=Move((InHat-In)乘DAnR),将该差移动回到参考位置。
这样的强度信息可以与运动信息一起使用,或与运动信息分开使用。不管是在哪一种情况下,应当对列Y取比例,以反映它们对分割相对的所要求的影响,例如,与它们相对的平均估计不确定性方差成反比。
另一种空间结构模型
计算有关(703)中剩余F的空间结构模型可以是除(702)中采用的那一个以外的另一种类型。例如,X还可以包含地址v和h的平方和叉积项(参见Lancaster,P.和Salkauskas,K.(1986),Curve and Survace fitting,Academic Press,第133页,在此引述供参考)。也可以采用样条或分段多项式(Lancaster & Salkauskas 1986,第245页,在此引述供参考)。这样的更高级模型可以有助于区分局外象素和起主要作用的平滑构成的不是仿射变换(affine transformation)的运动的象素。
X还可以包含一空间自回归部分,该部分中具有包括在X中Y的空间平移形式,并且采用了秩减小回归方法,如PLS回归(参见H.Martens & M.Martens(1992)NIR Spectroscopy-Applied Philosophy,Proceedings,5th Internatl Conf.NIRSpectroscopy(K.I.Hildrum,ed)North Holland;pp1-10)。该空间自回归模型部分使得一方面可以区分应当降低加权的局外象素(outlier pixel),另一方面可以区分起主要作用的平滑运动的象素,它们既不是仿射变换结构,也不是holon中的空间多项式结构所良好描述的。
另一种分割边界检测机构
可以引入附加信息,以便使分割边界的精确定位最佳。一种这样的信息源是如用Sobel滤波器(filter)检测的参考图象IR中的强度边缘(J.C.Russ:The ImageProcessing Handbook,2nd ed.,IEEE Press 1995,在此引述供参考)。如果Y的空间模拟以后的相对加权W 740表示某一分割边界接近于这样一个强度边缘,那么该分割边界就移到该强度边缘。
也可以采用更先进的统计方法来判断分割边缘。这种方法的一个例子可参见(Kok,F.Lai,’Deformable Contours:Modelling,Extrction,Detection andClassification’,PhD Thesis,University of Wisconsin-Madison 1995,在此引述供参考);对于本申请,输入信息可以是强度IR、强度剩余DIRn(或这些的BLM累计)、空间剩余F720、R730或模型加权W 740、以及/或Y数据本身。
第二个较佳实施例:基于聚类分析的分割
第二个较佳实施例代表输入holon的分割的自底向上的方法。它由多帧运动数据或它们的双线性累计的聚类分析组成。
几个不同的聚类技术可以用来寻找象素组。聚类标准则和聚类算法的选择定义了聚类的统计特性。例如,对每一运动方向(纵向、横向、深度)可以选择分开进行聚类分析或在各个方向上联合进行分析。后者是一种较佳实施方法(但可以不选择深度方向,至少是在编码开始的时候)。
可以采用两组主要的聚类技术:对图象平面不采用有关参数光滑性或相邻关系的空间假设的聚类分析以及采用这种假设的聚类分析。
常规的聚类分析
现在的目的是寻找显示至少与P中的某些因子维度具有类似的运动模式的象素聚类,-即,至少在某些有效维度上显示类似运动模式的象素。
根据双线性运动子空间,可以采用几种不同的聚类原则。根据公共或加权的Pythagorean距离度量以及归一化(Mahalanobis)距离,可以计算时空距离。一种方法是标准的非分层聚类分析技术(Mardia,K.V.,Kent,J.T.and Bibby,J.M.(1979)Multivariate Analysis,Academic Press,Inc.,New York.,Gudersen,Bob(1983)AnAdaptive FCV Cluster Algorithm.International J.of Man-Machine Studies 19,第97-104页,Benadek et al.Detection and Characteristics of Cluster Sub-Structures.SIAM J.of Applied Math 40,(2)1981年4月,Bezdek,J.C.and Pal,S.K.(1992)Fuzzy Models for Pattern Recognition.IEEE New York)。这种类型的聚类分析的一个例子是由Mardia,K.V.,Kent,J.T.and Bibby,J.M.(1979)Multivariate Analysis,Academic Press,Inc.New York第361-368页中描述的划分技术,该文献在此引述供参考。
更详细的聚类分析可参见Mardia,K.V.,Kent,J.T.和Bibby,J.M.(1979)Multivariate Analysis.Academic Press,Inc.,New York,第360-390页,Benzdek etal.Detection and Characteristics of Cluster Sub-Structures.SIAM J.of Applied Math.40,(2)1981年4月,以及Bezdek,J.C.和S.K.(1992)Fuzzy Models for PatternRecognition.IEEE New York)。尤其是模糊聚类技术(见Gudersen,Bob(1983)AnAdaptive FCV Cluster Algorithm.International J.of Man-Machine Studies 19第97-104页)更有用;在该技术中,双线性模拟被用来使聚类的内部结构参数化,并且聚类可以部分重叠。分层聚类分析见Shraf,M.A.,Illman,D.L.和Kowalski,B.R.Chemometrics,J.Wiley & Sons,纽约,1986年,第219页。这些参考文献在此引述供参考。
在图象平面中具有空间连续性假设的聚类分析
本实施例中,聚类分析搜寻具有类似运动模式的空间相关的象素。Boyer等人在1994年公开了一种图象分割的方法,使得可以广泛的-但不是唯一使用空间连续性(Boyer,K.L.,Mirza,M.J.和Ganguly,G.(1994)The Robust SequentialEstimator:A General Approach and Its Application to Surface Organization in RangeData.IEEE Transactions on Pattern Analysis and Machine Intelligence 16,1994年10月10日,第987-1001页,在此引述供参考)。本发明的一个实施例是将他们从以一维(距离)测量一个帧(单个雷达图象Z)的方法推广到以采用来自几个帧和多维(纵向移动、横向移动和其他可能的特征,见下述)的测量。
上述Boyer等人的分割技术可以小结如下:
*分析空间数据(在上述Boyer等人1994年的情况下:范围数据(range
data)Z),以找到可以用作潜在(potential)分割起始点的充分大的平滑空间区
域。
*采用再加权最小平方空间模拟,形成每一这种起始点的空间模型。
围绕每一起始点,使Y变量(Y=Z)拟合空间模型和估计剩余。在本较佳实
施例中,采用的是线性模型Y=XB+F,它是用如上所述用于仿射变换
(702)的运动模型X通过再加权最小平方最小化来拟合的。但在Z中也可
以采用多项式和/或自回归推广(extension)。
*通过包括看上去是适合初步分割模型的相邻象素、逐渐更新分割模型来使
这样的的潜在分割在局部地增长。这一增长过程一直继续到没有新的象素良
好地适合holon的空间分割模型为止。
*试图将每一空间模型扩展到图象的其余部分,以便搜寻可能属于该分割的
更多的远端象素。
*合并与空间模型兼容的潜在分割。
*删除(prune)并填入局外部分,并解决(resolve)沿分割边缘部分的模糊点。
分割的精确边缘可以用第一个实施例中描述的方法来使之最佳。
本发明中,上述技术除由Boyer等人用于雷达测距数据以外,还用于其他的空间参数数据。不再将Y定义为图象的深度Z,而是将Y按照(701,760或770)定义为来自几个帧的运动信息。也可以像第三个较佳实施例所描述的那样,还包括强度信息(775)。
其他参数表示的模型
在将数据变换成频率域以后,另一个实施例将该分割技术应用于适用于1D、2D及更高维度(dimensional)的数据,该实施例在此不再详述。经变换的数据可以表示成直接FFT的结果、以实部和虚部表示或以相位和幅度表示。也可以采用更复杂的表示。一个例子是采用相位相关表示。
应当指出,可以将应用于多帧分割的自顶向下和自底向上方法组合起来。例如,首先,对输入holon进行自顶向下的分割分析,以便识别holon中不适合于大多数或主导结构的局外部分区域。其次,用自底向上的分割分析来搜寻局外部分区域内的均匀区域。
下面的两个较佳实施例区分将运动估计与分割组合起来的两种方式。
第三个较佳实施例:分开的运动估计和分割
在第三个较佳实施例(图5)中,用于各个帧In,n=1,2,...的强度数据以及参考图象IR 505的强度数据被输入到运动估计器520中。所得的运动估计DARn 525被传送到双线性模拟单元EstBLM 540。形成的双线性模型参数545被传送到分割单元EstSegm 560,它产生分割结果565。
EstMov运算器520可以包含检测内部初步分割指示符(indicator)如IR或In中的边缘以及深度和空间新息的装置,可以采用这些装置,以便增强运动估计DARn525(例如,不使得运动场在明显的初步分割边界处模糊),并与运动估计一起传送到其他的单元。
双线性模型参数545主要由参数模拟运动数据DARn及其不确定性的参数构成,但也可以再包括有关经运动补偿的强度变化DIRn等的参数。
在上述标题为“Method and Apparatus for Coordination of MotionDetermination Over Multiple Frames”的专利申请中给出了协调运动估计和双线性模拟的一些相关的方法。
在该第一个实施例中采用了几个反馈环路级
首先,运动估计器EstMov 520采用了先前建立的初步分割信息,以便使边缘、闭塞和深度的处理最佳:运动场在跨越可靠初步分割边界处不被平滑。
EstMov 520还采用了前述建立的双线性模拟结果522,以便使运动估计对不确定的模糊和噪声灵敏度稳定。这些初步信息521和522已经在用于前面的帧、其它金字塔形(pyramidal)帧鉴别或前面的迭代的单元EstNLB 540和EstSeg 560中分别获得。
在双线性模拟单元EstBLM 540中,双线性模型是根据初步分割信息521单独为每一初步分割(holon)而开发(develop)的。在双线性模拟块EstBLM 540中,可以处理来自其他相关holon和来自其holon关系不清楚的象素的信息,从而不会对双线性模型产生不利的影响(例如,在类似于单个变量块的双线性模拟中具有低加权的额外(extra)X变量,或者如类似于X块和Y块的PLS2或PCR双线性模拟的Y变量)。
因此相同,初步双线性模型参数估计522可以与新的运动场DAR,n(n=1,2,...,525)一起形成(modelled),以产生用于运动以及选择用于经运动补偿的强度变化等的更新双线性序列模型545。
第四个较佳实施例:联合运动估计和分割
运动估计、深度评估和分割是相互独立的过程,它们应当以整体(integrated)的方式来最佳地处理对待。在第三个较佳实施例中,运动估计和分割算子(operator)是通过初步双线性结果521、522的反馈来协调的。在第四个较佳实施例中,这些算子是完全集成在一起的。在这种情况下,双线性估计可以用较少的计算机工作量(power)来完成,这是因为它是单独对相对完全独立的分割进行运算的。
在该实施例中。按照图6,输入数据605和初步分割和双线性模拟结果623被输入到EstMov/EstSeg 620,该EstMov/EstSeg 620传送有关找到的holon的运动场DARn及其估计的不确定性、闭塞等625和分割信息665。在EstBLM 640中,双线性模型几种针对每一holon单独进行更新。另外,正如在第三个较佳实施例中所描述的那样,可以临时(tentatively)将holon间的关系和具有不清楚holon分类的象素降低加权,或定义为Y变量。
应当注意,对于图5和图6中描述的反馈结构,运动估计和分割也可以看成是双线性模型估计的整体构成部分。在EstBLM540、640中,与传统的奇异值分解或本征值分解一样,在收敛或完全稳定以前,不必进行估计过程。每一holon545所获得的子空间改进了下一轮的运动估计和分割已经足够了。因此,通过改进的运动估计和分割对输入到EstBLM的输入数据修改进可以被当成是双线性估计过程分一部分。
下面的两个实施例涉及在序列的帧之间进行协调。
第五个较佳实施例:在一步中模拟整个帧序列。
在第五个较佳实施例中,整个序列要经过运动估计;接着将整个序列的这些运动估计提交进行双线性模拟。最后,序列中holon的双线性模型或多个模型用来进行分割。采用图5进行描述,来自前一迭代(或金字塔形(pyramidal)分辨级)的双线性模型结果522和分割521结果被反馈到运动估计520和双线性模拟540中以便使这些估计过程稳定和方便。
采用经更新的双线性运动和强度变化模型以及经更新的分割,可以接着重复整个序列的模拟。
第六个较佳实施例:序列模型的逐渐更新
在第六个较佳实施例中,双线性模型545是在对每一帧n=1,2,...进行运动估计结束以后进行更新的。这可以对每一已经分开的holon分割而进行的,但也可以对帧中所有的holon来进行。分割565同样可以在每一帧以后来更新。在较佳实施例中,除了沿holon边缘进行的删除过程以外,主要的再分割只有当运动数据清楚地显示出需要这样做时才是被允许的。
有关双线性模型更新的进一步细节见上述专利申请“对多个帧进行运动判断协调的方法和装置”。
同样,将各个帧引入模拟和分割的顺序可以是不固定的。一旦对所有的帧进行了模拟和分割以后,可以再次对分割开始整个过程,但现在对双线性模型和分割具有了更好的起始值。
估计的分割边界中的估计不确定性与分割边界信息一起被存储起来,并用作后续的编码步骤中。具有不清楚分割分类的象素,例如在围绕所选分割边界的区域中的象素被当作具有高不确定性来对待。在后续运动估计和双线性模拟中,不确定性象素是如前所述给出低加权或通过主分量回归(Martens & Naes 1989)来被动拟合(passively fitted)的。在后续分割中,不确定性的象素包括在新的分割估计中,但给予低的先验输入加权(705)。
下面的两个实施例涉及使双线性模型参数估计适合于分割应用的特殊技术。
第七个较佳实施例:采用附加平滑准则(smoothness criteria)来修改双线性模拟
用来获取上述双线性模型的双线性参数估计可以被修改成需要或支持要被满足的附加统计限制,比如需要或偏离要被平滑的T中的时间标记矢量或P中空间载荷矢量,至少在没有发现初步分割边界的地方。
这是在用于每一因子a的NIPALS算法迭代的内部完成的(见Marten,H.和Naes,T.(1989)Multivariate Calaibration.J.Wiley & Sons Ltd,Chichester UK.),如用具有线标号的伪码所示出的那样:
对于每一因子a,每一新的迭代定义如下:
(810)通过将在前一因子以后将D中的剩余数据投影到从前一迭代得到的平滑的比例标记矢量ta上来估计空间载荷矢量pa,raw的原始(raw)估计。
(820)提交这些原始空间载荷矢量pa,raw进行空间平滑:pa=f(pa,raw)。平滑方法可以是简单的箱车(boxcar)滤波器,或者是寻求一种方法,在跨越应当让其不被平滑的明显边缘时,避免平滑。平滑载荷pa相对于先前估计因子[p1,p2,...,pa-1]的载荷正交化。
(830)通过将剩余数据投影到被平滑的载荷pa上来估计原始标记ta,raw。
(840)提交该原始标记矢量,进行时间平滑,例如箱车平滑或更先进的平滑:ta=f(ta,raw)。
(850)对经平滑的标记矢量ta取比例成长度1,并迭代重复该过程,直到充分收敛为止。
本实施例中双线性模拟的进一步加强是将双线性模型的迭代再加权最小平方拟合应用于该数据,以便减小局外帧或局外象素的影响:等式(3)中的行的加权Vframes和列Vpels加权可以根据来自先前迭代中的低秩双线性模型的校正剩余,按照行和列的平均不确定性标准偏差的更新估计的逆来迭代更新。
其更详细的描述见上述专利申请“Method and Apparatus for Coordination ofMotion Determination”。
第八个较佳实施例:作为双线性模拟一部分的基于规则的最佳标度
在双线性模拟540、640中,不仅可以改变双线性模拟参数以获取更好的模拟,而且在双线性模型参数估计过程中可以改变输入数据中的值,例如DARn。可以迭代修改用于帧和象素的运动数据dan,pel中的各个元素,从而更加符合从其他帧或象素得到的模型:
dan,pel=f(dan,pel(input(输入)),dan,pelHat,Rules(规则)),
这里,对于双线性模拟dan,pelHat=tn*Ppel。
规则的一个例子是:
if(如果dan,pelHat给出的运动拟合din,pel与dan,pel(input)给出的一样或更好),
and(dan,pelHat位于dan,pel(input)的统计不确定性范围内),
then(dan,pel=dan,pelHat)
else(dan,pel=dan,pel(input))。
除了数据元素dan,pel的这种离散定义以外,也可以采用dan,pelHat和dan,pel(input)比较连续的加权平均函数。
更详细的描述见上述专利申请“Method and Apparatus for Coordination ofMotion Determination”。
上述组合又是一种实施例。
其他应用:
时间域中的双线性结构分割
上述分割/聚类技术可以用来判定适合于一起分析的帧(序列)的分组-以及检测景象(scene)平移。一种实施例这进行帧强度的简单双线性模拟(可能的分组取样(subsample)),并在标记空间T中进行非分层聚类分析(non-hierarchical clusteranalysis),以便寻找具有更多公共图象材料的帧聚类。本实施例中最好进行稳健的单个聚类分析(robust single cluster analysis),以便能够跟随一单个聚类内的景象中的运动。
其他类型数据的应用
另一个实施例是将上述原则应用于时间系列的数据,例如,声音数据,以便定义时间分割。在这种情况下,空间运动场数据与时间卷绕(time warp)估计对应,而空间强度变化时间与时间强度变化数据对应。
用于译码(帧的重构)的本发明的输出的使用见WO 95/34172中的说明。
专业人员可以在后文中的权利要求的范围内对本发明作各种修改。尤其是,术语“多个”可以被解释成是“一个或一个以上’的意义。