文档图像二值化方法及其装置,以及文档图像处理器 【技术领域】
本发明涉及图像处理与模式识别的技术领域,更具体地说,涉及对文档图像进行二值化的方法及其装置,以及包括该图像二值化装置的图像处理器。
背景技术
文档图像的二值化,是指将彩色或灰度文档图像转化为二值图像。通常的二值化方法在二值化处理过程中,由于只利用单幅图像的信息尽量做到最优二值化,因此往往存在二值化效果不够优化的缺陷,尤其在二值化质量的稳定性上表现不佳。即使对于同一文档的不同图像副本,使用通常的二值化方法所获得的二值文档图像也往往存在明显的差异性。
在文档图像的二值化处理中,尤其重要的是提高同类型文档图像的二值化效果和二值化质量稳定性。
同类型文档是指在某应用中针对某一任务或目的服务的文档。一般而言,同类型文档具有相同或类似的特性,诸如相同或类似的字体字号,相同或类似的排版方式,相同或类似的内容构成等。例如,一本论文集里的各个页面文档就属于同类型文档。对于一些办公表格文档,各文档间存在部分完全相同的内容,如预先印制内容和表格线等,而仅仅是在填写的内容上存在差别。这种相同或类似性也反映到图像上,在理想情况下,同类型文档的图像属性在不同图像实例之间是能保持一致的。因此,理想的二值化方法能使同类型文档的二值图像在图像属性上保持一致。但是,在真实环境中,图像采集方式和参数千差万别,采集过程中降质因素(如噪声、光照变化、倾斜、变形、色差等)无法预测,无法实现上述的理想采集方式。这是导致同类型文档的不同图像实例之间存在差异性的本质原因。以最常使用的平板扫描仪采集灰度文档图像为例,亮度变化、噪声、倾斜等都是常见的降质因素,它们会导致即使相同文档的两次扫描中所得的图像都会存在较大差异。从图像二值化的角度来看,用同一二值化方法对同类型文档图像进行二值化所得到的结果中存在的差异性,其源头还是在于图像采集过程中降质因素的差异性。
现有的局部自适应的二值化方法在一定程度上改善了上述问题,但对方法参数的设定存在一定的依赖性,二值化效果也不尽如人意。例如,局部阈值法能处理较为复杂的情况,但往往忽略了图像的边缘特征,容易出现伪影现象。再如,动态阈值法充分考虑了像元的邻域特征,能够根据图像的不同背景情况自适应地改变阈值,可较精确地提取出二值图像,但它过渡地夸大了像元的邻域灰度的变化,会把不均匀灰度分布的背景分割到目标中去,带来许多不应出现的假目标。
【发明内容】
鉴于上述现有技术中的缺陷,需要提供一种可改善同类型文档图像的二值化效果以及提高二值化质量稳定性的文档图像二值化技术。
根据本发明的第一方面,提供一种对文档图像进行二值化的方法,包括:学习步骤,用于通过预定的第一二值化算法,从类型相同的至少一个待二值化的文档图像中选取预定数量的文档图像作为训练样本进行学习,以获得所述训练样本所对应的二值图像地属性,作为所述至少一个待二值化的文档图像所对应的二值图像的公共参考属性;和二值化优化处理步骤,用于通过预定的第二二值化算法,根据获得的所述公共参考属性对所述至少一个待二值化的文档图像中的每一个进行二值化优化处理,以使得每一个所得到的最终二值图像的属性与所述公共参考属性相一致。
根据本发明的第二方面,提供一种对文档图像进行二值化的装置,包括:文档图像学习单元,其被配置成通过预定的第一二值化算法,对于从类型相同的至少一个待二值化的文档图像中选取的预定数量的训练样本进行学习,以获得所述训练样本所对应的二值图像的属性,作为所述至少一个待二值化的文档图像所对应的二值图像的公共参考属性;和二值化优化处理单元,其被配置成通过预定的第二二值化算法,根据所述公共参考属性对所述至少一个待二值化的文档图像中的每一个进行二值化优化处理,以使得每一个所得到的最终二值图像的属性与所述公共参考属性相一致。
根据本发明的第三方面,提供一种文档图像处理器,其具有如上述本发明第二方面所述的对文档图像进行二值化的装置。
通过本发明的对文档图像进行二值化的方法和装置,在对同类型的文档进行二值化处理的过程中,在获得更加优化的二值化效果的同时,对于二值化质量稳定性具有较明显的提高。
【附图说明】
通过结合附图对本发明的具体实施方式的描述,本发明的以上的和其它目的、特点和优点将变得清楚。在各附图中,相同或类似的附图标记表示相同或者类似的功能部件或步骤。在附图中:
图1是示出了根据本发明的对文档图像进行二值化的方法的一个实施例的流程简图;
图2是示出了图1中的二值化优化处理步骤的一种具体实现方式的流程简图;
图3是示出了根据本发明的对文档图像进行二值化的装置的一个实施例的简化框图;和
图4是示出了图3中的文档图像学习单元和二值化优化处理单元的一种具体实现方式的简化框图。
【具体实施方式】
图1示出了根据本发明的对文档图像进行二值化的方法的一个实施例的流程简图。如图1所示,在步骤S100,输入类型相同的至少一个待二值化的文档图像。在步骤S110,通过预定的第一二值化算法,从所输入的文档图像中选取预定数量的文档图像作为训练样本进行学习,以获得所述训练样本所对应的二值图像的属性,作为所述至少一个待二值化的文档图像所对应的二值图像的公共参考属性。在步骤S120,通过预定的第二二值化算法,根据获得的所述公共参考属性对所输入的至少一个待二值化的文档图像中的每一个进行二值化优化处理,以使得每一个所得到的二值图像的属性与所述公共参考属性相一致。在步骤S130,输出所得到的最终二值图像。
在此需要说明,图1中的输入待二值化文档图像的步骤S100以及输出优化的最终二值图像的步骤S130是现有的二值化方法都具有的通常的处理步骤,而并非实现本发明的目的所必要的。最终二值图像的属性与所述公共参考属性一致,既可以指两者相同,也可以指两者之间非常接近,例如,两者之间的差异小于某个预定值。下面将会对此详细描述。
本发明人经研究发现,通过将某类型文档图像进二值化后得到的二值图像的属性与该类型文档图像所对应的二值图像的公共参考属性进行比较,可以评估二值化效果。即,如果该文档图像经过二值化处理后的二值图像的属性偏离公共参考属性较多,则表明二值化效果较差或未达到较优的状态。将这种差异状态反馈到二值化处理中,对二值化处理的参数进行调整,就可能获得更优的二值化处理参数。利用这种更优的参数进行二值化处理,能够得到更加优化合理的二值化结果。由于在这种反馈机制中以所得到的公共参考属性作为基准属性,该类型文档图像经过二值化处理后的二值图像的属性都与该公共参考属性相一致,即,相同或差异很小,因此降低了该类型文档图像在二值图像模式上的差异性,增强了二值化处理的二值化质量稳定性。
图2示出了图1中的二值化优化处理步骤S120的一种具体实现方式的流程简图,其中就是通过上述的反馈机制来对待二值化文档图像进行二值化优化处理的。如图2所示,在步骤S210,输入待二值化的文档图像。在步骤S220,通过预定的第二二值化算法对该待二值化文档图像进行处理,以获得与该二值化文档图像相应的初始二值化参数。在步骤S230,使用该初始二值化参数对该文档图像进行二值化。在步骤S240,将所得到的二值图像的属性与学习步骤中所获得的公共参考属性进行比较以获得两者的差异,以便对该二值图像进行二值化质量评估。在步骤S250,判定所述差异是否大于或等于预定值,即,是否需要进行二值化优化。如果该差异大于或等于预定值(步骤S250的判定结果为“是”),则判定需要进行二值化优化,处理流程进行到步骤S260,调整在步骤S220获得的初始二值化参数。然后,将所述经调整的二值化参数取代该初始二值化参数来对该文档图像重复执行所述步骤S2310,S240,S250和S260的处理,直至所述差异小于所述预定值,从而结束所述二值化优化处理步骤并获得该文档图像的最终二值图像。如果所述差异小于预定值(步骤S250的判定结果为“否”),判定对该待二值化文档图像的二值化处理已经得到最优结果,不需要再进行二值化优化,则处理流程进行到步骤S270,输出二值图像作为与该文档图像对应的优化的最终二值图像。容易理解,图2中步骤S230-S260的处理构成反馈机制。
上述图2中是以所述至少一个待二值化的文档图像中的一个文档图像为例描述了本发明的通过学习和反馈机制对文档图像进行二值化的方法。容易理解,对于待二值化的文档图像中的其他每一个文档图像,可进行类似的处理,以便获得每个待二值化文档图像的优化的最终二值图像。
作为一种优选方案,在根据本发明的上述对同类型文档图像进行二值化的方法中,学习步骤S110中使用的预定的第一二值化算法和二值化优化处理步骤S120中使用的预定的第二二值化算法是相同的二值化算法。但是,由于可通过学习机制以及反馈机制获得二值化质量优异和稳定的二值图像,因此,所述预定的第一二值化算法和预定的第二二值化算法也可以是不同的,例如,只要这些二值化算法进行二值化处理的原理相同或者类似,且二值化处理结果差异不大即可。此外,对这些二值化算法的选择也无需特别限制,其可以是任意一种能对文档图像进行二值化处理的方法。
本领域技术人员理解,在根据本发明的上述对文档图像进行二值化的方法中,待二值化的同类型文档图像的数量可以是一个或一个以上。如果只需要对一个文档图像进行本发明的二值化优化处理,则可在学习步骤中利用两个或者更多个该文档图像的副本作为训练样本进行学习。正如上述,由于现有的二值化方法甚至对于同一文档图像进行若干次二值化处理所得到的二值图像在属性方面都存在差异,因此,通过对同一文档图像的多个副本进行学习,以及根据学习所得到的公共参考属性,利用反馈机制对该文档图像进行二值化优化处理,就可得到优化的二值图像。
训练样本的数量可以小于或等于待二值化的文档图像的数量。容易理解,当待二值化的同类型文档图像较多时,可按照预定的规则选择其中具有代表性的文档图像作为训练样本进行学习。所述预定规则例如可以是论文集每一章的首篇文档等。当然,任意选择训练样本亦无不可。当待二值化的同类型文档图像很少时,也可把所有待二值化文档图像作为训练样本进行学习。
文档图像的主体元素是文字字符,其也是二值化的主要对象。字符笔划宽度是与图像二值化效果最相关的属性。图像二值化的过分割与欠分割分别导致字符笔划过细和过粗,它们分别表明二值化阈值偏低或偏高(以灰度级0代表前景,灰度级255代表背景)。好的图像二值化使笔划宽度尽可能接近真实宽度。因此,笔划宽度可以用来充当二值化质量评估的指标。二值图像的笔划宽度偏离真实笔划宽度越小,则二值化效果越好。通过笔划宽度偏差,能够判断二值化结果是否为过分割或欠分割状态,以及过分割或欠分割的程度,这可被称为分割度,也就是二值化效果评估。虽然字符笔划宽度在不同文档的区域往往存在变化,但在总体上,对于同类型文档,文档平均笔划宽度具有较好的稳定性。因此对于同类型的待二值化文档图像,可通过学习预定数量的样本来获得与这些待二值化文档图像相应的平均笔划宽度的期望值,作为所述的公共参考属性。
于是,通过利用学习机制来获得平均笔划宽度的期望值的信息,使得二值化质量评估成为可能。通过在反馈机制中根据该二值化质量评估结果来调节二值化参数,可将二值化分割状态调整到一个更优化的状态,从而能够实现二值化优化处理。
下面分别对图1中所示的学习步骤S110和二值化优化处理步骤S120的处理进行详细描述。为了简洁起见,以下将以文档图像对应的二值图像的字符笔划宽度作为需要进行学习和二值化优化处理的二值图像属性的例子来进行描述。但是,本领域技术人员理解,取决于待二值化的文档图像的特性,也可利用不同于字符笔划宽度的、与图像二值化效果相关的其他属性作为进行学习和二值化质量评估的对象。例如,如果待二值化的图像中存在较多的图元是图片,则在学习过程中可将与这种图像对应的二值图像的连通域等作为需要学习的属性以得到公共参考属性,并在二值化优化处理过程中根据所得到的这种公共参考属性来进行二值化优化处理。学习步骤110的任务在于通过对训练样本的学习,获得二值化优化处理步骤S120所需的知识。具体地说,该知识包括在图2的步骤S240中进行二值化质量评估需要使用的、文档平均笔划宽度的期望值。
通过扫描二值文档图像的笔划游程并进行分析,可获得该平均笔划宽度的期望值。其具体步骤如下:
首先,计算一个训练样本的文档平均笔划宽度。文档平均笔划宽度通过分析二值文档图像的笔划宽度直方图得到。使用预定的第二二值化算法对该训练样本进行二值化,获得二值图像。水平方向扫描竖直笔划对应的游程长度即为竖直笔划的宽度。竖直方向扫描水平笔划对应的游程长度即为水平笔划的宽度。二值笔划宽度直方图可通过扫描二值游程长度来构建。在水平扫描中水平笔划和竖直扫描中竖直笔划是笔划宽度计算中的噪声,应该剔除掉。这些游程往往表现出较大的长度。因此,将长度大于一定数值的游程从直方图中抛弃。剩下的游程即可视为笔划游程,其游程长度即代表笔划宽度,游长均值即为文档平均笔划宽度。如,先对初始的游程长度直方图求取初始平均值,长度大于初始平均值的游程从直方图中剔除。然后,在剩下的游程中取长度均值即为文档平均笔划宽度。
接着,计算文档平均笔划宽度期望值。对所有训练样本重复上一步的处理,得到各训练文档的文档平均笔划宽度,对所得到的这些训练样本的文档平均笔划宽度求取平均值,即为该同类型文档图像的文档平均笔划宽度的期望值,记为
下面以文档平均笔划宽度的期望值作为所述公共参考属性,结合图2对图1中所示的二值化优化处理步骤S120的处理进行详细描述。
如上所述,文档笔划宽度与文档图像二值化质量紧密相关。当文档笔划宽度低于文档平均笔划宽度期望值,则表明笔划过细,存在过分割现象;反之,当文档笔划宽度高于文档平均笔划宽度期望值,则表明笔划过粗,存在欠分割现象。文档笔划宽度和文档平均笔划宽度期望值之间的差异大小则反映了过分割或欠分割的程度。将文档平均笔划宽度期望值与文档平均笔划宽度之间的比值定义为分割度Y,即:
分割度Y表明了二值文档图像的分割程度,当Y>1的时候表明发生了过分割,当Y<1的时候表明发生了欠分割。Y与1之间的差值则用来衡量文档图像的二值化结果的效果或质量,即为二值化质量评估值d(Y)。因此,利用上述文档图像二值化质量评估方法可以获得文档二值化的分割度Y和质量评估值d(Y)。这即是图2中的步骤S240所进行的处理。
在步骤S250中,当确定质量评估值不满足要求的时候需要进行二值化质量的优化。质量评估值不满足要求是指质量评估值过大,分割度Y与1的差异过大,表明二值化质量不够优化。
在步骤S260中,将二值化评估结果反馈到二值化优化处理中,调节二值化参数,就可以调整二值化结果,促使其向更优的方向转化,从而实现文档图像二值化质量的优化。由于分割度与二值化阈值存在本质联系。当过分割发生的时候,表明阈值偏低;当欠分割发生的时候,表明阈值偏高。将阈值调高或调低可以改变图像二值化的过分割或欠分割状态,促使其向优化状态转化。本方法使用二值化参数X来对二值化阈值进行调节,该二值化参数例如可以是二值化阈值调节系数,该二值化阈值用来对文档图像执行二值化。用当前的二值化阈值与经调整的二值化参数X相乘得到新的二值化阈值,从而实现对二值化阈值的调整。当二值化质量评估结果表明二值化阈值偏低的时候提高二值化参数X的值,当二值化质量评估结果表明二值化阈值偏高的时候降低二值化参数X的值。
利用经过调整的二值化阈值重复地进行步骤S230,S240,S250,S260的处理,直至质量评估值表明二值化质量足够优化,由此得到经优化的最终二值图像。从而通过反馈机制实现了二值化优化处理。
令I表示二值图像,T代表二值化阈值,则Y与X之间的关系可表示为:
Y=f(X,I,T) (1)
则二值化质量评估值可表示为下列的二值化质量评估函数:
d(Y)=d(f)=|f(X,I,T)-1| (2)
二值化优化处理的目标就在于寻找X的值满足Y→1或d(Y)→0,即:
X^=argmind(Y)=argmin|f(X,I,T)-1|---(3)]]>
上述公式(3)表示使得d(Y)为最小的X的值,即X的期望值
由于图像是Y-X函数关系中的参数之一,根据本发明的通过上述反馈机制进行二值化优化处理的过程可以采用迭代的方式来实现。具体地,利用迭代方式来对待二值化的文档图像中的每一个实现的二值化优化处理可包括以下步骤:
第一步:获得待二值化文档图像的初始二值化参数
采用预定的二值化算法(即上述的预定的第二二值化算法)对待二值化文档图像进行处理以得到初始二值化参数。
第二步:文档图像二值化
采用该预定的二值化算法,根据所述初始二值化参数文档图像进行二值化,获得二值文档图像。
第三步:对第二步中所获得的二值图像进行二值化质量评估
采用上述基于文档平均笔划宽度期望值的二值化质量评估方法获得二值文档图像的分割度Y和二值化质量评估值d(Y)。若d(Y)小于预定值,则表明二值化质量足够优化,不需要进行后续步骤,直接输出二值图像作为优化的最终二值图像。否则,表明需要进行后续优化处理。
第四步:调整二值化参数X
根据二值化质量评估结果调整二值化参数X,即修改阈值调节系数,从而得到新的二值化阈值。当Y<1时减小X的值以降低二值化阈值,从而减弱欠分割程度。当Y>1时增大X以提高阈值,从而降低过分割程度。
通过经调整的二值化参数X得到新的二值化阈值,重复地进行上述第二到第四步的处理,重复修改X值,调节二值化结果,使d(Y)变小,直到找到X值使所得到的二值文档图像的二值化质量评估值d(Y)小于所述预定值,则表明得到该文档图像的优化二值图像。于是,通过迭代的方式完成了二值化优化处理。
根据一种优选实施方案,在上述的二值化优化处理过程中,可以通过对X值的不断尝试逼近,获得最佳值,即二值化参数X的期望值可利用在学习步骤中获得的阈值调节参数X与二值化质量评估结果之间的关系,即Y-X关系,根据Y值与优化目标值1.0之间差值,对X值的修改量进行预测,以便加快二值化优化处理过程中迭代优化的速度。为此,在学习步骤中还可以通过对训练样本的学习,获得与待二值化的同类型文档相应的阈值调节参数X与二值化质量评估结果之间的关系,该关系表示为Y-X关系。对于每个训练样本图像进行(X,Y)数据点采样,对X进行采样,计算对应的分割度Y值,构成(X,Y)数据点。然后,用曲线关系对Y-X关系进行拟合。具体由以下步骤实现:
第一步:文档(X,Y)数据点获取
对X值进行采样,可采用与上述预定的第一二值化算法或者预定的第二二值化算法,获得不同的X值对应的二值文档图像。再利用与上述二值化优化处理中第三步的二值化质量评估方法相同的方法计算不同X值对应的二值化质量评估Y值,构建(X,Y)数据点。需要关注的是Y=1.0附近的数据点,而此时对应的X一般也在1.0附近。因此,以X为自变量,求Y的曲线函数,可在X=1.0附近进行采样。可以令上述学习步骤中对训练样本进行学习时首次获得的二值图像所对应的X为1.0,在此基础上进行二值化参数调节。例如,以0.1为采样间隔,在X=1.0附近,各取5个采样点共11个采样点,则可计算出这11个采样点对应的Y值。
第二步:阈值调节参数与二值化质量评估结果关系学习
对每一个训练样本执行上述的(X,Y)数据点获取。在获得每个训练样本的(X,Y)数据点后,构建一个大的数据点集合。基于该数据点集合,采用曲线拟合方式逼近Y-X关系。以下将会对此详细描述。
根据一个优选实施例,在所述学习步骤中,根据所述至少一个待二值化的文档图像的特性以及这些文档图像所对应的期望笔划宽度、所对应的二值图像的分割度与进行二值化所根据的二值化参数之间的关系,构建二值化关系数据库。在执行二值化优化处理步骤的过程中,在所述初始二值化参数获取步骤之前,判定待二值化的文档图像的特性是否与所述二值化关系数据库中的某特性匹配,响应于特性匹配的判定结果,直接利用所述数据库中与所述匹配特性相对应的期望笔划宽度以及二值图像的分割度与进行二值化所根据的二值化参数之间的关系来对所述待二值化的文档图像进行二值化,以得到该待二值化的文档图像的最终二值图像。以此方式,如果待二值化的文档图像的类型已经存储在所述二值化关系数据库中,则可以利用已经存储的与该文档图像类型对应的、所学习到的期望笔划宽度以及所对应的二值图像的分割度与进行二值化所根据的二值化参数之间的关系来进行后续的二值化优化处理,省却了选取训练样本进行学习的时间和成本,提高了二值化速度和效率。这里所说的特性例如可以是相同或类似的字体字号,相同或类似的排版方式,相同或类似的内容构成等。
应当理解,学习步骤对训练样本所进行的学习既可以在实际执行二值化处理时进行,也可以预先进行。例如,可以在系统空闲时进行所述的学习,这样在实际执行二值化优化处理时,就可以直接利用已学习到的知识进行基于反馈机制的二值化优化,提高了二值化效率。
为了更加深刻地理解本发明,下面通过一个具体例子来对本发明的方法进行详细描述。
在本例中,以数字图书馆中的论文集扫描为例,描述本发明的基于学习机制和反馈机制增强文档图像二值化质量的方法。论文集正文部分的各页面文档视为同类型文档图像,用扫描仪将论文集全部页面扫描成文档图像。在本例中,二值化算法选用Otsu全局二值化方法。本发明的基于学习机制和反馈机制的二值化优化方法包括两大阶段:学习阶段和二值化优化处理阶段。
学习阶段
从论文集的文档图像中取部分页面文档作为学习阶段的训练样本。本例中取正文部分的前5页的文档图像,分别用Pi,i=1~5来表示。对训练样本进行学习要实现以下两项任务:
1.学习文档类型平均笔划宽度期望值
获取各训练样本的文档平均笔划宽度值,在此基础上计算文档平均笔划宽度期望值。文档平均笔划宽度通过扫描二值文档的笔划游程并进行分析得到。其具体步骤如下:
1.1文档平均笔划宽度计算
调用预定的第一二值化算法,在本例中为Otsu方法,对各训练样本进行二值化获得二值文档图像Pi,i=1~5。对二值文档图像进行水平和竖直方向的游程长度扫描,统计游程长度直方图为Rj,平均游程长度为M,长度大于M的游程视为水平扫描中的水平笔划或竖直扫描中的竖直笔划游程,需要剔除掉。剩下的游程长度的平均值即可视为笔划游程,其游程长度即代表平均笔划宽度,如公式(4)所示:
Wi=1M∑j=1Mj*Rj---(4)]]>
1.2文档平均笔划宽度期望值计算
对所有训练样本重复上一步,得到各训练样本的平均笔划宽度,其平均值即为该类型文档的平均笔划宽度期望值,记为如公式(5)所示:
W^=15∑i=15Wi---(5)]]>
2.学习二值化参数与二值化质量评估结果的关系
通过训练样本的学习获得二值化参数X,本例中即为二值化阈值调节参数,与分割度Y之间的关系,用于在二值化优化处理过程中调节二值化参数。对于每个训练样本进行(X,Y)数据对采样,对X进行采样,利用二值化质量评估方法计算对应的分割度Y值,构成(X,Y)数据点。然后,用线性关系对Y-X关系进行拟合。具体由以下步骤实现:
2.1文档(X,Y)数据点获取
对X值进行采样,获得不同的X值对应的二值文档图像。再利用上述的二值化质量评估方法计算不同X值对应的分割度Y值,构建(X,Y)数据点。可在上述步骤1.1中首次获得的初始二值化文档图像基础上进行参数调节,初始二值化对应的X值为1.0,二值化阈值参数为T。假设以0.1为采样间隔,在X=1.0两侧,各取5个采样点,则11个采样点,分别表示为Xi∈{0.5,0.6,0.7,0.8,0.9,1.0,1.1,1.2,1.3,1.4,1.5},i=1..11。各Xi值对应的新二值化阈值为:
Ti=T*Xi (6)
利用Ti值生成新的二值文档图像,并利用二值化质量评估方法计算对应的分割度Yi值,则可构建该文档数据点集。
Rk={(Xi,Yi)|i=1,...,11} (7)
2.2二值化阈值调节参数与二值化评估关系拟合
对每个训练样本文档图像获取其(X,Y)数据点,组合起来构建一个大的数据点集合R。
R=∪k=15Rk---(8)]]>
观察Y=1.0附近区域的Y-X数据分布,即在该类型文档的平均笔划宽度期望值附近区域,Y-X关系近似于线性关系。在本例中,用线性关系来近似表示文档类型的Y-X关系。通过采用最小二乘线性拟合方法在该数据点集合上获得如下公式(9)所示的线性关系。
Y=γX+b (9)
当然,本领域技术人员理解,Y-X关系也可能是非线性的。只要获得关于Y-X的足够的数据点,总是可利用曲线拟合方法或者其他任何合适的方法得到两者的关系表达式。
二值化优化处理阶段
在本发明的二值化优化处理中,利用学习阶段获得的知识,基于二值化质量评估与反馈机制执行文档图像的二值化优化,实现二值化优化处理过程。这种基于反馈机制的二值化优化处理例如可采用迭代的方式实现,在迭代中不断调整二值化阈值参数,直到二值化质量评估结果达到最优。该阶段具体实施步骤如下:
1.获得初始二值化参数
采用预定的第二二值化算法,在本例中为Otsu方法,对文档图像进行处理,获得初始二值图像对应的初始二值化阈值参数T。
2.二值文档图像二值化质量评估
采用上述的二值化质量评估方法获得初始二值文档图像的分割度Y和二值化质量评估值d(Y)。若d(Y)小于预定值ε,则表明二值化质量足够优化,不需要进行后续步骤,直接输出二值文档图像结果。在本例中ε被设为0.05。若二值化质量评估满足要求,则直接输出二值文档图像,否则进行后续二值化优化处理。本领域技术人员理解,二值化质量评估中使用的预定值ε可以根据实际需要确定。
3.初始迭代参数设置
迭代优化中涉及阈值调节参数X,分割度Y和X改变量δ三个参数,令各次迭代的参数为(Xk,Yk,δk)。初始二值化参数X的值为1.0,对应的迭代参数设为(X0=1.0,Y0,δ0=0),利用学习阶段获得的Y-X关系对X的优化修改幅度进行预测有助于减少迭代次数。
根据上述公式(9),采用线性预测方法,目标为使Y1=1.0,联立方程
{Y0=rX0-b
{1=Y1=rX1-b ==>(1-Y0)=r(X1-X0)==>X1=X0+(1-Y0)/r
于是得到如下的初始迭代参数:
X1=X0+(1-Y0)/γY1=W^/W1δ1=(X1-X0)/2---(10)]]>
其中W1为X1对应的二值文档图像的平均笔划宽度。
于是,初始迭代参数被设置为(X1,Y1,δ1)。
在此需要说明,如果只利用学习阶段中得到的平均笔划宽度期望值来执行基于反馈机制的二值化优化处理,而不使用学习机制中得到的Y-X关系优化初始迭代参数,也可以实现对文档图像二值化的优化处理。利用公式(10)设置初始迭代参数只是一种优选的方案,可使得迭代优化过程快速高效地实现。
4.通过迭代优化文档图像二值化质量
二值化质量优化的目标就在于寻找二值化参数,即阈值调节系数X值使得满足分割度Y→1或二值化质量评估值d(Y)→0。
根据二值化质量评估结果修改阈值调节系数X,即调整二值化阈值T,根据该调整二值化阈值T生成新的二值文档图像,使二值化质量向优化方向转化。当Y<1的时候,减小X值可降低二值化阈值,减弱欠分割程度。当Y>1的时候,增大X值则可提高二值化阈值,从而降低过分割程度。采用迭代的方式调整X值,直到达到优化目标。令第K次迭代中X的改变量为δk,则在第K+1次迭代中,X被修改为:
Xk+1=Xk+δk;ifYk>1Xk+1=Xk-δk;ifYk<1---(11)]]>
新的二值化阈值调整为:
Tk+1=Xk+1*Tk
使用新的二值化阈值所得到的新的二值文档图像为Ik+1,在新的二值文档图像上进行二值化质量评估获得新的分割度Yk+1和质量评估值dk+1。当dk<ε表明迭代达到收敛,完成二值化优化处理过程,输出最终二值文档图像。如上所述,这时表明最终二值图像的平均笔划宽度与平均笔划宽度期望值即所述公共参考属性达到一致。
δk代表X的调整幅度,大的δk值有助于快速收敛,但不利于提高收敛精度。在一种优选实施方案中,为了防止陷入局部最优以至震荡发生,可使δk在迭代中逐渐减小,按以下方式在迭代中进行调整:
δk+1=δk/2;if|▿dk|/|▿dk-1|<0.5or▿dk≥0δk+1=δk;else---(12)]]>
其中当时,表明可能陷入局部最优,需要减少δk。当时,表明收敛速度较快,故应该减小步长,提高精度。
本领域技术人员理解,除了本例中的二值化阈值调节系数X以外,本发明的方法还可以对与文档图像二值化有关的其他二值化参数进行基于学习机制和反馈机制的调节。例如,直接对二值化阈值本身进行调节亦无不可。
从上述描述可看出,与传统的二值化方法单阶段处理方相比,本发明的该方法特点在于分学习和二值化优化处理两个阶段进行,学习阶段获取同类型文档图像属性知识,例如同类型文档图像的二值图像平均笔划宽度期望值,二值图像质量评估结果与二值化参数的关系等等。二值化优化处理阶段利用所获得的属性知识指导二值化优化处理过程。基于学习阶段获得的属性知识,有效的二值化效果或质量评估成为可能。在二值化优化处理阶段将二值化质量评估结果反馈到二值化方法中,调整二值化参数,从而实现了优化的二值化质量。本发明的这种方法例如可应用于数字图书馆、办公自动化等。
本领域技术人员理解,在上述实施例中,同类型的待二值化文档图像中也可能存在例如图片等非字符图元,在对训练样本学习的阶段可不对这些图元进行学习。在对文档图像进行二值化优化处理过程中,可以按照所使用的预定的第二二值化算法中通常的处理模式对这些非字符图元进行二值化处理。容易理解,如果某类型的多个待处理文档图像中大部分相同或者类似的特性不是字符而是例如图片、表格等,则可将与图片、表格等相关的属性作为学习阶段的学习对象,获得相关公共参考属性。因此,同样可以利用本发明上述的方法对该类型的文档图像进行二值化优化处理。
本发明还提出了一种可实现上述本发明的基于学习机制和反馈机制的二值化方法的装置。图3是示出了根据本发明的对文档图像进行二值化的装置300的实施例的简化框图。如图3所示,本发明的对文档图像进行二值化的装置300包括文档图像学习单元320和二值化优化处理单元310。文档图像学习单元320通过预定的第一二值化算法对所输入的类型相同的至少一个待二值化的文档图像中选取的预定数量的训练样本进行学习,以获得这些训练样本所对应的二值图像的属性,作为输入的所述至少一个待二值化的文档图像所对应的二值图像的公共参考属性。二值化优化处理单元310通过预定的第二二值化算法,根据所述公共参考属性对所述至少一个待二值化的文档图像中的每一个进行二值化处理,以使得每一个所得到的最终二值图像的属性与所述公共参考属性相一致。
图4是示出了图3中的二值化优化处理单元的一种具体实现方式的简化框图。如图4所示,在该例中,本发明的对文档图像进行二值化的装置400包括文档图像学习单元420和二值化优化处理单元410。其中二值化优化处理单元410用点划线框出,其包括初始二值化参数获取子单元412、二值化子单元414、二值化质量评估子单元416和二值化参数调整子单元418。对于所输入的至少一个待二值化的文档图像中的每一个,初始二值化参数获取子单元412通过预定的第二二值化算法对该文档图像进行处理以获得与之相应的初始二值化参数。二值化子单元414通过该预定的第二二值化算法,根据该初始二值化参数对该文档图像进行二值化。二值化质量评估子单元416将来自二值化子单元414的二值图像的属性与所述公共参考属性进行比较以获得两者的差异,以便对该二值图像进行二值化质量评估。二值化参数调整子单元418响应于所述差异大于或等于预定值,调整所述相应的二值化参数。其中,二值化子单元414、二值化质量评估子单元416和二值化参数调整子单元418以所述经调整的二值化参数取代所述初始二值化参数对该文档图像重复进行相应的处理,直至所述差异小于所述预定值,从而结束所述二值化优化处理并输出该文档图像的最终二值图像。
根据本发明的对文档图像进行二值化的装置的一个实施例,文档图像学习单元420可通过如上本发明的二值化优化处理方法中学习步骤的处理方式来对训练样本进行学习,以获得有关同类型文档图像的二值图像的公共参考属性、二值图像质量评估结果与二值化参数的关系等等知识。具体处理方式不再赘述。
根据本发明的对文档图像进行二值化的装置的另一个实施例,二值化优化处理单元410中包括的初始二值化参数获取子单元412、二值化子单元414、二值化质量评估子单元416和二值化参数调整子单元418可通过如上本发明的二值化优化处理方法中二值化优化处理步骤的处理方式来对待二值化的同类型文档图像进行二值化优化处理。具体处理方式不再赘述。
此外,需要说明,在图4中,文档图像学习单元420通过对训练样本进行学习所获得的有关同类型文档图像的二值图像的公共参考属性的知识被提供给二值化质量评估子单元416,以供二值化优化处理单元410在通过反馈机制执行二值化优化处理时使用。而文档图像学习单元420获得的有关二值图像质量评估结果与二值化参数的关系知识被提供给二值化参数调整子单元418,以供二值化优化处理单元410在以迭代方式实现二值化参数调整时使用。正如上述,即使不提供有关二值图像质量评估结果与二值化参数的关系知识,二值化优化处理单元410也可完成对待二值化的文档图像的二值化优化处理,而这种知识的提供可使得在迭代操作的收敛速度较快,精度较高,因此是一种优选的方案,在图4中用虚线箭头线示出。
本领域技术人员理解,上述本发明的对文档图像进行二值化的方法和装置可以通过仅软件、仅硬件和/或软件与硬件相结合的方式来实现。因此,其实现方式不对本发明的技术范围构成限制。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
本发明还提出一种文档处理器,其可配置如上述本发明的对文档图像进行二值化的装置。这种文档处理器例如包括但不限于扫描仪、具有扫描功能的多功能机等。
本发明的对同类型文档图像进行二值化的方法和装置中的学习功能和二值化优化处理功能可以都在本地实现,或者,当采用分布式配置例如主机客户机模式时,也可以在主机执端行文档图像学习处理,将学习所获得知识提供给客户机以供其在对同类型文档图像进行二值化优化处时使用。
本发明还提出一种机器可读程序,当该程序安装到机器,例如文档图像二值化装置中并运行时,可执行上述本发明的对同类型文档图像进行二值化的方法。
用于承载上述机器可读程序的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒,等等。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。