一种基于置信度的汉字书写质量评价方法 【技术领域】
本发明属于利用计算机模式识别对手写文字图像进行识别处理的技术领域,特别是涉及一种基于置信度的汉字书写质量评价方法。
技术背景
手写汉字书写质量评价是利用计算机智能判别用户手写汉字的书写质量,其中书写质量包括书写是否正确、工整以及熟练三个方面的内容。手写汉字书写质量评价技术涉及到模式识别、图像处理、人工智能和计算机等学科,也涉及到语言文字学、书法、认知心理学等,是一门综合性很强的技术。
但是汉字书写质量评价有很多难点。首先,汉字字量大,仅国标一级字库中就有3755个汉字,而《现代汉语字典》中收集的汉字约11000个,即使智能评价3000个以上的汉字书写仍是一个相当大的问题;其次,汉字结构复杂,笔画最多的汉字有三十多画,平均每个汉字的笔画数约为11,所以手写汉字不可避免的会带来一些噪声,如连笔、笔画畸变等;再次,汉字相似性大,如“人、入”,“日、曰”,“己、已、巳”等,这些相似字有的仅有一点之差,有时人也不一定能辨认出写的不规范的手写体,这就给智能评价带来了很大的困难和挑战;最后,汉字字体众多,最常见的有楷书,行书,草书,隶书,篆书等,对各种字体书写评价的规则也是不一样的。所以目前汉字书写质量评价依然是个具有挑战性的研究题目。本文对书写质量评价做了初步的探讨,提出了一种基于置信度分析的汉字书写质量评价。
【发明内容】
本发明的目的在于创新性的提出了一种新的汉字书写质量评价方法,即基于置信度的汉字书写质量评价。
本发明采用的技术方案为:
一种基于置信度的汉字书写质量评价方法,其步骤如下:
(1)、利用修正二次判决函数计算候选字距离;
(2)、对候选字距离进行尺度调整;
(3)、利用候选字距离计算置信度;
(4)、利用置信度进行汉字书写质量评价
所述步骤(1)是利用修正二次判决函数(MQDF)分类器对手写汉字进行识别,得到K个候选字(一般取K=10),并计算每个候选字与手写样本的距离。MQDF分类器判决函数描述如下,
而由MQDF分类器计算出的距离di为:
di=(x-μi)TΣi-1(x-μi)+log|Σi|]]>
其中∑i是协方差矩阵,μi是样本均值。
所述步骤(2)是对候选字距离进行尺度调整。由于由MQDF计算得到的距离di的数值有时较大,取负指数后变为0,不利于计算,因此需要将di做一个尺度上的调整di′=di/D0,其中D0为尺度因子,要根据训练样本的识别距离大小估计。估计的方法如下,
对一定数量的训练样本(从训练样本随机抽取,如:50个),统计第一候选距离最小值dmin和最末一个候选的距离最大值dmax,应有:
为了方便计算和参数调整,选取D0=2N,使得下式成立:
exp{dmax/2N-2}≤10-10exp{dmin/2N-2}Σi=0candidateNum-1exp{[dmin+i*(dmax-dmin)/(candidateNum-1)]/2N-2}≥0.5]]>
其中,candidateNum为候选类别个数,即选取的前candidateNum个候选字,dmin是第一候选距离最小值,dmax是最末一个候选的距离最大值。
所述步骤(3)是利用已经得到的候选字距离计算置信度。置信度的计算方法如下,
P(ωi|x)=exp(di/D0-2)Σjexp(dj/D0-2)]]>
其中dj,i=1,...,K分别为前K个候选字的距离,D0为第二步中计算出的尺度因子。
所述步骤(4)是根据第三步中得到的候选字置信度,对汉字书写质量进行评价。选取适当的阈值区间,可以对汉字书写质量进行等级评价。阈值区间的选取跟训练样本、样本置信度分布的均值和方差有密切的关系。对于不同训练集合阈值空间的划分是不一样的,要根据置信度分布的均值和方差通过实验求的。
本发明的原理是根据汉字识别的相关知识,利用汉字识别分类器计算得到的候选字距离,计算首选候选字的置信度。根据此置信度来对手写汉字进行书写质量评价。本文创新性的提出了利用置信度进行书写质量评价。
【附图说明】
图1是本发明的系统结构框图;
图2是中科院CASIA-OLHWDB1数据库中提取的样本;
图3是SCUT-COUCH2009数据库中提取的样本;
图4是中科院CASIA-OLHWDB1数据库书写质量等级划分结果;
图5是SCUT-COUCH2009数据库书写质量等级划分结果。
【具体实施方式】
下面结合附图对本发明做进一步的说明,实施本发明所用的汉字书写质量评价设备可以采用手写板书写汉字,用计算机进行评价,用纯平型显示器显示用户图形界面,可采用C语言编制各类处理程序,便能较好地实施本发明。
本发明的系统结构框图如附图1所示,手写汉字输入后,首先对样本提取特征,然后送入分类器。利用分类器计算出候选字的置信度,根据该置信度对汉字进行书写质量评价。
这种基于置信度的汉字书写质量评价方法,其步骤如下:
(1)、利用修正二次判决函数计算候选字距离;
(2)、对候选字距离进行尺度调整;
(3)、利用候选字距离计算置信度;
(4)、利用置信度进行汉字书写质量评价
所述步骤(1)是利用修正二次判决函数计算候选字距离。MQDF分类器如下,
而由MQDF计算出的距离di为:
di=(x-μi)TΣi-1(x-μi)+log|Σi|]]>
其中∑i是协方差矩阵,μi是样本均值。
所述步骤(2)是对候选字距离进行尺度调整。由于由MQDF计算得到的距离di地数值有时较大,取负指数后变为0,不利于计算,因此需要将di做一个尺度上的调整di′=di/D0,其中D0为尺度因子,要根据训练样本的识别距离大小估计。估计的方法如下,
对一定数量的训练样本(从训练样本随机抽取,如:50个),统计第一候选距离最小值dmin和最末一个候选的距离最大值dmax,应有:
为了方便计算和参数调整,取D0=2N,则
exp{dmax/2N-2}≤10-10exp{dmin/2N-2}Σi=0candidateNum-1exp{[dmin+i*(dmax-dmin)/(candidateNum-1)]/2N-2}≥0.5]]>
其中,candidateNum为候选类别个数,即选取的前candidateNum个候选字,dmin是第一候选距离最小值,dmax是最末一个候选的距离最大值。
所述步骤(3)是利用已经得到的候选字距离计算置信度。置信度的计算方法如下,
P(ωi|x)=exp(di/D0-2)Σjexp(dj/D0-2)]]>
其中dj,i=1,...,K分别为前K个候选字的距离,D0为第二步中计算出的尺度因子。
所述步骤(4)是根据第三步中得到的候选字置信度,对汉字书写质量进行评价。如附图2,3所示,根据置信度由大到小排列的样本集合,是样本从工整到潦草的过程。选取适当的阈值区间,可以对汉字书写质量进行等级评价。阈值区间的选取跟训练样本、样本置信度分布的均值和方差有密切的关系。对于不同训练集合阈值空间的划分是不一样的,要根据置信度分布的均值和方差通过实验求的。评价结果如附图4,5所示,从上到下每行依次是优、良、中、差、潦草五个等级。