《一种文本内容无关的褶皱中文手写体鉴别方法.pdf》由会员分享,可在线阅读,更多相关《一种文本内容无关的褶皱中文手写体鉴别方法.pdf(9页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104077604A43申请公布日20141001CN104077604A21申请号201410341142422申请日20140717G06K9/62200601G06F17/3020060171申请人重庆大学地址400044重庆市沙坪坝区沙坪坝正街174号72发明人尚赵伟曹海张太平陈波唐远炎74专利代理机构北京同恒源知识产权代理有限公司11275代理人赵荣之54发明名称一种文本内容无关的褶皱中文手写体鉴别方法57摘要本发明提出了一种文本内容无关的褶皱中文手写体鉴别方法,属于字迹鉴别领域。该方法包括1将手写体文本扫描后输入到计算机,对得到的手写体图像进行预处理;2根据手写体。
2、图像建立图片数据库;3对图片数据库中的每张图片进行散射变换,得到其散射系数;4对散射系数进行拟合,并建立统计模型;5查找与待鉴别的手写体图像相对应的统计模型;6计算待鉴别的手写体图像与候选图片之间的KL距离;7计算识别准确率;8对实验结果进行对比分析和统计。本发明所采用的方法与现有的技术相比,能够在相同时间的花销下取得较高的识别率;尤其针对褶皱情况下的笔迹识别,能够较好地抵抗褶皱,仍然获得较高的正确识别率。51INTCL权利要求书2页说明书5页附图1页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书5页附图1页10申请公布号CN104077604ACN104077604A1。
3、/2页21一种文本内容无关的褶皱中文手写体鉴别方法,其特征在于,包括以下步骤1将手写体文本扫描后输入到计算机,并对扫描后得到的手写体图像进行预处理;2根据手写体图像建立图片数据库;3对图片数据库中的每张图片进行散射变换,得到其散射系数;4对散射系数进行拟合,得到图片对应的拟合参数、,并建立统计模型;5查找与待鉴别的手写体图像相对应的统计模型;6计算待鉴别的手写体图像与候选图片之间的KL距离;7计算识别准确率;8对实验结果进行对比分析和统计。2根据权利要求1所述的一种文本内容无关的褶皱中文手写体鉴别方法,其特征在于步骤1中所所述的对自己图像进行预处理包括以下步骤11除去手写体图像中的噪声和无关字。
4、符;12用定位文本行和投影的方法对单独的字符分割;13把每个字符归一化为大小相同的尺寸,并将这些手写体字符组合成手写体图像。3根据权利要求1所述的一种文本内容无关的褶皱中文手写体鉴别方法,其特征在于步骤2中所述的根据手写体图像建立图片数据库选取N个书写者的2N幅手写体文本作为实验对象,且每两幅手写体文本来自同一书写者;在原手写体图像的基础上,以字符为单位随机排列,使一幅手写体图像分割形成了M幅图片,最终形成具有2NM幅图片的数据库。4根据权利要求3所述的一种文本内容无关的褶皱中文手写体鉴别方法,其特征在于N不小于30;M不小于10。5根据权利要求1所述的一种文本内容无关的褶皱中文手写体鉴别方法。
5、,其特征在于步骤3中所述散射变换的方法为在散射变换中第一阶散射变换的构造如下|FJ,|JX1其中F为图片,表示卷积操作,J,X22J2JRX为小波,J,分别为尺度和方向,JX22J2JX为低通滤波器;因低通滤波器J作用,将会导致高频信息的损失,对小波模进行新的小波再分解,恢复高频信息,如式2公式2中丢失的高频信息又可通过下一轮的小波再分解得以恢复,则第Q阶散射变换为其中SQ,JFX为在Q阶、J个尺度下的散射系数;J为散射变换的尺度数;Q为1到Q各个阶层上的变换方向数集合;散射表达包括所有尺度和方向的散射系数,即权利要求书CN104077604A2/2页3若小波变换的方向数为C,则第Q阶散射变换。
6、沿频率递减的路径数为前Q阶的路径总数为设图片的像素大小为N,采样值为2J1或05,则每条散射路径有N222J个散射系数;则前Q阶散射系数的总数,即散射算子的系数为6根据权利要求1所述的一种文本内容无关的褶皱中文手写体鉴别方法,其特征在于步骤4中对散射系数进行拟合的方法为GAMMA拟合,且得到的拟合参数为尺度参数,用于模拟了概率密度函数峰值的宽度;拟合参数为形状参数,用于模拟反比例于定点的下降速率。7根据权利要求1所述的一种文本内容无关的褶皱中文手写体鉴别方法,其特征在于步骤6所述的计算待鉴别的手写体图像与候选图片之间的KL距离的方法为其中为双伽玛函数,I、I为待鉴别的手写体图像I所对应的拟合参。
7、数;J、J为图片数据库中的图片J对应的拟合参数。8根据权利要求1所述的一种文本内容无关的褶皱中文手写体鉴别方法,其特征在于步骤7所述计算识别准确率的方法为其中K表示属于同一个书写者的图片数目;RI表示每次KL计算结果中,前K个距离最小且与被鉴别的手写体图像属于同一个书写者的图片数目;M表示所有待鉴别的手写体图像数目。权利要求书CN104077604A1/5页4一种文本内容无关的褶皱中文手写体鉴别方法技术领域0001本发明涉及字迹鉴别领域,特别涉及一种文本内容无关的褶皱中文手写体鉴别方法。背景技术0002手写体笔迹识别是根据笔迹对书写者进行身份认证的一种基于生物行为识别技术,已在安防、金融等领域。
8、得到了广泛的应用,并逐渐成为计算机视觉和模式识别领域中研究的热点。通常根据笔迹是否与文本的内容相关,将其分为与文本相关的脱线笔迹识别和与文本无关的脱线笔迹识别两类。与文本无关的脱线笔迹识别克服了前者与书写内容相关的不足,在实际应用中具有制约少,数据易获取等特点,已得到广泛应用。0003与文本无关的脱线笔迹鉴别方法主要有局部特征方法和全局特征方法。局部方法主要通过建立笔迹字典等作为身份鉴别的依据,局部方法对文本图像质量要求较高,通过提取图像的局部特征笔画建立特征库,进行身份鉴别;全局方法将文本图像的内容笔迹视作纹理,提取其纹理特征作为识别依据。20世纪70年代DUVERONY、KUCKUCK认为。
9、书写者的笔迹特征变化主要表现在傅里叶谱的低频部分,提出了利用傅里叶变换FFT的方法来进行笔迹识别;1998年SAID等提出了应用2DGABOR结合欧式权距离WED分类器来进行笔迹身份识别;2005年以后,HEZHENYU等提出了轮廓波变换CT结合广义高斯分布GGD模型的中文笔迹身份识别方法、基于小波分解DWT结合GGD模型方法做身份识别和传统金字塔小波变换结合隐马尔科夫树模型HMT的方法对中文笔迹进行身份识别;2008年XU等提出了利用对偶树复小波DTCWT变换和GGD相结合的方法;2011年朱贝贝等提出利用抗混叠轮廓波NACT结合GGD10和金字塔复方向滤波器组PDTDFB结合GGD的方法。。
10、0004以上方法处理的数据都是正常情况下获取的文本图像,但是在实际应用中,获取的笔迹文本图像可能是对褶皱纸张扫描后获取的文本图像,因纸张褶皱所产生的笔迹会出现一定程度的平移和局部弹性形变,造成相同的文本图像存在一定的视觉差异,笔迹产生了局部平移和局部形变等变化,局部特征方法进行笔迹鉴别时,需对文本图像进行二值化处理,褶皱的笔迹图像由于形变对二值化图像的影响结果较大,且这种影响是随机的和不确定的,使得局部特征方法提取的笔画特征表示的特征质量降低,因此局部特征方法难以处理褶皱笔迹鉴别,所以对褶皱中文笔迹身份进行鉴别,其描述特征应具有局部平移不变性和局部形变稳定性。上述方法所描述的特征不具有局部平移。
11、不变性和局部形变稳定性,均难以处理褶皱情况下的笔迹鉴别,因此褶皱中文手写体鉴别方法的研究非常有意义。发明内容0005有鉴于此,本发明的目的在于克服上述不足,提供一种文本内容无关的褶皱中文手写体鉴别方法,该方法通过利用散射变换的平移不变性和弹性形变稳定性,较好的解决了褶皱情况下的笔迹识别问题。0006本发明的目的是通过以下技术方案实现的说明书CN104077604A2/5页50007一种文本内容无关的褶皱中文手写体鉴别方法,包括以下步骤00081将手写体文本扫描后输入到计算机,并对扫描后得到的手写体图像进行预处理;00092根据手写体图像建立图片数据库;00103对图片数据库中的每张图片进行散射。
12、变换,得到其散射系数;00114对散射系数进行拟合,得到图片对应的拟合参数、,并建立统计模型;00125查找与待鉴别的手写体图像相对应的统计模型;00136计算待鉴别的手写体图像与候选图片之间的KL距离;00147计算识别准确率;00158对实验结果进行对比分析和统计。0016进一步的,步骤1中所所述的对自己图像进行预处理包括以下步骤001711除去手写体图像中的噪声和无关字符;001812用定位文本行和投影的方法对单独的字符分割;001913把每个字符归一化为大小相同的尺寸,并将这些手写体字符组合成手写体图像。0020进一步的,步骤2中所述的根据手写体图像建立图片数据库0021选取N个书写者。
13、的2N幅手写体文本作为实验对象,且每两幅手写体文本来自同一书写者;在原手写体图像的基础上,以字符为单位随机排列,使一幅手写体图像分割形成了M幅图片,最终形成具有2NM幅图片的数据库。0022进一步的,N不小于30;M不小于10。0023进一步的,步骤3中所述散射变换的方法为0024在散射变换中第一阶散射变换的构造如下0025|FJ,|JX10026其中F为图片,表示卷积操作,J,X22J2JRX为小波,J,分别为尺度和方向,JX22J2JX为低通滤波器;0027因低通滤波器J作用,将会导致高频信息的损失,对小波模进行新的小波再分解,恢复高频信息,如式200280029公式2中丢失的高频信息又可。
14、通过下一轮的小波再分解得以恢复,则第Q阶散射变换为00300031其中SQ,JFX为在Q阶、J个尺度下的散射系数;J为散射变换的尺度数;Q为1到Q各个阶层上的变换方向数集合;0032散射表达包括所有尺度和方向的散射系数,即0033说明书CN104077604A3/5页60034若小波变换的方向数为C,则第Q阶散射变换沿频率递减的路径数为前Q阶的路径总数为设图片的像素大小为N,采样值为2J1或05,则每条散射路径有N222J个散射系数;0035则前Q阶散射系数的总数,即散射算子的系数为0036进一步的,步骤4中对散射系数进行拟合的方法为GAMMA拟合,且得到的拟合参数为尺度参数,用于模拟了概率密。
15、度函数峰值的宽度;拟合参数为形状参数,用于模拟反比例于定点的下降速率。0037进一步的,步骤6所述的计算待鉴别的手写体图像与候选图片之间的KL距离的方法为00380039其中为双伽玛函数,I、I为待鉴别的手写体图像I所对应的拟合参数;J、J为图片数据库中的图片J对应的拟合参数。0040进一步的,步骤7所述计算识别准确率的方法为00410042其中K表示属于同一个书写者的图片数目;RI表示每次KL计算结果中,前K个距离最小且与被鉴别的手写体图像属于同一个书写者的图片数目;M表示所有待鉴别的手写体图像数目。0043本发明的优点在于本发明所采用的方法与现有的技术相比,能够在相同时间的花销下取得较高的。
16、识别率。尤其针对褶皱情况下的笔迹识别,本发明能够较好地抵抗褶皱,仍然获得较高的正确识别率,优于现有的技术。0044本发明的其它优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其它优点可以通过下面的说明书,权利要求书,以及附图中所特别指出的结构来实现和获得。附图说明0045为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中0046图1为本发明一种文本内容无关的褶皱中文手写体鉴别方法的流程图;0047图2为本发明的散射变换方法的框。
17、架图。具体实施方式0048以下是本发明优选实施例的详细描述,应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。说明书CN104077604A4/5页70049图1为本发明一种文本内容无关的褶皱中文手写体鉴别方法的流程图;参照图1,一种文本内容无关的褶皱中文手写体鉴别方法,包括以下步骤00501将手写体文本扫描后输入到计算机,并对扫描后得到的手写体图像进行预处理;00512根据手写体图像建立图片数据库;00523对图片数据库中的每张图片进行散射变换,得到其散射系数;00534对散射系数进行拟合,得到图片对应的拟合参数、,并建立统计模型;00545查找与待鉴别的手写体图像相对应。
18、的统计模型;00556计算待鉴别的手写体图像与候选图片之间的KL距离;00567计算识别准确率;00578对实验结果进行对比分析和统计。0058步骤1中所所述的对自己图像进行预处理包括以下步骤005911除去手写体图像中的噪声和无关字符;006012用定位文本行和投影的方法对单独的字符分割;006113把每个字符归一化为大小相同的尺寸,并将这些手写体字符组合成手写体图像。0062步骤2中所述的根据手写体图像建立图片数据库0063选取N个书写者的2N幅手写体文本作为实验对象,且每两幅手写体文本来自同一书写者;在原手写体图像的基础上,以字符为单位随机排列,使一幅手写体图像分割形成了M幅图片,最终形。
19、成具有2NM幅图片的数据库。0064N不小于30;M不小于10。0065图2为本发明的散射变换方法的框架图,参照图2,步骤3中所述散射变换的方法为0066在散射变换中第一阶散射变换的构造如下0067|FJ,|JX10068其中F为图片,表示卷积操作,J,X22J2JRX为小波,J,分别为尺度和方向,JX22J2JX为低通滤波器;0069因低通滤波器J作用,将会导致高频信息的损失,对小波模进行新的小波再分解,恢复高频信息,如式200700071公式2中丢失的高频信息又可通过下一轮的小波再分解得以恢复,则第Q阶散射变换为00720073其中SQ,JFX为在Q阶、J个尺度下的散射系数;J为散射变换的。
20、尺度数;Q为1到Q各个阶层上的变换方向数集合;0074散射表达包括所有尺度和方向的散射系数,即说明书CN104077604A5/5页800750076若小波变换的方向数为C,则第Q阶散射变换沿频率递减的路径数为前Q阶的路径总数为设图片的像素大小为N,采样值为2J1或05,则每条散射路径有N222J个散射系数;0077则前Q阶散射系数的总数,即散射算子的系数为0078步骤4中对散射系数进行拟合的方法为GAMMA拟合,且得到的拟合参数为尺度参数,用于模拟了概率密度函数峰值的宽度;拟合参数为形状参数,用于模拟反比例于定点的下降速率。0079步骤6所述的计算待鉴别的手写体图像与候选图片之间的KL距离的。
21、方法为00800081其中为双伽玛函数,I、I为待鉴别的手写体图像I所对应的拟合参数;J、J为图片数据库中的图片J对应的拟合参数。0082步骤7所述计算识别准确率的方法为00830084其中K表示属于同一个书写者的图片数目;RI表示每次KL计算结果中,前K个距离最小且与被鉴别的手写体图像属于同一个书写者的图片数目;M表示所有待鉴别的手写体图像数目。0085运用本发明的方法SCATTER与抗混叠轮廓波NACT方法、金字塔复方向滤波器组PDTDFB方法、轮廓波方法CTY作对比,对比数据见下表00860087由该表可见,本发明在处理无褶皱情况的文本图片的检索率并没有明显优于另外三种方法,但是在文本出现轻度褶皱甚至是重度褶皱的情况时,本发明的处理效果要明显优于其他,在平均检索率上也高达739,比抗混叠轮廓波NACT方法的571、金字塔复方向滤波器组PDTDFB方法的4984、轮廓波方法CT的4868要高很多。0088本发明最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。说明书CN104077604A1/1页9图1图2说明书附图CN104077604A。