一种汉字字体的重构方法.pdf

摘要
申请专利号：	CN200910191209.X	申请日：	2009.10.26
公开号：	CN101819683A	公开日：	2010.09.01
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G06T 11/00申请公布日:20100901\|\|\|实质审查的生效IPC(主分类):G06T 11/00申请日:20091026\|\|\|公开
IPC分类号：	G06T11/00; G06F3/048	主分类号：	G06T11/00
申请人：	杨光祥
发明人：	杨光祥; 梁华
地址：	400067 重庆市南岸区重庆工商大学计算机与信息工程学院
优先权：
专利代理机构：	北京瑞盟知识产权代理有限公司 11300	代理人：	赵秉森
PDF下载：	PDF下载

内容摘要

本发明公开了一种通过编辑组合图形或文本，实现字体重构的方法。本发明克服以往字体重构方法成本高，质量差的缺陷，使用软件与人工交互操作的方式，应用循环递归算法，通过对由数据库内模板汉字与待造汉字的相关分解信息的利用，实现图样以及字体的重构，保证字体重构质量的同时，节省了成本、提高了效率。

权利要求书

1：一种汉字字体的重构方法，该方法是通过对属于常规字体的待造汉字、属于同一特殊字体的模板汉字及其图样进行数据分解分析、图像处理的方式，实现特殊字体重构的方法，其特征在于，所述重构方法包括如下步骤： (1)通过人机交互操作，对所有待造汉字与模板汉字按部件进行分解，并将对应单个汉字的所有部件以及相关分解信息以数据的方式录入到数据库中，即汉字特征数据库，其中相关分解信息包括各部件的位置特征信息，以及用于表征不同部件的数值标记或者部件字符； (2)根据模板汉字对应部件的位置特征信息，经人工确认，将各部件对应的模板汉字部件图样进行采样提取并保存； (3)由相应软件程序根据汉字特征数据库中的数据，将所有模板汉字与确定的单个待造汉字或者将所有待造汉字与确定的单个模板汉字，进行部件间的匹配搜索，并将匹配部件以及匹配部件的分解部件所对应的模板汉字部件图样另存为待造汉字部件图样，并根据匹配部件相对于待造汉字的位置特征信息，在单个空白图样内完成对应单个待造汉字各部件图样的尺寸、位置的调整，完成单个待造汉字所有部件图样的保存及调整的，即形成该待造汉字的整体以及部件图样、实现对该待造汉字的字体重构，并在汉字特征数据库中将该待造汉字重新定义为模板汉字，其中分解部件是按照步骤(1)的分解次序对所求部件进行分解所得的部件； (4)通过改变步骤(3)中确定的单个模板或待造汉字，重复步骤(3)，直至汉字特征数据库中只存有模板汉字，即完成对所有录入的待造汉字关于某一特殊字体的字体重构。
2：如权利要求1所述的一种汉字字体的重构方法，其特征在于，所述的特殊字体包括独创的书法字体、个人的书写字体、新的艺术字体。
3：如权利要求1所述的一种汉字字体的重构方法，其特征在于，所述部件包括部首、笔画、笔画元，所述各步骤对部件的处理均是按部首、笔画、笔画元的优先级次序进行的，其中部首是至少具有一个优先级的高优先级部件，笔画元是不可再分的最低优先级部件，笔画的优先级介于部首与笔画元之间，具有较低优先级的部件是对上一级部件的进一步分解。
4：如权利要求1或3所述的一种汉字字体的重构方法，其特征在于，所述的相关分解信息还包括汉汉字的类别号，部件的类别号及其各部件的优先级序号，其中汉字类别号与部件类别号均分为模板与待造两种固定预设标记代码，所述步骤(3)通过改变汉字的类别号，实现对待造汉字的重新定义的同时，以相同的方式对待造汉字的各部件进行重新定义；各部件的优先级序号采用降序或升序的方式表征各部件优先级的高低，其中优先级是根据所述步骤(1)对汉字各部件具体的分解次序所确定的，且分解次序在前的部件，其优先级高。
5：如权利要求1或3所述的一种汉字字体的重构方法，其特征在于，所述步骤(3)中将所有模板汉字与确定的单个待造汉字进行部件间的匹配搜索的过程为：在汉字特征数据中，将某一模板汉字的所有部件与确定的单个待造汉字的某一部件进行对比，该模板汉字有部件与待造汉字的部件匹配的，将该匹配部件对应的模板汉字部件图样另存为该待造汉字的部件图样，并继续对该模板汉字与待造汉字的其他部件进行对比，经上述处理后，该模板汉字与待造汉字没有或者不再有相同部件，且未完成该待造汉字所有部件图样存储的，使用另一个模板汉字与确定的待造汉字进行部件间的对比，其中对比是以部首、笔画、笔画元的优先级次序，将模板汉字所有部件依次与待造汉字的某一部件进行一一对比，认定有匹配部件的，不对待造汉字对应部件的分解部件继续进行对比，未有匹配部件的，对待造汉字对应部件的分解部件继续进行对比；其中匹配部件的认定通过下述方法实现，两者对比部件的数值标记或者字符标记一致的，认定该对对比部件为参选匹配部件，参选匹配部件相应的位置特征信息也一致的，认定该对对比部件为匹配部件，否则认定参选匹配部件为匹配部件。
6：如权利要求1或3所述的一种汉字字体的重构方法，其特征在于，所述步骤(3)中将所有待造汉字与确定的单个模板汉字进行部件间的匹配搜索的过程为：在汉字特征数据中，将某一待造汉字的所有部件与确定的单个模板汉字的某一部件进行对比，该待造汉字有部件与待造汉字的部件匹配的，将该匹配部件对应的模板汉字部件图样另存为该待造汉字的部件图样，并继续对该待造汉字与模板汉字的其他部件进行对比，经上述处理后，该待造汉字与模板汉字没有或者不再有相同部件的，使用另一个待造汉字与确定的模板汉字进行部件间的对比，其中对比是以部首、笔画、笔画元的优先级次序，将待造汉字所有部件依次与模板汉字的某一部件进行一一对比，认定有匹配部件的，待造汉字对应部件的分解部件不继续进行对比，未有匹配部件的，将待造汉字对应部件的分解部件继续进行对比；其中匹配部件的认定通过下述方法实现，两者对比部件的数值标记或者字符标记一致的，认定该对对比部件为参选匹配部件，参选匹配部件相应的位置特征信息也一致的，认定该对对比部件为匹配部件，否则认定参选匹配部件为匹配部件。
7：如权利要求1或3所述的一种汉字字体的重构方法，其特征在于，所述笔画为常规书写笔画，笔画元仅包括点、横、竖、提、捺、撇、钩。
8：如权利要求1所述的一种汉字字体的重构方法，其特征在于，所述步骤(1)、(2)中对应单个汉字的部件的位置特征信息为依照步骤(1)中汉字的分解次序，所求部件及其组合部件的相对位置信息的排列组合，其中组合部件为对应单个汉字中由所求部件组成的所有部件，其中位置关系包括上、下、左、右、中、内、半包围、三包围、全包围、交叉。
9：如权利要求1所述的一种汉字字体的重构方法，其特征在于，所述步骤(2)中的模板汉字图样以位图的格式进行存储，并根据各部件的位置特征信息，利用图样边缘识别技术，通过提取各部件图样相对位置信息为在单一分解次序中，所求部件或者其组合部件相对其他部件的位置关系，的边缘实现对各部件图样的提取。
10：如权利要求1所述的一种汉字字体的重构方法，其特征在于，由所述相应软件程序完成的对该待造汉字的调整及其所形成的待造汉字的图样，不符合特殊字体的，由人工操作的方式对其进行进一步修正。

说明书

一种汉字字体的重构方法
    【技术领域】

    本技术属于文字或图形的设计领域，具体涉及一种通过编辑组合图形或文本，实现字体重构的方法。

    背景技术

    汉字被广泛应用于商业出版、艺术设计、广告宣传等媒体领域，这些领域要求能够产生多种形状颜色花边底纹的字体，以产生良好的艺术和阅读效果及独特性。对于利用设计软件对各种文字进行特殊设计加工，一般都是由具有美术基础的专业人员来操作，这就带来了额外的设计成本和人力与时间成本。

    现有技术中相关的字体设计方法，如未定义字体的模仿软件，只能对较为规格的字体进行模仿，对独创的书法字体、个人的书写字体、新的艺术字体，其重构效果不佳。

    【发明内容】

    本发明所要解决的技术问题是提供一种节约成本，实现对特殊字体有效重构的方法。

    为实现上述目的，本发明采用如下技术方案：一种汉字字体的重构方法，该方法是通过对属于常规字体的待造汉字、属于同一特殊字体的模板汉字及其图样进行数据、图像处理的方式，实现特殊字体重构的方法，其特征在于，所述重构方法包括如下步骤：

    (1)通过人机交互操作，对所有待造汉字与模板汉字按部件进行分解，并将对应单个汉字的所有部件以及相关分解信息以数据的方式录入到数据库中，即汉字特征数据库，其中相关分解信息包括各部件的位置特征信息，以及用于表征不同部件的数值标记或者部件字符。通过人机交互操作，对所有待造汉字与模板汉字按部件进行分解，比起单纯的软件识别处理，能够更加有效地保证部件分解的准确度，为后续处理工作提供可靠的分析处理材料。

    (2)根据模板汉字对应部件的位置特征信息，经人工确认，将各部件应的模板汉字部件图样进行采样提取并保存。结合步骤(1)，本领域技术人员不难看出，本发明通过模板汉字对应部件的位置特征信息，使部件图样与数据库中的部件一一对应，且该位置特征信息是通过人机交互操作，经人工确认所获得，对应关系准确而可靠。实际处理中，现有的属于同一特殊字体的模板汉字，即已用同一特殊字体书写或制作的汉字其数量远比待造汉字少，故人工操作的劳动强度将因此大大减小，操作精确度也将得到保证；在进行本步骤前，先必须对表示在图片或相片上的模板汉字图样进行采样处理，使之成为能够为机器识别的图象信息

    (3)由相应软件程序根据汉字特征数据库中的数据，将所有模板汉字与确定的单个待造汉字或者将所有待造汉字与确定的单个模板汉字，进行部件间的匹配搜索，并将匹配部件以及匹配部件的分解部件所对应的模板汉字部件图样另存为待造汉字部件图样，并根据匹配部件相对于待造汉字的位置特征信息，在单个空白图样内完成对应单个待造汉字各部件图样的尺寸、位置的调整，完成单个待造汉字所有部件图样的保存及调整的，即形成该待造汉字的整体以及部件图样、实现对该待造汉字的字体重构，并在汉字特征数据库中将该待造汉字重新定义为模板汉字，其中分解部件是按照步骤(1)的分解次序对所求部件进行分解所得的部件。

    (4)通过改变步骤(3)中确定的单个模板或待造汉字，重复步骤(3)，直至汉字特征数据库中只存有模板汉字，即完成对所有录入的待造汉字关于某一特殊字体的字体重构。

    本发明使用软件自行处理与人机交互操作相配合的工作方式，应用循环递归算法，通过对数据库内数据信息的利用，形成待造汉字的图样，实现字体的重构，保证字体重构质量的同时，节省了成本、提高了效率。以现有的少量特殊字体的汉字为模板，经过本专利技术可以重新构造出大量的同类字体效果的汉字，即生成特殊字体的字库，如WORD中应用的艺术体字库，可以满足传媒、办公领域的特殊需求。

    进一步，所述部件包括部首、笔画、笔画元，所述各步骤对部件的处理均是按部首、笔画、笔画元的优先级次序进行的，其中部首是至少具有一个优先级的高优先级部件，笔画元是不可再分的最低优先级部件，笔画的优先级介于部首与笔画元之间，具有较低优先级的部件是对上一级部件的进一步分解。分级处理的方式，能够有效提高匹配搜索效率，由于较大的部件优先级高，故优先选取较大的部件作为待造汉字的组成成份，重构后的字体比起全部以笔画元调整的方式，重构效果要好；笔画是至少具有一个优先级的部件，即笔画可根据实际应用中，各邻域对汉字细节的不同要求，相应调整笔画的级数，但该级数应当小于笔画所具有的笔画元数目。对笔画较简单的汉字如“一”，其只有一个优先级，则可将其仅有的部件“横”定义为部首。对于复杂的汉字，其分解的优先级顺序为部首、笔画、笔画元，其中部首不限定为传统的汉字部首，而是具有多个优先级分解次序的高优先级部件。作为一种具体方案，“辙”可分出部首“车”、“育”、“攵”，“育”又可分出部首“月”，随着汉字、部件的分解，其优先级逐渐降低，而笔画是优先级最低的部首的分解部件，笔画元是优先级最低的笔画的分解部件，笔画元之后不再分解。由上可知，虽然本发明对部件分级不作具体限定，但使用分级处理的方式，均能够有效提高匹配搜索效率，总体来讲，本发明中该附加特征所结合的技术方案具有多种实现方式，其总体效果趋于一致，且均能解决本发明所指出的技术问题。

    进一步，所述的相关分解信息还包括汉字的类别号，部件的类别号及其各部件的优先级序号，其中汉字类别号与部件类别号均分为模板与待造两种固定预设标记代码，所述步骤(3)通过改变汉字的类别号，实现对待造汉字的重新定义的同时，以相同的方式对待造汉字的各部件进行重新定义；各部件的优先级序号采用降序或升序的方式表征各部件优先级的高低，其中优先级是根据所述步骤(1)对汉字各部件具体的分解次序所确定的，且分解次序在前的部件，其优先级高。在数据库中，使用一系列数据标号作为相应属性的标记，便于程序的数字识别，有助于提高本发明的处理效率。

    进一步，作为本发明两种可行的循环递归算法，在汉字特征数据中，将某一模板汉字的所有部件与确定的单个待造汉字的某一部件进行对比，该模板汉字有部件与待造汉字的部件匹配的，将该匹配部件对应的模板汉字部件图样另存为该待造汉字的部件图样，并继续对该模板汉字与待造汉字的其他部件进行对比，经上述处理后，该模板汉字与待造汉字没有或者不再有相同部件，且未完成该待造汉字所有部件图样存储的，使用另一个模板汉字与确定的待造汉字进行部件间的对比，其中对比是以部首、笔画、笔画元的优先级次序，将模板汉字所有部件依次与待造汉字的某一部件进行一一对比；或者在汉字特征数据中，将某一待造汉字的所有部件与确定的单个模板汉字的某一部件进行对比，该待造汉字有部件与待造汉字的部件匹配的，将该匹配部件对应的模板汉字部件图样另存为该待造汉字的部件图样，并继续对该待造汉字与模板汉字的其他部件进行对比，经上述处理后，该待造汉字与模板汉字没有或者不再有相同部件的，使用另一个待造汉字与确定的模板汉字进行部件间的对比，其中对比是以部首、笔画、笔画元的优先级次序，将待造汉字所有部件依次与模板汉字的某一部件进行一一对比。

    在完成所有待造汉字字体重构时，上述两种算法的运算次数趋于一致。均属于本发明的可行性方案，且由软件程序完成，效率高且不浪费人力与时间成本。上述两种算法均采用如下设计：

    认定有匹配部件的，不对待造汉字对应部件的分解部件继续进行对比，未有匹配部件的，对待造汉字对应部件的分解部件继续进行对比；其中匹配部件的认定通过下述方法实现，两者对比部件的数值标记或者字符标记一致的，认定该对对比部件为参选匹配部件，参选匹配部件相应的位置特征信息也一致的，认定该对对比部件为匹配部件，否则认定参选匹配部件为匹配部件。

    由于认定有匹配部件的，不对待造汉字对应部件的分解部件继续进行对比，即是对优先级高、部件分解较少或者说较大的部件将优先作为待造汉字的组合部件，该设计使重构后的字体比起全部以笔画元调整的方式，效果要好；通过判断两者对比部件的数值标记或者字符标记、位置特征信息是否一致代替肉眼、图像识别来判断部件的视图上的一致性，充分利用数据库技术，有效提高效率；

    进一步，所述笔画为常规书写笔画，笔画元仅包括点、横、竖、提、捺、撇、钩。该设计明确了部首、笔画、笔画元之间的分类界限，且将部件的最小元素笔画元定义到如上几种，在其他优先级中均无匹配部件的前提下，能够保证待造汉字的所有必须部件的图样都能得以保存。

    进一步，所述步骤(1)、(2)中对应单个汉字的部件的位置特征信息为依照步骤(1)中汉字的分解次序，所求部件及其组合部件相对位置信息的排列组合，其中组合部件为对应汉字中由所求部件组成的所有部件，相对位置信息为在单一分解次序中，所求部件或者其组合部件相对其他部件的位置关系，其中位置关系包括上、下、左、右、中、内、半包围、三包围、全包围、交叉。用该设计所确定的位置特征信息，使部件图样与数据库中的部件的对应关系更加精确，避免由于字形结构相似，程序保存错误图样，从而带来的不必要的调整。

    进一步，所述步骤(2)中的模板汉字图样以位图的格式进行存储，并根据各部件的位置特征信息，利用图样边缘识别技术，通过提取各部件图样的边缘实现对各部件图样的提取。作为一种可实现的优化方案，该设计简单易行，并可根据实际需要改变图样的保存格式。

    进一步，由所述相应软件程序完成的对该待造汉字的调整及其所形成的待造汉字的图样，不符合特殊字体的，由人工操作的方式对其进行进一步修正。根据具体要求，可先针对少量的待造汉字进行重构，由人工操作的方式对其进行进一步修正，增加了模板汉字及其图样的数量后，再应用到大量汉字的重构操作中。这样能够实现更好的重构效果，与一次性大批量重构相比，也能减少最后人工修整的工作量。

    【附图说明】

    下面结合附图和具体实施方式对本实用新型做进一步的说明：

    图1为实现本发明的一种流程图

    【具体实施方式】

    如图1所示，本发明是基于笔画分解和位置特征提取的汉字重构方法。该方法包括如下步骤：

    (1)通过人机交互操作，对所有待造汉字与模板汉字按部件进行分解，并将对应单个汉字的所有部件以及相关分解信息以数据的方式录入到数据库中，即汉字特征数据库，其中相关分解信息包括各部件的位置特征信息，以及用于表征不同部件的字符标记；

    (2)根据模板汉字对应部件的位置特征信息，经人工确认，将所有模板汉字图样对应的各部件进行图样提取并保存；

    (3)由相应软件程序根据汉字特征数据库中的数据，将不同模板汉字与确定的单个待造汉字进行部件间的递进式匹配搜索，并将所得匹配部件对应的模板汉字部件图样另存为该待造汉字的部件图样，直至完成构造该待造汉字所有部件的图样保存，然后根据该待造汉字的结构特征，完成对该待造汉字所有必须部件图样的尺寸及位置的调整，形成该待造汉字的图样，即实现对该待造汉字的字体重构，并在汉字特征数据库中将该待造汉字重新定义为模板汉字；

    (4)针对不同待造汉字重复步骤(3)，直至汉字特征数据库中只存有模板汉字，即完成对所有待造汉字关于某一特殊字体的字体重构。

    其中经过第一步的分解，将所有分解信息用数据库的形式存储，形成汉字特征库，并定义其位置信息。

    列“id”：汉字集中所有汉字的序号；

    列“zi”：汉字；

    列“zs”：属于某单个汉字的笔画元的序号；

    列“zt”：汉字的标记，zt＝1表示该汉字是待构造汉字，zt＝2表示该汉字是模板汉字；

    列“i”(i＝0，1，2…)：构成汉字的偏旁部首、笔画、笔画元；

    列“iw”(i＝0，1，2…)：构成汉字的偏旁部首、笔画、笔画元的位置特征；

    列“is”(i＝0，1，2…)：构成汉字部件(偏旁部首/笔画/笔画元)的笔画元总数；

    列“it”(i＝0，1，2…)：构成汉字的偏旁部首/笔画/笔画元的标记，it＝1表示该偏旁部首/笔画/笔画元是待构造，it＝2表示该偏旁部首/笔画/笔画元是模板；以”版”为例，其数据库信息如下



    而“中”分为上中下结构与左中右结构，代表左中右结构，代表上中下结构，辶，厂，乚，代表不同类型的半包围，匚，凵，冂代表不同类型的三包围，代表全包围，代表交叉结构。

    其中汉字特征库，匹配搜索顺序依次为0，1，2…列，即找出是否相同的部件，只有当前面都没有找到，才用最后的笔画元作为构造汉字的部件，尽量在表中找列号(i)可能大的部件，只有这样，找出的部件才与待构造汉字的某个部件最匹配。

    上述的汉字特征库使用SQL Server创建，以位图的格式，如BMP，进行存储重构过程中生成的各种图样。并根据实际需要，通过图形转换软件，可将所有图样转为字库或者针对几个字进行艺术字体处理。