印刷品无形代码人机两读方法.pdf

上传人:zhu****69 文档编号:4558099 上传时间:2018-10-20 格式:PDF 页数:10 大小:363.29KB
返回 下载 相关 举报
摘要
申请专利号:

CN85100379

申请日:

1985.04.01

公开号:

CN85100379A

公开日:

1986.05.10

当前法律状态:

撤回

有效性:

无权

法律详情:

||||||公开

IPC分类号:

G06K9/18

主分类号:

G06K9/18

申请人:

田志祥

发明人:

田志祥; 钟亭亭

地址:

湖南省长沙市岳麓山湖南省计算技术研究所

优先权:

专利代理机构:

代理人:

PDF下载: PDF下载
内容摘要

印刷品无形代码人机两读方法,用于印刷品信息自动处理,是一种16位二进制数矩阵式平面磁性代码,用来记录我国通用汉字和国际通用字符等信息。其数据结构内设有汉语上下文相关信息描述符,即可供机器高速阅读和输出字符图形,又可实时输出跟人听觉同步的接近自然语言的汉语语音。依据本发明可以建立印刷品各种信息自动处理系统,能使计算机外存书本化。本发明的一切机器操作不受光源限制,在军事、采矿、探险等方面尤有特殊意义。

权利要求书

1: 一种供机器识别用的字符代码,用于印刷品信息自动处理,本发明的特征是16位二进数构成的矩阵式平面代码。
2: 按权利要求1所述的16位二进数构成的矩阵式平面代码,其特征是符号分为两种形式,其一是8×2的0-1矩阵,其二是4×4的0-1矩阵。
3: 按权利要求2所描述的8×2的0-1矩阵,其特征是最后一个位元作方形字符与扁形字符的标识符,0表示扁形字符,1表示方形字符。
4: 按权利要求2所述的4×4的0-1矩阵,其特征是最后两个位元用作上下文相关信息描述符。
5: 按权利要求1所述的16位二进制数所构成的矩阵式平面代码,其特征是用无色磁性油墨或用与印刷品底色相同的磁性油墨,跟对应字符套印在印刷品的同一位置或套印在对应字符下的空白处。

说明书


本发明用于印刷品信息自动处理,是一种间接而简易的中文印刷品机器识别方法。

    利用键盘将印刷资料输入计算机,速度慢,易出错;用光学字符识别装置(OCR)阅读印刷资料既快又准确,但是设备复杂、造价昂贵。为了弥补两者的缺陷,国外需要大量输入印刷资料的行业广泛采用条型码技术。条型码是由若干不同宽度的条型色块或条型空白组成的代码,一般用来记录ASCII字符信息,印于商品包装、卡片、病历、图书封面、车皮以及机器零件上,需要时用光扫描器(Optical    Scanner)读入计算机,计算机解码并进行适当的处理,以达到自动装运、自动计算、自动检索,自动显示和打印,以及自动装配的目的。1970年美国超级市场开始采用UPC条型码,1977年出现了欧式条型码,八十年代起条型码在欧美国家和日本得到了普遍应用。(坚:《深入探讨条型码的应用技术及种类,应用范围日益广泛的资料输入技术》香港《电脑月刊》1984.5)

    用光扫描机(Optical    Scanner)阅读条型码,要求条型码反差强烈、黑白分明(反差比>80%),同时要求宽条型宽度是窄条型宽度的2~3倍,既刺目又要占用较大的视觉空间,有损美观,同时也不宜表记元素过多的符号集合(如汉字)。因此,条型码不能应用于书本和其他文字密集的印刷品,尤其是中文印刷读物。

    目前,一般中文印刷品的信息处理手段还仃留在肉眼阅读、手工抄录的水平上,不但高速全自动的机器识别远未研究成功,就是用键盘编码输入电子计算机的低速半自动方法也还没有达推广应用的阶段。由于信息处理手段落后,我国大量的论文、图书、报表、文件等印刷品得不到及时、充分的利用,甚至得不到利用。

    本发明的目的是为通用汉字集和国际通用字符集建立一种一一对应的代码体系,使中文印刷品能够间接而简易地输入计算机。

    本发明给出两种机器阅读印刷字符的代码(简称机阅代码),第一种用于把印刷品信息输入计算机,计算机只需输出字符图形地场合;第二种用于机器实时把代码转换成语音的场合(当然也可以输出字符图形)。

    机阅代码Ⅰ。

    任意一个字符代码都采用两个字节表示,每个字节都用8位编码表示。两个字节中的前一字节叫做第一字节,表示相应字符在字库中的区号;后一字节叫做第二字节,表示相应字符在字库中的位号;区号十位号就是字符在字库中的地址号。凡收入GB2312-80《信息交换用汉字编码字符集基本集》中的字符编码,均从该《字符集》。

    机阅代码Ⅰ的书面符号形如附图1,是一个8×2的0-1矩阵,第一列为区号,第二列为位号。这个矩阵中的每一格叫做一个位元,每个位元的值为0或1。为了清晰起见,在码本中,位值0用□表示,位值1用*表示。机阅代码1实质上是一个16位二进制数集,其中第二字节的最高位“b82”我们用来作为方形字符(如汉字)与扁形字符(如西文字符)的标识符,1表示方形字符,0表示扁形字符,以控制输入输出时走纸机构的走纸步伐,同时取得了与西文机内码(ASCII码)的兼容性。因此,整个代码集合可表示215=32768个字符,足可以收罗世界各国的当用字符了。

    机阅代码Ⅱ

    机阅代码Ⅱ的书面符号如附图2所示,是一个4阶0-1方阵,其实质也是一个16位二进制数集。b1~b14为字符在字库中的地址号,其中b1~b7为区号,b8~b14为位号。地址号是固定不变的。b15b15为上下文相关信息描述符,是代码的可变部分,需根据印刷内容的语言要素之间的关系制定。

    我们知道,朗读现代汉语书面语,除在段、句、分句、短语之间要有长度不等的仃顿外,在单词、词组之间也需要极短暂的仃顿。当用机器输出语言时,在文章的段、句、分句、短语之间,各种标点符号信息可以控制机器作出相应的仃顿,而单词、词组间的仃顿必须在非标点字符代码内表示。此外,朗读时除音节的声调外,每句话还有语调。音节和声调的控制信息都暗含在字符地址号中;而语调是不能用地址号控制的。上下文相关信息描述符是用来表记词、词组间的仃顿和语调的,它可使机器输出的语言显得情真词切,更接近自然语言。当b15b16为“00”时,表常态;为“01”时,表单词或词组间隔,用于词尾;为“10”时,表示降语调;为“11”时,表示升语调。

    机阅代码是用无色磁性油墨或者与印刷载体底色相同的磁油墨,跟对应字符套印在印刷品的同一位置或字符下的空白处。磁性油墨与机阅代码的对应关系如下式:

    位值    符号    磁性油墨

    本发明虽然在印刷工艺上多一层麻烦,然而却是一劳永逸、一本万利的。一种印刷品在印刷厂多套印一次,成本增加不了几成,但解决了千万册产品长期可用计算机自动处理信息的大问题。

    这种代码肉眼看不到,但极便于机器“阅读”,机器硬件和软件都可以得到大大简化如果将汉语印刷品同时印上对应的这种代码,既可供人阅读,又可供机器阅读。机器只需通过简单的物理转换和简单的译码程序就可以把输入的代码转换成中文信息,从而自动对中文印刷品进行收集、加工、检索、分类、摘录、转抄、综合、分析、统计、传递等等工作。本发明也适用于其他任何文种的印刷品,为便利国际交流,各国应遵循一个统一的代码体系,即汇集世界各国当用字符,建立国际标准“机阅”代码。这样,用这种方法生产的任何文种、任何体式的印刷品均可用机器自动进行各种信息处理;而且可以使各国出版物的机器对译变得简便可行。依据本发明,还可以设计制造简易的各种书面语言的阅读机,可为全世界千百万盲人提供读书工具,儿童、文盲和外国语学习者也会受益匪浅。本发明除可应用在通常的印刷品(如图书资料、档案、信封、病历、证券等)的自动处理外,也适用于商品货物的自动装运计价、交通和生产工具的自动运行,机器零部件的自动组装等等。本发明还可使计算机外存书本化,无限地扩展电子计算机的容量,同时节约了大量的制造穿孔纸带、穿孔卡片、磁带、磁盘的材料。上述机器操作都可以在黑暗中进行,不受光源限制,这在军事、采矿、探险等方面尤有特殊意义。

    国外条型码技术一般只用于ASCII字符,至今还没有人成功地用于中文。而且条型码是利用光电效应转换成字符,必须是有色的,又要跟字符争版面,又不美观。而本发明提供的机阅代码是利用磁电效应进行信息变换、适应于一切字符的代码体系。并且一切机器操作都可以在黑暗中进行。

    跟线性的条型码结构不同,本发明提供的是一种矩阵式的平面代码,有利于多个传感元件并行读取代码信息。同时代码亦能描述现代汉语书面语的上下文相关信息,使机器能够输出同自然语言很接近的语音。

    代码结构简单划一,有固定的长度,刚好用计算机的两个字节表示;位元有固定大小,便于机器定时移位操作。磁电转换比光电转换容易;而且代码为二进制数字,当机阅代码从磁头下通过时,只要依据磁通是否产生感应电流即可判断位元及整个代码的值,从而得到与字符对应的数字信号,这种磁电读入装置可以设计得比较简单。所以这种技术在物理实现上难度是不大的。只要机阅代码字模与对应字符同存同检。不管是人工排印,还是机器自动排印,操作者都不必经过专门训练。

    代码容量大,可以表记世界各国的所有当用字符;印刷密度高,可以印得跟小号字同样大小;用途广,可以应用在有印刷字符的一切场合;信息处理的速度快,效率高,预计可比条型码高出2~3倍以上。

    附图1为机阅代码Ⅰ书面符号示意图,附图2为机阅代码Ⅱ书面符号示意图。

    按附图1和附图2制成跟字符字模同等大小的机阅代码字模(也可以分成若干型号)。若手工排版,代码字模与对应字符字模放在同一字架的同一位置上,检字同时检代码,分别排在格式相同的两付版上;其后工序同一般印刷一样,只是要制两付版,最后字符版用普通油墨,代码版用磁性油墨,套印在同一版面上。若计算机自动排版,则将代码存入只读存贮器(ROM),可擦除编程只读存贮器(EPROM)或随机存贮器(RAM),并用软件跟汉字键盘输入编码和汉字机内码建立对应关系。在计算机上编辑排版只需要输入字符信息,当机内字符版排好后,给计算机一个转换信号,原机软件系统即可自动生成机内代码版;其后程序同原自动排版程序一样,只是要制作两付印刷版,最后字符用普通油墨、代码用磁性油墨,套印在同一版面上。

    对原有的印刷品,确有用机器处理的必要的(如重要科技情报、重要图书、重要教材等),可用专门的机阅代码打印机将磁性机阅代码打印在该印刷品的相应位置,这样原有印刷品也可以变成人机两读式的。机阅代码打字机键盘可以做成仿中文打字机式的,以便利各单位的打字员操作;也可以选择一两种容易掌握的汉字编码方案,采用标准英文键盘输入。

    机阅代码Ⅰ可用并列8个磁头的数字式磁读器阅读。磁读器只要移动两个位元即可读入一个字符的地址号,并直接从字库中取出对应字符(因为机阅代码本身就是字符的标准地址号)。其阅读速度完全取决于走纸机构的机械动作速度,大约能做到每秒200字;若设计制造梳状磁读器,整版整版地扫描,则可实现超高速阅读,每秒能读1~2页。

    机阅代码Ⅱ是用来设计制造有声阅读机的,需要考虑与人的听觉器官摄取信息速度同步,机阅速度不宜过快,可用1~4个磁头的磁读器阅读。当磁读器把一个字符的全部代码输入后,计算机通过极简单的算法找到该字符的地址,综合上下文相关信息描述符,输出该字符的带调音节和上下文相关信息。

印刷品无形代码人机两读方法.pdf_第1页
第1页 / 共10页
印刷品无形代码人机两读方法.pdf_第2页
第2页 / 共10页
印刷品无形代码人机两读方法.pdf_第3页
第3页 / 共10页
点击查看更多>>
资源描述

《印刷品无形代码人机两读方法.pdf》由会员分享,可在线阅读,更多相关《印刷品无形代码人机两读方法.pdf(10页珍藏版)》请在专利查询网上搜索。

印刷品无形代码人机两读方法,用于印刷品信息自动处理,是一种16位二进制数矩阵式平面磁性代码,用来记录我国通用汉字和国际通用字符等信息。其数据结构内设有汉语上下文相关信息描述符,即可供机器高速阅读和输出字符图形,又可实时输出跟人听觉同步的接近自然语言的汉语语音。依据本发明可以建立印刷品各种信息自动处理系统,能使计算机外存书本化。本发明的一切机器操作不受光源限制,在军事、采矿、探险等方面尤有特殊意义。。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1