本发明是利用计算机微型机芯片和大容量存贮片,组成一个具有英汉、汉英词典功能的电子产品。 美国《华尔街日报》1988年2月3日报道美国已生产出电子袖珍词典(引至1988年2月23日《参考消息》)。日本人也搞出了英日电子词典。但美国人、日本人搞出的电子词典,不具有英汉、汉英功能。
制造电子词典主要技术问题是缩小体积,减小功耗。英汉、汉英功能电子词典中的词编码存贮体和汉字字形库,尤为庞大。但采用大容量存贮片可解决这个问题。其它技术问题是怎样组成一个合理的硬件结构、数据结构、存贮组织、查译算法,这些问题本发明已经解决。
关于语音处理系统是当今世界各国对第五代计算机人机接口攻关的重大技术课题,是高级语言向自然语言过渡的关键问题。国外现已出现标准英语语音处理片。语音处理技术(模式识别技术),是通过拾音系统采入语音模拟信号经过模式识别处理,最后转换成数字信号。国内清华,哈工大都已搞出汉语单词的语音处理,但没有做成语音处理片。利用语音处理片,直接做成英汉单词朗读互查词典,国内外尚无先例。这项技术的应用离商业化还有一段距离,但时间不会太长。
本发明目的是利用当今计算机技术,开辟新的应用领域。用电子计 算机原理实现英汉、汉英电子词典功能,使英汉、汉英词典电子化,改传统的翻页查找为按键查找和更高级的朗读互查。
图1为英汉电子词典结构方案(一),
图2为(英汉、汉英)电子词典结构方案(二),
图3为电子词典方案(三),
图4为存贮体总结构,
图5为存贮组织示意,
图6存贮组织示意(二),
图7实施例(一)算法框图(英-汉),
图8实施例(一),
图9实施例(二),
图10实施例(三),
图11英汉、汉英算法框图。
下面结合附图说明本发明的详细内容。
.电子词典的总体结构
由图1所示电子词典方案(一),总体结构由10个部分组成。
1.液晶显示器
它的主要作用是显示所查英汉单词。为了显示汉字,液晶点阵不能小于16*15(或16*16),方能满足海内外各种简繁汉字,点阵愈小字形越少。不过,这里不必追求字形多少,有一种基本简单的字形即可。
2.显示驱动电路
它的主要作用是完成驱动液晶显示器。从字形库中取出的字形数据代码,经驱动电路转换成液晶显示点阵的驱动信号。
3.英文字母字形ROM(Read_only_memory只读存贮器)
它的主要作用是存放英文字母字形的数据代码。英文字母字形要求的液晶点阵较少,8*8点阵即可。汉字采用了16*15(或16*16)点阵,故一个汉字字形点阵可表示二个英文字母字形。
4.汉字字形ROM
它的主要作用是存放汉字字形的数据代码。目前国内电子工业部,国家标准局已制定出统一的汉字字形点阵。其字形库片采用2MB或4MB的ROM片,即可装完全部一、二级国标汉字(见人民日报1988.1.30四通公司广告)。这对词典存放宠大的字形代码十分有益。不过在实际应用中不需要这么多汉字。因为英语单词对应的是汉语单词,而不是单字。组成汉语单词组,不需要用到5000至6000单字。所以这部分还可省出大量存贮空间。
5.控制及算法ROM
该部分的作用是存放控制电子词典工作的计算机指令代码。
6.RAM(Random-Memory)随机存贮器
该部分作用是存放使用者最近所学的新单词,便于使用者随时调出复习。这个部分在具体产品实施时,需结合市场考虑,在功能与成本间折衷。决定设还是不设,还是设规模大或规模小。
7.CPU(Computer-unit)计算机主机芯片
该部分作用是完成计算,存取代码,执行控制程序和算法程序指令,实现整个词典功能。
8.汉语单词符号ROM
该部分作用是存放汉语单词符号代码。汉语单词符号代码体系,实际上由单词字的字形库中的字序号组成。
9.英语单词符号ROM
该部分作用是存放英语单词符号代码。这个代码体系,是由英语单词字母字形库中的字母序号组成。
10.键盘(26个英文字母键和功能键)及键盘信号发生电路
该部分作用是通过人工按键,产生相应信号,完成信号输入。该键盘采用计算器上所用的电容式点触型键盘,键数在32个左右即可。
图2所示电子词典结构方案(二)与方案(一)比较,加进了汉英词典功能,能够实现由汉查英。结构上采用的CPU功能更强,汉英单词符号的数据结构、存贮组织及建立查译算法更加复杂,要求ROM容量也更大。
图3所示电子词典结构方案(三),与方案(一)(二)比较,溶合方案(一)(二)的全部功能和特点。且输入方面采用了最先进语音采集系统,与键盘平行作为输入手段。
.电子词典工作原理说明
词典是由键盘键入信号,以中断码形式进入CPU。32个键包括26个英文字母键和相应的功能键,都有对应的中断码。当CPU接收到中断码后,陷入对应中断,调出相应的算法处理及控制程序的指令集 合,引导CPU,完成相应的工作。实现输入、翻译、查找、存贮等功能。
.方案实施
外形尺寸和成本是电子词典本身意义的两个根本问题。既曰词典,体积尺寸就不能超过32开书的大小,价格能让人容忍。在这个前提下,电子词典本身才有意义。为此,设计结构选取CPU是满足价格、体积尺寸的关键。选取CPU作为智能原件,既可选现有微机芯片,也可选可编程控制器PLA(Program-Logic-array)芯片或组合逻辑实现。但这里选用微机芯片,主要是功能、性能、价格、体积间折衷的结果。选取CPU,主要考虑是它的寻址范围、信号提供及它的最小结构所需的总片数、总功耗情况考虑。
方案实施是立足在一定价格及体积尺寸条件限制下。
1.容量计算:
汉字字形采用16*16点阵,16*16=32*8。故一个汉字字形点阵需32个字节空间。根据词典的实际情况,
取4000字:4000*32=128000约128K字节,作为一种汉字字形库。
取1000字:1000*32=32000约32K作为小型字形库。
英文字母字形库存贮器容量,按一个汉字2个英文字母占位计算,一个字母为8个字节点阵既可满足要求(8*8=64点阵)。由此26*8=208个字节,与128K字节相比可忽略。整个字形库按128K字节估算能够满足要求。
英语单词,平均每词按10个字母组成计算,每个字母字形库序号用1个字节,10*1=10个字节。对应由平均10个汉字组成词组释义,就有10个汉字序号组成,因有4000汉字<4096=2的12次方,12<16=2个字节,每个汉字序号按两个字节计算,故有10*2=20字节,因此表示一个词的全部英汉单词符号为30个字节。
词典收词3000*30=90000约90K字节
词典收词5000*30=150000约150K字节
词典收词8000*30=240000约240K字节
词典收词10000*30=300000约300K字节
词典收词20000*30=600000约600K字节
取词典收词10000估算,300K+128K=428K总容量。
取词典收词20000估算,600K+128K=728K总容量。
词典控制及算法程序和部分RAM,所占容量很小,对设计影响不大。
2.硬件结构
要求体积尽可能小,最大不得超过32开书本大小。
要求工作电流小于600mA(或800mA),用外接交流变直流电源或内部电池支持。
图8实施例(一),CPU采用P8088(或8086),工作电流 200mA,寻址范围为1M字节,汇编指令丰富。硬结构由CPU(P8088或8086组成),时钟片8284A,信号锁存、整形(74373、74240等组成),ROM尽可能采用容量大的片子(例如:upd23c4000c/d4MB片或更大),对二万词组词典,4MB片只需两片。对一万词组词典,只需1片。全部片数约6-8片。加上液晶显示板(按2行*10列个字位尺寸选型)和电容式键盘,构成整个电子词典。实施例(一)属实用型。
实施例(一)可在适当缩小收词范围情况下,加进双解和汉英功能,变成英汉双解加汉英功能词典。
对实施例(一)进行改造。其一:8088(8086)芯片寻址是1M字节,改进成1M2字节存贮器。1M字节改成2M字节容量扩大了一倍,收词范围和词典功能可相应增强,电路部分大约增加3-4块片左右。电路由选择器,连接8/16数据接口,再加选通信号电路构成。变成1M2字节存贮器后,数据宽度扩大一倍。原来一个地址读一次,现在一个地址读两次。数据部分(即词典部分)可直接按16位构成。但指令程序部分,由于CPU芯片本身内部的构成原因,仍按一个地址一个字节在取指令,故要浪费低字节部分的存贮空间,但这部分数量不大。我们采用了这种改进方法后,把两个1M字节片并行组成16位1M地址存贮器,其存放指令部分地址单元的低8位虽然浪费,但我们却得到了高于4万收词量的词典,为实用型的增强型。其二:直接利用CPU中多余控制线作为地址线的扩充,也可达到扩展存贮体的目的。
实施例(二)见图9,功能上只有英汉,且是最小型化结构。CPU采 用Z80L(或8085A、8096、8051、68HC11、6502等),工作电流在20MA左右,直接寻址能力64K。容量较小,但收词范围缩小,释意汉字及所需汉字字形精心挑选、排列,压缩在64K范围内。做成小型袖珍词典,整个结构所需片数较少,Z80L芯片不需外加时钟片,故时钟片可省掉,整个体积可做得很小,工作电流压缩在200MA以内,电池支持时间也较长。
对实施例(二)进行同实施例(一)同样的改造,原来64K扩成了64*2=128K。使最小结构的收词量扩大了一倍,使之更有实用意义。
图10实施例(三),功能上除了英汉,还加进了汉英及双解,且收词达数万条。同时把计算功能包括进去,做成功能强大,名符其实的多功能机。这里CPU可采用Z8001寻址能力达8M,采用INTEL80286或MC68000,寻址能力可达16M。其它部分结构与实施例(一)略有不同。实现英汉查找时,输入方法同实施例(一),实现汉英查找时,输入方法采用多种汉字编码输入方案。例如:大众,拼音等。实施例(三)属大型多功能词典。
关于电子词典所需的CPU选型,要求有较大的寻址范围(达1-4M),较小的组织结构,较低的功耗,智能能力只需几条指令,速度只要能满足人工按键的实时能力即可。对于这种要求,我们所选的任何CPU,一方面有寻址能力不够,另一方面有功能浪费之嫌。所以在成批制作时,可考虑用PLA或制作专用芯片。
3.数据结构:
英汉字形库直接采用国标字形代码和它的字序。英文符号码部分,直接引用字母字形地序号。英文26个字母,26<32=2的五次方,即五位二进制或表示全部26个英文字母序号。每个英字母字形代码用8个字节存贮,故序号*8=字形入口地址。由于存贮器按字节存贮,取一个字节。其中五位表示26个英文字母序号,还余3位。两位作为结束符和词性符,放在低两位。另一位作为二级索引标志放最高位。
汉字符号码部份,同样引用字形序号。汉字4000小于4096等于2的12次方。需12位二进制表示字形序号。每个汉字字形代码用32个字节存贮,故汉字字序号*32=字形入口地址。采用12位二进制,但存贮器按字节存贮,取两个字节,16位减去12位,还余4位。其中两位作为结束符和词性符放在最高两位,另两位做为叉词数指示放在次高两位。结束符和词性符定义如下:
英符号码低2位 汉符号码高2位
00 00 词未结束
01 01 词结束 名词 N
01 10 词结束 及物动词 Vt
01 11 词结束 不及物动词Vi
10 01 词结束 连词 Conj
10 10 词结束 代词 Pron
10 11 词结束 数词 Num
11 01 词结束 形容词 A
11 10 词结束 副词 Ad
11 11 词结束 介词 Prep
作为词叉指示的次高两位。是因汉译英时,由于词典按英汉收词组织,故没有英译汉的多个释意词分开存放问题。但汉译英的释意英词就有多个分开存放问题。我们定义为词叉问题。这两位就作为该汉词汉译英的词叉存在及叉词个数指示。2的2次方等于4,可定义四个状态。因此,一个汉字符号码可指示四个英叉词数。
图示:英文符号码
7-6-5-4-3-2-1-0
-
第7位:二级索引标志
第6-2位:英文字母序号
第1-0位:结束符及词性符
汉字符号码:
15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
-
第15-14位:结束符和词性符
第13-12位:词叉存在及叉词个数指示
第11-0位:汉字字序号
词叉存在及叉词数指示位定义如下:
第13位 第12位
0 0 无词叉问题
0 1 有词叉问题,叉词为1
1 0 有词叉问题,叉词为2
1 1 有词叉问题,叉词为3
由多个英文字母符号码和汉字符号码组成英汉单词符号码。
英文符号码找字母字形时,左移一位,后3位填0,拼上高12位段指示,形成1M直接地址。汉字符号码找字形时,乘以32(左移五位),拼上高3位,形成1M直接地址。
这种数据结构,在64K直接寻址芯片应用时(例如:实施例(二)的Z80L)。字形库代码结构和符号代码结构不变,截取位也不变。只是拼装时,段指示长度不同而已。
词链采用2个字节16位。其中高6位为总词长,其二4位为英词字母个数指示,低6位为上词距离。
这里词链采用双向链,总词长为顺链(下链),同时有计数作用,上词距离为逆链(上链),提供了查词顺逆标志。词链结构定义:
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
-
第0-5位:总词长
第6-9位:英语单词字母个数指示
第10-15位:上词距离
由词链、英语单词符号码、汉语单词符号码、叉词入口地址(加汉英时)组成一个词的数据块结构。
为了提高检索速度,采用把英语词典按首字母分成26段。用每段的入口地址来建立一级索引表。索引表表长为26*4字节=104字 节。每个字母占4个字节,一个字节的英文符号码,三个字节的该字母为首字母词段的首词入口地址。
为了压缩单词存贮量,采用把英语单词按构词法分成词头词尾,建立词头词尾索引表(二级索引表)。以英文符号码的最高位为标志。为0则表示不需查表,为1则表示需查二级索引表。该英文符号码是二级索引表的入口地址。这样可把大量词头,例EX,IN等和词尾TION,AL等,压缩存储。2的8次方=256,最高位为1,即128-256范围须放置二级索引表入口间接地址。256
![]()
128=128,故最多只能允许有128种词头词尾索引,但已足够应用。二级索引表,宽为1个字节,其中高3位作为拼装词字母个数指示,低5位作为直接地址的段指示,与原英文符号码8位拼装在一起,形成真正词头词尾符号码地址。
4.存贮组织:
存贮总结构见图4,存贮顺序从低地址开始,0-4特征中断占20个字节突出,从00014h开始,32个键盘中断*4=128=80h,因此00014h-00094h为中断入口指针区,接下来是二级索引表区,再接下来依次是控制及算法程序段,一级索引表区,英汉符号库,汉字字形库,英文字母字形库,启动及初始化段。
存贮组织见图5和图6,给出了一、二级索引表示意图。英汉词典的词块组织示意图。英汉、汉英词典的词块组织示意图。词块长度由词长决定。英汉、汉英部分在词块末尾加入了叉词入口地址。
英汉单词符号部分,由单词的词块,依词典单词顺序组成。
采用密集型存贮。
存贮组织是对实施例1,采用8088(或8086)CPU时情况,针对不同CPU,存贮组织会有变动,但数据结构不变,词块组织不变,索引表不变,英汉字形库不变。
5.算法说明
约定:IP为指令计数器
CS为段地址寄存器
B为英文显示码寄存器
B1为汉字显示码寄存器
X为字符计数器
A、D为通用寄存器
Y为通用计数寄存器
C为地址计数寄存器
E为移位寄存器
->D:表示送入D
(D):表示D的内容
((D)):表示D的内容的内容
例:(A)->D,表示A中内容送入D
D中若放的是一个地址
(D)->A:表示D中地址送A
((D))->A:表示D中地址中内容送A
实施例(一)英汉算法见图7。
该程序分三个功能块:字符入、查词、翻译。
字符入:分成两条路,首次进入和非首次进入。
查词:这里只给了顺查,但在词链中留有逆查标志(上词距离),故有逆查算法。只因逆查只是顺查取反,并无特别,加之画面有限,因此没有列出。
实施例(三)英汉、汉英算法见图11。
英汉部分沿用实施例(一)算法,故只用功能框代替。汉字入部分关系到用几种?用哪几种汉字编码输入方法?故汉字编码方法及码表系统也用功能框替代。但初步考虑用大众和拼音。这里只给出了汉字人经过汉字编码系统取得转换成本机码送入B1寄存器,汉词长指示(3位)特征码(5位)送入L寄存器。这里特征码是该汉词对应英词以何字母为首的词段的标志位(5位),2的5次方=32,故26个字母包全。这样可把全部汉词分成对应英词26个首字母,分为26段,便于查找迅速而设置。
算法中:(B)->Display功能框
(B1)->Display功能框
包括截取词性标志,左移,拼装地址高位,然后取显示码(字形代码)送去显示,当显示的词太长时,还有屏幕滚动动作。
((C))->E低8B功能框
包括判首位索引标志,为0继续。为1查二级索引表,找到词组件,然后从词组件中逐一取字母符号代码入E低8B,进入下步功能框。
(E)=(B)或(B1)?功能框
((A))=(E)低8B?功能框
其中只判字序号相等否。
加汉英部分的算法,只给出了词叉存在指示数为1的情形。
以上部分用大功能框代替是为了直观和限于算法图面。
整个算法采用26段顺序检索法。进入26段由一级索引表引导。由二级索引表引导完成词头,词干,词尾组件拼装,形成目标全词。查词分为顺查、逆查,即AA-AB-AC顺查,AC-AB-AA逆查。输入字母查词时,可全词输完,也可只输第1个字母,或第1、2个字母等等。但必须要输入字母正确,当使用者记不清时,可只输前面的正确字母,按查词键,算法自动完成寻找。当输入第2个以后字母出错时,26段中每段有越界标志判别,越界非法,转向全清。用一地址寄存器保持对词链跟踪。当输入和查到英词按下翻译键,算法完成英翻汉。反过来完成汉翻英。算法中采用多个判别和转向指示,以控制算法正常顺序运行。当一个词全词存在,且已完成翻译,仍有字母输入时认为非法,转向全清。汉字序号*32,英字母序号*8为入口地址引导找出字形库代码,完成显示驱动。汉翻英时,词叉存在指示数大于1,则进行依汉词存放对应位置,依次从词块底部取出叉词地址,找到叉词,送去显示。
整个算法,在实际编程时会有变动。但基本特征不会变,基本功能及过程不会变。
英汉、汉英电子词典,改变了传统的翻页方式,按键查找具有简便,快速的优点。朗读查找更为新颖。电子词典的存贮功能,能存入使用者近期新接触的英语单词,帮助复习。通过按键,帮助使用者记住一个单 词的字母组成和字母顺序。比传统的书本翻页词典具有不可比拟的优越性。
其次,与世界其它国家日本,美国搞出的电子词典比较,具有同样的单词互查功能。但日本人,美国人搞出的电子词典不具有英汉,汉英互查功能,而中国人的电子词典具有此功能,适合我国国情。
英汉、汉英电子词典,具有广大的应用范围。凡需接触英文的人,不论是老人还是小学生。无论哪个行业,包括政治、经济、科技、文化,英汉、汉英电子词典都具有实际意义。针对不同行业,可把英汉电子词典做成电子类、机械类、冶金类、化工类等。根据同样的方法,可做出法文、德文、俄文、西班牙文、日文等等对汉文的电子词典。根据同样的方法,可做出新华字典、汉语词典,或直接把新华字典、汉语词典功能溶入英汉电子词典。随着微电子及计算机技术的发展,价格便宜、体积小巧、功能强大的英汉、汉英电子词典,很快会风行世界。