汉字变换装置.pdf

上传人:a1 文档编号:993750 上传时间:2018-03-24 格式:PDF 页数:18 大小:676.65KB
返回 下载 相关 举报
摘要
申请专利号:

CN94104871.3

申请日:

1994.04.26

公开号:

CN1115884A

公开日:

1996.01.31

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回||||||公开

IPC分类号:

G06F3/023; G06F17/28

主分类号:

G06F3/023; G06F17/28

申请人:

松下电器产业株式会社;

发明人:

周峻慧

地址:

日本大阪府

优先权:

1993.08.06 JP 196371/93

专利代理机构:

上海专利商标事务所

代理人:

汪瑜

PDF下载: PDF下载
内容摘要

减少了不必要的音节截出与辞典检索的汉字变换装置。输入欲变换的标音字符串时,辞典单词长度检索部(11)先对输入标音字符串的各音节,从辞典单词长度信息部(12)取出对应的单词长度信息。变换控制部(13)根据该取出的单词长度信息让其值长的音节第1优先,先输入的音节第2优先,将自该音节起连续的单词长度的标音字符串截出作为辞典部(15)的检索对象,由此汉字变换成辞典检索部(14)检索到的单词后输出,从而提高了变换速度与正确率。

权利要求书

1: 一种汉字变换装置,其特征是具有:①输入标音字符串的输 入部、②登记有标音字符串及其对应的中文单词的辞典部、③将中文 的所有读音同登记在上述辞典部中的由该读音开始的中文单词的单 词长度方面的信息作对应登记的辞典单词长度信息部、④相对输入 标音字符串的各音节,自上述辞典单词长度信息部取出对应单词长 度方面的信息的辞典单词长度检索部、⑤截出输入标音字符串的作 为汉字变换对象的音节时,让上述辞典单词长度检出部取出的单词 长度大的读音为第1优先,让相同单词长度下先输入的音节为第2 优先,截出长度等于根据上述原则选出的音节为开始而取出的单词 长度的标音字符串的音节截出部、⑥以上述音节截出部截出的标音 字符串为检索关键码,检索上述辞典部内对应的中文单词的辞典检 索部、⑦根据上述辞典部检索到的中文单词,将上述标音字符串变 换成对应汉字的变换部。

说明书


汉字变换装置

    本发明涉及汉字变换装置,尤其是关于中文用汉字变换装置。

    汉语文章中使用的汉字种类有一万以上。如何从其中正确又高速输入汉字是包括汉字处理器在内的中文计算机处理中的最重要的课题。以往的汉字输入机构有声音识别、文字识别、键盘等。这些机构中,用键盘的输入最可靠,故获得广泛应用。这种利用键盘的汉字输入方式又分为汉字读音的输入方式和汉字字形的输入方式。其中,后者必须预先记住用于输入的规则,并需花费相当多的时间来背记,到熟练为止也花时间。而前者最自然又容易学习,不仅现今广泛使用,预计将来会成为汉字输入方式的主流。

    作为输入汉字读音的汉字变换装置,例如有台湾专利申请号75105838所记述地装置。图6是这种以往的输入读音的汉字变换装置的结构图。图中,100是输入任意长度的拼音、注音、罗马字等标音字符串(在此,使用复数表现形式的标音字符串,这是因为通常以多个标音字符表示一个音节。然而,日语中原本单、复数区别不明确,因此本说明书中一个标音字符也表述为标音字符串,就“串”而言,不存在严密的复数含义)的输入部。180是将标音字符串及与其对应的单词作登记(永久存贮)的辞典部。140是存贮输入的标音字符串音节数的NCHAR寄存器。(顺便提一下,汉语中原则上是一个汉字为一个音节,所以通常音节数等于汉字数。)120、130分别是将标音字符串变换成单词(当然是指汉字组成的汉语单词)时使用的PTR寄存器和NP寄存器。PTR寄存器120是将标音字符串中截出部分的最先音节位置作为检索对象进行存贮的寄存器。NP寄存器是在把输入标音字符串变换成单词时,对成为辞典内检索对象的单词长度、即构成单词的汉字数、也即音节数,进行存贮的寄存器。150是比较部,它在具有一定长度的单词经检索和变换处理后,将上述NP寄存器的值减1,使由此构成的少一个汉字数的单词在下一次检索,结果形成能采用让构成字数多的单词优先变换的原则。160是变换控制部,它将PTR寄存器120的设定位置控制成从输入标音字符串的最初位置开始依次向后推移,并检查该标音字符串中是否有已被汉字变换过的音节,若所有音节都未被变换,且有与辞典部180对应的单词,则让该标音字符串变换成与其对应的单词,从而能采用优先进行先输入的标音字符串的汉字变换的原则。170是辞典检索部,以上述变换控制部160送来的音节串为检索关键码,检索辞典部180,若有对应单词,就将其送至变换控制部160。190是将上述变换控制部160所变换的结果输出的输出部。

    利用PTR寄存器120、NP寄存器130和比较部150而成为能采用最长一致法,即汉字变换时,使构成音节数多的单词为第1优先,再让先输入音节的汉字变换为第2优先,关于此方法,由于是本发明申请人另外在曾申请过的日本特许(申请号为特愿平5—75911、特愿平5—75912)等中已公开的公知技术,故省去其说明。

    还有些内容因与日文字处理器相同也省去详细说明,例如:若辞典部180中的数据登记按标音字符所定的优先顺序、构成音节数少的顺序,并与同一标音字符对应的汉语单词有多个情况下,要让使用频度高的先显示;要求输入者边参见CRT上的已输入的标音字符显示,边按键盘来进行输入部100的输入;辞典部180由高速半导体存贮器、磁盘等构成;输出部190由CRT、印刷部等构成;用电子对照法进行检索部的检索等。

    再有,不用说还附加有因汉字变换出错而输出非输入者想要的汉字时的处置和学习功能等,因为也是众所周知的技术省去其说明。

    然而,上述那样的汉字变换装置,由于用最长一致法进行汉字变换,对于输入标音字符串,首先要在成为变换对象的最大单词长度下自最初输入音节开始逐个向后推移,截出用来汉字变换的并成为辞典部内检索对象的音节,其次必须在使该单词长度逐一减小基础上再进行相同的检索。因此,汉字变换速度、正确率等各种效率不太好。尤其是在输入文章中无两个文字以上单词情况下,以标音字符串表示的该文章的汉字变换正确率越发下降。例如,当输入“wo3de5 jia1 zai4 shan1 de5 na4 tou2”时,若辞典部中登记的单词长度、进而将成为汉字变换检索对象的最大单词长度为7,则为了从辞典部检出单词,首先由前开始依次截出长度为7的音节串“wo3 de5 jia1 zai4 shan1 de5 na4”、“de5 jia1 zai4shan1 de5 na4 tou2”,如果没有对应的单词,则截出长度由7减1为6的音节串“wo3 de5 jia1 zai4 shan1 de5”、“de5jia1 zai4 shan1 de5 na4”、“jia1 zai4 shan1 de5 na4tou2”,以下相同地截出长度为5的音节串“wo3 de5 jia1 zai4shan1”、“de5 jia1 zai4 shan1 de5”、……、若截不出长度为1的音节“Wo3”、“de5”、“jia1”、“zai4”、“shan1”、“de5”、“na4”、“tou2”,则不能检出对应的字“我”、“的”、“家”、“在”、“山”、“的”、“那”、“头”,而且在检出上述相应的字后,输出汉字变换的结果“我的家在山的那头”。这种情况下,实际上由于对应同一音节的汉字往往存在多个,无论从变换速度方面,还是正确率方面看,变换效率都变得很差。本发明的目的欲解决此问题,提供一种变换效率很好的汉字变换装置。

    为实现上述目的,本发明做成具有这样特征的汉字变换装置,即具有:①输入标音字符串的输入部、②登记有标音字符串及其对应的中文单词的辞典部、③将中文的所有读音同登记在上述辞典部中的由该读音开始的中文单词的单词长度方面的信息作对应登记的辞典单词长度信息部、④相对输入标音字符串的各音节,自上述辞典单词长度信息部取出对应单词长度方面的信息的辞典单词长度检索部、⑤截出输入标音字符串的作为汉字变换对象的音节时,让上述辞典单词长度检出部取出的单词长度大的读音为第1优先,让相同单词长度下先输入的音节为第2优先,截出长度等于根据上述原则选出的音节为开始而取出的单词长度的标音字符串的音节截出部、⑥以上述音节截出部截出的标音字符串为检索关键码,检索上述辞典部内对应的中文单词的辞典检索部、⑦根据上述辞典部检索到的中文单词,将上述标音字符串变换成对应汉字的变换部。

    根据上述结构,由输入部输入将成为汉字变换对象的标音字符串。辞典部中登记有标音字符串及其对应的中文单词。辞典单词长度信息部预先将中文的全部读音同登记在辞典部中的由该读音开始的中文单词的单词长度方面的信息作对应登记。辞典单词长度检索部,对输入标音字符串的各音节,从辞典单词长度信息部取出对应的单词长度信息。音节截出部,在截出来自输入表音字符串的作为汉字变换对象的音节时,让辞典单词长度检索部所取出的单词长度大的读音为第1优先,让相同单词长度下先输入的音节为第2优先,截出从由此选出的读音开始、长度为被取出单词长度的连续标音字符串。辞典检索部以音节截出部截出的标音字符串为检索关键码,检索辞典部内对应的中文单词。变换部根据辞典检索部检索到的中文单词,将成为此检索对象的标音字符串变换成对应的汉字。

    图1是本发明汉字变换装置一实施例的结构图;

    图2是图1实施例的汉字变换处理的工作流程图;

    图3是图1实施例的辞典部的数据结构概念图;

    图4是图1实施例中辞典单词长度信息部的数据结构概念图;

    图5是图1实施例中作为具体例表示的有关输入音节的辞典单词长度信息图;

    图6是以往汉字变换装置的结构图。

    图中标号含义为以下。10:输入部、11:辞典单词长度检索部、12:辞典单词长度信息部、13:变换控制部、14:辞典检索部、15:辞典部、16:输出部。

    以下根据实施例说明本发明。

    图1是本发明汉字变换装置一实施例的结构图。图2是本实施例的处理流程图。图1中,10为输入拼音、注音、罗马字等表音字符的输入部。15为登记有标音字符串及其对应的中文单词的辞典部。14是以标音字符串为检索关键码,从上述辞典部15检出对应的中文单词的辞典检索部。12是登记有中文所有的读音(1个音节组成)及以登记在辞典部15中的该读音开头的中文单词的单词长度方面的信息(作为与读音对应的信息)的辞典单词长度信息部。11是对应输入标音字符串的各音节,从上述辞典单词长度信息部12取出对应单词长度方面的信息的辞典单词长度检索部。13是在截出来自输入标音字符串的作为汉字变换对象的音节时,让上述辞典单词长度检索部11所检出的单词长度长的读音(音节)为第1优先,让相同单词长度下先输入的音节为第2优先,接着截出长度等于根据此两项原则选出的音节为开始而取出的单词长度的标音字符串后,让辞典检索部14检索对应该截出标音字符串的中文单词,若有对应单词,就将它变换成构成此单词的汉字串的变换控制部。(注:这里用了汉字串与复数形式,指单词不用说,至于文章不行,但因还包含文章式句子,故定为“串”。不过,在标音字符串处已说明过,因存在一个汉字的情况,因此“串”在单数、复数方面无严格的意义与区别。)16是将上述变换控制部13所变换的结果进行输出的输出部。

    图3是本实施例的辞典部15内的数据结构概念图。基本结构由通常使用的标音字符串及其对应的中文单词组成,排列顺序与以往技术相同。

    图4是本实施例的辞典单词长度信息部12的数据结构概念图。基本上登记有表示中文所有的读音的信息以及以登记在辞典部15中的该读音开始的中文单词的单词长度(作为与表示中文所有读音的标音字符串和各读音对应的数据),即构成该单词的音节数的信息。若单词长度为1,则表示不存在以该读音开始的二个以上汉字组成的单词。另外,由于中文中不使用以某些读音,例如以“men5”开始的单词。若要从输入标音字符串截出以“men5”开始的音节串作为辞典部的检出对象,就无此必要。

    以下参见图2说明本实施例的处理工作过程。

    S1:输入标音字符串。并进入S2。

    S2:检查当前输入标音字符是否为输入结束键码。若是,就进入S3。若不是,就回到S1,等侍下一个输入。

    S3:根据输入的各音节检索对应单词的单词长度信息。

    S4:根据尚未变换音节对应的单词长度信息,取出未处理的最大单词长度及具有该单词长度的音节,并且,如果同一单词长度下有多个音节,则优先取出先输入的音节后,进入S5。

    S5:讨论能否以取出的音节为截出起点,并以取出的单词长度为截出长度,从输入音节串截出连续的音节串。若能,就进入S6。若不能,就进入S4。

    S6:检查截出的音节串中是否有已汉字变换过的音节。若有已变换过的音节,则进入S7,若设有,则进入S4。

    S7:检索辞典部内是否登记有与当前截出音节串对应的单词。若有对应的单词,则进入S8,若无,则进入S4。

    S8:将作为当前汉字变换的检索对象而截出的音节串,汉字变换成由S7检索到的对应单词后,进入S9。

    S9:检查当前截出的音节是否全已汉字变换。若全已汉字变换,则进入S10,若有未变换的音节,则进入S4。

    S10:全部输出变换结果——汉字串,由此结束输入标音字符串的汉字变换处理。

    现对上述结构的本实施例,举具体输入““wo3 men5 da3qiu2 qu4 ba5”为例,说明其工作。

    当输入该标音字符串(S1)且按下表示输入结束的输入结束键(S2),辞典单词长度检索部就根据各输入的音节检出对应的单词长度信息(S3)。与此时输入各音节对应的单词长度信息的输入顺序示于图5。如图5所示,各输入音节中仅以“da3”开始的读音有最大单词长度“7”(辞典中登记有“打破沙锅问到底”这样7个音节构成的单词)。另外,读音“men5”、“ba5”,没有以它们为开始的双音节以上的单词。

    至于由辞典单词长度检索部11输入的各音节,得知其单词长度信息的变换控制部13,从尚未汉字变换的音节所对应的单词长度信息中取出最大长度“7”以及作为与“7”对应的音节即第3个输入的音节“da3”后(S4),检查是否能截出自输入音节串第3个“da3”开始的7个连续音节(S5)。由于输入音节数本身为6个,判断它为不可能,所以检出下一个有可能音节截出的起始点与长度(S4)。

    此时,从尚未变换音节所对应的单词长度信息取出未处理的最大长度“4”。再取出与长度“4”对应的音节中最优先的即先输入的音节,此情况下是第1个输入的“wo3”(S4)。当然,变换控制部判断能从此音节开始截出连续4个音节(S5),检查该截出音节串“wo3men5 da3 qiu2”中是否有已变换的音节(S6)。由于是全未变换的音节,因此以这些所有音节为检索关键码,用辞典检索部检索辞典部中是否登记有对应的单词(S7)。因没有对应单词,就转为检出下一有可能音节截出的起始点及长度(S4)。

    此时因存在单词长度信息的长度为“4”且尚未成为检索对象的音节,取出该音节中第二优先的音节也即第三个输入的“da3”(S4)。变换控制部判断能够从此第三音节开始截出4个连续音节“da3qiu2 qu4 ba5”(S5),检查该截出音节中是否存在已变换的音节(S6)。由于所有音节未变换,辞典检索部以这些所有音节为检索关键码检索辞典部内是否登记有对应的单词(S7)。由于不存在对应的单词,因此讨论下一个有可能音节截出的起始点与长度(S4)。

    接着,取出作为同样对象的单词长度信息仍为“4”的下一个优先的“qiu2”(S4)。变换控制部判断此为第4个输入的音节,不能截出从此音节开始的4个连续音节(S5)。因此,检知下一个有可能的单词长度(S4)。

    与“7”、“4”时的顺序一样,对于尚未汉字变换的音节,从成为处理对象的单词长度中取出最大长度“3”。优先截出与该“3”对应的音节中最先输入的“da3”(S4)。由变换控制部判断能从此第三音节“da3”开始截出3个连续音节“da3 qiu2 qu4”(S5),并且全都为未变换音节(S6)。辞典检索部以这些音节为检索关键码检索辞典部内是否登记有对应单词(S7)。因不存在对应单词,转为讨论下一个有可能音节截出的起始点与长度。

    接着,取出处理对象长度仍为“3”的下一个优先的音节也即第五个输入的“qu4”(S4)。然而,变换控制部判断不能截出自该音节起对应的3个连续音节(S5),转为讨论下一个有可能音节截出的起始点与长度(S4)。

    此时,成为处理对象的最大长度为“2”。在此基础上,取出对应该长度“2”的音节中最先输入的也即第一个音节“wo3”(S4)。由变换控制部截出从该第一音节开始的2个连续音节“wo3 men5”(S5),而且这些音节全未汉字变换(S6),辞典部以此为检索关键码,检索辞典部内是否存在对应的单词(S7)。由于存在对应的单词“我们”,所以将“wo3 men”变换成“我们”。

    接着,处理对象的长度仍为“2”,取出与长度“2”对应的下一输入也即第三个音节“da3”(S4)。由变换控制部判断从第三输入的“da3”开始截出2个连续音节“da3 qiu2”(S5),这些全部尚未汉字变换(S6)。辞典检索部以这些音节为检索关键码检索辞典部内容,结果检出对应的单词“打球”,在此基础上,将“da3 qiu2”汉字变换成检出的“打球”。

    接着,处理对象长度仍为“2”,取出与此“2”对应的下一个优先的音节也即第五个输入的“qu4”(S4)。变换控制部判断从该第五音节“qu4”开始截出2个连续音节“qu4 ba5”(S5),这些全部尚未汉字变换(S6)。然后,辞典检索部以这些音节为检索关键码检索是否存在对应的单词(S7)。由于没有对应的单词,转为讨论下一个有可能音节截出的起始点与长度(S4)。

    此时,成为处理对象的长度为“1”。此时,从输入的且尚未汉字变换的音节开始依次经辞典部内容检索而汉字变换。截出第五个输入“qu4”(S5),辞典检索部以该“qu4”为检索关键码检索辞典部内容,在检出对应的使用频度最高的文字“去”后(S7),进行汉字变换(S8)。

    接着,第6个音节“ba5”成为处理对象(S4),从辞典部检出发音“ba5”的汉字中使用频度最高的文字“(外1)”—“吧”(S7),汉字变换成“(外1)”(S8)。这时,变换控制部判断作为汉字变换对象的输入音节全已汉字变换,在此基础上,将该变换结果“我们打球去(外1)”输出至输出部,转为结束汉字变换处理。

    以上根据实施例说明了本发明,不用说,本发明不只限于上述实施例,例如下述的情况也包括在本发明范围内。

    (1)不必如图2所示,必须按输入结束键后才开始将输入标音字符串的所有标音字符串变换成汉字,只要输入声调键,即每逢输入一个音节,就从上回输入标音字符串的输入结束位置开始变换至当前输入标音字符串。

    (2)不让辞典单词长度信息部为独立构件,做成与辞典部成一体。

    (3)所谓“标音字符”是指通过表现中文的文章、句子、单词、汉字的发音,用来特别限定输入者想要的文章、句子、单词、汉字的字符。不用说包括台湾的注音符号、该注音符号的第二型和大陆使用的罗马字拼音记号,还包括像日文假名那样的音素字符,其它如朝鲜文中的谚文等。

    另外“汉语文章”指以表意字符为主的文章,文件构成要素不只限于汉字、中文单词,不用说还包括阿拉伯数字,中国看来由外国日本造的汉字“峠”、外文“東京”等,作为文章,还包括日文中的汉文。

    (4)添加有这样的功能,即某些特定音节,以其音节开头的不大有或者所有单词不用其音节开头(如日语中的“ん”),此情况下即使构成其单词的字数很多,辞典部的检索仍轮在后面,反之,某些特定音节,因存在以该音节开始的使用频度很高的单词,对此音节,即使其单词长度短,也使检索优先。

    这些情况下,通过在相应单词长度信息上加上所定标记(印),很容易达到目的。

    (5)为便于制造等,将本发明的一个构件在物理上、机械上分成多个,反之,将多个构件在物理上、机械上制成一体,或者将它们适当组合。

    或者再通过使现有的汉字变换装置存贮本发明的程序、数据,以便发挥本发明的功能。

    (6)从输入者的习惯、想要输入的文章考虑,在发现成为变换对象的单词与汉字本身、构成单词的汉字数有显著特征、频度下,添加对其有效处理的学习功能。

    这些情况下,还可通过设置另外的简单存贮装置、计数装置,在它们的作用下在辞典单词长度信息部内的数据中设优先程序,并通过最终变更单词长度方面信息的登记排列,很容易实现。

    综上所述,若利用本发明,在将标音字符形式输入的音节串变换成汉语文字时,不必对输入音节串,根据可变换的最大单词长度逐次推移,截出所有可能的音节再检索辞典,而是通过参考各音节单词长度方面的信息,使单词长度大的为第1优先,使先输入的音节为第2优先,来截出成为检索对象的单词的音节,因此,能减少不必要的辞典检索。所以,提高了汉字变换装置的效率,而且其效果相当好。

汉字变换装置.pdf_第1页
第1页 / 共18页
汉字变换装置.pdf_第2页
第2页 / 共18页
汉字变换装置.pdf_第3页
第3页 / 共18页
点击查看更多>>
资源描述

《汉字变换装置.pdf》由会员分享,可在线阅读,更多相关《汉字变换装置.pdf(18页珍藏版)》请在专利查询网上搜索。

减少了不必要的音节截出与辞典检索的汉字变换装置。输入欲变换的标音字符串时,辞典单词长度检索部(11)先对输入标音字符串的各音节,从辞典单词长度信息部(12)取出对应的单词长度信息。变换控制部(13)根据该取出的单词长度信息让其值长的音节第1优先,先输入的音节第2优先,将自该音节起连续的单词长度的标音字符串截出作为辞典部(15)的检索对象,由此汉字变换成辞典检索部(14)检索到的单词后输出,从而提高。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1