利用计算机系统的日文文本字的识别.pdf

上传人:1520****312 文档编号:1010362 上传时间:2018-03-25 格式:PDF 页数:47 大小:1.27MB
返回 下载 相关 举报
摘要
申请专利号:

CN97195935.8

申请日:

1997.06.25

公开号:

CN1223733A

公开日:

1999.07.21

当前法律状态:

终止

有效性:

无权

法律详情:

专利权有效期届满 IPC(主分类):G06F 17/28申请日:19970625授权公告日:20040121|||专利权的转移IPC(主分类):G06F 17/28变更事项:专利权人变更前权利人:微软公司变更后权利人:微软技术许可有限责任公司变更事项:地址变更前权利人:美国华盛顿变更后权利人:美国华盛顿州登记生效日:20150513|||授权||||||公开

IPC分类号:

G06F17/28; G06F17/27

主分类号:

G06F17/28; G06F17/27

申请人:

微软公司;

发明人:

小帕特里克·H·哈尔思特德; 铃木久已

地址:

美国华盛顿

优先权:

1996.06.28 US 08/672,638

专利代理机构:

中国国际贸易促进委员会专利商标事务所

代理人:

酆迅

PDF下载: PDF下载
内容摘要

一字切分功能运行以识别日文文本串中的字,该字切分功能执行形态处理,以识别词尾粘附词素及词头粘附词素,字切分功能还实现拼写匹配,以识别可能的词干字符,用评分探试程序去确定包括词尾分析,词干分析和词头分析的最佳分析。形态分析以有效压缩的格式被存储,以使它们占有的存储量最小及分析最大。词尾,词干及词头的形态分析以从右到左的方式执行,字切分功能可以用在要求同一选择粒度,自动概括应用,内容检索应用和自然语言处理应用的应用程序中。

权利要求书

1: 在具有存储器的计算机系统中,一种表示自然语言字符输入串的 分析方法,包括计算机实现的下列步骤: 处理输入串,以识别串中的自然语言字符和串中的词素;及 为了输入串的形态分析,在存储器中生成一结构,其中存有保存拼写 和词素变换的有向非周期图。
2: 权利要求1的方法,其中的输入串包括日文字符。
3: 权利要求1的方法,其中处理输入串的步骤包括处理输入串,以 识别粘附于串上的粘附词素。
4: 权利要求3的方法,其中的词尾粘附词素被识别。
5: 权利要求3的方法,其中的词头粘附词素被识别。
6: 在具有存储器的计算机系统中,一种计算机可读存储介质,存储 有用来实现表示自然语言字符输入串的分析方法的指令,包括计算机实现 的下列步骤: 处理输入串,以识别串中的自然语言字符和串中的词素;及 为输入串的形态分析,在存储器中生成一结构,其中存有保存拼写和 词素变换的有向非周期图。
7: 权利要求6的计算机可读存储介质,其中在介质上的指令处理日 文字符输入串。
8: 在计算机系统中,一种计算机可读存储介质,存储一有向非周期 图,它包括: 结点及变换,用以指明日文字符输入串中字符的本体和序列;及 结点及变换,用以指明日文字符输入串中的词素。
9: 在计算机系统中,一种方法,它包括计算机实现的步骤为: 提供n粒模板用以指出在词干中所找字符类型的模式,并为每个模板 提供有关在词干中出现的模板相似性的信息; 至少某些模板匹配部分输入串以识别匹配的模板; 使用匹配的模板去识别输入串的那部分是词干。
10: 权利要求9的方法,其中有些模板是用于日文各步骤,且输入串 包括日文字符。
11: 权利要求9的方法,其中的模板提供给不同形态类别,并且用这 些模板对单个形态类别实现匹配。
12: 在计算机系统中,一种计算机可读存储介质用于存储指令用于: 提供n粒模板用以指出在词干中所找字符类型的模式,并为每个模板 提供有关在词干中出现的模板相似性的信息。 至少某些模板与部分输入串匹配,以识别匹配的模板。 使用匹配的模板去识别输入串的那部分是词干。
13: 权利要求12的计算机可读存储介质,其中一些模板持有日文字 符,且这些指令以包括日文字符的输入串匹配模板。
14: 在计算机系统中,一种方法,它包括计算机实现的步骤为: 提供日文字符的输入串;及 通过首先处理最右字符,并在第一字符的左边依次处理字符,以从右 到左的方式,对输入串执行形态分析,以识别输入串中的粘附词素及至少 一个词位。
15: 权利要求14的方法,其中的形态分析识别粘附于词干上的词尾 词素。
16: 权利要求14的方法,其中的形态分析识别粘附于词干上的词头 词素。
17: 在计算机系统中,一种计算机可读存储介质,存储的指令用于: 接收日文字符的输入串;及 通过首先处理最右字符,并在第一字符的左边依次处理字符,以从右 到左的方式,对输入串执行形态分析,以识别输入串中的粘附词素及至少 一个词位。
18: 在计算机系统中,一种方法,它包括计算机实现的步骤为: 对日文字符的输入串执行形态分析,产生具有表示字符或词素的结 点,及把结点互相连接的指针的有向非周期的图,其中该图有一个根结点 及一些叶结点,且每个叶结点具有从根结点指到叶结点的路径,以表示包 含粘附词素的至少一部分输入串的形态分析; 对根结点到叶结点的路径评分以支持包含对大部分输入串分析的路 径及支持包含大量粘附词素的路径;及 选择最高得分路径作为用于部分输入串的形态分析。
19: 权利要求18的方法,其中的形态分析识别词尾粘附词素。
20: 权利要求18的方法,其中的形态分析识别词头粘附词素。
21: 在计算机系统中,一种计算机可读存储介质,存储的指令用于: 对日文字符的输入串实现形态分析,产生具有表示状态或词素的结点 及把结点互相连接的指针的有向非周期图,其中该图有一个根结点和一些 叶结点,且每个叶结点具有从根结点指向叶结点的路径,表示包括粘附词 素的至少部分输入串的形态分析; 对根结点到叶结点的路径评分以支持包含对大部分输入串分析的路 径及支持包含大量粘附词素的路径;及 选择最高得分路径作为用于部分输入串的形态分析。
22: 在计算机系统中,一种处理字符输入串的方法,包括计算机实现 的下列步骤: 采用统计技术,在输入串中,对断词进行识别,这样以断词确定词组 界限。 对输入串中的每个词组,识别可能存在的词尾粘附词素,并生成这些 词素的图形表示; 通过把输入串中的字符同每次识别的词干中的字符类型模式的词干 字符模板进行比较,对词组中可能存在的词干进行识别。 对每个可能词干中可能存在的词头粘附词素进行识别,并生成这些词 头粘附词素的图形表示;及 选择了可能存在的词尾边界词素,词干,及词头边界词素的最好组 合,作为最佳特性输入串对输入串中词组分析。
23: 权利要求22的方法,其中的输入串包括日文字符;
24: 权利要求22的方法,其中在识别断词中所用的统计技术,取决 于切分单粒和切分双粒的概率。
25: 权利要求22的方法,其中可能存在的一些词干的识别取决于词 干字符模板出现的概率。
26: 在计算机系统中,一种计算机可读存储介质,存储的指令用于: 采用统计技术,在输入串中对断词进行识别,这样以断词确定词组界 限; 对输入串中的每个词组,识别可能存在的词尾粘附词素,并生成这些 词素的图形表示; 通过把输入串中的字符同每次识别的词干中的字符类型模式的词干 字符模板进行比较,对词组中可能存在的词干进行识别; 对每个可能的词干识别可能存在的词头粘附词素,并生成这些词头粘 附词素的图形表示;及 选择可能存在的词尾边界词素,词及词头边界词素的最好组合,作为 最佳特性的输入串对输入串中词组分析。
27: 权利要求26的计算机可读存储介质,其中在识别断词所用的统 计技术,取决于切分单粒和切分双粒的概率。
28: 权利要求26的计算机可读存储介质,其中可能存在的词干的识 别取决于词干字符模板出现的概率。
29: 权利要求26的计算机可读存储介质,其中的输入串包括日文字 符。
30: 一种计算机系统,包括: 词组切分分析部分,用来识别字符输入串中的硬断词; 词尾分析器,用来分析输入串,以识别输入串中可能存在的词尾; 词干分析器,用来识别输入串中可能存在的词干; 词头分析器,用来识别输入串中可能存在的词头;及 选择器,根据至少部分输入串的表述,从已经被识别的那些中(如果 存在)选择词干,词尾及词头。
31: 权利要求30的计算机系统,其中的输入串主要包括日文字符。
32: 在缺少全面详细的字典的计算机系统中,一种方法,它包括下列 步骤: 提供字符输入串,所说的字符在字符间缺少空白间隔;及 处理该输入串,以识别词中的字和词干及词缀。
33: 权利要求32的方法,其中的处理包括识别粘附在词干上的词尾 粘附词素。
34: 权利要求32的方法,其中的处理包括识别粘附在词干上的词头 粘附词素。
35: 权利要求32的方法,还包括自然语言处理中用于识别字,词干 和词缀的步骤。
36: 权利要求32的方法,还包括在输入串的内容检索中用于识别字, 词干和词缀的步骤。
37: 权利要求32的方法,还包括在设法产生输入串的概括的自动概 括应用中,用于识别字,词干和词缀的步骤。
38: 在缺少全面详细的字典的计算机系统中,一种计算机可读存储介 质,存储的指令,执行下列步骤: 提供字符输入串,所说的字符在字符间缺少空白间隔;及 处理输入串,以识别词中的字,词干及词缀。
39: 权利要求38的计算机可读存储介质,其中的处理包括识别粘附 在词干上的词尾粘附词素。
40: 权利要求38的计算机可读存储介质,其中的处理包括识别粘附 在词干上的词头粘附词素。
41: 权利要求38的计算机可读存储介质,其中的介质还存储在自然 语言处理中用于识别词,词干和词缀的指令。
42: 权利要求38的计算机可读存储介质,其中的介质还存储在输入 串的内容检索中用于识别词,词干和词缀的指令。
43: 权利要求38的计算机可读存储介质,其中的介质还存储在设法 产生输入串的概括的自动概括应用中,用于识别词,词干和词缀的指令。
44: 在具有字符文本文档的计算机系统中,及为选择文本的输入设备 中,一种方法,包括下列步骤: 处理文档文本,以得到文本的形态图, 在形态图中插入一些标记,以识别文本中的选择边界;及 根据用户使用输入设备请求选择的文本,使用标记以识别作为结果选 择粒度,该粒度表示在文本中的那些字符被选择。
45: 为选择文本及选择包括字符文本的文档,在具有输入设备的计算 机系统中,一种计算机可读存储介质,存储的指令执行下列步骤: 提供字符输入串,所说的字符在字符间缺少空白间隔;及 处理输入串,以识别词中的字,词干及词缀。

说明书


利用计算机系统的日文文本字的识别

    本发明涉及通常的数据处理系统,尤其是涉及利用计算机系统的日文文本中字的识别。

    日文文本利用四种不同的书写系统,其中每一种采用独立的字符集。这些书写系统是平假名,片假名,汉字和罗马字。片假名字符代表一些音节,典型地是辅音和元音的结合,并用来书写外来西方语言如英语的词。平假名字符亦代表一些音节,且用得最广,以书写语法上的词如副词,功能类如动词的屈折变化及其它标记。平假名和片假名合起来称为假名。根据素材用平假名和片假名书写的一些字其平均字长在3到5个字符之间。汉字字符主要是借用中文来表示的字符,且是代表意思的表意文字字符。罗马字是罗马字符,如在英文中可见到的罗马阿拉伯字。

    在自然语言处理中,存在多种书写系统使处理和分析日文文本的工作复杂化。用日文书写字的方式使这工作更复杂。尤其是一些字被写在一起而没有间隔分开(即在字之间无空白间隔定界)。因此,在用日文写的文本串中,用一计算机系统来识别各个字是困难的。一种常规的方法用字典中地字最大限度地匹配文本串中的假名和汉字。不幸的是为了识别大量的字,该方法需要一大字典,这种字典太大无法有效地存储在主存储器(即RAM)中。结果,这种字典必须存储在二级存储器中,且每次从字典中寻找一字时必须承担有关访问二级存储器的开销。而且,即使非常大的字典也不能保证完全复盖所有字。这困难是由于什么字的动态特性是给定的自然语言部分是复杂的。随着时间的推进,有些字要从语言中加入(即新产生的新字)而有些字从语言中除去(即不再使用的字或废弃的字)。因此,一固定的字典,其特点限制了对给定语言字的复盖,而且,这种字典将损失其复盖范围而过时。

    根据本发明的第一方面,表示自然语言字符输入串分析的方法,在具有存储器的计算机系统上被实现。靠这种方法,处理输入串以识别串中的自然语言字符和串中的词素。在存储器中生成一结构,其中存有保存词素变换和拼写的有向非周期图,以对输入串进行形态分析。

    根据本发明的第二方面,提供n粒模板,指出在词干中所找的字符类型模式,每个模板还包括在词干中出现的与模板的相似性有关信息。至少某些模板同部分输入串匹配,以识别匹配的模板。匹配的模板用来识别输入串的哪一部分是词干。

    根据本发明的还有一个方面,提供日文字符的输入串,并且通过首先处理最右字符,并在第一字符的左边依次处理字符,以从右到左的方式,对输入串执行形态分析,形态分析识别输入串中的粘附词素和至少一个词位。

    根据本发明的另一个方面,对日文字符的输入串执行形态分析,产生有向非周期图,该图具有表示字符或词素的结点及把结点互相连接的指针。该图有一个根结点及一些叶结点。每个叶结点具有从叶结点指到根结点的路径,以表示包含粘附词素的至少部分输入串的形态分析。从根结点到叶结点路径被评分以支持包括对大部分输入串分析的路径及支持包括大量粘附词素的路径,选择最高得分路径作为用于部分输入串的形态分析。

    根据本发明的还有一个方面,在计算机系统上执行处理日文字符输入串的方法。根据这方法,通过采用统计技术,在输入串中识别断词(Phrasebreak),断词确定词组界限,对输入串中的每个词组要执行一些步骤。首先,识别可能存在的词尾粘附词素并生成这些词素的图形表示。通过把输入串中的字符同识别词干中字符类型模式的词干字符模板相比较,识别词组中可能存在的词干。对每个可能的词干识别可能存在的词头粘附词素,生成词头粘附词素的图形表示。选择了可能存在的词尾粘附词素,词干及词头粘附词素的最好组合,作为最佳特性输入串,对输入串词组分析。

    根据本发明的还有一个方面,在一计算机系统中实施的方法,缺少一全面详细的字典。靠这种方法提供字符的输入串,那里的字符在字符间缺少空白间隔,处理输入串以识别词中字,词干及词缀。

    根据本发明的另一个方面,处理一个有许多字符文档的文本,以得到文本的形态图。在形态图中插入一些标记,以识别文本中的选择边界。当用户使用输入设备请求选择文本时,使用标记以识别得到选择的粒度。

    本发明的优选实施例将参照下列附图予以说明。

    图1是适合于实施本发明优选实施例的计算机系统的方块图。

    图2是描述本发明优选实施例实现的各分析步骤的方块图。

    图3是说明本发明优选实施例实现的各步骤的流程图。

    图4是说明硬断词(HPB Hard Phrase Break)分析中执行的处理的方块图。

    图5是说明HPB分析期间执行的步骤的流程图。

    图6是日文输入文本串示例的描述,此文本串已经过识别HPB的处理。

    图7是表示词尾分析中数据流的方块图。

    图8是词尾分析期间执行的步骤的流程图。

    图9描述词素项(morpheme entry)的例子。

    图10是说明一重复词尾分析执行步骤的流程图。

    图11是词尾形态图的示例。

    图12是词尾形态图中结点形式的描述。

    图13是用于本发明优选实施例的词尾评分部分的评分表说明。

    图14描述在词干分析中所执行的分析和数据流。

    图15表示在主词汇查找中执行步骤的流程图。

    图16表示在拼写匹配中执行步骤的流程图。

    图17A描述软断词(SPB Soft Phrase Break)结点结构的格式。

    图17B描述SPB分析结构的格式。

    图17C描述由SPB结点形成的SPB分析树的格式。

    图18描述词头分析中的数据流。

    图19是表示在词头分析中执行步骤的流程图。

    图20是根据本发明优选实施例执行的选择词组优化分析的步骤流程图。

    图21A是在本发明的优选实施例的应用程序中,使用选择标记的执行步骤的流程图。

    图21B是在第二和第三应用程序中执行步骤的流程图表示。

    本发明的优选实施例涉及字切分(Word breaking)功能,用于将一串日文文本切分成独立的字或自立语(Jiritsugo)词组。本发明的优选实施例执行对该文本串的预先形态处理,以降低系统对大固定词典的依赖性,并避免与“首要突出(up-front)”使用词典相关的访问开销及未知字的识别问题。本发明的优选实施例采用独一的形态图,它体现出由形态处理所识别的词素之间的变换。这张图是形态分析的非常紧凑的表达。本发明的优选实施例还采用拼写(ophemes=orthographemes),它们是字符型的模板图案,用于词干分析期间以识别词干。

    由本优选实施例执行形态分析设法识别“词素”,它们是词意的基本单元,或更正规地说是不可分的语言学单元。每个词素可能是包含称做“词干”内容的独立语言学单元,或是粘附在词干上粘附的语言学单元。在以下的日文文本讨论中,词干将被称作“自立语”而粘附的词素称作附属语“fuzokugo”。举例有助于解译分清词干和粘附词素。英文字“walks”包含词干“walk”和粘附词素“S”。词干“walk”含有以脚踱步在路面移动意思的内容,而“S”的作用是指出该动词是用于单数第三人称。

    本发明的优选实施例识别自立语词组,这是这样一种单元它包含一个或多个独立存在的字,或自立语词干加任意数目的从属词素。这些从属词素通常以词缀形式出现(即词头或词尾)。一个例外是自立语词组可能包含复合名词或含有多自立语的复合动词。这种复合名词和复合动词将在下面作更详细的讨论。

    本发明的优选实施例还采用新颖的统计学方法的组合以处理输入文本串。首先,使用切分单粒(breaking unigrams)和分切双粒(breakingbigrams)的统计概率,以确定出现在输入文本串中的硬断词的(HPB′s)概率。HPB指示文本串的一个位置,它有极高的概率起两个词组之间的边界点的作用。本发明的实施例也利用inter-SPB的词素双粒和intra-SPB的词素双粒概率。软断词指在自立语词组之间的切分,这些词组是在HPB′s之间的文本分析期间被确定的。可能存在的自立语词组分析被SPB′s粘附,但SPB这个述语后面将会用来表示自立语词组。SPB之间的词素双粒指的是在两个不同的软断词中由词素形成的双粒,而SPB内的词素双粒由在单个软断词内的词素形成。这些双粒概率用于加权可能的形态分析以及强制某些词干分析。汉字双粒概率也被提供以加权某些词干分析。

    图1是适于实施本发明优选实施例的计算机系统10的方块图。熟悉本专业的人将会了解,图1所描述的计算机系统10仅仅为了说明,并且本发明的实施也可采用其它的计算机系统结构,包括分布式系统以及多处理器系统。计算机系统10包含处理器12,至少一个输入装置14和至少一个输出装置16。输入装置14可以是例如键盘,鼠标器,麦克风,指点装置,数字化板或其它输入装置。输出装置16可以是例如视频显示装置,打印机,扬声器或其它输出装置。计算机系统10也可能包含将计算机系统与网络17连接的网络接口15。计算机系统还包括存储装置18,它存有应用程序20和字切分功能22。字切分功能22持有用以实现这里所说的本发明优选实施例的指令。虽然在图1中描述的字切分功能22是有别于应用程序20,但熟悉本专业的人员将了解到,字切分功能可以直接集成到应用程序中去,或者可以是成为系统库或操作系统部分的独立功能。

    图2是一方块图,说明了为识别在输入日文文本串中的自立语词组由字切分功能22执行的处理步骤,下面将结合图3的流程图对图2的分析步骤予以说明。最初,对日本输入文本段24执行HPB分析26,以定位输入文本中的HPB′s(图3的步36)。输入文本24可以取不同的形式,例如,输入文本可能是部分字处理文档。另外,输入文本可能是用户使用输入装置14所输入的,或是部分其它类型文档。HPB′s通过统计技术而被识别。特别是,如图4所示HPB分析26依赖单粒和双粒断词概率47,以便统计地识别在输入文本24中什么位置上词组的切分最可能发生。单粒和双粒断词概率47持有与切分单粒(即单字符,如标点符号)和切分双粒(双字符)有关的数据。特别是,对每个单粒,识别的字符以及有关该字符的断词位置被存储,而对双粒,识别的第一字符以及该第一字符后面的字符的字符类别被存储。熟悉本专业的人员都知道,在另外的实施例中,单粒可以存放字符类别的数据而不是识别的字符。而且,双粒也可改为存放对两个字符的字符类别数据,也可对第一字符不存字符类别数据或存字符类别数据而对第二字符存识别信息。字符类别包括标点,平假名,片假名,汉字和罗马字,在一个实施例中,对左切分单粒,右切分单粒和字符间具有切分的双粒的概率进行了存储。

    切分单粒和双粒的概率通过处理加标记的识别切分单粒和双粒的素材而获得。通常,左切分单粒或右切分单粒的频度中切分分别是对单粒的左或右切分出现的次数除以文档中切分的总数。单粒切分概率等于切分频度除以素材中出现的总频度。对双粒,切分频度是在构成双粒的两个标记之间发生切分的次数除以文档中切断的总数。分解双粒的概率等于切分频度除以素材中双粒(分解的和不分解的两者)的总频度。

    图5的流程图说明在HPB分析26中执行的步骤。在第一已知或假定的HPB处(图4的步50)开始处理输入文本24。这里第一已知或假定的硬断词取决于怎样一些位标志由调用字切分功能22的客户机应用程序20设定。如果TOKENIZE_HPB_END位被设置,则假定输入文本24的最后一字符位于HPB之前,如果TOKENIZE_HPB_BEGIN位被设置,则假定第一字符跟随一硬断词。通常,硬断词分析从第一进行到最后的已知或假定的硬断词。

    一个例子有助于说明这些位标志在HPB断词分析26的处理中具有的作用。假定有下面一输入文本:

             ABC/DEF/GHI

    在上面的例子中,HPB′s以周围有间隔的斜线号(/)表示。如果没有任何位标志被设置,HPB分析对“DEF”进行,因为没有假定的硬断词并且仅有已知的断词存在。如果TOKENIZE_HPB_BEGIN位标志被设置,HPB分析对“ABCDEF”进行,因为断词被假定在输入文本的起始处。如果只有TOKENIZE_HPB_END位标志置位,HPB分析对“DEFGHI”执行,因为假定断词是在输入文本的尾端。最后,如果TOKENIZE_HPB_BEGIN位标志和TOKENIZE_HPB_END位标志都被设置,则HPB分析在“ABCDEFGHI”上执行。

    通常,通过每一字符或每对相邻字符与单粒和双粒断词概率47比较,以确定是否存在匹配来完成HPB分析26(图5的步52)。如果匹配,通过在表示矩阵的项中放入一断词概率以及时标注HPB。字切分功能22维护一矩阵用以描述在输入文本中每个字符到字符的边界。矩阵中每个项包含对应于断词概率的以二为底的对数的值。因此,HPB分析26结果形成带有硬断词标注48(图4)的输入文本。

    图6显示部分输入文本的例子,此输入文本已经过识别硬断词处理。在图6的示例中,HPB′s用“1”表示。输入文本也有用“/”标注的SPB′s。SPB′s是怎样安排的下面将详细说明。

    字切分功能22接着进行输入文本每个由HPB′s定界的子段中的字符。假定认为,每个这样的子段潜在地持有自立语词组。指示HPB单粒的标点字符作为单字符自立语词组对待。此子段处理的第一步是词尾分析和主词汇查找27,它设法识别粘附在词干上的词尾词素(图3中的步38),并支持某些用不同词汇表达的字,这些字与词尾分析(图3步37)选中的是同形异义的。步27的处理取输入文本的子段并生成形态图(它是有向非周期的加权图),该图持有子段中字符的全部可能会有的形态分析。此形态图的规则和格式将在下面做详细描述。

    为了有效,本发明的优选实施例在开始词尾分析之前执行主词汇查找(图3中步32)。特别是在主词汇96中(图7),找寻紧靠硬断词左边的串,以确定是否有以平假名字符结尾而且具有零长度词尾分析的串。主词汇查找避免必须加每个长达18个零的词尾分析到形态图中,这种词尾分析可能跟随着平假名字符。

    如图7所示,词尾分析使用形态文件58以输入文本子段56构造词尾形态图。形态文件58包含许多词素。形态文件58中仅包含粘附词素或按粘附词素处理的词素。在本发明的优选实施例中,形态文件58可能包含例如600到1000个词素,每个词素具有像图9所述的格式。特别是,每个词素指示该词素的名称(例如“INFL_vADJ_Kattari”,在图9中)。每个词素还包含“Analysis”部分用以指示分析,在每个分析中包含词形变化表和为该词形变化表的词素外观表述。在图9所示的例子中,“ADJ”标识形容词词形变化表,而在“<<”右边的日文字符是词素的外观表述。词形变化表为输入文本中粘附词素左边的下一字符指定形态类别(MCat)。词形变化表粗略地与语音部分的标识对应。词素还包含“NextStates”部分。该“Next States”部分指示可能跟随右边的词素状态。例如,RNONE状态指出词素的右边没有字符的情况。在“Next States”部分列出的状态可能包括强制性,例如,状态INFL_verb_6的状态包含表示为“SURU”的分析(它对应于分析中词形变化变的名称)。在图9中“Next States”部分的列项“INFL_Verb_6:SURU”指示,只有INFL_verb_6词素的SURU分析能够跟随INFL_vADJ_kattari词素。此外,为了选择词素可以包括选择信息(图7的步59),下面将作更详细的说明。

    图8的流程图提供对词尾分析和主词汇查找27中简单重复执行的各步的概观。最初,紧靠HPB左边的以平假名结尾的串在主词汇96(图7)中被查找以识别带有零长度词尾分析的平假名字符(步61)。接着,输入文本56的子段被处理以产生带有选择信息80的词尾形态图(图8中步62)。下面将要详述选择边界被插入到形态图中。尤其是,表示选择的边界的下划线可被插入到形态图中。在词尾分析期间,当碰到下划线时,产生一选择偏移量59,识别输入文本中从下一选择的边界(或相继的选择边界之间)算起的字符数。此词尾分析使用形态文件58中包含的词素。通常,实现图10中描述的步骤为每个在形态文件58中找到匹配的词素的外观表述。在词尾分析中,从硬断词开始从右到左进行处理并继续,直到再没有任何字符与存储在形态文件58中的词素的外观表述相匹配,或者直到达到另一个硬断词。最初,通过查找词素“Analysis”部分中外观表述所指示的字符,和正在被处理的输入文本56的子段中的字符找到匹配的外观表述(图10中步68)包含匹配外观表述的分析词形变化表被记下(步70)而且词素的下一状态被识别(步72),从而确定是否实际的下一状态与词素的“Next States”部分中指出的任何下一状态对应(步74),内部紧接的词素状态是前一状态,因为分析处理从右到左,内部的词形图是所说明的翻转的型式。如果下一状态与下一状态子段的那些列表之一匹配,该分析被加入形态图80(步76),否则该分析不加到形态图中,此处理按一个词素接一个词素地连续进行直到全部可能存在的分析都做完。

    图11描述了图6中由括号55指示的部分输入串的词尾形态图80的示例。该图包括一些结点82,它们由以矩阵偏移量表示的指针84连接起来。词素的外观表述83也被表示出来,并且得分显示在圆括号中。结点82的格式在图12中被描述,每个结点82包含一字符字段86,为识别相关字符或词素的结点,指定一16位的单一码值(可以是由4个16进制数字表示的)。如上所述,中间字符(metacharacters)通过这种单一码值被编码,采用特别扩展字符范围f800-feff或其附近的部分,结点可能被“超载”,如图12中虚线87所示以指示下划线。每个结点82还包括标志字段88,其中存储的一标志指示是否有下指针,以及一标志指示是否已经达到字的结尾。结点还包含下指针字段84,用以保存一下指针,该指针的形式是相对于形态图中下一结点的偏移量。于是,此词尾形态图80既存储有拼写信息又存储形态信息,指示选择信息的下划线包含在拼写信息中。这便于更紧凑地表示这样的数据。

    对输入文本56的每个子段在词尾形态图80中的每个路径予以评分(图8中步64)以及调整这些得分(图3中步39)。得分的例子显示在图11的圆括号中。得分的值决定于路径中的字符数,分析的深度(树的深度是从根到分析端叶结点)以及intra-SPB词素双粒的概率。因此,通向词尾形态图每个叶的路径值最初用图3所述的表来计算并使用intra-SPB词素双粒概率来稍做升降(将在以后作更详细的说明)。熟悉本专业的人员必然会了解,这张表只不过是为了举例说明,而其它的评分方法也都可采用。正如从图13的表中可以见到的,评分强调了分析,它有着大量的字符和更深的等级数目。

    系统维持intra-SPB词素双粒概率和SPB间词素双粒概率。这种概率是通过分析加标签的素材和确定这样的intra-SPB词素双粒及inter-SPB词素双粒的发生概率而得到的。举例有助于说明intra-SPB词素双粒和inter-SPB词素双粒的意义。给定二个SPB′s A和B,以及在SPB A中的词素a1,a2,a3,在SPB B中的词素b1,b2,b3(这两个SPB′s可以表示为/a1 a2 a3/b1 b2 b3/),inter-SPB双粒词素由二个词素形成,这二个词素是跨越词组边界相邻SPB′s的最后词素(即,a3和b3)。intra-SPB双粒数据指的是在SPB′s中词素之间的双粒数据。所以,存在的intra-SPB双粒有BEGIN和a1,a1和a2,a2和a3,a3和END,BEGIN和b1,b1和b2,b2和b3及b3和END。

    如上所述,intra-SPB词素双粒概率被用到每个路径上,这个路径连接叶与词尾形态图80的根,包含不大可能是intra-SPB词素双粒路径的得分被调低,而包含很可能出现的intra-SPB词素双粒路径,它的得分要上升。

    一旦在步64中对词尾形态图的全部路径计算好得分,该得分就被存储,并且最高得分的路径被保留(图8的步66)。路径被保留或丢弃的门限靠经验得到。例如,一种办法是每个形态图的顶上20个得分路径被保留。

    字切分功能22接着执行词干分析30以识别词干(图3中步40)。词干分析30的中心目标是识别哪些字符组成词干,对它附上词尾粘附词素。对包括数字,计数或其它计量单位(例如,日历,比如“06/27/96”,数量,比如“2yen(2日元)”及街道地址)这样的词干是例外,这种特别类型的词干是在词尾分析期间被分析的。特别的词素被提供并且向它们提供特别的零长度的MCat(LNONE)。图14的方块图描述了词干分析30的主要功能部件。通常,输入文本和用词尾分析得到的词尾形态图89被词干分析30所利用。词干分析30包括主词汇查找90,拼写匹配92,不常见词干边缘评分强制93,汉字双粒分析94和inter-SPB加权95。词干分析36的结果包括文本,词尾变换形态图和部分软断词(SPB)分析95(下面将更详细地说明)。

    主词汇查找90的目标是识别不应被当成粘附词素处理的字,并且修正对这种字的处理。例如,副词可能经常被当成粘附词素处理因为它的拼写类似于粘附词素,但是应当作为独立的字处理。主词汇96按有向非周期加权图组织(像形态词尾和词尾树)并持有副词,频繁使用的字(动词,形容词等)以及用词汇化的复合字。通常,主词汇96持有不应考虑为词尾粘附词素的字。主词汇96被分成一些文件,一个文件供给一个MCat。在主词汇96中的每个文件包含一些字的表,由这些文件形成的集合主词汇96按词类用语(Parts of Speech)分类,然后按单一码反序分类。

    图15是一流程图用以说明对给定的词尾形态词尾图,在主词汇查找90中执行的步骤。词尾树的最高得分叶在主词汇中被查找(图15中步102)。为了效率,只在主词汇96中查找最高得分的叶。如上所述,一个例外是对于以平假名结束无词尾的串分析,根据缺省它具有词尾得分为1(对应于图13中具有长度为零并且为一个词素的项目)但它永远要被查找。它在正确分析情况下,要选取最低得分叶是不可能的,所以不必去确定是否任何识别的词尾粘附词素应作为独立的字来替代处理。关系到多少数量或百分比的叶应在主词汇中查找的门限可被调节并可作为选取最优化的这种选择。如在主词汇中发现匹配项(见图15的步104),将会指出这些叶应作为独立的字而不是一粘附的词素处理。得分赋给每个当成独立字的匹配主词汇项,而且以奖励提供得分更有利在上面粘附词素分析加权此种分析。通常,只可能有n个可能的匹配,这里n是最长的词干的字符长度(图15中步106),分析提供给每个主词汇项。另一方面,如果在步104没有找到匹配,得分将不被处理。

    词干分析接着执行拼写匹配92,如上面已经讨论过的,拼写是为MCat的字符类型模板。例如,拼写KK(它代表汉字-汉字)是对VN2MCat的有效拼写。拼写指示在自立语词组中所找的字符类型模式。拼写匹配92利用拼写模板98,它存储有词干的拼写模式以及该拼写出现频度的记录。

    给定的词尾形态图80的每个叶持有一个值,用以指出一些字符的词类用语或处在自立语词组词尾部分叶上的字符除零长词干外,至少由词尾树表示的词尾粘附词素左边的字符之一是词干的一部分。拼写匹配92设法识别这些字符的那些是词干。

    图16的流程图说明拼写匹配92期间执行的步骤。对每个叶的分析,与叶相关的词类用语(它识别与词干关联的MCat)被认为是词尾分析的结果(图16中步107)。因为拼写词干模板98由词类用语构成,确定出的叶的MCat用作索引以定位对具有该MCat的词干可能的拼写的模式(图16中步109),识别匹配拼写(图16中步110),分析词头(步111)以及为该匹配拼写28产生自立语词组(SPB)分析(图16的步112)。下面将详细地讨论SPB分析。

    例子有助于说明拼写匹配如何进行。假定要处理的日文字符串是“h.KHK.hhhKKhhP”,在该例中字母具有如下的意义,H代表平假名字符它不被描绘为粘附词素。h代表的平假名它是粘附词素的词符。K代表汉字字符,而P表示标点符号,圆点用以标识词头,词干和词尾之间的隔断。还假定词尾分析之一(hhhKKhh)指定“GOsu”MCat类别。另外,假定对GOsu MCat类别的拼写词干模板98是以下这些:

        K,,4

        HK,,0

        HH,,0

        KK,,0

        H,,0

        KHK,,0

        HHHHHH,,0

        HKHK,,0.

    在以上陈述的拼写模板中,第一列指示字符类型模板,第二列指示字符匹配信息(在全部例子中都是空的)而第三列指示该拼写模板模式出现频度的记录。这些列由逗号分隔。在此例中,第一,第二,第六和第八拼写匹配输入。这些继词尾分析在词组的词干部分的开始处按从右到左的方式被匹配。在本例中,第六个分析是最佳匹配因为它匹配全部词干字符,并考虑到成功的词头分析。

    拼写模板的另一例子有助说明在拼写模板中第二列的使用,它指出字符匹配的信息:

        VVV,,0

        HHHH,0

        HHHH,1212,0

        VVVV,1212,0

        KK,,0.

    对第三个拼写在第二列中的值“1212”指出为匹配这个拼写,第一与第三字符和第二与第四字符必须相同。所以,为了第三拼写匹配,不仅全部字符必须是平假名字符,而且第一字符与第三字符必须相同和第二字符与第四字符必须相同。第二列亦可以持有字符的标识,它指示在外观表述中(即,输入串)特定字符必须等同于在第二列中给定位置指示的字符。

    通常,为输入文本串的每个子段产生一SPB分析树,此输入文本串由HPB′s定界。在这种树115中每个SPB结点与输入文本的给定位置相联系,并且包括一字段116,它在文本阵列保存SPB开始处的偏移量。SPB结点115也包括一字段117它保存SPB的长度(即字符的数目)。字段118标识在HPB分析树中SPB的父辈SPB。字段119保存了SPB结点中共存的不同自立语词组分析的数,而字段120保存对该SPB的组合得分。字段121保存辅助词干得分以及字段122保存指出在SPB树中该SPB层的数值。

    对每个SPB结点,保持一自立语词组分析阵列。每个自立语词组分析有一像在图17B中所描述的结构。特别是,每个自立语词组分析123持有字段124,以为词头形态图中词头结点提供偏移量,以及字段125保存一值指示到词尾形态图中词尾结点的偏移量。字段126持有到一子段的偏移量,该子段中保存有选择信息。字段127保存与自立语词组分析有关的词头分析得分和与自立语词组分析有关的词尾分析得分。字段128保存词干部分的得分(它是根据相关拼写的频度)而字段129保存有inter-SPB号,以便储存这个值。

    图17C可帮助说明对每个HPB(即被HPB′s分隔的文本)产生的SPB结点树的例子。SPB分析树由SPB结点形成,它具有像上面所讨论的结构。每个结点指向具有如同图17B所描述结构的分析阵列。

    为了增加相似性,词尾分析依赖于产生出高频度拼写模式的词干分析,字切分功能22酬报这种词尾分析。尤其是,当匹配拼写的结果是高频度的拼写模式时,词尾分析获得额外得分的奖励。因此,当词尾分析被连到经自立语词组(SPB)分析结构的产生的拼写模式匹配时,如果该拼写模式是高出现率的模式(见图16中步113),则词尾分析得到奖励。奖励是靠经验根据对训练素材产生最佳结果的选择值给出。

    图14说明在词干分析30期间作为独立部分的汉字双粒分析94。这种解释可能引起某些误解在于实际上汉字双粒分析被编排到词干分析期间执行的其它分析中。汉字双粒是汉字字符双粒,它们在切分复合名词时很有用(图3的步41)。汉字双粒分析94使用一汉字双粒集100,它们像前面关于硬断词分析26中讨论的字符双粒那样地被存储。汉字双粒100用以识别对应于在拼写匹配物中的最长可接受汉字字符串的全部最大匹配物长度,并且说明复合名词。汉字双粒100也用于限制拼写匹配,以便不允许拼写匹配跨越硬断词(图14中步93)。

    如图14所示,对不常见词干边缘的得分强制用以帮助降低可能的SPB分析,这种分析中包含低概率的inter-SPB词素双粒(图4中步95)。例如,对图17C中所示所说明的SPB分析树,SPB1和SPB2的inter-SPB词素双粒值应被检查,以确定是对该分析降低还是提升。对intra-SPB和inter-SPB词素双粒的存储位是根据训练素材中双粒概率的记录而得出的。

    匹配拼写识别结束后(图16中步112),使用词头分析32以确定什么粘附词头词素要粘附于词干上(图16中步111)。零长度(LNONE)MCats是一例外它们既没有匹配拼写也没有主词汇项,虽然仍产生SPB结点但对零长(LNONE)MCats的词尾跳过词头分析。如图18所示,输入文本120的子段被处理以实现为存储词素的词头形态文件132执行词头分析32。在词头形态图中131的结果持有该输入文本子段的全部可能的分析,词头形态图131象词尾形态图那样被组织但用以处理词头粘附词素分析。词头粘附词素附在词干的左边而词尾粘附词素是附在词干的右边。选择信息133被提供并如同选择信息插入词尾形态图那样插到词头形态图中。

    图19的流程表现了词头分析32执行步骤的概况。详细说,通过识别可能在词干分析上的粘附词素建立词头形态图124(图19中步124)。使用评分表评分词头树中的各路径(图19中步126)。然后根据经验得到的截断点,保留一些最高得分路径,并且词头形态图路径经SPB分析123的字段124,与各自的软断词分析结构相连系(图19中步128)。

    如上所述,词头树使用词头形态文件132中的词素而建立。匹配从给定词干分析左边第一个字符开始。词素的外观表述与处在词干左边的字符匹配以识别匹配的词素。此过程继续直到给定词干分析的全部分析结束。词头分析深度很少超过一个词素。

    上面所说的步骤不断重复直至该子段全部分析完。

    这里,字切分功能22已经产生了全部结构,它需要选取最佳分析自立语词组和独立的输出标记33(图3中步44)。字切分功能22接着必须选取最佳SPB分析,如图20中所示,字切分功能22计算SPB分析的得分(图20中步130)。这些得分如上所述已经被调整(图3中步43)。每个分析的得分是与SPB分析相关的词尾路径和词头路径得分相结合。具有最高附加得分的SPB分析被选取当成最佳分析,根据它继续向左进行分析,万一两个SPB分析具有相同附加得分,通过选取具有最高词干得分的SPB断开连结(图20的步132)。此分析可以被用于组合输出标记33(图2),输出标记包含传送到应用程序20的分析信息。下面的讨论将涉及三个说明性的应用程序。

    如果在输入文本部分中(见步45)还有更多待处理词组图3的步37到45可以重复进行(注意在图2中词头分析后的返回箭头)。另外,如果有附加部分留待处理(见图3的步46)则对该输入文本的附加部分重复步36-45(注意图2中从方块31开始的返回箭头)。

    第一应用程序涉及在输入文本中字符的粒度选择,特别地,如上面曾讨论的,下划线字符包括在形态图中以指示选择边界,这种选择边界可被应用程序使用以确定选择的粒度。通常,在图21A中描述的步骤是为这个应用程序执行的。下划线在输入文本部分中所处位置的偏移量被找到(图21A中步134)。而后该偏移量被返回到应用程序中(图21A中步136)。接着应用程序使用这偏移量去规定选择边界(一般是指的选择处是开始和结尾)。这些边界有助确定选择的粒度(图21A中步138)。

    在第二个应用程序中可被使用的由本发明优选实施例提供的字切分是自动概括的。自动概括设法识别适当地概括文本的内容的输入文本中关键的句子或词组、自动概括可以寻找特别的字,例如“in summary”这些是句子或词组中持有的概括信息的良好标记。为了概括,应用程序希望知道在词组或句子中何处词干开始以及词尾粘附词素位于何处。

    第三应用程序是内容索引。内容索引注重识别位于句子或词组中的词干,以获得关于句子或词组内容的信息并且为此内容做索引,所以在这种情况下对句子或词组的词干部分的偏移量被传送给该应用程序。

    图21B有一流程它说明了在高层上自动概括内容的索引应用程序执行的步骤。字切分功能22返回标识所要的成分(即词干或粘附词素)的偏移量给应用程序(图21B中步14)。此偏移量已用于识别该成分的位置并且编译关于该成分的频度信息(图21B中步142)。

    在参照其优选实施例已对本发明予以说明的同时,熟悉本领域的专业人员会了解到,各种形式上和细节上的改变可以做出而不脱离在所附权利要求书中规定的本发明的精神。例如字切分功能可以用在上述之外的应用程序中,如象设法提供句子的句法分析的自然语言处理应用。另外,此方法已应用于除日文外的一些自然语言里。

利用计算机系统的日文文本字的识别.pdf_第1页
第1页 / 共47页
利用计算机系统的日文文本字的识别.pdf_第2页
第2页 / 共47页
利用计算机系统的日文文本字的识别.pdf_第3页
第3页 / 共47页
点击查看更多>>
资源描述

《利用计算机系统的日文文本字的识别.pdf》由会员分享,可在线阅读,更多相关《利用计算机系统的日文文本字的识别.pdf(47页珍藏版)》请在专利查询网上搜索。

一字切分功能运行以识别日文文本串中的字,该字切分功能执行形态处理,以识别词尾粘附词素及词头粘附词素,字切分功能还实现拼写匹配,以识别可能的词干字符,用评分探试程序去确定包括词尾分析,词干分析和词头分析的最佳分析。形态分析以有效压缩的格式被存储,以使它们占有的存储量最小及分析最大。词尾,词干及词头的形态分析以从右到左的方式执行,字切分功能可以用在要求同一选择粒度,自动概括应用,内容检索应用和自然语言。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1