用于识别一种或者多种自然语言中的单词及其词性的系统、方法、程序产品和网络.pdf

摘要
申请专利号：	CN03811430.5	申请日：	2003.04.21
公开号：	CN1656477A	公开日：	2005.08.17
当前法律状态：	终止	有效性：	无权
法律详情：	未缴年费专利权终止IPC(主分类):G06F 17/27申请日:20030421授权公告日:20100203终止日期:20120421\|\|\|授权\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	G06F17/27	主分类号：	G06F17/27
申请人：	国际商业机器公司;
发明人：	杨加·帕克
地址：	美国纽约
优先权：	2002.06.17 US 10/173,931
专利代理机构：	中国国际贸易促进委员会专利商标事务所	代理人：	李春晖
PDF下载：	PDF下载

内容摘要

本发明用于识别在词典数据库中不存在的一个或者多个单词。如果没有获得有效的(合法的)单词，则进行统计处理，检查该单词中的两个或者多个字符的子集的一个或者多个序列，来判断该单词为有效(合法)单词的概率。在另外的实施例中，本发明包括去前缀处理、去后缀处理、词根处理和/或合并处理。

权利要求书

1：一种识别在词典数据库中不存在的一个或者多个单词的系统，包括一个或者多个中央处理单元和一个或者多个存储器，以及：从所述词典数据库获取有关词根的词根信息的词根处理，词根为没有前缀和后缀的单词之一；以及一种统计处理，用于：如果在词典数据库中没有有效词根，则检查该词根中的一个或者多个字符的一个或者多个子集，来判断该词根为有效单词的概率。
2：如权利要求1所述的系统，其中，所述概率是所述子集正确地与词根中一个或者多个其它字符相邻的可能性的量度。
3：如权利要求2所述的系统，其中，所述相邻字符在所述子集之前。
4：如权利要求2所述的系统，其中，所述相邻字符在所述子集之后。
5：如权利要求4所述的系统，其中，所述子集和所述相邻字符构成一个三字符组。
6：如权利要求2所述的系统，其中，通过比较所述序列和所述相邻字符的串，与各自与相应的概率相关的串的数据库，确定所述概率。
7：如权利要求6所述的系统，其中，所述数据库中的所述串的各自的概率是这样确定的：寻找一个或者多个可能的字符串，计算这些可能的字符串在有效单词的数据库中出现的频率。
8：如权利要求2所述的系统，还包括：一个或者多个定义单词的词性的规则，这些规则具有规则概率，规则概率基于所述规则正确地适用于有效单词的数据库的大于一个阈值的出现频率。
9：如权利要求8所述的系统，其中，通过所述规则之一确定词根的词性。
10：如权利要求8所述的系统，其中，所述规则应用于所述词根的结束。
11：如权利要求1所述的系统，还包括：复合词处理，将单词分解为两个组成部分，词根为第二组成部分。
12：如权利要求10所述的系统，其中，所述复合词处理还确定所述词根的词性。
13：如权利要求1所述的系统，其中，一旦确定了所述单词是有效单词，则将该单词存储在新词词典存储器中。
14：如权利要求1所述的系统，还包括单词技术处理，计数单词在一个或者多个文档中出现的频率，以确定如果该单词被确定为有效单词的话该单词的重要性。
15：如权利要求1所述的系统，还包括：去前缀处理：从单词中去除一个或者多个前缀，所述前缀在前缀列表中，该去前缀处理受到一个或者多个去前缀规则的约束，该去前缀处理还获取有关被去除的前缀的前缀信息。
16：如权利要求15所述的系统，其中，所述前缀信息从下述中的一个或者多个获取：词典数据库或者前缀列表。
17：如权利要求1所述的系统，还包括去后缀处理：从单词中去除一个或者多个后缀，所述后缀在一个后缀列表中，该去后缀处理受到一个或者多个去后缀规则的约束，该去后缀处理还获取有关被去除的后缀的后缀信息。
18：如权利要求17所述的系统，其中，所述后缀信息从下述中的一个或者多个获取：词典数据库或者后缀列表。
19：一种识别在词典数据库中不存在的一个或者多个单词的方法，包括以下步骤：从所述词典数据库获取有关词根的词根信息，词根为没有前缀和后缀的单词之一；以及如果在词典数据库中没有有效词根，则检查该词根中的一个或者多个字符的一个或者多个子集，来判断该词根为有效单词的概率。
20：一种识别在词典数据库中不存在的一个或者多个单词的系统，包括：从所述词典数据库获取有关词根的词根信息的装置，词根为没有前缀和后缀的单词之一；以及如果在词典数据库中没有有效词根，则检查该词根中的一个或者多个字符的一个或者多个子集，来判断该词根为有效单词的概率的装置。
21：一种存储有计算机程序的计算机存储设备，所述计算机程序执行下述步骤：从所述词典数据库获取有关词根的词根信息，词根为没有前缀和后缀的单词之一；以及如果在词典数据库中没有有效词根，则检查该词根中的一个或者多个字符的一个或者多个子集，来判断该词根为有效单词的概率。

说明书

用于识别一种或者多种自然语言中的单词及其词性的系统、方法、程序产品和网络
    【技术领域】

    本发明涉及计算机文本处理领域。具体地，本发明涉及自然语言中的可能的真实单词及其词性的识别。

    背景技术

    当前不能期望任何一种词典能够包含一种语言的所有可能的单词，这是由于语言的动态性质和人类的创造活动。如今，由于新的技术的发展比以前更快，这种现象变得更富挑战性。如果每当发现新词就手工更新词典(字典)基本上是不可能的，即使可能的话也需要大量的专家的时间和努力。

    从而，不可避免地，文献中总是会存在“超词汇(out-of-vocabulary)”(在词典中找不到的词)。尤其是，许多特定领域特有的技术词汇以及新衍生地词，比如新的复合词或者已有的词(通过添加词缀产生)的形态变化，都可能并不存在于给定的词典中。在大多数词典中不存在的真实单词的例子比如有autoinjectorelectrocardiography，eyedrop，remanufacturability以及website。

    词典中没有的单词会导致许多问题，尤其是对于自然语言处理(natural language processing(NLP))系统比如机器翻译系统和语法分析程序(句型分析程序)，因为词典是这些应用的最为重要的和基本的知识源。当NLP应用发现一个其词典不认识的单词时，它要么不能处理该文档，要么猜测处理该文档所必要的信息。但是，这种猜测通常并不很正确，从而系统产生的结果很差。

    已经进行了很多努力来解决这个问题，尤其是在POS(词性)标志器(tagger)和语音识别领域。但是，不同的应用是从不同的视角看待超词汇(out-of-vocabulary(OOV))的问题，并具有不同的目标。

    对于POS标志器和语法(句型)分析器，它们依赖于单词的词法(句法，语法)信息，目标是根据不认识的词与其相邻词共同出现的概率来猜测OOV在上下文中最为可能的词性。Dermatas和Kokkinakis根据只在前一次看见的文本中出现一次的单词的概率分布，来估计一个不认识的单词具有特定POS标记的概率，见″Automatic stochastic tagging of natural language texts″inComputational Linguistics，21(2)，pp 137-164，1995。

    更为先进的POS猜测方法使用前导和收尾单词片断来判断不认识的单词的可能的标记。Weischedel等人提出了一种猜测不认识的单词的POS方法，该方法在给定了不认识的单词的大写特征(capitalization feature)和结尾的前提下使用不认识的单词具有特定POS标记的概率。见Ralph Weischedel，Marie Meeter，RichardSchwartz，Lance Ramshaw以及Jeff Palmucci的″Coping withambiguity and unknown words through probabilistic models″inComputational Linguistics，19(2)，pp 359-382，1993。

    Eric Brill描述了一种规则系统，其使用结尾猜测和更为依赖于形态的规则，见″Transformation-Based Error-Driven Learning andNatural Language Processing：A Case Study in Part of SpeechTagging″in Computational Linguistics，21(4)，pp 10 543-565，1995。

    对于语言识别系统，OOV单词是系统词汇表(词典)不认识的单词，或者是识别器不能识别的单词。目标是从系统的词汇表中找到最为接近OOV单词的单词(在发音和语意方面)。

    基于n字符组的字符统计方法已经在单词级的语言处理中得到使用，比如拼写检查、单词切分。Angell，Freund和Willett描述了一种根据两个串共同拥有的三字符组的数量来用词典项目来比较拼写错误，使用Dice相似性系数作为相似性的量度。拼写错误的单词用词典中与所述错误拼写最为配的单词来取代。见″Automatic SpellingCorrection Using a Trigram Similarity Measure″in InformationProcessing and Management，19(4)，pp255-261，1983。

    现有技术的问题

    现有技术中的方法具有至少两个问题。

    首先，现有技术不允许识别和/或标识任何给定自然语言中的有效单词。例如，一个单词的所有形式(形态变化，和/或衍生词)不可能都在某个特定词典中出现。另外，新词和/或新创词不会出现在词典数据库中。这个问题在技术主题的文章中尤为明显：其中要使用新词来描述新的技术或者旧有技术中的进展。

    先前的方法开始这个过程是基于这样的假设：OOV单词只是对系统的词典来说是不认识的，但是它们可能是语言中的真实单词。也就是，这些系统将新词比如website和无效的词串比如adkfiedfd或者v3.5a按照相同的方式进行处理。现有的工作中没有人试图识别语言中可能的新词，并提供一种方式来增强现有词典，从而使得这些词在将来能够被适当地识别(作为非OOV)。

    其次，先前的方法被嵌在应用系统中以保护系统在遇到OOV单词时不至于失灵(崩溃)，或者是为了改善系统的性能。还不存在独立地自动系统来寻找语言中可能的真实单词，并获取这些单词的词法信息。

    即使先前的方法的目标在于解决OOV问题，它们也是针对特定的应用设计的。它们根据这些单词出现的上下文来猜测这些单词的为所述特定应用所需的信息。因此，一个单词的信息可能随上下文而不同。

    发明目的

    本发明的目的是提出一种系统和方法，用于识别自然语言文本中的在词典中不存在的可能的真实单词和/或它们的词性。

    本发明的另一个目的是一种系统和方法，用于自动地或者半自动地识别文本中的新词，并可以将其添加到现有的词典中。

    【发明内容】

    本发明是一种系统、方法、程序产品和网络，用于识别词典数据库中不存在的一个或者多个单词。一个统计过程检查单词中的两个或者多个字符的子集的一个或者多个序列，以确定该词为有效词的概率。在优选实施例中，应用规则来确定词的词性。

    在另外的实施例中，本发明包括一个去前缀处理，一个去后缀处理，一个词根处理，以及/或组合处理。所述去前缀处理从一个单词中取出一个或者多个前缀，其中，所述前缀最好是在一个前缀列表中。该去前缀处理最好受到一个或者多个去前缀规则的约束。该去前缀处理还包括有关被去除的前缀的前缀信息(例如来自词典数据库或者前缀列表)。所述去后缀处理从单词中去除一个或者多个后缀，其中，所述后缀最好是在一个后缀列表中。最好，所述去后缀处理受到一个或者多个去后缀规则的约束。该去后缀处理还包括有关被去除的后缀的后缀信息(例如来自词典数据库或者后缀列表)。所述词根处理从词典数据库获取有关词根的词根信息。(词根是去除了前缀和后缀的单词)。所述组合处理然后判断所述前缀、词根和后缀是否能够组合为由一个或者多个组合规则限定的有效单词。该组合处理可以，如果存在有效单词，获取有效单词一个或者多个词性，并将词性连同该有效词一起存储在词典数据库中(或者其它存储位置)。

    【附图说明】

    从下面结合附图对优选实施例进行的非限制性的说明可以更好地理解本发明的前述以及其它目的、特征和优点。附图中：

    图1是使用本发明的系统的优选实施例的框图；

    图2是总体词典增强方法的流程图；

    图3是包括前缀处理、后缀处理和复合词处理的语言学处理的流程图；

    图4是用在语言学处理中的前缀处理的流程图；

    图5是用在语言学处理中的后缀处理的流程图；

    图6是用在语言学处理中的复合词处理的流程图；

    图7是统计处理的流程图；

    图8是统计学习处理的流程图；

    图9是被本发明识别为自然语言中的单词的单词输出的一个例子。

    【具体实施方式】

    本发明是一种用于从文本中的超词汇单词中识别可能的真实单词的系统、方法和程序。在另外的实施例中，则是找出所识别的单词的词性，以增强现有的词典。与一般的超词汇处理系统不同，本发明作为优选实施例提出基于单词中的三字符组序列的概率的熵(平均信息量，entropy)模型。

    被识别为真实单词的单词可以被加入计算机系统的现有词典中，以便计算机应用程序能够识别超词汇单词并在将来正确处理这些单词。本发明可以集成到许多语言处理系统中，比如术语提取系统、机器翻译系统以及语音识别系统。另外，这些单词可以由词典编纂者用来更新和/或增强出版的词典。本发明可以给词典编纂者提供新词的列表，从而减少他们的工作量。本发明不仅可以应用于英语，而且可以应用于其它语言，包括但不限于法语、德语、西班牙语等。

    图1图示了由本发明执行的总体处理。本发明的词典增强系统(100)由任何已知的计算机系统运行。它从硬盘或者网络(例如万维网、内联网、公司网络等)读入文档(120)，对于文档中的每一个单词，在系统所使用的在线词典(140)中查找该单词。(在线词典是公知的，包括任何以可检索的方式存储单词的存储设备)。如果该单词在词典中不存在，则本发明检查该单词是否有可能是目标语言中的真实单词。这里，目标语言不仅包括一般所知的自然语言，也包括这些语言的技术变种，比如计算机编程/维修手册或者医学论文。如果它是一个可能的真实单词，则该系统在一个数据库(160)中保存该单词及其词性。所述可能的真实单词可以存储在新词数据库(160)中、在线词典(140)中或者其它任何类型的已知存储位置。

    其它计算机应用(200)随后可以使用所述新词数据库来处理文档或者语音(220)。这些应用是公知的，包括语法(句型)分析程序、机器翻译系统以及语音识别系统。该数据库还可以由辞典编纂者(300)用来出版和/或修订人类使用的词典(320)。

    图2图示了词典增强处理(100)的总体流程图。当在系统中读入文档(120)时(例如使用标准技术)，系统从文档获取一个单词，并在系统词典(140)中查找该单词(110)。如果该单词在词典(130)中存在，则不需要进一步处理。但是，如果该单词在词典中不存在，则系统检查该单词是否由字母组成(150)。如果该单词包含一个或者多个数字或者特殊字符，则系统忽略该词。

    如果该词仅由字母组成，则系统首先对其应用语言学处理(400)以检查该词是否是新的衍生词(也就是现有单词的形态变化，和/或复合词)。如果该处理的结果是肯定的(170)，则系统可选地将该词及其词法信息(190)保存到新词数据库(160)或者其它存储位置中。如果该处理的结果是否定的，则在优选实施例中，该系统对其应用统计学处理(500)。如果处理(500)将该词识别为新词(180)，则将该词及其词法信息(190)保存到所述新词数据库(160)中。重复所述处理，直到文档中没有剩下单词。

    图3图示了语言学处理(400)的总体流程。该处理用于识别新衍生词。衍生词是词典已知的词的形态变化，这种形态变化多数是通过添加词缀，例如在单词的开头添加前缀，或者在单词的末尾添加后缀，以及/或者通过复合的手段，也就是将两个或者多个单词写为一个单词。首先，系统检查该单词是否包括一个或者多个前缀和词根(410)。如果前缀处理(410)的结果是肯定的，则该单词被视为一个新词，过程停止。如果前缀处理的结果是否定的(420)，则系统检查该单词是构包括一个或者多个后缀和词根(430)。如果后缀处理的结果是肯定的，则该单词被视为新词，过程停止(440)。如果后缀处理(440)的结果是否定的，则系统运行复合词处理(450)，看该单词是否包括两个内容词。如果复合词处理的结果是肯定的，则该单词被视为新词，过程停止。注意，本发明可以是一个或者多个前缀处理(410)、后缀处理(430)和/或复合词处理(450)单独作用或者与一个或者多个其它处理结合作用。

    图4图示了用在语言学处理(400)中的前缀处理(410)的流程图。对有前缀的单词的该处理(410)如下所述。

    首先，系统检查是否有前缀列表(417)中的前缀出现在该单词的开头(411)。如果单词包含一个前缀(412)，则系统将该前缀从单词上砍掉(413)(分解单词)并在词典中查找其余部分(词根)(414)。在本发明的一种优选实施例中，将词根的最小长度设置为两个字符。如果词典包含该词根(415)，则将该超词汇词视为真实的词，并且由过程410处理的词继承该词根的词法信息(416)。例如。前缀处理(410)发现了antiasthmatic(副词)，autoinjector(名词)，remanufactured(动词的过去分词)，streoselectivity(名词)。

    图5图示了用在语言学处理(400)中的后缀处理(430)的流程图。后缀处理如下所述：首先，系统检查是否有后缀数据库(438)中的后缀出现在单词的末尾(431)。在一种优选实施例中，本发明应用针对后缀(438)设置的规则，该规则描述一个词根具有特定后缀的先决条件POS(词性)，以及所得到的词性。

    用在优选实施例中的后缀规则结构的一个非限制性的例子如下。后缀able的规则是[able，{VB＝＞JJ}，{NN＝＞JJ}]。该规则的意思是，动词(VB)或者名词(NN)可以在单词的末尾具有后缀able，所得到的词的词性是形容词(JJ)。如果一个单词包含一个后缀(432)，则系统将该后缀去除(433)，在词典中查找词根(435)。如果在词典中找到了词根(436)并且其具有先决条件POS之一，则该词被视为真实的单词并具有该规则所指的结果POS(437)。

    但是，如果该词根在词典中不存在，则系统进行词根形式恢复(434)。当向一个单词添加词缀时，词根的拼写可能发生变化。例如，在英语中，以不发音的e结尾的单词通常在接以元音开头的后缀时会舍掉e。例如，当系统读入browsable时，它分离词缀able，获得词根brows。系统在词典中查找brows，但是未能成功。那么，系统执行词根形式恢复处理，获得原始形式browse。

    对于词根形式恢复，在一个优选实施例中，本发明应用下述规则：

    (1)如果词根的最后两个字母是同一个辅音字母，则删除一个；

    (2)如果词根的最后一个字母是i，则将其变为y；

    (3)如果词根的最后一个字母是辅音字母(但是不是第一种情况)，则添加一个e。

    如果在词典中找到了恢复得到的词根(436)，并且其具有前提条件POS之一，则该单词被视为真实单词，则其具有该规则确定的结果POS(437)。这种情况的例子包括browsable(形容词)，migranious(形容词)，和oxidizability(名词)。

    某些词，例如remanufacturability，包括一个或者多个前缀、一个或者多个后缀以及词根。在这种情况下，该单词经过上述的前缀处理和后缀处理。

    图6图示了用在语言学处理中的复合词处理的流程图。如果一个词在前缀处理和后缀处理中的结果都是否定的，则考虑对其进行复合词处理(450)。系统将给定的超词汇单词分解为两个组成部分(453)：包括从第一字母到断点的字母的第一组成部分(第一词素)，以及包括从断点+1到单词末尾的字母的第二组成部分(第二词素)。初始断点为3(451)。如果在词典中找不到第一组成部分(455)，则系统增大所述断点(459)，重复该处理直到第二组成部分中的字母数量小于等于2(452)。

    如果词典认识第一组成部分(455)，则在词典中查找第二组成部分(456)。如果词典也认识第二组成部分，则系统检查所述两个组成部分的组合是否合法。可能的单词组合有名词+名词以及名词加动词的分词形式。如果组合是合法的，则将该超词汇词视为真实的单词，并具有第二组成部分的词性(459)。复合词的例子包括airbreathing(名词，动名词)，eyedrops(名词)，photophobia(名词)以及websire(名词)。

    图7图示了优选的整个统计处理(500)的流程图。该过程用于识别非衍生的新词。非衍生的新词的意思是所述词不能通过对语言的现有单词应用衍生(或者构词)规则而产生。许多特定领域的技术术语属于这一类。人类非常容易成功地猜出一个以前从未见过的词是否是可能的真实单词，即使该单词并非由已知的单词构成。在一个实施例中，假设在以下情况下人类可以断定一个词是语言中的可能词汇：该词中的字符序列看起来是很有可能的，并且发音自然。本发明将非衍生新词的识别建立在此假设的基础之上。

    在本发明中，如果字符串中的每一个字符都可能与其相邻字符同时出现，则将字母序列视为可能的真实单词。(字母/字符与相邻字符/字母组合而成的序列被称为一个字符串)。相邻字母/字符可以是任意数量的前导或者尾随字符。这种方法系基于语言的可预测性：当知道前导或者尾随的n个字母时能在多大程度上预测文本的下一个字母。在优选实施例中，将一个字符的相邻字符定义为两个前导字符。也就是，在已经看到了两个前导字符的前提下，如果单词中的字符在其位置出现的机会很高(也就是三字符组模型，这里，字符串是三个字符或者说三字符组)，则该单词被视为真实单词。

    该模型有两种模式：学习模式(510)和应用模式(550，560)。在学习模式，系统从系统词典(140)学习字符三字符组统计结果的概率，并将三字符组统计结果保存在数据库中(520)。学习模式还从训练数据产生基于单词结尾的词性猜测规则(530)。在应用模式中，当系统获取一个超词汇单词(540)时，系统计算该单词中所有字符三字符组的概率的熵(entropy，平均信息量)。

    一个语言模型的熵是信息的预期值。熵是模型对未来的不确定性的量度。如果估计的概率分布接近均匀的，则熵增加。本发明提出了一种模型，其中，当提供一个超词汇单词(一个或者多个字符序列或者单词序列)时，该模型能够根据其统计结果判断该单词序列是否会是该语言中的可能的真实单词。也就是，一个单词是具有较强的内部统计效应的字母的聚合组。

    假设一个单词w由n个字符组成，也就是w＝c1...cn。加上一个前导空格和一个结尾空格来估计三字符组概率(在图8的说明中更详细地说明)，使得w＝c0c1...cncn+1。单词w的熵H(w)的计算如下：

    H(w)=-Σi=2n+1P(ci|ci-1,ci-2)log2P(ci|ci-1,ci-2)]]>

    在一个优选实施例中，如果熵值高(大于给定的阈值)，在本发明得出该词是真实的词的结论。在一种实施例中，阈值被设置为2.3，这是从平均熵减去训练数据的最小熵而确定的(见图8对训练数据的描述)。如果一个词被确定为真实的词，那么，系统从结尾猜测规则(猜测结束规则，end-guessing rule)库(530)产生所有可能的词性。在对图8的说明中解释了结尾猜测规则。通过使用结尾猜测规则集，系统根据最长匹配模式产生一个词的所有可能的词性。本发明从最长结尾开始到长度为1的结尾(最后一个字母)在规则集当中查找该单词的结尾字母(如果单词长度大于7，则最长结尾为5个字母，否则为单词长度减3)。如果某个结尾在规则集中存在，则匹配过程停止，系统按照规则频率的顺序产生该结尾的所有词性。例如，猜测critical为形容词和名词，但是形容词优先，因为在训练数据中tical出现的105次是形容词而只有4次是名词。统计处理所识别的新词的例子有accelerometers(名词)，diastolic(形容词，名词)，kinesiology(名词)以及ingressed(动词)。

    图8是统计学习过程(510)的流程图。为了学习单词的三字符组概率，系统使用系统词典(140)，在系统词典中单词都是语言中的合法单词。系统从词典读取单词，并产生该单词所有可能的屈折变体(511)。系统向产生的词加上前导和后续空格(512)，并将所述词保存到数据库(513)中。例如，假设一个单词w是由n字母构成的超词汇单词c1c2..cn。系统向该单词加上一个前导空格b1和一个后续空格b2(512)，得到b1c1c2..cn b2。该单词列表包括可从词典产生的所有合法的词形。重复这个过程，直到词典中的所有单词都得到处理(514)。使用所产生的单词列表，系统学到两种知识：三字符组统计数据和词性规则。该学习过程持续到单词列表中的所有单词都得到处理(519)。

    系统通过统计三字母序列和两字母序列的频率来从单词列表(513)计算三字符组的概率。系统从单词列表(513)读入一个单词(515)，产生所有可能的三字母序列和两字母序列，并计数它们的频率(516)。

    例如，假设一个单词w＝b1c1c2..cnb2由n个字符和两个空格(前导空格和后续空格)组成。那么，系统产生所有可能的两字母序列，比如b1c2，c1c2，...，cn-1cn，cnb2，以及所有可能的三字母序列，比如b1c1c2，c1c2c3，...，cn-1cnb2。系统计数从单词列表中的单词中找到的所有两字母序列和三字母序列的频率。

    在获得三字母序列和两字母序列的频率之后，系统计算所有可能三字符组的概率(517)并将统计结果保存在数据库(520)中。三字符组的概率，也就是在给出两个前导字符c1和c2之后，字母c3出现的概率的计算如下：

    P(c3|c1c2)＝频率(c1c2c3)/频率(c1c2)

    另外，系统还从单词列表(518)生成词性猜测规则。对于单词列表中的所有单词，产生长度从1到5的所有可能结尾连同单词的词性。将剩余部分的最小长度设定为3。系统计数结尾猜测规则的频率，并在结尾猜测规则库(530)中保存规则。

    例如，在训练词典中，单词ailments被列为复数名词(NNS)。那么，结尾猜测规则发生器产生长度从1(s)到5(ments)的所有结尾及其词性。也就是，产生下述规则：s-NNS，ts-NNS，...，以及ments-NNS。单词mounting具有两个词性，也就是名词(NN)和动名词(VBG)。在这种情况下，每一个结尾有两种词性，也就是：g-NN和g-VBG，ng-NN和ng-VBG，....，以及nting-NN和nting-VBG。下表示出了是如何从训练数据产生结尾猜测规则的：

    单词    ailments  mounting    abandons.         primary结尾猜测规则    ments NNS    ents NNS    nts NNS    ts NNS    s NNS  nting NN    nting VBG  ting NN     ting VBG  ing NN      ing VBG  ng NN       ng VBG  g NN        g VBG    ndons VBZ    dons VBZ    ons VBZ    ns VBZ    s VBZ mary NN ary NN ry NN y NN    mary JJ    ary JJ    ry JJ    y JJ

    NN：名词NNS：名词复数形式

    VBG：动名词或者动词的现在分词

    VBZ：动词的第三人称单数     JJ：形容词。

    图9是本发明识别为自然语言中的单词的单词输出的一个例子。在图中的“方法”列表示所用的识别样本新词的机制，“前缀”方法中的单词用过程410识别，“后缀”方法中的单词用过程430识别。“前缀+后缀”方法中的单词用过程410和过程430识别。“复合词”方法中的单词用过程450识别。最后，“熵统计”方法中的单词用过程500识别。也就是，单词的熵值大于给定的阈值。

    使用本发明的非限制性的例子来识别文本中的超词汇单词中的可能的真实单词。使用上述技术，根据字符三字符组的概率的熵以及英语中的语形学(形态学)规则，进行真实单词的识别。本发明还可根据词法信息规则和单词的结尾来产生所识别的真实单词的可能的词性(POS)。本发明的实施例在精度和查全率方面都表现出了高超的性能。在另外的非限制性的实施例中，本发明在识别特殊领域的技术术语方面很有用，并成功地被嵌入术语表提取系统中，术语表提取系统识别单单词或者多单词术语项目，并建立领域专用词典。在本说明书的启发下，其它一些实施例对于本领域的普通技术人员来说是明显的。这些实施例也在发明人所想到的范围之内。