根据机器可读词典建立概念知识的计算机系统及方法.pdf

上传人:r7 文档编号:644455 上传时间:2018-03-01 格式:PDF 页数:25 大小:1.10MB
返回 下载 相关 举报
摘要
申请专利号:

CN02160013.9

申请日:

2002.12.30

公开号:

CN1512388A

公开日:

2004.07.14

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效|||公开

IPC分类号:

G06F17/00; G06F17/30; G06F17/28

主分类号:

G06F17/00; G06F17/30; G06F17/28

申请人:

国际商业机器公司;

发明人:

刘世霞; 杨力平

地址:

美国纽约

优先权:

专利代理机构:

北京市中咨律师事务所

代理人:

李峥;于静

PDF下载: PDF下载
内容摘要

本发明公开了一种根据机器可读词典建立概念知识的计算机系统及其方法。所述方法使用了包含多个第一语种的词语和与之对应的多个第二语种的解释词语,以及多个第二语种的词语和与之对应的多个第一语种的解释词语的机器可读词典,并且包括提供第一语种的种子词语的步骤;通过查询所述机器可读词典,获得与所述种子词语对应的多个第二语种的解释词语的解释步骤;以及,通过查询所述机器可读词典,分别获得与所述解释步骤中获得的多个解释词语相对应的多个第一语种的解释词语,作为概念知识的词语的反向解释步骤。

权利要求书

1: 一种用于根据机器可读词典建立概念知识的计算机系统,包括: 机器可读词典,包含多个第一语种的词语和与之对应的多个第二语种 的解释词语,以及多个第二语种的词语和与之对应的多个第一语种的解释 词语; 输入单元,用于输入种子词语; 解释单元,通过查询所述机器可读词典,获得与所述种子词语对应的 多个第二语种的解释词语;以及 反向解释单元,通过查询所述机器可读词典,分别获得与所述解释步 骤中获得的多个解释词语相对应的多个第一语种的解释词语,作为概念知 识的词语。
2: 根据权利要求1所述的根据机器可读词典建立概念知识的计算机 系统,其特征在于,还包括: 评价单元,用于允许用户选择和删除解释词语。
3: 根据权利要求1所述的根据机器可读词典建立概念知识的计算机 系统,其特征在于,所述第一语种和所述第二语种是同一语种。
4: 一种用于根据机器可读词典建立概念知识的计算机系统,包括: 机器可读词典,包含多个第一语种的词语和与之对应的多个第二语种 的解释词语,以及多个第二语种的词语和与之对应的多个第一语种的解释 词语; 输入单元,用于输入种子词语; 解释单元,用于通过查找所述机器可读词典,将一个词语解释为希望 语种的多个解释词语;以及 控制单元,用于控制所述解释单元,将所述种子词语解释为多个第二 语种的解释词语,并且将这些解释词语分别解释为第一语种的多个解释词 语,作为概念知识的词语。
5: 根据权利要求4所述的根据机器可读词典建立概念知识的计算机 系统,其特征在于,还包括: 评价单元,用于允许用户选择和删除解释词语。
6: 根据权利要求4所述的根据机器可读词典建立概念知识的计算机 系统,其特征在于,所述第一语种和所述第二语种是同一语种。
7: 根据权利要求4所述的根据机器可读词典建立概念知识的计算机 系统,其特征在于,所述控制单元反复在第一语种和第二语种之间解释所 得到的解释词语,直到一个预定的次数或者得到的解释词语的数量达到一 个预定的值,或者所有的第一语种的解释词语都已经被作为种子词语处理 过了。
8: 根据权利要求4所述的根据机器可读词典建立概念知识的计算机 系统,其特征在于,所述机器可读词典包括多个语种的词语及其之间的对 应关系; 所述控制单元反复在所述多个语种之间解释所得到的解释词语,直到 一个预定的次数或者得到的解释词语的数量达到一个预定的值,或者所有 的第一语种的解释词语都已经被作为种子词语处理过了。
9: 根据权利要求1-8中任意一项所述的根据机器可读词典建立概念 知识的计算机系统,其特征在于,所述建立概念知识的计算机系统与检索 引擎相连,将用户输入的检索关键词作为种子词语建立概念知识,并将所 述获得的概念知识的词语提供给所述检索引擎用于数据检索。
10: 一种在计算机系统中根据机器可读词典建立概念知识的方法,所 述机器可读词典包含多个第一语种的词语和与之对应的多个第二语种的解 释词语,以及多个第二语种的词语和与之对应的多个第一语种的解释词语, 所述方法包括: 提供第一语种的种子词语的步骤; 解释步骤,通过查询所述机器可读词典,获得与所述种子词语对应的 多个第二语种的解释词语;以及 反向解释步骤,通过查询所述机器可读词典,分别获得与所述解释步 骤中获得的多个解释词语相对应的多个第一语种的解释词语,作为概念知 识的词语。
11: 根据权利要求10所述的在计算机系统中根据机器可读词典建立 概念知识的方法,其特征在于,所述方法还包括:当所述概念知识的词语 中有重复的词语时,将重复的词语合并的步骤。
12: 根据权利要求11所述的在计算机系统中根据机器可读词典建立 概念知识的方法,其特征在于,所述方法还包括:分别以所述反向解释步 骤中获得的多个概念知识词语作为种子词语,重复所述解释步骤和反向解 释步骤直到达到一个预定的次数或者得到的概念知识词语的数量达到一个 预定的值。
13: 根据权利要求12所述的在计算机系统中根据机器可读词典建立 概念知识的方法,其特征在于,所述解释步骤还包括将所述被解释的种子 词语标记为已处理;当所有获得的第一语种的解释词语都被处理过时,所 述重复步骤结束。
14: 根据权利要求10所述的在计算机系统中根据机器可读词典建立 概念知识的方法,其特征在于,所述解释步骤还包括:允许用户选择和删 除一个或多个解释词语。
15: 根据权利要求10所述的在计算机系统中根据机器可读词典建立 概念知识的方法,其特征在于,所述反向解释步骤还包括:允许用户选择 删除一个或多个解释词语。
16: 根据权利要求10所述的在计算机系统中根据机器可读词典建立 概念知识的方法,其特征在于,所述第一语种和所述第二语种是同一语种。
17: 根据权利要求10所述的在计算机系统中根据机器可读词典建立 概念知识的方法,其特征在于,所述机器可读词典包括多个语种的词语及 其之间的对应关系; 所述方法在所述解释步骤之后还包括迭代步骤,迭代执行以所述多个 语种中的任意一个语种作为第二语种,分别以得到的解释词语作为种子词 语,执行所述解释步骤,直到达到一个预定的次数或者得到的解释词语的 数量达到一个预定的值,或者所有的第一语种的解释词语都已经被作为种 子词语处理过了。
18: 一种在计算机系统中检索数据的方法,包括:将输入的关键词作 为种子词语,利用上述权利要求10-17中任意一项所述的建立概念知识的 方法,获得属于与所述关键词相关的知识概念的多个词语;利用得到的所 述概念知识的词语检索数据。

说明书


根据机器可读词典建立概念知识的计算机系统及方法

    【技术领域】

    本发明涉及计算机数据处理,具体地,本发明涉及利用计算机建立概念知识的技术。

    背景技术

    概念知识由描述一类事件、思想、对象、动作或者意图的一组术语(词语)组成。例如,与“打算/计划”相关的概念知识包括:“打算”、“计划”、“希望”、“想要”、“准备”、“意味”、“将要”、“盘算”、“想”、“需要”、“渴望”等等表示打算含义的词语。概念知识被广泛地用于信息检索、自然语言处理、机器翻译和构造分类词典等应用中。

    人们在检索某一特定领域的信息时,对于这个领域所掌握的概念知识会直接影响他们的检索行为。掌握较完整的概念知识的人能够恰当地构造查询,准备多个用于查询的同义词,当一次尝试不成功时能够适当地改变策略,并且能够正确地识别相关的检索出地信息。因此,某个领域的专家会比掌握很少该领域概念知识的人,在检索信息时,成功率高。

    如今,因特网已经成为世界范围的信息源和主流商务工具。在因特网上查找信息的最直接、最方便的方式是使用检索引擎。大多数现有的检索引擎采用的是基于关键词的索引系统。概念知识可以帮助用户在纷繁的数据中找到所需的有用信息,帮助用户构造、修改和完善查询条件,自动地扩展查询。

    另外,在自然语言处理中,统计自然语言处理方法根据在训练语料库(corpus)中字词的频率确定某种字词搭配(或者词的组合)的可能性。当某个词的频率不能保证可靠的最大可能性的估计,则它的概率可以用与其近似的词的概率的加权和来计算。例如,统计自然语言处理方法根据在训练语料库中出现字词的频率确定词的组合的可能性。但是由于语言的本身特点,使得在给定语料库中,许多词的组合出现频率很低或者不出现,这种情况被称为统计自然语言处理中的稀疏数据问题。在这样的情况下,可以使用概念知识中的“最相似”词来估计这些低频或未出现的词的组合的概率。

    此外,在机器翻译中,例如基于语料库的机器翻译系统,如果需要翻译一个词W,可以使用在相同上下文中出现的同一概念知识中的一组相似的词,来选择一个W的可能的译文。

    由于概念知识的应用如此广泛,所以人们一直在努力研究获得概念知识的方法。目前提取属于一个特定概念的术语的方法是使用按照知识结构组织的词典,例如WordNet,来提取概念知识。但是,这些词典通常是为通用目的设计的,对于特定的应用领域来说,这类词典提供的概念知识不够详细,无法满足实际应用的具体需求。

    【发明内容】

    根据本发明的一个方面,提供了一种用于根据机器可读词典建立概念知识的计算机系统,包括:机器可读词典,包含多个第一语种的词语和与之对应的多个第二语种的解释词语,以及多个第二语种的词语和与之对应的多个第一语种的解释词语;输入单元,用于输入种子词语;解释单元,通过查询所述机器可读词典,获得与所述种子词语对应的多个第二语种的解释词语;以及,反向解释单元,通过查询所述机器可读词典,分别获得与所述解释步骤中获得的多个解释词语相对应的多个第一语种的解释词语,作为概念知识的词语。

    根据本发明的另一个方面,提供了一种用于根据机器可读词典建立概念知识的计算机系统,包括:机器可读词典,包含多个第一语种的词语和与之对应的多个第二语种的解释词语,以及多个第二语种的词语和与之对应的多个第一语种的解释词语;输入单元,用于输入种子词语;预处理单元,用于对输入的种子词语进行预处理;解释单元,用于通过查找所述机器可读词典,将一个词语解释为希望语种的多个解释词语;以及,控制单元,用于控制所述解释单元,将所述种子词语解释为多个第二语种的解释词语,并且将这些解释词语分别解释为第一语种的多个解释词语,作为概念知识的词语。

    根据本发明再另一个方面,提供了一种根据机器可读词典利用计算机建立概念知识的方法,所述机器可读词典包含多个第一语种的词语和与之对应的多个第二语种的解释词语,以及多个第二语种的词语和与之对应的多个第一语种的解释词语,所述方法包括:提供第一语种的种子词语的步骤;通过查询所述机器可读词典,获得与所述种子词语对应的多个第二语种的解释词语的解释步骤;以及,通过查询所述机器可读词典,分别获得与所述解释步骤中获得的多个解释词语相对应的多个第一语种的解释词语,作为概念知识的词语的反向解释步骤。

    根据本发明再另一个方面,提供了一种在计算机系统中检索数据的方法,包括:将输入的关键词作为种子词语,利用上述的建立概念知识的方法,获得属于与所述关键词相关的知识概念的多个词语;利用得到的所述概念知识的词语检索数据。

    【附图说明】

    相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。

    图1是展示根据本发明一个实施例的在计算机系统中根据机器可读词典建立概念知识的方法的流程图;

    图2是展示根据本发明另一个优选实施例的在计算机系统中根据机器可读词典建立概念知识的方法的详细流程图;

    图3是展示根据本发明一个优选实施例的在计算机系统中根据机器可读词典建立概念知识的处理过程的示意图;

    图4是展示根据本发明一个优选实施例的根据机器可读词典建立概念知识的计算机系统的方块图;

    图5是展示根据本发明另一个优选实施例的根据机器可读词典建立概念知识的计算机系统的方块图;

    图6图示了在英-中双语种的机器可读词典中,词语和解释词语的对应关系的一个例子;

    图7图示了本发明实施例中机器可读词典的一个例子;

    图8是展示本发明实施例中评价单元的结构的方块示意图;

    图9A-9B是展示根据本发明的实施例向用户提供用于选择删除解释词语的选择界面的示意图。

    【具体实施方式】

    下面就结合附图对本发明的各个优选实施例进行详细的说明。

    机器可读词典被广泛地使用在计算机中,并且技术不断更新,种类也很多,例如,单语种、双语种、多语种、单向的和双向的等等;并且随着自然语言的演变,机器可读词典中的词汇和解释也不断地更新。在机器可读词典中,通常具有一个或者多个语种的词汇以及对应的一个或者多个语种的解释。

    由于机器可读词典的目的是为了解释词汇的含义,即,使用多个具有相近似含义的词语来解释某个词语(在本文中,“词语”是指词或者词组),因此,机器可读词典很自然地就提供了与一个特定概念相关的多个词语信息。例如,在一个英-中双语种词典中,一个英语词语与多个汉语词语对应,这些汉语词语中的全部或一部分密切相关,属于一个概念知识。图6展示了在英-中双语种的机器可读词典中,词语和对应关系的一个例子。如图6所示,英语的“intend”与多个汉语词语对应,例如,“想要”、“打算”、“准备”、“希望”、“有目的”和“意指”等等。其中,“想要”、“打算”、“准备”、“希望”就是同一概念的密切相关的多个词语。

    本发明正是利用了以上描述的自然语言和机器可读词典的特点,提出了在计算机系统中根据机器可读词典建立概念知识的方法。图1是展示根据本发明一个实施例的在计算机系统中根据机器可读词典建立概念知识的方法的流程图。该实施例中,优选地使用双语双向的机器可读词典,例如,包括有英语词汇和汉语词汇以及分别与之对应的汉语解释词语和英语解释词语的机器可读词典。应当指出,本发明对于机器可读词典的具体实施方式没有限制,并且也可以是多个机器可读词典组合来实现对词汇的解释。

    在图1中,首先在步骤100,提供种子词语。种子词语可以由用户通过输入设备输入,例如,在检索引擎的页面中的关键词输入栏中输入,也可以由计算机程序自动生成。在此,将种子词语的语种作为第一语种。

    接着,在步骤105,通过查找机器可读词典,获得与所述种子词语对应的多个第二语种的解释词语。例如,如果使用的是英中双语词典,种子词语是”intend”,则在本步骤,通过查找机器可读词典,得到多个与”intend”相对应的汉语解释词语“打算”、“想要”、“希望”、“准备”、“有目的”、“赶路”和“意指”等等。

    然后,在步骤110,通过查找机器可读词典,获得分别与上一步骤中得到的多个第二语种的解释词语的每一个对应的多个第一语种的解释词语,作为概念知识的词语。继续上面的例子,在本步骤中,可以根据机器可读词典的中-英解释,分别将步骤105中得到的汉语解释词语(即,“打算”、“想要”、“希望”、“准备”、“有目的”、“赶路”和“意指”等等),逐一地找到对应的英文解释词语,即:例如,“打算”对应于”mean”、“plan”、“project”等,“想要”对应于“want”、“aim”、“desire”、“require”、“feel like”、“intend”等,“希望”对应于“intend”、“hope”、“want”等,以及其他的词语,在此为简便起见不一一列举了。在本步骤中得到的这些第一语种的解释词语,就可以作为本实施例的方法建立的概念知识的词语。

    图2是展示根据本发明另一个优选实施例的在计算机系统中根据机器可读词典建立概念知识的方法的详细流程图。与前面一个实施例相同,首先在步骤200,提供种子词语。接着在步骤205,通过查找机器可读词典,获得与所述种子词语对应的多个第二语种的解释词语,并标识该种子词为已处理。这些被标识的词语用于在步骤255中判断相应的词语是否被处理。

    然后在步骤210判断是否允许用户参与,加入自己的经验判断。如果允许,则在步骤215,用户选择并删除被认为是不相关的词语。这个步骤的目的是加强最终结果的针对性,避免不相关词语的影响。还以种子词语“intend”为例,在对应的多个汉语解释词语中,如果用户认为“有目的”、“赶路”和“意指”是不相关的词语,则可以在本步骤中将它们删除。

    接着在步骤220,选择一个未处理的第二语种的解释词语。在步骤225,通过查找机器可读词典,获得与选中的第二语种的解释词语对应的多个第一语种的解释词语,并标识该第二语种的解释词语为已处理。这些被标识的词语用于在步骤240中判断相应的词语是否被处理。接着在步骤230,判断是否允许用户参与,加入自己的经验判断。如果允许,则在步骤235,用户选择并删除被认为是不相关的词语。这个步骤的目的也是加强最终结果的针对性,避免不相关词语的影响。

    接下来,在步骤240,判断是否所有第二语种的词语都处理完成。如果判断结果为“是”,则继续到步骤245,否则,返回到步骤220再选择一个第二语种的解释词语,重复以上步骤220至240,直到全部第二语种的解释词语被处理完成。

    然后,在步骤245,合并全部第一语种的解释词语,并继续到步骤250,判断是否获得用户所需的全部词语,如果判断结果为“是”,则继续到步骤260,否则,继续到步骤255,选择一个未处理的第一语种的解释词语,重复执行上述步骤205至250。随着重复次数的增加,所获得的概念知识的词语的数量会越来越多;同时也有可能出现,在经过若干次重复后,所有得到的第一语种的解释词语都已经被当作种子词语被处理过了的情况,即,即使再重复也不会有新的词语出现。因此,步骤250的判断依据可以是:重复次数达到一个预定的值,或者所获得的概念知识的词语的数量达到一个预定的值,或者所有的第一语种的解释词语都已经被作为种子词语处理过了。

    最后,在步骤260,输出获得的属于概念知识的全部词语。由于在词典中存在着用同一词语解释不同的词语的情况,因此在本实例中为保证在结果中没有重复的词语,需要将重复词语合并。

    图3以种子词语“intend”为例,展示了根据该优选实施例的在计算机系统中根据机器可读词典建立概念知识的处理过程。从图3可以看出,经过多次的“汉语”到“英语”、“英语”到“汉语”的反复解释,最终得到了大量的属于与“intend/plan”相关的这个概念知识的词语。

    再有,根据本发明的一个实施例,可以使用单语种的机器可读词典,即,第一语种与第二语种是同一个语种。例如,使用单独汉语语种的机器可读词典,本发明也同样可以得到属于一个概念知识的多个词语。这是因为在单语种的机器可读词典中同样保存了词汇和对应的多个解释词语。

    进而,根据本发明在一个实施例,机器可读词典可以是多语种词典,即包括多个语种的词汇和对应的多个解释词语,例如,包括英语词汇和对应的汉语解释,汉语词汇和对应的法语解释,以及法语词汇和对应的英语解释等等。在获得了种子词语对应的多个第二语种的解释词语之后,即在图1所示的步骤105之后,本实施例的方法进一步包括一个迭代步骤:将机器可读词典中包含的多个语种的一个作为第二语种,将获得的多个解释词语分别作为种子词语,执行步骤105。迭代的结束条件可以是达到一个预定的迭代次数,或者得到的解释词语的数量达到一个预定的值。迭代步骤之后,继续执行步骤110。举例说明本实施例,在输入“intend”作为种子词语后,可以先后经过例如英=>汉、汉=>法、法=>德以及德=>英的解释过程,最后得到足够数量的属于“intend”概念知识的词语。

    图4是展示根据本发明一个优选实施例的根据机器可读词典建立概念知识的计算机系统的方块图。本发明各实施例中所述的计算机系统可以是,例如:普通的PC、服务器、笔记本计算机、掌上型计算机、PDA或者其它移动计算设备等。这些计算机系统通常包括中央处理单元,例如键盘、鼠标等的输入设备,例如存储器、硬盘等的存储设备,以及连接这些组成部分的总线等等。该计算机系统还可以具有用于与其他计算机系统通信的网络接口,例如网卡、调制解调器等。这些对于本领域技术人员来说是已知的。

    如图4所示,本实施例的建立概念知识的计算机系统还包括:输入单元401、解释单元402、反向解释单元403、评价单元404和机器可读词典405。

    其中,机器可读词典405,包含多个第一语种的词语和与之对应的多个第二语种的解释词语,以及多个第二语种的词语和与之对应的多个第一语种的解释词语。图7图示了本发明实施例中机器可读词典的一个例子。在该图中,机器可读词典405中存储有第一语种的词条L11-L1n和第二语种的词条L21-L2m,以及它们之间的对应关系,即图中所示的箭头连线。机器可读词典405可以以数据库方式实现也可以以文件方式实现并且也可以位于通过网络接口能够访问的远端的存储位置,这对于本领域技术人员来说是已知的。

    输入单元401,用于输入种子词语并将该种子词语传递给解释单元402。输入单元401可以通过向用户提供输入界面,例如输入框,借助于该输入框用户输入种子词语,也可以通过网络从其它计算机输入种子词语,或者自动地从文件中搜取种子词语。在后面描述的实施例中,输入单元401也可以是检索引擎的关键词输入装置。

    解释单元402,通过查询所述机器可读词典405,获得与该种子词语对应的多个第二语种的解释词语并传递给反向解释单元403。假设输入单元401输入的种子词语为“intend”并将其传递给解释单元402,则解释单元402查询机器可读词典405中的“intend”词条,然后按照词典405中的对应关系,获得对应的汉语解释词语“打算”、“想要”、“希望”、“准备”、“有目的”、“赶路”和“意指”等等。

    反向解释单元403,通过查询所述机器可读词典,分别获得与所述解释步骤中获得的多个解释词语相对应的多个第一语种的解释词语,作为概念知识的词语。继续上面“intend”作为种子词语的例子,反向解释单元403分别将解释单元402得到的汉语解释词语(即,“打算”、“想要”、“希望”、“准备”、“有目的”、“赶路”和“意指”等等),逐一地找到对应的第一语种的解释词语,即:例如,“打算”对应于“mean”、“plan”、“project”等,“想要”对应于“want”、“aim”、“desire”、“require”、“feel like”、“intend”等,“希望”对应于“intend”、“hope”、“want”等,以及其他的词语,在此为简便起见不一一列举了。

    评价单元404,用于允许用户选择和删除解释词语,并且评价最终的概念知识的词语是否足够。通过评价单元404,用户可以结合自己的经验知识,在解释单元402和反向解释单元403得到的解释词语中选择和删除被认为是无关的词语,从而提高最终结果的针对性,避免不相关词语的影响。

    图8是展示本发明实施例中评价单元404的结构的方块示意图。如图8所示,该评价单元404包括:同义词词库801,用于保存同义词词语,即,给定词语的同义词词组;频率统计器805,用于统计每一词语在解释过程中出现的次数;词语评估单元802,用于根据同义词词库和频率统计器对对所得到的解释词语进行排序,例如首先将同义词词库801中包含的词语排在前面,再按照频率统计器805所统计的出现频率的降序排序;词语浏览单元803,用于向用户展现排序后的词语;词语选择单元804,用于允许用户选择自己所需要的词语和删除不相关的词语。图9A-9B是展示本实施例向用户提供用于选择删除解释词语的选择界面的示意图。通过如图9A和9B所示的用户界面,用户可以浏览和选择各个解释词语。

    可选地,本实施例中的机器可读词典405可以是包含同一语种的词汇解释的机器可读词典,即所述第一语种和所述第二语种是同一语种。

    图5是展示根据本发明另一个优选实施例的根据机器可读词典建立概念知识的计算机系统的方块图。如图5所示,本实施例的建立概念知识的计算机系统包括了:输入单元401、预处理单元502、控制单元503、评价单元404、解释单元505和机器可读词典405。其中与图4中所示的实施例相同的部分被表示为相同的附图标号,并且其内容被省略。

    本实施例的装置,除了这些相同的部分,还包括了预处理单元502,用于对由输入单元401输入的种子词语进行预处理,例如,检查种子词语的拼写的正确性,找出单词的原形(例如,如果输入的种子词语是分词形式“worked”,预处理单元可以将其还原成“work”)等等。

    解释单元505,用于通过查找机器可读词典506,将接收的词语解释为希望语种的多个解释词语。本实施例中的解释单元505,可以按照控制单元503的控制,将一个语种的词语解释为另一个语种的解释词语。

    控制单元503,则用于控制解释单元505的解释操作,向解释单元505发送需要解释的词语并确定希望的解释词语的语种,以及合并得到的解释词语。在本实施例中,通过控制单元503控制解释单元505的方式,来完成解释和反向解释的处理过程。

    可选地,本实施例中的机器可读词典506可以是包含同一语种的词汇解释的机器可读词典,即所述第一语种和所述第二语种是同一语种。

    可选地,本实施例中的机器可读词典506也可以是多语种词典,即包括多个语种的词汇和对应的多个解释词语,例如,包括英语词汇和对应的汉语解释,汉语词汇和对应的法语解释,以及法语词汇和对应的英语解释等等。控制单元503,可以控制解释单元505,经过多个语种的解释过程,来获得最终的概念知识的词语。例如,可以将英语的种子词语“intend”,经过英=>汉、汉=>法、法=>德以及德=>英的解释过程,最终得到属于“intend”概念知识的词语。

    以上所描述的本发明实施例的计算机系统的各个组成部分可以用软件或者硬件的方式实现,这对于本领域技术人员来说是可以理解的。

    另外本发明还提供了一种应用了上述本发明的建立概念知识的技术的检索引擎和检索数据的方法。

    检索引擎(Search Engines)是指一个对互联网上的信息资源进行搜集整理,然后供用户查询的计算机系统。

    通常,检索引擎的工作包括如下三个过程:1.在互联网中发现、搜集网页信息;2.对信息进行提取和组织建立索引库;3.再由检索器根据用户输入的查询关建字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

    现有检索引擎技术中存在以下问题:一个是“忠实表达”的问题。很多情况下,用户很难简单地用关键词或关键词串来忠实地表达他所真正需要检索的内容,表达困难导致检索困难。另一个是“表达差异”问题。人类的自然语言中,随着时间、地域或领域的改变,同一概念可以用不同的语言表现形式来表达。因此,对同一概念的检索,不同的用户可能使用不同的关键词来查询,例如:“计算机”和“电脑”,“航天飞机”与“太空梭”。在中文雅虎上使用“航天飞机”是查不到含“太空梭”的网页的,虽然它们指的是同一种东西。

    如果本发明以上所述实施例中的建立概念知识的技术应用到检索引擎计算机系统中,就可以有效地克服上述问题。可以利用概念知识中的词汇来扩充用户输入的关键字,建立基于知识的信息检索过程,它能够使用户对要检索的东西定位得更快、了解得更深入。把信息检索从目前基于关键词层面提高到基于知识(或概念)层面。

    本发明的一个实施例将前述实施例的建立概念知识的计算机系统与检索引擎相结合。当用户输入了检索用的关键词后,首先将输入的关键词作为种子词语,进行建立概念知识的处理,从而得到属于该同一概念知识的多个词语。然后,将得到的这些概念知识的词语传递给检索引擎,由检索引擎利用该多个词语进行检索并将检索结果提供给用户,从而将信息检索从目前基于关键词层面提高到基于知识(或概念)层面。在具体实施上,可以是将前述实施例的建立概念知识的计算机系统和检索引擎中相连接从而形成一个新的系统,或者是在检索引擎中包含将前述实施例的建立概念知识的计算机系统的各个组成部分,这对于本领域技术人员来说是可以理解的。

    另外,本发明的一个实施例是一种利用计算机检索数据的方法。当用户输入了关键词后,将输入的关键词作为种子词语,执行前面实施例中所述的建立概念知识的方法,从而得到属于同一概念知识的多个词语。然后,利用该多个词语检索数据。

    以上虽然通过本发明的一些示例性的实施例对本发明进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。

根据机器可读词典建立概念知识的计算机系统及方法.pdf_第1页
第1页 / 共25页
根据机器可读词典建立概念知识的计算机系统及方法.pdf_第2页
第2页 / 共25页
根据机器可读词典建立概念知识的计算机系统及方法.pdf_第3页
第3页 / 共25页
点击查看更多>>
资源描述

《根据机器可读词典建立概念知识的计算机系统及方法.pdf》由会员分享,可在线阅读,更多相关《根据机器可读词典建立概念知识的计算机系统及方法.pdf(25页珍藏版)》请在专利查询网上搜索。

本发明公开了一种根据机器可读词典建立概念知识的计算机系统及其方法。所述方法使用了包含多个第一语种的词语和与之对应的多个第二语种的解释词语,以及多个第二语种的词语和与之对应的多个第一语种的解释词语的机器可读词典,并且包括提供第一语种的种子词语的步骤;通过查询所述机器可读词典,获得与所述种子词语对应的多个第二语种的解释词语的解释步骤;以及,通过查询所述机器可读词典,分别获得与所述解释步骤中获得的多个解。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1