《一种基于词缀的用于对未知词进行语义分类的系统.pdf》由会员分享,可在线阅读,更多相关《一种基于词缀的用于对未知词进行语义分类的系统.pdf(9页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102902665 A (43)申请公布日 2013.01.30 C N 1 0 2 9 0 2 6 6 5 A *CN102902665A* (21)申请号 201210361148.9 (22)申请日 2012.09.25 G06F 17/27(2006.01) (71)申请人太原理工大学 地址 030024 山西省太原市迎泽西大街79 号 (72)发明人赵涓涓 强彦 裴博 杨建峰 (54) 发明名称 一种基于词缀的用于对未知词进行语义分类 的系统 (57) 摘要 本发明公开了一种基于词缀的用于对未知词 进行语义分类的系统,包括输入模块、未知词词缀 分析模块、相似。
2、词选择模块、内容部分相似度计算 模块、存储字典、相似度排列模块、输出模块。本发 明所述系统对其他系统输出的结果进行分析,提 高原有系统的分析精度。本发明尤其适用于对汉 语未知词的分析,根据本发明实现的未知词语义 分类系统获得了良好的分析效果。 (51)Int.Cl. 权利要求书1页 说明书4页 附图3页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 1 页 说明书 4 页 附图 3 页 1/1页 2 1.一种基于词缀的用于对未知词进行语义分类的系统,其特征在于,包括: 输入模块:用于接收来自系统外部由用户输入的未知词; 未知词词缀分析模块:对于系统接收到的任何一个未知。
3、词,将其按构词规则分别拆分 成两个部分,每个部分都可作为词缀; 相似词选择模块:对于所输入的未知词,在同义词词林中查找与未知词具有相同部分 的词; 内容部分相似度计算模块:根据相似词词林字典中的语义分类,计算各个相似词与该 未知词内容部分的语义的相似度; 存储字典:用于存储所输入的未知词和查找到的各个相似词集合; 相似度排列模块:根据各相似词的构词方式基于同义词词林字典筛选出未知词的语义 类; 输出模块:用于输出该位置词的语义类。 2.如权利要求1所述系统,其特征在于,该系统完全基于未知词的内容部分与相似词 内容部分的相似度,其词缀部分对其语义类别没有影响的情况。 3.如权利要求1所述系统,其。
4、特征在于,所述未知词语义类的分类是完全基于同义词 词林字典。 4.如权利要求1所述系统,其特征在于:该系统完全基于相似词与未知词是由其内容 部分扩展而来的情况。 5.如权利要求1所述系统,其特征在于,针对某一未知词和其相似词内容部分相似度 的计算完全基于同义词词林相似度的计算。 权 利 要 求 书CN 102902665 A 1/4页 3 一种基于词缀的用于对未知词进行语义分类的系统 技术领域 0001 本发明属于自然语言处理技术领域,涉及一种基于词缀的用于对未知词进行语义 分类的系统。 背景技术 0002 通常,用户能够先获得描述单词的某些字典。这些字典可以描述单词的出处(例 如,通常在哪一。
5、段话中出现的等等)、语义类(例如人、事件、情感等等)、含义和例句等。对 于那些没有出现在字典中的词我们称为“未知词”。一般而言,未知词可以来源于某些新词。 0003 在文本信息处理中,未知词的出现常常会给用户带来麻烦,由于它的信息(例如 例句、语义类等)的不足。 0004 为解决上述麻烦,一种做法是用户在未知词出现时更新字典。但是这一做法在一 般情况下很困难,原因如下:(1)由于存在着很多的信息源(报纸、网络等等),因此无法保 证用户在一未知词首次出现时就捕捉到该词;(2)由于字典是标准化的,对于任一未知词 都需要经过许多专家的审核、同意后才能写入字典,因此这需要一段时间。 0005 鉴于此,。
6、对未知词进行语义类别的猜测就成了一项很有必要的工作。本发明将关 注语义类别信息。也就是,我们将试图猜测未知词的语义类别。 发明内容 0006 本发明的目的在于克服上述技术缺陷,提供一种基于词缀的用于对未知词进行语 义分类的系统。 0007 其技术方案为: 0008 一种基于词缀的用于对未知词进行语义分类的系统,包括: 0009 输入模块:该模块主要用于接收来自系统外部由用户输入的未知词; 0010 未知词词缀分析模块:对于系统接收到的任何一个未知词,将其按构词规则分别 拆分成两个部分,每个部分都可作为词缀; 0011 相似词选择模块:对于所输入的未知词,在同义词词林中查找与未知词具有相同 词缀。
7、部分的词; 0012 内容部分相似度计算模块:根据相似词词林字典中的语义分类,计算各个相似词 与该未知词内容部分的语义的相似度; 0013 相似词分析模块:分析各个相似词的构词方式,针对其内容部分与其整体部分语 义类的关系; 0014 存储字典:用于存储所输入的未知词和查找到的各个相似词集合; 0015 相似度排列模块:根据各相似词的构词方式基于同义词词林字典筛选出未知词的 语义类; 0016 输出模块:用于输出该未知词的语义类。 0017 该系统完全基于未知词的内容部分与相似词内容部分的相似度,其词缀部分对其 说 明 书CN 102902665 A 2/4页 4 语义类别没有影响的情况。 0。
8、018 所述未知词语义类的分类是完全基于同义词词林字典。 0019 该系统完全基于相似词与未知词是由其内容部分扩展而来的情况。 0020 本发明所述系统针对某一未知词和其相似词内容部分相似度的计算完全基于同 义词词林相似度的计算。 0021 与现有技术相比,本发明的有益效果为: 0022 本发明的方法基于词缀研究未知词的构词规律,进而分析它的语义类别。也可以 作为一个独立的语法或语义成分识别系统对中文或其他基于字符的未知词的语义分类,同 时也可以与其他语言成分识别系统相结合,对其他系统输出的结果进行分析,提高原有系 统的分析精度。本发明尤其适用于对汉语未知词的分析,根据本发明实现的未知词语义分。
9、 类系统获得了良好的分析效果。 附图说明 0023 图1是本发明基于词缀的用于对未知词进行语义分类的系统结构框图; 0024 图2是示出本发明实施例1基于词缀的未知词语义分类的操作流程图; 0025 图3是示出本发明实施例2基于词缀的未知词语义分类的操作流程图; 0026 图4是示出本发明实施例3基于词缀的未知词语义分类的操作流出图。 具体实施方式 0027 下面结合附图与具体实施方式对本发明的技术方案作进一步详细地说明。 0028 参照图1,一种基于词缀的用于对未知词进行语义分类的系统,包括: 0029 输入模块:该模块主要用于接收来自系统外部由用户输入的未知词; 0030 未知词词缀分析模。
10、块:对于系统接收到的任何一个未知词,将其按构词规则分别 拆分成两个部分,每个部分都可作为词缀; 0031 相似词选择模块:对于所输入的未知同,在同义词词林中查找与未知词具有相同 部分的词; 0032 内容部分相似度计算模块:根据相似词词林字典中的语义分类,计算各个相似词 与该未知词内容部分的语义的相似度; 0033 存储字典:用于存储所输入的未知词和查找到的各个相似词集合; 0034 相似度排列模块:根据各相似词的构词方式基于同义词词林字典筛选出未知词的 语义类; 0035 输出模块:用于输出该未知词的语义类。 0036 实施例1 0037 图2的过程开始于步骤201,针对字典中的每个词根A,。
11、收集其所有包含A的相似 词,这里根据本发明实施例,将各相似词的内容部分取出,并查找它们的语义类以满足本发 明的需要。在步骤204中,输入一未知词wXY,步骤205中,从所收集的相似词集合中选 择词根A满足AX或AY的相似词集合,然后经206装置计算其内容部分的相似度,最 后得到未知词的语义类。举例来说,对于一未知词“摄像机”,在201装置中选择出其相似词 集合,如“照相机”、“飞机”等。在不同部分识别单元中将他们相同的词缀部分“机”移除, 说 明 书CN 102902665 A 3/4页 5 并在不同部分存储模块中,以wr,part1,part2(wr表示未知词w的相似词,part1表示 未知。
12、词w的内容部分,part2表示相似词wr的内容部分)。如照相机,摄像,照相,飞 机,摄像,飞,等等。假定在同义词林中,C(摄像)Hg03,C(照相)Hg03,C(飞) Ia10,C(照相机)Bp15,C(飞机)Bo22,其中Hg03,I10,Bp15为词林中所定义的语义 类。在相似度计算模块206中计算未知词和各相似词内容部分的相似度,对于wr“照相 机”,S(摄像,照相)1(其中S()表示计算两个语义类的相似度),相似度存储单元中以 Bp15,1的形式存储其计算结果;对于wr“飞机”,其内容部分相似度S(摄像,飞) 0.1,将Bo22,0.1存储相似度存储模块中。假设未知词“摄像机”只有“照。
13、相机”和“飞机” 这两个相似词,由于词缀对其语义有很大影响的,因此语义类指定模块将Bp15作为未知词 “摄像机”的语义类。 0038 实施例2 0039 图3的过程开始于步骤301,针对字典中的每个词根A,收集其所有包含A的相似 词,这里根据本发明实施例,判断它们是否是由内容部分扩展而来,若不是则按第一方法确 定未知词的语义类,若是,则根据同义词词林查找它们内容部分的语义类,进而确定该未知 词的语义类。举例来说,对于一未知词“椅子”,从相似词集合301中查找具有相同词缀的词 (例如,带子,镜子等)存储在相似词存储模块中,由不同部分识别模块移除他们的相同部 分“子”,并在内容存储模块中以带子,椅。
14、,带,镜子,椅,镜的形式存储。假定在同义 词林字典中,C(椅)Bp26,C(带子)C(带)Bp25,C(镜子)C(镜)Bp01,其 中,Bp26,Bp25,Bp01为词林中所定义的语义类。对于相似词wr“带子”,由于C(带子) C(带),词缀“子”被认为是词缀而存储在词缀存储单元中。同时,将未知词“椅子”的相 同词缀“子”移除,并将“椅”存储在内容模块中,由于C(椅)Bp26,在加分模块中为Bp26 的分值加1。对于相似词wr“镜子”,也将其词缀“子”去掉,由加分模块为Bp26的分值 加1。假设未知词“椅子”只有相似词“带子”和“镜子”,由上述分析可将Bp26作为“椅子” 的语义类。 0040。
15、 实施例3 0041 图4的过程开始于步骤401,针对字典中的每个词根A,收集其所有包含A的相似 词,这里根据本发明实施例,判断其是否由内容部分扩展而来,若是则按第二方法计算它们 内容部分的相似度;若否,则由相似度计算模块405计算它们内容部分的相似度,并由语义 类判别模块406、407判断该未知词的语义类。举例来说,对于一未知词“厨子”,从存储字 典中查找具有相同词缀的词(例如,带子,厨师等)存储在相似词存储模块中,由不同部分 识别模块移除他们相同的词缀,并以wr,part1,part2的形式存储在内容模块中,例如, 带子,厨,带,厨师,子,师等。假定在同义词林字典中,C(厨)Bn03,C(。
16、厨师) Ae04,C(带子)C(带)Bp25,C(子)A101,C(师)A102,其中Bn03,Ae04,Bp25, A101,A102为词林中所定义的语义类。对于相似词“带子”,由于C(带子)C(带),词缀 “子”被认为是词缀存储在词缀存储模块中。同时,移除未知词“厨子”中相同的词缀“子”, 并将其内容部分“厨”存放在不同模块存储单元中。由于C(厨)Bn03,由相似度计算模 块计算其内容部分的相似度S(厨,带)S(Bn03,Bp25)0.4,在加分模块中,将0.4加 在语义类Bn03的score上;对于相似词“厨师”,其与未知词不同部分的相似度S(子,师) S(A101,A102)0.9,在。
17、加分模块中,将0.9加在语义类Ae04的score上。由于0.9 说 明 书CN 102902665 A 4/4页 6 0.4,假设未知词“厨子”只有相似词“带子”和“厨师”,由上述分析可将Ae04作为“厨子” 的语义类。另外,若设定阈值T0.5,则表示只有当相似度超过0.5时才加入其语义类的 score上,而此时S(Bn03,Bp25)0.4,则不必将0.4加在Bn03的score上,因此语义类排 序模块仍将Ae04作为未知词“厨子”的语义类。 0042 以上所述,仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟 悉本技术领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简 单变化或等效替换均落入本发明的保护范围内。 说 明 书CN 102902665 A 1/3页 7 图1 图2 说 明 书 附 图CN 102902665 A 2/3页 8 图3 说 明 书 附 图CN 102902665 A 3/3页 9 图4 说 明 书 附 图CN 102902665 A 。