提取领域本体概念的词语排除法.pdf

摘要
申请专利号：	CN201010502040.8	申请日：	2010.09.30
公开号：	CN101963989A	公开日：	2011.02.02
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 17/30申请日:20100930\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	大连理工大学
发明人：	党延忠; 于娟
地址：	116024 辽宁省大连市甘井子区凌工路2号
优先权：
专利代理机构：	大连理工大学专利中心 21200	代理人：	梅洪玉
PDF下载：	PDF下载

内容摘要

本发明属于人工智能技术领域，涉及到领域本体概念的提取方法，特别涉及到词语排除法提取领域本体概念。本发明的技术方案是采用排除法自动提取领域本体概念集合，解决领域概念提取过程中时需要手工设定阈值困难的技术问题。在给定领域语料中出现的词语的集合时，该方法首先计算词语的领域相关度，删除领域不相关的词语；然后计算剩余词语的领域均匀度，删除在领域语料中分布不均匀的词语；如此，得到领域本体概念集合。该方法能够依据由前景语料(即领域语料)和背景语料(即非领域语料)组成的文本语料库自动地获取领域专有概念的集合，减少在领域概念提取过程中由于领域专家的知识结构等主观因素所造成的争执。

权利要求书

1：一种提取领域本体概念的词语排除法，其特征在于包括如下步骤： (1) 计算词语与领域的领域相关度，删除词语集合中与领域不相关的词语；词语 t 与领域 Dk 的领域相关度计算公式为：其中， P(t|Cfk)， P(t|Cbk) 分别为 t 在前景语料 Cfk 和背景语料 Cbk 中出现的概率；在实际计算时，将其分别估计为：其中， TFt， mfi 为 Cfi 中的文档数目， mbk 为背 i 是词语 t 在前景语料 Cfi 中出现的频率，景语料 Cbk 中的文档数目， tft， j 为 t 在文档 cj 中出现的次数； (2) 计算词语与领域的领域均匀度，删除尚未在领域中得到稳定使用的词语；领域均匀度反映领域正相关 (DR ＞ 0) 的词语在领域语料的各个文本中分布的均匀程度；词语 t 在领域 Dk 的领域均匀度计算公式为： P(t|cj) 为 t 在文档 cj 中出现的概率， cj 为前景语料 Cfk 中的一个文档；本发明在实际计算时，将 P(t|cj) 估计为：其中， tft， j 为词语 t 在领域前景语料 Cfk 中的第 j 个文本中出现的频率。

说明书

提取领域本体概念的词语排除法
    【技术领域】
     本发明涉及到领域本体概念的提取方法，特别涉及到词语排除法提取领域本体概念。背景技术领域本体概念 ( 即领域专有概念，简称领域概念 ) 是描述一组领域对象的共同特征的知识单元。领域概念提取方法主要用于支持构建领域概念的词语集合，辅助领域专家收集领域概念和统一概念的词语 ( 领域术语 )，即，构建领域概念所唯一对应的术语的集合。领域术语是能够描述领域的最恰当的词语，是代表领域概念的标准化术语。
     领域概念的提取方法是利用计算机模拟人类领域专家的行为，获取领域概念的词语集合的机器学习方法和技术。由于文本语料易于获得，领域概念的提取一般基于文本语料进行。属于同一领域的电子文档中包含着相同的术语，因此，可以从领域文档中获取这些术语作为领域概念。从领域文档中提取领域概念集合的方法主要分为三类： 1) 基于语言学的方法， 2) 基于统计学的方法， 3) 混合方法。
     基于语言学的方法首先根据领域概念在真实语料中出现的特殊的词法结构得到模板，然后抽取符合这些模板的词语作为领域概念。由于这些模板大多与具体语言相关，因此，这类方法需要针对具体的语言实施不同的处理。
     基于统计学的方法主要根据领域概念与领域非专有概念在真实语料中出现的不同的统计特征识别得到领域概念。目前已有的中文领域概念学习方法中，基于统计的方法是主流。专利 200510011131.0 提出的基于成熟工艺文档的工艺术语提取、规律分析和重用方法，能够提取成熟工艺文档的工艺术语。陈文亮等人采用 Bootstrapping 机器学习技术从大规模的无词性标注语料中自动获取领域术语。郑家恒等人提出了结合非线性函数与 “成对比较法” ，综合考虑位置和词频两项因素计算候选词的权重，以自动抽取关键词。程勇在博士学位论文中给出了一种从 Hownet 中学习的基于统计学学习领域概念的方法。何燕等人给出了一个基于统计方法从计算机专业词典中学习计算机本体概念的方法。
     混合方法结合使用了语言学和统计学的方法和技术以期获得更好的学习结果。有的方法在统计处理之后采用语法过滤器，抽取出经过统计计算有意义的且与给定词法模板匹配的词语组合；有的方法首先采用语言学方法选出候选项，然后再用统计方法对这些候选项进行计算。杜波等人提出了一种结合规则与统计的专业领域术语抽取算法。张新也研究了一种结合规则与统计的本体概念学习方法。
     已有的领域概念提取方法基于设定的阈值判断词语是否是领域专有的概念。这些方法首先对每一词语计算一个反映领域专属程度的统计数值，然后通过判断该数值是否高于事先设定的阈值来判断该词语是否领域概念。专属程度越高，越有可能成为领域概念。较高的阈值会使提取结果的准确率较高，但是召回率较低；反之亦然。这样一来，准确率和召较高的准确率必然导致较低的召回率；而且，人工设定阈回率是一对互相矛盾的性能指标，值所得到的结果会由于领域专家的知识结构等主观因素造成领域概念提取结果不够客观。
     发明内容本发明要解决的技术问题是提供一种提取领域本体概念的词语排除法，解决领域概念提取过程中需要手工设定阈值的困难。
     本发明采用排除领域非专有概念的方法自动提取领域概念集合。在给定领域语料中出现的词语的集合时，该方法能够依据由前景语料 ( 即领域语料 ) 和背景语料 ( 即非领域语料 ) 组成的文本语料库自动地获取领域概念集合。该方法首先基于前景语料和背景语料计算词语的领域相关度，排除领域不相关的词语；然后基于领域语料计算剩余词语的领域均匀度，排除在领域语料中分布不均匀的词语，即尚未在领域中得到稳定地使用的词语。如此，得到领域概念集合。
     本发明所述排除法分两步删除领域非专有的概念，得到领域概念集合。具体步骤如下：
     (1) 计算词语与领域的领域相关度，删除词语集合中与领域不相关的词语。
     领域相关度衡量词语与领域是否相关及其相关的程度。词语 t 与领域 Dk 的领域相关度计算公式为：
     其中， P(t|Cfk)， P(t|Cbk) 分别为 t 在前景语料 Cfk 和背景语料 Cbk 中出现的概率。在实际计算时，将其分别估计为：
     其中， TFt，i 是词语 t 在前景语料 Cfi 中出现的频率， mfi 为 Cfi 中的文档数目， mbk 为背景语料 Cbk 中的文档数目， tft， j 为 t 在文档 cj 中出现的次数。
     DR 算法由两部分构成： 1)指示，当词语在前景语料 ( 即领域语料 ) 中的出现概率高于背景语料 ( 即非领域语料 ) 时，称该词语与该领域正相关；否则，与领域不相关。不相关的词语不作为领域概念。2)lg(TFt，即与领域的 k) 使得高词频的词语 DR 值高，相关度高。
     因此，诸如 “作用” 、 “企业” 等通用词，尽管其在前景语料中出现频率较高且分布均匀度高，但由于该类词语在背景语料中也均匀分布，所以在绝大多数领域中的 DR 值为负或零，所以 DR 指示了其与领域无关。
     多次试验的结果表明，以前景语料中所包含的词语集合作为输入时， DR 算法能够自动删除词语集合中 40％至 50％的词语。该算法计算所有词语的 DR 值时，时间复杂度为 O(n′ +mfk+mbk)， n′从领域语料中提取得到的词语的数目， mfk 和 mbk 分别为前景语料和背景语料中的文档数目。
     (2) 计算词语与领域的领域均匀度，删除尚未在领域中得到稳定使用的词语。
     领域均匀度反映领域正相关 (DR ＞ 0) 的词语在领域语料的各个文本中分布的均匀程度。词语 t 在领域 Dk 的领域均匀度计算公式为：
     P(t|cj) 为 t 在文档 cj 中出现的概率， cj 为前景语料 Cfk 中的一个文档。本发明在实际计算时，将 P(t|cj) 估计为：
     其中， tft， j 为词语 t 在领域前景语料 Cfk 中的第 j 个文本中出现的频率。
     可以看到， DC 的定义类似于信息熵。DC 指示词语在 Cfk 中分布的是否均匀。DC 值越高，在领域语料中分布的越均匀，也即，在 Cfk 中较多的领域文档中出现，是领域概念的可能性较大。DC 值为 0 指该词语仅在前景语料的一个领域文档中出现过，自动排除出领域概念集合。
     例如，在学习 “知识管理” 领域概念时，由于前景语料中包含有 1 篇煤炭企业知识管理的文档，而在背景语料的其它领域语料中没有出现，所以 “煤炭企业” 的 DR 值为正；但由于其 DC 值为 0，因此，不会误列入到知识管理领域的领域概念集合。
     多次试验的结果证明，以前景语料中所包含的词语集合作为输入时， DC 算法能够自动删除词语集合中 20％ -30％的词语。
     该算法计算所有词语的 DC 值的时间复杂度为 O(n″ ×mfk)， n″为词语集合中经 DR 算法筛选后剩余词语的数目。
     本发明的效果和益处是解决了领域概念提取过程中需要人工设定阈值所产生的实际问题和困难。领域概念可以表示领域主题，其意义在于，能够： 1) 构成领域本体的基础； 2) 规范领域术语，有助于领域内部顺畅交流和学者国际间交流； 3) 辅助领域文档表示、文本聚类和文本检索等文本挖掘和知识发现工作。良好的领域本体概念提取方法能够促进上述工作的自动化程度和性能。本发明基于机器学习技术，设计并实现一个领域独立的领域概念智能获取方法。
     本发明降低了领域本体概念提取工作的繁琐程度。该发明应用计算机借助机器学习技术辅助支持领域概念的提取过程，能够自动删除非领域专有的词语，降低了领域专家的人工工作量。
     本发明的另一益处在于：减少在领域概念提取过程中由于领域专家的知识结构等主观因素所造成的争执。该发明基于统计学方法量化了词语属于某一特定领域的程度。定量化的结果能够降低主观因素引发的争议。
     附图说明
     附图是本发明结构的方框图。具体实施方式
     以下结合技术方案和附表详细叙述本发明的具体实施方式。
     实施例 1
     如附图所示，图中：
     1) 语料库。该方法使用前景语料 (foreground corpora) 与背景语料 (background corpora) 获取领域概念。前景语料是包含丰富领域概念的领域文档库，一般应由若干标准化的领域文本文件组成；背景语料是用来与前景语料作对比以突显领域概念在领域文档与非领域文档中表现的不同的统计特征的电子文档库，由三个以上不同领域的若干个领域文档组成。
     语料库 C 由 m(m ≥ 3) 个领域的前景语料共同构成。学习领域 Dk 的领域专有概念时，前景语料为 Cfk，背景语料 Cbk 由语料库中其它 m-1 个领域的前景语料 Cf1(1 ≤ 1 ≤ m， 1 ≠ k) 构成。要求前景语料 ( 即领域语料 )Cfk 完全包含 Dk 的所有领域专有概念，并且反映概念词语的真实使用状况。
     2) 词语集合是前景语料 ( 即领域语料 ) 中的领域专有概念的词语和其它通用词的集合。 3) 领域本体概念提取模块经过领域相关度和领域均匀度的计算，删除非领域专有的概念，输出领域概念集合。
     4) 领域本体概念集合即领域专有概念的集合。
     在实际的构建领域本体概念集合的过程中，为了提高构建结果的准确性，在自动提取得到领域概念集合后，也可以添加一个人工修正的步骤。人工修正是专家手动修改自动提取的领域概念集合的过程。在此过程中，领域专家删除提取结果中不是领域专有的概念，添加没有包含在领域语料中的领域概念。
     本实施例采用本发明所述的排除法提取了知识管理领域的领域本体概念集合。本实施例所用前景语料是知识管理领域的项目建议书的摘要，共有 317 个文本， 8 万汉字。背景语料包含 75 个领域，共有项目建议书摘要 37443 个，约一千万汉字。
     本实施例中，前景语料中包含了 4431 个词语，即输入到领域概念集合提取模块的词语集合中一共存在 4431 个词语。经过自动提取计算， 2059 个词语与知识管理领域不相关 (DR ≤ 0)，因而首先被自动删除。共有 2597 个词语或者与领域不相关或者仅在一个领域文档中出现过 (DR ≤ 0 或 DC ＝ 0)，也被删除。剩余的 1834 个词语作为领域本体概念。
     附表 1 和附表 2 分别展示了知识管理领域 DR 值最大的前 10 个词语和 DC 值最大的前 10 个词语。表中的词语按照表头带有 “↓” 符号的列中的数值倒序排列。
     附表 1 知识管理领域 DR 信最大的前 10 个词语
     附表 2 知识管理领域 DC 值最大的前 10 个词语
     附表 1 和附表 2 的说明：
     1) 在不影响结果展示的前提下，为了使数据简洁明了，对两个表列 DR 和 DC 中的数据分别进行了四舍五入。
     2) 附表 1 中的词语与知识管理领域的相关度高，在知识管理领域语料中出现的频率高且远高于背景语料。但个别词语，如 “知识转移” ，出现的均匀度差。
     3) 附表 2 中的词语在前景语料中分布均匀度高，几乎在前景语料的每一个文本都出现。但，诸如 “企业” 、 “管理” 等词语的 DR 值低，综合处理之后，这些词语将被排除，附表 2 中只会剩下 “知识” 、 “知识管理” 和 “知识管理理论” 三个词。

资源描述

《提取领域本体概念的词语排除法.pdf》由会员分享，可在线阅读，更多相关《提取领域本体概念的词语排除法.pdf（8页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN101963989A43申请公布日20110202CN101963989ACN101963989A21申请号201010502040822申请日20100930G06F17/3020060171申请人大连理工大学地址116024辽宁省大连市甘井子区凌工路2号72发明人党延忠于娟74专利代理机构大连理工大学专利中心21200代理人梅洪玉54发明名称提取领域本体概念的词语排除法57摘要本发明属于人工智能技术领域，涉及到领域本体概念的提取方法，特别涉及到词语排除法提取领域本体概念。本发明的技术方案是采用排除法自动提取领域本体概念集合，解决领域概念提取过程中时需要手工设定阈值困难的技。

2、术问题。在给定领域语料中出现的词语的集合时，该方法首先计算词语的领域相关度，删除领域不相关的词语；然后计算剩余词语的领域均匀度，删除在领域语料中分布不均匀的词语；如此，得到领域本体概念集合。该方法能够依据由前景语料即领域语料和背景语料即非领域语料组成的文本语料库自动地获取领域专有概念的集合，减少在领域概念提取过程中由于领域专家的知识结构等主观因素所造成的争执。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书5页附图1页CN101963990A1/1页21一种提取领域本体概念的词语排除法，其特征在于包括如下步骤1计算词语与领域的领域相关度，删除词语集合中与领域不。

3、相关的词语；词语T与领域DK的领域相关度计算公式为其中，PT|CFK，PT|CBK分别为T在前景语料CFK和背景语料CBK中出现的概率；在实际计算时，将其分别估计为其中，TFT，I是词语T在前景语料CFI中出现的频率，MFI为CFI中的文档数目，MBK为背景语料CBK中的文档数目，TFT，J为T在文档CJ中出现的次数；2计算词语与领域的领域均匀度，删除尚未在领域中得到稳定使用的词语；领域均匀度反映领域正相关DR0的词语在领域语料的各个文本中分布的均匀程度；词语T在领域DK的领域均匀度计算公式为PT|CJ为T在文档CJ中出现的概率，CJ为前景语料CFK中的一个文档；本发明在实际计算时，将PT|C。

4、J估计为其中，TFT，J为词语T在领域前景语料CFK中的第J个文本中出现的频率。权利要求书CN101963989ACN101963990A1/5页3提取领域本体概念的词语排除法技术领域0001本发明涉及到领域本体概念的提取方法，特别涉及到词语排除法提取领域本体概念。背景技术0002领域本体概念即领域专有概念，简称领域概念是描述一组领域对象的共同特征的知识单元。领域概念提取方法主要用于支持构建领域概念的词语集合，辅助领域专家收集领域概念和统一概念的词语领域术语，即，构建领域概念所唯一对应的术语的集合。领域术语是能够描述领域的最恰当的词语，是代表领域概念的标准化术语。0003领域概念的提取方法是利。

5、用计算机模拟人类领域专家的行为，获取领域概念的词语集合的机器学习方法和技术。由于文本语料易于获得，领域概念的提取一般基于文本语料进行。属于同一领域的电子文档中包含着相同的术语，因此，可以从领域文档中获取这些术语作为领域概念。从领域文档中提取领域概念集合的方法主要分为三类1基于语言学的方法，2基于统计学的方法，3混合方法。0004基于语言学的方法首先根据领域概念在真实语料中出现的特殊的词法结构得到模板，然后抽取符合这些模板的词语作为领域概念。由于这些模板大多与具体语言相关，因此，这类方法需要针对具体的语言实施不同的处理。0005基于统计学的方法主要根据领域概念与领域非专有概念在真实语料中出现的不。

6、同的统计特征识别得到领域概念。目前已有的中文领域概念学习方法中，基于统计的方法是主流。专利2005100111310提出的基于成熟工艺文档的工艺术语提取、规律分析和重用方法，能够提取成熟工艺文档的工艺术语。陈文亮等人采用BOOTSTRAPPING机器学习技术从大规模的无词性标注语料中自动获取领域术语。郑家恒等人提出了结合非线性函数与“成对比较法”，综合考虑位置和词频两项因素计算候选词的权重，以自动抽取关键词。程勇在博士学位论文中给出了一种从HOWNET中学习的基于统计学学习领域概念的方法。何燕等人给出了一个基于统计方法从计算机专业词典中学习计算机本体概念的方法。0006混合方法结合使用了语言学。

7、和统计学的方法和技术以期获得更好的学习结果。有的方法在统计处理之后采用语法过滤器，抽取出经过统计计算有意义的且与给定词法模板匹配的词语组合；有的方法首先采用语言学方法选出候选项，然后再用统计方法对这些候选项进行计算。杜波等人提出了一种结合规则与统计的专业领域术语抽取算法。张新也研究了一种结合规则与统计的本体概念学习方法。0007已有的领域概念提取方法基于设定的阈值判断词语是否是领域专有的概念。这些方法首先对每一词语计算一个反映领域专属程度的统计数值，然后通过判断该数值是否高于事先设定的阈值来判断该词语是否领域概念。专属程度越高，越有可能成为领域概念。较高的阈值会使提取结果的准确率较高，但是召回。

8、率较低；反之亦然。这样一来，准确率和召回率是一对互相矛盾的性能指标，较高的准确率必然导致较低的召回率；而且，人工设定阈值所得到的结果会由于领域专家的知识结构等主观因素造成领域概念提取结果不够客观。说明书CN101963989ACN101963990A2/5页4发明内容0008本发明要解决的技术问题是提供一种提取领域本体概念的词语排除法，解决领域概念提取过程中需要手工设定阈值的困难。0009本发明采用排除领域非专有概念的方法自动提取领域概念集合。在给定领域语料中出现的词语的集合时，该方法能够依据由前景语料即领域语料和背景语料即非领域语料组成的文本语料库自动地获取领域概念集合。该方法首先基于前景语。

9、料和背景语料计算词语的领域相关度，排除领域不相关的词语；然后基于领域语料计算剩余词语的领域均匀度，排除在领域语料中分布不均匀的词语，即尚未在领域中得到稳定地使用的词语。如此，得到领域概念集合。0010本发明所述排除法分两步删除领域非专有的概念，得到领域概念集合。具体步骤如下00111计算词语与领域的领域相关度，删除词语集合中与领域不相关的词语。0012领域相关度衡量词语与领域是否相关及其相关的程度。词语T与领域DK的领域相关度计算公式为00130014其中，PT|CFK，PT|CBK分别为T在前景语料CFK和背景语料CBK中出现的概率。在实际计算时，将其分别估计为001500160017001。

10、8其中，TFT，I是词语T在前景语料CFI中出现的频率，MFI为CFI中的文档数目，MBK为背景语料CBK中的文档数目，TFT，J为T在文档CJ中出现的次数。0019DR算法由两部分构成1指示，当词语在前景语料即领域语料中的出现概率高于背景语料即非领域语料时，称该词语与该领域正相关；否则，与领域不相关。不相关的词语不作为领域概念。2LGTFT，K使得高词频的词语DR值高，即与领域的相关度高。0020因此，诸如“作用”、“企业”等通用词，尽管其在前景语料中出现频率较高且分布均匀度高，但由于该类词语在背景语料中也均匀分布，所以在绝大多数领域中的DR值为负或零，所以DR指示了其与领域无关。0021多。

11、次试验的结果表明，以前景语料中所包含的词语集合作为输入时，DR算法能够自动删除词语集合中40至50的词语。说明书CN101963989ACN101963990A3/5页50022该算法计算所有词语的DR值时，时间复杂度为ONMFKMBK，N从领域语料中提取得到的词语的数目，MFK和MBK分别为前景语料和背景语料中的文档数目。00232计算词语与领域的领域均匀度，删除尚未在领域中得到稳定使用的词语。0024领域均匀度反映领域正相关DR0的词语在领域语料的各个文本中分布的均匀程度。词语T在领域DK的领域均匀度计算公式为00250026PT|CJ为T在文档CJ中出现的概率，CJ为前景语料CFK中的一。

12、个文档。本发明在实际计算时，将PT|CJ估计为00270028其中，TFT，J为词语T在领域前景语料CFK中的第J个文本中出现的频率。0029可以看到，DC的定义类似于信息熵。DC指示词语在CFK中分布的是否均匀。DC值越高，在领域语料中分布的越均匀，也即，在CFK中较多的领域文档中出现，是领域概念的可能性较大。DC值为0指该词语仅在前景语料的一个领域文档中出现过，自动排除出领域概念集合。0030例如，在学习“知识管理”领域概念时，由于前景语料中包含有1篇煤炭企业知识管理的文档，而在背景语料的其它领域语料中没有出现，所以“煤炭企业”的DR值为正；但由于其DC值为0，因此，不会误列入到知识管理领。

13、域的领域概念集合。0031多次试验的结果证明，以前景语料中所包含的词语集合作为输入时，DC算法能够自动删除词语集合中2030的词语。0032该算法计算所有词语的DC值的时间复杂度为ONMFK，N为词语集合中经DR算法筛选后剩余词语的数目。0033本发明的效果和益处是解决了领域概念提取过程中需要人工设定阈值所产生的实际问题和困难。领域概念可以表示领域主题，其意义在于，能够1构成领域本体的基础；2规范领域术语，有助于领域内部顺畅交流和学者国际间交流；3辅助领域文档表示、文本聚类和文本检索等文本挖掘和知识发现工作。良好的领域本体概念提取方法能够促进上述工作的自动化程度和性能。本发明基于机器学习技术，。

14、设计并实现一个领域独立的领域概念智能获取方法。0034本发明降低了领域本体概念提取工作的繁琐程度。该发明应用计算机借助机器学习技术辅助支持领域概念的提取过程，能够自动删除非领域专有的词语，降低了领域专家的人工工作量。0035本发明的另一益处在于减少在领域概念提取过程中由于领域专家的知识结构等主观因素所造成的争执。该发明基于统计学方法量化了词语属于某一特定领域的程度。定量化的结果能够降低主观因素引发的争议。附图说明0036附图是本发明结构的方框图。说明书CN101963989ACN101963990A4/5页6具体实施方式0037以下结合技术方案和附表详细叙述本发明的具体实施方式。0038实施例。

15、10039如附图所示，图中00401语料库。该方法使用前景语料FOREGROUNDCORPORA与背景语料BACKGROUNDCORPORA获取领域概念。前景语料是包含丰富领域概念的领域文档库，一般应由若干标准化的领域文本文件组成；背景语料是用来与前景语料作对比以突显领域概念在领域文档与非领域文档中表现的不同的统计特征的电子文档库，由三个以上不同领域的若干个领域文档组成。0041语料库C由MM3个领域的前景语料共同构成。学习领域DK的领域专有概念时，前景语料为CFK，背景语料CBK由语料库中其它M1个领域的前景语料CF111M，1K构成。要求前景语料即领域语料CFK完全包含DK的所有领域专有概。

16、念，并且反映概念词语的真实使用状况。00422词语集合是前景语料即领域语料中的领域专有概念的词语和其它通用词的集合。00433领域本体概念提取模块经过领域相关度和领域均匀度的计算，删除非领域专有的概念，输出领域概念集合。00444领域本体概念集合即领域专有概念的集合。0045在实际的构建领域本体概念集合的过程中，为了提高构建结果的准确性，在自动提取得到领域概念集合后，也可以添加一个人工修正的步骤。人工修正是专家手动修改自动提取的领域概念集合的过程。在此过程中，领域专家删除提取结果中不是领域专有的概念，添加没有包含在领域语料中的领域概念。0046本实施例采用本发明所述的排除法提取了知识管理领域的。

17、领域本体概念集合。本实施例所用前景语料是知识管理领域的项目建议书的摘要，共有317个文本，8万汉字。背景语料包含75个领域，共有项目建议书摘要37443个，约一千万汉字。0047本实施例中，前景语料中包含了4431个词语，即输入到领域概念集合提取模块的词语集合中一共存在4431个词语。经过自动提取计算，2059个词语与知识管理领域不相关DR0，因而首先被自动删除。共有2597个词语或者与领域不相关或者仅在一个领域文档中出现过DR0或DC0，也被删除。剩余的1834个词语作为领域本体概念。0048附表1和附表2分别展示了知识管理领域DR值最大的前10个词语和DC值最大的前10个词语。表中的词语按。

18、照表头带有“”符号的列中的数值倒序排列。0049附表1知识管理领域DR信最大的前10个词语说明书CN101963989ACN101963990A5/5页700500051附表2知识管理领域DC值最大的前10个词语00520053附表1和附表2的说明00541在不影响结果展示的前提下，为了使数据简洁明了，对两个表列DR和DC中的数据分别进行了四舍五入。00552附表1中的词语与知识管理领域的相关度高，在知识管理领域语料中出现的频率高且远高于背景语料。但个别词语，如“知识转移”，出现的均匀度差。00563附表2中的词语在前景语料中分布均匀度高，几乎在前景语料的每一个文本都出现。但，诸如“企业”、“管理”等词语的DR值低，综合处理之后，这些词语将被排除，附表2中只会剩下“知识”、“知识管理”和“知识管理理论”三个词。说明书CN101963989ACN101963990A1/1页8说明书附图CN101963989A。

展开阅读全文