提取领域本体概念的词语排除法 【技术领域】
本发明涉及到领域本体概念的提取方法, 特别涉及到词语排除法提取领域本体概念。 背景技术 领域本体概念 ( 即领域专有概念, 简称领域概念 ) 是描述一组领域对象的共同特 征的知识单元。领域概念提取方法主要用于支持构建领域概念的词语集合, 辅助领域专家 收集领域概念和统一概念的词语 ( 领域术语 ), 即, 构建领域概念所唯一对应的术语的集 合。领域术语是能够描述领域的最恰当的词语, 是代表领域概念的标准化术语。
领域概念的提取方法是利用计算机模拟人类领域专家的行为, 获取领域概念的词 语集合的机器学习方法和技术。由于文本语料易于获得, 领域概念的提取一般基于文本语 料进行。 属于同一领域的电子文档中包含着相同的术语, 因此, 可以从领域文档中获取这些 术语作为领域概念。从领域文档中提取领域概念集合的方法主要分为三类 : 1) 基于语言学 的方法, 2) 基于统计学的方法, 3) 混合方法。
基于语言学的方法首先根据领域概念在真实语料中出现的特殊的词法结构得到 模板, 然后抽取符合这些模板的词语作为领域概念。 由于这些模板大多与具体语言相关, 因 此, 这类方法需要针对具体的语言实施不同的处理。
基于统计学的方法主要根据领域概念与领域非专有概念在真实语料中出现的不 同的统计特征识别得到领域概念。目前已有的中文领域概念学习方法中, 基于统计的方法 是主流。专利 200510011131.0 提出的基于成熟工艺文档的工艺术语提取、 规律分析和重用 方法, 能够提取成熟工艺文档的工艺术语。陈文亮等人采用 Bootstrapping 机器学习技术 从大规模的无词性标注语料中自动获取领域术语。郑家恒等人提出了结合非线性函数与 “成对比较法” , 综合考虑位置和词频两项因素计算候选词的权重, 以自动抽取关键词。程勇 在博士学位论文中给出了一种从 Hownet 中学习的基于统计学学习领域概念的方法。何燕 等人给出了一个基于统计方法从计算机专业词典中学习计算机本体概念的方法。
混合方法结合使用了语言学和统计学的方法和技术以期获得更好的学习结果。 有 的方法在统计处理之后采用语法过滤器, 抽取出经过统计计算有意义的且与给定词法模板 匹配的词语组合 ; 有的方法首先采用语言学方法选出候选项, 然后再用统计方法对这些候 选项进行计算。杜波等人提出了一种结合规则与统计的专业领域术语抽取算法。张新也研 究了一种结合规则与统计的本体概念学习方法。
已有的领域概念提取方法基于设定的阈值判断词语是否是领域专有的概念。 这些 方法首先对每一词语计算一个反映领域专属程度的统计数值, 然后通过判断该数值是否高 于事先设定的阈值来判断该词语是否领域概念。 专属程度越高, 越有可能成为领域概念。 较 高的阈值会使提取结果的准确率较高, 但是召回率较低 ; 反之亦然。这样一来, 准确率和召 较高的准确率必然导致较低的召回率 ; 而且, 人工设定阈 回率是一对互相矛盾的性能指标, 值所得到的结果会由于领域专家的知识结构等主观因素造成领域概念提取结果不够客观。
发明内容 本发明要解决的技术问题是提供一种提取领域本体概念的词语排除法, 解决领域 概念提取过程中需要手工设定阈值的困难。
本发明采用排除领域非专有概念的方法自动提取领域概念集合。 在给定领域语料 中出现的词语的集合时, 该方法能够依据由前景语料 ( 即领域语料 ) 和背景语料 ( 即非领 域语料 ) 组成的文本语料库自动地获取领域概念集合。该方法首先基于前景语料和背景语 料计算词语的领域相关度, 排除领域不相关的词语 ; 然后基于领域语料计算剩余词语的领 域均匀度, 排除在领域语料中分布不均匀的词语, 即尚未在领域中得到稳定地使用的词语。 如此, 得到领域概念集合。
本发明所述排除法分两步删除领域非专有的概念, 得到领域概念集合。具体步骤 如下 :
(1) 计算词语与领域的领域相关度, 删除词语集合中与领域不相关的词语。
领域相关度衡量词语与领域是否相关及其相关的程度。词语 t 与领域 Dk 的领域 相关度计算公式为 :
其中, P(t|Cfk), P(t|Cbk) 分别为 t 在前景语料 Cfk 和背景语料 Cbk 中出现的概率。 在实际计算时, 将其分别估计为 :
其中, TFt,i 是词语 t 在前景语料 Cfi 中出现的频率, mfi 为 Cfi 中的文档数目, mbk 为背景语料 Cbk 中的文档数目, tft, j 为 t 在文档 cj 中出现的次数。
DR 算法由两部分构成 : 1)指示, 当词语在前景语料 ( 即领域语料 ) 中的出现概率高于背景语料 ( 即非领域语料 ) 时, 称该词语与该领域正相关 ; 否则, 与领域不 相关。不相关的词语不作为领域概念。2)lg(TFt, 即与领域的 k) 使得高词频的词语 DR 值高, 相关度高。
因此, 诸如 “作用” 、 “企业” 等通用词, 尽管其在前景语料中出现频率较高且分布均 匀度高, 但由于该类词语在背景语料中也均匀分布, 所以在绝大多数领域中的 DR 值为负或 零, 所以 DR 指示了其与领域无关。
多次试验的结果表明, 以前景语料中所包含的词语集合作为输入时, DR 算法能够 自动删除词语集合中 40%至 50%的词语。该算法计算所有词语的 DR 值时, 时间复杂度为 O(n′ +mfk+mbk), n′从领域语料中 提取得到的词语的数目, mfk 和 mbk 分别为前景语料和背景语料中的文档数目。
(2) 计算词语与领域的领域均匀度, 删除尚未在领域中得到稳定使用的词语。
领域均匀度反映领域正相关 (DR > 0) 的词语在领域语料的各个文本中分布的均 匀程度。词语 t 在领域 Dk 的领域均匀度计算公式为 :
P(t|cj) 为 t 在文档 cj 中出现的概率, cj 为前景语料 Cfk 中的一个文档。本发明 在实际计算时, 将 P(t|cj) 估计为 :
其中, tft, j 为词语 t 在领域前景语料 Cfk 中的第 j 个文本中出现的频率。
可以看到, DC 的定义类似于信息熵。DC 指示词语在 Cfk 中分布的是否均匀。DC 值 越高, 在领域语料中分布的越均匀, 也即, 在 Cfk 中较多的领域文档中出现, 是领域概念的可 能性较大。DC 值为 0 指该词语仅在前景语料的一个领域文档中出现过, 自动排除出领域概 念集合。
例如, 在学习 “知识管理” 领域概念时, 由于前景语料中包含有 1 篇煤炭企业知识 管理的文档, 而在背景语料的其它领域语料中没有出现, 所以 “煤炭企业” 的 DR 值为正 ; 但 由于其 DC 值为 0, 因此, 不会误列入到知识管理领域的领域概念集合。
多次试验的结果证明, 以前景语料中所包含的词语集合作为输入时, DC 算法能够 自动删除词语集合中 20% -30%的词语。
该算法计算所有词语的 DC 值的时间复杂度为 O(n″ ×mfk), n″为词语集合中经 DR 算法筛选后剩余词语的数目。
本发明的效果和益处是解决了领域概念提取过程中需要人工设定阈值所产生的 实际问题和困难。领域概念可以表示领域主题, 其意义在于, 能够 : 1) 构成领域本体的基 础; 2) 规范领域术语, 有助于领域内部顺畅交流和学者国际间交流 ; 3) 辅助领域文档表示、 文本聚类和文本检索等文本挖掘和知识发现工作。 良好的领域本体概念提取方法能够促进 上述工作的自动化程度和性能。本发明基于机器学习技术, 设计并实现一个领域独立的领 域概念智能获取方法。
本发明降低了领域本体概念提取工作的繁琐程度。 该发明应用计算机借助机器学 习技术辅助支持领域概念的提取过程, 能够自动删除非领域专有的词语, 降低了领域专家 的人工工作量。
本发明的另一益处在于 : 减少在领域概念提取过程中由于领域专家的知识结构等 主观因素所造成的争执。该发明基于统计学方法量化了词语属于某一特定领域的程度。定 量化的结果能够降低主观因素引发的争议。
附图说明
附图是本发明结构的方框图。具体实施方式
以下结合技术方案和附表详细叙述本发明的具体实施方式。
实施例 1
如附图所示, 图中 :
1) 语料库。 该方法使用前景语料 (foreground corpora) 与背景语料 (background corpora) 获取领域概念。前景语料是包含丰富领域概念的领域文档库, 一般应由若干标准 化的领域文本文件组成 ; 背景语料是用来与前景语料作对比以突显领域概念在领域文档与 非领域文档中表现的不同的统计特征的电子文档库, 由三个以上不同领域的若干个领域文 档组成。
语料库 C 由 m(m ≥ 3) 个领域的前景语料共同构成。学习领域 Dk 的领域专有概念 时, 前景语料为 Cfk, 背景语料 Cbk 由语料库中其它 m-1 个领域的前景语料 Cf1(1 ≤ 1 ≤ m, 1 ≠ k) 构成。要求前景语料 ( 即领域语料 )Cfk 完全包含 Dk 的所有领域专有概念, 并且反 映概念词语的真实使用状况。
2) 词语集合是前景语料 ( 即领域语料 ) 中的领域专有概念的词语和其它通用词的 集合。 3) 领域本体概念提取模块经过领域相关度和领域均匀度的计算, 删除非领域专有 的概念, 输出领域概念集合。
4) 领域本体概念集合即领域专有概念的集合。
在实际的构建领域本体概念集合的过程中, 为了提高构建结果的准确性, 在自动 提取得到领域概念集合后, 也可以添加一个人工修正的步骤。人工修正是专家手动修改自 动提取的领域概念集合的过程。在此过程中, 领域专家删除提取结果中不是领域专有的概 念, 添加没有包含在领域语料中的领域概念。
本实施例采用本发明所述的排除法提取了知识管理领域的领域本体概念集合。 本 实施例所用前景语料是知识管理领域的项目建议书的摘要, 共有 317 个文本, 8 万汉字。背 景语料包含 75 个领域, 共有项目建议书摘要 37443 个, 约一千万汉字。
本实施例中, 前景语料中包含了 4431 个词语, 即输入到领域概念集合提取模块的 词语集合中一共存在 4431 个词语。 经过自动提取计算, 2059 个词语与知识管理领域不相关 (DR ≤ 0), 因而首先被自动删除。共有 2597 个词语或者与领域不相关或者仅在一个领域文 档中出现过 (DR ≤ 0 或 DC = 0), 也被删除。剩余的 1834 个词语作为领域本体概念。
附表 1 和附表 2 分别展示了知识管理领域 DR 值最大的前 10 个词语和 DC 值最大 的前 10 个词语。表中的词语按照表头带有 “↓” 符号的列中的数值倒序排列。
附表 1 知识管理领域 DR 信最大的前 10 个词语
附表 2 知识管理领域 DC 值最大的前 10 个词语
附表 1 和附表 2 的说明 :
1) 在不影响结果展示的前提下, 为了使数据简洁明了, 对两个表列 DR 和 DC 中的数 据分别进行了四舍五入。
2) 附表 1 中的词语与知识管理领域的相关度高, 在知识管理领域语料中出现的频 率高且远高于背景语料。但个别词语, 如 “知识转移” , 出现的均匀度差。
3) 附表 2 中的词语在前景语料中分布均匀度高, 几乎在前景语料的每一个文本都 出现。但, 诸如 “企业” 、 “管理” 等词语的 DR 值低, 综合处理之后, 这些词语将被排除, 附表 2 中只会剩下 “知识” 、 “知识管理” 和 “知识管理理论” 三个词。