一种面向文本的领域术语与术语关系抽取方法.pdf

上传人:32 文档编号:975579 上传时间:2018-03-22 格式:PDF 页数:17 大小:576.52KB
返回 下载 相关 举报
摘要
申请专利号:

CN201110312280.6

申请日:

2011.10.15

公开号:

CN102360383A

公开日:

2012.02.22

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20111015|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

西安交通大学

发明人:

郑庆华; 刘均; 罗俊英; 程晓程

地址:

710049 陕西省西安市咸宁西路28号

优先权:

专利代理机构:

西安通大专利代理有限责任公司 61200

代理人:

朱海临

PDF下载: PDF下载
内容摘要

本发明公开了一种面向文本的领域术语与术语关系抽取方法,其特征在于,包括下述步骤:首先对原始语料进行预处理,获得候选词集,包括分句、分词及词性标注,干扰词过滤;其次,从原始语料和互联网中提取出术语特征,并结合双模型结构算法,从候选词中分离出术语;然后,采用倒排索引的方法构建术语词典,并利用最长匹配算法,标注待识别文本中的术语;最后,根据多维度节点标记规则,通过条件随机场模型进行多层次标记序列标注,得到待识别文本中术语间的关系。

权利要求书

1: 一种面向文本的领域术语与术语关系抽取方法, 其特征在于, 包括下述步骤 : (1) 对待识别文本进行预处理 ; (2) 通过倒排索引结构构建术语词典, 并采用最长序列匹配算法, 对待识别文本中的术 语进行识别 ; 所述的术语是指在特定领域中约定俗成, 或者经过规定, 被广泛使用来描述该 领域中某个概念的词 ; 所述术语词典是指, 通过模式识别的方法, 从原始语料集中提取出来 的术语集, 该术语集采用倒排索引结构进行组织 ; (3) 利用多维度节点标记规则, 通过训练的条件随机场模型进行多层次标记序列标注, 抽取术语间的关系 ; 所述术语关系抽取是指给定某一领域内一定语境中的术语集合, 给定 定义好的术语关系类型, 判断术语间是否存在某种类型的关系 ; 其中, 步骤 (2) 所述的倒排索引结构是指 : a) 将相同前缀的术语分成一组, 按照词长, 由长到短排序 ; b) 以它们的公共前缀作为索引关键词 ; 步骤 (2) 所述的术语词典构建方法包括下述具体步骤 : Step1 : 对原始语料集进行预处理, 获取候选词集 ; Step2 : 通过互联网词频过滤和混合词频过滤方法, 对候选词进行噪声词过滤 ; 所述互 联网词频过滤是指, 对于一个候选词 K, 若 K 在互联网词频表中的词频值大于阈值 M, 那么 K 可能是一个常词, 则将其过滤, 互联网词频表是指, 对词串在大量的互联网文本中出现次数 的抽样统计 ; 所述混合词频过滤方法是指, 对于一个候选词 K, 如果存在 n 个候选词包含 K, 且 那么 K 可能是一个常词, 则将其过滤 ; Step3 : 在传统术语特征基础上, 加入互联网特征, 并采用双模型结构的方法, 构建术语 识别模型, 从原始语料集中抽取领域术语 ; 步骤 (2) 所述的最长序列匹配算法包括下述具体步骤 : Step1 : 对待识别的文本进行分词 ; Step2 : 将分词后得到基本词作为关键词, 在术语词典中查找包含该前缀的术语集 ; Step3 : 对这个术语集中出现的术语, 按词长, 由长到短, 与待识别的文本中进行匹配, 若匹配成功, 则在原文中标识该术语。
2: 根据权利要求 1 所述的面向文本的领域术语与术语关系抽取方法, 其特征在于, 所 述多维度节点标记规则是指, 在序列标注的过程中, 根据每个节点的特征形成观测序列的 规则 ; 所述节点是指句子当中的每个术语或普通词语 ; 所述观测序列是指每个节点的可以 观测到的特征组合成的序列 ; 多维度节点标记规则分为以下 4 个维度 : (1) 词语或者术语本身作为标记 ; (2) 当前节点词语或者术语的词性标记信息 ; (3) 节点类型标记, 表示当前节点是一个普通词语还是一个术语, 其中词语用标记 “Word” 来表示, 术语用标记 “Term” 来表示 ; (4) 特征词语类别标记 : 其中, 特征词语是指, 对于术语关系抽取任务, 句子上下文中有一些词语对判断术语间 的关系有着重要的提示作用 ; 特征词语类别标记是指, 为了区别提供了不同上下文语义信 息的特征词语, 将特征词语分为了几个类别, 加以区别对待, 并在观测序列的表示中, 用不 同的标记给予明示。 2
3: 根据权利要求 2 所述的面向文本的领域术语与术语关系抽取方法, 其特征在于, 所 述特征词语类别标记分为一层特征词语类别标记和二层特征词语类别标记 ; 一层特征词语类别标记包括 {W_Sele, W_Ref, W_Para, W_heir, P_Para, P_Expl, O}, 其 中 W_Sele 用于标记表选择的词语, W_Ref 用于标记有自反性的词语, W_Para 用于标记并列 关系, W_heir 用于标记表示层次概念的词, P_Para 用于标记表示并列的符号, P_Expl 用于 标记表解释说明的符号, O 标记其他 ; 二层特征词语类别标记包括 {W_Enti, W_Syn, W_Para, W_Imp1, W_Imp2, W_Ass, W_Seg, W_Whole, W_Omis, W_Neg}, 其中 W_Enti 用于标记表同样称谓的词, W_Syn 用于标记表解释同 义的词, W_Para 用于标记并列关系, W_Imp1 用于标记向后概念蕴含, W_Imp2 用于标记向前 概念蕴含, W_Ass 用于标记物理组合, W_Seg 用于标记物理片段, W_Whole 用于标记全体概 念, W_Omis 用于标记省略, W_Neg 用于标记否定。
4: 根据权利要求 1 所述的面向文本的领域术语与术语关系抽取方法, 其特征在于, 步 骤 (3) 所述多层次标记序列标注包括下述具体步骤 : Step1 : 初始化术语关系列表 RelationSet = φ ; Step2 : 将待识别文本划分成句子, 即 TXT = {Sen1, ..., SenK}, 其中 TXT 表示待识别文 本, 它由 K 个句子构成, Seni(i = 1, 2, ..., K) 表示文本中的每一个句子 ; Step3 : 从 TXT 中获取下一个句子 Senk, Senk 表示当前需要处理的句子 ; 获取句子 Senk 包含的领域术语信息 ; TermSet = {Term1, Term2, ..., TermN}, 其中 N 表示术语个数, Termi(i = 1, 2, ..., N) 表示句子中每个术语 ; Step4 : 若 N < 2, 跳到 Step2 处理下一个句子 ; 否则, 继续执行 ; Step5 : 对句子中每个领域术语, 选取 Termi 为待考察术语, 根据多维度节点标记规则, 特征词语类别标记选择一层特征词语类别标记, 构建观测序列, 使用训练的条件随机场模 型进行一层序列标注 ; 采用的标记集合为 {Hier, Nonh, N}, 其中, 标记为 Hier 的节点与 Termi 具有层级关系 ; 标记为 Nonh 的节点与 Termi 具有非层级关系 ; 标记为 N 的节点表示该 节点是普通词语或该节点是术语, 且此术语与 Termi 没有关系 ; Step6 : 对待考察术语 Termi, 根据多维度节点标记规则, 特征词语类别标记选择二层特 征词语类别标记, 并结合 Step5 中一层序列标注的结果, 得到新的观测序列, 利用条件随机 场模型进行第二层序列标注, 采用的标记集合为 {Syno, Hypo, Part, N}, 其中标记为 Syno 的 节点表示 Termi 与该节点具有同义关系 ; 标记为 Hypo 的节点表示 Termi 与该节点具有上下 位关系 ; 标记为 Part 的节点表示 Termi 与该节点具有整体部分关系 ; 标记为 N 的节点表示 该节点是普通词语或该节点是术语, 且此术语与 Termi 没有关系 ; Step7 : 对 句 子 中 标 记 为 Syno, Hypo 或 Part 的 每 个 节 点 Node, 分别构建三元组 RelationPair = {T1, T2, Relation}, 其中 T1 表示术语 Termi ; T2 表示节点 Node 表示的术语 ; Relation 表示节点 Node 的标记 ; 将所有 RelationPair 加入 RelationSet 中 ; Step8 : 检查句子术语列表, 若存在其他术语, 选取下一个可用术语, 跳到 Step4 ; 否则, 若句子中所有术语都处理完, 继续执行 ; Step9 : 检查句子列表, 若存在还未处理的句子, 跳到 Step3 ; 否则, 继续执行 ; Stepl0 : 输出文本的术语关系列表 RelationSet。 其特征在于, 所
5: 根据权利要求 1 所述的面向文本的领域术语与术语关系抽取方法, 3 述的互联网特征是指, 在互联网对候选词的反馈信息中隐含术语特征信息, 这里包括搜索 引擎反馈、 权威网站反馈、 WEB-TFIDF : i. 互联网反馈次数, 指的是将一个候选词在一个搜索引擎中进行搜索后, 返回与该候 选词相关的网页个数 ; ii. 权威网站反馈, 指的是将一个候选词在一个权威网站中进行检索后, 是否能够检索 到; iii.WEB-TFIDF, 指的是候选词在搜索引擎的反馈特征, 其计算公式 : WEB-TFTDF = log(TermLen)*TitleCount/log(PageCount) 其中 TermLen 是指候选词词长 ; TitleCount 是指, 在搜索引擎返回第一个页面中的相 关网页的标题中该候选词出现次数 ; PageCount 是指, 搜索引擎返回与该候选词相关的网 页个数。
6: 根据权利要求 2 所述的面向文本的领域术语与术语关系抽取方法, 其特征在于, 所 述的采用双模型结构的方法包括下述具体步骤 : Step1 : 将从原始语料和互联网中抽取到的 n 维特征, 生成第一个识别模型 ; Step2 : 由第一个识别模型对候选词中的术语进行识别, 得到术语集 I ; 所述的术语集 I 指的是, 被 “第一个识别模型” 判为术语的候选词的临时集合 ; Step3 : 若候选词∈术语集 I 或候选词子串∈术语集 I, 则标记为 1, 反之标记为 0, 得到 “第 n+1 维特征” ; Step4 : 由原先的 n 维特征和这第 n+1 维特征组成 n+1 特征向量, 生成第二个识别模型 ; Step5 : 由第二个识别模型再一次对候选词中的术语进行识别, 得到最终的术语集。

说明书


一种面向文本的领域术语与术语关系抽取方法

    技术领域 本发明涉及文本挖掘、 知识获取方法, 特别涉及一种面向文本的领域术语与术语 关系的抽取方法。
     背景技术 随着互联网技术应用的日趋广泛, 网络学习已成为人们获得和学习知识的主要手 段之一, 而术语作为知识的基本组成单元, 是构建知识地图、 知识导航的基石。如何对特定 领域的文本进行分类, 或是为有经验人士提供特定领域中知识结构以及演化规律, 又或是 为学习者提供某个领域的正确学习路径, 因此如何高效准确地获得不同领域的术语集合以 及术语之间的关系非常重要。
     申请人经过查新, 检索到下列与本发明有关的专利文献 :
     ①基于锚文本分析的领域术语自动生成方法 ( 申请人 : 清华大学 ; 北京搜狗科技 发展有限公司, 专利号 : 201110091312.4)
     ②科技术语的自动化抽取方法 ( 申请人 : 北京中献电子技术开发中心, 专利号 : 200910162380.8)
     ③中文术语自动提取系统及方法 ( 申请人 : 北京大学, 专利号 : 200810119708.3)
     ④一种专业术语抽取方法和系统 ( 申请人 : 中国科学院计算技术研究所, 专利号 : 200710121839.0)
     ⑤用于从具有文本段的文档中提取术语的系统 ( 申请人 : 国际商业机器公司, 专 利号 : 200980134535.5)
     ⑥一种术语快速标注方法 ( 申请人 : 传神联合 ( 北京 ) 信息技术有限公司, 专利 号: 201010545766.X)
     其中专利① - ⑤主要基于单一的术语识别模型, 不能有效地去除候选词中噪声 词, 对派生术语识别效果不是太好。
     专利⑥只是构建前缀表来节省字符串匹配次数, 采用穷举的方法, 效率低下。
     发明内容 本发明的目的是提供一种可有效去除候选词中噪声词、 提高术语识别率的领域术 语的离线构建、 在线获取以及术语关系抽取的方法。
     为达到以上目的本发明是采取如下技术方案予以实现的 :
     一种面向文本的领域术语与术语关系抽取方法, 其特征在于, 包括下述步骤 :
     (1) 对待识别文本进行预处理 ;
     (2) 通过倒排索引结构构建术语词典, 并采用最长序列匹配算法, 对待识别文本中 的术语进行识别 ; 所述的术语是指在特定领域中约定俗成, 或者经过规定, 被广泛使用来描 述该领域中某个概念的词 ; 所述术语词典是指, 通过模式识别的方法, 从原始语料集中提取 出来的术语集, 该术语集采用倒排索引结构进行组织 ;
     (3) 利用多维度节点标记规则, 通过训练的条件随机场模型进行多层次标记序列 标注, 抽取术语间的关系 ; 所述术语关系抽取是指给定某一领域内一定语境中的术语集合, 给定定义好的术语关系类型, 判断术语间是否存在某种类型的关系 ;
     其中, 步骤 (2) 所述的倒排索引结构是指 : a) 将相同前缀的术语分成一组, 按照词 长, 由长到短排序 ; b) 以它们的公共前缀作为索引关键词 ;
     步骤 (2) 所述的术语词典构建方法包括下述具体步骤 :
     Step1 : 对原始语料集进行预处理, 获取候选词集 ;
     Step2 : 通过互联网词频过滤和混合词频过滤方法, 对候选词进行噪声词过滤 ; 所 述互联网词频过滤是指, 对于一个候选词 K, 若 K 在互联网词频表中的词频值大于阈值 M, 那 么 K 可能是一个常词, 则将其过滤, 互联网词频表是指, 对词串在大量的互联网文本中出现 次数的抽样统计 ; 所述混合词频过滤方法是指, 对于一个候选词 K, 如果存在 n 个候选词包 含 K, 且
     那么 K 可能是一个常词, 则将其过滤 ;Step3 : 在传统术语特征基础上, 加入互联网特征, 并采用双模型结构的方法, 构建 术语识别模型, 从原始语料集中抽取领域术语 ;
     步骤 (2) 所述的最长序列匹配算法包括下述具体步骤 :
     Step1 : 对待识别的文本进行分词 ;
     Step2 : 将分词后得到基本词作为关键词, 在术语词典中查找包含该前缀的术语 集;
     Step3 : 对这个术语集中出现的术语, 按词长, 由长到短, 与待识别的文本中进行匹 配, 若匹配成功, 则在原文中标识该术语。
     上述方案中, 所述多维度节点标记规则是指, 在序列标注的过程中, 根据每个节点 的特征形成观测序列的规则 ; 所述节点是指句子当中的每个术语或普通词语 ; 所述观测序 列是指每个节点的可以观测到的特征组合成的序列 ; 多维度节点标记规则分为以下 4 个维 度:
     (1) 词语或者术语本身作为标记 ;
     (2) 当前节点词语或者术语的词性标记信息 ;
     (3) 节点类型标记, 表示当前节点是一个普通词语还是一个术语, 其中词语用标记 “Word” 来表示, 术语用标记 “Term” 来表示 ;
     (4) 特征词语类别标记 :
     其中, 特征词语是指, 对于术语关系抽取任务, 句子上下文中有一些词语对判断术 语间的关系有着重要的提示作用 ; 特征词语类别标记是指, 为了区别提供了不同上下文语 义信息的特征词语, 将特征词语分为了几个类别, 加以区别对待, 并在观测序列的表示中, 用不同的标记给予明示。
     所述特征词语类别标记分为一层特征词语类别标记和二层特征词语类别标记 ; 一 层特征词语类别标记包括 {W_Sele, W_Ref, W_Para, W_heir, P_Para, P_Expl, O}, 其中 W_ Sele 用于标记表选择的词语, W_Ref 用于标记有自反性的词语, W_Para 用于标记并列关系, W_heir 用于标记表示层次概念的词, P_Para 用于标记表示并列的符号, P_Expl 用于标记 表解释说明的符号, O 标记其他 ; 二层特征词语类别标记包括 {W_Enti, W_Syn, W_Para, W_Imp1, W_Imp2, W_Ass, W_Seg, W_Whole, W_Omis, W_Neg}, 其中 W_Enti 用于标记表同样称谓 的词, W_Syn 用于标记表解释同义的词, W_Para 用于标记并列关系, W_Imp1 用于标记向后概 念蕴含, W_Imp2 用于标记向前概念蕴含, W_Ass 用于标记物理组合, W_Seg 用于标记物理片 段, W_Whole 用于标记全体概念, W_Omis 用于标记省略, W_Neg 用于标记否定。
     步骤 (3) 所述多层次标记序列标注包括下述具体步骤 :
     Step1 : 初始化术语关系列表 RelationSet = φ ;
     Step2 : 将待识别文本划分成句子, 即 TXT = {Sen1, ..., SenK}, 其中 TXT 表示待识 别文本, 它由 K 个句子构成, Seni(i = 1, 2, ..., K) 表示文本中的每一个句子 ;
     Step3 : 从 TXT 中获取下一个句子 Senk, Senk 表示当前需要处理的句子 ; 获取句子 Senk 包含的领域术语信息 ; TermSet = {Term1, Term2, ..., TermN}, 其中 N 表示术语个数, Termi(i = 1, 2, ..., N) 表示句子中每个术语 ;
     Step4 : 若 N < 2, 跳到 Step2 处理下一个句子 ; 否则, 继续执行 ;
     Step5 : 对句子中每个领域术语, 选取 Termi 为待考察术语, 根据多维度节点标记规 则, 特征词语类别标记选择一层特征词语类别标记, 构建观测序列, 使用训练的条件随机场 模型进行一层序列标注 ; 采用的标记集合为 {Hier, Nonh, N}, 其中, 标记为 Hier 的节点与 Termi 具有层级关系 ; 标记为 Nonh 的节点与 Termi 具有非层级关系 ; 标记为 N 的节点表示该 节点是普通词语或该节点是术语, 且此术语与 Termi 没有关系 ;
     Step6 : 对待考察术语 Termi, 根据多维度节点标记规则, 特征词语类别标记选择 二层特征词语类别标记, 并结合 Step5 中一层序列标注的结果, 得到新的观测序列, 利用条 件随机场模型进行第二层序列标注, 采用的标记集合为 {Syno, Hypo, Part, N}, 其中标记为 Syno 的节点表示 Termi 与该节点具有同义关系 ; 标记为 Hypo 的节点表示 Termi 与该节点具 有上下位关系 ; 标记为 Part 的节点表示 Termi 与该节点具有整体部分关系 ; 标记为 N 的节 点表示该节点是普通词语或该节点是术语, 且此术语与 Termi 没有关系 ;
     Step7 : 对句子中标记为 Syno, Hypo 或 Part 的每个节点 Node, 分别构建三元组 RelationPair = {T1, T2, Relation}, 其中 T1 表示术语 Terimi ; T2 表示节点 Node 表示的术 语; Relation 表示节点 Node 的标记 ; 将所有 RelationPair 加入 RelationSet 中 ;
     Step8 : 检查句子术语列表, 若存在其他术语, 选取下一个可用术语, 跳到 Step4 ; 否则, 若句子中所有术语都处理完, 继续执行 ;
     Step9 : 检查句子列表, 若存在还未处理的句子, 跳到 Step3 ; 否则, 继续执行 ;
     Step10 : 输出文本的术语关系列表 RelationSet。
     所述的互联网特征是指, 在互联网对候选词的反馈信息中隐含术语特征信息, 这 里包括搜索引擎反馈、 权威网站反馈、 WEB-TFIDF :
     i. 互联网反馈次数, 指的是将一个候选词在一个搜索引擎中进行搜索后, 返回与 该候选词相关的网页个数 ;
     ii. 权威网站反馈, 指的是将一个候选词在一个权威网站中进行检索后, 是否能够 检索到 ;
     iii.WEB-TFIDF, 指的是候选词在搜索引擎的反馈特征, 其计算公式 :
     WEB-TFTDF = log(TermLen)*TitleCount/log(PageCount)
     其中 TermLen 是指候选词词长 ; TitleCount 是指, 在搜索引擎返回第一个页面中的相关网页的标题中该候选词出现次数 ; PageCount 是指, 搜索引擎返回与该候选词相关 的网页个数。
     所述的采用双模型结构的方法包括下述具体步骤 :
     Step1 : 将从原始语料和互联网中抽取到的 n 维特征, 生成第一个识别模型 ;
     Step2 : 由第一个识别模型对候选词中的术语进行识别, 得到术语集 I ; 所述的术 语集 I 指的是, 被 “第一个识别模型” 判为术语的候选词的临时集合 ;
     Step3 : 若候选词∈术语集 I 或候选词子串∈术语集 I, 则标记为 1, 反之标记为 0, 得到 “第 n+1 维特征” ;
     Step4 : 由原先的 n 维特征和这第 n+1 维特征组成 n+1 特征向量, 生成第二个识别 模型 ;
     Step5 : 由第二个识别模型再一次对候选词中的术语进行识别, 得到最终的术语 集。
     与现有专利相比, 本发明的优点是, 采用了互联网词频和混合词频过滤技术, 有效 地去除了候选词中噪声词。在基于语料集的术语特征基础上, 加入了基于互联网的术语特 征, 能有效地提高术语识别率。提出了双模型结构, 该结构能增强对派生术语识别效果。采 用基于前缀的倒排索引方法来构建词典库, 将包含相同前缀的术语组成一个集合, 并按照 术语词长, 由长至短进行排序, 这样, 当匹配成功时, 则无需再对后面的术语进行匹配。 附图说明
     下面结合附图对本发明的内容作进一步详细说明。 图 1 是本发明针对领域术语的离线获取示意图。 图 2 是本发明针对领域术语的在线获取示意图。 图 3 是多层次标记序列标注的示意图。 图 4 是基于序列标注术语关系抽取流程示意图。具体实施方式
     1. 领域术语离线构建 : 主要包括两个流程, 即原始语料集的预处理, 这里包括分 词、 词性标注、 干扰词过滤, 对应于 Step1 ~ Step 3 ; 互联网词频过滤技术对应于 Step 4 ; 混合词频过滤技术对应于 Step 5 ; 领域术语的传统特征提取, 对应于 Step 6 ; 领域术语的 互联网特征提取, 对应于 Step7 ~ Step 9 ; 建立双模型结构, 对应于 Step 10 ~ Step 11。 整个流程如图 1 所示 :
     Step 1 : 对原始语料集进行中文分词和词性标注
     Step 2 : 对于中文分词后得到词串, 保留其中的 “名词” 、 “动词” 、 “副词” 、 “形容 词” “量词” 、 , 并去除其中的停用词。经过上述处理后, 得到的连续的 n 个词 ( 与原文中出现 顺序一致, 且没有被去除的词 ), 重新组合, 得到 (n+1)*n/2 个候选词
     Step 3 : 在上一步得到的候选词, 进行干扰词过滤工作, 包括 : 去除词长大于 8 的 词串 ; 去除出现次数小于 3 的词串。
     Step 4 : 去除满足 “互联网词频过滤规则” 的词串。所述的 “互联网词频过滤” 指 的是, 对于一个候选词 K, 如果 K 在互联网词频表中的词频值大于阈值 M, 那么 K 可能是一个常词, 则将其过滤 ; 这里, 互联网词频表采用 “搜狗互联网词频表” , 并将阈值 M 设置为 50000000。
     Step 5 : 去除满足 “混合词频过滤规则” 的词串。所述的 “混合词频过滤技术” 指 的是, 对于一个候选词 K, 如果存在 n 个候选词包含 K, 且 那么 K 可能是一个常词, 则将其过滤。
     Step 6 : 提取基于原始语料集的传统特征, 这包括词频, 词性, 词长, 邻接词、 标题
     Step 7 : 提取 “互联网反馈次数” 特征。所述的 “互联网反馈次数” 指的是将一个 候选词在一个搜索引擎中进行搜索后, 返回与该候选词相关的网页个数。这里的搜索引擎 采用 “百度” 和 “百度知道” 。
     Step 8 : 提取 “权威网站反馈” 特征。所述的 “权威网站反馈” 指的是将一个候选词 在一个权威网站中进行检索后, 是否能够检索到, 若能检索到, 则特征值为 1, 反之为 0。这 里采用 “百度百科” 、 “互动百科” 、 “中文术语网” 。
     Step 9 : 提取 “WEB-TFIDF” 特征。所述的 “WEB-TFIDF” 指的是, 候选词在搜索引擎 的反馈特征, 其计算公式 :
     WEB-TFTDF = log(TermLen)*TitleCount/log(PageCount)
     这里 TermLen 是指候选词词长 ; TitleCount 是指, 在搜索引擎返回第一个页面中 的相关网页的标题中该候选词出现次数 ; PageCount 是指, 搜索引擎返回与该候选词相关 的网页个数。
     Step 10 : 由传统特征和互联网特征组成的 n 个特征向量, 通过机器学习算法算 法, 生成第一个识别模型。
     Step 11 : 将第一个识别模型预测到术语集中出现的短术语 ( 词长小于等于 3), 再 反向标记词长大于 3 的候选词 ( 如果该候选词包含预测术语, 则标记为 1, 反正标记为 0), 词长小于等于 3 的候选词标记为 0, 得到第 n+1 维特征, 然后由这 n+1 维特征生成第二个识 别模型
     2. 领域术语的在线获取 : 主要包括两个流程, 即 “术语词典构建” , 主要包括倒排 索引构建, 对应于 Step1 ~ Step 2 ; “在线术语识别” , 这里包括最长匹配算法, 对应于 Step 3 ~ Step 4 ; 整个流程如图 2 所示 :
     Step 1 : 将数据库中的收集起来的领域术语集, 进行分词。若术语分词后, 只有一 个词, 则将前缀定义为该术语 ; 若术语分词后, 包含多个词, 则将前缀定义为分词后第一个 词
     Step 2 : 将包含相同前缀的多个术语作为一个集合, 按其词长由长到短进行排序, 并利用前缀来标识和索引这个集合。此时前缀即为索引关键词
     Step 3 : 将待识别的文本串, 进行分词处理, 并将每个词作为关键词, 来索引以该 关键词为前缀的术语集合。
     Step 4 : 若以该关键词为前缀的术语集合, 则对该集合中出现的每一个术语, 按照 术语长度由长到短与原文比对, 若匹配成功, 则返回该术语
     3. 基于多层次标记序列标注的术语关系抽取 :
     领域术语之间的关系分为三种 : 同义关系、 上下位关系和整体部分关系。 同义关系是指在某个特定领域内, 用来表述同一概念的不同术语之间所具有的关系。若两个术语具 有严格相同的内涵和外延, 那么称这两个词语具有同义关系。上下位关系表示特定领域中 术语所表示概念间的包含关系, 可将术语分为上位词和下位词。上位词表示的是一个外延 广阔的大概念, 下位词表示的是一个内涵丰富的小概念。小概念的外延是大概念外延的一 部分, 小概念除了具有大概念的一切特征外, 还具有本身独有的区别特征。 这样两个术语间 的关系称为上下位关系。整体部分关系指术语表示的概念和它的组成部分之间的关系。同 上下位关系一样, 整体部分关系也具有传递和偏序性质, 但是整体部分关系并不是把术语 表示的概念划分为某个类, 而是表示了该概念的组成部分。
     上述三种关系由于所具有性质的不同, 可划分为两个大类 : 术语间的同义关系具 有自反性、 对称性和传递性, 称之为非层级关系 ; 上下位关系和整体部分关系具有传递性和 偏序性, 不具有自反性和对称性, 称为层级关系。
     根据上述术语关系类型的两种不同层次的分类方法, 提出了多层次标记的序列标 注, 标注过程分为两个阶段 ( 参见图 3), 分别使用不同的标记 : 一层标记序列标注和二层标 记序列标注。在第一层标记中, 通过序列标注的方法获取术语关系的大类类别, 即两个术 语之间没有关系、 具有非层级关系或具有层级关系。在第二层标记中, 利用第一层标记的 结果, 同时结合新的特征, 用序列标注方法获取两个术语之间细粒度关系的情况, 即没有关 系、 具有同义关系、 具有上下位关系或具有整体部分关系。 基于多层次标记序列标注的术语关系抽取详细过程如下 ( 参见图 4) :
     Step1 : 初始化术语关系列表 RelationSet = φ ;
     Step2 : 将待识别文本划分成句子, 即 TXT = {Sen1, ..., SenK}, 其中 TXT 表示待识 别文本, 它由 K 个句子构成, Seni(i = 1, 2, ..., K) 表示文本中的每一个句子 ;
     Step3 : 从 TXT 中获取下一个句子 Senk, Senk 表示当前需要处理的句子 ; 获取句子 Senk 包含的领域术语信息 ; TermSet = {Term1, Term2, ..., TermN}, 其中 N 表示术语个数, Termi(i = 1, 2, ..., N) 表示句子中每个术语 ;
     Step4 : 若 N < 2, 跳到 Step2 处理下一个句子 ; 否则, 继续执行 ;
     Step5 : 对句子中每个领域术语, 选取 Termi 为待考察术语, 根据多维度节点标记规 则, 特征词语类别标记选择一层特征词语类别标记, 构建观测序列, 使用训练的条件随机场 模型进行一层序列标注 ; 采用的标记集合为 {Hier, Nonh, N}, 其中, 标记为 Hier 的节点与 Termi 具有层级关系 ; 标记为 Nonh 的节点与 Termi 具有非层级关系 ; 标记为 N 的节点表示该 节点是普通词语或该节点是术语, 且此术语与 Termi 没有关系 ;
     Step6 : 对待考察术语 Termi, 根据多维度节点标记规则, 特征词语类别标记选择 二层特征词语类别标记, 并结合 Step5 中一层序列标注的结果, 得到新的观测序列, 利用条 件随机场模型进行第二层序列标注, 采用的标记集合为 {Syno, Hypo, Part, N}, 其中标记为 Syno 的节点表示 Termi 与该节点具有同义关系 ; 标记为 Hypo 的节点表示 Termi 与该节点具 有上下位关系 ; 标记为 Part 的节点表示 Termi 与该节点具有整体部分关系 ; 标记为 N 的节 点表示该节点是普通词语或该节点是术语, 且此术语与 Termi 没有关系 ;
     Step7 : 对句子中标记为 Syno, Hypo 或 Part 的每个节点 Node, 分别构建三元组 RelationPair = {T1, T2, Relation}, 其中 T1 表示术语 Termi ; T2 表示节点 Node 表示的术语 ; Relation 表示节点 Node 的标记 ; 将所有 RelationPair 加入 RelationSet 中 ;
     Step8 : 检查句子术语列表, 若存在其他术语, 选取下一个可用术语, 跳到 Step4 ; 否则, 若句子中所有术语都处理完, 继续执行 ;
     Step9 : 检查句子列表, 若存在还未处理的句子, 跳到 Step3 ; 否则, 继续执行 ;
     Step10 : 输出文本的术语关系列表 RelationSet。
     上述步骤中, Step5 和 Step6 使用的多维度节点标记规则是指, 在多层次标记序列 标注的过程中, 根据每个节点的特征形成观测序列的规则 ; 节点是指句子当中的术语或普 通词语 ; 观测序列是指每个节点的可以观测到的特征组合成的序列 ;
     节点标记规则分为 4 个维度 :
     (1) 词语或者术语本身作为标记 ;
     (2) 当前节点词语或者术语的词性标记信息 ;
     (3) 节点类型标记, 表示当前节点是一个普通词语还是一个术语, 其中词语用标记 “Word” 来表示, 术语用标记 “Term” 来表示 ;
     (4) 特征词语类别标记 :
     对于术语关系抽取的任务, 句子上下文中有一些词语对判断术语间的关系有着重 要的提示作用, 称为特征词语。例如句子 “常用的传输介质包括双绞线、 同轴电缆等。 ” 中, 动词 “包括” 指明了前面所述概念对后面所述概念在外延范围上的包含关系, 对术语上下位 关系的抽取有着重要的提示作用, “包括” 一词就是典型的特征词语。特征词语类别标记是 指, 为了区别提供了不同上下文语义信息的特征词语, 将特征词语分为了几个类别, 加以区 别对待, 并在观测序列的表示中, 用不同的标记给予明示 ; 特征词语类别标记分为以下两种 情况 :
     一层特征词语类别标记如下表所示 :
     二层特征词语类别标记如下表所示 :上述步骤中, Step5 和 Step6 使用了条件随机场 CRF 模型进行序列标注。CRF 模型 使用特征函数模板规定模型训练时的特征函数和各状态之间的依赖关系。 采用的实验工具 为 CRF++, 其特征函数模板形式如下 :
     U03 : % x[1, 0]
     U04 : % x[2, 0]
     U05 : % x[-1, 0]/% x[0, 0]
     U06 : % x[0, 0]/% [1, 0]
     上述特征模板中的 Uxx 表示这条特征模板是一个 Unigram 的模板, 而模板% x[Row, Col] 表示该特征模板扩展的具体特征, Row 表示与当前行的相对行位置, Col 表示列 数。
     对于每一个特征函数模板, CRF++ 将会生成多个特征函数, 比如特征模板 U01 : % x[0, 1] 将会被解释成如下形式的一个特征函数的集合 :
     func1 = if(output = N and feature =″ U01:n″ )return 1else return0
     func2 = if(output = Hypo and feature =″ U01:n″ )return 1else return0
     func3 = if(output = Part and feature =″ U01:n″ )return 1elsereturn 0
     ....
     funcN = if(output = N and feature =″ U01:a″ )return 1else return0
     funcN+1 = if(output = Hypo and feature =″ U01:a″ )return 1elsereturn 0
     ....
     该集合共有 L×N 条特征函数, 其中 L 是标记集合的大小, 在术语关系抽取中为 4, N 是从模板扩展出的不相同的字符串数量, 比如 U01 : % x[0, 1] 的 N 为词性标记集合的大 小。
     多层次标记序列标注采用的特征函数模板如下表所示 :
     上表中特征函数模板共分为 9 个部分 : 第一部分表示单个词语本身对当前标记的 影响, 窗口大小为 5, 考虑了当前词语前后各两个词语对标记的影响 ; 第二部分表示单个词 语词性对当前输出标记的影响, 窗口大小为 5, 考虑了当前词语前后各两个词语的词性对标 记的影响 ; 第三部分表示节点本身是否为术语对当前输出标记的影响, 窗口大小为 3 ; 第四 部分表示单个特征词语类别标记对当前输出标记的影响, 窗口为 5 ; 第五部分表示两个词 语联合对当前输出标记的影响, 窗口大小为 2 ; 第六部分表示两个词语词性联合对输出标 记的影响, 窗口大小为 4 ; 第七部分表示两个特征词语类别标记对当前输出标记的影响, 窗 口大小为 4 ; 第八部分表示三个词语词性联合对输出标记的影响, 窗口大小为 3 ; 第九部分 表示三个特征词语类别标记对当前输出标记的影响, 窗口大小为 3。
     CRF++ 工具将这些函数模板生成一组特征函数列表, 用于条件随机场模型的训练 和术语关系抽取序列预测。
    

一种面向文本的领域术语与术语关系抽取方法.pdf_第1页
第1页 / 共17页
一种面向文本的领域术语与术语关系抽取方法.pdf_第2页
第2页 / 共17页
一种面向文本的领域术语与术语关系抽取方法.pdf_第3页
第3页 / 共17页
点击查看更多>>
资源描述

《一种面向文本的领域术语与术语关系抽取方法.pdf》由会员分享,可在线阅读,更多相关《一种面向文本的领域术语与术语关系抽取方法.pdf(17页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN102360383A43申请公布日20120222CN102360383ACN102360383A21申请号201110312280622申请日20111015G06F17/3020060171申请人西安交通大学地址710049陕西省西安市咸宁西路28号72发明人郑庆华刘均罗俊英程晓程74专利代理机构西安通大专利代理有限责任公司61200代理人朱海临54发明名称一种面向文本的领域术语与术语关系抽取方法57摘要本发明公开了一种面向文本的领域术语与术语关系抽取方法,其特征在于,包括下述步骤首先对原始语料进行预处理,获得候选词集,包括分句、分词及词性标注,干扰词过滤;其次,从原始语。

2、料和互联网中提取出术语特征,并结合双模型结构算法,从候选词中分离出术语;然后,采用倒排索引的方法构建术语词典,并利用最长匹配算法,标注待识别文本中的术语;最后,根据多维度节点标记规则,通过条件随机场模型进行多层次标记序列标注,得到待识别文本中术语间的关系。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书3页说明书11页附图2页CN102360400A1/3页21一种面向文本的领域术语与术语关系抽取方法,其特征在于,包括下述步骤1对待识别文本进行预处理;2通过倒排索引结构构建术语词典,并采用最长序列匹配算法,对待识别文本中的术语进行识别;所述的术语是指在特定领域中约定俗成。

3、,或者经过规定,被广泛使用来描述该领域中某个概念的词;所述术语词典是指,通过模式识别的方法,从原始语料集中提取出来的术语集,该术语集采用倒排索引结构进行组织;3利用多维度节点标记规则,通过训练的条件随机场模型进行多层次标记序列标注,抽取术语间的关系;所述术语关系抽取是指给定某一领域内一定语境中的术语集合,给定定义好的术语关系类型,判断术语间是否存在某种类型的关系;其中,步骤2所述的倒排索引结构是指A将相同前缀的术语分成一组,按照词长,由长到短排序;B以它们的公共前缀作为索引关键词;步骤2所述的术语词典构建方法包括下述具体步骤STEP1对原始语料集进行预处理,获取候选词集;STEP2通过互联网词。

4、频过滤和混合词频过滤方法,对候选词进行噪声词过滤;所述互联网词频过滤是指,对于一个候选词K,若K在互联网词频表中的词频值大于阈值M,那么K可能是一个常词,则将其过滤,互联网词频表是指,对词串在大量的互联网文本中出现次数的抽样统计;所述混合词频过滤方法是指,对于一个候选词K,如果存在N个候选词包含K,且那么K可能是一个常词,则将其过滤;STEP3在传统术语特征基础上,加入互联网特征,并采用双模型结构的方法,构建术语识别模型,从原始语料集中抽取领域术语;步骤2所述的最长序列匹配算法包括下述具体步骤STEP1对待识别的文本进行分词;STEP2将分词后得到基本词作为关键词,在术语词典中查找包含该前缀的。

5、术语集;STEP3对这个术语集中出现的术语,按词长,由长到短,与待识别的文本中进行匹配,若匹配成功,则在原文中标识该术语。2根据权利要求1所述的面向文本的领域术语与术语关系抽取方法,其特征在于,所述多维度节点标记规则是指,在序列标注的过程中,根据每个节点的特征形成观测序列的规则;所述节点是指句子当中的每个术语或普通词语;所述观测序列是指每个节点的可以观测到的特征组合成的序列;多维度节点标记规则分为以下4个维度1词语或者术语本身作为标记;2当前节点词语或者术语的词性标记信息;3节点类型标记,表示当前节点是一个普通词语还是一个术语,其中词语用标记“WORD”来表示,术语用标记“TERM”来表示;4。

6、特征词语类别标记其中,特征词语是指,对于术语关系抽取任务,句子上下文中有一些词语对判断术语间的关系有着重要的提示作用;特征词语类别标记是指,为了区别提供了不同上下文语义信息的特征词语,将特征词语分为了几个类别,加以区别对待,并在观测序列的表示中,用不同的标记给予明示。权利要求书CN102360383ACN102360400A2/3页33根据权利要求2所述的面向文本的领域术语与术语关系抽取方法,其特征在于,所述特征词语类别标记分为一层特征词语类别标记和二层特征词语类别标记;一层特征词语类别标记包括W_SELE,W_REF,W_PARA,W_HEIR,P_PARA,P_EXPL,O,其中W_SEL。

7、E用于标记表选择的词语,W_REF用于标记有自反性的词语,W_PARA用于标记并列关系,W_HEIR用于标记表示层次概念的词,P_PARA用于标记表示并列的符号,P_EXPL用于标记表解释说明的符号,O标记其他;二层特征词语类别标记包括W_ENTI,W_SYN,W_PARA,W_IMP1,W_IMP2,W_ASS,W_SEG,W_WHOLE,W_OMIS,W_NEG,其中W_ENTI用于标记表同样称谓的词,W_SYN用于标记表解释同义的词,W_PARA用于标记并列关系,W_IMP1用于标记向后概念蕴含,W_IMP2用于标记向前概念蕴含,W_ASS用于标记物理组合,W_SEG用于标记物理片段,W。

8、_WHOLE用于标记全体概念,W_OMIS用于标记省略,W_NEG用于标记否定。4根据权利要求1所述的面向文本的领域术语与术语关系抽取方法,其特征在于,步骤3所述多层次标记序列标注包括下述具体步骤STEP1初始化术语关系列表RELATIONSET;STEP2将待识别文本划分成句子,即TXTSEN1,SENK,其中TXT表示待识别文本,它由K个句子构成,SENII1,2,K表示文本中的每一个句子;STEP3从TXT中获取下一个句子SENK,SENK表示当前需要处理的句子;获取句子SENK包含的领域术语信息;TERMSETTERM1,TERM2,TERMN,其中N表示术语个数,TERMII1,2,。

9、N表示句子中每个术语;STEP4若N2,跳到STEP2处理下一个句子;否则,继续执行;STEP5对句子中每个领域术语,选取TERMI为待考察术语,根据多维度节点标记规则,特征词语类别标记选择一层特征词语类别标记,构建观测序列,使用训练的条件随机场模型进行一层序列标注;采用的标记集合为HIER,NONH,N,其中,标记为HIER的节点与TERMI具有层级关系;标记为NONH的节点与TERMI具有非层级关系;标记为N的节点表示该节点是普通词语或该节点是术语,且此术语与TERMI没有关系;STEP6对待考察术语TERMI,根据多维度节点标记规则,特征词语类别标记选择二层特征词语类别标记,并结合STE。

10、P5中一层序列标注的结果,得到新的观测序列,利用条件随机场模型进行第二层序列标注,采用的标记集合为SYNO,HYPO,PART,N,其中标记为SYNO的节点表示TERMI与该节点具有同义关系;标记为HYPO的节点表示TERMI与该节点具有上下位关系;标记为PART的节点表示TERMI与该节点具有整体部分关系;标记为N的节点表示该节点是普通词语或该节点是术语,且此术语与TERMI没有关系;STEP7对句子中标记为SYNO,HYPO或PART的每个节点NODE,分别构建三元组RELATIONPAIRT1,T2,RELATION,其中T1表示术语TERMI;T2表示节点NODE表示的术语;RELAT。

11、ION表示节点NODE的标记;将所有RELATIONPAIR加入RELATIONSET中;STEP8检查句子术语列表,若存在其他术语,选取下一个可用术语,跳到STEP4;否则,若句子中所有术语都处理完,继续执行;STEP9检查句子列表,若存在还未处理的句子,跳到STEP3;否则,继续执行;STEPL0输出文本的术语关系列表RELATIONSET。5根据权利要求1所述的面向文本的领域术语与术语关系抽取方法,其特征在于,所权利要求书CN102360383ACN102360400A3/3页4述的互联网特征是指,在互联网对候选词的反馈信息中隐含术语特征信息,这里包括搜索引擎反馈、权威网站反馈、WEBT。

12、FIDFI互联网反馈次数,指的是将一个候选词在一个搜索引擎中进行搜索后,返回与该候选词相关的网页个数;II权威网站反馈,指的是将一个候选词在一个权威网站中进行检索后,是否能够检索到;IIIWEBTFIDF,指的是候选词在搜索引擎的反馈特征,其计算公式WEBTFTDFLOGTERMLENTITLECOUNT/LOGPAGECOUNT其中TERMLEN是指候选词词长;TITLECOUNT是指,在搜索引擎返回第一个页面中的相关网页的标题中该候选词出现次数;PAGECOUNT是指,搜索引擎返回与该候选词相关的网页个数。6根据权利要求2所述的面向文本的领域术语与术语关系抽取方法,其特征在于,所述的采用双。

13、模型结构的方法包括下述具体步骤STEP1将从原始语料和互联网中抽取到的N维特征,生成第一个识别模型;STEP2由第一个识别模型对候选词中的术语进行识别,得到术语集I;所述的术语集I指的是,被“第一个识别模型”判为术语的候选词的临时集合;STEP3若候选词术语集I或候选词子串术语集I,则标记为1,反之标记为0,得到“第N1维特征”;STEP4由原先的N维特征和这第N1维特征组成N1特征向量,生成第二个识别模型;STEP5由第二个识别模型再一次对候选词中的术语进行识别,得到最终的术语集。权利要求书CN102360383ACN102360400A1/11页5一种面向文本的领域术语与术语关系抽取方法技。

14、术领域0001本发明涉及文本挖掘、知识获取方法,特别涉及一种面向文本的领域术语与术语关系的抽取方法。背景技术0002随着互联网技术应用的日趋广泛,网络学习已成为人们获得和学习知识的主要手段之一,而术语作为知识的基本组成单元,是构建知识地图、知识导航的基石。如何对特定领域的文本进行分类,或是为有经验人士提供特定领域中知识结构以及演化规律,又或是为学习者提供某个领域的正确学习路径,因此如何高效准确地获得不同领域的术语集合以及术语之间的关系非常重要。0003申请人经过查新,检索到下列与本发明有关的专利文献0004基于锚文本分析的领域术语自动生成方法申请人清华大学;北京搜狗科技发展有限公司,专利号20。

15、111009131240005科技术语的自动化抽取方法申请人北京中献电子技术开发中心,专利号20091016238080006中文术语自动提取系统及方法申请人北京大学,专利号20081011970830007一种专业术语抽取方法和系统申请人中国科学院计算技术研究所,专利号20071012183900008用于从具有文本段的文档中提取术语的系统申请人国际商业机器公司,专利号20098013453550009一种术语快速标注方法申请人传神联合北京信息技术有限公司,专利号201010545766X0010其中专利主要基于单一的术语识别模型,不能有效地去除候选词中噪声词,对派生术语识别效果不是太好。0。

16、011专利只是构建前缀表来节省字符串匹配次数,采用穷举的方法,效率低下。发明内容0012本发明的目的是提供一种可有效去除候选词中噪声词、提高术语识别率的领域术语的离线构建、在线获取以及术语关系抽取的方法。0013为达到以上目的本发明是采取如下技术方案予以实现的0014一种面向文本的领域术语与术语关系抽取方法,其特征在于,包括下述步骤00151对待识别文本进行预处理;00162通过倒排索引结构构建术语词典,并采用最长序列匹配算法,对待识别文本中的术语进行识别;所述的术语是指在特定领域中约定俗成,或者经过规定,被广泛使用来描述该领域中某个概念的词;所述术语词典是指,通过模式识别的方法,从原始语料集。

17、中提取出来的术语集,该术语集采用倒排索引结构进行组织;说明书CN102360383ACN102360400A2/11页600173利用多维度节点标记规则,通过训练的条件随机场模型进行多层次标记序列标注,抽取术语间的关系;所述术语关系抽取是指给定某一领域内一定语境中的术语集合,给定定义好的术语关系类型,判断术语间是否存在某种类型的关系;0018其中,步骤2所述的倒排索引结构是指A将相同前缀的术语分成一组,按照词长,由长到短排序;B以它们的公共前缀作为索引关键词;0019步骤2所述的术语词典构建方法包括下述具体步骤0020STEP1对原始语料集进行预处理,获取候选词集;0021STEP2通过互联网。

18、词频过滤和混合词频过滤方法,对候选词进行噪声词过滤;所述互联网词频过滤是指,对于一个候选词K,若K在互联网词频表中的词频值大于阈值M,那么K可能是一个常词,则将其过滤,互联网词频表是指,对词串在大量的互联网文本中出现次数的抽样统计;所述混合词频过滤方法是指,对于一个候选词K,如果存在N个候选词包含K,且那么K可能是一个常词,则将其过滤;0022STEP3在传统术语特征基础上,加入互联网特征,并采用双模型结构的方法,构建术语识别模型,从原始语料集中抽取领域术语;0023步骤2所述的最长序列匹配算法包括下述具体步骤0024STEP1对待识别的文本进行分词;0025STEP2将分词后得到基本词作为关。

19、键词,在术语词典中查找包含该前缀的术语集;0026STEP3对这个术语集中出现的术语,按词长,由长到短,与待识别的文本中进行匹配,若匹配成功,则在原文中标识该术语。0027上述方案中,所述多维度节点标记规则是指,在序列标注的过程中,根据每个节点的特征形成观测序列的规则;所述节点是指句子当中的每个术语或普通词语;所述观测序列是指每个节点的可以观测到的特征组合成的序列;多维度节点标记规则分为以下4个维度00281词语或者术语本身作为标记;00292当前节点词语或者术语的词性标记信息;00303节点类型标记,表示当前节点是一个普通词语还是一个术语,其中词语用标记“WORD”来表示,术语用标记“TER。

20、M”来表示;00314特征词语类别标记0032其中,特征词语是指,对于术语关系抽取任务,句子上下文中有一些词语对判断术语间的关系有着重要的提示作用;特征词语类别标记是指,为了区别提供了不同上下文语义信息的特征词语,将特征词语分为了几个类别,加以区别对待,并在观测序列的表示中,用不同的标记给予明示。0033所述特征词语类别标记分为一层特征词语类别标记和二层特征词语类别标记;一层特征词语类别标记包括W_SELE,W_REF,W_PARA,W_HEIR,P_PARA,P_EXPL,O,其中W_SELE用于标记表选择的词语,W_REF用于标记有自反性的词语,W_PARA用于标记并列关系,W_HEIR用。

21、于标记表示层次概念的词,P_PARA用于标记表示并列的符号,P_EXPL用于标记表解释说明的符号,O标记其他;二层特征词语类别标记包括W_ENTI,W_SYN,W_PARA,W_说明书CN102360383ACN102360400A3/11页7IMP1,W_IMP2,W_ASS,W_SEG,W_WHOLE,W_OMIS,W_NEG,其中W_ENTI用于标记表同样称谓的词,W_SYN用于标记表解释同义的词,W_PARA用于标记并列关系,W_IMP1用于标记向后概念蕴含,W_IMP2用于标记向前概念蕴含,W_ASS用于标记物理组合,W_SEG用于标记物理片段,W_WHOLE用于标记全体概念,W_O。

22、MIS用于标记省略,W_NEG用于标记否定。0034步骤3所述多层次标记序列标注包括下述具体步骤0035STEP1初始化术语关系列表RELATIONSET;0036STEP2将待识别文本划分成句子,即TXTSEN1,SENK,其中TXT表示待识别文本,它由K个句子构成,SENII1,2,K表示文本中的每一个句子;0037STEP3从TXT中获取下一个句子SENK,SENK表示当前需要处理的句子;获取句子SENK包含的领域术语信息;TERMSETTERM1,TERM2,TERMN,其中N表示术语个数,TERMII1,2,N表示句子中每个术语;0038STEP4若N2,跳到STEP2处理下一个句子。

23、;否则,继续执行;0039STEP5对句子中每个领域术语,选取TERMI为待考察术语,根据多维度节点标记规则,特征词语类别标记选择一层特征词语类别标记,构建观测序列,使用训练的条件随机场模型进行一层序列标注;采用的标记集合为HIER,NONH,N,其中,标记为HIER的节点与TERMI具有层级关系;标记为NONH的节点与TERMI具有非层级关系;标记为N的节点表示该节点是普通词语或该节点是术语,且此术语与TERMI没有关系;0040STEP6对待考察术语TERMI,根据多维度节点标记规则,特征词语类别标记选择二层特征词语类别标记,并结合STEP5中一层序列标注的结果,得到新的观测序列,利用条件。

24、随机场模型进行第二层序列标注,采用的标记集合为SYNO,HYPO,PART,N,其中标记为SYNO的节点表示TERMI与该节点具有同义关系;标记为HYPO的节点表示TERMI与该节点具有上下位关系;标记为PART的节点表示TERMI与该节点具有整体部分关系;标记为N的节点表示该节点是普通词语或该节点是术语,且此术语与TERMI没有关系;0041STEP7对句子中标记为SYNO,HYPO或PART的每个节点NODE,分别构建三元组RELATIONPAIRT1,T2,RELATION,其中T1表示术语TERIMI;T2表示节点NODE表示的术语;RELATION表示节点NODE的标记;将所有REL。

25、ATIONPAIR加入RELATIONSET中;0042STEP8检查句子术语列表,若存在其他术语,选取下一个可用术语,跳到STEP4;否则,若句子中所有术语都处理完,继续执行;0043STEP9检查句子列表,若存在还未处理的句子,跳到STEP3;否则,继续执行;0044STEP10输出文本的术语关系列表RELATIONSET。0045所述的互联网特征是指,在互联网对候选词的反馈信息中隐含术语特征信息,这里包括搜索引擎反馈、权威网站反馈、WEBTFIDF0046I互联网反馈次数,指的是将一个候选词在一个搜索引擎中进行搜索后,返回与该候选词相关的网页个数;0047II权威网站反馈,指的是将一个候。

26、选词在一个权威网站中进行检索后,是否能够检索到;0048IIIWEBTFIDF,指的是候选词在搜索引擎的反馈特征,其计算公式0049WEBTFTDFLOGTERMLENTITLECOUNT/LOGPAGECOUNT0050其中TERMLEN是指候选词词长;TITLECOUNT是指,在搜索引擎返回第一个页面中说明书CN102360383ACN102360400A4/11页8的相关网页的标题中该候选词出现次数;PAGECOUNT是指,搜索引擎返回与该候选词相关的网页个数。0051所述的采用双模型结构的方法包括下述具体步骤0052STEP1将从原始语料和互联网中抽取到的N维特征,生成第一个识别模型;。

27、0053STEP2由第一个识别模型对候选词中的术语进行识别,得到术语集I;所述的术语集I指的是,被“第一个识别模型”判为术语的候选词的临时集合;0054STEP3若候选词术语集I或候选词子串术语集I,则标记为1,反之标记为0,得到“第N1维特征”;0055STEP4由原先的N维特征和这第N1维特征组成N1特征向量,生成第二个识别模型;0056STEP5由第二个识别模型再一次对候选词中的术语进行识别,得到最终的术语集。0057与现有专利相比,本发明的优点是,采用了互联网词频和混合词频过滤技术,有效地去除了候选词中噪声词。在基于语料集的术语特征基础上,加入了基于互联网的术语特征,能有效地提高术语识。

28、别率。提出了双模型结构,该结构能增强对派生术语识别效果。采用基于前缀的倒排索引方法来构建词典库,将包含相同前缀的术语组成一个集合,并按照术语词长,由长至短进行排序,这样,当匹配成功时,则无需再对后面的术语进行匹配。附图说明0058下面结合附图对本发明的内容作进一步详细说明。0059图1是本发明针对领域术语的离线获取示意图。0060图2是本发明针对领域术语的在线获取示意图。0061图3是多层次标记序列标注的示意图。0062图4是基于序列标注术语关系抽取流程示意图。具体实施方式00631领域术语离线构建主要包括两个流程,即原始语料集的预处理,这里包括分词、词性标注、干扰词过滤,对应于STEP1ST。

29、EP3;互联网词频过滤技术对应于STEP4;混合词频过滤技术对应于STEP5;领域术语的传统特征提取,对应于STEP6;领域术语的互联网特征提取,对应于STEP7STEP9;建立双模型结构,对应于STEP10STEP11。整个流程如图1所示0064STEP1对原始语料集进行中文分词和词性标注0065STEP2对于中文分词后得到词串,保留其中的“名词”、“动词”、“副词”、“形容词”、“量词”,并去除其中的停用词。经过上述处理后,得到的连续的N个词与原文中出现顺序一致,且没有被去除的词,重新组合,得到N1N/2个候选词0066STEP3在上一步得到的候选词,进行干扰词过滤工作,包括去除词长大于8。

30、的词串;去除出现次数小于3的词串。0067STEP4去除满足“互联网词频过滤规则”的词串。所述的“互联网词频过滤”指的是,对于一个候选词K,如果K在互联网词频表中的词频值大于阈值M,那么K可能是一说明书CN102360383ACN102360400A5/11页9个常词,则将其过滤;这里,互联网词频表采用“搜狗互联网词频表”,并将阈值M设置为50000000。0068STEP5去除满足“混合词频过滤规则”的词串。所述的“混合词频过滤技术”指的是,对于一个候选词K,如果存在N个候选词包含K,且那么K可能是一个常词,则将其过滤。0069STEP6提取基于原始语料集的传统特征,这包括词频,词性,词长,。

31、邻接词、标题0070STEP7提取“互联网反馈次数”特征。所述的“互联网反馈次数”指的是将一个候选词在一个搜索引擎中进行搜索后,返回与该候选词相关的网页个数。这里的搜索引擎采用“百度”和“百度知道”。0071STEP8提取“权威网站反馈”特征。所述的“权威网站反馈”指的是将一个候选词在一个权威网站中进行检索后,是否能够检索到,若能检索到,则特征值为1,反之为0。这里采用“百度百科”、“互动百科”、“中文术语网”。0072STEP9提取“WEBTFIDF”特征。所述的“WEBTFIDF”指的是,候选词在搜索引擎的反馈特征,其计算公式0073WEBTFTDFLOGTERMLENTITLECOUNT。

32、/LOGPAGECOUNT0074这里TERMLEN是指候选词词长;TITLECOUNT是指,在搜索引擎返回第一个页面中的相关网页的标题中该候选词出现次数;PAGECOUNT是指,搜索引擎返回与该候选词相关的网页个数。0075STEP10由传统特征和互联网特征组成的N个特征向量,通过机器学习算法算法,生成第一个识别模型。0076STEP11将第一个识别模型预测到术语集中出现的短术语词长小于等于3,再反向标记词长大于3的候选词如果该候选词包含预测术语,则标记为1,反正标记为0,词长小于等于3的候选词标记为0,得到第N1维特征,然后由这N1维特征生成第二个识别模型00772领域术语的在线获取主要包。

33、括两个流程,即“术语词典构建”,主要包括倒排索引构建,对应于STEP1STEP2;“在线术语识别”,这里包括最长匹配算法,对应于STEP3STEP4;整个流程如图2所示0078STEP1将数据库中的收集起来的领域术语集,进行分词。若术语分词后,只有一个词,则将前缀定义为该术语;若术语分词后,包含多个词,则将前缀定义为分词后第一个词0079STEP2将包含相同前缀的多个术语作为一个集合,按其词长由长到短进行排序,并利用前缀来标识和索引这个集合。此时前缀即为索引关键词0080STEP3将待识别的文本串,进行分词处理,并将每个词作为关键词,来索引以该关键词为前缀的术语集合。0081STEP4若以该关。

34、键词为前缀的术语集合,则对该集合中出现的每一个术语,按照术语长度由长到短与原文比对,若匹配成功,则返回该术语00823基于多层次标记序列标注的术语关系抽取0083领域术语之间的关系分为三种同义关系、上下位关系和整体部分关系。同义关系说明书CN102360383ACN102360400A6/11页10是指在某个特定领域内,用来表述同一概念的不同术语之间所具有的关系。若两个术语具有严格相同的内涵和外延,那么称这两个词语具有同义关系。上下位关系表示特定领域中术语所表示概念间的包含关系,可将术语分为上位词和下位词。上位词表示的是一个外延广阔的大概念,下位词表示的是一个内涵丰富的小概念。小概念的外延是大。

35、概念外延的一部分,小概念除了具有大概念的一切特征外,还具有本身独有的区别特征。这样两个术语间的关系称为上下位关系。整体部分关系指术语表示的概念和它的组成部分之间的关系。同上下位关系一样,整体部分关系也具有传递和偏序性质,但是整体部分关系并不是把术语表示的概念划分为某个类,而是表示了该概念的组成部分。0084上述三种关系由于所具有性质的不同,可划分为两个大类术语间的同义关系具有自反性、对称性和传递性,称之为非层级关系;上下位关系和整体部分关系具有传递性和偏序性,不具有自反性和对称性,称为层级关系。0085根据上述术语关系类型的两种不同层次的分类方法,提出了多层次标记的序列标注,标注过程分为两个阶。

36、段参见图3,分别使用不同的标记一层标记序列标注和二层标记序列标注。在第一层标记中,通过序列标注的方法获取术语关系的大类类别,即两个术语之间没有关系、具有非层级关系或具有层级关系。在第二层标记中,利用第一层标记的结果,同时结合新的特征,用序列标注方法获取两个术语之间细粒度关系的情况,即没有关系、具有同义关系、具有上下位关系或具有整体部分关系。0086基于多层次标记序列标注的术语关系抽取详细过程如下参见图40087STEP1初始化术语关系列表RELATIONSET;0088STEP2将待识别文本划分成句子,即TXTSEN1,SENK,其中TXT表示待识别文本,它由K个句子构成,SENII1,2,K。

37、表示文本中的每一个句子;0089STEP3从TXT中获取下一个句子SENK,SENK表示当前需要处理的句子;获取句子SENK包含的领域术语信息;TERMSETTERM1,TERM2,TERMN,其中N表示术语个数,TERMII1,2,N表示句子中每个术语;0090STEP4若N2,跳到STEP2处理下一个句子;否则,继续执行;0091STEP5对句子中每个领域术语,选取TERMI为待考察术语,根据多维度节点标记规则,特征词语类别标记选择一层特征词语类别标记,构建观测序列,使用训练的条件随机场模型进行一层序列标注;采用的标记集合为HIER,NONH,N,其中,标记为HIER的节点与TERMI具有。

38、层级关系;标记为NONH的节点与TERMI具有非层级关系;标记为N的节点表示该节点是普通词语或该节点是术语,且此术语与TERMI没有关系;0092STEP6对待考察术语TERMI,根据多维度节点标记规则,特征词语类别标记选择二层特征词语类别标记,并结合STEP5中一层序列标注的结果,得到新的观测序列,利用条件随机场模型进行第二层序列标注,采用的标记集合为SYNO,HYPO,PART,N,其中标记为SYNO的节点表示TERMI与该节点具有同义关系;标记为HYPO的节点表示TERMI与该节点具有上下位关系;标记为PART的节点表示TERMI与该节点具有整体部分关系;标记为N的节点表示该节点是普通词。

39、语或该节点是术语,且此术语与TERMI没有关系;0093STEP7对句子中标记为SYNO,HYPO或PART的每个节点NODE,分别构建三元组RELATIONPAIRT1,T2,RELATION,其中T1表示术语TERMI;T2表示节点NODE表示的术语;RELATION表示节点NODE的标记;将所有RELATIONPAIR加入RELATIONSET中;说明书CN102360383ACN102360400A7/11页110094STEP8检查句子术语列表,若存在其他术语,选取下一个可用术语,跳到STEP4;否则,若句子中所有术语都处理完,继续执行;0095STEP9检查句子列表,若存在还未处理。

40、的句子,跳到STEP3;否则,继续执行;0096STEP10输出文本的术语关系列表RELATIONSET。0097上述步骤中,STEP5和STEP6使用的多维度节点标记规则是指,在多层次标记序列标注的过程中,根据每个节点的特征形成观测序列的规则;节点是指句子当中的术语或普通词语;观测序列是指每个节点的可以观测到的特征组合成的序列;0098节点标记规则分为4个维度00991词语或者术语本身作为标记;01002当前节点词语或者术语的词性标记信息;01013节点类型标记,表示当前节点是一个普通词语还是一个术语,其中词语用标记“WORD”来表示,术语用标记“TERM”来表示;01024特征词语类别标记。

41、0103对于术语关系抽取的任务,句子上下文中有一些词语对判断术语间的关系有着重要的提示作用,称为特征词语。例如句子“常用的传输介质包括双绞线、同轴电缆等。”中,动词“包括”指明了前面所述概念对后面所述概念在外延范围上的包含关系,对术语上下位关系的抽取有着重要的提示作用,“包括”一词就是典型的特征词语。特征词语类别标记是指,为了区别提供了不同上下文语义信息的特征词语,将特征词语分为了几个类别,加以区别对待,并在观测序列的表示中,用不同的标记给予明示;特征词语类别标记分为以下两种情况0104一层特征词语类别标记如下表所示01050106二层特征词语类别标记如下表所示0107说明书CN1023603。

42、83ACN102360400A8/11页120108上述步骤中,STEP5和STEP6使用了条件随机场CRF模型进行序列标注。CRF模型使用特征函数模板规定模型训练时的特征函数和各状态之间的依赖关系。采用的实验工具为CRF,其特征函数模板形式如下0109U03X1,00110U04X2,00111U05X1,0/X0,00112U06X0,0/1,00113上述特征模板中的UXX表示这条特征模板是一个UNIGRAM的模板,而模板XROW,COL表示该特征模板扩展的具体特征,ROW表示与当前行的相对行位置,COL表示列数。0114对于每一个特征函数模板,CRF将会生成多个特征函数,比如特征模板U。

43、01X0,1将会被解释成如下形式的一个特征函数的集合0115FUNC1IFOUTPUTNANDFEATUREU01NRETURN1ELSERETURN00116FUNC2IFOUTPUTHYPOANDFEATUREU01NRETURN1ELSERETURN00117FUNC3IFOUTPUTPARTANDFEATUREU01NRETURN1ELSERETURN001180119FUNCNIFOUTPUTNANDFEATUREU01ARETURN1ELSERETURN00120FUNCN1IFOUTPUTHYPOANDFEATUREU01ARETURN1ELSERETURN001210122该集。

44、合共有LN条特征函数,其中L是标记集合的大小,在术语关系抽取中为4,N是从模板扩展出的不相同的字符串数量,比如U01X0,1的N为词性标记集合的大小。0123多层次标记序列标注采用的特征函数模板如下表所示0124说明书CN102360383ACN102360400A9/11页130125说明书CN102360383ACN102360400A10/11页140126说明书CN102360383ACN102360400A11/11页150127上表中特征函数模板共分为9个部分第一部分表示单个词语本身对当前标记的影响,窗口大小为5,考虑了当前词语前后各两个词语对标记的影响;第二部分表示单个词语词性对。

45、当前输出标记的影响,窗口大小为5,考虑了当前词语前后各两个词语的词性对标记的影响;第三部分表示节点本身是否为术语对当前输出标记的影响,窗口大小为3;第四部分表示单个特征词语类别标记对当前输出标记的影响,窗口为5;第五部分表示两个词语联合对当前输出标记的影响,窗口大小为2;第六部分表示两个词语词性联合对输出标记的影响,窗口大小为4;第七部分表示两个特征词语类别标记对当前输出标记的影响,窗口大小为4;第八部分表示三个词语词性联合对输出标记的影响,窗口大小为3;第九部分表示三个特征词语类别标记对当前输出标记的影响,窗口大小为3。0128CRF工具将这些函数模板生成一组特征函数列表,用于条件随机场模型的训练和术语关系抽取序列预测。说明书CN102360383ACN102360400A1/2页16图1图2说明书附图CN102360383ACN102360400A2/2页17图3图4说明书附图CN102360383A。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1