《一种面向室内智能机器人导航的路径自然语言处理方法.pdf》由会员分享,可在线阅读,更多相关《一种面向室内智能机器人导航的路径自然语言处理方法.pdf(22页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103514157 A (43)申请公布日 2014.01.15 CN 103514157 A (21)申请号 201310495299.8 (22)申请日 2013.10.21 G06F 17/28(2006.01) G06F 17/27(2006.01) (71)申请人 东南大学 地址 211189 江苏省南京市江宁区东南大学 路 2 号 (72)发明人 李新德 张秀龙 王丰羽 戴先中 孙长银 (74)专利代理机构 南京瑞弘专利商标事务所 ( 普通合伙 ) 32249 代理人 杨晓玲 (54) 发明名称 一种面向室内智能机器人导航的路径自然语 言处理方法 (57)。
2、 摘要 本发明公开了一种面向室内智能机器人导航 的路径自然语言处理方法, 本发明通过分析收集 到的路径自然语言的语料, 提出句法结构, 在此基 础上构造层叠条件随机场, 提取生语料中名词短 语, 然后提取生语料中的语义组块, 引入名词实体 关系推理方法获取名词短语中名词实体之间的关 系, 最后提取路径单元, 连接路径单元生成路径。 本发明实现了既不需要依靠高精度的地图, 也不 需要提前输入手绘地图的路径自然语言处理方 法, 来实现路径提取。 (51)Int.Cl. 权利要求书 3 页 说明书 14 页 附图 4 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说。
3、明书14页 附图4页 (10)申请公布号 CN 103514157 A CN 103514157 A 1/3 页 2 1. 一种面向室内智能机器人导航的路径自然语言处理方法, 其特征在于 : 包括以下步 骤 : 步骤一, 收集路径自然语言的语料, 分析语料的句法, 提出句法结构, 根据句法结构提 出表示名词性路标的语义组块 NL、 表示动词性路标的语义组块 VL、 表示介词性路标的语义 组块 PL、 表示方位转换模块的语义组块 DTM、 表示基于参照物的方位转换模块或者间接方 位转化模块的语义组块 IDTM、 表示与方位无关的动词短语的语义组块 VP、 表示路径执行主 体的语义组块 ROBO 。
4、; 步骤二, 对收集的路径自然语言的语料进行名词实体标注构造名词实体语料库, 对收 集的路径自然语言的语料进行名词短语标注构造名词短语语料库, 对收集的路径自然语言 的语料进行语义组块标注构造语义组块语料库 ; 步骤三, 构造层叠条件随机场, 所述层叠条件随机场包括底层的条件随机场和高层的 条件随机场, 通过底层的条件随机场对名词短语语料库中的语料进行训练, 得到名词短语 语料的特征参数, 通过高层的条件随机场对语义组块语料库中的语料进行训练, 得到语义 组块语料的特征参数 ; 构造条件随机场, 对名词实体语料库中的语料进行训练, 得到名词实 体语料的特征参数 ; 步骤四, 对生语料进行词性标。
5、注 ; 步骤五, 识别生语料中的名词短语, 然后在识别生语料中的名词短语的基础上识别生 语料中的语义组块, 具体步骤如下 : 1) 用名词短语语料的特征参数识别已经标注词性的生语料中的名词短语 ; 2) 用语言学规则对名词短语进行辅助处理, 所述的辅助处理为检查每个名词短语前后 三个词以内的词, 如果有词可以成为名词短语中的成分, 则将该词纳入名词短语中 ; 3) 将识别的名词短语进行替换 ; 4) 将替换所得的生语料用语义组块语料的特征参数进行语义组块的识别 ; 步骤六, 引入名词实体关系推理方法获取名词短语中名词实体之间的关系, 具体步骤 如下 : 1) 用名词实体语料的特征参数识别已经标。
6、注词性的生语料中的名词实体 ; 2) 识别包含在名词短语内表示路标的名词实体和修饰路标的名词实体 : 当名词短语由单个名词实体构成时, 名词实体直接认为表示路标 ; 当名词短语包括若干个名词实体时, 将任意两个识别的名词实体 A、 B 组合, 由贝叶斯 公式推导公式推导所得 : 当 A 和 B 并列时 公式 1 当 A 和 B 为偏正关系时 P(R|(A,B) P(fA|R)P(fB|R)P(fC|R)P(fD|R)P(fP|R)P(R) 公式 2 计算概率 P(RA B), P(RB A), P(RB A) 的值, 三者中最大的值对应的名词实体关系即为 所求 ; 其中 A B 表示 A 依赖。
7、于 B, B A 表示 B 依赖于 A, B A 表示 A 和 B 并列, R 表示 A 和 B 之间的关系, RA B、 RB A、 RA B表示对应 A 和 B 之间三种关系, (A,B) 表示 A 和 B 之间 权 利 要 求 书 CN 103514157 A 2 2/3 页 3 的特征, fA、 fB、 fC、 fD、 fP表示名词实体关系的特征 : fA、 fB表示名词归类, fC表示两个实体名 词之间的连词, fD表示两个实体名词之间的 “的” , fP表示两个实体名词之间的相对位置, ; 步骤七, 生成路径, 具体步骤如下 : 1) 结构化定义路径, 定义路径 S pi, pi 。
8、ri,fi, ri (xi,yi), fi l_fi,di,l_ bi, 其中 pi为路径单元, ri为路径单元向量, xi为 x 轴的坐标, yi为 y 轴的坐标, fi为路径 的导航辅助信息, l_fi为向前路标, l_bi为向后路标, di为距离信息, i 1,2,n, n 为语 义组块数量 ; 2) 提取语义组块中的信息, 通过提取的信息提取路径单元, 具体步骤如下 : a) 采用槽体填充方法提取语义组块中的信息 ; b) 提取路径单元步骤如下 (1) 输入一个语义组块 ; (2) 判断当前语义组块是不是路标语义组块, 如果不是则转到 (7) , 如果是则转到 (3) ; (3) 将当。
9、前语义组块中的路标赋值给向后路标 l_bi; (4) 如果当前语义组块是第一个语义组块, ri r_d, r_fi ri, 其中 r_d (0,1) 为 默认的路径向量, r_fi为用来保存前一个路径向量的向量, 保存 pi; 否则转到 (5) ; (5) 判断前一个语义组块是不是 DTM 或者 IDTM, 如果是则保存 pi; 如果不是, 则 ri r_ fi, 保存 pi; (6) 判断当前语义组块是不是最后一个语义组块, 如果不是, 则转向 (1) ; 如果是, 则结 束 ; (7) 如果是 DTM 组块, 则转到 (8) , 如果不是则转到步骤 (18) ; (8) 如果当前语义组块不。
10、包含方向, 则转向 (9) , 反之则转向 (14) ; (9) 如果当前语义组块是第一个语义组块, ri r_d, 其中 r_d (0,1) 为默认的路径 向量, 否则计算 ri; (10) 如果当前语义组块包含距离, 值为 l, 则 di 1, ri=ri*l, 否则, di 0 ; (11) 如果前一个语义组块是 DTM, 转到 (12) , 否则转到 (13) ; (12) 如果 i 1 且 di-1值为 1, 则 ri r_fi+ri, 保存 pi, 转到 (6) ; 如果 di-1值不为 1, 保存 pi, 转到 (6) ; (13) 如果后一个语义组块不是路标语义组块或者当前语义。
11、组块为最后一个语义组块, 保存 pi, 转向 (6) , 否则直接转向 (6) ; (14) 判断当前语义组块内部是不是带明确的旋转角度, 如果没有则转到 (15) , 如果有 则转到 (17) ; (15) 判断当前语义组块是否是第一个语义组块, 如果是则通过判断方位词确定 ri, 如 果不是, 则通过 r_fi和方位词来确定 ri; (16) 如果当前语义组块包含距离, 值为 l, 则 di 1, ri ri*l, 转到 (13) , 否则, di 0 转到 (13) ; (17) 如果当前语义组块是第一个语义组块, 则利用旋转角度确定 ri, 反之利用 r_fi和 旋转角度确定 ri, 。
12、转到 (16) ; (18) 如果是 IDTM 组块, 则转向 (19) , 否则结束 ; (19) 将 IDTM 组块中的向前路标赋值给 l_fi, 向后路标路标赋值给 l_bi, 转到 (8) 。 权 利 要 求 书 CN 103514157 A 3 3/3 页 4 3) 识别归类方位词 ; 4) 连接路径单元生成路径。 权 利 要 求 书 CN 103514157 A 4 1/14 页 5 一种面向室内智能机器人导航的路径自然语言处理方法 技术领域 0001 本发明涉及一种自然语言处理方法, 具体涉及一种面向室内智能机器人导航的路 径自然语言处理方法。 背景技术 0002 在苹果公司推出。
13、的手机 iphone4s 中包含 Siri 系统, 其可以高度智能的完成与通 话相关的操作, 人们通过日常用语就能够控制手机自己完成打电话, 查号码等操作, 甚至能 够完成诸如查找音乐, 网上搜索功能。 Siri系统强大的自然语言理解系统给人以深刻印象, 同样如果能用自然语言控制移动机器人导航, 那么诸如室内服务机器人之类的机器人也将 可以由普通人非常方便的操作。 0003 在基于汉语的描述路径的自然语言处理方面, 相关研究工作还比较滞后, 目前还 没有研究者提出完全基于自然语言的处理方法。聂仙丽等虽然提出过将自然语言处理 用于机器人导航, 但是通篇文章更多的是用编程语言处理特定对话, 没有真。
14、正涉及到自 然语言处理 (聂仙丽, 蒋平, 陈辉堂 ; 采用自然语言的移动机器人任务编程 J ; 机器人, 2003(7):308-317) 。尽管如此, 其它领域中和路径相关的研究有一定借鉴作用, 因为路径 自然语言中确定方位是基本的要求, 这和 GIS 领域的部分工作比较相似, 乐小虬 2 采用基 于分层有限状态自动机的方法来分析自然语言中的方位关系 (乐小虬, 杨崇俊, 于文洋 ; 基 于空间语义角色的自然语言空间概念提取 J ; 武汉大学学报, 2005,12(3):1100-1103) 。 张雪等从城市道路导航角度出发, 研究了汉语中路径语言的基本语法, 在此基础上提出了 处理方法 。
15、(张雪英, 闾国年, 宦建 . 面向汉语的自然语言路径描述方法 J. 地球信息科 学 ,2008,10(6) :757-762) 。但实际上这样的处理更多的是受限自然语言处理, 而不是自 然语言处理。 0004 在基于英语的路径自然语言处理方面。在路径自然语言语义表达规律的基础 上, Klippel 等人很详细的分析了路径的组成, 路径中的方向和距离, 分析了路标的作 用, landmark 和 路 径 的 关 系 等 等 (Alexander Klippel,Stefan Hansen,Kai-Florian Richter,StephanWinter.Urban granularities。
16、a data structure for cognitively ergonomic route directionsJ.Geoinformatica,2009(13):223247.) 。N.Shimizu 等人提出了 End-to-End 系统的概念, 认为用路径自然语言进行机器人导航应该分为两步 即 : 1. 路径自然语言分成若干系列运动。2. 将这一系列的运动, 地图, 机器人初始方向结 合 (N.Shimizu and A.Haas.Learning to Follow Navigational RouteInstructionsC. Int l Joint Conf.on Arti。
17、ficial Intelligence(IJCAI),2009, 1488-1493) , 这种系统 划分被后来的研究者普遍接受, 尽管文中提出了使用组块进行分析的方法, 但是所采用 的语料非常单一, 其算法只具有启发性。Yuan Wei 等人认为路径自然语言中经常有很 多错误或者模糊信息, 因此只要通过环境感知方法推导出大环境的信息, 则可以通过与 现有地图结合的方法进行机器人的路径推导 (Yuan Wei,Emma Brunskill,et al.Where to Go:Interpreting Natural Directions Using Global InferenceA.2009。
18、IEEE 说 明 书 CN 103514157 A 5 2/14 页 6 International Conference on Robotics and AutomationC.kobe:Proceedings-IEEE International Conference on Robotics and Automation,2009.3761-3767.) 。 Kollar等 人在Yuan Wei等人的基础上提出了SDC用来分析路径自然语言中的方向, 并结合Yuan Wei 等人的结果给出了相关的实验结果 (Kollar T,Tellex S,et al.Toward understandi。
19、ng natural language directionsA.Human-Robot Interaction(HRI)C.Boston:20105th ACM/IEEE International Conference,2010.259-267.) 。 鲁 汶 大 学 的 Kordjamshidi8 则从更加宽广的角度研究了自然语言中物体的空间关系, 类比一般的语义角色标注方法, 她采用了以方位词为中心的空间角色语义标注方法, 为路径自然语言提供了很好的借鉴 (Parisa Kordjamshidi,Martijn van otterlo,Marie-Francine Moens.Spati。
20、al Role Labeling:Towards Extraction of Spatial Relations from Natural LanguageJ. ACM,2011.1-33.) 。 0005 在这个领域, 英文基于路径自然语言理解的机器人导航已经有了初步的发展。总 体来说, 英文的路径自然语言处理侧重于提取路标名词和方位词, 然后通过已有的地图, 进 行路径规划, 自然语言的处理只涉及到句法层面。 自然语言处理仍然是一个辅助性的工具, 更多的依靠路径规划算法来提取路径。 0006 因此, 迫切的需要一种更加智能, 既不需要依靠高精度的地图, 也不需要提前输入 手绘地图的路径自然。
21、语言处理方法, 来实现路径提取。 发明内容 0007 发明目的 : 为了克服现有技术中存在的不足, 本发明提供一种面向室内智能机器 人导航的路径自然语言处理方法, 实现了既不需要依靠高精度的地图, 也不需要提前输入 手绘地图的路径自然语言处理方法, 来实现路径提取。 0008 为解决上述技术问题, 本发明采用的技术方案是 : 0009 一种面向室内智能机器人导航的路径自然语言处理方法, 包括以下步骤 : 0010 步骤一, 收集路径自然语言的语料, 分析语料的句法, 提出句法结构, 根据句法结 构提出表示名词性路标的语义组块 NL、 表示动词性路标的语义组块 VL、 表示介词性路标的 语义组块。
22、 PL、 表示方位转换模块的语义组块 DTM、 表示基于参照物的方位转换模块或者间 接方位转化模块的语义组块 IDTM、 表示与方位无关的动词短语的语义组块 VP、 表示路径执 行主体的语义组块 ROBO ; 0011 步骤二, 对收集的路径自然语言的语料进行名词实体标注构造名词实体语料库, 对收集的路径自然语言的语料进行名词短语标注构造名词短语语料库, 对收集的路径自然 语言的语料进行语义组块标注构造语义组块语料库 ; 0012 步骤三, 构造层叠条件随机场, 所述层叠条件随机场包括底层的条件随机场和高 层的条件随机场, 通过底层的条件随机场对名词短语语料库中的语料进行训练, 得到名词 短语。
23、语料的特征参数, 通过高层的条件随机场对语义组块语料库中的语料进行训练, 得到 语义组块语料的特征参数 ; 构造条件随机场, 对名词实体语料库中的语料进行训练, 得到名 词实体语料的特征参数 ; 0013 步骤四, 对生语料进行词性标注 ; 0014 步骤五, 识别生语料中的名词短语, 然后在识别生语料中的名词短语的基础上识 说 明 书 CN 103514157 A 6 3/14 页 7 别生语料中的语义组块, 具体步骤如下 : 0015 1) 用名词短语语料的特征参数识别已经标注词性的生语料中的名词短语 ; 0016 2) 用语言学规则对名词短语进行辅助处理, 所述的辅助处理为检查每个名词短。
24、语 前后三个词以内的词, 如果有词可以成为名词短语中的成分, 则将该词纳入名词短语中 ; 0017 3) 将识别的名词短语进行替换 ; 0018 4) 将替换所得的生语料用语义组块语料的特征参数进行语义组块的识别 ; 0019 步骤六, 引入名词实体关系推理方法获取名词短语中名词实体之间的关系, 具体 步骤如下 : 0020 1) 用名词实体语料的特征参数识别已经标注词性的生语料中的名词实体 ; 0021 2) 识别包含在名词短语内表示路标的名词实体和修饰路标的名词实体 : 0022 当名词短语由单个名词实体构成时, 名词实体直接认为表示路标 ; 0023 当名词短语包括若干个名词实体时, 将。
25、任意两个识别的名词实体 A、 B 组合, 由贝 叶斯公式推导公式推导所得得 : 0024 当 A 和 B 并列时 0025 公式 1 0026 当 A 和 B 为偏正关系时 0027 P(R|(A,B) P(fA|R)P(fB|R)P(fC|R)P(fD|R)P(fP|R)P(R) 公式 2 0028 计算概率 P(RA B), P(RB A), P(RB A) 的值, 三者中最大的值对应的名词实体关系 即为所求 ; 0029 其中 A B 表示 A 依赖于 B, B A 表示 B 依赖于 A, B A 表示 A 和 B 并列, R 表 示 A 和 B 之间的关系, RA B、 RB A、 R。
26、A B表示对应 A 和 B 之间三种关系, (A,B) 表示 A 和 B 之间的特征, fA、 fB、 fC、 fD、 fP表示名词实体关系的特征 : fA、 fB表示名词归类, fC表示两个 实体名词之间的连词, fD表示两个实体名词之间的 “的” , fP表示两个实体名词之间的相对 位置 ; 0030 步骤七, 生成路径, 具体步骤如下 : 0031 1)结构化定义路径, 定义路径 S pi, pi ri,fi, ri (xi,yi), fi l_ fi,di,l_bi, 其中 pi为路径单元, ri为路径单元向量, xi为 x 轴的坐标, yi为 y 轴的坐标, fi 为路径的导航辅助信。
27、息, l_fi为向前路标, l_bi为向后路标, di为距离信息, i 1,2,n, n 为语义组块数量 ; 0032 2) 提取语义组块中的信息, 通过提取的信息提取路径单元, 具体步骤如下 : 0033 a) 采用槽体填充方法提取语义组块中的信息 ; 0034 b) 提取路径单元步骤如下 0035 (1) 输入一个语义组块 ; 0036 (2) 判断当前语义组块是不是路标语义组块, 如果不是则转到 (7) , 如果是则转到 (3) ; 0037 (3) 将当前语义组块中的路标赋值给向后路标 l_bi; 0038 (4) 如果当前语义组块是第一个语义组块, ri r_d, r_fi ri, 。
28、其中 r_d (0,1) 为默认的路径向量, r_fi为用来保存前一个路径单元向量的向量, 保存 pi; 否则转到 (5) ; 说 明 书 CN 103514157 A 7 4/14 页 8 0039 (5) 判断前一个语义组块是不是 DTM 或者 IDTM, 如果是则保存 pi; 如果不是, 则 ri r_fi, 保存 pi; 0040 (6) 判断当前语义组块是不是最后一个语义组块, 如果不是, 则转向 (1) ; 如果是, 则结束 ; 0041 (7) 如果是 DTM 组块, 则转到 (8) , 如果不是则转到步骤 (18) ; 0042 (8) 如果当前语义组块不包含方向, 则转向 (。
29、9) , 反之则转向 (14) ; 0043 (9) 如果当前语义组块是第一个语义组块, ri r_d, 其中 r_d (0,1) 为默认的 路径向量, 否则计算 ri; 0044 (10) 如果当前语义组块包含距离, 值为 l, 则 di 1, ri=ri*l, 否则, di 0 ; 0045 (11) 如果前一个语义组块是 DTM, 转到 (12) , 否则转到 (13) ; 0046 (12) 如果 i 1 且 di-1值为 1, 则 ri r_fi+ri, 保存 pi, 转到 (6) ; 如果 di-1值不为 1, 保存 pi, 转到 (6) ; 0047 (13) 如果后一个语义组块。
30、不是路标语义组块或者当前语义组块为最后一个语义 组块, 保存 pi, 转向 (6) , 否则直接转向 (6) ; 0048 (14) 判断当前语义组块内部是不是带明确的旋转角度, 如果没有则转到 (15) , 如 果有则转到 (17) ; 0049 (15) 判断当前语义组块是否是第一个语义组块, 如果是则通过判断方位词确定 ri, 如果不是, 则通过 r_fi和方位词来确定 ri; 0050 (16) 如果当前语义组块包含距离, 值为 l, 则 di 1, ri ri*l, 转到 (13) , 否则, di 0 转到 (13) ; 0051 (17) 如果当前语义组块是第一个语义组块, 则利。
31、用旋转角度确定 ri, 反之利用 r_ fi和旋转角度确定 ri, 转到 (16) ; 0052 (18) 如果是 IDTM 组块, 则转向 (19) , 否则结束 ; 0053 (19) 将 IDTM 组块中的向前路标赋值给 l_fi, 向后路标路标赋值给 l_bi, 转到 (8) 。 0054 3) 识别归类方位词 ; 0055 4) 连接路径单元生成路径。 。 0056 有益效果 : 本发明通过分析收集到的路径自然语言的语料, 提出句法结构, 在此基 础上构造层叠条件随机场, 提取生语料中名词短语, 然后提取生语料中的语义组块, 引入名 词实体关系推理方法获取名词短语中名词实体之间的关系。
32、, 最后提取路径单元, 连接路径 单元生成路径 ; 既不需要依靠高精度的地图, 也不需要提前输入手绘地图, 直接从路径自然 语言中提取路径, 更加智能。 附图说明 0057 图 1 为路径自然语言的处理流程图。 0058 图 2 为提取路径单元的流程图。 0059 图 3 为例 2 的路径图。 0060 图 4 为例 3 的路径图。 0061 图 5 为例 4 的路径图。 0062 图 6 为例 5 的路径图。 说 明 书 CN 103514157 A 8 5/14 页 9 具体实施方式 0063 下面结合附图对本发明作更进一步的说明。 0064 如图1和2所示, 一种面向室内智能机器人导航的。
33、路径自然语言处理方法, 包括以 下步骤 : 0065 步骤一, 收集路径自然语言的语料, 分析语料的句法, 提出句法结构, 根据句法结 构提出表示名词性路标的语义组块 NL、 表示动词性路标的语义组块 VL、 表示介词性路标的 语义组块 PL、 表示方位转换模块的语义组块 DTM、 表示基于参照物的方位转换模块或者间 接方位转化模块的语义组块 IDTM、 表示与方位无关的动词短语的语义组块 VP、 表示路径执 行主体的语义组块 ROBO。 0066 步骤二, 对收集的路径自然语言的语料进行名词实体标注构造名词实体语料库, 对收集的路径自然语言的语料进行名词短语标注构造名词短语语料库, 对收集的。
34、路径自然 语言的语料进行语义组块标注构造语义组块语料库 ; 其中三个语料库中的句子完全一致, 只是标注的对象不同, 如下 : 0067 例 1 :“向厨房方向走, 经过客卫然后向右拐, 一直向前走, 走到主卧进入主卧, 然 后走向主卧的斜对角, 进入书房” ; 0068 名词实体标注 :“向 /p 厨房 /nNL 方向 /n 走 /v, /wd 经过 /p 客 /ng 卫 /ngNL 然后 /c 向 /p 右 /f 拐 /v, /wd 一直 /d 向 /p 前 /f 走 /v, /wd 走 /v 到 /v 主 /ag 卧 /nNL 进入 /v 主 /ag 卧 /nNL, /wd 然后 /c 走。
35、向 /v 主 /ag 卧 /nNL 的 /ude1 斜 /a 对角 /n NL, /wd 进入 /v 书房 /nNL” ; 其中, p 表示介词, n 表示名词, v 表示动词, c 表示连词, f 表 示方位词, ag 表示形容词性语素, a 表示形容词, wd 表示逗号, ng 表示名词性语素, udle 表 示 “的” ; 0069 名词短语语标注 :“向 /p 厨房 /nNL 方向 /n 走 /v, /wd 经过 /p 客卫 /nNL 然 后 /c 向 /p 右 /f 拐 /v, /wd 一直 /d 向 /p 前 /f 走 /v, /wd 走 /v 到 /v 主 /ag 卧 /nNL 。
36、进 入 /v 主 /ag 卧 /nNL, /wd 然后 /c 走向 /v 主 /ag 卧 /n 的 /ude1 斜 /a 对角 /nNL, /wd 进入 /v 书房 /nNL” ; 0070 语义组块标注 :“ 向 /p 厨房 /n 方向 /n 走 /vDTMC, /wd 经过 /p 名词 /nPL 然 后 /c 向 /p 右 /f 拐 /vDTM, /wd 一直 /d 向 /p 前 /f 走 /vDTM, /wd 走 /v 到 /v 名词 / nVL 进入 /v 名词 /nVL, /wd 然后 /c 走向 /v 名词 /nVL, /wd 进入 /v 书房 /nVL” ; 0071 在语义组块。
37、标注中, PL, VL 等组块中出现了 “名词 /n” , 这是将名词短语语标注中 的名词短语进行了替换, 但是一部分比较简单的名词短语没有替换。 0072 步骤三, 构造层叠条件随机场 (周俊生 , 戴新宇 , 尹存燕 , 陈家骏 . 基于层叠条件 随机场模型的中文机构名自动识别 J. 电子学报, 2006(5):804-809) , 所述层叠条件随机 场包括底层的条件随机场和高层的条件随机场, 通过底层的条件随机场对名词短语语料库 中的语料进行训练, 得到名词短语语料的特征参数, 通过高层的条件随机场对语义组块语 料库中的语料进行训练, 得到语义组块语料的特征参数 ; 构造条件随机场, 对。
38、名词实体语料 库中的语料进行训练, 得到名词实体语料的特征参数 ; 由于语料库比较小, 条件随机场的训 练效率低下等问题并不突出, 因此直接使用开源的 CRF+ 程序包进行训练, 其中训练的语 料将按照 IOB2 标记方法进行标记。 说 明 书 CN 103514157 A 9 6/14 页 10 0073 步骤四, 对生语料进行词性标注 ; 词性标注直接使用中科院自然语言研究所的 ICTCLAS 系统, 通过测试总体来讲符合使用的要求。 0074 步骤五, 识别生语料中的名词短语, 然后在识别生语料中的名词短语的基础上识 别生语料中的语义组块, 具体步骤如下 : 0075 1) 用名词短语语。
39、料的特征参数识别已经标注词性的生语料中的名词短语 ; 由于语 料库规模较小, 训练复杂度有限, 训练时间有限, 因此使用了尽可能多的特征, 使用的特征 模板如表 1 所示。 0076 表 1 特征模板 0077 0078 0079 2) 用语言学规则对名词短语进行辅助处理, 所述的辅助处理为检查每个名词短语 前后三个词以内的词, 如果有词可以成为名词短语中的成分, 则将该词纳入名词短语中。 0080 3) 将识别的名词短语进行替换 ; 替换操作如例 1。 0081 4) 将替换所得的生语料用语义组块语料的特征参数进行语义组块的识别 ; 所使用 的特征模板如表 5.1 所示 0082 步骤六, 。
40、引入名词实体关系推理方法获取名词短语中名词实体之间的关系, 具体 步骤如下 : 0083 1) 用名词实体语料的特征参数识别已经标注词性的生语料中的名词实体, 使用的 特征模板如表 1 所示。 0084 2) 识别包含在名词短语内表示路标的名词实体和修饰路标的名词实体。 说 明 书 CN 103514157 A 10 7/14 页 11 0085 当名词短语由单个名词实体构成时, 名词实体直接认为表示路标。 0086 当名词短语包括若干个名词实体时, 将任意两个识别的名词实体 A、 B 组合, 定义 A B 表示 A 依赖于 B, B A 表示 B 依赖于 A, B A 表示 A 和 B 并列。
41、, R 表示 A 和 B 之间 的关系, RA B、 RB A、 RA B表示对应 A 和 B 之间三种关系, (A,B) 表示 A 和 B 之间的特征, (A,B) 表示 A 和 B 互换位置后 A 和 B 之间的特征, fA、 fB、 fC、 fD、 fP表示名词实体关系 的特征 : fA、 fB表示名词归类 (或者分别表示 A、 B 的父概念) , 在路径自然语言中, 名词实体大 都是具体实物或者空间方位概念, 因此把名词按照物理空间的大小分为 : 1 类名词, 较大空 间名词, 例如 : 卧室, 走廊等 ; 2 类名词, 具体实物名词, 例如 : 电视, 椅子等 ; 3 类名词, 指代。
42、 部位名词, 例如 : 边缘, 头部等等 ; 4 类名词, 其它 ; fC表示两个实体名词之间的连词 ; fD表示 两个实体名词之间的 “的” ; fP表示两个实体名词之间的相对位置 ; fP表示两实体名词之间 互换位置。 0087 由贝叶斯公式推导公式得 : 0088 0089 我们默认各个特征之间的关系式相互独立, 则 : 0090 (A,B) fAfBfCfDfP 0091 故可得 : 0092 0093 当 A B 时, 由语法知识可知, 即使 A, B 的相对位置发生变化, 也应该不影响之间 的关系, 所以概率 P(RA B|(A,B) 不会发生变化, 所以有 : 0094 当 PA。
43、 PB时, P(RA B|(A,B) P1(A,B) fAfBfCfDfP 0095 当 PA PB时, P(RA B| (A,B) P2 (A,B) fAfBfCfDfP 0096 PA, PB分别表示名词实体 A, B 在名词短语中的位置, 因为位置不影响条件概率大 小, 所以 P1 P2, 则可得 : 0097 0098 因为 P(fp|R) 与 P(fp|R) 分别表示 A, B 互换位置之后的概率, 因此有 : 0099 P(fp|R)+P(fp|R) 1 0100 故 : 说 明 书 CN 103514157 A 11 8/14 页 12 0101 0102 当 A 和 B 并列时。
44、可得 0103 公式 1 0104 当 A 和 B 为偏正关系时可得 0105 P(R|(A,B) P(fA|R)P(fB|R)P(fC|R)P(fD|R)P(fP|R)P(R) 公式 2 0106 由公式 1 和公式 2 分别计算 P(RA B),P(RB A),P(RB A) 的值, 三者中最大的值对 应的那个名词实体关系即为所求。 0107 对名词实体关系做推导试验, 验证其准确性 : 0108 为了便于训练和推导, 对各特征 fA、 fB、 fC、 fD、 fP进行量化 : 0109 0110 在训练时通过查询词典库来确定特征的值, fB取值同上。 0111 0112 0113 011。
45、4 由于复杂名词短语的数量有限, 采用如下方法进行相关概率的求解 (瓦苏德万, 西 格沃特 . 贝叶斯空间概念化和为语义地图地点分类的移动机器人 J. 机器人技术和自动 系 0115 统 ,2008(56):522-537) 0116 公式 3 0117 其中, P(ft j|R) 表示当 A, B 关系为 R 时, 特征 ft值为 j 的概率, 其中 j 为整数, ft fA,fB,fC,fD, t 为集合 fA,fB,fC,fD 中元素的个数,表示在语料库中, 特征 ft 值为 j 时出现的次数, NR为 A, B 关系 R 在语料库中出现的次数, 是一个较小的值, 防止数 说 明 书 C。
46、N 103514157 A 12 9/14 页 13 据稀疏的参数, 这里我们赋值为 0.0001。 0118 为了获得各个特征对应的概率, 首先将语料中的所有非单个名词实体的名词短语 标注出表示路标的名词实体和修饰路标的名词实体, 然后利用以上量化的特征统计出现的 特征种类及其数量, 最后利用公式 3 计算其对应的概率, 结果如下 : 0119 表 2A 是不同词性时 A、 B 所对应的概率 0120 fA 0fA 1fA 2fA 3 P(fA|RA B)0.04838860.9354821.6129*10-60.0161306 P(fA|RA B)0.04762050.7301580.17。
47、46040.0476205 P(fA|RB A)0.5238090.4603181.5873*10-60.0158746 0121 表 2 表示在存在两个名词实体 A、 B 时, A 是不同词性时 A、 B 所对应的概率。其中 第一排表示 A 和 B 并列关系的概率, 第二排表示 A 依赖于 B 的概率, 第三排表示 B 依赖于 A 的概率。 0122 表 3A、 B 之间存在连词和存在 “的” 时 A、 B 之间的关系对应的概率 0123 0124 表 3 中分别表示两个名词实体 A、 B 之间存在连词和存在 “的” 时 A、 B 之间的关系 所对应的概率, 这里主要关注A、 B是否是并列关。
48、系, 表第一排表示A、 B是并列关系时所对应 的概率, 第二排表示 A、 B 为非并列关系时的概率。 0125 表 4 名词位置的概率 0126 fP 0fP 1 P(fA|RB A)0.9999981.5873*10-6 P(fA|RA B)1.5873*10-60.999998 0127 表 4 表示位置对名词依赖性的影响, 第一列表示 A 的位置在 B 之前时 A, B 之间所 对应的依赖关系的概率。第二列表示 A 的位置在 B 之后时所对应的概率。这样的关系也符 合我们的普遍认识, 一般来讲位置靠前的名词都是修饰后面的。 0128 利用以上各个概率进行测试, 测试中所用的 11 个测试样本为均能准确地推导出 来, 准确率为100%。 总的来说我们收集的样本还比较简单, 一般一个名词短语中名词实体的 数量还。