中文地名行政区划归属识别方法.pdf

上传人:1*** 文档编号:1285383 上传时间:2018-04-12 格式:PDF 页数:4 大小:183.30KB
返回 下载 相关 举报
摘要
申请专利号:

CN201610920383.3

申请日:

2016.10.21

公开号:

CN106503150A

公开日:

2017.03.15

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20161021|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

天津海量信息技术股份有限公司

发明人:

宋传宝

地址:

300000 天津市滨海新区华苑产业区榕苑路1号B北322-323室

优先权:

专利代理机构:

代理人:

PDF下载: PDF下载
内容摘要

一种中文地名行政区划归属识别方法,包括以下步骤:建立行政区划知识库,知识库包括行政区划层级关系词集,常见地名行政区划归属词集;扫描一篇文章文本,对文本进行地名识别;对获取的地名集合进行知识查询匹配,获取每一个地名的行政区划归属背景知识,同一地名可能有多个行政区划归属知识;按照行政区划层级的高低,依次根据背景知识确定行政区划归属;对于同一地名多个归属知识的情况根据文章内其他高层级的行政区划归属进行排歧;对于无行政区划归属知识的地名,则根据上下文位置,使用左边上文紧邻的地名设定其行政区划归属。本发明中提出了一种中文地名行政区划归属识别方法,具有更准确的地名行政区归属效果,更快的处理速度。

权利要求书

1.一种中文地名行政区划归属识别方法,其特征在于:包括以下步骤:建立行政区划知
识库,知识库包括行政区划层级关系词集,常见地名行政区划归属词集;扫描一篇文章文
本,对文本进行地名识别;对获取的地名集合进行知识查询匹配,获取每一个地名的行政区
划归属背景知识,同一地名可能有多个行政区划归属知识;按照行政区划层级的高低,依次
根据背景知识确定行政区划归属;对于同一地名多个归属知识的情况根据文章内其他高层
级的行政区划归属进行排歧;对于无行政区划归属知识的地名,则根据上下文位置,使用左
边上文紧邻的地名设定其行政区划归属。

说明书

中文地名行政区划归属识别方法

技术领域

本发明涉及文字信息处理领域,具体涉及一种中文地名行政区划归属识别方法。

背景技术

在对互联网资讯新闻等文本语义分析中,完成地名命名实体识别后,准确地标定
每一个地名的行政区划归属,可以应用于文章的地区新闻分类,文章事件抽取的事件发生
地确定等方面;同时做为地名命名实体识别的增强技术,也可以广泛应用信息抽取、信息检
索、自动问答、机器翻译等领域中。行政区划在世界各国划分标准不尽相同,这里主要针对
中国国内的地名和行政区划进行处理。我国的行政区划主要有以下层级:国家、省和直辖
市、市和地区、区和县、乡和镇、行政村和自然村。在资讯文章中,地名的行政区划层级有大
有小,尤其是小层级的地名,重名现象非常普遍;同时,地名也包含非直接行政区划地名,比
如:景点、道路、水域、自然区域等;利用上下文语境和背景知识,准确确定每一个地名在文
章中语义表达的行政区划归属,是一个较为复杂的语义分析难题,给文本挖掘相关应用带
来很大困扰。

发明内容

本发明的目的是针对现有的技术存在的不足,提出了一种工作效率高的中文地名
行政区划归属识别方法。

本发明所解决的技术问题采用以下技术方案来实现一种中文地名行政区划归属
识别方法,包括以下步骤:建立行政区划知识库,知识库包括行政区划层级关系词集,常见
地名行政区划归属词集;扫描一篇文章文本,对文本进行地名识别;对获取的地名集合进行
知识查询匹配,获取每一个地名的行政区划归属背景知识,同一地名可能有多个行政区划
归属知识;按照行政区划层级的高低,依次根据背景知识确定行政区划归属;对于同一地名
多个归属知识的情况根据文章内其他高层级的行政区划归属进行排歧;对于无行政区划归
属知识的地名,则根据上下文位置,使用左边上文紧邻的地名设定其行政区划归属。

本发明的有益效果为:提出了一种中文地名行政区划归属识别方法,具有更准确
的地名行政区归属效果,更快的处理速度。

具体实施方式

参照附图,一种中文地名行政区划归属识别方法,包括以下步骤:建立行政区划知
识库,知识库包括行政区划层级关系词集,常见地名行政区划归属词集;扫描一篇文章文
本,对文本进行地名识别;对获取的地名集合进行知识查询匹配,获取每一个地名的行政区
划归属背景知识,同一地名可能有多个行政区划归属知识;按照行政区划层级的高低,依次
根据背景知识确定行政区划归属;对于同一地名多个归属知识的情况根据文章内其他高层
级的行政区划归属进行排歧;对于无行政区划归属知识的地名,则根据上下文位置,使用左
边上文紧邻的地名设定其行政区划归属。

本发明提出了一种中文地名行政区划归属识别方法,包括以下步骤:

A、建立行政区划知识库,知识库中包括行政区划层级归属关系知识集、常见地名
行政区划归属知识集、禁止词集;

B、扫描文本,对文本进行分词和地名识别;

C、获取文章完整的地名识别结果集合,包括每一个地名的位置信息,如果文章区
分标题和正文等字段,则将地名出现的字段名也标记在地名识别结果中;

D、根据地名的字段和位置,先标题后正文,位置是从文本开始到结束,逐个地名查
询知识库,获得每一个地名的行政区划背景知识;对于同名的情况,则保留多个行政区划层
级路径,对于未出现在背景知识库中的地名,则暂不处理;

E、统计全部有行政区划知识的地名结果,汇总出各个行政区划层级路径的频率权
重,对出现在标题中的行政区划层级路径进行适当增权处理,然后按出现频率权重由高到
低对行政区划层级路径进行排序;

F、遍历扫描地名结果,处理同一地名多个行政区划路径的情况,根据步骤E统计的
行政区划层级路径频率权重,优先选择频率权重高的行政区划路径做为同名地名的最终行
政区划归属;

G、再次遍历扫描地名结果,处理无行政区划背景知识的地名,遍历扫描顺序仍然
是按先标题后正文,文本位置从开始到结束,遇到第一个无行政区划背景知识的地名,则将
其上一个地名的行政区划层级归属赋予当前地名,如果当前地名是文章最开始的一个地名
且无行政区划背景知识,则直接将步骤E统计到的文章最高频率权重行政区划层级做为当
前地名的行政区划归属。

经过上述步骤后,文章的每一个地名都完成了其行政区划归属识别;识别的效果
除流程设计外,对文章内地名的数量,以及行政区划背景知识库的完善度有着较高的依赖,
知识库约完善,则识别效果越好。

此外,对于上述流程步骤,还可以进一步优化完善,比如步骤G的行政区划归属识
别,可以再根据文章整体行政区划层级统计情况,进行层级进一步细化,而不是单纯的依赖
前一个地名的结果。

所属领域的普通技术人员应当理解:以上,所述仅为本发明的具体实施例而已,并
不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均
应包含在本发明的保护范围之内。

中文地名行政区划归属识别方法.pdf_第1页
第1页 / 共4页
中文地名行政区划归属识别方法.pdf_第2页
第2页 / 共4页
中文地名行政区划归属识别方法.pdf_第3页
第3页 / 共4页
点击查看更多>>
资源描述

《中文地名行政区划归属识别方法.pdf》由会员分享,可在线阅读,更多相关《中文地名行政区划归属识别方法.pdf(4页珍藏版)》请在专利查询网上搜索。

一种中文地名行政区划归属识别方法,包括以下步骤:建立行政区划知识库,知识库包括行政区划层级关系词集,常见地名行政区划归属词集;扫描一篇文章文本,对文本进行地名识别;对获取的地名集合进行知识查询匹配,获取每一个地名的行政区划归属背景知识,同一地名可能有多个行政区划归属知识;按照行政区划层级的高低,依次根据背景知识确定行政区划归属;对于同一地名多个归属知识的情况根据文章内其他高层级的行政区划归属进行排。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1