一种基于字符长度识别兴趣点名称的方法和装置.pdf

上传人:a1 文档编号:6334462 上传时间:2019-06-02 格式:PDF 页数:17 大小:1.04MB
返回 下载 相关 举报
摘要
申请专利号:

CN201510921183.5

申请日:

2015.12.11

公开号:

CN105550169A

公开日:

2016.05.04

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/27申请日:20151211|||公开

IPC分类号:

G06F17/27

主分类号:

G06F17/27

申请人:

北京奇虎科技有限公司; 奇智软件(北京)有限公司

发明人:

王智广

地址:

100088 北京市西城区新街口外大街28号D座112室(德胜园区)

优先权:

专利代理机构:

北京润泽恒知识产权代理有限公司 11319

代理人:

赵娟

PDF下载: PDF下载
内容摘要

本发明实施例提供了一种基于字符串长度识别兴趣点名称的方法和装置,该方法包括:对待识别的文本串进行分词处理,获得文本分词;在所述文本分词中,筛选出在一定字符串长度范围内的候选文本分词;将筛选出的候选文本分词与所述字符串长度范围对应的兴趣点名称进行比较,以判断所述候选文本分词是否为兴趣点名称。本发明实施例大大减少了后续的计算量,从而减少了内存的消耗,有效减缓内存的限制,提高了查找的效率。

权利要求书

1.一种基于字符串长度识别兴趣点名称的方法,包括:
对待识别的文本串进行分词处理,获得文本分词;
在所述文本分词中,筛选出在一定字符串长度范围内的候选文本分词;
将筛选出的候选文本分词与所述字符串长度范围对应的兴趣点名称进
行比较,以判断所述候选文本分词是否为兴趣点名称。
2.如权利要求1所述的方法,其特征在于,所述在所述文本分词中,
筛选出在一定字符串长度范围内的候选文本分词的步骤包括:
查找预设兴趣点名词词典,所述兴趣点名称词典中具有一个或多个兴趣
点名称集合,所述兴趣点集合中兴趣点名称最长的字符串长度和最短的字符
串长度组成字符串长度范围;
计算所述文本分词的字符串长度;
在所述文本分词中,筛选出字符串长度在所述字符串长度范围内的候选
文本分词。
3.如权利要求1-2任一项所述的方法,其特征在于,所述兴趣点集合
中兴趣点名称具有相同的关键字;
所述在所述文本分词中,筛选出字符串长度在所述字符串长度范围内的
候选文本分词的步骤包括:
在所述文本分词中,筛选出与所述关键字匹配、且字符串长度在所述字
符串长度范围内的候选文本分词。
4.如权利要求1-3任一项所述的方法,其特征在于,所述相同的关键
字为首字。
5.如权利要求1-4任一项所述的方法,其特征在于,所述将筛选出的
候选文本分词与所述字符串长度范围对应的兴趣点名称进行比较,以判断所
述候选文本分词是否为兴趣点名称的步骤包括:
将所述候选文本分词和所述兴趣点集合中的兴趣点名称放入同一个容
器中;
将同一个容器中的候选文本分词和兴趣点名称进行比较,以判断所述候
选文本分词是否为兴趣点名称。
6.如权利要求1-5任一项所述的方法,其特征在于,所述将同一个容
器中的候选文本分词和兴趣点名称进行比较,以判断所述候选文本分词是否
为兴趣点名称的步骤包括:
对同一个集合中的候选文本分词和兴趣点名称进行排序;
将所述候选文本分词与排序相邻的一个或多个兴趣点名称进行比较;
当所述候选文本分词与排序相邻的兴趣点名称相同时,确定所述候选文
本分词为兴趣点名称;
当所述候选文本分词与排序相邻的兴趣点名称不相同时,确定所述候选
文本分词不为兴趣点名称。
7.如权利要求1-6任一项所述的方法,其特征在于,还包括:
将一个或多个兴趣点名称划分为同一个兴趣点名称集合中;
统计在每一个兴趣点名称集合中,所述兴趣点名称的字符串长度范围;
针对所述兴趣点名称集合,至少按照所述字符串长度范围生成兴趣点名
称词典。
8.如权利要求1-7任一项所述的方法,其特征在于,所述将一个或多
个兴趣点名称划分为同一个兴趣点名称集合中的步骤包括:
将具有相同关键字的一个或多个兴趣点名称划分为同一个兴趣点名称
集合中。
9.如权利要求1-8任一项所述的方法,其特征在于,所述将具有相同
关键字的一个或多个兴趣点名称划分为同一个兴趣点名称集合中的步骤包
括:
对一个或多个兴趣点名称进行分词处理,获得名称分词;
将所述兴趣点名称中属于首字的名称分词设置为关键字;
将具有相同关键字的一个或多个兴趣点名称划分为同一个兴趣点名称
分类中。
10.一种基于字符串长度识别兴趣点名称的装置,包括:
文本串分词模块,适于对待识别的文本串进行分词处理,获得文本分词;
候选文本分词筛选模块,适于在所述文本分词中,筛选出在一定字符串
长度范围内的候选文本分词;
兴趣点名称判断模块,适于将筛选出的候选文本分词与所述字符串长度
范围对应的兴趣点名称进行比较,以判断所述候选文本分词是否为兴趣点名
称。

说明书

一种基于字符长度识别兴趣点名称的方法和装置

技术领域

本发明涉及计算机处理的技术领域,特别是涉及一种基于字符串长度识
别兴趣点名称的方法和一种基于字符串长度识别兴趣点名称的装置。

背景技术

兴趣点(PointofInterest,POI),又可以翻译成“信息点”,其包含多方
面的信息,如名称、类别、经度纬度等等。

在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒、
一个公交站等。

传统的地理信息采集方法需要地图测绘人员采用精密的测绘仪器去获
取一个兴趣点的经纬度,然后再标记下来。

正因为POI数据的采集是一个非常费时费事的工作,对一个地理信息系
统来说,POI的数量在一定程度代表着整个系统的价值。

为了丰富地理信息系统的POI数据的数量,在文本挖掘等情景下,经常
需要判断文本中是否包含给定的POI名称集合中某些POI名称。

目前一般是把给定的POI名称集合建立一个词典,对于给定一个文本
串,把文本串按字符切分,把n个相邻字符组成的字符子串(记为n长子串)
去词典里查找,如果能够找到则认为文本串包含了一个POI名字。。

由于给定的POI名称集合的数量往往是千万数量级,数据量十分之大,
此时,加载词典时需要消耗较大的内存,尤其在某些情况下,如利用hadoop
分布式计算,内存有限制,应用词典直接遍历的方式便失效了。

而且,在文本串中取“n长子串”在词典里查找时,很多数据是无效的,
大大增加了计算量,查找效率很低。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分
地解决上述问题的一种基于字符串长度识别兴趣点名称的方法和相应的一
种基于字符串长度识别兴趣点名称的装置。

依据本发明的一个方面,提供了一种基于字符串长度识别兴趣点名称的
方法,包括:

对待识别的文本串进行分词处理,获得文本分词;

在所述文本分词中,筛选出在一定字符串长度范围内的候选文本分词;

将筛选出的候选文本分词与所述字符串长度范围对应的兴趣点名称进
行比较,以判断所述候选文本分词是否为兴趣点名称。

可选地,所述在所述文本分词中,筛选出在一定字符串长度范围内的候
选文本分词的步骤包括:

查找预设兴趣点名词词典,所述兴趣点名称词典中具有一个或多个兴趣
点名称集合,所述兴趣点集合中兴趣点名称最长的字符串长度和最短的字符
串长度组成字符串长度范围;

计算所述文本分词的字符串长度;

在所述文本分词中,筛选出字符串长度在所述字符串长度范围内的候选
文本分词。

可选地,所述兴趣点集合中兴趣点名称具有相同的关键字;

所述在所述文本分词中,筛选出字符串长度在所述字符串长度范围内的
候选文本分词的步骤包括:

在所述文本分词中,筛选出与所述关键字匹配、且字符串长度在所述字
符串长度范围内的候选文本分词。

可选地,所述相同的关键字为首字。

可选地,所述将筛选出的候选文本分词与所述字符串长度范围对应的兴
趣点名称进行比较,以判断所述候选文本分词是否为兴趣点名称的步骤包
括:

将所述候选文本分词和所述兴趣点集合中的兴趣点名称放入同一个容
器中;

将同一个容器中的候选文本分词和兴趣点名称进行比较,以判断所述候
选文本分词是否为兴趣点名称。

可选地,所述将同一个容器中的候选文本分词和兴趣点名称进行比较,
以判断所述候选文本分词是否为兴趣点名称的步骤包括:

对同一个集合中的候选文本分词和兴趣点名称进行排序;

将所述候选文本分词与排序相邻的一个或多个兴趣点名称进行比较;

当所述候选文本分词与排序相邻的兴趣点名称相同时,确定所述候选文
本分词为兴趣点名称;

当所述候选文本分词与排序相邻的兴趣点名称不相同时,确定所述候选
文本分词不为兴趣点名称。

可选地,还包括:

将一个或多个兴趣点名称划分为同一个兴趣点名称集合中;

统计在每一个兴趣点名称集合中,所述兴趣点名称的字符串长度范围;

针对所述兴趣点名称集合,至少按照所述字符串长度范围生成兴趣点名
称词典。

可选地,所述将一个或多个兴趣点名称划分为同一个兴趣点名称集合中
的步骤包括:

将具有相同关键字的一个或多个兴趣点名称划分为同一个兴趣点名称
集合中。

可选地,所述将具有相同关键字的一个或多个兴趣点名称划分为同一个
兴趣点名称集合中的步骤包括:

对一个或多个兴趣点名称进行分词处理,获得名称分词;

将所述兴趣点名称中属于首字的名称分词设置为关键字;

将具有相同关键字的一个或多个兴趣点名称划分为同一个兴趣点名称
分类中。

可选地,所述统计在每一个兴趣点名称集合中,所述兴趣点名称的字符
串长度范围的步骤包括:

计算在每一个兴趣点名称集合中,所述兴趣点名称的字符串长度;

以最短的字符串长度和最长的字符串长度组成字符串长度范围。

可选地,所述针对所述兴趣点名称集合,至少按照所述字符串长度范围
生成兴趣点名称词典的步骤包括:

针对所述兴趣点名称集合,以所述关键词作为键、以所述字符串长度范
围作为值生成兴趣点名称词典。

根据本发明的另一方面,提供了一种基于字符串长度识别兴趣点名称的
装置,包括:

文本串分词模块,适于对待识别的文本串进行分词处理,获得文本分词;

候选文本分词筛选模块,适于在所述文本分词中,筛选出在一定字符串
长度范围内的候选文本分词;

兴趣点名称判断模块,适于将筛选出的候选文本分词与所述字符串长度
范围对应的兴趣点名称进行比较,以判断所述候选文本分词是否为兴趣点名
称。

可选地,所述候选文本分词筛选模块还适于:

查找预设兴趣点名词词典,所述兴趣点名称词典中具有一个或多个兴趣
点名称集合,所述兴趣点集合中兴趣点名称最长的字符串长度和最短的字符
串长度组成字符串长度范围;

计算所述文本分词的字符串长度;

在所述文本分词中,筛选出字符串长度在所述字符串长度范围内的候选
文本分词。

可选地,所述兴趣点集合中兴趣点名称具有相同的关键字;

所述候选文本分词筛选模块还适于:

在所述文本分词中,筛选出与所述关键字匹配、且字符串长度在所述字
符串长度范围内的候选文本分词。

可选地,所述相同的关键字为首字。

可选地,,所述兴趣点名称判断模块还适于:

将所述候选文本分词和所述兴趣点集合中的兴趣点名称放入同一个容
器中;

将同一个容器中的候选文本分词和兴趣点名称进行比较,以判断所述候
选文本分词是否为兴趣点名称。

可选地,所述兴趣点名称判断模块还适于:

对同一个集合中的候选文本分词和兴趣点名称进行排序;

将所述候选文本分词与排序相邻的一个或多个兴趣点名称进行比较;

当所述候选文本分词与排序相邻的兴趣点名称相同时,确定所述候选文
本分词为兴趣点名称;

当所述候选文本分词与排序相邻的兴趣点名称不相同时,确定所述候选
文本分词不为兴趣点名称。

可选地,还包括:

兴趣点名称划分模块,适于将一个或多个兴趣点名称划分为同一个兴趣
点名称集合中;

字符串长度范围统计模块,适于统计在每一个兴趣点名称集合中,所述
兴趣点名称的字符串长度范围;

兴趣点名称词典生成模块,适于针对所述兴趣点名称集合,至少按照所
述字符串长度范围生成兴趣点名称词典。

可选地,所述兴趣点名称划分模块还适于:

将具有相同关键字的一个或多个兴趣点名称划分为同一个兴趣点名称
集合中。

可选地,所述兴趣点名称划分模块还适于:

对一个或多个兴趣点名称进行分词处理,获得名称分词;

将所述兴趣点名称中属于首字的名称分词设置为关键字;

将具有相同关键字的一个或多个兴趣点名称划分为同一个兴趣点名称
分类中。

可选地,所述字符串长度范围统计模块还适于:

计算在每一个兴趣点名称集合中,所述兴趣点名称的字符串长度;

以最短的字符串长度和最长的字符串长度组成字符串长度范围。

可选地,所述兴趣点名称词典生成模块还适于:

针对所述兴趣点名称集合,以所述关键词作为键、以所述字符串长度范
围作为值生成兴趣点名称词典。

本发明实施例基于字符串长度、关键字等属性对待识别的文本串中筛选
处疑似POI名称片段的文本分词,再进一步与POI名称进行比较,以判断疑
似POI名称片段是否为真正的POI名称,由于属性的初步筛选,使得获取的
疑似POI名称片段更有针对性,所以会排除掉大量的POI名称,大大减少了
后续的计算量,从而减少了内存的消耗,有效减缓内存的限制,提高了查找
的效率。

本发明实施例针对字符串长度范围、关键字等属性生成兴趣点名称
词典,由于字符串长度范围、关键字等属性的数据简单,加载该兴趣点
名称词典、在该兴趣点名称词典进行查找所需的内存都很小,保证了初
步筛选疑似POI名称片段的效率。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技
术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它
目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本
领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,
而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示
相同的部件。在附图中:

图1示出了根据本发明一个实施例的一种基于字符串长度识别兴趣点名
称的方法实施例1的步骤流程图;

图2示出了根据本发明一个实施例的一种基于字符串长度识别兴趣点名
称的方法实施例2的步骤流程图;

图3示出了根据本发明一个实施例的一种基于字符串长度识别兴趣点名
称的装置实施例1的结构框图;以及

图4示出了根据本发明一个实施例的一种基于字符串长度识别兴趣点名
称的装置实施例2的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示
了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不
应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地
理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1,示出了根据本发明一个实施例的一种基于字符串长度识别兴
趣点名称的方法实施例1的步骤流程图,具体可以包括如下步骤:

步骤101,对待识别的文本串进行分词处理,获得文本分词;

在本发明实施例中,爬虫可以预先通过网页间的链接关系,抓取互联网
的网页并保存,爬虫抓取的网页保存在网页数据库中形成大量的搜索资源,
对于这些网页中的文本串,可以进行POI名称的挖掘,用于地理信息服务等
领域。

在具体实现中,可以对待识别的文本串进行分词处理,获得文本分词。

本发明实施例中,可以采用如下一种或多种方式进行分词处理:

1、基于字符串匹配的分词:是指按照一定的策略将待分析的汉字串
与一个预置的机器词典中的词条进行匹配,若在词典中找到某个字符串,
则匹配成功(识别出一个词)。

2、基于特征扫描或标志切分的分词:是指优先在待分析字符串中识
别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串
分为较小的串再来进机械分词,从而减少匹配的错误率;或者将分词和
词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在
标注过程中又反过来对分词结果进行检验、调整,从而提高切分的准确
率。

3、基于理解的分词:是指通过让计算机模拟人对句子的理解,达到
识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利
用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子
系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统
可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即
它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识
和信息。

4、基于统计的分词方法:是指,中文信息中由于字与字相邻共现的
频率或概率能够较好的反映成词的可信度,所以可以对语料中相邻共现
的各个字的组合的频度进行统计,计算它们的互现信息,以及计算两个
汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密
程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个
词。

当然,上述分词处理只是作为示例,在实施本发明实施例时,可以
根据实际情况设置其他分词处理,本发明实施例对此不加以限制。另外,
除了上述分词处理外,本领域技术人员还可以根据实际需要采用其它分
词处理,本发明实施例对此也不加以限制。

步骤102,在所述文本分词中,筛选出在一定字符串长度范围内的候选
文本分词;

在本发明实施例中,可以基于字符串长度进行初步筛选,排除一部分无
效的数据,以减少计算量。

在具体实现中,可以查找预设兴趣点名词词典。

其中,兴趣点名称词典中具有一个或多个兴趣点名称集合;

该兴趣点集合中兴趣点名称最长的字符串长度和最短的字符串长度组
成字符串长度范围。

计算文本分词的字符串长度,在文本分词中,筛选出字符串长度在字符
串长度范围内的候选文本分词。

为了进一步排除无效的数据,兴趣点集合中兴趣点名称具有相同的关键
字,可以基于该关键字对数据进行进一步的筛选。

在具体实现中,该相同的关键字可以为首字,当然,该相同的关键字也
可以为尾字、词中任意指定的字,本发明实施例对此不加以限制。

例如,该兴趣点名称词典的示例如下:

Key值
Value值
T1
S1/L1
T2
S2/L2
…….
…….
Li
Si/Li
…….
…….
Tn
Sn/Ln

其中,在该兴趣点名称词典中,可以以关键字为Key,如Tn(n为正整
数,表示第n个关键字),以字符串长度范围为Value,如Sn/Ln(n为正整
数,表示第n个字符串长度),Ln为最长的字符串长度、Sn为最短的字符串
长度。

因此,在文本分词中,可以筛选出与关键字匹配、且字符串长度在字符
串长度范围内的候选文本分词。

需要说明的是,除了关键字之外,兴趣点名称集合中的兴趣点名称也可
以具有其他相同的属性,本发明实施例对此不加以限制。

步骤103,将筛选出的候选文本分词与所述字符串长度范围对应的兴趣
点名称进行比较,以判断所述候选文本分词是否为兴趣点名称。

在本发明实施例中,初步筛选出的候选文本分词与兴趣点名称集合中的
兴趣点的某些属性(如字符串长度、关键字等)匹配,是疑似的兴趣点名词,
可以进一步进行识别。

在具体实现中,可以将候选文本分词和兴趣点集合中的兴趣点名称放入
同一个容器(可以称之为桶)中,将同一个容器中的候选文本分词和兴趣点
名称进行比较,以判断所述候选文本分词是否为兴趣点名称。

在一个示例中,可以对同一个集合中的候选文本分词和兴趣点名称、基
于某种属性进行排序,如基于字符串长度排序、基于拼音排序等等,以将候
选文本分词排序在属性相近的兴趣点名称附近。

将候选文本分词与排序相邻的一个或多个兴趣点名称进行比较,当候选
文本分词与排序相邻的兴趣点名称相同时,确定候选文本分词为兴趣点名
称,当候选文本分词与排序相邻的兴趣点名称不相同时,确定候选文本分词
不为兴趣点名称。

当然,上述判断方式只是作为示例,在实施本发明实施例时,可以
根据实际情况设置其他判断方式,本发明实施例对此不加以限制。另外,
除了上述判断方式外,本领域技术人员还可以根据实际需要采用其它判
断方式,本发明实施例对此也不加以限制。

为使本领域技术人员更好地理解本发明实施例,在发明实施例中,通过
具体的应用场景的示例对兴趣点名称识别的方式作进一步说明:

对于待识别的文本串C,对文本串C进行分词处理,对于切词后的每个
词t在兴趣点名称词典中查找,如果能够找到,记词t对应兴趣点名称词典
中的Key为Tt,Tt对应的Value值为St/Lt。

以t开始、St≤t的字符串长度≤Lt的所有子串都为疑似的POI名称片段。

提取出的所有疑似的POI名称片段和初始的POI名称按照字符串的签名
进行分桶,所谓分桶就是把相同的分到一块,在每个桶中确定疑似POI名称
片段是否真正为某个POI名称。

本发明实施例基于字符串长度、关键字等属性对待识别的文本串中筛选
处疑似POI名称片段的文本分词,再进一步与POI名称进行比较,以判断疑
似POI名称片段是否为真正的POI名称,由于属性的初步筛选,使得获取的
疑似POI名称片段更有针对性,所以会排除掉大量的POI名称,大大减少了
后续的计算量,从而减少了内存的消耗,有效减缓内存的限制,提高了查找
的效率。

参照图2,示出了根据本发明一个实施例的一种基于字符串长度识别兴
趣点名称的方法实施例2的步骤流程图,具体可以包括如下步骤:

步骤201,将一个或多个兴趣点名称划分为同一个兴趣点名称集合中;

在本发明实施例中,可以基于某一种或多种属性,将具有相同属性的一
个或多个兴趣点名称划分为同一个兴趣点名称集合,对兴趣点名称进行分
类。

以关键字为例,可以将具有相同关键字的一个或多个兴趣点名称划分为
同一个兴趣点名称集合中。

进一步而言,若关键字为首字,则可以对一个或多个兴趣点名称进行分
词处理,获得名称分词,将兴趣点名称中属于首字的名称分词设置为关键字,
将具有相同关键字的一个或多个兴趣点名称划分为同一个兴趣点名称分类
中。

本发明实施例中,可以采用如下一种或多种方式进行分词处理:

1、基于字符串匹配的分词:是指按照一定的策略将待分析的汉字串
与一个预置的机器词典中的词条进行匹配,若在词典中找到某个字符串,
则匹配成功(识别出一个词)。

2、基于特征扫描或标志切分的分词:是指优先在待分析字符串中识
别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串
分为较小的串再来进机械分词,从而减少匹配的错误率;或者将分词和
词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在
标注过程中又反过来对分词结果进行检验、调整,从而提高切分的准确
率。

3、基于理解的分词:是指通过让计算机模拟人对句子的理解,达到
识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利
用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子
系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统
可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即
它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识
和信息。

4、基于统计的分词方法:是指,中文信息中由于字与字相邻共现的
频率或概率能够较好的反映成词的可信度,所以可以对语料中相邻共现
的各个字的组合的频度进行统计,计算它们的互现信息,以及计算两个
汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密
程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个
词。

当然,上述分词处理只是作为示例,在实施本发明实施例时,可以
根据实际情况设置其他分词处理,本发明实施例对此不加以限制。另外,
除了上述分词处理外,本领域技术人员还可以根据实际需要采用其它分
词处理,本发明实施例对此也不加以限制。

需要说明的是,除了关键字之外,兴趣点名称集合中的兴趣点名称也可
以具有其他相同的属性,本发明实施例对此不加以限制。

步骤202,统计在每一个兴趣点名称集合中,所述兴趣点名称的字符串
长度范围;

在具体实现中,可以计算在每一个兴趣点名称集合中,兴趣点名称的字
符串长度,从该兴趣点名称的字符串长度中,筛选处最短的字符串长度和最
长的字符串长度,以最短的字符串长度和最长的字符串长度组成字符串长度
范围。

步骤203,针对所述兴趣点名称集合,至少按照所述字符串长度范围生
成兴趣点名称词典;

在实际应用中,可以针对兴趣点名称集合,以关键词作为键Key、以字
符串长度范围作为值Value生成兴趣点名称词典。

为使本领域技术人员更好地理解本发明实施例,在发明实施例中,通过
具体的应用场景的示例对兴趣点名称词典的生成方式作进一步说明:

对于给定的POI名称,进行分词处理,把切词后第一个字作为关键字,
将关键字相同的POI名称聚为一类,形成兴趣点名称集合。

计算每个兴趣点名称集合中每个POI名称切词后包含的词的个数(即字
符串长度),找出最长的字符串长度和最短的字符串长度。

以POI名称的首字(即关键字)为key,对应这个首字的最长字符串长
度和最短字符串长度的数值组合为Value生成兴趣点名称词典。

例如,POI名称切词后假如有n(n为正整数)个不同的首字,分别记
为T1、T2……Tn,第i个首字对应的POI名称的最长的字符串长度为Li、最
短的字符串长度为Si,则兴趣点名称词典格式如下:

Key值
Value值
T1
S1/L1
T2
S2/L2
…….
…….
Li
Si/Li
…….
…….
Tn
Sn/Ln

其中,在该兴趣点名称词典中,可以以关键字为Key,如Tn,以字符串
长度范围为Value,如Sn/Ln,Ln为最长的字符串长度、Sn为最短的字符串
长度。

本发明实施例针对字符串长度范围、关键字等属性生成兴趣点名称
词典,由于字符串长度范围、关键字等属性的数据简单,加载该兴趣点
名称词典、在该兴趣点名称词典进行查找所需的内存都很小,保证了初
步筛选疑似POI名称片段的效率。

步骤204,对待识别的文本串进行分词处理,获得文本分词;

步骤205,查找预设兴趣点名词词典;

其中,所述兴趣点名称词典中具有一个或多个兴趣点名称集合;

所述兴趣点集合中兴趣点名称最长的字符串长度和最短的字符串长度
组成字符串长度范围;

步骤206,计算所述文本分词的字符串长度;

步骤207,在所述文本分词中,筛选出字符串长度在所述字符串长度范
围内的候选文本分词;

步骤208,将筛选出的候选文本分词与所述字符串长度范围对应的兴趣
点名称进行比较,以判断所述候选文本分词是否为兴趣点名称。

对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,
但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限
制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其
次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施
例,所涉及的动作并不一定是本发明实施例所必须的。

参照图3,示出了根据本发明一个实施例的一种基于字符串长度识别兴
趣点名称的装置实施例1的结构框图,具体可以包括如下模块:

文本串分词模块301,适于对待识别的文本串进行分词处理,获得文本
分词;

候选文本分词筛选模块302,适于在所述文本分词中,筛选出在一定字
符串长度范围内的候选文本分词;

兴趣点名称判断模块303,适于将筛选出的候选文本分词与所述字符串
长度范围对应的兴趣点名称进行比较,以判断所述候选文本分词是否为兴趣
点名称。

在本发明的一种可选实施例中,所述候选文本分词筛选模块302还可以
适于:

查找预设兴趣点名词词典,所述兴趣点名称词典中具有一个或多个兴趣
点名称集合,所述兴趣点集合中兴趣点名称最长的字符串长度和最短的字符
串长度组成字符串长度范围;

计算所述文本分词的字符串长度;

在所述文本分词中,筛选出字符串长度在所述字符串长度范围内的候选
文本分词。

在本发明的一种可选实施例中,所述兴趣点集合中兴趣点名称可以具有
相同的关键字;

所述候选文本分词筛选模块302还可以适于:

在所述文本分词中,筛选出与所述关键字匹配、且字符串长度在所述字
符串长度范围内的候选文本分词。

在具体实现中,所述相同的关键字可以为首字。

在本发明的一种可选实施例中,所述兴趣点名称判断模块303还可以适
于:

将所述候选文本分词和所述兴趣点集合中的兴趣点名称放入同一个容
器中;

将同一个容器中的候选文本分词和兴趣点名称进行比较,以判断所述候
选文本分词是否为兴趣点名称。

在本发明的一种可选实施例中,所述兴趣点名称判断模块303还可以适
于:

对同一个集合中的候选文本分词和兴趣点名称进行排序;

将所述候选文本分词与排序相邻的一个或多个兴趣点名称进行比较;

当所述候选文本分词与排序相邻的兴趣点名称相同时,确定所述候选文
本分词为兴趣点名称;

当所述候选文本分词与排序相邻的兴趣点名称不相同时,确定所述候选
文本分词不为兴趣点名称。

参照图4,示出了根据本发明一个实施例的一种基于字符串长度识别兴
趣点名称的装置实施例2的结构框图,具体可以包括如下模块:

兴趣点名称划分模块401,适于将一个或多个兴趣点名称划分为同一个
兴趣点名称集合中;

字符串长度范围统计模块402,适于统计在每一个兴趣点名称集合中,
所述兴趣点名称的字符串长度范围;

兴趣点名称词典生成模块403,适于针对所述兴趣点名称集合,至少按
照所述字符串长度范围生成兴趣点名称词典;

文本串分词模块404,适于对待识别的文本串进行分词处理,获得文本
分词;

候选文本分词筛选模块405,查找预设兴趣点名词词典,计算所述文本
分词的字符串长度,在所述文本分词中,筛选出字符串长度在所述字符串长
度范围内的候选文本分词;

其中,所述兴趣点名称词典中具有一个或多个兴趣点名称集合,所述兴
趣点集合中兴趣点名称最长的字符串长度和最短的字符串长度组成字符串
长度范围;

兴趣点名称判断模块406,适于将筛选出的候选文本分词与所述字符串
长度范围对应的兴趣点名称进行比较,以判断所述候选文本分词是否为兴趣
点名称。

在本发明的一种可选实施例中,所述兴趣点名称划分模块401还可以适
于:

将具有相同关键字的一个或多个兴趣点名称划分为同一个兴趣点名称
集合中。

在本发明的一种可选实施例中,所述兴趣点名称划分模块401还可以适
于:

对一个或多个兴趣点名称进行分词处理,获得名称分词;

将所述兴趣点名称中属于首字的名称分词设置为关键字;

将具有相同关键字的一个或多个兴趣点名称划分为同一个兴趣点名称
分类中。

在本发明的一种可选实施例中,所述字符串长度范围统计模块402还可
以适于:

计算在每一个兴趣点名称集合中,所述兴趣点名称的字符串长度;

以最短的字符串长度和最长的字符串长度组成字符串长度范围。

在本发明的一种可选实施例中,所述兴趣点名称词典生成模块403还可
以适于:

针对所述兴趣点名称集合,以所述关键词作为键、以所述字符串长度范
围作为值生成兴趣点名称词典。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较
简单,相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固
有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,
构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定
编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,
并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本
发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未
详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个
或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时
被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开
的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求
中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映
的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循
具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利
要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自
适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以
把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可
以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者
单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴
随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或
者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴
随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相
似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其
它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组
合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权
利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使
用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理
器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当
理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据
本发明实施例的基于字符串长度识别兴趣点名称的设备中的一些或者全部
部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法
的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产
品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具
有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或
者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,
并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换
实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利
要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位
于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可
以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。
在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一
个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。
可将这些单词解释为名称。

一种基于字符长度识别兴趣点名称的方法和装置.pdf_第1页
第1页 / 共17页
一种基于字符长度识别兴趣点名称的方法和装置.pdf_第2页
第2页 / 共17页
一种基于字符长度识别兴趣点名称的方法和装置.pdf_第3页
第3页 / 共17页
点击查看更多>>
资源描述

《一种基于字符长度识别兴趣点名称的方法和装置.pdf》由会员分享,可在线阅读,更多相关《一种基于字符长度识别兴趣点名称的方法和装置.pdf(17页珍藏版)》请在专利查询网上搜索。

本发明实施例提供了一种基于字符串长度识别兴趣点名称的方法和装置,该方法包括:对待识别的文本串进行分词处理,获得文本分词;在所述文本分词中,筛选出在一定字符串长度范围内的候选文本分词;将筛选出的候选文本分词与所述字符串长度范围对应的兴趣点名称进行比较,以判断所述候选文本分词是否为兴趣点名称。本发明实施例大大减少了后续的计算量,从而减少了内存的消耗,有效减缓内存的限制,提高了查找的效率。。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1