商户名称解析方法和装置.pdf

上传人:Y94****206 文档编号:969314 上传时间:2018-03-22 格式:PDF 页数:12 大小:512.70KB
返回 下载 相关 举报
摘要
申请专利号:

CN200810105993.3

申请日:

2008.05.07

公开号:

CN101576874A

公开日:

2009.11.11

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):G06F 17/27公开日:20091111|||实质审查的生效|||公开

IPC分类号:

G06F17/27; G06F17/30

主分类号:

G06F17/27

申请人:

爱帮聚信(北京)信息技术有限公司

发明人:

周利民; 段剑波; 王思锋; 张步峰

地址:

100083北京市海淀区中关村东路8号东升大厦615

优先权:

专利代理机构:

北京同立钧成知识产权代理有限公司

代理人:

吴新银

PDF下载: PDF下载
内容摘要

本发明实施例公开了一种商户名称解析方法和装置,所述商户名称解析方法包括:根据商户词典对获取到的商户名称进行分词;根据分词结果判断所述商户名称是属于单结构还是双结构;根据上述判断的结果对所述商户名称进行单结构解析或双结构解析。本发明实施例通过引入上述的商户名称解析方法和装置,能够计算多个商户名称是否为同一家商户,是否属于同一家连锁商户,是否属于同一家商户的附属商户,并对商户进行准确分类,提高了地址解析的准确度。

权利要求书

1、  一种商户名称解析方法,其特征在于包括:
根据商户词典对获取到的商户名称进行分词;
根据分词结果判断所述商户名称是属于单结构还是双结构;
根据上述判断的结果对所述商户名称进行单结构解析或双结构解析。

2、
  根据权利要求1所述的商户名称解析方法,其特征在于,所述商户词典包括:商户主干词典、商户属性词典、热点商户区域地址词典、商户组织形式词典、商户组织特征词词典、基本词词典和组合词词典。

3、
  根据权利要求1所述的商户名称解析方法,其特征在于,对所述商户名称进行单结构解析具体为:
解析商户名称的行政区划,所述行政区划为省、市、乡三级行政区划;
根据商户主干词典获取商户主干;
根据商户属性词典获取商户属性;
根据商户组织形式词典获取商户组织形式;
将商户名称中无法识别的部分放入商户名称补充。

4、
  根据权利要求3所述的商户名称解析方法,其特征在于,所述根据商户主干词典获取商户主干具体为:
根据商户主干词典通过最长匹配原则获取商户主干和通过最短匹配原则获取最短商户主干,遇到商户属性词或商户组织形式词后停止匹配。

5、
  根据权利要求1所述的商户名称解析方法,其特征在于,所述对所述商户名称进行双结构解析具体为:
解析商户名称的行政区划,所述行政区划为省、市、乡三级行政区划;
根据商户主干词典获取商户主干;
根据商户属性词典获取商户属性;
根据商户组织形式词典获取商户组织形式;
根据商户组织特征词词典和商户组织形式词典,获取商户组织的附属机构的前缀修饰语和商户组织的附属机构;
将商户名称中无法识别的部分放入商户名称补充。

6、
  根据权利要求1-5任一所述的商户名称解析方法,其特征在于,所述商户主干词典的构建过程为:
提取采集的商户数据中满足根-分支模式的数据,将根部分加入商户主干词典,将分支部分加入热点商户区域地址词典;
删除商户主干词典中频率为1的商户主干;
对商户主干词典中的商户主干按照名称相似度进行聚类;
去除商户主干的聚类结果中的噪音;
提取去除噪音后的聚类结果中的商户主干;
删除商户主干词典中小于三个汉字的歧义商户主干。

7、
  根据权利要求1-5任一所述的商户名称解析方法,其特征在于,所述商户属性词典的构建过程为:
根据获取的商户属性词种子构造商户名称解析器;
通过利用所述商户名称解析器解析所述采集的商户数据得到新的商户属性词;
删除新的商户属性词中出现频率不大于10的商户属性词;
若剩余的商户属性词可被加入商户属性词典,则将剩余的商户属性词加入商户属性词典,并将所述剩余的商户属性词加入所述获取的商户属性词种子,并重新根据获取的商户属性词种子构造商户名称解析器;
若剩余的商户属性词不可被加入商户属性词典,则结束操作。

8、
  根据权利要求1-5任一所述的商户名称解析方法,其特征在于,所述商户组织特征词词典的构建过程为:
降序排列商户属性词典中商户属性词的最后一个汉字的概率分布;
获取其中的组织特征词,并加入商户组织特征词词典。

9、
  一种商户名称解析装置,其特征在于包括:
分割模块,用于根据商户词典对获取到的商户名称进行分词;
识别模块,用于根据分词结果判断所述商户名称是属于单结构还是双结构;
解析模块,用于根据上述判断的结果对所述商户名称进行单结构解析或双结构解析。

说明书

商户名称解析方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种商户名称解析方法和装置。
背景技术
随着互联网的日益普及,互联网服务对我们生活中的衣食住用行造成着越来越大的影响。
互联网服务中的本地搜索引擎服务给我们的日常生活带来了很大的便利。在本地搜索引擎服务中,需要采集海量的商户名称进行处理。但是由于互联网以及人们日常生活中对商户名称的表述方式是多种多样的,而且在互联网上对同一商户名称的表述也非常复杂,例如同一商户具有多个商户名称,同一连锁商户的商户名称相似,属于同一商户的附属商户的商户名称相似,给我们处理这些商户名称时带来了很多麻烦。
发明内容
本发明实施例的目的是提供一种商户名称解析方法和装置,能够计算多个商户名称是否为同一家商户,是否属于同一家连锁商户,是否属于同一家商户的附属商户,并对商户进行准确分类。
为实现上述目的,本发明实施例提供了一种,包括:
根据商户词典对获取到的商户名称进行分词;
根据分词结果判断所述商户名称是属于单结构还是双结构;
根据上述判断的结果对所述商户名称进行单结构解析或双结构解析。
本发明实施例还提供了一种商户名称解析装置,包括:
分割模块,用于根据商户词典对获取到的商户名称进行分词;
识别模块,用于根据分词结果判断所述商户名称是属于单结构还是双结构;
解析模块,用于根据上述判断的结果对所述商户名称进行单结构解析或双结构解析。
本发明实施例通过引入上述的商户名称解析方法,能够计算多个商户名称是否为同一家商户,是否属于同一家连锁商户,是否属于同一家商户的附属商户,并对商户进行准确分类,提高了地址解析的准确度。
下面通过附图和实施例,对本发明实施例的技术方案做进一步的详细描述。
附图说明
图1为本发明商户名称解析方法实施例的流程示意图;
图2为本发明商户名称解析装置实施例的结构示意图。
具体实施方式
本发明实施例将商户名称划分为行政区划部分、商户主干部分、商户主干修饰语部分、商户特征部分、商户组织形式部分、商户组织的附属机构的前缀修饰语部分、商户组织的附属机构部分、商户数据补充描述部分和分店地址部分,所述商户主干部分分为商户主干部分和最短商户主干部分。如“翠宫饭店”中,“翠宫”为商户主干,“饭店”为商户特征;“翠宫饭店雨人游泳馆”中,“翠宫”为商户主干,“饭店”为商户特征,“雨人”为商户组织的附属机构的前缀修饰语,“游泳馆”为商户组织的附属机构;“北京易初莲花五道口店”中,“北京”为行政区划,“易初莲花”为商户主干,“五道口店”为商户数据的补充描述,“五道口”为分店地址。
下面结合附图对本实施例作进一步描述。
图1为本发明商户名称解析方法实施例的流程示意图,如图1所示,本实施例具体可以包括以下步骤:
步骤101:根据商户词典对获取到的商户名称进行分词;
其中,获取到的商户名称为采集到的海量商户数据,根据商户词典对获取到的商户名称进行分词即把商户名称分为多个商户词典可识别的词。
所述商户词典可包括商户主干词典、商户属性词典、热点商户区域地址词典、商户组织形式词典、商户组织特征词典、基本词词典和组合词词典。
所述商户主干词典的构建过程具体可以为:
a1、提取采集的商户数据中满足根-分支模式的数据,将根部分加入商户主干词典,将分支部分加入热点商户区域地址词典。
例如:北京易初莲花(五道口店),其中易初莲花为根,五道口为分支部分;
a2、删除商户主干词典中频率为1的商户主干;
a3、对商户主干词典中的商户主干按照名称相似度进行聚类,将名称相似的商户名称聚集到一起。
例如:可以将“九头鸟”和“九头鸟酒家”聚到一起,将“易初莲花”和“易初莲花超市”聚到一起;
a4、将商户主干的聚类结果进行人工核查,去除其中的噪音。
其中的噪音可以包括地址、商户属性等,商户主干里最长的噪音为商户属性和地名,这两种噪音对商户主干的解析结果影响很大,如:“苹果园”,如果没有北京的生活经验,无法知道这是一个地名,直接导致“苹果园大鸭梨烤鸭店”的商户主干解析为“苹果园”;
a5、提取去除噪音后的聚类结果中的商户主干;
提取的原则是在商户主干不少于3个汉字的情况下尽量短,对大型连锁商户可以不遵循这个原则。此处形成的商户主干于主干的聚类时不同,主干的聚类时将多个商户主干聚合成一个商户主干,此处形成商户主干是有多个商户主干聚合而来的;
a6、删除商户主干词典中小于三个汉字的歧义商户主干。
例如:“友谊宾馆”,如果将“友谊”作为商户主干,由于“友谊”本身是中国一个县级市,同时“友谊”本身作为一个商户主干区分度太低,将对商户主干的解析结果造成很大的麻烦。所谓区分度低的意思就是指我们是否能直接根据商户主干联系到商户本身,譬如麦当劳,我们只要一提到麦当劳就知道时家快餐厅。但是我们提到“苹果”,就不知道时指卖电脑的还是卖牛仔裤的。这就说明麦当劳的区分度很高,而苹果的区分度很低。
另外,为了保证商户主干带有一定的区分度,很多商户主干可为“商户主干+商户属性”。譬如“友谊宾馆”、“宝岛眼镜”等,但如果商户主干本身就有很好的区分度,我们可直接使用商户主干,如“伊尔萨”本身就有很好的区分度,无须再使用“伊尔萨洗衣”。
所述商户属性词典的构建过程具体可以为:
b1、根据获取的商户属性词种子构造商户名称解析器。
其中的商户属性词种子可以通过人工整理得到;
b2、利用所述商户名称解析器解析所述采集的商户数据得到新的商户属性词;
b3、删除新的商户属性词中出现频率不大于10的商户属性词;
b4、若剩余的商户属性词可被加入商户属性词典,则将剩余的商户属性词加入商户属性词典,并将所述剩余的商户属性词加入所述获取的商户属性词种子,并重新根据获取的商户属性词种子构造商户名称解析器;
b5、若剩余的商户属性词不可被加入商户属性词典,则结束操作。
商户属性词典的生成是自学习的,在实际应用过程中不断更新。商户属性词典也需要进行人工去噪。
在中华人民共和国企业注册法规中,对商户属性和商户组织形式有严格的界定,如“饭店”,法规认为“饭”为商户属性,“店”为商户的组织形式,“娱乐城”中,“娱乐”为商户属性,“城”为商户的组织形式。但为了解析上的方便,本发明实施例将“饭店”和“娱乐城”均视为商户属性,而将“公司”、“有限公司”和“集团”等非敏感性组织形式视为商户组织形式,但本发明实施例将“店”、“城”视为商户属性中带有组织的特征词,以用于后面单双结构的识别。
所述热点商户区域地址词典、商户组织形式词典可通过人工整理得到,同时也需要对其进行人工排噪。
所述商户组织特征词词典的构建过程具体可以为:
c1、降序排列商户属性词典中商户属性词的最后一个汉字的概率分布;
c2、获取其中的组织特征词,并加入商户组织特征词词典。
所述基本词词典的构造是根据我们获取的分词语料加工而成,这里面的每个词都是原子单位,不可再分。汉语中的单字,我们并不计入基本词。譬如“北京”和“大学”这两个词都是基本词。
所述组合词词典的构造是根据我们获取的分词语料加工而成,这里面的每个词都是有基本词和单字组成。譬如“北京大学”由两个基本词“北京”和“大学”构成,而“北京人”由基本词“北京”和单字“人”构成;
步骤103:根据分词结果判断所述商户名称是否属于单结构商户名称;
其中,如果商户名称以“店”、“分部”、“分公司”等词结尾,则直接判断商户名称为单结构;否则,则遍历所述分词结果,检测其中组织形式的个数,商户主干的个数,商户组织特征词的个数;若商户组织形式的个数或商户主干的个数或商户组织特征词的个数不止一个,则为双结构,否则为单结构;
步骤105:对所述商户名称进行单结构解析;
所述对所述商户名称进行单结构解析具体可以为:
d1、解析商户名称的行政区划,所述行政区划为省、市、乡三级行政区划;
d2、根据商户主干词典获取商户主干。
具体地,可以通过最长匹配原则获取商户主干,通过最短匹配原则获取最短商户主干,遇到商户属性词或商户组织形式词后停止匹配;
d3、根据商户属性词典获取商户属性;
d4、根据商户组织形式词典获取商户组织形式;
d5、将商户名称中无法识别的部分放入商户名称补充;
步骤107:对所述商户名称进行双结构解析;
所述对所述商户名称进行双结构解析具体可以为:
e1、解析商户名称的行政区划,所述行政区划为省、市、乡三级行政区划;
e2、根据商户主干词典获取商户主干。
具体地,可以通过最长匹配原则获取商户主干,通过最短匹配原则获取最短商户主干,最长匹配是尽量长的匹配商户主干,最短匹配是尽量短的匹配商户主干,在无法确定一个词是否属于商户主干时,最长匹配原则认为其为商户主干的一部分,而最短匹配原则将会抛弃,因此最短匹配原则在划分商户名称时,能够覆盖更多的商户。
e3、根据商户属性词典获取商户属性;
e4、根据商户组织形式词典获取商户组织形式;
e5、根据商户组织特征词词典和商户组织形式词典,获取商户组织的附属机构的前缀修饰语和商户组织的附属机构;
e6、将商户名称中无法识别的部分放入商户名称补充。
本发明实施例通过引入上述的商户名称解析方法,能够计算多个商户名称是否为同一家商户,是否属于同一家连锁商户,是否属于同一家商户的附属商户,并对商户进行准确分类,提高了地址解析的准确度。
图2为本发明商户名称解析装置实施例的结构示意图,如图2所示,本实施例可以包括分割模块20、识别模块21和解析模块22。其中,分割模块20用于根据商户词典对获取到的商户名称进行分词;识别模块21用于根据分词结果判断所述商户名称是属于单结构还是双结构;解析模块22用于根据上述判断的结果对所述商户名称进行单结构解析或双结构解析。
本发明实施例通过引入上述的商户名称解析装置,能够计算多个商户名称是否为同一家商户,是否属于同一家连锁商户,是否属于同一家商户的附属商户,并对商户进行准确分类,提高了地址解析的准确度。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

商户名称解析方法和装置.pdf_第1页
第1页 / 共12页
商户名称解析方法和装置.pdf_第2页
第2页 / 共12页
商户名称解析方法和装置.pdf_第3页
第3页 / 共12页
点击查看更多>>
资源描述

《商户名称解析方法和装置.pdf》由会员分享,可在线阅读,更多相关《商户名称解析方法和装置.pdf(12页珍藏版)》请在专利查询网上搜索。

本发明实施例公开了一种商户名称解析方法和装置,所述商户名称解析方法包括:根据商户词典对获取到的商户名称进行分词;根据分词结果判断所述商户名称是属于单结构还是双结构;根据上述判断的结果对所述商户名称进行单结构解析或双结构解析。本发明实施例通过引入上述的商户名称解析方法和装置,能够计算多个商户名称是否为同一家商户,是否属于同一家连锁商户,是否属于同一家商户的附属商户,并对商户进行准确分类,提高了地址解。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1