一种违禁品别名在线自动获取方法及系统.pdf

上传人:32 文档编号:970003 上传时间:2018-03-22 格式:PDF 页数:18 大小:911.58KB
返回 下载 相关 举报
摘要
申请专利号:

CN201010188991.2

申请日:

2010.05.27

公开号:

CN101847242A

公开日:

2010.09.29

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):G06Q 30/00申请公布日:20100929|||实质审查的生效IPC(主分类):G06Q 30/00申请日:20100527|||公开

IPC分类号:

G06Q30/00; G06F17/30

主分类号:

G06Q30/00

申请人:

武汉大学

发明人:

刘娟; 何涛; 李凯

地址:

430072 湖北省武汉市武昌珞珈山

优先权:

专利代理机构:

武汉科皓知识产权代理事务所(特殊普通合伙) 42222

代理人:

张火春

PDF下载: PDF下载
内容摘要

本发明涉及信息抽取技术领域,尤其涉及一种违禁品别名在线自动获取方法及系统。本发明包括语料创建步骤,利用搜索引擎创建语料,该语料含有指定违禁品的多种别名;违禁品别名抽取步骤,从创建的语料中抽取出别名,并利用Google距离对每个抽取的别名给予一定的分值,该分值表示此别名和指定违禁品之间的相关程度。本发明只要人为提供同一个违禁品的两个名称,就可以利用互联网自动获得该违禁品的各种别名,获取的别名召回率高,节约了大量的时间和人力。

权利要求书

1.  一种违禁品别名在线自动获取方法,其特征在于,包括以下步骤:
语料创建步骤,利用搜索引擎创建语料,该语料含有指定违禁品的多种别名,该步骤进一步包括以下子步骤:
①人为提供违禁品名称p1和p2,将“p1”、“p2”分别提交给百度搜索,分别抓取前100条返回结果的网页标题,同时将“p1”“p2”一起提交给百度,抓取前100条返回结果的网页标题及标题下方百度提供的网页内容摘要,将以上所有的抓取内容一起构成为集合Z;
②对集合Z使用下述正则表达式:
″[\\,、-/|,\-\s](([\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]){2,})″
抽取其中所含的特殊格式,然后再次使用下述正则表达式:
″[\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]″
从上一步的结果中抽取候选的违禁品别名,将抽取的候选违禁物品别名放在一起构成集合S;
③对S中的每一个元素q分别计算q和p1,p2的Google距离,选取两个距离中较小的一个做为q的分值,其中Google距离计算公式如下:
GoogleDistance(x,y)=max(logf(x),logf(y))-logf(x,y)logN-min(logf(x),logf(y))]]>
其中f(x)为利用Baidu搜索x所找到的网页篇数,f(y)为利用Baidu搜索y所找到的网页篇数,f(x,y)为利用Baidu搜索x和y所找到的网页篇数,N为Baidu索引的页面篇数,在我们这里近似的取N等于10的10次方;
④从S中选出具有代表性并且和(p1,p2)的相关程度比较高的别名作为种子集合E;
⑤将E中的元素两两组合后分别提交给百度,抓取每次返回结果的前200条标题,将这些标题放在一起构成语料C;
违禁品别名抽取步骤,从创建的语料中抽取出别名,并利用Google距离对每个抽取的别名给予一定的分值,该分值表示此别名和指定违禁品之间的相关程度,该步骤进一步包括以下子步骤:
①使用语料创建步骤中使用的正则表达式从C中抽取出候选别名,构成集合K,从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建步骤中种子集合E的交集组成集合R,作为(p1,p2)的概念代表;
②使用向量法将集合K中的一部分非违禁品别名过滤掉,过滤后的集合记为T;
③计算T中每一个元素和R中所有元素的Google平均距离,将该值作为该元素的分值,公式如下:
score(t)=Σr∈RGoogleDistance(t,r)|R|]]>
分值越低代表该别名和(p1,p2)所表示的违禁品相关程度越高,分值越高则相关程度越低,将T中的元素按照分值排序后输出。

2.
  根据权利要求1所述的违禁品别名在线自动获取方法,其特征在于:
所述语料创建步骤的子步骤④中,按照以下条件从集合S中挑选种子s:
s的分值小于0.4;
s在Z中出现的频次大于1次;
在以上两个限制条件下按语料创建步骤的子步骤③中计算出的分值排序,分值最小的前20个候选别名做为种子集合E。

3.
  根据权利要求1或2所述的违禁品别名在线自动获取方法,其特征在于:
所述违禁品别名抽取步骤的子步骤②中,过滤的具体子步骤包括:
将K中的每一个元素a表示为n维向量(a1…an)的形式,其中n为K中元素的个数;
从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建步骤中种子集合E的交集组成集合R,作为(p1,p2)的概念代表;
如果K中某一元素的向量和R中每一个元素的向量内积结果都为0,则将该元素过滤掉。

4.
  一种违禁品别名在线自动获取系统,其特征在于,包括:
语料创建模块,用于利用搜索引擎创建语料,该语料含有指定违禁品的多种别名,该模块进一步包括以下子模块:
第一子模块:人为提供违禁品名称p1和p2,将“p1”、“p2”分别提交给百度搜索,分别抓取前100条返回结果的网页标题,同时将“p1”“p2”一起提交给百度,抓取前100条返回结果的网页标题及标题下方百度提供的网页内容摘要,将以上所有的抓取内容一起构成为集合Z;
第二子模块:对集合Z使用下述正则表达式:
″[\\,、-/|,\-\s](([\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]){2,})″
抽取其中所含的特殊格式,然后再次使用下述正则表达式:
″[\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]″
从上一步的结果中抽取候选的违禁品别名,将抽取的候选违禁物品别名放在一起构成集合S;
第三子模块:对S中的每一个元素q分别计算q和p1,p2的Google距离,选取两个距离中较小的一个做为q的分值,其中Google距离计算公式如下:
GoogleDistance(x,y)=max(logf(x),logf(y))-logf(x,y)logN-min(logf(x),logf(y))]]>
其中f(x)为利用Baidu搜索x所找到的网页篇数,f(y)为利用Baidu搜索y所找到的网页篇数,f(x,y)为利用Baidu搜索x和y所找到的网页篇数,N为Baidu索引的页面篇数,在我们这里近似的取N等于10的10次方;
第四子模块:从S中选出具有代表性并且和(p1,p2)的相关程度比较高的别名作为种子集合E;
第五子模块:将E中的元素两两组合后分别提交给百度,抓取每次返回结果的前200条标题,将这些标题放在一起构成语料C;
违禁品别名抽取模块,用于从创建的语料中抽取出别名,并利用Google距离对每个抽取的别名给予一定的分值,该分值表示此别名和指定违禁品之间的相关程度,该模块进一步包括以下子模块:
第一子模块:使用语料创建模块中使用的正则表达式从C中抽取出候选别名,构成集合K,从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建模块中种子集合E的交集组成集合R,作为(p1,p2)的概念代表;
第二子模块:使用向量法将集合K中的一部分非违禁品别名过滤掉,过滤后的集合记为T;
第三子模块:计算T中每一个元素和R中所有元素的Google平均距离,将该值作为该元素的分值,公式如下:
score(t)=Σr∈RGoogleDistance(t,r)|R|]]>
分值越低代表该别名和(p1,p2)所表示的违禁品相关程度越高,分值越高则相关程度越低,将T中的元素按照分值排序后输出。

5.
  根据权利要求4所述的违禁品别名在线自动获取系统,其特征在于:
所述语料创建模块的第四子模块中,按照以下条件从集合S中挑选种子s:
s的分值小于0.4;
s在Z中出现的频次大于1次;
在以上两个限制条件下,按照语料创建模块的第三子模块中计算出的分值排序,分值最小的前20个候选别名做为种子集合E。

6.
  根据权利要求4或5所述的违禁品别名在线自动获取系统,其特征在于:
所述违禁品别名抽取模块的第二子模块中,过滤的具体子模块包括:
子模块A:将K中的每一个元素a表示为n维向量(a1…an)的形式,其中n为K中元素的个数;
子模块B:从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建模块中种子集合E的交集组成集合R,作为(p1,p2)的概念代表;
子模块C:如果K中某一元素的向量和R中每一个元素的向量内积结果都为0,则将该元素过滤掉。

说明书

一种违禁品别名在线自动获取方法及系统
技术领域
本发明涉及信息抽取技术领域,尤其涉及一种违禁品别名在线自动获取方法及系统。
背景技术
随着互联网的普及,越来越多的网上贸易市场平台出现在互联网上,在带来便利的同时也出现了在市场平台上出售违禁物品的现象。平台的管理者要防止这一现象的发生,通常的做法是建立一张违禁物品的名称列表,当商品出售者发布的商品名称和列表中的名称相同时,判断该商品为违禁品。
违禁品的出售者为了逃避管理者的审查,常用的方法是修改发布的违禁物品名称,将其改为管理者的列表中所没有的违禁物品别名,从而逃避审查。所以管理者要有效的对违禁物品进行管理,就需要获得违禁物品名称的别名。但是违禁物品的别名多种多样,一方面每一种违禁物品都有许多现存的别名,另一方面随着时间的推移会有新的别名出现,用人工的方法收集违禁物品别名费时费力。
发明内容
为了克服上述人工收集违禁物品别名费时费力的不足,本发明的目的是提供一种违禁品别名在线自动获取方法及系统,利用搜索引擎自动获取违禁物品别名。
为达到上述目的,本发明采用如下的技术方案:
一种违禁品别名在线自动获取方法,包括:
语料创建步骤,利用搜索引擎创建语料,该语料含有指定违禁品的多种别名,该步骤进一步包括以下子步骤:
①人为提供违禁品名称p1和p2,将“p1”、“p2”分别提交给百度搜索,分别抓取前100条返回结果的网页标题,同时将“p1”“p2”一起提交给百度,抓取前100条返回结果的网页标题及标题下方百度提供的网页内容摘要,将以上所有的抓取内容一起构成为集合Z;
②对集合Z使用下述正则表达式:
″[\\,、-/|,\-\s](([\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]){2,})″
抽取其中所含的特殊格式,然后再次使用下述正则表达式:
″[\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]″
从上一步的结果中抽取候选的违禁品别名,将抽取的候选违禁物品别名放在一起构成集合S;
③对S中的每一个元素q分别计算q和p1,p2的Google距离,选取两个距离中较小的一个做为q的分值,其中Google距离计算公式如下:
GoogleDistance(x,y)=max(logf(x),logf(y))-logf(x,y)logN-min(logf(x),logf(y))]]>
其中f(x)为利用Baidu搜索x所找到的网页篇数,f(y)为利用Baidu搜索y所找到的网页篇数,f(x,y)为利用Baidu搜索x和y所找到的网页篇数,N为Baidu索引的页面篇数,在我们这里近似的取N等于10的10次方;
④从S中选出具有代表性并且和(p1,p2)的相关程度比较高的别名作为种子集合E;
⑤将E中的元素两两组合后分别提交给百度,抓取每次返回结果的前200条标题,将这些标题放在一起构成语料C;
违禁品别名抽取步骤,从创建的语料中抽取出别名,并利用Google距离对每个抽取的别名给予一定的分值,该分值表示此别名和指定违禁品之间的相关程度,该步骤进一步包括以下子步骤:
①使用语料创建步骤中使用的正则表达式从C中抽取出候选别名,构成集合K,从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建步骤中种子集合E的交集组成集合R,作为(p1,p2)的概念代表;
②使用向量法将集合K中的一部分非违禁品别名过滤掉,过滤后的集合记为T;
③计算T中每一个元素和R中所有元素的Google平均距离,将该值作为该元素的分值,公式如下:
score(t)=Σr∈RGoogleDistance(t,r)|R|]]>
分值越低代表该别名和(p1,p2)所表示的违禁品相关程度越高,分值越高则相关程度越低,将T中的元素按照分值排序后输出。
所述语料创建步骤的子步骤④中,按照以下条件从集合S中挑选种子s:
s的分值小于0.4;
s在Z中出现的频次大于1次;
在以上两个限制条件下按语料创建步骤的子步骤③中计算出的分值排序,分值最小的前20个候选别名做为种子集合E。
所述违禁品别名抽取步骤的子步骤②中,过滤的具体子步骤包括:
将K中的每一个元素a表示为n维向量(a1…an)的形式,其中n为K中元素的个数;
从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建模块中种子集合E的交集组成集合R,作为(p1,p2)的概念代表;
如果K中某一元素的向量和R中每一个元素的向量内积结果都为0,则将该元素过滤掉。
一种违禁品别名在线自动获取系统,包括:
语料创建模块,用于利用搜索引擎创建语料,该语料含有指定违禁品的多种别名,该模块进一步包括以下子模块:
第一子模块:人为提供违禁品名称p1和p2,将“p1”、“p2”分别提交给百度搜索,分别抓取前100条返回结果的网页标题,同时将“p1”“p2”一起提交给百度,抓取前100条返回结果的网页标题及标题下方百度提供的网页内容摘要,将以上所有的抓取内容一起构成为集合Z;
第二子模块:对集合Z使用下述正则表达式:
″[\\,、-/|,\-\s](([\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]){2,})″
抽取其中所含的特殊格式,然后再次使用下述正则表达式:
″[\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]″
从上一步的结果中抽取候选的违禁品别名,将抽取的候选违禁物品别名放在一起构成集合S;
第三子模块:对S中的每一个元素q分别计算q和p1,p2的Google距离,选取两个距离中较小的一个做为q的分值,其中Google距离计算公式如下:
GoogleDistance(x,y)=max(logf(x),logf(y))-logf(x,y)logN-min(logf(x),logf(y))]]>
其中f(x)为利用Baidu搜索x所找到的网页篇数,f(y)为利用Baidu搜索y所找到的网页篇数,f(x,y)为利用Baidu搜索x和y所找到的网页篇数,N为Baidu索引的页面篇数,在我们这里近似的取N等于10的10次方;
第四子模块:从S中选出具有代表性并且和(p1,p2)的相关程度比较高的别名作为种子集合E;
第五子模块:将E中的元素两两组合后分别提交给百度,抓取每次返回结果的前200条标题,将这些标题放在一起构成语料C;
违禁品别名抽取模块,用于从创建的语料中抽取出别名,并利用Google距离对每个抽取的别名给予一定的分值,该分值表示此别名和指定违禁品之间的相关程度,该模块进一步包括以下子模块:
第一子模块:使用语料创建模块中使用的正则表达式从C中抽取出候选别名,构成集合K,从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建模块中种子集合E的交集组成集合R,作为(p1,p2)的概念代表;
第二子模块:使用向量法将集合K中的一部分非违禁品别名过滤掉,过滤后的集合记为T;
第三子模块:计算T中每一个元素和R中所有元素的Google平均距离,将该值作为该元素的分值,公式如下:
score(t)=Σr∈RGoogleDistance(t,r)|R|]]>
分值越低代表该别名和(p1,p2)所表示的违禁品相关程度越高,分值越高则相关程度越低,将T中的元素按照分值排序后输出。
所述语料创建模块的第四子模块中,按照以下条件从集合S中挑选种子s:
s的分值小于0.4;
s在Z中出现的频次大于1次;
在以上两个限制条件下,按照语料创建模块的第三子模块中计算出的分值排序,分值最小的前20个候选别名做为种子集合E。
所述违禁品别名抽取模块的第二子模块中,过滤的具体子模块包括:
子模块A:将K中的每一个元素a表示为n维向量(a1…an)的形式,其中n为K中元素的个数;
子模块B:从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建模块中种子集合E的交集组成集合R,作为(p1,p2)的概念代表;
子模块C:如果K中某一元素的向量和R中每一个元素的向量内积结果都为0,则将该元素过滤掉。
本发明具有以下优点和积极效果:
只要人为提供同一个违禁品的两个名称,就可以利用互联网自动获得该违禁品的各种别名,获取的别名召回率高,节约了大量的时间和人力。
附图说明
图1是本发明提供的违禁品别名在线自动获取方法的整体流程图。
图2是本发明提供的违禁品别名在线自动获取方法中语料创建的流程图。
图3是本发明提供的违禁品别名在线自动获取方法中违禁品别名抽取的流程图。
具体实施方式
违禁品的出售者为了提高被搜索引擎检索到的机会,会在出售违禁品的网页标题中放入一定数目的违禁品别名,此现象就给我们提供了一种解决问题的方法。
本发明提供的违禁品别名在线自动获取方法,包括语料创建、违禁品别名抽取两个步骤,其中:
语料创建步骤,利用搜索引擎创建语料,该语料含有指定违禁品的多种别名。向搜索引擎提交人为提供的两个违禁品别名的组合,在搜索引擎的返回结果中存在一些出售该违禁品的网站,此类网站的标题一般具有一定的特殊格式,利用这种特殊格式可以从中抽取出一定量的候选违禁品别名。为了过滤掉候选违禁品别名中与违禁品不相关的词条,选出具有代表性的违禁品别名,我们使用Google距离和频次信息作为衡量候选违禁品别名和违禁品相关程度的标准,使用该标准选出一些具有代表性的违禁品别名作为种子集合。种子集合中的元素两两组合后提交给搜索引擎,搜索引擎的返回结果放在一起构成语料。
违禁品别名抽取步骤,从创建的语料中抽取出别名,并利用Google距离对每个抽取的别名给予一定的分值,该分值表示此别名和指定违禁品之间的相关程度。利用商品出售网站标题的特殊格式从上一步创建的语料中抽取出候选别名,从中选出和违禁品最相关的一些别名作为该违禁品的概念代表集合。为了减少计算量,使用向量法利用概念代表集合对候选违禁品别名进行过滤,过滤掉和违禁品不相关的候选别名。对余下的候选别名计算其和违禁品概念代表集合的平均Google距离,将最后的结果按计算的平均Google距离排序后输出。
其中,语料创建步骤,包括以下子步骤:
1、人为提供违禁品名称p1和p2,将“p1”、“p2”分别提交给百度搜索,分别抓取前100条返回结果的网页标题,同时将“p1”“p2”一起提交给百度,抓取前100条返回结果的网页标题及标题下方百度提供的网页内容摘要,将以上所有的抓取内容一起构成为集合Z;
2、对集合Z使用下述正则表达式:
″[\\,、-/|,\-\s](([\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]){2,})″
抽取其中所含的特殊格式,然后再次使用下述正则表达式:
″[\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]″
从上一步的结果中抽取候选的违禁品别名,将抽取的候选违禁物品别名放在一起构成集合S;
3、对S中的每一个元素q分别计算q和p1,p2的Google距离,选取两个距离中较小的一个做为q的分值,其中Google距离计算公式如下:
GoogleDistance(x,y)=max(logf(x),logf(y))-logf(x,y)logN-min(logf(x),logf(y))]]>
其中f(x)为利用Baidu搜索x所找到的网页篇数,f(y)为利用Baidu搜索y所找到的网页篇数,f(x,y)为利用Baidu搜索x和y所找到的网页篇数,N为Baidu索引的页面篇数,在我们这里近似的取N等于10的10次方。
4、从S中选出具有代表性并且和(p1,p2)的相关程度比较高的别名作为种子集合E。
5、将E中的元素两两组合后分别提交给百度,抓取每次返回结果的前200条标题,将这些标题放在一起构成语料C。
其中,违禁品别名抽取步骤,包括以下子步骤:
1、使用语料创建步骤中使用的正则表达式从C中抽取出候选别名,构成集合K。
2、从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建模块中种子集合E的交集组成集合R,作为(p1,p2)的概念代表。使用向量法将集合K中的一部分非违禁品别名过滤掉,过滤后的集合记为T。
3、计算T中每一个元素和R中所有元素的Google平均距离,将该值作为该元素的分值,公式如下:
score(t)=Σr∈RGoogleDistance(t,r)|R|]]>
分值越低代表该别名和(p1,p2)所表示的违禁品相关程度越高,分值越高则相关程度越低,将T中的元素按照分值排序后输出。
参见图1所示的违禁品别名在线自动获取方法的整体流程图,下面结合具体实施例来描述:
先将人为提供的同一违禁品的两个名称(p1,p2)提交给搜索引擎,比如p1=“铁拳套”,p2=“手扣”;在搜索引擎返回的结果中会存在一些出售该类违禁品的网站,比如“特价合金手扣/铁四指/铁拳套-8mm金色版拳套-xiang1233-…”;其标题会含有一定数目的违禁品别名,比如上例中就出现了“铁四指”这个违禁品别名;而且这类网站的标题格式通常比较特别,比如上例中的格式为“别名1/别名2/别名3”,类似的特殊格式还有许多,为了抽取出他们,我们使用了一个正则表达式[\\,、-/|,\-\s](([\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]){2,})″来概括这类格式。只要把这些别名抽取出来,并使用一些方法对其是否为违禁品别名的可能性作出判断即可,但是这样获得的违禁品别名数目相对而言还比较少,不利于保障违禁品别名的召回率和进行数据分析,所以需要对p1,p2的搜索结果进行扩充,构建一个包含更多违禁品别名的语料C。
首先利用正则表达式将搜索(p1,p2)返回结果中可能的违禁品别名抽取出来,然后根据频次信息和Google距离从中选取有代表性的违禁品别名,将这些有代表性的违禁品别名放在一起构成种子集合E,最后将种子集合E中的别名两两组合后提交给搜索引擎,搜索引擎的返回结果全部放在一起构建成最终的语料C,在C中包含许多指定违禁品的别名。
违禁品别名抽取步骤用于从语料创建步骤创建的语料C中抽取违禁品别名并对每一个别名给予一定的分值,该分值表示此别名和(p1,p2)所表示的违禁品的相关程度。
因为C是围绕(p1,p2)构建的,所以C中出现次数最多的几个候选别名可以很好的描述(p1,p2)所代表的违禁品概念,选出在C中出现频次最高的10个别名中同时出现在种子集合E中的元素构成集合R。首先利用正则表达式从C中抽取候选违禁品别名,然后使用候选违禁品别名的向量特征和集合R过滤掉其中一部分非违禁品别名以减少计算量,最后计算过滤后余下的每一个候选别名和R中元素的平均Google距离,将这一数值作为该候选别名的分值。分值越低代表该别名和(p1,p2)所表示的违禁品的相关程度越高,分值越高则该别名和(p1,p2)所表示的违禁品的相关程度越低。
参见图2所示的语料创建模块的流程图,具体实施步骤如下:
1、人为提供违禁品名称p1和p2,比如p1=“铁拳刺”,p2=“铁四指”;将“p1”提交给百度,抓取前100条返回结果的网页标题。将“p2”提交给百度,抓取前100条返回结果的网页标题。将“p1”“p2”一起提交给百度,抓取前100条返回结果的网页标题及标题下方百度提供的网页内容摘要,将以上所有的抓取内容放在一起构成为集合Z。
2、对集合Z使用正则表达式:
″[\\,、-/|,\-\s](([\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]){2,})″
抽取其中所含的特殊格式,比如“铁拳刺\骷髅铁拳套\铁拳头\铁四指”;
然后再次使用正则表达式:
″[\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]″
从上一步的结果中抽取候选的违禁品别名,比如从“铁拳刺\骷髅铁拳套\铁拳头\铁四指”中抽取出““铁拳刺”,“骷髅铁拳套”,“铁拳头”,“铁四指”,将抽取的候选违禁物品别名放在一起构成集合S。
3、对S中的每一个元素q分别计算q和p1,p2的Google距离,选取两个距离中较小的一个做为q的分值。
2007年RL Cilibrasi等人提出的Google距离计算公式如下:
GoogleDistance(x,y)=max(logf(x),logf(y))-logf(x,y)logN-min(logf(x),logf(y))]]>
其中f(x)为利用Baidu搜索x所找到的网页篇数,f(y)为利用Baidu搜索y所找到的网页篇数,f(x,y)为利用Baidu搜索x和y所找到的网页篇数,N为Baidu索引的页面篇数,在我们这里近似的取N等于10的10次方。
4、从S中挑选种子s,用于在下一步中构建语料C,所以s应该具备有代表性并且和(p1,p2)的相关程度比较高这两个条件,在这里我们按照以下条件从S中挑选种子s:
①s的分值小于0.4,之所以使用这个条件是因为Google距离从某种程度上能够反映两个词之间的相关程度,这样有助于提高种子集合中元素和(p1,p2)的相关度;
②s在Z中出现的频次大于1次,之所以使用这个条件是因为种子集合的元素应该具备一定的代表性,仅仅出现一次很可能过于特殊,这样可以保证由S构造的语料C中违禁物品别名的召回率比较高;
③在以上两个限制条件下按步骤3中计算出的分值排序,分值最小的前20个候选别名做为种子集合E。
5、将E中的元素两两组合后分别提交给百度,比如E={a1,a2,a3},那么将a1,a2放在一起,向搜索引擎提交“a1 a2”,同样将a1,a3放在一起,向搜索引擎提交“a1 a3”,将a2,a3放在一起,向搜索引擎提交“a2 a3”;抓取每次返回结果的前200条标题,将这些标题放在一起构成语料C。
参见图3所示的违禁品别名抽取模块的流程图,具体实施步骤如下:
1、对集合C使用正则表达式:
″[\\,、-/|,\-\s](([\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]){2,})″
抽取其中所含的特殊格式,比如“指虎\铁手扣\铁拳头\铁四指”;
然后再次使用正则表达式:
”[\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]″
从上一步的结果中抽取候选的违禁品别名,比如从“指虎\铁手扣\铁拳头\铁四指”中抽取出““指虎”,“铁手扣”,“铁拳头”,“铁四指””,将抽取的候选违禁物品别名放在一起构成集合K。
2、集合K中的元素数目一般比较大,直接进行接下来步骤代价过高。为了提高效率,有必要先将集合K中的一部分非违禁品别名过滤掉,过滤后的集合记为T,过滤的具体步骤如下:
①将K中的每一个元素a表示为n维向量(a1…an)的形式,其中n为K中元素的个数。
预先对K中的元素制定一个顺序,ai为a和第i个元素在C中的所有标题内的同现次数之和。比如假设C={“出售手扣,拳套”,“铁四指/手扣专卖”},K={“手扣”,“铁四指”,“拳套”},预先制定的顺序为“手扣拳套铁四指”,那么手扣的向量表示为(2,1,1),铁四指的向量表示为(1,0,1),拳套的向量表示为(1,1,0)。
②因为C是围绕(p1,p2)构建的,所以C中出现次数最多的几个候选别名可以很好的描述(p1,p2)所代表的违禁品概念。从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建模块中种子集合E的交集组成集合R,作为(p1,p2)的概念代表。
③如果K中某一元素的向量和R中每一个元素的向量内积结果都为0,则将该元素过滤掉。
3、计算T中每一个元素和R中所有元素的Google平均距离,将该值作为该元素的分值,公式如下:
score(t)=Σr∈RGoogleDistance(t,r)|R|]]>
分值越低代表该别名和(p1,p2)所表示的违禁品相关程度越高,分值越高则相关程度越低,将T中的元素按照分值排序后输出。
本发明同时提供一种违禁品别名在线自动获取系统,包括:
语料创建模块,用于利用搜索引擎创建语料,该语料含有指定违禁品的多种别名,该模块进一步包括以下子模块:
第一子模块:人为提供违禁品名称p1和p2,将“p1”、“p2”分别提交给百度搜索,分别抓取前100条返回结果的网页标题,同时将“p1”“p2”一起提交给百度,抓取前100条返回结果的网页标题及标题下方百度提供的网页内容摘要,将以上所有的抓取内容一起构成为集合Z;
第二子模块:对集合Z使用下述正则表达式:
″[\\,、-/|,\-\s](([\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]){2,})″
抽取其中所含的特殊格式,然后再次使用下述正则表达式:
″[\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]″
从上一步的结果中抽取候选的违禁品别名,将抽取的候选违禁物品别名放在一起构成集合S;
第三子模块:对S中的每一个元素q分别计算q和p1,p2的Google距离,选取两个距离中较小的一个做为q的分值,其中Google距离计算公式如下:
GoogleDistance(x,y)=max(logf(x),logf(y))-logf(x,y)logN-min(logf(x),logf(y))]]>
其中f(x)为利用Baidu搜索x所找到的网页篇数,f(y)为利用Baidu搜索y所找到的网页篇数,f(x,y)为利用Baidu搜索x和y所找到的网页篇数,N为Baidu索引的页面篇数,在我们这里近似的取N等于10的10次方;
第四子模块:从S中选出具有代表性并且和(p1,p2)的相关程度比较高的别名作为种子集合E;
第五子模块:将E中的元素两两组合后分别提交给百度,抓取每次返回结果的前200条标题,将这些标题放在一起构成语料C;
违禁品别名抽取模块,用于从创建的语料中抽取出别名,并利用Google距离对每个抽取的别名给予一定的分值,该分值表示此别名和指定违禁品之间的相关程度,该模块进一步包括以下子模块:
第一子模块:使用语料创建模块中使用的正则表达式从C中抽取出候选别名,构成集合K,从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建模块中种子集合E的交集组成集合R,作为(p1,p2)的概念代表。
第二子模块:使用向量法将集合K中的一部分非违禁品别名过滤掉,过滤后的集合记为T;
第三子模块:计算T中每一个元素和R中所有元素的Google平均距离,将该值作为该元素的分值,公式如下:
score(t)=Σr∈RGoogleDistance(t,r)|R|]]>
分值越低代表该别名和(p1,p2)所表示的违禁品相关程度越高,分值越高则相关程度越低,将T中的元素按照分值排序后输出。
所述语料创建模块的第四子模块中,按照以下条件从集合S中挑选种子s:
s的分值小于0.4;
s在Z中出现的频次大于1次;
在以上两个限制条件下,按照语料创建模块的第三子模块中计算出的分值排序,分值最小的前20个候选别名做为种子集合E。
所述违禁品别名抽取模块的第二子模块中,过滤的具体子模块包括:
子模块A:将K中的每一个元素a表示为n维向量(a1…an)的形式,其中n为K中元素的个数;
子模块B:从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建模块中种子集合E的交集组成集合R,作为(p1,p2)的概念代表;
子模块C:如果K中某一元素的向量和R中每一个元素的向量内积结果都为0,则将该元素过滤掉。
本发明提供的方法中所采用的正则表达式,属于本领域公知的技术手段,为了便于理解本发明,下面对正则表达式予以简要介绍:
在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。正则表达式由一些普通字符和一些元字符组成,普通字符包括大小写的字母和数字,而元字符则具有特殊的含义,我们下面会给予解释。
在最简单的情况下,一个正则表达式看上去就是一个普通的查找串。正确的理解元字符是最重要的事情,下表列出了所有的元字符和对它们的一个简短的描述。

  .点匹配任何单个字符。例如正则表达式r.t匹配这些字符串:rat、rut、rt,但是不匹配root。  $匹配行结束符。例如正则表达式weasel$能够匹配字符串″He′s a weasel″的末尾,但是不能匹配字符串″They are a bunch ofweasels.″。  ^匹配一行的开始。例如正则表达式^When in能够匹配字符串″When in the courseof human events″的开始,但是不能匹配″What and When in the″。  *匹配0或多个正好在它之前的那个字符。例如正则表达式.*意味着能够匹配任意数量的任何字符。  \这是引用符,用来将这里列出的这些元字符当作普通的字符来进行匹配。例如正则表达式\$被用来匹配美元符号,而不是行尾,类似的,正则表达式\.用来匹配点字符,而不是任何字符的通配符。  []  [c1-c2]  [^c1-c2]匹配括号中的任何一个字符。例如正则表达式r[aou]t匹配rat、rot和rut,但是不匹配ret。可以在括号中使用连字符-来指定字符的区间,例如正则表达式[0-9]可以匹配任何数字字符;还可以制定多个区间,例如正则表达式[A-Za-z]可以匹配任何大小写字母。另一个重要的用法是“排除”,要想匹配除了指定区间之外的字符——也就是所谓的补集——在左边的括号和第一个字符之间使用^字符,例如正则表达式[^269A-Z]将匹配除了2、6、9和所有大写字母之外的任何字符。

  .点匹配任何单个字符。例如正则表达式r.t匹配这些字符串:rat、rut、rt,但是不匹配root。  \<\>匹配词(word)的开始(\<)和结束(\>)。例如正则表达式\<the能够匹配字符串″for the wise″中的″the″,但是不能匹配字符串″otherwise″中的″the″。注意:这个元字符不是所有的软件都支持的。  \(\)将\(和\)之间的表达式定义为“组”(group),并且将匹配这个表达式的字符保存到一个临时区域(一个正则表达式中最多可以保存9个),它们可以用\1到\9的符号来引用。  |将两个匹配条件进行逻辑“或”(Or)运算。例如正则表达式(him|her)匹配″itbelongs to him″和″it belongs to her″,但是不能匹配″it belongs to them.″。注意:这个元字符不是所有的软件都支持的。  +匹配1或多个正好在它之前的那个字符。例如正则表达式9+匹配9、99、999等。注意:这个元字符不是所有的软件都支持的。  ?匹配0或1个正好在它之前的那个字符。注意:这个元字符不是所有的软件都支持的。  \{i\}  \{i,j\}匹配指定数目的字符,这些字符是在它之前的表达式定义的。例如正则表达式A[0-9]\{3\}能够匹配字符″A″后面跟着正好3个数字字符的串,例如A123、A348等,但是不匹配A1234。而正则表达式[0-9]\{4,6\}匹配连续的任意4个、5个或者6个数字字符。注意:这个元字符不是所有的软件都支持的。

一种违禁品别名在线自动获取方法及系统.pdf_第1页
第1页 / 共18页
一种违禁品别名在线自动获取方法及系统.pdf_第2页
第2页 / 共18页
一种违禁品别名在线自动获取方法及系统.pdf_第3页
第3页 / 共18页
点击查看更多>>
资源描述

《一种违禁品别名在线自动获取方法及系统.pdf》由会员分享,可在线阅读,更多相关《一种违禁品别名在线自动获取方法及系统.pdf(18页珍藏版)》请在专利查询网上搜索。

本发明涉及信息抽取技术领域,尤其涉及一种违禁品别名在线自动获取方法及系统。本发明包括语料创建步骤,利用搜索引擎创建语料,该语料含有指定违禁品的多种别名;违禁品别名抽取步骤,从创建的语料中抽取出别名,并利用Google距离对每个抽取的别名给予一定的分值,该分值表示此别名和指定违禁品之间的相关程度。本发明只要人为提供同一个违禁品的两个名称,就可以利用互联网自动获得该违禁品的各种别名,获取的别名召回率高。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1