一种基于搜索策略的多主题信息采集方法.pdf

上传人:1520****312 文档编号:6186722 上传时间:2019-05-18 格式:PDF 页数:12 大小:717.13KB
返回 下载 相关 举报
摘要
申请专利号:

CN201310677257.6

申请日:

2013.12.13

公开号:

CN103617286A

公开日:

2014.03.05

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||专利申请权的转移IPC(主分类):G06F 17/30登记生效日:20161122变更事项:申请人变更前权利人:仲兆满变更后权利人:淮海工学院变更事项:地址变更前权利人:222000 江苏省连云港市新浦区苍梧路59号淮海工学院计算机学院仲兆满转变更后权利人:222000 江苏省连云港市海州区苍梧路59号淮海工学院计算机学院仲兆满转|||实质审查的生效IPC(主分类):G06F 17/30申请日:20131213|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

仲兆满

发明人:

仲兆满; 李存华; 管燕

地址:

222000 江苏省连云港市新浦区苍梧路59号淮海工学院计算机学院仲兆满转

优先权:

专利代理机构:

连云港润知专利代理事务所 32255

代理人:

刘喜莲

PDF下载: PDF下载
内容摘要

本发明是一种基于搜索策略的多主题信息采集方法,其步骤如下:(1)将主题规则集拆分成原子规则集;(2)判定原子规则集中原子规则的关系;(3)将原子规则集调度到内置搜索队列、通用搜索队列;(4)用和中的原子规则进行搜索采集。本发明方法针对多主题信息采集效率低下的问题,提出将主题的规则拆分成原子规则,并利用原子规则间的相同、互换、包含三种关系达到减少在互联网上搜索采集次数的目的,提高了多主题信息采集的性能。

权利要求书

权利要求书
1.  一种基于搜索策略的多主题信息采集方法,其特征在于:其具体步骤如下:
A、将主题规则集                                               拆分成原子规则集;
B、判定原子规则集中原子规则的关系;
C、将原子规则集分配到内置搜索队列、通用搜索队列;
D、用和中的原子规则进行搜索采集;
步骤A中所述的将主题规则集拆分成原子规则集,其具体步骤如下:
A1、依次从中取出每条主题规则,置空;
A2、判段中是否包含“+”关系;如果包含,则转步骤A3;否则,,转步骤A5;
A3、判断中是否存在“与”分配律。

2.  如果存在个(),循环执行次“与”分配律运算,得到;否则,=,转步骤A4;
A4、依据“+”关系将切分成条原子规则,将条原子规则放入,转步骤A5;
A5、得到原子规则集;
步骤(C)中所述的将原子规则集分配到内置搜索队列、通用搜索队列,其具体步骤如下:
C1、遍历中所有原子规则,没有关系的原子规则直接分别放入、;如果原子规则有关系,记有关系的原子规则集为,转步骤C2;否则,转步骤C6;
C2、从取出一条原子规则,判断它与其他原子规则之间的关系;如果两条原子规则,选或分别放入、,转步骤C5;否则,转步骤C3;
C3、如果,选或放入,选和放入,转步骤C5;否则转步骤C4;
C4、如,选放入,选和放入,转步骤C5;
C5、判断中的原子规则是否全部分配完毕,完成转步骤C6;否则,转步骤C2;
C6、得到内置搜索队列和通用搜索队列。

说明书

说明书一种基于搜索策略的多主题信息采集方法
技术领域
 本发明涉及一种信息采集技术,具体地说,涉及一种基于搜索策略的多主题信息采集方法。
背景技术
主题信息采集是指有选择性地采集那些与预先定义好的主题相关信息的行为。主题信息采集面对的是特定的行业用户,采集的信息只限定于特定的主题。按照采集主题的范围和规模,可以分为广泛主题采集和具体主题采集。广泛主题指那些涵盖面较宽,并且和其他主题相比有较强的独立性的一类主题。广泛主题采集也称作领域信息采集。用户在采集这类主题时,往往并没有太具体的要求。这类信息采集往往采集到的信息数量较多,为了达到较高的召回率,在进行信息过滤的时候所设定的阈值较低、限制较宽。比如,“交通事故”、“自然灾害”、“地震”、“火灾”等都是广泛主题的例子。简而言之,广泛主题缺乏具体的要素约束,比如时间、地点、参与对象等约束要素,因而它获取的内容比较杂乱,采集内容与主题的平均相关度也较低。
具体主题涵盖面较窄,因此意义也比较明确,采集信息的规模也较小。这类采集一般可直接服务于用户,是目前最主要的主题信息采集模式,为此,它在进行信息过滤的时候所设定的阈值较高、限制较严。比如,“2008年汶川地震”、“美国斯诺登事件”、“3.15动车事故”、“2008金融危机”、“2012台湾选举”等都是具体主题的例子。这类主题由于有明确的约束要素,使得采集到的信息与主题的平均相关度较高。
申请号为200810223523.7的现有技术提出了一种面向主题的信息采集方法,该方法首先根据待采集链接队列中链接的顺序,从所述待采集链接队列中获得多个链接,采集并存储所述多个链接的页面内容,提取所述页面中的新链接,判定所述页面的主题相关性,提取所述页面的相关链接集合,将所述新链接添加到所述待采集链接队列中;而后,根据所述页面的相关链接集合和所述页面的主题相关性,计算所有链接的页面的主题相关性,并调整添加了所述新链接的待采集链接队列中的链接的顺序,重复上述两步直至采集结束。
在2002年德国出版的会议论文集:2002年第六届欧洲数字图书馆研究和高级技术会议(Proceedings of 2002 Conference of the European Conference on Research and Advanced Technology for Digital Libraries),题目为:主题采集、隧道和数字图书馆(Focused crawls, tunneling, and digital libraries),作者是:D. Bergmark, C. Lagoze, and A. Sbityakov,该文提出了基于关键字的主题信息采集方法,没有考虑关键字之间的“与”、“或”关系。
在2012年中国出版的期刊:情报学报,题目为:一种基于局部分析面向事件的查询扩展方法,作者是:仲兆满,朱平,李存华,管燕,刘宗田,该文针对事件检索问题,讨论了事件要素之间的约束关系,体现了关键字之间的“与”关系。
现有技术没有考虑多主题信息采集过程中的重复采集信息的问题,效率低下。
发明内容
本发明所要解决的技术问题是针对现有技术中存在的多主题信息采集效率低下的问题,提出一种基于搜索策略的多主题信息采集方法,该方法将主题的规则拆分成原子规则,并利用原子规则间的相同、互换、包含三种关系达到减少在互联网上搜索采集次数的目的,提高了多主题信息采集的性能。
本发明所要解决的技术问题是通过以下的技术方案来实现的。本发明是一种基于搜索策略的多主题信息采集方法,其特点是:其具体步骤如下:
A、将主题规则集                                               拆分成原子规则集;
B、判定原子规则集中原子规则的关系;
C、将原子规则集分配到内置搜索队列、通用搜索队列;
D、用和中的原子规则进行搜索采集;
步骤A中所述的将主题规则集拆分成原子规则集,其具体步骤如下:
A1、依次从中取出每条主题规则,置空;
A2、判段中是否包含“+”关系;如果包含,则转步骤A3;否则,,转步骤A5;
A3、判断中是否存在“与”分配律。如果存在个(),循环执行次“与”分配律运算,得到;否则,=,转步骤A4;
A4、依据“+”关系将切分成条原子规则,将条原子规则放入,转步骤A5;
A5、得到原子规则集;
步骤(C)中所述的将原子规则集分配到内置搜索队列、通用搜索队列,其具体步骤如下:
C1、遍历中所有原子规则,没有关系的原子规则直接分别放入、;如果原子规则有关系,记有关系的原子规则集为,转步骤C2;否则,转步骤C6;
C2、从取出一条原子规则,判断它与其他原子规则之间的关系;如果两条原子规则,选或分别放入、,转步骤C5;否则,转步骤C3;
C3、如果,选或放入,选和放入,转步骤C5;否则转步骤C4;
C4、如,选放入,选和放入,转步骤C5;
C5、判断中的原子规则是否全部分配完毕,完成转步骤C6;否则,转步骤C2;
C6、得到内置搜索队列和通用搜索队列。
本发明的基于搜索策略的多主题信息采集方法与现有技术相比较,具有以下效果:该方法将多主题的采集规则转化为原子规则,通过判定原子规则间的三种关系,为内置搜索引擎和通用搜索引擎分配不同的原子规则,达到了压缩原子规则、减少网络访问次数的目的,提高了单位时间内采集的信息数目。
附图说明
图1是本发明的基于搜索策略的多主题信息采集方法的流程图;
图2是图1中步骤101所述的将主题规则集拆分成原子规则集的流程图;
图3是图1中步骤103所述的将原子规则集分配到内置搜索队列、通用搜索队列的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明的实施过程作进一步详细的描述。
参照图1,一种基于搜索策略的多主题信息采集方法,该方法包括如下步骤:
步骤101、将主题规则集拆分成原子规则集,参照图2,其具体步骤如下:
步骤201、依次从中取出每条主题规则,原子规则集置空。主题规则指使用关键词之间的“与”(*)、“或”(+)关系描述主题,比如,主题为“2008汶川地震”,则主题的规则可以为。原子规则指对主题的表示规则进行拆分,拆分后的关键词之间仅仅存在“与”的关系,比如主题规则,拆分后得到两条原子规则分别是和。
步骤202、判段中是否包含“+”(或)关系。如果包含,转步骤203;否则,,转步骤207;
步骤203、判断中是否存在“与”分配律。主题规则“与”分配律定义为:A*(B+C)=A*B+A*C,例如“地震*(汶川+四川)”=“地震*汶川+地震*四川”。如果有,转步骤204,;否则,转步骤205;
步骤204、假设有个()存在“与”分配律,循环执行次“与”分配律运算,得到,转步骤206;
步骤205、=,转步骤206;
步骤206、依据“+”关系将切分成条原子规则,将条原子规则放入中,转步骤207;
步骤207、得到原子规则集。
步骤102、判定原子规则集中原子规则的关系,其具体如下:
B1、两条原子规则,经过“*”关系切分后,如果关键词相同,且出现的顺序完全一致,则这两条规则存在相同关系,记作,转步骤B4;否则转步骤B2;
B2、如果关键词完全相同,但出现的顺序不一致,则这两条规则存在互换关系,记作,转步骤B4;否则转步骤B3;
B3、如果的关键字是关键字的真子集,则这两条规则存在包含关系,记作,转步骤B4;
B4、原子规则的关系判定结束。
步骤103、将原子规则集调度到内置搜索队列、通用搜索队列,参照图3,其具体步骤如下:
步骤301、遍历中所有原子规则,没有关系的原子规则直接分别放入、。如果原子规则有关系,记有关系的原子规则集为,转步骤302;
步骤302、判定是否为空,如果不为空,转步骤303;否则,转步骤310;
步骤303、从取出一条原子规则,判断它与其他原子规则之间的关系。如果两条原子规则,转步骤306;否则,转步骤304;
步骤304、如果,转步骤307;否则,转步骤305;
步骤305、如果,转步骤308;否则,转步骤309;
步骤306、选或分别放入、;
步骤307、选或放入,选和放入;
步骤308、选放入,选和放入;
步骤309、判断中的原子规则是否全部判定完毕,完成转步骤310;否则,转步骤303;
步骤310、得到和。
步骤104、用和中的原子规则进行搜索采集,其具体如下:
D1、用中的原子规则在内置搜索引擎中采集信息。内置搜索引擎指网站自带的用于对网站自身内容进行搜索的引擎,比如微博、论坛等内置搜索引擎。
D2、用中的原子规则在通用搜索引擎中采集信息。通用搜索引擎指从互联网上多种媒体中广泛的采集收集信息,为用户提供信息检索服务的引擎,比如百度、谷歌等通用搜索引擎。
使用两种不同的采集方法,在不同的单位时间内统计采集的信息量。两种方法如下:
(1)进行主题规则到原子规则的拆分,不考虑原子规则之间的关系,将所有的原子规则分配到内置搜索引擎和通用搜索引擎采集,该方法记作;
(2)进行主题规则到原子规则的拆分,考虑原子规则之间的关系,依据原子规则之间的关系分配不同的原子规则调度到内置搜索引擎和通用搜索引擎采集,该方法记作,这就是本发明的方法。
为了统计获取的信息量,方法和都仅进行URL排重,不进行内容排重。
围绕某省消防部门,制定的主题规则共有138条,拆分后的原子规则8223条,这些原子规则中存在包含关系的有4146条,存在互换关系的有717条,存在相同关系的有427条。经过关系判定后,推送到内置搜索引擎队列的原子规则条数为4009条,减少了4214条,减少比例为51%,对内置搜索目标而言,减少了约一半的访问工作量。推送到通用搜索引擎队列的原子规则条数为8002条,减少了221条,减少比例为3%。对通用搜索引擎而言,只有原子规则具有了相同关系才能减少访问次数,所以采集次数减少并不明显。
对获取信息量的比较使用的评测指标:,其中,指单位时间,比如1个小时、1天等,指单位时间内采集到的信息数目。
不同的单位时间采集到的信息量见表1所示。
表1. 不同的单位时间获取的信息量
方法1小时4小时8小时16小时783029644313372213376689976133688133731133799
从表1可见,对方法而言,4个小时已经完成了大多数搜索引擎的信息采集,4个小时后信息量变化已经不太明显。如果是热点主题,信息量的变化会更明显一些。而对于方法,8个小时后,基本完成了一个轮次的信息采集,信息量已经和方法获取的信息量相当。可见,方法显著的提高了单位时间内采集的信息量,尤其是针对一些实时性要求较高的主题监测,方法能在较短的时候内获取大量信息。

一种基于搜索策略的多主题信息采集方法.pdf_第1页
第1页 / 共12页
一种基于搜索策略的多主题信息采集方法.pdf_第2页
第2页 / 共12页
一种基于搜索策略的多主题信息采集方法.pdf_第3页
第3页 / 共12页
点击查看更多>>
资源描述

《一种基于搜索策略的多主题信息采集方法.pdf》由会员分享,可在线阅读,更多相关《一种基于搜索策略的多主题信息采集方法.pdf(12页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103617286 A (43)申请公布日 2014.03.05 CN 103617286 A (21)申请号 201310677257.6 (22)申请日 2013.12.13 G06F 17/30(2006.01) (71)申请人 仲兆满 地址 222000 江苏省连云港市新浦区苍梧路 59 号淮海工学院计算机学院仲兆满转 (72)发明人 仲兆满 李存华 管燕 (74)专利代理机构 连云港润知专利代理事务所 32255 代理人 刘喜莲 (54) 发明名称 一种基于搜索策略的多主题信息采集方法 (57) 摘要 本发明是一种基于搜索策略的多主题信息 采集方法, 其步骤。

2、如下 :(1) 将主题规则集拆 分成原子规则集;(2) 判定原子规则集 中原子规则的关系 ;(3)将原子规则集 调度到内置搜索队列、 通用搜索队列; (4) 用和中的原子规则进行搜索采集。 本 发明方法针对多主题信息采集效率低下的问题, 提出将主题的规则拆分成原子规则, 并利用原子 规则间的相同、 互换、 包含三种关系达到减少在互 联网上搜索采集次数的目的, 提高了多主题信息 采集的性能。 (51)Int.Cl. 权利要求书 2 页 说明书 6 页 附图 3 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书6页 附图3页 (10)申请公布号 CN 1036。

3、17286 A CN 103617286 A 1/2 页 2 1. 一种基于搜索策略的多主题信息采集方法, 其特征在于 : 其具体步骤如下 : A、 将主题规则集拆分成原子规则集; B、 判定原子规则集中原子规则的关系 ; C、 将原子规则集分配到内置搜索队列、 通用搜索队列; D、 用和中的原子规则进行搜索采集 ; 步骤 A 中所述的将主题规则集拆分成原子规则集, 其具体步骤如下 : A1、 依次从中取出每条主题规则,置空 ; A2、 判段中是否包含 “+” 关系 ; 如果包含, 则转步骤 A3 ; 否则, 转步骤 A5 ; A3、 判断中是否存在 “与” 分配律。 2. 如果存在个 () 。

4、, 循环执行次 “与” 分配律运算, 得到; 否则, =, 转步骤 A4 ; A4、 依据 “+” 关系将切分成条原子规则, 将条原子规则放入, 转步骤 A5 ; A5、 得到原子规则集; 步骤(C)中所述的将原子规则集分配到内置搜索队列、 通用搜索队列, 其 具体步骤如下 : C1、 遍历中所有原子规则, 没有关系的原子规则直接分别放入、; 如果原 子规则有关系, 记有关系的原子规则集为, 转步骤 C2 ; 否则, 转步骤 C6 ; C2、 从取出一条原子规则, 判断它与其他原子规则之间的关系 ; 如果两条原子规 则, 选或分别放入、, 转步骤 C5 ; 否则, 转步骤 C3 ; C3、 如。

5、果, 选或放入, 选和放入, 转步骤 C5 ; 否则 转步骤 C4 ; 权 利 要 求 书 CN 103617286 A 2 2/2 页 3 C4、 如, 选放入, 选和放入, 转步骤 C5 ; C5、 判断中的原子规则是否全部分配完毕, 完成转步骤 C6 ; 否则, 转步骤 C2 ; C6、 得到内置搜索队列和通用搜索队列。 权 利 要 求 书 CN 103617286 A 3 1/6 页 4 一种基于搜索策略的多主题信息采集方法 技术领域 0001 本发明涉及一种信息采集技术, 具体地说, 涉及一种基于搜索策略的多主题信息 采集方法。 背景技术 0002 主题信息采集是指有选择性地采集那些。

6、与预先定义好的主题相关信息的行为。 主 题信息采集面对的是特定的行业用户, 采集的信息只限定于特定的主题。按照采集主题的 范围和规模, 可以分为广泛主题采集和具体主题采集。 广泛主题指那些涵盖面较宽, 并且和 其他主题相比有较强的独立性的一类主题。广泛主题采集也称作领域信息采集。用户在采 集这类主题时, 往往并没有太具体的要求。 这类信息采集往往采集到的信息数量较多, 为了 达到较高的召回率, 在进行信息过滤的时候所设定的阈值较低、 限制较宽。比如,“交通事 故” 、“自然灾害” 、“地震” 、“火灾” 等都是广泛主题的例子。简而言之, 广泛主题缺乏具体的 要素约束, 比如时间、 地点、 参与。

7、对象等约束要素, 因而它获取的内容比较杂乱, 采集内容与 主题的平均相关度也较低。 0003 具体主题涵盖面较窄, 因此意义也比较明确, 采集信息的规模也较小。 这类采集一 般可直接服务于用户, 是目前最主要的主题信息采集模式, 为此, 它在进行信息过滤的时候 所设定的阈值较高、 限制较严。比如,“2008 年汶川地震” 、“美国斯诺登事件” 、“3.15 动车事 故” 、“2008 金融危机” 、“2012 台湾选举” 等都是具体主题的例子。这类主题由于有明确的 约束要素, 使得采集到的信息与主题的平均相关度较高。 0004 申请号为 200810223523.7 的现有技术提出了一种面向主。

8、题的信息采集方法, 该 方法首先根据待采集链接队列中链接的顺序, 从所述待采集链接队列中获得多个链接, 采 集并存储所述多个链接的页面内容, 提取所述页面中的新链接, 判定所述页面的主题相关 性, 提取所述页面的相关链接集合, 将所述新链接添加到所述待采集链接队列中 ; 而后, 根 据所述页面的相关链接集合和所述页面的主题相关性, 计算所有链接的页面的主题相关 性, 并调整添加了所述新链接的待采集链接队列中的链接的顺序, 重复上述两步直至采集 结束。 0005 在 2002 年德国出版的会议论文集 : 2002 年第六届欧洲数字图书馆研究和高级技 术会议 (Proceedings of 200。

9、2 Conference of the European Conference on Research and Advanced Technology for Digital Libraries) , 题目为 : 主题采集、 隧道和数字图书 馆 (Focused crawls, tunneling, and digital libraries) , 作者是 : D. Bergmark, C. Lagoze, and A. Sbityakov, 该文提出了基于关键字的主题信息采集方法, 没有考虑关键字 之间的 “与” 、“或” 关系。 0006 在 2012 年中国出版的期刊 : 情报学报, 题。

10、目为 : 一种基于局部分析面向事件的查 询扩展方法, 作者是 : 仲兆满, 朱平, 李存华, 管燕, 刘宗田, 该文针对事件检索问题, 讨论了 事件要素之间的约束关系, 体现了关键字之间的 “与” 关系。 0007 现有技术没有考虑多主题信息采集过程中的重复采集信息的问题, 效率低下。 说 明 书 CN 103617286 A 4 2/6 页 5 发明内容 0008 本发明所要解决的技术问题是针对现有技术中存在的多主题信息采集效率低下 的问题, 提出一种基于搜索策略的多主题信息采集方法, 该方法将主题的规则拆分成原子 规则, 并利用原子规则间的相同、 互换、 包含三种关系达到减少在互联网上搜索。

11、采集次数的 目的, 提高了多主题信息采集的性能。 0009 本发明所要解决的技术问题是通过以下的技术方案来实现的。 本发明是一种基于 搜索策略的多主题信息采集方法, 其特点是 : 其具体步骤如下 : A、 将主题规则集拆分成原子规则集; B、 判定原子规则集中原子规则的关系 ; C、 将原子规则集分配到内置搜索队列、 通用搜索队列; D、 用和中的原子规则进行搜索采集 ; 步骤 A 中所述的将主题规则集拆分成原子规则集, 其具体步骤如下 : A1、 依次从中取出每条主题规则,置空 ; A2、 判段中是否包含 “+” 关系 ; 如果包含, 则转步骤 A3 ; 否则, 转步骤 A5 ; A3、 判。

12、断中是否存在 “与” 分配律。如果存在个 () , 循环执行次 “与” 分配律运算, 得到; 否则,=, 转步骤 A4 ; A4、 依据 “+” 关系将切分成条原子规则, 将条原子规则放入, 转步骤 A5 ; A5、 得到原子规则集; 步骤(C)中所述的将原子规则集分配到内置搜索队列、 通用搜索队列, 其 具体步骤如下 : C1、 遍历中所有原子规则, 没有关系的原子规则直接分别放入、; 如果原 子规则有关系, 记有关系的原子规则集为, 转步骤 C2 ; 否则, 转步骤 C6 ; C2、 从取出一条原子规则, 判断它与其他原子规则之间的关系 ; 如果两条原子规 说 明 书 CN 1036172。

13、86 A 5 3/6 页 6 则, 选或分别放入、, 转步骤 C5 ; 否则, 转步骤 C3 ; C3、 如果, 选或放入, 选和放入, 转步骤 C5 ; 否则 转步骤 C4 ; C4、 如, 选放入, 选和放入, 转步骤 C5 ; C5、 判断中的原子规则是否全部分配完毕, 完成转步骤 C6 ; 否则, 转步骤 C2 ; C6、 得到内置搜索队列和通用搜索队列。 0010 本发明的基于搜索策略的多主题信息采集方法与现有技术相比较, 具有以下效 果 : 该方法将多主题的采集规则转化为原子规则, 通过判定原子规则间的三种关系, 为内置 搜索引擎和通用搜索引擎分配不同的原子规则, 达到了压缩原子规。

14、则、 减少网络访问次数 的目的, 提高了单位时间内采集的信息数目。 附图说明 0011 图 1 是本发明的基于搜索策略的多主题信息采集方法的流程图 ; 图 2 是图 1 中步骤 101 所述的将主题规则集拆分成原子规则集的流程图 ; 图 3 是图 1 中步骤 103 所述的将原子规则集分配到内置搜索队列、 通用搜索队 列的流程图。 具体实施方式 0012 下面结合附图和具体实施方式对本发明的实施过程作进一步详细的描述。 0013 参照图 1, 一种基于搜索策略的多主题信息采集方法, 该方法包括如下步骤 : 步骤 101、 将主题规则集拆分成原子规则集, 参照图 2, 其具体步骤如下 : 步骤2。

15、01、 依次从中取出每条主题规则, 原子规则集置空。 主题规则指使用 关键词之间的 “与” (*) 、“或” (+) 关系描述主题, 比如, 主题为 “2008 汶川地震” , 则主题 的规则可以为。原子规则指对主题的表示规则进行拆分, 拆 分后的关键词之间仅仅存在 “与” 的关系, 比如主题规则, 拆分后得到两条原子规则分别是和。 0014 步骤 202、 判段中是否包含 “+” (或)关系。如果包含, 转步骤 203 ; 否则, , 转步骤 207 ; 说 明 书 CN 103617286 A 6 4/6 页 7 步骤 203、 判断中是否存在 “与” 分配律。主题规则 “与” 分配律定义。

16、为 : A*(B+C) =A*B+A*C, 例如 “地震 * (汶川 + 四川) ” = “地震 * 汶川 + 地震 * 四川” 。如果有, 转步骤 204, ; 否则, 转步骤 205 ; 步骤 204、 假设有个 () 存在 “与” 分配律, 循环执行次 “与” 分配律运算, 得到, 转步骤 206 ; 步骤 205、=, 转步骤 206 ; 步骤 206、 依据 “+” 关系将切分成条原子规则, 将条原子规则放入中, 转步骤 207 ; 步骤 207、 得到原子规则集。 0015 步骤 102、 判定原子规则集中原子规则的关系, 其具体如下 : B1、 两条原子规则, 经过 “*” 关系。

17、切分后, 如果关键词相同, 且出现的顺序完全 一致, 则这两条规则存在相同关系, 记作, 转步骤 B4 ; 否则转步骤 B2 ; B2、 如果关键词完全相同, 但出现的顺序不一致, 则这两条规则存在互换关系, 记作 , 转步骤 B4 ; 否则转步骤 B3 ; B3、 如果的关键字是关键字的真子集, 则这两条规则存在包含关系, 记作 , 转步骤 B4 ; B4、 原子规则的关系判定结束。 0016 步骤 103、 将原子规则集调度到内置搜索队列、 通用搜索队列, 参照 图 3, 其具体步骤如下 : 步骤 301、 遍历中所有原子规则, 没有关系的原子规则直接分别放入、。如 果原子规则有关系, 记。

18、有关系的原子规则集为, 转步骤 302 ; 步骤 302、 判定是否为空, 如果不为空, 转步骤 303 ; 否则, 转步骤 310 ; 步骤303、 从取出一条原子规则, 判断它与其他原子规则之间的关系。 如果两条原 子规则, 转步骤 306 ; 否则, 转步骤 304 ; 说 明 书 CN 103617286 A 7 5/6 页 8 步骤 304、 如果, 转步骤 307 ; 否则, 转步骤 305 ; 步骤 305、 如果, 转步骤 308 ; 否则, 转步骤 309 ; 步骤 306、 选或分别放入、; 步骤 307、 选或放入, 选和放入; 步骤 308、 选放入, 选和放入; 步骤。

19、 309、 判断中的原子规则是否全部判定完毕, 完成转步骤 310 ; 否则, 转步骤 303 ; 步骤 310、 得到和。 0017 步骤 104、 用和中的原子规则进行搜索采集, 其具体如下 : D1、 用中的原子规则在内置搜索引擎中采集信息。内置搜索引擎指网站自带的用于 对网站自身内容进行搜索的引擎, 比如微博、 论坛等内置搜索引擎。 0018 D2、 用中的原子规则在通用搜索引擎中采集信息。通用搜索引擎指从互联网 上多种媒体中广泛的采集收集信息, 为用户提供信息检索服务的引擎, 比如百度、 谷歌等通 用搜索引擎。 0019 使用两种不同的采集方法, 在不同的单位时间内统计采集的信息量。。

20、两种方法如 下 : (1) 进行主题规则到原子规则的拆分, 不考虑原子规则之间的关系, 将所有的原子规则 分配到内置搜索引擎和通用搜索引擎采集, 该方法记作; (2) 进行主题规则到原子规则的拆分, 考虑原子规则之间的关系, 依据原子规则之间的 关系分配不同的原子规则调度到内置搜索引擎和通用搜索引擎采集, 该方法记作, 这 就是本发明的方法。 0020 为了统计获取的信息量, 方法和都仅进行 URL 排重, 不进行内容排重。 0021 围绕某省消防部门, 制定的主题规则共有138条, 拆分后的原子规则8223条, 这些 原子规则中存在包含关系的有 4146 条, 存在互换关系的有 717 条,。

21、 存在相同关系的有 427 条。 经过关系判定后, 推送到内置搜索引擎队列的原子规则条数为4009条, 减少了4214条, 减少比例为 51%, 对内置搜索目标而言, 减少了约一半的访问工作量。推送到通用搜索引擎 队列的原子规则条数为8002条, 减少了221条, 减少比例为3%。 对通用搜索引擎而言, 只有 原子规则具有了相同关系才能减少访问次数, 所以采集次数减少并不明显。 0022 对获取信息量的比较使用的评测指标 :, 其中,指单位时间, 比如 1 个小时、 1 天等,指单位时间内采集到的信息数目。 说 明 书 CN 103617286 A 8 6/6 页 9 0023 不同的单位时间。

22、采集到的信息量见表 1 所示。 0024 表 1. 不同的单位时间获取的信息量 方法 1 小时 4 小时8 小时16 小时 78302 96443133722133766 89976 133688133731133799 从表 1 可见, 对方法而言, 4 个小时已经完成了大多数搜索引擎的信息采集, 4 个小 时后信息量变化已经不太明显。如果是热点主题, 信息量的变化会更明显一些。而对于方 法, 8个小时后, 基本完成了一个轮次的信息采集, 信息量已经和方法获取的信息量 相当。 可见, 方法显著的提高了单位时间内采集的信息量, 尤其是针对一些实时性要求 较高的主题监测, 方法能在较短的时候内获取大量信息。 说 明 书 CN 103617286 A 9 1/3 页 10 图 1 说 明 书 附 图 CN 103617286 A 10 2/3 页 11 图 2 说 明 书 附 图 CN 103617286 A 11 3/3 页 12 图 3 说 明 书 附 图 CN 103617286 A 12 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1