《一种基于搜索策略的多主题信息采集方法.pdf》由会员分享,可在线阅读,更多相关《一种基于搜索策略的多主题信息采集方法.pdf(12页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103617286 A (43)申请公布日 2014.03.05 CN 103617286 A (21)申请号 201310677257.6 (22)申请日 2013.12.13 G06F 17/30(2006.01) (71)申请人 仲兆满 地址 222000 江苏省连云港市新浦区苍梧路 59 号淮海工学院计算机学院仲兆满转 (72)发明人 仲兆满 李存华 管燕 (74)专利代理机构 连云港润知专利代理事务所 32255 代理人 刘喜莲 (54) 发明名称 一种基于搜索策略的多主题信息采集方法 (57) 摘要 本发明是一种基于搜索策略的多主题信息 采集方法, 其步骤。
2、如下 :(1) 将主题规则集拆 分成原子规则集;(2) 判定原子规则集 中原子规则的关系 ;(3)将原子规则集 调度到内置搜索队列、 通用搜索队列; (4) 用和中的原子规则进行搜索采集。 本 发明方法针对多主题信息采集效率低下的问题, 提出将主题的规则拆分成原子规则, 并利用原子 规则间的相同、 互换、 包含三种关系达到减少在互 联网上搜索采集次数的目的, 提高了多主题信息 采集的性能。 (51)Int.Cl. 权利要求书 2 页 说明书 6 页 附图 3 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书6页 附图3页 (10)申请公布号 CN 1036。
3、17286 A CN 103617286 A 1/2 页 2 1. 一种基于搜索策略的多主题信息采集方法, 其特征在于 : 其具体步骤如下 : A、 将主题规则集拆分成原子规则集; B、 判定原子规则集中原子规则的关系 ; C、 将原子规则集分配到内置搜索队列、 通用搜索队列; D、 用和中的原子规则进行搜索采集 ; 步骤 A 中所述的将主题规则集拆分成原子规则集, 其具体步骤如下 : A1、 依次从中取出每条主题规则,置空 ; A2、 判段中是否包含 “+” 关系 ; 如果包含, 则转步骤 A3 ; 否则, 转步骤 A5 ; A3、 判断中是否存在 “与” 分配律。 2. 如果存在个 () 。
4、, 循环执行次 “与” 分配律运算, 得到; 否则, =, 转步骤 A4 ; A4、 依据 “+” 关系将切分成条原子规则, 将条原子规则放入, 转步骤 A5 ; A5、 得到原子规则集; 步骤(C)中所述的将原子规则集分配到内置搜索队列、 通用搜索队列, 其 具体步骤如下 : C1、 遍历中所有原子规则, 没有关系的原子规则直接分别放入、; 如果原 子规则有关系, 记有关系的原子规则集为, 转步骤 C2 ; 否则, 转步骤 C6 ; C2、 从取出一条原子规则, 判断它与其他原子规则之间的关系 ; 如果两条原子规 则, 选或分别放入、, 转步骤 C5 ; 否则, 转步骤 C3 ; C3、 如。
5、果, 选或放入, 选和放入, 转步骤 C5 ; 否则 转步骤 C4 ; 权 利 要 求 书 CN 103617286 A 2 2/2 页 3 C4、 如, 选放入, 选和放入, 转步骤 C5 ; C5、 判断中的原子规则是否全部分配完毕, 完成转步骤 C6 ; 否则, 转步骤 C2 ; C6、 得到内置搜索队列和通用搜索队列。 权 利 要 求 书 CN 103617286 A 3 1/6 页 4 一种基于搜索策略的多主题信息采集方法 技术领域 0001 本发明涉及一种信息采集技术, 具体地说, 涉及一种基于搜索策略的多主题信息 采集方法。 背景技术 0002 主题信息采集是指有选择性地采集那些。
6、与预先定义好的主题相关信息的行为。 主 题信息采集面对的是特定的行业用户, 采集的信息只限定于特定的主题。按照采集主题的 范围和规模, 可以分为广泛主题采集和具体主题采集。 广泛主题指那些涵盖面较宽, 并且和 其他主题相比有较强的独立性的一类主题。广泛主题采集也称作领域信息采集。用户在采 集这类主题时, 往往并没有太具体的要求。 这类信息采集往往采集到的信息数量较多, 为了 达到较高的召回率, 在进行信息过滤的时候所设定的阈值较低、 限制较宽。比如,“交通事 故” 、“自然灾害” 、“地震” 、“火灾” 等都是广泛主题的例子。简而言之, 广泛主题缺乏具体的 要素约束, 比如时间、 地点、 参与。
7、对象等约束要素, 因而它获取的内容比较杂乱, 采集内容与 主题的平均相关度也较低。 0003 具体主题涵盖面较窄, 因此意义也比较明确, 采集信息的规模也较小。 这类采集一 般可直接服务于用户, 是目前最主要的主题信息采集模式, 为此, 它在进行信息过滤的时候 所设定的阈值较高、 限制较严。比如,“2008 年汶川地震” 、“美国斯诺登事件” 、“3.15 动车事 故” 、“2008 金融危机” 、“2012 台湾选举” 等都是具体主题的例子。这类主题由于有明确的 约束要素, 使得采集到的信息与主题的平均相关度较高。 0004 申请号为 200810223523.7 的现有技术提出了一种面向主。
8、题的信息采集方法, 该 方法首先根据待采集链接队列中链接的顺序, 从所述待采集链接队列中获得多个链接, 采 集并存储所述多个链接的页面内容, 提取所述页面中的新链接, 判定所述页面的主题相关 性, 提取所述页面的相关链接集合, 将所述新链接添加到所述待采集链接队列中 ; 而后, 根 据所述页面的相关链接集合和所述页面的主题相关性, 计算所有链接的页面的主题相关 性, 并调整添加了所述新链接的待采集链接队列中的链接的顺序, 重复上述两步直至采集 结束。 0005 在 2002 年德国出版的会议论文集 : 2002 年第六届欧洲数字图书馆研究和高级技 术会议 (Proceedings of 200。
9、2 Conference of the European Conference on Research and Advanced Technology for Digital Libraries) , 题目为 : 主题采集、 隧道和数字图书 馆 (Focused crawls, tunneling, and digital libraries) , 作者是 : D. Bergmark, C. Lagoze, and A. Sbityakov, 该文提出了基于关键字的主题信息采集方法, 没有考虑关键字 之间的 “与” 、“或” 关系。 0006 在 2012 年中国出版的期刊 : 情报学报, 题。
10、目为 : 一种基于局部分析面向事件的查 询扩展方法, 作者是 : 仲兆满, 朱平, 李存华, 管燕, 刘宗田, 该文针对事件检索问题, 讨论了 事件要素之间的约束关系, 体现了关键字之间的 “与” 关系。 0007 现有技术没有考虑多主题信息采集过程中的重复采集信息的问题, 效率低下。 说 明 书 CN 103617286 A 4 2/6 页 5 发明内容 0008 本发明所要解决的技术问题是针对现有技术中存在的多主题信息采集效率低下 的问题, 提出一种基于搜索策略的多主题信息采集方法, 该方法将主题的规则拆分成原子 规则, 并利用原子规则间的相同、 互换、 包含三种关系达到减少在互联网上搜索。
11、采集次数的 目的, 提高了多主题信息采集的性能。 0009 本发明所要解决的技术问题是通过以下的技术方案来实现的。 本发明是一种基于 搜索策略的多主题信息采集方法, 其特点是 : 其具体步骤如下 : A、 将主题规则集拆分成原子规则集; B、 判定原子规则集中原子规则的关系 ; C、 将原子规则集分配到内置搜索队列、 通用搜索队列; D、 用和中的原子规则进行搜索采集 ; 步骤 A 中所述的将主题规则集拆分成原子规则集, 其具体步骤如下 : A1、 依次从中取出每条主题规则,置空 ; A2、 判段中是否包含 “+” 关系 ; 如果包含, 则转步骤 A3 ; 否则, 转步骤 A5 ; A3、 判。
12、断中是否存在 “与” 分配律。如果存在个 () , 循环执行次 “与” 分配律运算, 得到; 否则,=, 转步骤 A4 ; A4、 依据 “+” 关系将切分成条原子规则, 将条原子规则放入, 转步骤 A5 ; A5、 得到原子规则集; 步骤(C)中所述的将原子规则集分配到内置搜索队列、 通用搜索队列, 其 具体步骤如下 : C1、 遍历中所有原子规则, 没有关系的原子规则直接分别放入、; 如果原 子规则有关系, 记有关系的原子规则集为, 转步骤 C2 ; 否则, 转步骤 C6 ; C2、 从取出一条原子规则, 判断它与其他原子规则之间的关系 ; 如果两条原子规 说 明 书 CN 1036172。
13、86 A 5 3/6 页 6 则, 选或分别放入、, 转步骤 C5 ; 否则, 转步骤 C3 ; C3、 如果, 选或放入, 选和放入, 转步骤 C5 ; 否则 转步骤 C4 ; C4、 如, 选放入, 选和放入, 转步骤 C5 ; C5、 判断中的原子规则是否全部分配完毕, 完成转步骤 C6 ; 否则, 转步骤 C2 ; C6、 得到内置搜索队列和通用搜索队列。 0010 本发明的基于搜索策略的多主题信息采集方法与现有技术相比较, 具有以下效 果 : 该方法将多主题的采集规则转化为原子规则, 通过判定原子规则间的三种关系, 为内置 搜索引擎和通用搜索引擎分配不同的原子规则, 达到了压缩原子规。
14、则、 减少网络访问次数 的目的, 提高了单位时间内采集的信息数目。 附图说明 0011 图 1 是本发明的基于搜索策略的多主题信息采集方法的流程图 ; 图 2 是图 1 中步骤 101 所述的将主题规则集拆分成原子规则集的流程图 ; 图 3 是图 1 中步骤 103 所述的将原子规则集分配到内置搜索队列、 通用搜索队 列的流程图。 具体实施方式 0012 下面结合附图和具体实施方式对本发明的实施过程作进一步详细的描述。 0013 参照图 1, 一种基于搜索策略的多主题信息采集方法, 该方法包括如下步骤 : 步骤 101、 将主题规则集拆分成原子规则集, 参照图 2, 其具体步骤如下 : 步骤2。
15、01、 依次从中取出每条主题规则, 原子规则集置空。 主题规则指使用 关键词之间的 “与” (*) 、“或” (+) 关系描述主题, 比如, 主题为 “2008 汶川地震” , 则主题 的规则可以为。原子规则指对主题的表示规则进行拆分, 拆 分后的关键词之间仅仅存在 “与” 的关系, 比如主题规则, 拆分后得到两条原子规则分别是和。 0014 步骤 202、 判段中是否包含 “+” (或)关系。如果包含, 转步骤 203 ; 否则, , 转步骤 207 ; 说 明 书 CN 103617286 A 6 4/6 页 7 步骤 203、 判断中是否存在 “与” 分配律。主题规则 “与” 分配律定义。
16、为 : A*(B+C) =A*B+A*C, 例如 “地震 * (汶川 + 四川) ” = “地震 * 汶川 + 地震 * 四川” 。如果有, 转步骤 204, ; 否则, 转步骤 205 ; 步骤 204、 假设有个 () 存在 “与” 分配律, 循环执行次 “与” 分配律运算, 得到, 转步骤 206 ; 步骤 205、=, 转步骤 206 ; 步骤 206、 依据 “+” 关系将切分成条原子规则, 将条原子规则放入中, 转步骤 207 ; 步骤 207、 得到原子规则集。 0015 步骤 102、 判定原子规则集中原子规则的关系, 其具体如下 : B1、 两条原子规则, 经过 “*” 关系。
17、切分后, 如果关键词相同, 且出现的顺序完全 一致, 则这两条规则存在相同关系, 记作, 转步骤 B4 ; 否则转步骤 B2 ; B2、 如果关键词完全相同, 但出现的顺序不一致, 则这两条规则存在互换关系, 记作 , 转步骤 B4 ; 否则转步骤 B3 ; B3、 如果的关键字是关键字的真子集, 则这两条规则存在包含关系, 记作 , 转步骤 B4 ; B4、 原子规则的关系判定结束。 0016 步骤 103、 将原子规则集调度到内置搜索队列、 通用搜索队列, 参照 图 3, 其具体步骤如下 : 步骤 301、 遍历中所有原子规则, 没有关系的原子规则直接分别放入、。如 果原子规则有关系, 记。
18、有关系的原子规则集为, 转步骤 302 ; 步骤 302、 判定是否为空, 如果不为空, 转步骤 303 ; 否则, 转步骤 310 ; 步骤303、 从取出一条原子规则, 判断它与其他原子规则之间的关系。 如果两条原 子规则, 转步骤 306 ; 否则, 转步骤 304 ; 说 明 书 CN 103617286 A 7 5/6 页 8 步骤 304、 如果, 转步骤 307 ; 否则, 转步骤 305 ; 步骤 305、 如果, 转步骤 308 ; 否则, 转步骤 309 ; 步骤 306、 选或分别放入、; 步骤 307、 选或放入, 选和放入; 步骤 308、 选放入, 选和放入; 步骤。
19、 309、 判断中的原子规则是否全部判定完毕, 完成转步骤 310 ; 否则, 转步骤 303 ; 步骤 310、 得到和。 0017 步骤 104、 用和中的原子规则进行搜索采集, 其具体如下 : D1、 用中的原子规则在内置搜索引擎中采集信息。内置搜索引擎指网站自带的用于 对网站自身内容进行搜索的引擎, 比如微博、 论坛等内置搜索引擎。 0018 D2、 用中的原子规则在通用搜索引擎中采集信息。通用搜索引擎指从互联网 上多种媒体中广泛的采集收集信息, 为用户提供信息检索服务的引擎, 比如百度、 谷歌等通 用搜索引擎。 0019 使用两种不同的采集方法, 在不同的单位时间内统计采集的信息量。。
20、两种方法如 下 : (1) 进行主题规则到原子规则的拆分, 不考虑原子规则之间的关系, 将所有的原子规则 分配到内置搜索引擎和通用搜索引擎采集, 该方法记作; (2) 进行主题规则到原子规则的拆分, 考虑原子规则之间的关系, 依据原子规则之间的 关系分配不同的原子规则调度到内置搜索引擎和通用搜索引擎采集, 该方法记作, 这 就是本发明的方法。 0020 为了统计获取的信息量, 方法和都仅进行 URL 排重, 不进行内容排重。 0021 围绕某省消防部门, 制定的主题规则共有138条, 拆分后的原子规则8223条, 这些 原子规则中存在包含关系的有 4146 条, 存在互换关系的有 717 条,。
21、 存在相同关系的有 427 条。 经过关系判定后, 推送到内置搜索引擎队列的原子规则条数为4009条, 减少了4214条, 减少比例为 51%, 对内置搜索目标而言, 减少了约一半的访问工作量。推送到通用搜索引擎 队列的原子规则条数为8002条, 减少了221条, 减少比例为3%。 对通用搜索引擎而言, 只有 原子规则具有了相同关系才能减少访问次数, 所以采集次数减少并不明显。 0022 对获取信息量的比较使用的评测指标 :, 其中,指单位时间, 比如 1 个小时、 1 天等,指单位时间内采集到的信息数目。 说 明 书 CN 103617286 A 8 6/6 页 9 0023 不同的单位时间。
22、采集到的信息量见表 1 所示。 0024 表 1. 不同的单位时间获取的信息量 方法 1 小时 4 小时8 小时16 小时 78302 96443133722133766 89976 133688133731133799 从表 1 可见, 对方法而言, 4 个小时已经完成了大多数搜索引擎的信息采集, 4 个小 时后信息量变化已经不太明显。如果是热点主题, 信息量的变化会更明显一些。而对于方 法, 8个小时后, 基本完成了一个轮次的信息采集, 信息量已经和方法获取的信息量 相当。 可见, 方法显著的提高了单位时间内采集的信息量, 尤其是针对一些实时性要求 较高的主题监测, 方法能在较短的时候内获取大量信息。 说 明 书 CN 103617286 A 9 1/3 页 10 图 1 说 明 书 附 图 CN 103617286 A 10 2/3 页 11 图 2 说 明 书 附 图 CN 103617286 A 11 3/3 页 12 图 3 说 明 书 附 图 CN 103617286 A 12 。