一种基于网页聚类的WEB信息自动抽取方法.pdf

摘要
申请专利号：	CN201510235641.X	申请日：	2015.05.11
公开号：	CN104834717A	公开日：	2015.08.12
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 17/30申请日:20150511\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	浪潮集团有限公司
发明人：	武斌; 张志华; 徐宏伟; 王传超
地址：	250101山东省济南市高新区舜雅路1036号
优先权：
专利代理机构：	济南信达专利事务所有限公司37100	代理人：	姜明
PDF下载：	PDF下载

内容摘要

本发明公开一种基于网页聚类的Web信息自动抽取方法,属于计算机信息提取技术领域；本发明在基于DOM的抽取技术上，根据对树的相似度比较对网页进行聚类分析，从而分类出网页结构相似度较高的网页簇，实现一个高精度的Web信息自动抽取系统，并通过大量的测试网页集对这些算法进行实验和评估，Web信息自动抽取应用了可选节点对模板的修正和调整，以提高内容节点的正确标识。实验结果表明，该方法能够自动寻找并抽取网页主要信息，与同类技术相比具有算法构造简单、准确率高等优势。

权利要求书

1.  一种基于网页聚类的Web信息自动抽取方法，其特征是：
对动态网页集合进行页面预处理：将HTML网页转化成XHTML格式，并清除网页中的明显错误；
网页聚类：网页集合的聚类具有层次之间的分割嵌套的关系，形成一个树状结构，利用计算它们的编辑距离来比较HTML标签树的相似性；根据网页聚类的复杂度，采取相应的算法，定义两个网页的树编辑距离；
生成抽取模板：网页聚类后的每一个网页簇，都生成一个对应的抽取模板，所有抽取模板组成了抽取系统的包装器；
进行数据抽取：对要抽取的网页和包装器的相应模板进行编辑距离的计算，如果模板中的所有必需节点都在最后的映射中，说明该网页满足此包装器，则把与包装器指定的内容节点对应的网页内容部分抽取出来，模板中不是所有必需节点都在映射中，则通过计算编辑距离选取最相似的模板抽取网页信息。

2.  根据权利要求1所述的一种基于网页聚类的Web信息自动抽取方法，其特征是所述的网页集合的聚类使用的凝聚层次算法来表示层次之间的分割嵌套的关系，每个单独的数据对象作为一个簇，每一步距离最近的两个簇首先被合并，直到簇的个数满足要求。

3.  根据权利要求2所述的一种基于网页聚类的Web信息自动抽取方法，其特征是所述的根据网页聚类的复杂度，采取CURE算法，定义两个网页的树编辑距离，计算过程为：网页聚类中产生的代表簇满足两个阈值，簇的全局自相似性满足阈值Ω_g，簇中两两网页间的列相似度满足阈值Ω_e，伪代码如下：Cluster Page(page Set，Ω_g，Ω_e)     let mi_j be the distance of Pi and P_jin the page Set     Initialize each page to a group and put it into the set of groups G     while (G>1) do     choose A，B∈G, a pair of groups which maximize the auto-similarity measure s(A∪B)     if s(A∪B)>Ω_g &&∈i，j∈A∪B,cs(i,j)>Ω_e        then     remove A and B from G      let Φ=A∪B     insert Φ into G     else break     end while     return G
根据情况设置Ω_g和Ω_e值。

4.  根据权利要求3所述的一种基于网页聚类的Web信息自动抽取方法，其特征是所述的生成抽取模板，分为两个网页的模板的生成和多网页模板生成；
两个网页模板的生成：利用DOM树的相似性算法，在计算编辑距离的同时，生成一个节点映射集合，获得树节点T₁和T₂之间距离最小的子树匹配情况，把这些匹配情况作为一个列表返回，当T₁和T₂不匹配时，返回的列表为空；当T₁和T₂至少有一个没有子节点时，返回的列表只包含T₁和T₂的匹配；T₁和T₂分别是第一个网页和第二个网页的树节点；
多个网页的模板的生成：建立在两个网页的模板生成基础上，选取一个网页作为初始模板，根据其他网页逐步调整模板，通过统计方法得到最后的模板，利用最后模板生成抽取网页信息的包装器。

5.  根据权利要求4所述的一种基于网页聚类的Web信息自动抽取方法，其特征是所述的多个网页的模板的生成过程为：
初始模板的选取，结合网页聚类的算法，对于网页聚类结果簇集合C={P₀，P₁，…，P_k}；
根据其他网页调整和修正该模板，网页的顺序从节点数最多处开始，依次往下，算法的伪代码如下所示：
Generate Template(page Set, λ)      template←the page which have the maximum potential template nodes   Delete the selected template from page Set    Sort the pages of page Set by the number of nodes in descending order   Mark a integer field appear Count of all nodes in template to 1        for each page p in page Set do       es(template, p)     match Nodes Set=get Match Nodes(template, p)         for each node pair'(nt，np) in match Nodes Set do       set nt.appear Count=nt.appearCount+1       align Template(nt，np)         end
mini Count=ceil((pageSet.count+1)*λ)   discard the nodes whose appear Count is less than mini Count   return template
通过统计方法得到最后的模板，利用最后模板生成抽取网页信息的包装器。

说明书

一种基于网页聚类的Web信息自动抽取方法
技术领域
本发明公开一种Web信息自动抽取方法,属于计算机信息提取技术领域，具体地说是一种基于网页聚类的Web信息自动抽取方法。
背景技术
随着Internet技术的迅速发展，Web已经成为当今最庞大的信息库。然而Web页面中通常含有很多用户并不关心的信息，如广告链接、导航栏和版权信息等，有必要从Web页面中抽取出有用的信息，而通常用于Web 信息抽取的软件又称作包装器（Wrapper）。自1994 年起，包装器生成技术经历了从手工编写包装器脚本，到利用机器学习的半自动化生成，再到自动化生成的三个阶段。目前，自动化已经成为Web信息抽取技术的一个重要特征,比较有代表性的抽取工具有RoadRunner、IEPAD、Dela和MDR-2等。但是现有的抽取工具使用时算法构造复杂、准确率低。本发明提供一种基于网页聚类的Web信息自动抽取方法，根据数据提供网站动态网页的特点，在基于DOM的抽取技术上，根据对树的相似度比较对网页进行聚类分析，从而分类出网页结构相似度较高的网页簇，实现一个高精度的Web信息自动抽取系统，并通过大量的测试网页集对这些算法进行实验和评估，Web信息自动抽取应用了可选节点对模板的修正和调整，以提高内容节点的正确标识。实验结果表明，该方法能够自动寻找并抽取网页主要信息，与同类技术相比具有算法构造简单、准确率高等优势。
发明内容
本发明针对现有的Web自动化信息抽取技术中，抽取工具使用时算法构造复杂、准确率低的问题，提供一种基于网页聚类的Web信息自动抽取方法，根据数据提供网站动态网页的特点，在基于DOM的抽取技术上，自动寻找并抽取网页主要信息，与同类技术相比具有算法构造简单、准确率高等优势。
本发明提出的具体方案是：
一种基于网页聚类的Web信息自动抽取方法：
对动态网页集合进行页面预处理：将HTML网页转化成XHTML格式，并清除网页中的明显错误；
网页聚类：网页集合的聚类具有层次之间的分割嵌套的关系，形成一个树状结构，利用计算它们的编辑距离来比较HTML标签树的相似性；根据网页聚类的复杂度，采取相应的算法，定义两个网页的树编辑距离；
生成抽取模板：网页聚类后的每一个网页簇，都生成一个对应的抽取模板，所有抽取模板组成了抽取系统的包装器；
进行数据抽取：对要抽取的网页和包装器的相应模板进行编辑距离的计算，如果模板中的所有必需节点都在最后的映射中，说明该网页满足此包装器，则把与包装器指定的内容节点对应的网页内容部分抽取出来，模板中不是所有必需节点都在映射中，则通过计算编辑距离选取最相似的模板抽取网页信息。
所述的网页集合的聚类使用的凝聚层次算法来表示层次之间的分割嵌套的关系，每个单独的数据对象作为一个簇，每一步距离最近的两个簇首先被合并，直到簇的个数满足要求。
所述的根据网页聚类的复杂度，采取CURE算法，定义两个网页的树编辑距离，计算过程为：网页聚类中产生的代表簇满足两个阈值，簇的全局自相似性满足阈值Ω_g，簇中两两网页间的列相似度满足阈值Ω_e，伪代码如下：Cluster Page(page Set，Ω_g，Ω_e)     let mi_j be the distance of Pi and P_jin the page Set     Initialize each page to a group and put it into the set of groups G     while (G>1) do     choose A，B∈G, a pair of groups which maximize the auto-similarity measure s(A∪B)     if s(A∪B)>Ω_g &&∈i，j∈A∪B,cs(i,j)>Ω_e        then     remove A and B from G      let Φ=A∪B     insert Φ into G     else break     end while     return G
根据情况设置Ω_g和Ω_e值。
所述的生成抽取模板，分为两个网页的模板的生成和多网页模板生成；
两个网页模板的生成：利用DOM树的相似性算法，在计算编辑距离的同时，生成一个节点映射集合，获得树节点T₁和T₂之间距离最小的子树匹配情况，把这些匹配情况作为一个列表返回，当T₁和T₂不匹配时，返回的列表为空；当T₁和T₂至少有一个没有子节点时，返回的列表只包含T₁和T₂的匹配；T₁和T₂分别是第一个网页和第二个网页的树节点；
多个网页的模板的生成：建立在两个网页的模板生成基础上，选取一个网页作为初始模板，根据其他网页逐步调整模板，通过统计方法得到最后的模板，利用最后模板生成抽取网页信息的包装器。
所述的多个网页的模板的生成过程为：
初始模板的选取，结合网页聚类的算法，对于网页聚类结果簇集合C={P₀，P₁，…，P_k}；
根据其他网页调整和修正该模板，网页的顺序从节点数最多处开始，依次往下，算法的伪代码如下所示：
Generate Template(page Set, λ)      template←the page which have the maximum potential template nodes   Delete the selected template from page Set    Sort the pages of page Set by the number of nodes in descending order   Mark a integer field appear Count of all nodes in template to 1        for each page p in page Set do       es(template, p)     match Nodes Set=get Match Nodes(template, p)         for each node pair'(nt，np) in match Nodes Set do       set nt.appear Count=nt.appearCount+1       align Template(nt，np)         end
mini Count=ceil((pageSet.count+1)*λ)   discard the nodes whose appear Count is less than mini Count   return template
通过统计方法得到最后的模板，利用最后模板生成抽取网页信息的包装器。
本发明的有益之处是：本发明基于DOM的抽取技术上，根据对树的相似度比较对网页进行聚类分析，从而分类出网页结构相似度较高的网页簇，实现一个高精度的Web信息自动抽取系统，并通过大量的测试网页集对这些算法进行实验和评估，Web信息自动抽取应用了可选节点对模板的修正和调整，以提高内容节点的正确标识。实验结果表明，该方法能够自动寻找并抽取网页主要信息，与同类技术相比具有算法构造简单、准确率高等优势。
附图说明
图1本发明方法的流程示意图。
具体实施方式
结合附图对本发明做进一步说明。
一种基于网页聚类的Web信息自动抽取方法：
对动态网页集合进行页面预处理：首先，要对页面进行处理。对于抓取的网页，并不能直接转化成一个DOM树，因为HTML网页的格式通常不是规范的XML格式，因此需要将其先转化成XHTML格式。另外，Web中很多的网页都会存在标签上的错误，由于HTML的不规范性导致代码中存在的标签不配对也不影响页面的执行，并且很多标签是多余的。可以采用HTML Tidy来解决。Tidy是一个开源的HTML网页净化工具，它可以将HTML转化成XHTML，并能清除网页中的明显错误。
网页聚类：网页集合的聚类具有层次之间的分割嵌套的关系，形成一个树状结构，利用计算它们的编辑距离来比较HTML标签树的相似性；根据网页聚类的复杂度，采取相应的算法，定义两个网页的树编辑距离；
树编辑距离：对模型进行编辑。基于DOM模型的Web信息抽取技术的基础算法，就是比较两棵HTML标签树的相似性。采用比较两棵树相似性的方法，计算它们的编辑距离，找到两棵树之间权值最小的一个映射(mapping)，定义如下：
假设X是一棵树，X_[i]是树X中第i个字节点，则树T₁和T₂之间的映射满足有序数对(i，j)的集合。
对于网页集合的聚类，层次聚类过程不同由层次的分割聚类组成，层次之间的分割具有嵌套的关系，整个过程为一个树状结构。可以采用自底向上的层次算法称为凝聚层次算法，把每个单独的数据对象作为一个簇，每一步距离最近的簇对首先被合并，直到簇的个数满足要求。
网页聚类算法：例如聚类网页的数目为500～1000，在这个复杂度上，可以采用类CURE算法。网页聚类中产生的代表簇必须满足两个阈值。首先簇的全局自相似性必须满足阈值Ω_g，其次簇中两两网页间的列相似度必须满足阈值Ω_e，这个阈值的设定是为了避免出现新簇，虽有较高的全局自相似性，但簇内仍然包含了一些不相似对象的情况。可以将Ω_g和Ω_e值分别设置为0.9和0.8，整个过程算法的伪代码如下： Page(page Set，Ω_g，Ω_e)     let mi_j be the distance of Pi and P_jin the page Set     Initialize each page to a group and put it into the set of groups G     while (G>1) do     choose A，B∈G, a pair of groups which maximize the auto-similarity measure s(A∪B)     if s(A∪B)>Ω_g &&∈i，j∈A∪B,cs(i,j)>Ω_e        then     remove A and B from G      let Φ=A∪B     insert Φ into G     else break     end while     return G
抽取模板生成：生成抽取模板。对于网页聚类后的每一个网页簇，都会生成一个对应的抽取模板，所有抽取模板组成了抽取系统的包装器。网页模板生成建立在两个网页模板生成的基础上。
两个网页的模板：生成两个网页的模板。利用DOM树的相似性算法，在计算编辑距离的同时，生成一个节点映射集合，获得树节点T₁和T₂之间距离最小的子树匹配情况，把这些匹配情况作为一个列表返回，当T₁和T₂不匹配时，返回的列表为空；当T₁和T₂至少有一个没有子节点时，返回的列表只包含T₁和T₂的匹配；T₁和T₂分别是第一个网页和第二个网页的树节点；
返回的两个网页的节点映射集合中的节点就是模板中的必需节点，而两个网页不在映射集合中的点是内容节点。如果是可选节点，就要把这些节点插入到模板中，可以把T₁认为是最终模板，然后把T₂的可选节点插入到T₁中。插入的算法是：对于任一T₂在映射中的节点P，获得它在T₁中的对应节点Q，遍历P的所有子节点C，如果节点C在T₁中存在映射节点D，则记录D节点在Q节点的子节点列表中的位置；如果节点C在T₁中不存在映射，则把节点C插入列表中最近一次记录的位置后面。
多网页模板生成：生成多个网页的模板。多网页模板生成算法建立在两个网页的模板生成算法之上。主要过程是选取一个网页作为初始模板，然后根据其他网页逐步调整模板，最后通过统计的方法得到模板，利用此模板生成抽取网页信息的包装器。
首先是初始模板的选取。结合网页聚类的算法，发现对于网页聚类结果簇集合C={P₀，P₁，…，P_k}；
有了初始模板，接下来就是根据其他网页调整和修正该模板。网页的顺序从节点数最多处开始，依次往下，算法的伪代码如下所示：
Generate Template(page Set, λ)      template←the page which have the maximum potential template nodes   Delete the selected template from page Set    Sort the pages of page Set by the number of nodes in descending order   Mark a integer field appear Count of all nodes in template to 1        for each page p in page Set do       es(template, p)     match Nodes Set=get Match Nodes(template, p)         for each node pair'(nt，np) in match Nodes Set do       set nt.appear Count=nt.appearCount+1       align Template(nt，np)         end
mini Count=ceil((pageSet.count+1)*λ)   discard the nodes whose appear Count is less than mini Count   return template
数据抽取：对要抽取的网页和包装器的相应模板进行编辑距离的计算，如果模板中的所有必需节点都在最后的映射中，说明该网页满足此包装器，则把与包装器指定的内容节点对应的网页内容部分抽取出来，模板中不是所有必需节点都在映射中，则通过计算编辑距离选取最相似的模板抽取网页信息。