启发式多特征规则集网页分块方法.pdf

上传人:Y94****206 文档编号:6000126 上传时间:2019-04-02 格式:PDF 页数:12 大小:630.45KB
返回 下载 相关 举报
摘要
申请专利号:

CN201611110969.X

申请日:

2016.12.06

公开号:

CN106802914A

公开日:

2017.06.06

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20161206|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

中国电子科技集团公司第三十二研究所

发明人:

查修齐; 麦秀青; 高元钧; 王千; 于华祥

地址:

200233 上海市嘉定区嘉罗路1485号

优先权:

专利代理机构:

上海汉声知识产权代理有限公司 31236

代理人:

郭国中

PDF下载: PDF下载
内容摘要

本发明提供了一种启发式多特征规则集网页分块方法,其包括以下步骤:步骤一,调用VIPS算法将待操作的网页生成页面的块结构树;步骤二,根据启发式多特征规则集对结构树进行裁剪;步骤三,生成语义独立的块列表。本发明不需要事先定义PDoC值,方法简单可靠,网页分块效果好,便于服务器进行页面转换或使用网页缩略图,使移动端访问互联网的内容,并且在分块过程中获取了每个块的结构信息和内容信息,便于后续进行Web页面信息的提取和页面内容的重组。

权利要求书

1.一种启发式多特征规则集网页分块方法,其特征在于,其包括以下步骤:
步骤一,调用VIPS算法将待操作的网页生成页面的块结构树;
步骤二,根据启发式多特征规则集对结构树进行裁剪;
步骤三,生成语义独立的块列表;
步骤二包括以下判断过程:
过程一,根据块间语义距离的推理规则确定当前块是否要继续分隔;
过程二,若过程一的结果为否,继续按照分割流程来判断是否继续分割;
过程三,将不需要分割的节点纳入块列表,需要分割的块对它的子节点同样进行检查;
推理规则包括以下规则:
规则一,两个节点所对应块的语义距离初始为零;
规则二,如果两个页面块的距离越远,则两个页面块的语义关系越不紧密;
规则三,如果两个页面块的背景色不同,但两个页面块相邻且两个页面块的宽度相差
不超过30%且上面块的面积大于下面块的面积的一百倍,那么两个页面块间语义距离保持
不变;
规则四,如果两个页面块的背景色不同且不是规则三的情况,那么两个页面块的语义
关系不紧密,两个页面块间语义距离值加一;
规则五,如果两个页面块的字体大小不同且两个页面块不是上下相邻,那么两个页面
块间语义距离值加一;
规则六,如果两个页面块的字体不同,两个页面块上下相邻,上面块的面积的一百倍小
于下面块的面积,上面块的字体小于下面块的字体,那么两个页面块间语义距离值加一;
规则七,如果两个页面块的字体不同,两个页面块上下相邻,上面块的面积大于下面块
的面积,那么两个页面块间语义距离值加一;
规则八,如果两个页面块的字体大小不同,两个页面块上下相邻且上面块的面积和下
面块的面积相差不超过30%,那么两个页面块间语义距离值加一;
规则九,如果两个页面块的字体重量不同且两个页面块不是上下相邻,那么两个页面
块间语义距离值加一;
规则十,如果两个页面块的字体重量不同,两个页面块上下相邻,上面块的面积的一百
倍小于下面块的面积,上面块的字体重量小于下面块的字体重量,那么两个页面块间语义
距离值加一;
规则十一,如果两个页面块的字体重量不同,两个页面块上下相邻,上面块的面积大于
下面块的面积,那么两个页面块间语义距离值加一;
规则十二,如果两个页面块的字体重量不同,两个页面块上下相邻且上面块的面积和
下面块的面积相差不超过30%,那么两个页面块间语义距离值加一;
规则十三,如果两个页面块不是兄弟块且其中一个块的父节点与另外一块为兄弟节
点,那么两个页面块间语义距离等于父节点与其的块间语义距离加上父块与兄弟块间的语
义距离;
分割流程包括以下流程:
流程一,若该块的内聚度为十一,则表明该块已经是叶子节点,不需要继续分割,否则
进入流程二;
流程二,若该块是一个列表类型,则停止分割,以该节点为父节点的子树被裁减掉,否
则进入流程三;
流程三,若该块是一个横向滚动条列表类型,则停止分割,以该节点为父节点的子树被
裁减掉,否则进入流程四;
流程四,若该块的所有孩子节点的内聚度都是十一,则停止分割,以该节点为父节点的
子树被裁减掉,否则进入流程五;
流程五,若该块的孩子节点是左右相邻的,则该块需要继续分割,否则进入流程六;
流程六,若该块的内聚度与其所有孩子节点的内聚度一致,表明父块内部结构的紧密
程度与子块类似,则停止分割,以该节点为父节点的子树被裁减掉,否则进入流程七;
流程七,若该块有两个孩子,其中一个孩子节点的DoC值为十一,另一个孩子节点的DoC
值与当前块值一致,且该孩子节点的孩子不是左右相邻的,则停止分割,以该节点为父节点
的子树被裁减掉,否则进入流程八;
流程八,若上述流程中的条件都不满足,则该块需要继续分割,遍历其孩子节点,继续
判断。
2.根据权利要求1所述的启发式多特征规则集网页分块方法,其特征在于,所述步骤三
在生成语义独立的块列表的过程中获取每个块的结构信息和内容信息。

说明书

启发式多特征规则集网页分块方法

技术领域

本发明涉及一种页面分块方法,具体地,涉及一种启发式多特征规则集网页分块
方法。

背景技术

近年来,移动通信技术和互联网技术的发展和广泛应用,对人们的生活方式产生
巨大影响。移动通信技术使人与人之间能够随时随地进行沟通,而互联网的发展使人们能
迅速、快捷地获取丰富的信息资源。两种技术的结合使人们无论何时何地能通过移动终端
自由地访问互联网的信息资源。目前绝大部分Web(网页)页面是为传统个人电脑而设计的,
包括台式电脑和笔记本电脑,它们具有较大的屏幕和高分辨率。然而由于屏幕大小的物理
局限、内存大小和无线网络带宽等因素的限制,移动终端直接访问已有的Web页面难以正常
显示页面,Web页面的二维布局不适合移动终端屏幕显示。目前通常通过两种手段来解决这
种问题:通过服务器进行页面转换或者使用网页缩略图。前者首先将用户访问的页面进行
分页和转换,然后将分页的结果提交给移动设备;后者则是将整个Web页面生成缩略图,整
个页面被分割为数目不等的区域,用户如果对特定区域感兴趣,则可以再次访问该区域的
内容。通过这两个策略,基本可以完成移动终端访问互联网的内容,但是核心内容就是对页
面进行语义分割。

如何对Web页面进行有效的分页,目前提出的VIPS(基于视觉信息的网页分块)算
法,充分利用了页面的布局特点并从语义层次对页面进行划分,将视觉提示信息和DOM(文
档对象模块)结合起来推断出可视化的内容结构。该算法以预定义的PDoC(页面预先定义的
内聚度阀值,Permitted DegreeofCoherence)值作为迭代的终止条件,当各块的内聚度值
大于PDoC值是迭代终止,预定义的终止条件影响了分块的效果。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种启发式多特征规则集网页分块
方法,其不需要事先定义PDoC值,方法简单可靠,网页分块效果好,便于服务器进行页面转
换或使用网页缩略图,使移动端访问互联网的内容,并且在分块过程中获取了每个块的结
构信息和内容信息,便于后续进行Web页面信息的提取和页面内容的重组。

根据本发明的一个方面,提供启发式多特征规则集网页分块方法,其特征在于,其
包括以下步骤:

步骤一,调用VIPS算法将待操作的网页生成页面的块结构树;

步骤二,根据启发式多特征规则集对结构树进行裁剪;

步骤三,生成语义独立的块列表;

步骤二包括以下判断过程:

过程一,根据块间语义距离的推理规则确定当前块是否要继续分隔;

过程二,若过程一的结果为否,继续按照分割流程来判断是否继续分割;

过程三,将不需要分割的节点纳入块列表,需要分割的块对它的子节点同样进行
检查;

推理规则包括:

规则一,两个节点所对应块的语义距离初始为零;

规则二,如果两个页面块的距离越远,则两个页面块的语义关系越不紧密;

规则三,如果两个页面块的背景色不同,但两个页面块相邻且两个页面块的宽度
相差不超过30%且上面块的面积大于下面块的面积的一百倍,那么两个页面块间语义距离
保持不变;

规则四,如果两个页面块的背景色不同且不是规则三的情况,那么两个页面块的
语义关系不紧密,两个页面块间语义距离值加一;

规则五,如果两个页面块的字体大小不同且两个页面块不是上下相邻,那么两个
页面块间语义距离值加一;

规则六,如果两个页面块的字体不同,两个页面块上下相邻,上面块的面积的一百
倍小于下面块的面积,上面块的字体小于下面块的字体,那么两个页面块间语义距离值加
一;

规则七,如果两个页面块的字体不同,两个页面块上下相邻,上面块的面积大于下
面块的面积,那么两个页面块间语义距离值加一;

规则八,如果两个页面块的字体大小不同,两个页面块上下相邻且上面块的面积
和下面块的面积相差不超过30%,那么两个页面块间语义距离值加一;

规则九,如果两个页面块的字体重量不同且两个页面块不是上下相邻,那么两个
页面块间语义距离值加一;

规则十,如果两个页面块的字体重量不同,两个页面块上下相邻,上面块的面积的
一百倍小于下面块的面积,上面块的字体重量小于下面块的字体重量,那么两个页面块间
语义距离值加一;

规则十一,如果两个页面块的字体重量不同,两个页面块上下相邻,上面块的面积
大于下面块的面积,那么两个页面块间语义距离值加一;

规则十二,如果两个页面块的字体重量不同,两个页面块上下相邻且上面块的面
积和下面块的面积相差不超过30%,那么两个页面块间语义距离值加一;

规则十三,如果两个页面块不是兄弟块且其中一个块的父节点与另外一块为兄弟
节点,那么两个页面块间语义距离等于父节点与其的块间语义距离加上父块与兄弟块间的
语义距离;

分割流程包括:

流程一,若该块的内聚度为十一,则表明该块已经是叶子节点,不需要继续分割,
否则进入流程二;

流程二,若该块是一个列表类型,则停止分割,以该节点为父节点的子树被裁减
掉,否则进入流程三;

流程三,若该块是一个横向滚动条列表类型,则停止分割,以该节点为父节点的子
树被裁减掉,否则进入流程四;

流程四,若该块的所有孩子节点的内聚度都是十一,则停止分割,以该节点为父节
点的子树被裁减掉,否则进入流程五;

流程五,若该块的孩子节点是左右相邻的,则该块需要继续分割,否则进入流程
六;

流程六,若该块的内聚度与其所有孩子节点的内聚度一致,表明父块内部结构的
紧密程度与子块类似,则停止分割,以该节点为父节点的子树被裁减掉,否则进入流程七;

流程七,若该块有两个孩子,其中一个孩子节点的DoC值为十一,另一个孩子节点
的DoC值与当前块值一致,且该孩子节点的孩子不是左右相邻的,则停止分割,以该节点为
父节点的子树被裁减掉,否则进入流程八;

流程八,若上述流程中的条件都不满足,则该块需要继续分割,遍历其孩子节点,
继续判断。

优选地,所述步骤三在生成语义独立的块列表的过程中获取每个块的结构信息和
内容信息。

与现有技术相比,本发明具有如下的有益效果:本发明不需要事先定义PDoC值,方
法简单可靠,网页分块效果好,便于服务器进行页面转换或使用网页缩略图,使移动端访问
互联网的内容,并且在分块过程中获取了每个块的结构信息和内容信息,便于后续进行Web
页面信息的提取和页面内容的重组。本发明方便服务器进行页面转换或是使用网页缩略
图,从而完成移动终端访问互联网内容。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、
目的和优点将会变得更明显:

图1为本发明的步骤流程图。

图2为本发明判断块节点是否需要分割的流程图。

图3为本发明耦合度随分割层次的变化曲线图。

图4为本发明内聚度随分割层次的变化曲线图。

图5为本发明J值随分割层次的变化曲线图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术
人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术
人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明
的保护范围。

如图1所示,本发明启发式多特征规则集网页分块方法包括以下步骤:

步骤一,调用VIPS算法将待操作的网页生成页面的块结构树,将页面内聚度PDoC
值设置为允许的最大值;

步骤二,根据启发式多特征规则集对结构树进行裁剪;

步骤三,生成语义独立的块列表;

步骤二包括以下判断过程:

过程一,根据块间语义距离的推理规则确定当前块是否要继续分隔;

过程二,若过程一的结果为否,继续按照分割流程来判断是否继续分割;

过程三,将不需要分割的节点纳入块列表,需要分割的块对它的子节点同样进行
检查;

调用VIPS算法后,每个页面由树表示,树的每个节点对应于一个块,每个块由其结
构信息、内容信息和内聚度组成,深度遍历块结构树,根据启发式多特征规则集对结构树进
行裁剪,在每次迭代中,检查结构树当前层的每个块节点,确定它是否需要继续分割,如果
能,则对它的子节点进行同样的检查,如果不能,则裁剪掉以该节点为父节点的子树;

推理规则包括以下规则:

规则一,两个节点所对应块的语义距离初始为零;

规则二,如果两个页面块的距离越远,则两个页面块的语义关系越不紧密,假设两
个页面块间的距离为distance,故两个页面块间的语义距离增加distanc/l,其中1是规范
因子,是整个页面的对角线长度;

规则三,如果两个页面块的背景色不同,但两个页面块相邻且两个页面块的宽度
相差不超过30%且上面块的面积大于下面块的面积的一百倍,那么两个页面块间语义距离
保持不变;

规则四,如果两个页面块的背景色不同且不是规则三的情况,那么两个页面块的
语义关系不紧密,两个页面块间语义距离值加一;

规则五,如果两个页面块的字体大小不同且两个页面块不是上下相邻,那么两个
页面块间语义距离值加一;

规则六,如果两个页面块的字体不同,两个页面块上下相邻,上面块的面积的一百
倍小于下面块的面积,上面块的字体小于下面块的字体,那么两个页面块间语义距离值加
一;

规则七,如果两个页面块的字体不同,两个页面块上下相邻,上面块的面积大于下
面块的面积,那么两个页面块间语义距离值加一;

规则八,如果两个页面块的字体大小不同,两个页面块上下相邻且上面块的面积
和下面块的面积相差不超过30%,那么两个页面块间语义距离值加一;

规则九,如果两个页面块的字体重量不同且两个页面块不是上下相邻,那么两个
页面块间语义距离值加一;

规则十,如果两个页面块的字体重量不同,两个页面块上下相邻,上面块的面积的
一百倍小于下面块的面积,上面块的字体重量小于下面块的字体重量,那么两个页面块间
语义距离值加一;

规则十一,如果两个页面块的字体重量不同,两个页面块上下相邻,上面块的面积
大于下面块的面积,那么两个页面块间语义距离值加一;

规则十二,如果两个页面块的字体重量不同,两个页面块上下相邻且上面块的面
积和下面块的面积相差不超过30%,那么两个页面块间语义距离值加一;

规则十三,如果两个页面块不是兄弟块且其中一个块的父节点与另外一块为兄弟
节点,那么两个页面块间语义距离等于父节点与其的块间语义距离加上父块与兄弟块间的
语义距离;

分割流程包括以下流程:

流程一,若该块的内聚度为十一,则表明该块已经是叶子节点,不需要继续分割,
否则进入流程二;

流程二,若该块是一个列表类型,则停止分割,以该节点为父节点的子树被裁减
掉,否则进入流程三;

流程三,若该块是一个横向滚动条列表类型,则停止分割,以该节点为父节点的子
树被裁减掉,否则进入流程四;

流程四,若该块的所有孩子节点的内聚度都是十一,则停止分割,以该节点为父节
点的子树被裁减掉,否则进入流程五;

流程五,若该块的孩子节点是左右相邻的,则该块需要继续分割,否则进入流程
六;

流程六,若该块的内聚度与其所有孩子节点的内聚度一致,表明父块内部结构的
紧密程度与子块类似,则停止分割,以该节点为父节点的子树被裁减掉,否则进入流程七;

流程七,若该块有两个孩子,其中一个孩子节点的DoC值为十一,另一个孩子节点
的DoC值与当前块值一致,且该孩子节点的孩子不是左右相邻的,则停止分割,以该节点为
父节点的子树被裁减掉,否则进入流程八;

流程八,若上述流程中的条件都不满足,则该块需要继续分割,遍历其孩子节点,
继续判断。

块间的耦合度可以根据块间语义距离来确定,耦合度的计算公式如下式(1):


公式(1)中,DoCL是块间的耦合度,SD是块间的语义距离。块间的语义距离用来衡
量两个页面块之间的语义相关性,距离越大,说明两个页面块语义上越不相关。耦合度用来
衡量页面块间语义的紧密关系。与块间语义距离块相反,块间语义距离越大,块间的耦合度
就越小。

如图3至图4所示,当块较大的时候,由于块包含的主题较多,与其他块的语义有部
分重叠,故块间的耦合度比较大,随着块的分割,每个块的语义越来越单一,与其他块的语
义重叠部分较少,使得块间的耦合度不断地减少,但是如果块分割的过细,就会破坏语义的
完整性,使得块间的耦合度增大,因此,随着分割层次的增加,当前叶子节点对应块之间的
平均耦合度会不断地减少,直到达到最小值,然后会随着分割层次的增加不断地增大。内聚
度是用来衡量块内部结构紧密性的,子块的内聚度总是大于或等于父块的内聚度,内聚度
总是随着块的分割不断地增大,当块分割到一定的程度,其内聚度达到允许的最大值,因
此,叶子节点对应块的平均内聚度则会随着分割层次的增加不断地增大,直到达到最大值。

根据耦合度和内聚度的变化趋势可以看出对于页面分割而言,当块与其他块的耦
合度值较低,同时块的内聚度比较高的时候,页面的分割最好,因此根据内聚度高,耦合度
低的原则,进行最大化下面的目标函数J,如下式(2):


公式(2)中,avg_DoCL是所有节点所对应块间的耦合度的平均值,如下式(3):


在一个有k个节点的集合块里,两两配对且不重复,则第1个节点与它配对的有k-1
个块,第2个节点与它配对的有k-2个块,依次类推,则第k-1个节点与它配对的只有1个块,
即第k个节点,所以一共有1+2+3+……k-1=k(k-1)/2对组合,而DoCL(i,j)代表集合块里节
点i和节点j间的耦合度,∑i=1..k∑j≠i DoCL(i,j)表示所有配对块之间的耦合度值的总和,
所以所有节点所对应块间的耦合度的平均值就是耦合度值的总和除以块间配对组合数,即
公式(3)的表达。

avg_Doc是指所有节点所对应块的内聚度的平均值,如下式(4):


在一个有k个节点的集合块里,DoC(i)表示集合块里第i个节点的内聚度值,
Σi=i..k DoC(i)表示所有k个节点内聚度值的总和,而集合里共有k个节点,所以所有节点所
对应块的内聚度的平均值就是内聚度值的总和除以节点的个数,即公式(4)的表达。

目标函数J值的变化趋势如图5所示,对块结构树的每个节点进行检查,将分割前
的J值Jbefore与分割后的J值Jafter进行比较,每次比较只考虑分割带来的局部影响,即某节点
分割后对其兄弟节点的影响。假设有两个页面块集合A和B,A为某节点与其兄弟节点,B为某
节点的子节点与该节点的兄弟节点,|A|表示集合A的大小,|B|表示集合B的大小,Jbefore是
集合A中所有块的J值Jafter是集合B中所有块的J值,如果Jbefore≥Jafter,则该节点停止分割,
以该节点为父节点的子树被裁减掉。

所述步骤三在生成语义独立的块列表的过程中获取每个块的结构信息和内容信
息,这样便于后续进行Web页面信息的提取和页面内容的重组。

VIPS算法对页面进行划分,是通过预先定义的阀值PDoC控制分块的粒度。当PDoC
值较大,页面块分的很细,当PDoC较小时,页面块分的很细。但对于不同的页面,采用同一
PDoC值,会导致部页面块分得过细,而部分页面块分得过粗。而本发明不需要事先定义PDoC
值,并且能够取得近似于或好于取最佳PDoC值的VIPS划分效果。

本发明在分块的过程中会获取每个块的结构信息:<起始点坐标,宽度,高度,字体
大小,字体权重>,和内容信息:<图片数,图片大小,链接数,链接文字树,总文字,总文字长
度,<Form>标签文字>,以便后续进行Web页面信息提取和页面内容重组。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述
特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影
响本发明的实质内容。

启发式多特征规则集网页分块方法.pdf_第1页
第1页 / 共12页
启发式多特征规则集网页分块方法.pdf_第2页
第2页 / 共12页
启发式多特征规则集网页分块方法.pdf_第3页
第3页 / 共12页
点击查看更多>>
资源描述

《启发式多特征规则集网页分块方法.pdf》由会员分享,可在线阅读,更多相关《启发式多特征规则集网页分块方法.pdf(12页珍藏版)》请在专利查询网上搜索。

本发明提供了一种启发式多特征规则集网页分块方法,其包括以下步骤:步骤一,调用VIPS算法将待操作的网页生成页面的块结构树;步骤二,根据启发式多特征规则集对结构树进行裁剪;步骤三,生成语义独立的块列表。本发明不需要事先定义PDoC值,方法简单可靠,网页分块效果好,便于服务器进行页面转换或使用网页缩略图,使移动端访问互联网的内容,并且在分块过程中获取了每个块的结构信息和内容信息,便于后续进行Web页面。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1