一种网页文本还原系统及方法.pdf

摘要
申请专利号：	CN201010132456.5	申请日：	2010.03.26
公开号：	CN101783817A	公开日：	2010.07.21
当前法律状态：	终止	有效性：	无权
法律详情：	未缴年费专利权终止IPC(主分类):H04L 29/08申请日:20100326授权公告日:20130102终止日期:20160326\|\|\|授权\|\|\|实质审查的生效IPC(主分类):H04L 29/08申请日:20100326\|\|\|公开
IPC分类号：	H04L29/08; H04L29/06; G06F17/30	主分类号：	H04L29/08
申请人：	西南科技大学
发明人：	张晖; 孙海峰; 马建国
地址：	621010 四川省绵阳市涪城区青龙大道59号
优先权：
专利代理机构：	成都九鼎天元知识产权代理有限公司 51214	代理人：	林辉轮;熊晓果
PDF下载：	PDF下载

内容摘要

本发明公开了一种网页文本还原系统及方法，本系统工作于网络节点，其系统包括：一IP数据包捕获装置，用于对通过网络节点处的IP数据包进行捕获；一网页文本数据流识别装置，根据定义的数据流特征识别出IP数据包的网页文本数据流；一网页文本重组装置，对网页文本数据流进行解码、重组操作，将网页文本数据流还原成文本文件；所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。其方法包括IP数据包的捕获，网页文本数据流的识别以及网页文本的重组及存储。本发明的系统是一种专门的网页文本还原装置，而且还能将网页文本文件进行储存；本发明还具有数据流的实时处理能力。

权利要求书

1：一种网页文本还原系统，本系统工作于网络节点，其特征在于，包括一IP数据包捕获装置，用于对通过网络节点处的IP数据包进行捕获；一网页文本数据流识别装置，根据定义的数据流特征识别出IP数据包的网页文本数据流；一网页文本重组装置，对网页文本数据流进行解码、重组操作，将网页文本数据流还原成文本文件；所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。
2：根据权利要求1所述的网页文本还原系统，其特征在于，所述IP数据包捕获装置，包括一数据包镜像模块，用于将通过网络节点的IP数据包备份下来；一流抽取模块，接于数据包镜像模块后，用于将各独立的IP数据包按IP数据流属性进行组合，并将组合后的IP数据流传送至网页文本数据流识别装置进行网页文本数据的识别。
3：根据权利要求1所述的网页文本还原系统，其特征在于，所述网页文本数据流识别装置，包括一网页数据流识别模块，用于将组合后的IP数据流根据流特征进行网页数据流的识别；一数据流特征库，与网页数据流识别模块连接，为网页数据流识别模块的网页数据流的识别提供流特征；一网页数据流分割模块，与页数据流识别模块连接，用于将通过识别的网页数据流从IP数据流中分割出来，并将分割出来的网页文本数据传送至网页文本重组装置。
4：根据权利要求3所述的网页文本还原系统，其特征在于，所述流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html。
5：根据权利要求1所述的网页文本还原系统，其特征在于，还包括一网页文本存储装置，所述网页文本存储装置与网页文本重组装置连接，用于将还原的网页文本文件进行保存。
6：根据权利要求5所述的网页文本还原系统，其特征在于，所述网页文本存储装置包括硬盘或/和数据库。
7：一种网页文本还原方法，其特征在于，包括步骤：步骤S1，对存储http网页数据流的缓存区进行初始化处理；步骤S2，获取一个IP数据包，并根据流特征进行http数据过滤，然后根据http协议标准进行数据包的头域分析；步骤S3，根据分析结果判断是否为网页数据流的IP数据包，若不是，进行步骤S6，若是，则进行：步骤S4，判断网页数据流的IP数据包是否是按序到达的，若是，进行步骤S7，若不是，进行：步骤S5，对失序包进行处理，使之按序列号重新排序后进行步骤S7；步骤S6，创建新的网页数据流；步骤S7，判断是否为网页数据流的最后一个IP数据包，若不是，返回进行步骤S2，若是，则进行：步骤S8，进行网页文本信息的还原。
8：根据权利要求6所述的网页文本还原方法，其特征在于，步骤S2所述的IP数据流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html。

说明书

一种网页文本还原系统及方法
    【技术领域】

    本发明涉及一种网页信息还原技术，尤其是一种网页文本的还原系统及还原方法。

    背景技术

    随着互联网技术的发展,网页所承载的信息量和信息种类越来越丰富,从客户所浏览的网页内容可以挖掘相当丰富的信息资源，而网页信息是由网络数据流承载的。网络数据流是指从一个源进程发送到一个目的进程的IP数据报序列，是具有某些相同属性（源IP、源端口、目的IP、目的端口、协议）的IP数据报集合，并且这些数据报的超时时间会在一个较小且固定的间隔内（比如60秒）。通过分析发现，网页的数据流有多个，而文本内容只是多个数据流中的其中一个。

    网页的文本信息有多种应用研究，例如可以进行网络舆情分析、内容监管、文本挖掘等应用研究，因此就需要将网页浏览产生的大量实时数据流处理成网页文本形式。

    目前获取网页内容的技术一般可以分为主动方式和被动方式。被动方式如各种网络嗅探器，将通过嗅探节点的数据进行解码还原。网络嗅探器一般仅能进行单个的数据包的解码，不具备数据流处理能力，更没有专门的网页文本还原装置。主动方式广泛用于搜索引擎，需要利用爬虫抓取网页，不能用于网络节点网页获取。

    【发明内容】

    本发明的目的是提供一网页文本还原系统及方法，这种系统是一种专门的网页文本还原装置，而且还能将网页文本文件进行储存；本发明还具有数据流的实时处理能力。

    本发明的技术方案如下：

    一种网页文本还原系统，本系统工作于网络节点，其包括：一IP数据包捕获装置，用于对通过网络节点处的IP数据包进行捕获；一网页文本数据流识别装置，根据定义的数据流特征识别出IP数据包的网页文本数据流；一网页文本重组装置，对网页文本数据流进行解码、重组操作，将网页文本数据流还原成文本文件；所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。

    所述IP数据包捕获装置，包括一数据包镜像模块，用于将通过网络节点的IP数据报备份下来；一流抽取模块，接于数据包镜像模块后，用于将各独立的IP数据包按IP数据流属性进行组合，并将组合后的IP数据流传送至网页文本数据流识别装置进行网页文本数据的识别。

    所述网页文本数据流识别装置，包括一网页数据流识别模块，用于将组合后的IP数据流根据流特征进行网页数据流的识别；一数据流特征库，与网页数据流识别模块连接，为网页数据流识别模块的网页数据流识别提供流特征；一网页数据流分割模块，与页数据流识别模块连接，用于将通过识别的网页数据流从IP数据流中分割出来，并将分割出来的网页文本数据传送至网页文本重组装置。

    本发明还包括一网页文本存储装置，所述网页文本存储装置与网页文本重组装置连接，用于将还原的网页文本文件进行保存。更具体的，所述网页文本存储装置包括硬盘或/和数据库。

    一种网页文本还原方法，包括步骤：

    步骤S1，对存储http网页数据流的缓存区进行初始化处理；

    步骤S2，获取一个IP数据包，并根据流特征进行http数据过滤，然后根据http协议标准进行数据包的头域分析，所述的IP数据流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html；

    步骤S3，根据分析结果判断是否为网页数据流的IP数据包，若不是，进行步骤S6，若是，则进行：

    步骤S4，判断网页数据流的IP数据包是否是按序到达的，若是，进行步骤S7，若不是，进行：

    步骤S5，对失序包进行处理，使之按序列号重新排序后进行步骤S7；

    步骤S6，创建新的网页数据流；

    步骤S7，判断是否为网页数据流的最后一个IP数据包，若不是，返回进行步骤S2，若是，则进行：

    步骤S8，进行网页文本信息的还原。

    【附图说明】

    本发明将通过例子并参照附图的方式说明，其中：

    图1是本发明网页文本还原系统在网络中应用原理图；

    图2是本发明网页文本还原系统原理框图；

    图3是本发明网页文本还原方法流程图。

    【具体实施方式】

    本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

    本说明书（包括任何附加权利要求、摘要和附图）中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中地一个例子而已。

    如图1所示，本发明的一种网页文本还原系统工作于网络节点上，本系统既可以直接安装在网关设备上，也可以增加新设备串接或旁路到原有的通讯线路，以确保能够捕获所有通过网关设备的数据包。

    本发明的一种网页文本还原系统原理框图如图2所示。一种网页文本还原系统，其包括：一IP数据包捕获装置，用于对通过网络节点处的IP数据包进行捕获；一网页文本数据流识别装置，根据定义的数据流特征识别出IP数据包的网页文本数据流；一网页文本重组装置，通过对TCP序列号排序、过滤http协议头得到净载荷，对网页文本数据流进行解码、重组等操作，将网页文本数据流还原成文本文件；所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。

    所述IP数据包捕获装置，包括一数据包镜像模块，用于将通过网络节点的IP数据包备份下来；一流抽取模块，接于数据包镜像模块后，用于将各独立的IP数据包按IP数据流属性进行组合，并将组合后的IP数据流传送至网页文本数据流识别装置进行网页文本数据的识别。所述IP数据流属性包括源IP、源端口、目的IP、目的端口、传输协议。在本发明中，可以对数据流通过实时流处理进行网页文本的还原，还可以对镜像保存后的数据流进行网页文本的还原。

    所述网页文本数据流识别装置，包括一网页数据流识别模块，用于将组合后的IP数据流根据流特征进行网页数据流的识别；一数据流特征库，与网页数据流识别模块连接，为网页数据流识别模块的网页数据流识别提供流特征；一网页数据流分割模块，与页数据流识别模块连接，用于将通过识别的网页数据流从IP数据流中分割出来，为进行文本重组删除多余的信息，并将分割出来的网页文本数据传送至网页文本重组装置。所述流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html。

    本发明还包括一网页文本存储装置，所述网页文本存储装置与网页文本重组装置连接，用于将还原的网页文本文件进行保存，以便进行后续的处理操作。更具体的，所述网页文本存储装置包括硬盘或/和数据库。

    本发明的一种网页文本还原方法，包括步骤：

    步骤S1，对存储http网页数据流的缓存区进行初始化处理；

    步骤S2，通过实时捕获或从镜像文件（抓取数据包的保存文件）中取得一个IP数据包，并根据流特征进行http数据过滤，然后根据http协议标准进行数据包的头域分析，所述的流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html；

    步骤S3，根据分析结果判断是否为网页数据流的IP数据包，若不是，进行步骤S6，若是，则进行：

    步骤S4，判断网页数据流的IP数据包是否是按序到达的，若是，进行步骤S7，若不是，进行：

    步骤S5，对失序包进行处理，使之按序列号重新排序后进行步骤S7；

    步骤S6，创建新的网页数据流；

    步骤S7，判断是否为网页数据流的最后一个IP数据包，若不是，返回进行步骤S2继续抓取下一个数据包，若是，则进行：

    步骤S8，进行网页文本信息的还原。

    本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。