一种网页文本还原系统及方法.pdf

上传人:xia****o6 文档编号:971979 上传时间:2018-03-22 格式:PDF 页数:9 大小:438.11KB
返回 下载 相关 举报
摘要
申请专利号:

CN201010132456.5

申请日:

2010.03.26

公开号:

CN101783817A

公开日:

2010.07.21

当前法律状态:

终止

有效性:

无权

法律详情:

未缴年费专利权终止IPC(主分类):H04L 29/08申请日:20100326授权公告日:20130102终止日期:20160326|||授权|||实质审查的生效IPC(主分类):H04L 29/08申请日:20100326|||公开

IPC分类号:

H04L29/08; H04L29/06; G06F17/30

主分类号:

H04L29/08

申请人:

西南科技大学

发明人:

张晖; 孙海峰; 马建国

地址:

621010 四川省绵阳市涪城区青龙大道59号

优先权:

专利代理机构:

成都九鼎天元知识产权代理有限公司 51214

代理人:

林辉轮;熊晓果

PDF下载: PDF下载
内容摘要

本发明公开了一种网页文本还原系统及方法,本系统工作于网络节点,其系统包括:一IP数据包捕获装置,用于对通过网络节点处的IP数据包进行捕获;一网页文本数据流识别装置,根据定义的数据流特征识别出IP数据包的网页文本数据流;一网页文本重组装置,对网页文本数据流进行解码、重组操作,将网页文本数据流还原成文本文件;所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。其方法包括IP数据包的捕获,网页文本数据流的识别以及网页文本的重组及存储。本发明的系统是一种专门的网页文本还原装置,而且还能将网页文本文件进行储存;本发明还具有数据流的实时处理能力。

权利要求书

1: 一种网页文本还原系统,本系统工作于网络节点,其特征在于,包括 一IP数据包捕获装置,用于对通过网络节点处的IP数据包进行捕获; 一网页文本数据流识别装置,根据定义的数据流特征识别出IP数据包的网页文本数据流; 一网页文本重组装置,对网页文本数据流进行解码、重组操作,将网页文本数据流还原成文本文件; 所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。
2: 根据权利要求1所述的网页文本还原系统,其特征在于,所述IP数据包捕获装置,包括 一数据包镜像模块,用于将通过网络节点的IP数据包备份下来; 一流抽取模块,接于数据包镜像模块后,用于将各独立的IP数据包按IP数据流属性进行组合,并将组合后的IP数据流传送至网页文本数据流识别装置进行网页文本数据的识别。
3: 根据权利要求1所述的网页文本还原系统,其特征在于,所述网页文本数据流识别装置,包括 一网页数据流识别模块,用于将组合后的IP数据流根据流特征进行网页数据流的识别; 一数据流特征库,与网页数据流识别模块连接,为网页数据流识别模块的网页数据流的识别提供流特征; 一网页数据流分割模块,与页数据流识别模块连接,用于将通过识别的网页数据流从IP数据流中分割出来,并将分割出来的网页文本数据传送至网页文本重组装置。
4: 根据权利要求3所述的网页文本还原系统,其特征在于,所述流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html。
5: 根据权利要求1所述的网页文本还原系统,其特征在于,还包括一网页文本存储装置,所述网页文本存储装置与网页文本重组装置连接,用于将还原的网页文本文件进行保存。
6: 根据权利要求5所述的网页文本还原系统,其特征在于,所述网页文本存储装置包括硬盘或/和数据库。
7: 一种网页文本还原方法,其特征在于,包括步骤: 步骤S1,对存储http网页数据流的缓存区进行初始化处理; 步骤S2,获取一个IP数据包,并根据流特征进行http数据过滤,然后根据http协议标准进行数据包的头域分析; 步骤S3,根据分析结果判断是否为网页数据流的IP数据包,若不是,进行步骤S6,若是,则进行: 步骤S4,判断网页数据流的IP数据包是否是按序到达的,若是,进行步骤S7,若不是,进行: 步骤S5,对失序包进行处理,使之按序列号重新排序后进行步骤S7; 步骤S6,创建新的网页数据流; 步骤S7,判断是否为网页数据流的最后一个IP数据包,若不是,返回进行步骤S2,若是,则进行: 步骤S8,进行网页文本信息的还原。
8: 根据权利要求6所述的网页文本还原方法,其特征在于,步骤S2所述的IP数据流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html。

说明书


一种网页文本还原系统及方法

    【技术领域】

    本发明涉及一种网页信息还原技术,尤其是一种网页文本的还原系统及还原方法。

    背景技术

    随着互联网技术的发展,网页所承载的信息量和信息种类越来越丰富,从客户所浏览的网页内容可以挖掘相当丰富的信息资源,而网页信息是由网络数据流承载的。网络数据流是指从一个源进程发送到一个目的进程的IP数据报序列,是具有某些相同属性(源IP、源端口、目的IP、目的端口、协议)的IP数据报集合,并且这些数据报的超时时间会在一个较小且固定的间隔内(比如60秒)。通过分析发现,网页的数据流有多个,而文本内容只是多个数据流中的其中一个。

    网页的文本信息有多种应用研究,例如可以进行网络舆情分析、内容监管、文本挖掘等应用研究,因此就需要将网页浏览产生的大量实时数据流处理成网页文本形式。

    目前获取网页内容的技术一般可以分为主动方式和被动方式。被动方式如各种网络嗅探器,将通过嗅探节点的数据进行解码还原。网络嗅探器一般仅能进行单个的数据包的解码,不具备数据流处理能力,更没有专门的网页文本还原装置。主动方式广泛用于搜索引擎,需要利用爬虫抓取网页,不能用于网络节点网页获取。

    【发明内容】

    本发明的目的是提供一网页文本还原系统及方法,这种系统是一种专门的网页文本还原装置,而且还能将网页文本文件进行储存;本发明还具有数据流的实时处理能力。

    本发明的技术方案如下:

    一种网页文本还原系统,本系统工作于网络节点,其包括:一IP数据包捕获装置,用于对通过网络节点处的IP数据包进行捕获;一网页文本数据流识别装置,根据定义的数据流特征识别出IP数据包的网页文本数据流;一网页文本重组装置,对网页文本数据流进行解码、重组操作,将网页文本数据流还原成文本文件;所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。

    所述IP数据包捕获装置,包括一数据包镜像模块,用于将通过网络节点的IP数据报备份下来;一流抽取模块,接于数据包镜像模块后,用于将各独立的IP数据包按IP数据流属性进行组合,并将组合后的IP数据流传送至网页文本数据流识别装置进行网页文本数据的识别。

    所述网页文本数据流识别装置,包括一网页数据流识别模块,用于将组合后的IP数据流根据流特征进行网页数据流的识别;一数据流特征库,与网页数据流识别模块连接,为网页数据流识别模块的网页数据流识别提供流特征;一网页数据流分割模块,与页数据流识别模块连接,用于将通过识别的网页数据流从IP数据流中分割出来,并将分割出来的网页文本数据传送至网页文本重组装置。

    本发明还包括一网页文本存储装置,所述网页文本存储装置与网页文本重组装置连接,用于将还原的网页文本文件进行保存。更具体的,所述网页文本存储装置包括硬盘或/和数据库。

    一种网页文本还原方法,包括步骤:

    步骤S1,对存储http网页数据流的缓存区进行初始化处理;

    步骤S2,获取一个IP数据包,并根据流特征进行http数据过滤,然后根据http协议标准进行数据包的头域分析,所述的IP数据流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html;

    步骤S3,根据分析结果判断是否为网页数据流的IP数据包,若不是,进行步骤S6,若是,则进行:

    步骤S4,判断网页数据流的IP数据包是否是按序到达的,若是,进行步骤S7,若不是,进行:

    步骤S5,对失序包进行处理,使之按序列号重新排序后进行步骤S7;

    步骤S6,创建新的网页数据流;

    步骤S7,判断是否为网页数据流的最后一个IP数据包,若不是,返回进行步骤S2,若是,则进行:

    步骤S8,进行网页文本信息的还原。

    【附图说明】

    本发明将通过例子并参照附图的方式说明,其中:

    图1是本发明网页文本还原系统在网络中应用原理图;

    图2是本发明网页文本还原系统原理框图;

    图3是本发明网页文本还原方法流程图。

    【具体实施方式】

    本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。

    本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中地一个例子而已。

    如图1所示,本发明的一种网页文本还原系统工作于网络节点上,本系统既可以直接安装在网关设备上,也可以增加新设备串接或旁路到原有的通讯线路,以确保能够捕获所有通过网关设备的数据包。

    本发明的一种网页文本还原系统原理框图如图2所示。一种网页文本还原系统,其包括:一IP数据包捕获装置,用于对通过网络节点处的IP数据包进行捕获;一网页文本数据流识别装置,根据定义的数据流特征识别出IP数据包的网页文本数据流;一网页文本重组装置,通过对TCP序列号排序、过滤http协议头得到净载荷,对网页文本数据流进行解码、重组等操作,将网页文本数据流还原成文本文件;所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。

    所述IP数据包捕获装置,包括一数据包镜像模块,用于将通过网络节点的IP数据包备份下来;一流抽取模块,接于数据包镜像模块后,用于将各独立的IP数据包按IP数据流属性进行组合,并将组合后的IP数据流传送至网页文本数据流识别装置进行网页文本数据的识别。所述IP数据流属性包括源IP、源端口、目的IP、目的端口、传输协议。在本发明中,可以对数据流通过实时流处理进行网页文本的还原,还可以对镜像保存后的数据流进行网页文本的还原。

    所述网页文本数据流识别装置,包括一网页数据流识别模块,用于将组合后的IP数据流根据流特征进行网页数据流的识别;一数据流特征库,与网页数据流识别模块连接,为网页数据流识别模块的网页数据流识别提供流特征;一网页数据流分割模块,与页数据流识别模块连接,用于将通过识别的网页数据流从IP数据流中分割出来,为进行文本重组删除多余的信息,并将分割出来的网页文本数据传送至网页文本重组装置。所述流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html。

    本发明还包括一网页文本存储装置,所述网页文本存储装置与网页文本重组装置连接,用于将还原的网页文本文件进行保存,以便进行后续的处理操作。更具体的,所述网页文本存储装置包括硬盘或/和数据库。

    本发明的一种网页文本还原方法,包括步骤:

    步骤S1,对存储http网页数据流的缓存区进行初始化处理;

    步骤S2,通过实时捕获或从镜像文件(抓取数据包的保存文件)中取得一个IP数据包,并根据流特征进行http数据过滤,然后根据http协议标准进行数据包的头域分析,所述的流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html;

    步骤S3,根据分析结果判断是否为网页数据流的IP数据包,若不是,进行步骤S6,若是,则进行:

    步骤S4,判断网页数据流的IP数据包是否是按序到达的,若是,进行步骤S7,若不是,进行:

    步骤S5,对失序包进行处理,使之按序列号重新排序后进行步骤S7;

    步骤S6,创建新的网页数据流;

    步骤S7,判断是否为网页数据流的最后一个IP数据包,若不是,返回进行步骤S2继续抓取下一个数据包,若是,则进行:

    步骤S8,进行网页文本信息的还原。

    本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

一种网页文本还原系统及方法.pdf_第1页
第1页 / 共9页
一种网页文本还原系统及方法.pdf_第2页
第2页 / 共9页
一种网页文本还原系统及方法.pdf_第3页
第3页 / 共9页
点击查看更多>>
资源描述

《一种网页文本还原系统及方法.pdf》由会员分享,可在线阅读,更多相关《一种网页文本还原系统及方法.pdf(9页珍藏版)》请在专利查询网上搜索。

本发明公开了一种网页文本还原系统及方法,本系统工作于网络节点,其系统包括:一IP数据包捕获装置,用于对通过网络节点处的IP数据包进行捕获;一网页文本数据流识别装置,根据定义的数据流特征识别出IP数据包的网页文本数据流;一网页文本重组装置,对网页文本数据流进行解码、重组操作,将网页文本数据流还原成文本文件;所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。其方法包括IP数据包。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 电学 > 电通信技术


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1