轻量级智能网页内容解析方法.pdf

摘要
申请专利号：	CN201010126329.4	申请日：	2010.03.18
公开号：	CN101819584A	公开日：	2010.09.01
当前法律状态：	授权	有效性：	有权
法律详情：	专利权质押合同登记的注销IPC(主分类):G06F 17/30授权公告日:20111109申请日:20100318登记号:2012990000446出质人:上海引跑信息科技有限公司质权人:交通银行股份有限公司上海新区支行解除日:20131119\|\|\|专利权质押合同登记的生效IPC(主分类):G06F 17/30登记号:2012990000446登记生效日:20120815出质人:上海引跑信息科技有限公司质权人:交通银行股份有限公司上海新区支行发明名称:轻量级智能网页内容解析方法申请日:20100318授权公告日:20111109\|\|\|专利权人的姓名或者名称、地址的变更IPC(主分类):G06F 17/30变更事项:专利权人变更前:上海引跑信息科技有限公司变更后:上海引跑信息科技有限公司变更事项:地址变更前:201203 上海市浦东新区蔡伦路1690号2号楼303室变更后:201203 上海市张江高科技园区蔡伦路1623号2幢二层\|\|\|授权\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20100318\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	上海引跑信息科技有限公司
发明人：	不公告发明人
地址：	201203 上海市浦东新区蔡伦路1690号2号楼303室
优先权：
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

本发明为网页内容解析提供了一种通用的轻量级智能解析方法，可以对文章类(如新闻、博客、论坛等)网页进行有效的内容解析。步骤如下：首先，下载网页HTML源码并将其转换成结构化数据模型；其次，分析结构化数据模型，收集用于定位主体内容的数据；再次，利用收集的数据，对数据模型进行进一步分析，定位主体内容(如新闻内容、博客文章、论坛主题和回复等)所在的位置；最终，分析获取的主体内容模型，去除无用信息，得到主体内容。此外，通过交互式界面，用户可对解析结果进行合并、编辑、保存、索引，相当于为用户建立了网页内容资料库，供后期的检索使用。这种方式，有效的将分析技术、存在特性、人工干预加以结合，提供更加贴近用户的功能。

权利要求书

1.  一种轻量级智能网页内容解析方法，其特征在于：
1)从因特网获取网页的HTML源码。
2)利用HTML源码的结构化、层次化特性，构建数据对象。同时对不完整的HTML源码进行补充。
3)遵循网页构建时候的基本特征和开发者的常规习惯，利用文章类(如新闻、博客、论坛等)网页的基本特征，对网页的主体内容进行定位和解析。
4)获取的网页主体内容，可通过浏览器查看、编辑、保存、索引。
5)可以定制任务，定时更新结果。

2.  如权利1所述的轻量级智能网页内容解析方法，其特征在于：不仅仅针对特定的网页进行解析，具有一定的通用性。

3.  如权利1所述的轻量级智能网页内容解析方法，其特征在于：除了利用HTML代码的特性，还结合网页在被构建时的基本特征和该类型网页的通用特性。

4.  如权利1所述的轻量级智能网页内容解析方法，其特征在于：可以将从多个网页中解析出来的内容进行合并、编辑、保存、索引，以人工干预作为必要的补充。

5.  如权利2所述的轻量级智能网页内容解析方法的通用性，其特征在于：适用于新闻、博客、论坛等具有主要内容的网页，不适用于类似首页的综合网页，不适用于内容主要包含在脚本、控件中的网页。

6.  如权利2所述的轻量级智能网页内容解析方法的通用性，其特征在于：主要解析的是网页中的主要文本信息，暂不包括多媒体信息。

7.  如权利3所述的轻量级智能网页内容解析方法中的分析方法，其特征在于：分析新闻、博客、论坛等具有主要内容的网页的特征并在收集中针对这些特征收集必要的数据。

8.  如权利4所述的轻量级智能网页内容解析方法中的人工干预方式，其特征在于：解析所得的主要内容结果一般情况下已满足需要，但用户可以对多个网页的结果进行合并、根据实际情况进行必要的定制，从而得到满足个人需要的结果，并进一步保存、索引。最终，这些数据成为入库信息，供用户使用。

说明书

轻量级智能网页内容解析方法
技术领域
本发明涉及网页内容解析领域。
背景技术
在网页内容解析系统中，需要对网页的内容进行过滤，仅保留有用的主体内容，并去除无用的信息，如广告、菜单、导航等。然而传统的解决方式是根据某网页中的HTML源码的结构，通过分析并确认主体内容的位置来进行解析。其前提是，知道某网页的源码特点和主体内容的确定位置。但是，不同的网页具有不同的源码结构和特点，这种解析方式仅能对已知的具体网页进行解析，应用范围有限。而且，网页结构一旦调整，该功能也将失效。
发明内容
本发明的目的是提供一种通用的针对文章类网页(新闻、博客、论坛等带有明显主体内容的网页)进行内容解析方法，通过分析该类网页所具有的共性和在创建时所必然具有的某些特征，结合HTML源码的结构特点来定位主体内容的位置，并获取其内容。从而为一般用户提供一快速、有效的轻量级的网页内容解析工具。
为了达到上述目的，本发明设定了一种主体内容定位算法。首先，下载并将网页HTML源码转换成结构化数据模型；其次，分析数据模型，收集用于主体内容定位的数据；再次，利用收集的数据，对数据模型进行分析，定位主体内容(如新闻内容、博客文章、论坛主题和回复等)所在的位置；最终，分析所确定的主体内容模型，去除无用信息，获取有关的主体内容。此外，通过交互式界面作为补充，用户可对已解析成功的结果进行进一步的合并、编辑、保存、索引。相当于为用户提供了一网页内容资料库，供后期的检索使用。这种方式，有效的将分析技术、存在特性、人工干预加以结合，提供更加贴近用户的功能。
附图说明
图1为本发明的工作流程示意图。
具体实施方式
下面结合附图1对本发明所述的技术方案做进一步详细描述。
图1为智能网页内容解析所涉及的各个模块的方框图，其包括客户端和服务器端两部分，支持多个客户端连接服务器端。客户端包括网页选取和内容编辑两个部分。其中网页选取主要用于触发网页内容解析任务，内容编辑主要用于成功解析网页后，对多个网页解析的结果，进行合并、编辑、保存。服务器端主要包括任务调度系统、网页内容下载/解析、内容中心模块。
这个网页内容解析过程主要步骤如下：
1)用户选择网页并生成任务。
2)任务调度系统处理任务：
a.下载网页的HTML源码。
b.构建数据模型。
由于HTML适用广泛而且语法不是非常严格，因此构建模型需要以下几个步骤。
i.获取编码类型并进行相应的转换。
ii.对HTML源码进行补全，方便构建对象。
iii.过滤某些不规则字符，避免解析过程中出现异常。
iv.解析源码，构建对象。
c.进行内容解析，获取主体内容。
3)用户对多个网页的解析结果进行合并、编辑、保存，进而构建成文章。网页的解析结果为该网页的主体内容(如新闻网页中的新闻内容，博客网页中发表的文章、论坛网页中的内容和回复等)，不需要太多的编辑。用户可根据需要进行必要的调整(如样式、排版等)，并最终进行保存。保存的结果将被索引供后期的检索使用。