网络文学目录型网页自动识别方法.pdf

上传人:62****3 文档编号:1003068 上传时间:2018-03-24 格式:PDF 页数:6 大小:408.78KB
返回 下载 相关 举报
摘要
申请专利号:

CN201010245846.3

申请日:

2010.08.05

公开号:

CN102346748A

公开日:

2012.02.08

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20120208|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

盛乐信息技术(上海)有限公司

发明人:

陈运文; 马飞涛; 宋海涛

地址:

201203 上海市浦东新区郭守敬路356号

优先权:

专利代理机构:

上海浦一知识产权代理有限公司 31211

代理人:

丁纪铁

PDF下载: PDF下载
内容摘要

本发明公开了一种网络文学目录型网页自动识别方法,包括步骤:获取当前网页的数据体;提取出含有超链接地址的超链接标记所对应的字符串并组成字符串数组一;去除包含有图像类超链接标记的字符串数组一的数组元素并形成字符串数组二;抽取出字符串数组二的各数组元素的超链接文本信息并形成一字符串数组三;判断字符串数组三中的各数组元素是否为一目录文本信息并对是目录文件信息的数组元素进行计数,得到数值一;用数值一除以字符串数组三的数组元素的总数得到一确认比值;当确认比值大于0.7或数值一大于15时确定所述当前网页为一文学目录页。本发明能对不同类型的站点中不同种类的小说目录页面进行很好的识别。

权利要求书

1: 一种网络文学目录型网页自动识别方法, 其特征在于, 包括如下步骤 : 步骤一、 获取当前网页的数据体 ; 步骤二、 在所述数据体中抽取所有包含有超链接地址的超链接标记所对应的字符串, 以每一个所述超链接标记所对应的字符串为一个数组元素存储于一个字符串数组一中 ; 步骤三、 去除所述字符串数组一包含有图像类超链接标记的数组元素, 形成一字符串 数组二 ; 步骤四、 抽取出所述字符串数组二的各数组元素的超链接文本信息, 以各所述超链接 文本信息为数组元素形成一字符串数组三 ; 步骤五、 判断所述字符串数组三中的各数组元素是否为一目录文本信息, 并对是目录 文件信息的数组元素进行计数, 得到数值一 ; 步骤六、 用所述数值一除以所述字符串数组三的数组元素的总数得到一确认比值 ; 步骤七、 当所述确认比值大于 0.7、 或者所述数值一大于 15 时, 确定所述当前网页为一 文学目录页。
2: 如权利要求 1 所述网络文学目录型网页自动识别方法, 其特征在于 : 所述数据体为 html 源文件, 步骤二中所述超链接标记为 , 所述包含有超链接地址的超链接标记是包 含有 “herf =” 参数的所述超链接标记 ; 步骤二中在所述数据体中抽取所有包含有超链 接地址的超链接标记所对应的字符串方法为 : 判断所述数据体中是否含有 “3: 如权利要求 2 所述网络文学目录型网页自动识别方法, 其特征在于 : 步骤三中所述 图像类超链接标记为 “4: 如权利要求 2 所述网络文学目录型网页自动识别方法, 其特征在于 : 步骤四中抽取 出所述字符串数组二的各数组元素的超链接文本信息的方法为 : 首先生成一个栈 ; 再对所 述字符串数组二的数组元素进行从头部到尾部的字符扫描并对扫描到的当前字符进行如 下判断 : 当所述当前字符为 “<” 字符时, 将所述当前字符压栈 ; 当所述当前字符为 “>” 字符 时, 且栈顶元素为 “<” 字符时, 将 “<” 字符弹栈 ; 当所述当前字符为非 “<” 字符和非 “>” 字 符时, 如果当前栈顶元素为 “<” 字符, 则忽略所述当前字符, 继续沿字符串往前遍历扫描 ; 当所述当前字符为非 “<” 字符和非 “>” 字符时, 如果当前栈顶元素不是 “<” 字符, 则将当所 述当前字符压栈 ; 当对所述字符串数组二的数组元素进行如上扫描结束后, 将所述栈中的 文本弹出, 形成所述字符串数组三的数组元素。
5: 如权利要求 2 所述网络文学目录型网页自动识别方法, 其特征在于 : 步骤五中判 断所述字符串数组三中的各数组元素是否为一目录文本信息的方法为, 判断所述字符串 数组三的数组元素是否满足如下条件 : 所述字符串数组三的数组元素的第一个文字字符 为 “第” 、 且所述字符串数组三的数组元素的后续文字字符中含有 “章” 、 或 “节” 、 或 “回” 、 或 “话” ; 若满足上述条件, 则所述字符串数组三的数组元素为一目录文本信息。

说明书


网络文学目录型网页自动识别方法

    【技术领域】
     本发明涉及网页处理, 特别是涉及一种网络文学目录型网页自动识别方法。背景技术 网络文学业务正在互联网上迅速发展, 互联网的网民们也越来越依赖于在网络上 阅读文学作品。在网络上阅读文学页面时, 目录页是其中最为重要的一页——该页面给出 了文章所有的章节列表, 用户可以最为方便的访问所需的章节。
     现有技术中网页是一个 HTML(HyperText Mark-up Language) 即超文本标记语言 或超文本链接标示语言文件, HTML 的结构包括头部 (Head) 即网页的数据头、 主体 (Body) 即 网页的数据体两大部分, 网页的数据头是指 HTML 标签中 和 之间的部分, 网 页的数据体是指 和 之间的部分。对搜索引擎来说, 在网页处理时, 对小说 目录页进行识别是非常有必要, 只有对这些网页进行正确识别后, 才能在用户搜索相关文 学作品名称时, 直接提供给网民对应的小说目录页面, 提高检索结果的质量
     现有技术中小说目录页面具有如下的识别难点 : 1、 不同站点使用的 html 格式各 不相同, 如 html 页面排版布局、 CSS 模板、 字体、 字号、 颜色等各不相同, 无法使用简单的使 用模板匹配的方法进行小说目录页的识别。2、 网页和网页地址 (url) 中均没有明显的小说 目录信息, 仅从 url 很难提取到小说目录页信息。另外, 从页面的文本内容来看, 没有直接 出现目录、 列表等关键词, 也难以直接获取页面类型信息。
     发明内容 本发明所要解决的技术问题是提供一种网络文学目录型网页自动识别方法, 能解 决不同类型的站点中由于小说目录页面的多样性而产生的识别问题, 能很好的对小说目录 页进行识别。
     为解决上述技术问题, 本发明提供的网络文学目录型网页自动识别方法, 包括如 下步骤 :
     步骤一、 获取当前网页的数据体。所述数据体为 html 源文件中 HTML 标签中的 和 之间的部分。
     步骤二、 在所述数据体中抽取所有包含有超链接地址的超链接标记所对应的字符 串, 以每一个所述超链接标记所对应的字符串为一个数组元素存储于一个字符串数组一 中。 所述超链接标记为 html 标记
, 所述包含有超链接地址的超链接标记是包含有 “herf =” 参数的所述超链接标记 ; 在所述数据体中抽取所有包含有超链接地址的超链接标记 所对应的字符串方法为 : 判断所述数据体中是否含有 “” 标记结束 的所有字符串。
     步骤三、 去除所述字符串数组一包含有图像类超链接标记的数组元素, 形成一字 符串数组二。所述图像类超链接标记为 “     步骤四、 抽取出所述字符串数组二的各数组元素的超链接文本信息, 以各所述超 链接文本信息为数组元素形成一字符串数组三。其中, 抽取出所述字符串数组二的各数组 元素的超链接文本信息的方法为 : 首先生成一个栈 ; 再对所述字符串数组二的数组元素进 行从头部到尾部的字符扫描并对扫描到的当前字符进行如下判断 : 当所述当前字符为 “<” 字符时, 将所述当前字符压栈 ; 当所述当前字符为 “>” 字符时, 且栈顶元素为 “<” 字符时, 将 “<” 字符弹栈 ; 当所述当前字符为非 “<” 字符和非 “>” 字符时, 如果当前栈顶元素为 “<” 字 符, 则忽略所述当前字符即不进行压栈和弹栈的操作, 继续沿字符串往前遍历扫描 ; 当所述 当前字符为非 “<” 字符和非 “>” 字符时, 如果当前栈顶元素不是 “<” 字符, 则将当所述当前 字符压栈 ; 当对所述字符串数组二的数组元素进行如上扫描结束后, 将所述栈中的文本弹 出, 以该弹出文本形成所述字符串数组三的一数组元素。
     步骤五、 判断所述字符串数组三中的各数组元素是否为一目录文本信息, 并对是 目录文件信息的数组元素进行计数, 得到数值一。 其中, 判断所述字符串数组三中的各数组 元素是否为一目录文本信息的方法为, 判断所述字符串数组三的数组元素是否满足如下条 件: 所述字符串数组三的数组元素的第一个文字字符为 “第” 、 且所述字符串数组三的数组 元素的后续文字字符中含有 “章” 、 或 “节” 、 或 “回” 、 或 “话” ; 若满足上述条件, 则所述字符串 数组三的数组元素为一目录文本信息。
     步骤六、 用所述数值一除以所述字符串数组三的数组元素的总数得到一确认比值。 步骤七、 当所述确认比值大于 0.7、 或者所述数值一大于 15 时, 确定所述当前网页 为一文学目录页。
     本发明方法通过提出一种基于超链文本密度算法的页面类型识别方法, 能解决不 同类型的站点中由于小说目录页面的多样性而产生的识别问题, 能很好的对小说目录页进 行识别。
     附图说明
     下面结合附图和具体实施方式对本发明作进一步详细的说明 : 图 1 是本发明方法的流程图。具体实施方式
     如图 1 所示, 为本发明方法的流程图, 本发明实施例提供的网络文学目录型网页 自动识别方法, 包括如下步骤 :
     步骤一、 获取当前网页的数据体。所述数据体为 html 源文件中 HTML 标签中的 和 之间的部分。
     步骤二、 在所述数据体中抽取所有包含有超链接地址的超链接标记所对应的字符 串, 以每一个所述超链接标记所对应的字符串为一个数组元素存储于一个字符串数组一 中。 所述超链接标记为 html 标记
, 所述包含有超链接地址的超链接标记是包含有 “herf =” 参数的所述超链接标记 ; 在所述数据体中抽取所有包含有超链接地址的超链接标记 所对应的字符串方法为 : 判断所述数据体中是否含有 “” 标记结束的所有字符串。
     步骤三、 去除所述字符串数组一包含有图像类超链接标记的数组元素, 形成一字 符串数组二。所述图像类超链接标记为 “     步骤四、 抽取出所述字符串数组二的各数组元素的超链接文本信息, 以各所述超 链接文本信息为数组元素形成一字符串数组三。其中, 抽取出所述字符串数组二的各数组 元素的超链接文本信息的方法为 : 首先生成一个栈 ; 再对所述字符串数组二的数组元素进 行从头部到尾部的字符扫描并对扫描到的当前字符进行如下判断 : 当所述当前字符为 “<” 字符时, 将所述当前字符压栈 ; 当所述当前字符为 “>” 字符时, 且栈顶元素为 “<” 字符时, 将 “<” 字符弹栈 ; 当所述当前字符为非 “<” 字符和非 “>” 字符时, 如果当前栈顶元素为 “<” 字 符, 则忽略所述当前字符即不进行压栈和弹栈的操作, 继续沿字符串往前遍历扫描 ; 当所述 当前字符为非 “<” 字符和非 “>” 字符时, 如果当前栈顶元素不是 “<” 字符, 则将当所述当前 字符压栈 ; 当对所述字符串数组二的数组元素进行如上扫描结束后, 将所述栈中的文本弹 出, 以该弹出文本形成所述字符串数组三的一数组元素。
     步骤五、 判断所述字符串数组三中的各数组元素是否为一目录文本信息, 并对是 目录文件信息的数组元素进行计数, 得到数值一。 其中, 判断所述字符串数组三中的各数组 元素是否为一目录文本信息的方法为, 判断所述字符串数组三的数组元素是否满足如下条 件: 所述字符串数组三的数组元素的第一个文字字符为 “第” 、 且所述字符串数组三的数组 元素的后续文字字符中含有 “章” 、 或 “节” 、 或 “回” 、 或 “话” ; 若满足上述条件, 则所述字符串 数组三的数组元素为一目录文本信息。
     步骤六、 用所述数值一除以所述字符串数组三的数组元素的总数得到一确认比 值。
     步骤七、 当所述确认比值大于 0.7、 或者所述数值一大于 15 时, 确定所述当前网页 为一文学目录页。
     以上通过具体实施例对本发明进行了详细的说明, 但这些并非构成对本发明的限 制。 在不脱离本发明原理的情况下, 本领域的技术人员还可做出许多变形和改进, 这些也应 视为本发明的保护范围。

网络文学目录型网页自动识别方法.pdf_第1页
第1页 / 共6页
网络文学目录型网页自动识别方法.pdf_第2页
第2页 / 共6页
网络文学目录型网页自动识别方法.pdf_第3页
第3页 / 共6页
点击查看更多>>
资源描述

《网络文学目录型网页自动识别方法.pdf》由会员分享,可在线阅读,更多相关《网络文学目录型网页自动识别方法.pdf(6页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN102346748A43申请公布日20120208CN102346748ACN102346748A21申请号201010245846322申请日20100805G06F17/3020060171申请人盛乐信息技术上海有限公司地址201203上海市浦东新区郭守敬路356号72发明人陈运文马飞涛宋海涛74专利代理机构上海浦一知识产权代理有限公司31211代理人丁纪铁54发明名称网络文学目录型网页自动识别方法57摘要本发明公开了一种网络文学目录型网页自动识别方法,包括步骤获取当前网页的数据体;提取出含有超链接地址的超链接标记所对应的字符串并组成字符串数组一;去除包含有图像类超链接标。

2、记的字符串数组一的数组元素并形成字符串数组二;抽取出字符串数组二的各数组元素的超链接文本信息并形成一字符串数组三;判断字符串数组三中的各数组元素是否为一目录文本信息并对是目录文件信息的数组元素进行计数,得到数值一;用数值一除以字符串数组三的数组元素的总数得到一确认比值;当确认比值大于07或数值一大于15时确定所述当前网页为一文学目录页。本发明能对不同类型的站点中不同种类的小说目录页面进行很好的识别。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书3页附图1页CN102346768A1/1页21一种网络文学目录型网页自动识别方法,其特征在于,包括如下步骤步骤一、。

3、获取当前网页的数据体;步骤二、在所述数据体中抽取所有包含有超链接地址的超链接标记所对应的字符串,以每一个所述超链接标记所对应的字符串为一个数组元素存储于一个字符串数组一中;步骤三、去除所述字符串数组一包含有图像类超链接标记的数组元素,形成一字符串数组二;步骤四、抽取出所述字符串数组二的各数组元素的超链接文本信息,以各所述超链接文本信息为数组元素形成一字符串数组三;步骤五、判断所述字符串数组三中的各数组元素是否为一目录文本信息,并对是目录文件信息的数组元素进行计数,得到数值一;步骤六、用所述数值一除以所述字符串数组三的数组元素的总数得到一确认比值;步骤七、当所述确认比值大于07、或者所述数值一大。

4、于15时,确定所述当前网页为一文学目录页。2如权利要求1所述网络文学目录型网页自动识别方法,其特征在于所述数据体为HTML源文件,步骤二中所述超链接标记为,所述包含有超链接地址的超链接标记是包含有“HERF”参数的所述超链接标记;步骤二中在所述数据体中抽取所有包含有超链接地址的超链接标记所对应的字符串方法为判断所述数据体中是否含有“”标记结束的所有字符串。3如权利要求2所述网络文学目录型网页自动识别方法,其特征在于步骤三中所述图像类超链接标记为“”字符时,且栈顶元素为“”字符时,如果当前栈顶元素为“”字符时,如果当前栈顶元素不是“和之间的部分,网页的数据体是指和之间的部分。对搜索引擎来说,在网。

5、页处理时,对小说目录页进行识别是非常有必要,只有对这些网页进行正确识别后,才能在用户搜索相关文学作品名称时,直接提供给网民对应的小说目录页面,提高检索结果的质量0004现有技术中小说目录页面具有如下的识别难点1、不同站点使用的HTML格式各不相同,如HTML页面排版布局、CSS模板、字体、字号、颜色等各不相同,无法使用简单的使用模板匹配的方法进行小说目录页的识别。2、网页和网页地址URL中均没有明显的小说目录信息,仅从URL很难提取到小说目录页信息。另外,从页面的文本内容来看,没有直接出现目录、列表等关键词,也难以直接获取页面类型信息。发明内容0005本发明所要解决的技术问题是提供一种网络文学。

6、目录型网页自动识别方法,能解决不同类型的站点中由于小说目录页面的多样性而产生的识别问题,能很好的对小说目录页进行识别。0006为解决上述技术问题,本发明提供的网络文学目录型网页自动识别方法,包括如下步骤0007步骤一、获取当前网页的数据体。所述数据体为HTML源文件中HTML标签中的和之间的部分。0008步骤二、在所述数据体中抽取所有包含有超链接地址的超链接标记所对应的字符串,以每一个所述超链接标记所对应的字符串为一个数组元素存储于一个字符串数组一中。所述超链接标记为HTML标记,所述包含有超链接地址的超链接标记是包含有“HERF”参数的所述超链接标记;在所述数据体中抽取所有包含有超链接地址的。

7、超链接标记所对应的字符串方法为判断所述数据体中是否含有“”标记结束的所有字符串。0009步骤三、去除所述字符串数组一包含有图像类超链接标记的数组元素,形成一字符串数组二。所述图像类超链接标记为“”字符时,且栈顶元素为“”字符时,如果当前栈顶元素为“”字符时,如果当前栈顶元素不是“和之间的部分。0019步骤二、在所述数据体中抽取所有包含有超链接地址的超链接标记所对应的字符串,以每一个所述超链接标记所对应的字符串为一个数组元素存储于一个字符串数组一中。所述超链接标记为HTML标记,所述包含有超链接地址的超链接标记是包含有“HERF”参数的所述超链接标记;在所述数据体中抽取所有包含有超链接地址的超链。

8、接标记所对应的字符串方法为判断所述数据体中是否含有“”标记结束说明书CN102346748ACN102346768A3/3页5的所有字符串。0020步骤三、去除所述字符串数组一包含有图像类超链接标记的数组元素,形成一字符串数组二。所述图像类超链接标记为“”字符时,且栈顶元素为“”字符时,如果当前栈顶元素为“”字符时,如果当前栈顶元素不是“”字符,则将当所述当前字符压栈;当对所述字符串数组二的数组元素进行如上扫描结束后,将所述栈中的文本弹出,以该弹出文本形成所述字符串数组三的一数组元素。0022步骤五、判断所述字符串数组三中的各数组元素是否为一目录文本信息,并对是目录文件信息的数组元素进行计数,。

9、得到数值一。其中,判断所述字符串数组三中的各数组元素是否为一目录文本信息的方法为,判断所述字符串数组三的数组元素是否满足如下条件所述字符串数组三的数组元素的第一个文字字符为“第”、且所述字符串数组三的数组元素的后续文字字符中含有“章”、或“节”、或“回”、或“话”;若满足上述条件,则所述字符串数组三的数组元素为一目录文本信息。0023步骤六、用所述数值一除以所述字符串数组三的数组元素的总数得到一确认比值。0024步骤七、当所述确认比值大于07、或者所述数值一大于15时,确定所述当前网页为一文学目录页。0025以上通过具体实施例对本发明进行了详细的说明,但这些并非构成对本发明的限制。在不脱离本发明原理的情况下,本领域的技术人员还可做出许多变形和改进,这些也应视为本发明的保护范围。说明书CN102346748ACN102346768A1/1页6图1说明书附图CN102346748A。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1