网络文学目录型网页自动识别方法.pdf

摘要
申请专利号：	CN201010245846.3	申请日：	2010.08.05
公开号：	CN102346748A	公开日：	2012.02.08
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20120208\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	盛乐信息技术(上海)有限公司
发明人：	陈运文; 马飞涛; 宋海涛
地址：	201203 上海市浦东新区郭守敬路356号
优先权：
专利代理机构：	上海浦一知识产权代理有限公司 31211	代理人：	丁纪铁
PDF下载：	PDF下载

内容摘要

本发明公开了一种网络文学目录型网页自动识别方法，包括步骤：获取当前网页的数据体；提取出含有超链接地址的超链接标记所对应的字符串并组成字符串数组一；去除包含有图像类超链接标记的字符串数组一的数组元素并形成字符串数组二；抽取出字符串数组二的各数组元素的超链接文本信息并形成一字符串数组三；判断字符串数组三中的各数组元素是否为一目录文本信息并对是目录文件信息的数组元素进行计数，得到数值一；用数值一除以字符串数组三的数组元素的总数得到一确认比值；当确认比值大于0.7或数值一大于15时确定所述当前网页为一文学目录页。本发明能对不同类型的站点中不同种类的小说目录页面进行很好的识别。

权利要求书

说明书

资源描述

《网络文学目录型网页自动识别方法.pdf》由会员分享，可在线阅读，更多相关《网络文学目录型网页自动识别方法.pdf（6页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN102346748A43申请公布日20120208CN102346748ACN102346748A21申请号201010245846322申请日20100805G06F17/3020060171申请人盛乐信息技术上海有限公司地址201203上海市浦东新区郭守敬路356号72发明人陈运文马飞涛宋海涛74专利代理机构上海浦一知识产权代理有限公司31211代理人丁纪铁54发明名称网络文学目录型网页自动识别方法57摘要本发明公开了一种网络文学目录型网页自动识别方法，包括步骤获取当前网页的数据体；提取出含有超链接地址的超链接标记所对应的字符串并组成字符串数组一；去除包含有图像类超链接标。

2、记的字符串数组一的数组元素并形成字符串数组二；抽取出字符串数组二的各数组元素的超链接文本信息并形成一字符串数组三；判断字符串数组三中的各数组元素是否为一目录文本信息并对是目录文件信息的数组元素进行计数，得到数值一；用数值一除以字符串数组三的数组元素的总数得到一确认比值；当确认比值大于07或数值一大于15时确定所述当前网页为一文学目录页。本发明能对不同类型的站点中不同种类的小说目录页面进行很好的识别。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书3页附图1页CN102346768A1/1页21一种网络文学目录型网页自动识别方法，其特征在于，包括如下步骤步骤一、。

3、获取当前网页的数据体；步骤二、在所述数据体中抽取所有包含有超链接地址的超链接标记所对应的字符串，以每一个所述超链接标记所对应的字符串为一个数组元素存储于一个字符串数组一中；步骤三、去除所述字符串数组一包含有图像类超链接标记的数组元素，形成一字符串数组二；步骤四、抽取出所述字符串数组二的各数组元素的超链接文本信息，以各所述超链接文本信息为数组元素形成一字符串数组三；步骤五、判断所述字符串数组三中的各数组元素是否为一目录文本信息，并对是目录文件信息的数组元素进行计数，得到数值一；步骤六、用所述数值一除以所述字符串数组三的数组元素的总数得到一确认比值；步骤七、当所述确认比值大于07、或者所述数值一大。

4、于15时，确定所述当前网页为一文学目录页。2如权利要求1所述网络文学目录型网页自动识别方法，其特征在于所述数据体为HTML源文件，步骤二中所述超链接标记为，所述包含有超链接地址的超链接标记是包含有“HERF”参数的所述超链接标记；步骤二中在所述数据体中抽取所有包含有超链接地址的超链接标记所对应的字符串方法为判断所述数据体中是否含有“”标记结束的所有字符串。3如权利要求2所述网络文学目录型网页自动识别方法，其特征在于步骤三中所述图像类超链接标记为“”字符时，且栈顶元素为“”字符时，如果当前栈顶元素为“”字符时，如果当前栈顶元素不是“和之间的部分，网页的数据体是指和之间的部分。对搜索引擎来说，在网。

5、页处理时，对小说目录页进行识别是非常有必要，只有对这些网页进行正确识别后，才能在用户搜索相关文学作品名称时，直接提供给网民对应的小说目录页面，提高检索结果的质量0004现有技术中小说目录页面具有如下的识别难点1、不同站点使用的HTML格式各不相同，如HTML页面排版布局、CSS模板、字体、字号、颜色等各不相同，无法使用简单的使用模板匹配的方法进行小说目录页的识别。2、网页和网页地址URL中均没有明显的小说目录信息，仅从URL很难提取到小说目录页信息。另外，从页面的文本内容来看，没有直接出现目录、列表等关键词，也难以直接获取页面类型信息。发明内容0005本发明所要解决的技术问题是提供一种网络文学。

6、目录型网页自动识别方法，能解决不同类型的站点中由于小说目录页面的多样性而产生的识别问题，能很好的对小说目录页进行识别。0006为解决上述技术问题，本发明提供的网络文学目录型网页自动识别方法，包括如下步骤0007步骤一、获取当前网页的数据体。所述数据体为HTML源文件中HTML标签中的和之间的部分。0008步骤二、在所述数据体中抽取所有包含有超链接地址的超链接标记所对应的字符串，以每一个所述超链接标记所对应的字符串为一个数组元素存储于一个字符串数组一中。所述超链接标记为HTML标记，所述包含有超链接地址的超链接标记是包含有“HERF”参数的所述超链接标记；在所述数据体中抽取所有包含有超链接地址的。

7、超链接标记所对应的字符串方法为判断所述数据体中是否含有“”标记结束的所有字符串。0009步骤三、去除所述字符串数组一包含有图像类超链接标记的数组元素，形成一字符串数组二。所述图像类超链接标记为“”字符时，且栈顶元素为“”字符时，如果当前栈顶元素为“”字符时，如果当前栈顶元素不是“和之间的部分。0019步骤二、在所述数据体中抽取所有包含有超链接地址的超链接标记所对应的字符串，以每一个所述超链接标记所对应的字符串为一个数组元素存储于一个字符串数组一中。所述超链接标记为HTML标记，所述包含有超链接地址的超链接标记是包含有“HERF”参数的所述超链接标记；在所述数据体中抽取所有包含有超链接地址的超链。

8、接标记所对应的字符串方法为判断所述数据体中是否含有“”标记结束说明书CN102346748ACN102346768A3/3页5的所有字符串。0020步骤三、去除所述字符串数组一包含有图像类超链接标记的数组元素，形成一字符串数组二。所述图像类超链接标记为“”字符时，且栈顶元素为“”字符时，如果当前栈顶元素为“”字符时，如果当前栈顶元素不是“”字符，则将当所述当前字符压栈；当对所述字符串数组二的数组元素进行如上扫描结束后，将所述栈中的文本弹出，以该弹出文本形成所述字符串数组三的一数组元素。0022步骤五、判断所述字符串数组三中的各数组元素是否为一目录文本信息，并对是目录文件信息的数组元素进行计数，。

9、得到数值一。其中，判断所述字符串数组三中的各数组元素是否为一目录文本信息的方法为，判断所述字符串数组三的数组元素是否满足如下条件所述字符串数组三的数组元素的第一个文字字符为“第”、且所述字符串数组三的数组元素的后续文字字符中含有“章”、或“节”、或“回”、或“话”；若满足上述条件，则所述字符串数组三的数组元素为一目录文本信息。0023步骤六、用所述数值一除以所述字符串数组三的数组元素的总数得到一确认比值。0024步骤七、当所述确认比值大于07、或者所述数值一大于15时，确定所述当前网页为一文学目录页。0025以上通过具体实施例对本发明进行了详细的说明，但这些并非构成对本发明的限制。在不脱离本发明原理的情况下，本领域的技术人员还可做出许多变形和改进，这些也应视为本发明的保护范围。说明书CN102346748ACN102346768A1/1页6图1说明书附图CN102346748A。

展开阅读全文