一种多网页新闻评论内容自动精确提取装置.pdf

上传人:32 文档编号:4255125 上传时间:2018-09-12 格式:PDF 页数:13 大小:6.56MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310289400.4

申请日:

2013.07.11

公开号:

CN103488675A

公开日:

2014.01.01

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20140101|||实质审查的生效IPC(主分类):G06F 17/30申请日:20130711|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

哈尔滨工程大学

发明人:

王巍; 杨武; 苘大鹏; 玄世昌; 谈亚洲; 申国伟

地址:

150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室

优先权:

专利代理机构:

代理人:

PDF下载: PDF下载
内容摘要

本发明属于多网页动态文字内容自动精确提取领域,特别涉及一种提取各大门户网站或者论坛动态生成的评论,为分析网络舆情提供资源库的自动精确提取出所需信息内容的装置。多网页新闻评论内容自动精确提取装置,包括动态内容URL收集装置、网页预处理装置、数据获取装置、数据自动化提取装置和输出装置。本发明的多网页新闻评论内容自动精确提取装置,该装置既可以通过静态网页模板有效地提取网页中的文字内容,同时还可以针对以动态URL形式提供的网页数据标识,从服务器端准确地获取相应的文字内容。本发明可解决网页中动态数据内容的准确获取和提取,提高了网页数据自动获取和提取的能力,为网络数据分析和挖掘提供更好地技术支撑。

权利要求书

权利要求书
1.  一种多网页新闻评论内容自动精确提取装置,包括动态内容URL收集装置、网页预处理装置、数据获取装置、数据自动化提取装置和输出装置,其特征在于:观察需要提取评论的网页的HTML标签结构,设计提取静态网页内容的模板,动态内容URL收集装置从新闻评论网页URL队列中获取URL,根据URL的来源进行分类并存储;网页预处理装置将已经对应描述模板的网页直接交给数据获取装置,将还没有对应描述模板的网页,提取网页的完整标签、寻找包含有价值信息的标签,运用模拟工具提供的接口精确提取模板并保存,将新闻评论的第一页URL交给数据获取装置;数据获取装置实例化浏览器对象,设置浏览器对象等待网页中所有Javascript的时间阈值,设置Ajax的通信方式,使异步的Ajax通信同步化,使浏览器对象直接接收Ajax的响应,与服务器进行同步通信,使用设置完的浏览器对象对URL进行内容提取;数据自动提取装置根据URL的来源选择信息提取时使用的模板,根据模板进行信息的精确提取,将提取出来的信息传递给信息存储装置,判断当前页码是否为最后一页,若不是则进行翻页操作,继续提取信息;信息存储装置接收数据提取装置传送的信息,对信息进行分类存储。

2.  根据权利要求1所述的一种多网页新闻评论内容自动精确提取装置,其特征在于:所述设计提取静态网页内容的模板时对于可以查看源码的网页,直接使用浏览器模拟工具的接口制作模板;对于不能查看源码的网页,使用浏览器模拟工具获得网页的HTML标签结构,然后利用浏览器工具的接口制作模板。

3.  根据权利要求1或2所述的一种多网页新闻评论内容自动精确提取装置,其特征在于:所述内容提取的过程中,对于不引用他人评论的评论,可以直接进行提取;对于引用他人评论的评论,根据引用他人评论的评论中的特殊标签进行判断,提取该条评论的实际内容,剔除引用的评论内容。

4.  根据权利要求3所述的一种多网页新闻评论内容自动精确提取装置,其特征在于:所述的时间阈值大于浏览器工具执行完URL对应的Javascript所需的时间。

说明书

说明书一种多网页新闻评论内容自动精确提取装置
技术领域
本发明属于多网页动态文字内容自动精确提取领域,特别涉及一种提取各大门户网站或者论坛动态生成的评论,为分析网络舆情提供资源库的自动精确提取出所需信息内容的装置。
背景技术
Ajax是Asynchronous Javascript+XML的缩写。Ajax技术的基本思想是允许一个互联网浏览器向一个远程页面发出异步的HTTP调用,并且用返回的结果更新当前显示数据的部分Web页面而不必刷新整个页面。Ajax的核心是Javascript对象XmlHttpRequest。它是一种支持异步请求的技术,使用XmlHttpRequest可以向服务器提出请求并处理响应,而不阻塞用户对网页其它内容的访问请求,页面无需整体刷新,在页面内与服务器通信。该技术能够改善客户端的体验,使得HTTP页面外观与使用感觉很类似于Windows桌面应用程序。同时使用异步方式与服务器通信,不需要打断用户的操作,具有更加迅速的响应能力,可以把以前一些服务器负担的工作转到客户端,利用客户端闲置的处理能力,该技术已经被标准化并得到广泛支持,不需要下载额外的插件或者支持程序。
鉴于Ajax的多种优点,包括新浪、搜狐、网易、腾讯在内的各大门户网站不约而同地使用这项技术来支持各自的查看评论的功能。门户网站的新闻每天都会收到数量庞大的网民的评论,这些评论涵盖了时事、经济、电子产品等各个领域,如果能够自动收集来自于这些网站的新闻评论,便可以为从不同角度对网民的舆情进行分析提供资源。对于商家来说,获得民众对于其产品的全面回馈无疑是一件非常有利的事情。对于掌握民众对时事的舆论趋势,网络评论也是非常重要的资料来源。因为门户网站的各个新闻版块相互独立,比如:经济、文化、体育等,评论也是各自独立成块的,所以只需要把各个版块的链接中对应的评论提取出来,不需要其他的分类,就可以得到该版块网民的评论。
在动态内容提取方面已经申请的专利有申请号为200910133630.5的专利《一种Ajax网页内容的抓取方法及系统》。该专利中的方法可以提取到部分动态网页的内容。对于内容不是通过用户的点击、选择来获取的动态网页,该方法就不能获得网页内容了。此外,该方法及系统需要分析繁琐的Javascript代码来确定哪个函数是调用Ajax来进行通信的。同时,对于浏览器模拟工具来说,并不是点击后获得网页的内容就可以得到网页动态生成的内容,需要设置等待网页执行完所有的Javascript代码,内容才能完全被浏览器模拟工具获得到,该方法中没有涉及相关技术。
发明内容
本发明的目的在于提供一种多网页新闻评论内容自动精确提取装置。
本发明的目的是这样实现的:
多网页新闻评论内容自动精确提取装置,包括动态内容URL收集装置、网页预处理装置、数据获取装置、数据自动化提取装置和输出装置,观察需要提取评论的网页的HTML标签结构,设计提取静态网页内容的模板,动态内容URL收集装置从新闻评论网页URL队列中获取URL,根据URL的来源进行分类并存储;网页预处理装置将已经对应描述模板的网页直接交给数据获取装置,将还没有对应描述模板的网页,提取网页的完整标签、寻找包含有价值信息的标签,运用模拟工具提供的接口精确提取模板并保存,将新闻评论的第一页URL交给数据获取装置;数据获取装置实例化浏览器对象,设置浏览器对象等待网页中所有Javascript的时间阈值,设置Ajax的通信方式,使异步的Ajax通信同步化,使浏览器对象直接接收Ajax的响应,与服务器进行同步通信,使用设置完的浏览器对象对URL进行内容提取;数据自动提取装置根据URL的来源选择信息提取时使用的模板,根据模板进行信息的精确提取,将提取出来的信息传递给信息存储装置,判断当前页码是否为最后一页,若不是则进行翻页操作,继续提取信息;信息存储装置接收数据提取装置传送的信息,对信息进行分类存储。
设计提取静态网页内容的模板时对于可以查看源码的网页,直接使用浏览器模拟工具的接口制作模板;对于不能查看源码的网页,使用浏览器模拟工具获得网页的HTML标签结构,然后利用浏览器工具的接口制作模板。
内容提取的过程中,对于不引用他人评论的评论,可以直接进行提取;对于引用他人评论的评论,根据引用他人评论的评论中的特殊标签进行判断,提取该条评论的实际内容,剔除引用的评论内容。
时间阈值大于浏览器工具执行完URL对应的Javascript所需的时间。
本发明的有益效果在于:本发明的多网页新闻评论内容自动精确提取装置,该装置既可以通过静态网页模板有效地提取网页中的文字内容,同时还可以针对以动态URL形式提供的网页数据标识,从服务器端准确地获取相应的文字内容。本发明的应用,可解决网页中动态数据内容的准确获取和提取,提高了网页数据自动获取和提取的能力,为网络数据分析和挖掘提供更好地技术支撑。
附图说明
图1多网页新闻评论内容自动精确提取装置结构图;
图2基于Ajax技术生成的新闻评论的网页样例示意图;
图3多网页新闻评论内容自动精确提取装置工作流程图;
图4新闻评论内容精确提取示意图;
图5处理过程健壮性维护方案流程图。
具体实施方式
下面结合附图对本发明做进一步描述:
本发明的多网页新闻评论内容自动精确提取装置包括动态内容URL收集装置、网页预处理装置、数据获取装置、数据自动化提取装置和信息存储装置。
动态内容URL收集装置:用于实时地在网络上采集需要关注领域的URL并存储;根据URL的来源进行分类,以便选择不同的模板进行信息提取。
网页预处理装置:分为两种情况,对于已经形成对应描述模板的网页,直接将其交给数据获取装置;对于还没有对应描述模板的网页,则先提取网页的完整标签、并寻找包含有价值信息的标签,利用浏览器模拟工具提供的接口完成内容精确提取模板并保存,然后将网页地址交给数据获取装置。
数据获取装置:利用浏览器模拟工具实例化浏览器对象,设置浏览器等待背景Javascript的时间阈值,该阈值应大于该网页的所有Javascript执行完所需的时间。设置Ajax的通信方式,使异步的Ajax通信同步化,使浏览器对象直接接收Ajax的响应,与服务器进行同步通信。使用设置完的浏览器对象对URL进行内容提取。
数据自动提取装置:根据URL的来源,通常使用URL的前缀部分选择应该信息提取时使用的模板并根据该模板进行信息的精确提取。将提取出来的信息传递给信息存储装置。判断当前页码是否为最后一页,若不是则进行翻页操作。
信息存储装置:接收数据提取装置传送过来的信息,对信息进行分类存储。
本发明装置的运行包括如下步骤:
1.观察需要提取评论的网页的HTML标签结构,使用浏览器模拟工具提供的接口设计提取静态网页内容的模板。
2.从新闻评论URL队列中获取一个URL,把该URL的处理放入处理线程,同时主线程对该线程的状态进行检测,以加强处理过程的健壮性。
3.设定浏览器模拟客户端在获取网页内容时等待网页的Javascript代码执行的时间阈值,此阈值应该大于该网页中所有的Javascript执行完所需的时间,可根据经验设定。
4.通过设定Ajax控制器,使Ajax的异步调用直接响应用户的操作,做到异步的Ajax通信同步化。
5.使用浏览器模拟工具实例化一个浏览器客户端,使用该客户端获取步骤2中获得的URL的内容,得到一个网页对象。在获取网页内容之前,步骤3和4需要先完成。
6.使用步骤1中制作的提取评论内容的模板提取步骤5中获得的网页对象的评论内容以及评论的相关信息。对于有引用别人评论的评论,需要进行相应处理,以做到精确提取。存 储提取到的内容。
7.判断当前评论页是否为最后一页,如果是则转步骤2,否则转步骤8。
8.如果能找到当前网页对应的页码,加1后找到对应页码网页的HTML标签,获取该标签后,运用模拟工具提供的点击接口点击,并获得返回的网页对象。如果找不到页码,找到包含下一页字样对应的标签,然后进行点击并获得内容。然后转到步骤6。
步骤(1)观察需要提取评论的网页的HTML标签结构,使用浏览器模拟工具提供的接口设计提取静态网页内容的模板。包括如下步骤:
(1)对于可以查看源码的网页,直接使用浏览器模拟工具的接口制作模板。
(2)对于不能查看源码的网页,使用浏览器模拟工具获得网页的HTML标签结构,然后利用浏览器工具的接口制作模板。
(3)在提取内容的过程中,对于不引用他人评论的评论,可以直接进行提取;对于引用他人评论的评论,需根据它的特殊标签进行判断,提取评论的有用信息,剔除引用的评论内容。
步骤(2)中的健壮性处理部分,从待处理URL队列首部取出一个URL,把获取URL对应信息的过程放入处理线程,主线程对它的活性进行检测同时记录它的运行时间,如果由于网络或者服务器出现问题而导致处理线程无法执行或者执行时间过长,主线程重启处理线程,记录处理线程的启动次数,对于启动次数超过三次的URL,暂不处理,将其放入队列尾部,从待处理URL队列首部取出一个URL,执行上述处理过程。
步骤(3)和步骤(4)中对浏览器模拟工具进行了两个设置,步骤(3)设置浏览器工具等待Javascript代码执行的时间阈值,该阈值应大于浏览器工具执行完URL对应的Javascript所需的时间,使浏览器模拟工具在获取URL的内容之前先执行完背景Javascript;步骤(4)设置浏览器工具直接处理Ajax的XmlhttpRequest对象产生的响应,使浏览器直接接收Ajax请求带来的服务器响应,达到异步的Ajax通信同步化的目的。
步骤(7)和步骤(8)中对翻页进行了处理,如果当前页不是该URL对应的评论的最后一页,可以用两种方法进行翻页:(1)根据当前页的页码得到下一页的页码,在当前网页标签中找到包含下一页页码的标签,模拟点击后获取网页对象;(2)找到当前网页标签中包含下一页字样的标签,模拟点击后获取网页对象。
图2为基于Ajax技术生成的新闻评论的网页样例图示,本装置的作用为使用浏览器模拟工具提取由Ajax技术动态生成的评论内容,对于评论内容是动态生成的网络论坛,本装置也可以用于提取其中的内容信息。
图3为装置工作流程图,具体的操作步骤包括:
1.根据评论网页HTML制作提取评论信息的模板。具体操作方法为使用浏览器访问评论网页,查看网页源码。
如果网页中有评论内容,使用浏览器模拟工具提供的元素访问接口访问所有与评论内容及其信息相关的标签,提取标签内容;对于引用其他评论内容的评论,使用精确提取方法得到评论及其相关信息。整理形成提取评论信息的模板。
对于网页源码中无法看到评论内容的情况,可以使用浏览器模拟工具获取该URL对应的网页中包含评论内容的所有HTML标签,分析这些HTML标签的结构,然后通过访问包含评论及其相关信息的标签,获得有用的信息。整理形成提取评论信息的模板。
对于不引用他人评论的评论内容,可用模板可以直接提取;对于引用他人评论的评论,需进行特殊处理:先获取其标签内容;总结它的特征,比如:拥有独有的HTML标签或者某标签数量要多余其他的评论的标签内容;然后对引用他人的评论的标签进行辨别,提取它自己的评论信息(不包含引用的评论)即为该条评论的信息。
下列代码为图2对应的模板的主体部分,它的功能是提取页面中留言的内容:


2.从准备好的URL队列中获取一个URL。这些队列对应的均为评论网页对应的URL。若URL队列为空,则监听队列,等到有URL加入的时候继续执行。
3.运用浏览器模拟工具实例化一个浏览器客户端:WebClient webClient=new WebClient();
4.设定浏览器客户端需等待该URL对应网页的Javascript代码的时间,因为需要获取完整的内容,需要等待所有的Javascript代码执行完。该时间值应该大于运行完一个网页的所有Javascript的时间,例如:
webClient.waitForBackgroundJavascriptStartingBefore(40000)。
5.使用该浏览器客户端的接口,使异步的Ajax通信同步化,从而Ajax的异步调用直接响应用户的操作:
webClient.setAjaxController(new NicelyResynchronizingAjaxController())。
6.通过浏览器客户端获取URL中的内容:pageContent=webClient.getPage(url);
7.使用(1)中完成的模板提取网页内容;提取评论以及评论相关信息,相关信息包括发表时间、发表人、IP、引用评论以及引用评论等相关信息。以下为一个使用模板提取评论内容的简单例子:

8.判断当前页是否为最后一页,若是则转至步骤2,继续从URL队列中取URL,若不是则转到步骤9。
9.找到包含“下一页”文本内容的标签,或者根据当前页的页码得到下一页的页码,然后找到包含下一页页码的标签,点击标签,得到下一页内容:
/*找到能够得到下一页内容的标签*/
nextPage=(HtmlElement)resultContent.item(j);
/*通过点击获取返回的内容*/
contentPage=nextPage.click().getWebResponse();
因为步骤5和6对浏览器客户端进行了设置,而nextPage为浏览器客户端对应的元素,在nextPage执行点击并且取得回应的过程中,客户端仍然会等待网页的背景Javascript执 行结束,并且Ajax的异步通信同样是被同步化了的,contentPage中包含了返回的下一页评论网页的内容。
对获得的网页进行内容提取,返回步骤7。
因为实际网络环境复杂,经常有网页存在错误或者Javascript执行不正常,爬虫获得的URL队列中很可能存在不能获取到内容的URL,因此本方法进行了健壮性处理。
把步骤1至步骤6描述的过程放在一个线程中执行:

步骤2处理过程中如果遇到错误的网页或者Javascript代码,则直接让线程退出,以加强程序的健壮性。
步骤3除了处理步骤2中的情况监听获取评论的线程是否运行外,还记录线程的运行时间和运行次数,对于死掉或者运行时间超过阈值的线程则进行第二次或者第三次运行,对于三次重新启动的URL,则把该URL放到队列的尾部,等待网络情况好转或者服务器恢复。图5表示了该过程的流程图。

一种多网页新闻评论内容自动精确提取装置.pdf_第1页
第1页 / 共13页
一种多网页新闻评论内容自动精确提取装置.pdf_第2页
第2页 / 共13页
一种多网页新闻评论内容自动精确提取装置.pdf_第3页
第3页 / 共13页
点击查看更多>>
资源描述

《一种多网页新闻评论内容自动精确提取装置.pdf》由会员分享,可在线阅读,更多相关《一种多网页新闻评论内容自动精确提取装置.pdf(13页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103488675 A (43)申请公布日 2014.01.01 C N 1 0 3 4 8 8 6 7 5 A (21)申请号 201310289400.4 (22)申请日 2013.07.11 G06F 17/30(2006.01) (71)申请人哈尔滨工程大学 地址 150001 黑龙江省哈尔滨市南岗区南通 大街145号哈尔滨工程大学科技处知 识产权办公室 (72)发明人王巍 杨武 苘大鹏 玄世昌 谈亚洲 申国伟 (54) 发明名称 一种多网页新闻评论内容自动精确提取装置 (57) 摘要 本发明属于多网页动态文字内容自动精确提 取领域,特别涉及一种提取各大门户网。

2、站或者论 坛动态生成的评论,为分析网络舆情提供资源库 的自动精确提取出所需信息内容的装置。多网页 新闻评论内容自动精确提取装置,包括动态内容 URL收集装置、网页预处理装置、数据获取装置、 数据自动化提取装置和输出装置。本发明的多网 页新闻评论内容自动精确提取装置,该装置既可 以通过静态网页模板有效地提取网页中的文字内 容,同时还可以针对以动态URL形式提供的网页 数据标识,从服务器端准确地获取相应的文字内 容。本发明可解决网页中动态数据内容的准确获 取和提取,提高了网页数据自动获取和提取的能 力,为网络数据分析和挖掘提供更好地技术支撑。 (51)Int.Cl. 权利要求书1页 说明书8页 附。

3、图3页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书8页 附图3页 (10)申请公布号 CN 103488675 A CN 103488675 A 1/1页 2 1.一种多网页新闻评论内容自动精确提取装置,包括动态内容URL收集装置、网页预 处理装置、数据获取装置、数据自动化提取装置和输出装置,其特征在于:观察需要提取评 论的网页的HTML标签结构,设计提取静态网页内容的模板,动态内容URL收集装置从新闻 评论网页URL队列中获取URL,根据URL的来源进行分类并存储;网页预处理装置将已经对 应描述模板的网页直接交给数据获取装置,将还没有对应描述模板的网页。

4、,提取网页的完 整标签、寻找包含有价值信息的标签,运用模拟工具提供的接口精确提取模板并保存,将新 闻评论的第一页URL交给数据获取装置;数据获取装置实例化浏览器对象,设置浏览器对 象等待网页中所有Javascript的时间阈值,设置Ajax的通信方式,使异步的Ajax通信同 步化,使浏览器对象直接接收Ajax的响应,与服务器进行同步通信,使用设置完的浏览器 对象对URL进行内容提取;数据自动提取装置根据URL的来源选择信息提取时使用的模板, 根据模板进行信息的精确提取,将提取出来的信息传递给信息存储装置,判断当前页码是 否为最后一页,若不是则进行翻页操作,继续提取信息;信息存储装置接收数据提取。

5、装置传 送的信息,对信息进行分类存储。 2.根据权利要求1所述的一种多网页新闻评论内容自动精确提取装置,其特征在于: 所述设计提取静态网页内容的模板时对于可以查看源码的网页,直接使用浏览器模拟工具 的接口制作模板;对于不能查看源码的网页,使用浏览器模拟工具获得网页的HTML标签结 构,然后利用浏览器工具的接口制作模板。 3.根据权利要求1或2所述的一种多网页新闻评论内容自动精确提取装置,其特征在 于:所述内容提取的过程中,对于不引用他人评论的评论,可以直接进行提取;对于引用他 人评论的评论,根据引用他人评论的评论中的特殊标签进行判断,提取该条评论的实际内 容,剔除引用的评论内容。 4.根据权利。

6、要求3所述的一种多网页新闻评论内容自动精确提取装置,其特征在于: 所述的时间阈值大于浏览器工具执行完URL对应的Javascript所需的时间。 权 利 要 求 书CN 103488675 A 1/8页 3 一种多网页新闻评论内容自动精确提取装置 技术领域 0001 本发明属于多网页动态文字内容自动精确提取领域,特别涉及一种提取各大门户 网站或者论坛动态生成的评论,为分析网络舆情提供资源库的自动精确提取出所需信息内 容的装置。 背景技术 0002 Ajax是Asynchronous Javascript+XML的缩写。Ajax技术的基本思想是允许一个 互联网浏览器向一个远程页面发出异步的HTT。

7、P调用,并且用返回的结果更新当前显示数 据的部分Web页面而不必刷新整个页面。Ajax的核心是Javascript对象XmlHttpRequest。 它是一种支持异步请求的技术,使用XmlHttpRequest可以向服务器提出请求并处理响应, 而不阻塞用户对网页其它内容的访问请求,页面无需整体刷新,在页面内与服务器通信。该 技术能够改善客户端的体验,使得HTTP页面外观与使用感觉很类似于Windows桌面应用程 序。同时使用异步方式与服务器通信,不需要打断用户的操作,具有更加迅速的响应能力, 可以把以前一些服务器负担的工作转到客户端,利用客户端闲置的处理能力,该技术已经 被标准化并得到广泛支持。

8、,不需要下载额外的插件或者支持程序。 0003 鉴于Ajax的多种优点,包括新浪、搜狐、网易、腾讯在内的各大门户网站不约而同 地使用这项技术来支持各自的查看评论的功能。门户网站的新闻每天都会收到数量庞大的 网民的评论,这些评论涵盖了时事、经济、电子产品等各个领域,如果能够自动收集来自于 这些网站的新闻评论,便可以为从不同角度对网民的舆情进行分析提供资源。对于商家来 说,获得民众对于其产品的全面回馈无疑是一件非常有利的事情。对于掌握民众对时事的 舆论趋势,网络评论也是非常重要的资料来源。因为门户网站的各个新闻版块相互独立,比 如:经济、文化、体育等,评论也是各自独立成块的,所以只需要把各个版块的。

9、链接中对应的 评论提取出来,不需要其他的分类,就可以得到该版块网民的评论。 0004 在动态内容提取方面已经申请的专利有申请号为200910133630.5的专利一种 Ajax网页内容的抓取方法及系统。该专利中的方法可以提取到部分动态网页的内容。对 于内容不是通过用户的点击、选择来获取的动态网页,该方法就不能获得网页内容了。此 外,该方法及系统需要分析繁琐的Javascript代码来确定哪个函数是调用Ajax来进行通 信的。同时,对于浏览器模拟工具来说,并不是点击后获得网页的内容就可以得到网页动态 生成的内容,需要设置等待网页执行完所有的Javascript代码,内容才能完全被浏览器模 拟工具。

10、获得到,该方法中没有涉及相关技术。 发明内容 0005 本发明的目的在于提供一种多网页新闻评论内容自动精确提取装置。 0006 本发明的目的是这样实现的: 0007 多网页新闻评论内容自动精确提取装置,包括动态内容URL收集装置、网页预处 理装置、数据获取装置、数据自动化提取装置和输出装置,观察需要提取评论的网页的HTML 说 明 书CN 103488675 A 2/8页 4 标签结构,设计提取静态网页内容的模板,动态内容URL收集装置从新闻评论网页URL队 列中获取URL,根据URL的来源进行分类并存储;网页预处理装置将已经对应描述模板的网 页直接交给数据获取装置,将还没有对应描述模板的网页。

11、,提取网页的完整标签、寻找包含 有价值信息的标签,运用模拟工具提供的接口精确提取模板并保存,将新闻评论的第一页 URL交给数据获取装置;数据获取装置实例化浏览器对象,设置浏览器对象等待网页中所 有Javascript的时间阈值,设置Ajax的通信方式,使异步的Ajax通信同步化,使浏览器对 象直接接收Ajax的响应,与服务器进行同步通信,使用设置完的浏览器对象对URL进行内 容提取;数据自动提取装置根据URL的来源选择信息提取时使用的模板,根据模板进行信 息的精确提取,将提取出来的信息传递给信息存储装置,判断当前页码是否为最后一页,若 不是则进行翻页操作,继续提取信息;信息存储装置接收数据提取。

12、装置传送的信息,对信息 进行分类存储。 0008 设计提取静态网页内容的模板时对于可以查看源码的网页,直接使用浏览器模拟 工具的接口制作模板;对于不能查看源码的网页,使用浏览器模拟工具获得网页的HTML标 签结构,然后利用浏览器工具的接口制作模板。 0009 内容提取的过程中,对于不引用他人评论的评论,可以直接进行提取;对于引用他 人评论的评论,根据引用他人评论的评论中的特殊标签进行判断,提取该条评论的实际内 容,剔除引用的评论内容。 0010 时间阈值大于浏览器工具执行完URL对应的Javascript所需的时间。 0011 本发明的有益效果在于:本发明的多网页新闻评论内容自动精确提取装置,。

13、该装 置既可以通过静态网页模板有效地提取网页中的文字内容,同时还可以针对以动态URL形 式提供的网页数据标识,从服务器端准确地获取相应的文字内容。本发明的应用,可解决网 页中动态数据内容的准确获取和提取,提高了网页数据自动获取和提取的能力,为网络数 据分析和挖掘提供更好地技术支撑。 附图说明 0012 图1多网页新闻评论内容自动精确提取装置结构图; 0013 图2基于Ajax技术生成的新闻评论的网页样例示意图; 0014 图3多网页新闻评论内容自动精确提取装置工作流程图; 0015 图4新闻评论内容精确提取示意图; 0016 图5处理过程健壮性维护方案流程图。 具体实施方式 0017 下面结合。

14、附图对本发明做进一步描述: 0018 本发明的多网页新闻评论内容自动精确提取装置包括动态内容URL收集装置、网 页预处理装置、数据获取装置、数据自动化提取装置和信息存储装置。 0019 动态内容URL收集装置:用于实时地在网络上采集需要关注领域的URL并存储; 根据URL的来源进行分类,以便选择不同的模板进行信息提取。 0020 网页预处理装置:分为两种情况,对于已经形成对应描述模板的网页,直接将其交 给数据获取装置;对于还没有对应描述模板的网页,则先提取网页的完整标签、并寻找包含 说 明 书CN 103488675 A 3/8页 5 有价值信息的标签,利用浏览器模拟工具提供的接口完成内容精确。

15、提取模板并保存,然后 将网页地址交给数据获取装置。 0021 数据获取装置:利用浏览器模拟工具实例化浏览器对象,设置浏览器等待背景 Javascript的时间阈值,该阈值应大于该网页的所有Javascript执行完所需的时间。设置 Ajax的通信方式,使异步的Ajax通信同步化,使浏览器对象直接接收Ajax的响应,与服务 器进行同步通信。使用设置完的浏览器对象对URL进行内容提取。 0022 数据自动提取装置:根据URL的来源,通常使用URL的前缀部分选择应该信息提 取时使用的模板并根据该模板进行信息的精确提取。将提取出来的信息传递给信息存储装 置。判断当前页码是否为最后一页,若不是则进行翻页。

16、操作。 0023 信息存储装置:接收数据提取装置传送过来的信息,对信息进行分类存储。 0024 本发明装置的运行包括如下步骤: 0025 1观察需要提取评论的网页的HTML标签结构,使用浏览器模拟工具提供的接口 设计提取静态网页内容的模板。 0026 2从新闻评论URL队列中获取一个URL,把该URL的处理放入处理线程,同时主线 程对该线程的状态进行检测,以加强处理过程的健壮性。 0027 3设定浏览器模拟客户端在获取网页内容时等待网页的Javascript代码执行的 时间阈值,此阈值应该大于该网页中所有的Javascript执行完所需的时间,可根据经验设 定。 0028 4通过设定Ajax控。

17、制器,使Ajax的异步调用直接响应用户的操作,做到异步的 Ajax通信同步化。 0029 5使用浏览器模拟工具实例化一个浏览器客户端,使用该客户端获取步骤2中获 得的URL的内容,得到一个网页对象。在获取网页内容之前,步骤3和4需要先完成。 0030 6使用步骤1中制作的提取评论内容的模板提取步骤5中获得的网页对象的评 论内容以及评论的相关信息。对于有引用别人评论的评论,需要进行相应处理,以做到精确 提取。存储提取到的内容。 0031 7判断当前评论页是否为最后一页,如果是则转步骤2,否则转步骤8。 0032 8如果能找到当前网页对应的页码,加1后找到对应页码网页的HTML标签,获取 该标签后。

18、,运用模拟工具提供的点击接口点击,并获得返回的网页对象。如果找不到页码, 找到包含下一页字样对应的标签,然后进行点击并获得内容。然后转到步骤6。 0033 步骤(1)观察需要提取评论的网页的HTML标签结构,使用浏览器模拟工具提供的 接口设计提取静态网页内容的模板。包括如下步骤: 0034 (1)对于可以查看源码的网页,直接使用浏览器模拟工具的接口制作模板。 0035 (2)对于不能查看源码的网页,使用浏览器模拟工具获得网页的HTML标签结构, 然后利用浏览器工具的接口制作模板。 0036 (3)在提取内容的过程中,对于不引用他人评论的评论,可以直接进行提取;对于 引用他人评论的评论,需根据它。

19、的特殊标签进行判断,提取评论的有用信息,剔除引用的评 论内容。 0037 步骤(2)中的健壮性处理部分,从待处理URL队列首部取出一个URL,把获取URL 对应信息的过程放入处理线程,主线程对它的活性进行检测同时记录它的运行时间,如果 说 明 书CN 103488675 A 4/8页 6 由于网络或者服务器出现问题而导致处理线程无法执行或者执行时间过长,主线程重启处 理线程,记录处理线程的启动次数,对于启动次数超过三次的URL,暂不处理,将其放入队列 尾部,从待处理URL队列首部取出一个URL,执行上述处理过程。 0038 步骤(3)和步骤(4)中对浏览器模拟工具进行了两个设置,步骤(3)设置。

20、浏览 器工具等待Javascript代码执行的时间阈值,该阈值应大于浏览器工具执行完URL对 应的Javascript所需的时间,使浏览器模拟工具在获取URL的内容之前先执行完背景 Javascript;步骤(4)设置浏览器工具直接处理Ajax的XmlhttpRequest对象产生的响应, 使浏览器直接接收Ajax请求带来的服务器响应,达到异步的Ajax通信同步化的目的。 0039 步骤(7)和步骤(8)中对翻页进行了处理,如果当前页不是该URL对应的评论的最 后一页,可以用两种方法进行翻页:(1)根据当前页的页码得到下一页的页码,在当前网页 标签中找到包含下一页页码的标签,模拟点击后获取网页。

21、对象;(2)找到当前网页标签中 包含下一页字样的标签,模拟点击后获取网页对象。 0040 图2为基于Ajax技术生成的新闻评论的网页样例图示,本装置的作用为使用浏览 器模拟工具提取由Ajax技术动态生成的评论内容,对于评论内容是动态生成的网络论坛, 本装置也可以用于提取其中的内容信息。 0041 图3为装置工作流程图,具体的操作步骤包括: 0042 1根据评论网页HTML制作提取评论信息的模板。具体操作方法为使用浏览器访 问评论网页,查看网页源码。 0043 如果网页中有评论内容,使用浏览器模拟工具提供的元素访问接口访问所有与评 论内容及其信息相关的标签,提取标签内容;对于引用其他评论内容的评。

22、论,使用精确提取 方法得到评论及其相关信息。整理形成提取评论信息的模板。 0044 对于网页源码中无法看到评论内容的情况,可以使用浏览器模拟工具获取该URL 对应的网页中包含评论内容的所有HTML标签,分析这些HTML标签的结构,然后通过访问包 含评论及其相关信息的标签,获得有用的信息。整理形成提取评论信息的模板。 0045 对于不引用他人评论的评论内容,可用模板可以直接提取;对于引用他人评论的 评论,需进行特殊处理:先获取其标签内容;总结它的特征,比如:拥有独有的HTML标签或 者某标签数量要多余其他的评论的标签内容;然后对引用他人的评论的标签进行辨别,提 取它自己的评论信息(不包含引用的评。

23、论)即为该条评论的信息。 0046 下列代码为图2对应的模板的主体部分,它的功能是提取页面中留言的内容: 0047 说 明 书CN 103488675 A 5/8页 7 0048 说 明 书CN 103488675 A 6/8页 8 0049 2从准备好的URL队列中获取一个URL。这些队列对应的均为评论网页对应的 URL。若URL队列为空,则监听队列,等到有URL加入的时候继续执行。 0050 3运用浏览器模拟工具实例化一个浏览器客户端:WebClient webClient=new WebClient(); 说 明 书CN 103488675 A 7/8页 9 0051 4设定浏览器客户端。

24、需等待该URL对应网页的Javascript代码的时间,因为需 要获取完整的内容,需要等待所有的Javascript代码执行完。该时间值应该大于运行完一 个网页的所有Javascript的时间,例如: 0052 webClient.waitForBackgroundJavascriptStartingBefore(40000)。 0053 5使用该浏览器客户端的接口,使异步的Ajax通信同步化,从而Ajax的异步调 用直接响应用户的操作: 0054 webClient.setAjaxController(new NicelyResynchronizingAjaxControlle r()。 0。

25、055 6通过浏览器客户端获取URL中的内容:pageContent=webClient. getPage(url); 0056 7使用(1)中完成的模板提取网页内容;提取评论以及评论相关信息,相关信息 包括发表时间、发表人、IP、引用评论以及引用评论等相关信息。以下为一个使用模板提取 评论内容的简单例子: 0057 0058 8判断当前页是否为最后一页,若是则转至步骤2,继续从URL队列中取URL,若 不是则转到步骤9。 0059 9找到包含“下一页”文本内容的标签,或者根据当前页的页码得到下一页的页 码,然后找到包含下一页页码的标签,点击标签,得到下一页内容: 0060 /*找到能够得到下。

26、一页内容的标签*/ 0061 nextPage=(HtmlElement)resultContent.item(j); 0062 /*通过点击获取返回的内容*/ 0063 contentPage=nextPage.click().getWebResponse(); 0064 因为步骤5和6对浏览器客户端进行了设置,而nextPage为浏览器客户端对 应的元素,在nextPage执行点击并且取得回应的过程中,客户端仍然会等待网页的背景 Javascript执行结束,并且Ajax的异步通信同样是被同步化了的,contentPage中包含了 返回的下一页评论网页的内容。 说 明 书CN 103488。

27、675 A 8/8页 10 0065 对获得的网页进行内容提取,返回步骤7。 0066 因为实际网络环境复杂,经常有网页存在错误或者Javascript执行不正常,爬虫 获得的URL队列中很可能存在不能获取到内容的URL,因此本方法进行了健壮性处理。 0067 把步骤1至步骤6描述的过程放在一个线程中执行: 0068 0069 步骤2处理过程中如果遇到错误的网页或者Javascript代码,则直接让线程退 出,以加强程序的健壮性。 0070 步骤3除了处理步骤2中的情况监听获取评论的线程是否运行外,还记录线程的 运行时间和运行次数,对于死掉或者运行时间超过阈值的线程则进行第二次或者第三次运 行,对于三次重新启动的URL,则把该URL放到队列的尾部,等待网络情况好转或者服务器 恢复。图5表示了该过程的流程图。 说 明 书CN 103488675 A 10 1/3页 11 图1 图2 说 明 书 附 图CN 103488675 A 11 2/3页 12 图3 说 明 书 附 图CN 103488675 A 12 3/3页 13 图4 图5 说 明 书 附 图CN 103488675 A 13 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1