《一种网络评论的采集方法及系统.pdf》由会员分享,可在线阅读,更多相关《一种网络评论的采集方法及系统.pdf(14页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103164438 A(43)申请公布日 2013.06.19CN103164438A*CN103164438A*(21)申请号 201110415749.9(22)申请日 2011.12.13G06F 17/30(2006.01)(71)申请人北大方正集团有限公司地址 100871 北京市海淀区成府路298号方正大厦9层申请人北京大学北京北大方正电子有限公司(72)发明人张涛 于晓明 杨建武(74)专利代理机构北京同达信恒知识产权代理有限公司 11291代理人黄志华(54) 发明名称一种网络评论的采集方法及系统(57) 摘要本发明公开了一种网络评论的采集方法及系统。。
2、所述方法包括:获取一网页入口链接地址;判断所述网页入口链接地址对应的网页上是否有N个网络评论,其中,所述N为正整数;在有所述N个网络评论时,判断所述N个网络评论中是否有M个网络评论满足采集的条件,其中,所述M为小于或等于N的正整数;在有所述M个网络评论满足采集的条件时,采集所述M个网络评论。(51)Int.Cl.权利要求书1页 说明书6页 附图6页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书1页 说明书6页 附图6页(10)申请公布号 CN 103164438 ACN 103164438 A1/1页21.一种网络评论的采集方法,其特征在于,包括:获取一网页入口链接地址;判。
3、断所述网页入口链接地址对应的网页上是否有N个网络评论,其中,所述N为正整数;在有所述N个网络评论时,判断所述N个网络评论中是否有M个网络评论满足采集的条件,其中,所述M为小于或等于N的正整数;在有所述M个网络评论满足采集的条件时,采集所述M个网络评论。2.如权利要求1所述的方法,其特征在于,所述获取一网页入口链接地址具体包括:获取所述N个网络评论所评论的主题所在的主题网页;获取所述主题网页的特征码;获取所述主题所在频道的特征码;以及拼接所述主题网页的特征码和所述频道的特征码。3.如权利要求2所述的方法,其特征在于,周期性刷新所述主题网页入口链接地址。4.如权利要求1所述的方法,其特征在于,当所。
4、述网页上的网络评论无更新超过一预定时间,则删除所述网页入口链接地址。5.如权利要求1所述的方法,其特征在于,所述判断所述N个网络评论中是否有M个网络评论满足采集的条件具体为:计算N和P的差值,如果N大于P,则表示有新的网络评论,且所述新增的网络评论的个数为N和P的差值M,其中P为上次访问所述页面时的网络评论的个数。6.如权利要求5所述的方法,其特征在于,所述方法还包括:计算所述页面的当前页面上包含的网络评论的个数L,如果所述L小于M,则计算翻页的页数,并抽取与所述页数对应的翻页链接,其中L为正整数。7.如权利要求5所述的方法,其特征在于,所述方法还包括:将所述N个网络评论中每一个网络评论与所述。
5、P个网络评论中每一个网络评论分别进行比对,如果比对结果不同,则抽取所述比对结果不同的M个网络评论。8.如权利要求1所述的方法,其特征在于,所述判断所述N个网络评论中是否有M个网络评论满足采集的条件具体为:将所述N个网络评论中每一个网络评论与所述P个网络评论中每一个网络评论分别进行比对,如果比对结果不同,则确定所述M个网络评论为满足采集条件的网络评论。9.如权利要求1所述的方法,其特征在于,所述方法还包括:将抽取的所述M个网络评论内容保存到一不同于所述网页的存储单元。10.一种网络评论的采集系统,其特征在于,包括:入口链接获取部件,用于获取一网页入口链接地址;第一判断部件,用于判断所述网页入口链。
6、接地址对应的网页上是否有N个网络评论,其中,所述N为正整数;第二判断部件,用于在有所述N个网络评论时,判断所述N个网络评论中是否有M个网络评论满足采集的条件,其中,所述M为小于或等于N的正整数;内容采集部件,用于在有所述M个网络评论满足采集的条件时,采集所述M个网络评论。权 利 要 求 书CN 103164438 A1/6页3一种网络评论的采集方法及系统技术领域0001 本发明涉及信息检索和数据集成技术领域,尤其涉及一种网络评论的采集方法及系统。背景技术0002 目前,随着互联网技术的高速发展,互联网已经成了世界上最大的信息库,它几乎涵盖了人类所有领域,已经成为人们获取信息、交流信息的重要平台。
7、。为了方便人们查阅信息,基于互联网的信息检索技术也得到了深入的研究与长足发展,而基于信息检索的相关应用,诸如网络舆情分析、评价垂直搜索等也由此产生。这些应用技术都是首先将网页下载到本地,然后祛除杂质抽取出分析需要的内容,最后在此基础上进一步分析。0003 对于发布在互联网上的信息,网络用户能够在浏览信息后发表自己的想法,形成对该信息的评论。由于当前互联网的普及型性、广泛性和即时性,可以说网络评论在一定程度上代表了大众对某一事件的看法,这对舆情分析有着重大意义和应用空间。0004 因此,网络评论已成为多种应用重要数据源之一,采集网络评论数据源则是最基础的条件。而在现有技术中,对网络评论的采集研究。
8、几乎为空白,缺少对网络评论进行高效、全面的采集技术。发明内容0005 本发明提供一种网络评论的采集方法及系统,可以高效、全面地采集网络评论。0006 本发明方法一方面提供了一种网络评论的采集方法,包括:获取一网页入口链接地址;判断所述网页入口链接地址对应的网页上是否有N个网络评论,其中,所述N为正整数;在有所述N个网络评论时,判断所述N个网络评论中是否有M个网络评论满足采集的条件,其中,所述M为小于或等于N的正整数;在有所述M个网络评论满足采集的条件时,采集所述M个网络评论。0007 优选地,所述获取一网页入口链接地址具体包括:获取所述N个网络评论所评论的主题所在的主题网页;获取所述主题网页的。
9、特征码;获取所述主题所在频道的特征码;以及拼接所述主题网页的特征码和所述频道的特征码。0008 优选地,周期性刷新所述主题网页入口链接地址。0009 优选地,当所述网页上的网络评论无更新超过一预定时间,则删除所述网页入口链接地址。0010 优选地,所述判断所述N个网络评论中是否有M个网络评论满足采集的条件具体为:计算N和P的差值,如果N大于P,则表示有新的网络评论,且所述新增的网络评论的个数为N和P的差值M,其中P为上次访问所述页面时的网络评论的个数。0011 优选地,计算所述页面的当前页面上包含的网络评论的个数L,如果所述L小于M,则计算翻页的页数,并抽取与所述页数对应的翻页链接,其中L为正。
10、整数。0012 优选地,将所述N个网络评论中每一个网络评论与所述P个网络评论中每一个网说 明 书CN 103164438 A2/6页4络评论分别进行比对,如果比对结果不同,则抽取所述比对结果不同的M个网络评论。0013 优选地,所述判断所述N个网络评论中是否有M个网络评论满足采集的条件具体为:将所述N个网络评论中每一个网络评论与所述P个网络评论中每一个网络评论分别进行比对,如果比对结果不同,则确定所述M个网络评论为满足采集条件的网络评论。0014 优选地,将抽取的所述M个网络评论内容保存到一不同于所述网页的存储单元。0015 本发明另一方面提供一种网络评论的采集系统,所述系统包括:入口链接获取。
11、部件,用于获取一网页入口链接地址;第一判断部件,用于判断所述网页入口链接地址对应的网页上是否有N个网络评论,其中,所述N为正整数;第二判断部件,用于在有所述N个网络评论时,判断所述N个网络评论中是否有M个网络评论满足采集的条件,其中,所述M为小于或等于N的正整数;内容采集部件,用于在有所述M个网络评论满足采集的条件时,采集所述M个网络评论。0016 本发明有益效果如下:0017 本发明一实施例采用一网络评论采集系统采集网络评论,通过获取网络评论的入口链接地址及设定采集条件来实现全面采集网络评论的技术效果。0018 进一步,还采用了比对部件,可以实现将本次抽取的所有评论中的每一条评论和上一次抽取。
12、的所有评论中的每一条评论进行比对,然后采用了内容抽取部件只将比对结果不同的评论抽取出来,所以可以在全面采集网络评论的基础上达到高效采集的效果。附图说明0019 图1为本发明一实施例中的采集方法的流程图;0020 图2为本发明图1中采集方法的详细流程图;0021 图3为本发明图1中采集方法的详细流程图;0022 图4为本发明第一实施例的采集系统架构图;0023 图5为本发明第二实施例的采集系统架构图;0024 图6为本发明第三实施例的采集系统架构图;0025 图7为本发明第四实施例的采集系统架构图;0026 图8为本发明另一实施例的采集系统架构图。具体实施方式0027 本发明一实施例提供一种网络。
13、评论的采集方法,用于采集网络评论。如图1所示,采集方法包括:0028 步骤11:获取一网页入口链接地址;0029 步骤12:判断网页入口链接地址对应的网页上是否有N个网络评论,其中,N为正整数;0030 步骤13:在有N个网络评论时,判断N个网络评论中是否有M个网络评论满足采集的条件,其中,M为小于或等于N的正整数;0031 步骤14:在有M个网络评论满足采集的条件时,采集M个网络评论。0032 其中,步骤11具体又包括(请参考图2)0033 步骤111:获取N个网络评论所评论的主题所在的主题网页;说 明 书CN 103164438 A3/6页50034 步骤112:获取主题网页的特征码;00。
14、35 步骤113:获取主题所在频道的特征码;0036 步骤114:拼接主题网页的特征码和频道的特征码。0037 本发明中,主题网页可以是新闻所在的页面也可以是商品信息所在的页面,现以新闻网页为例对本实施例进行详细说明,在实际中,主题网页也可以是其它信息所在的页面,本发明不作限制。0038 在本实施例中,对新闻进行评论的评论页面入口链接地址由新闻页面的脚本程序中的特征码按特定规则拼接后获得。例如,对新闻的网络评论页面的入口链接地址是由新闻页面的脚本程序将标识该篇新闻的特征码、标识该篇新闻所在的频道的特征码再加上域名以及一些其他元素(例如当前时间)拼接而成。获得上述特征码,并配置个性化的规则,按照。
15、指定模式匹配出网络评论页面的入口链接地址。0039 请继续参考图2,进一步地,步骤11还包括:0040 步骤115:周期性刷新主题网页入口链接地址。0041 在步骤115中,新闻网页的网站后台会可能对新闻进行再编辑,同一内容的新闻网页链接会发生变化。即意味着标识新闻以及新闻所在频道的特征码会发生变化,网络评论入口链接也随之变化,新的网络评论内容会由变化后网络评论入口链接加载,而之前所抽取出的网络评论入口链接地址所指页面不会再有新评论的更新。由此可见,如果继续使用原来记录的网络评论入口链接进行访问的话,无法获取到新更新的评论内容,故针对该情况,周期性的对当前记录的新闻页面链接进行刷新,如果链接地。
16、址变化,站点会自动跳转到变化后的新闻网页,这样就可以根据新获得的新闻网页重新抽取网络评论入口链接继续进行采集。即当新闻网页入口链接地址有更新时,跳转执行步骤111。0042 请参考图3,图3为步骤13的具体步骤,包括:0043 步骤131:从网页中抽取出当前网络评论的个数N,计算N与P的差值M其中P为上次访问该链接抽取出的网络评论个数;0044 步骤132:判断M是否大于零;0045 步骤133:当步骤132的结果为是时,抽取M个网络评论。0046 其中,步骤131从网页中抽取当前网络评论的个数N可以是通过正则表达式从网页中抽取,也可以是使用其它方法进行抽取,本发明不作限制。在第一次对网络评论。
17、进行采集时,P等于零。0047 请继续参考图3,其中步骤133具体包括:0048 步骤1331:计算页面的当前页面上包含的网络评论的个数L,其中L为小于或者等于M的正整数;0049 步骤1332:判断L是否小于M;0050 步骤1333:当步骤1332的结果为是时,计算翻页的页数,并抽取与页数对应的翻页链接。0051 其中,在步骤1333中,翻页的计算公式为:0052 0053 其中,Pcount表示翻页的页数,CUpdate(即M)表示评论更新数,CCurrent(即L)表示当说 明 书CN 103164438 A4/6页6前网页评论个数,NPerpage表示单篇网页评论数。0054 请继续。
18、参考图3,进一步地,步骤133还包括:0055 步骤1334:判断N个网络评论中每一个网络评论与P个网络评论中每一个网络评论是否相同;0056 步骤1335:当步骤1334结果为否时,则抽取比对结果不同的M个网络评论。0057 在步骤1335中抽取出的M个网络评论内容将会被保存到一不同于评论网页的存储单元,保存至存储单元的网络评论便于集中浏览,方便用户对采集后的网络评论进行应用。0058 在本实施例中,新闻是有时效性的,超过一定时间的新闻,就认为是无意义的,同样作为新闻的附属品新闻评论也随着新闻的失效而失效。基于上述原因,若网络评论在超过预定时间无更新的话,就删除该新闻评论链接,不再继续刷新,。
19、这样可以节省系统资源,具有更高的工作效率。0059 在另一实施例中,判断在N个网络评论中是否有M个网络评论满足采集的条件时,可以不采用上述实施例中计算N和P的差值M的方法,而是直接将N个网络评论中每一个网络评论与P个网络评论中每一个网络评论分别进行比对,如果比对结果不同,则抽取所述比对结果不同的M个网络评论。采用此种采集方法,是因为新闻网页的网站后台会不定期对网络评论进行删除,譬如,系统第一次采集有15条网络评论,在两次采集间隔当中,因为某些原因网站后台将15条评论全部删除与此同时又有30条新的评论添加进来,而一篇网页中只能显示15条评论,所以可以认为网络评论的第一页和第二页的网络评论都是新的。
20、。当采集周期到达时,就将本次采集到的30条评论与上次的15条评论进行比对,这样比对的结果是本次采集的30条评论与上次的15条评论都不相同,故,本次应采集30条新的评论。进一步,将本次采集的30条网络评论内容被保存到一不同于评论网页的存储单元,保存至存储单元的网络评论便于集中浏览,方便用户对采集后的网络评论进行应用。0060 本发明第一实施例提供一种网络数据的采集系统,请参考图4,图4为本实施例中的系统架构图。如图4所示,系统包括入口链接获取部件10、第一判断部件20、第二判断部件30和内容采集部件40。入口链接获取部件10用于获取一网页入口链接地址。第一判断部件20用于判断网页入口链接地址对应。
21、的网页上是否有N个网络评论。第二判断部件30用于判断是否有满足采集条件的M个网络评论。内容采集部件40用于采集网络评论。0061 其中,入口链接获取部件10包括第一获取单元101、第二获取单元102、第三获取单元103、拼接单元104。第一获取单元101用于获取N个网络评论所评论的主题所在的主题网页;第二获取单元102用于获取主题网页的特征码;第三获取单元103用于获取主题所在频道的特征码;拼接单元104用于拼接主题网页的特征码和频道的特征码。0062 第二判断部件30判断是否有满足采集条件的M个网络评论具体是从网页中抽取出N个网络评论,计算N与P的差值M,其中P为上次访问该链接抽取出的网络评。
22、论个数。进一步,判断M是否大于零,若M大于零,则表示M个网络评论为满足采集条件的评论。在第二实施例中,与第一实施例不同的是,系统还包括入口链接地址刷新部件50入口链接地址刷新部件50用于周期性刷新主题网页入口链接地址,在本实施例中,入口链接地址刷新部件50可以与入口链接获取部件10配合运用以便实现及时采集更新的网络评论。0063 在第三实施例中,与第一、第二实施例不同的是,系统还包括网络评论页面刷新部说 明 书CN 103164438 A5/6页7件60,用于判断网页上的网络评论无更新是否超过一预定时间,如果是,则删除网页入口链接地址。本实施例中,网络评论页面刷新部件60可以与第一判断部件20。
23、配合运用以便提高系统采集效率,对久未更新的网络评论便放弃采集。0064 第二和第三实施例请分别参考图5和图6。在实际中,两个实施例可以结合使用,以便采集实现全面采集网络评论的同时提高系统的采集效率。在第四实施例中,与第一、第二、第三实施例不同的是,内容采集部件40还包括翻页抽取部件401、比对部件402、内容抽取部件403和磁盘I/O部件404。翻页抽取部件401用于计算翻页的页数并抽取与页数对应的翻页链接;比对部件402用于将所述N个网络评论中每一个网络评论与所述P个网络评论中每一个网络评论分别进行比对;内容抽取部件403用于当比对结果不同时抽取所述比对结果不同的网络评论。磁盘I/O部件40。
24、4用于将抽取的网络评论内容保存到一不同于网页的存储单元。本实施例请参考图7。0065 本发明另一实施例提供一种网络数据的采集系统,请参考图8,图8为本实施例中的系统架构图。0066 本实施例与第一实施例不同的是本实施例不包括比对部件402和内容抽取部件403。如图8所示,本实施例的系统包括入口链接获取部件80、第一判断部件81、第二判断部件82和内容采集部件83。入口链接获取部件80用于获取一网页入口链接地址。第一判断部件81用于判断网页入口链接地址对应的网页上是否有网络评论。第二判断部件82用于判断是否有满足采集条件的网络评论。内容采集部件83用于采集网络评论。0067 其中,入口链接获取部。
25、件80包括第一获取单元801、第二获取单元802、第三获取单元803、拼接单元804。第一获取单元801用于获取N个网络评论所评论的主题所在的主题网页;第二获取单元802用于获取主题网页的特征码;第三获取单元803用于获取主题所在频道的特征码;拼接单元804用于拼接主题网页的特征码和频道的特征码。0068 第二判断部件82用于将所述N个网络评论中每一个网络评论与所述P个网络评论中每一个网络评论分别进行比对,如果比对结果不同,则确定所述M个网络评论为满足采集条件的网络评论。0069 内容采集部件83包括翻页抽取部件831及磁盘I/O部件832。翻页抽取部件831用于计算翻页的页数并抽取与页数对应。
26、的翻页链接;磁盘I/O部件832用于将抽取的网络评论内容保存到一不同于网页的存储单元。0070 在本实施例中,入口链接获取部件80可以结合第二实施例中的入口链接地址刷新部件84配合应用,以便实现较全面的采集网络评论。第一判断部件81可以结合第三实施例中的网络评论页面刷新部件85配合应用,以便实现全面、高效地采集网络评论。0071 上述第一、第二、第三、第四及另一实施例中的系统可以根据本发明提供的一种网络评论采集方法的实施例中对方法及其各种变化形式的描述进行实施。本处为了说明书的简洁,所以不再详述。0072 本发明一实施例采用一网络评论采集系统采集网络评论,通过获取网络评论的入口链接地址及设定采。
27、集条件来实现全面采集网络评论的技术效果。0073 进一步,还采用了比对部件,可以实现将本次抽取的所有评论中的每一条评论和上一次抽取的所有评论中的每一条评论进行比对,然后采用了内容抽取部件只将比对结果不同的评论抽取出来,所以可以在全面采集网络评论的基础上达到高效采集的效果。说 明 书CN 103164438 A6/6页80074 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。说 明 书CN 103164438 A1/6页9图1说 明 书 附 图CN 103164438 A2/6页10图2说 明 书 附 图CN 103164438 A10。