一种爬取手机客户端公共账号信息的方法.pdf

上传人:b*** 文档编号:497637 上传时间:2018-02-19 格式:PDF 页数:5 大小:329.89KB
返回 下载 相关 举报
摘要
申请专利号:

CN201410467250.6

申请日:

2014.09.15

公开号:

CN104199953A

公开日:

2014.12.10

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20141210|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140915|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

浪潮软件集团有限公司

发明人:

徐宏伟; 王传超; 孙海峰

地址:

250101 山东省济南市高新区科航路2877号

优先权:

专利代理机构:

济南信达专利事务所有限公司 37100

代理人:

姜明

PDF下载: PDF下载
内容摘要

一种爬取手机客户端公共账号信息的方法,解决了手机客户端部分公共账号信息采集的难题。目前公众号整体数量在300万多,微信整体国内用户数在5亿;这也就说明每个微信用户已经开始关注大量的微信公众号,微信公众号的信息同质化严重(尤其是信息类)。但同时,微信公众号们的弊端也越来越明显,一些杂七杂八甚至有悖于法理的信息不断干扰、冲击着人们。因此,需要通过公众号发布的内容进一步判断,有哪些有益信息,有哪些是负面信息。

权利要求书

1.  一种爬取手机客户端公共账号信息的方法, 其特征在于由于各个公共账号信息地址不一样,异步加载数据的地址更是不一样,因此,分以下几步完成对手机端公共账号信息数据采集:
1)安装采集软件及分析工具;
2)分析异步加载网页,寻找异步请求地址;
3)分析出异步请求地址规律,配置相关工具实施数据采集;
4)把采集的数据通过json分析后,储存到服务器;
5)通过手机微信搜到公众账号,或通过“扫一扫”搜到公众账号;
6)打开抓包工具,设置手机网络的代理地址,把地址设置成电脑的地址,设置正确的端口号;
7)打开搜到公共账号发布的信息链接; 
8)分析抓到的地址;
9)通过分析数据,预防反面言论,判断事件的目的性。

说明书

一种爬取手机客户端公共账号信息的方法
技术领域
本发明涉及网络爬虫、模拟浏览器、抓url包技术领域,具体地说是一种爬取手机客户端公共账号信息的方法。
背景技术
当今,大大小小的企业为了宣传产品或者提供服务,大部分都会注册微信的公共账号。公共账号分为组织和个人,个人只能申请订阅号。而随着公共账号的增多和账号菜单、内容的随意性,给采集也带了以下难题:
1.  标签不规则。模板采用多种样式;
2.  采集地址的随意变化;
3.  获取一个带有时间戳的ajax返回来的的URL,只能在短时间内获取该数据,否则会过期。
而本发明通过制定多模版化的采集规则,解决了标签不一,然后通过标签里的url,访问不同地址的页面内容。最后获取页面里的发送请求事件,模拟事件发送地址请求,并附带时间戳,获取到每个公共账号信息的地址。
发明内容
本发明的目的是提供一种爬取手机客户端公共账号信息的方法。
本发明的目的是按以下方式实现的,由于各个公共账号信息地址不一样,异步加载数据的地址更是不一样,因此,分以下几步完成对手机端公共账号信息数据采集:
1)安装采集软件及分析工具;
2)分析异步加载网页,寻找异步请求地址;
3)分析出异步请求地址规律,配置相关工具实施数据采集;
4)把采集的数据通过json分析后,储存到服务器;
5)通过手机微信搜到公众账号,或通过“扫一扫”搜到公众账号;
6)打开抓包工具,设置手机网络的代理地址,把地址设置成电脑的地址,设置正确的端口号;
7)打开搜到公共账号发布的信息链接; 
8)分析抓到的地址;
9)通过分析数据,预防反面言论,判断事件的目的性。
本发明的优异效果:解决了手机客户端部分公共账号信息采集的难题。目前公众号整体数量在300万多,微信整体国内用户数在5亿;这也就说明每个微信用户已经开始关注大量的微信公众号,微信公众号的信息同质化严重(尤其是信息类)。但同时,微信公众号们的弊端也越来越明显,一些杂七杂八甚至有悖于法理的信息不断干扰、冲击着人们。因此,需要通过公众号发布的内容进一步判断,有哪些有益信息,有哪些是负面信息。这么多公众号,如何能采集每个公众号的内容信息。
附图说明
图1是实施本发明方法的流程图。
具体实施方式
参照说明书附图对本发明的爬取手机客户端公共账号信息的方法,作以下详细地说明。
由于各个公共账号信息地址不一样,异步加载数据的地址更是不一样,因此,分以下几步完成对手机端公共账号信息数据采集:
1)安装采集软件及分析工具;
2)分析异步加载网页,寻找异步请求地址;
3)分析出异步请求地址规律,配置相关工具实施数据采集;
4)把采集的数据通过json分析后,储存到服务器;
5)通过手机微信搜到公众账号,或通过“扫一扫”搜到公众账号;
6)打开抓包工具,设置手机网络的代理地址,把地址设置成电脑的地址,设置正确的端口号;
7)打开搜到公共账号发布的信息链接; 
8)分析抓到的地址;
9)通过分析数据,预防反面言论,判断事件的目的性。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

一种爬取手机客户端公共账号信息的方法.pdf_第1页
第1页 / 共5页
一种爬取手机客户端公共账号信息的方法.pdf_第2页
第2页 / 共5页
一种爬取手机客户端公共账号信息的方法.pdf_第3页
第3页 / 共5页
点击查看更多>>
资源描述

《一种爬取手机客户端公共账号信息的方法.pdf》由会员分享,可在线阅读,更多相关《一种爬取手机客户端公共账号信息的方法.pdf(5页珍藏版)》请在专利查询网上搜索。

一种爬取手机客户端公共账号信息的方法,解决了手机客户端部分公共账号信息采集的难题。目前公众号整体数量在300万多,微信整体国内用户数在5亿;这也就说明每个微信用户已经开始关注大量的微信公众号,微信公众号的信息同质化严重(尤其是信息类)。但同时,微信公众号们的弊端也越来越明显,一些杂七杂八甚至有悖于法理的信息不断干扰、冲击着人们。因此,需要通过公众号发布的内容进一步判断,有哪些有益信息,有哪些是负面。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1