《网络爬虫控制方法.pdf》由会员分享,可在线阅读,更多相关《网络爬虫控制方法.pdf(6页珍藏版)》请在专利查询网上搜索。
本发明公开了一种网络爬虫控制方法,涉及计算机网络领域。现有已知的建立在HADOOP模型的分布式网络爬虫系统只能通过重复建立和删除文件来进行文件更新,本发明采用分布式哈希表管理分布式网址文件,通过网址索引表快速找到网址具体读写位置,可以实现对网址文件进行部分更新和快速更新,不需要重复建立和删除文件,还可以控制网络爬虫对排名靠前的网址进行抓取,减轻了服务器的负担,减少资源占用,提高效率。。