python网络数据采集怎么样知乎

 我来答

1个回答

化清和
2016-10-29 · 建造师

化清和

采纳数：2257 获赞数：6975

关注

展开全部

基本的爬虫工作原理
基本的http抓取工具，scrapy
Bloom Filter: Bloom Filters by Example
如果需要大规模网页抓取，你需要学习分布式爬虫的概念。其实没那么玄乎，你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq: https://github.com/nvie/rq
rq和Scrapy的结合：darkrho/scrapy-redis · GitHub
后续处理，网页析取(grangier/python-goose · GitHub)，存储(Mongodb)

本回答由提问者推荐

已赞过 已踩过<

评论收起

镭速传输
2024-10-28 广告

在深圳市云语科技有限公司，我们专注于大数据处理与传输技术的创新。针对大规模数据的高效、安全传输需求，我们采用先进的数据压缩与分布式传输技术，确保海量数据能够在短时间内稳定、可靠地完成跨地域传输。我们的解决方案优化了网络带宽利用率，同时加强数... 点击进入详情页

本回答由镭速传输提供

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

python网络数据采集 怎么样 知乎