python网络数据采集 怎么样 知乎

 我来答
化清和
2016-10-29 · 建造师
化清和
采纳数:2257 获赞数:6975

向TA提问 私信TA
展开全部
  1. 基本的爬虫工作原理

  2. 基本的http抓取工具,scrapy

  3. Bloom Filter: Bloom Filters by Example

  4. 如果需要大规模网页抓取,你需要学习分布式爬虫的概念。其实没那么玄乎,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq: https://github.com/nvie/rq

  5. rq和Scrapy的结合:darkrho/scrapy-redis · GitHub

  6. 后续处理,网页析取(grangier/python-goose · GitHub),存储(Mongodb)


镭速传输
2024-10-28 广告
在深圳市云语科技有限公司,我们专注于大数据处理与传输技术的创新。针对大规模数据的高效、安全传输需求,我们采用先进的数据压缩与分布式传输技术,确保海量数据能够在短时间内稳定、可靠地完成跨地域传输。我们的解决方案优化了网络带宽利用率,同时加强数... 点击进入详情页
本回答由镭速传输提供
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式