python网络数据采集 怎么样 知乎

 我来答
化清和
2016-10-29 · 建造师
化清和
采纳数:2256 获赞数:6975

向TA提问 私信TA
展开全部
  1. 基本的爬虫工作原理

  2. 基本的http抓取工具,scrapy

  3. Bloom Filter: Bloom Filters by Example

  4. 如果需要大规模网页抓取,你需要学习分布式爬虫的概念。其实没那么玄乎,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq: https://github.com/nvie/rq

  5. rq和Scrapy的结合:darkrho/scrapy-redis · GitHub

  6. 后续处理,网页析取(grangier/python-goose · GitHub),存储(Mongodb)


美林数据技术股份有限公司
2023-07-25 广告
美林数据Tempo大数据分析平台,它是一款集数据接入、数据处理、数据挖掘、数据可视化、数据应用于一体的软件产品。它秉持“智能、互动、增值”的设计理念,面向企业级用户提供自助式数据探索与分析能力,为企业提供从BI到AI的一体化数据分析与应用解... 点击进入详情页
本回答由美林数据技术股份有限公司提供
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式