python网络数据采集怎么样知乎

 我来答

1个回答

化清和
2016-10-29 · 建造师

化清和

采纳数：2256 获赞数：6975

关注

展开全部

基本的爬虫工作原理
基本的http抓取工具，scrapy
Bloom Filter: Bloom Filters by Example
如果需要大规模网页抓取，你需要学习分布式爬虫的概念。其实没那么玄乎，你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq: https://github.com/nvie/rq
rq和Scrapy的结合：darkrho/scrapy-redis · GitHub
后续处理，网页析取(grangier/python-goose · GitHub)，存储(Mongodb)

本回答由提问者推荐

已赞过 已踩过<

评论收起

美林数据技术股份有限公司
2023-07-25 广告

美林数据Tempo大数据分析平台，它是一款集数据接入、数据处理、数据挖掘、数据可视化、数据应用于一体的软件产品。它秉持“智能、互动、增值”的设计理念，面向企业级用户提供自助式数据探索与分析能力，为企业提供从BI到AI的一体化数据分析与应用解... 点击进入详情页

本回答由美林数据技术股份有限公司提供

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

python网络数据采集 怎么样 知乎