如何入门 Python 爬虫

 我来答

3个回答

#热议# 发烧为什么不能用酒精擦身体来退烧？

cnbubble
2017-04-13 · TA获得超过2607个赞

知道大有可为答主

回答量：1990

采纳率：83%

帮助的人：772万

我也去答题访问个人页

关注

展开全部

我也正在学，推荐参考书：《Python网络数据采集》

在这之前应该有一定的Python基础，了解一下网络数据格式

本书内容提要
本书采用简洁强大的 Python 语言，介绍了网络数据采集，并为采集新式网络中的各种数据类
型提供了全面的指导。第一部分重点介绍网络数据采集的基本原理：如何用 Python 从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站，自动化处理，以及如何通过更多的方式接入网络。
本书适合需要采集 Web 数据的相关软件开发人员和研究人员阅读。

本回答由提问者推荐

已赞过 已踩过<

评论收起

广州市魔书科技有限公司

广告2024-12-28

ppt生成、文本润色、翻译、文档阅读、写文案、写代码、写论文等API直连，集成12家知名企业大语言模型

chat.moshuai.co

ch1798801094
2017-04-13 · TA获得超过1782个赞

知道小有建树答主

回答量：582

采纳率：90%

帮助的人：131万

我也去答题访问个人页

关注

展开全部

当然是学习了

已赞过 已踩过<

评论收起

我癫我狂我骄傲ck
2017-04-13 · TA获得超过445个赞

知道小有建树答主

回答量：530

采纳率：0%

帮助的人：481万

我也去答题访问个人页

关注

展开全部

基本的爬虫工作原理
基本的http抓取工具，scrapy
Bloom Filter: Bloom Filters by Example
如果需要大规模网页抓取，你需要学习分布式爬虫的概念。其实没那么玄乎，你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq: https://github.com/nvie/rq
rq和Scrapy的结合：darkrho/scrapy-redis · GitHub
后续处理，网页析取(grangier/python-goose · GitHub)，存储(Mongodb) ！

已赞过 已踩过<

评论收起

更多回答（1）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

笨方法学python-4.0Turbo-国内入口

ppt生成、文本润色、翻译、文档阅读、写文案、写代码、写论文等API直连，集成12家知名企业大语言模型

chat.moshuai.co广告

如何入门 Python 爬虫

您可能关注的内容

其他类似问题

为你推荐：