python爬虫如何分析一个将要爬取的网站？

 我来答

3个回答

#热议# 为什么有人显老，有人显年轻？

数阔八爪鱼采集器丨RPA机器人
2021-07-29 · 前往八爪鱼RPA应用市场，免费获取机器人

数阔八爪鱼采集器丨RPA机器人

向TA提问

关注

展开全部

首先，你去爬取一个网站，

你会清楚这个网站是属于什么类型的网站（新闻，论坛，贴吧等等）。

你会清楚你需要哪部分的数据。

你需要去想需要的数据你将如何编写表达式去解析。

你会碰到各种反爬措施，无非就是各种百度各种解决。当爬取成本高于数据成本，你会选择放弃。

你会利用你所学各种语言去解决你将要碰到的问题，利用各种语言的client组件去请求你想要爬取的URL，获取到HTML，利用正则，XPATH去解析你想要的数据，然后利用sql存储各类数据库。

已赞过 已踩过<

评论收起

箬浅箬漾

高粉答主

2019-12-09 · 繁杂信息太多，你要学会辨别

知道小有建树答主

回答量：2509

采纳率：43%

帮助的人：73.1万

我也去答题访问个人页

关注

展开全部

首先,你去爬取一个网站, 你会清楚这个网站是属于什么类型的网站(新闻,论坛,贴吧等等)。 你会清楚你需要哪部分的数据。告诉你scrapy框架了，这是python最受欢迎的爬虫框架，有了这个框架，多线程爬取不需要你控制，你只需要完成数据的属性类item，网页爬虫类spider，数据保存类pipelines，网页去重类等等就可以了，世界是那么的美好，膜拜作者的想法在你心里油然而生。

如果你爬取数据量不大，只是单机爬取，上面就坐等结果了，如果你说“我手头有几台电脑，一起爬快点”，那么是时候告诉你scrapy-redis了。

本回答被网友采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

智企云
2019-12-09 · 百度认证:湖南中亿智企云科技有限公司官方账号

智企云

产业互联网营销技术服务商。国家高新技术企业，长沙市科技创新小巨人企业。致力于企业级互联网技术服务，涵盖网站建设、行业平台开发、小程序\APP深度定制、整合营销推广服务等领域。

向TA提问

关注

展开全部

首先要了解http知识。

已赞过 已踩过<

评论收起

1条折叠回答

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

python爬虫如何分析一个将要爬取的网站？

其他类似问题

为你推荐：