python爬虫如何分析一个将要爬取的网站?

 我来答
数阔八爪鱼采集器丨RPA机器人
2021-07-29 · 前往八爪鱼RPA应用市场,免费获取机器人
数阔八爪鱼采集器丨RPA机器人
向TA提问
展开全部

首先,你去爬取一个网站,

你会清楚这个网站是属于什么类型的网站(新闻,论坛,贴吧等等)。

你会清楚你需要哪部分的数据

你需要去想需要的数据你将如何编写表达式去解析。

你会碰到各种反爬措施,无非就是各种百度各种解决。当爬取成本高于数据成本,你会选择放弃。

你会利用你所学各种语言去解决你将要碰到的问题,利用各种语言的client组件去请求你想要爬取的URL,获取到HTML,利用正则,XPATH去解析你想要的数据,然后利用sql存储各类数据库。

箬浅箬漾
高粉答主

2019-12-09 · 繁杂信息太多,你要学会辨别
知道小有建树答主
回答量:2509
采纳率:43%
帮助的人:73.1万
展开全部
首先,你去爬取一个网站, 你会清楚这个网站是属于什么类型的网站(新闻,论坛,贴吧等等)。 你会清楚你需要哪部分的数据。告诉你scrapy框架了,这是python最受欢迎的爬虫框架,有了这个框架,多线程爬取不需要你控制,你只需要完成数据的属性类item,网页爬虫类spider,数据保存类pipelines,网页去重类等等就可以了,世界是那么的美好,膜拜作者的想法在你心里油然而生。

如果你爬取数据量不大,只是单机爬取,上面就坐等结果了,如果你说“我手头有几台电脑,一起爬快点”,那么是时候告诉你scrapy-redis了。
本回答被网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
智企云
2019-12-09 · 百度认证:湖南中亿智企云科技有限公司官方账号
智企云
产业互联网营销技术服务商。国家高新技术企业,长沙市科技创新小巨人企业。致力于企业级互联网技术服务,涵盖网站建设、行业平台开发、小程序\APP深度定制、整合营销推广服务等领域。
向TA提问
展开全部
首先要了解http知识。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 1条折叠回答
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式