对于处理不同页面结构的文章如何进行爬取

 我来答

1个回答

#热议# 海关有哪些禁运商品？查到后怎么办？

便漫轻答机0p
2019-07-05 · TA获得超过6216个赞

知道大有可为答主

回答量：6204

采纳率：83%

帮助的人：268万

我也去答题访问个人页

关注

展开全部

如果你要的数据量很小的话，python2自带的urllib2写爬虫就可以，如果你要的数据量比较大，就需要专门的爬虫框架scrapy了。一个爬虫，你首先要分析你要爬取的网页的页面结构，也就是你需要知道在DOM树种你要的元素在哪，然后用能操作DOM的包，比如beautifulsoup或者xpath等，解析DOM，获取你想要的值，然后保存起来

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

网络爬虫工具-数据采集就用后羿采集器-小白神器，一键采集

基于人工智能算法的新一代智能网络爬虫工具，不需要配置采集规则，一键采集!导出采集结果无数量限制~不要积分~~

www.houyicaiji.com广告

对于处理不同页面结构的文章如何进行爬取

您可能关注的内容

其他类似问题

为你推荐：