对于抓取翻页的数据,该如何用python来写
对于抓取翻页的数据,该如何用python来写,比如抓取http://zhidao.baidu.com/browse/80的翻页数据,该如何来写代码...
对于抓取翻页的数据,该如何用python来写,比如抓取http://zhidao.baidu.com/browse/80的翻页数据,该如何来写代码
展开
9个回答
推荐于2016-06-08 · 知道合伙人软件行家
关注
展开全部
看每一页的地址的特点啊,比如
第一页的地址:http://zhidao.baidu.com/browse/80
第二页的地址:http://zhidao.baidu.com/browse/80?pn=25#list
第三页的地址:http://zhidao.baidu.com/browse/80?pn=50#list
……
懂了吧,只要有地址就可以抓取,而地址是有规律可循的
第一页的地址:http://zhidao.baidu.com/browse/80
第二页的地址:http://zhidao.baidu.com/browse/80?pn=25#list
第三页的地址:http://zhidao.baidu.com/browse/80?pn=50#list
……
懂了吧,只要有地址就可以抓取,而地址是有规律可循的
本回答被提问者采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
先找出每一页URL的规律
然后再用循环构建每页的URL
然后再用常规的抓取方法来抓就行了
然后再用循环构建每页的URL
然后再用常规的抓取方法来抓就行了
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
可以按url特性来区分,也可以利用爬虫的特性,遍历所有url
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
安装BeautifulSoup包
在python中:
from bs4 import BeautifulSoup
import urllib2
然后可以用urllib2获取html,然后用BeautifulSoup解析网页了
在python中:
from bs4 import BeautifulSoup
import urllib2
然后可以用urllib2获取html,然后用BeautifulSoup解析网页了
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询