对于抓取翻页的数据,该如何用python来写

对于抓取翻页的数据,该如何用python来写,比如抓取http://zhidao.baidu.com/browse/80的翻页数据,该如何来写代码... 对于抓取翻页的数据,该如何用python来写,比如抓取http://zhidao.baidu.com/browse/80的翻页数据,该如何来写代码 展开
 我来答
就烦条0o
推荐于2018-03-30 · 知道合伙人软件行家
就烦条0o
知道合伙人软件行家
采纳数:33315 获赞数:46492
从事多年系统运维,喜欢编写各种小程序和脚本。

向TA提问 私信TA
展开全部
1、首先分析页面源代码中翻页处的特征,按规则取下一页地址适合页面地址不连续时,可通过正则表达式实现,如果页面地址为连续的,则直接按连续的地址获取数据。
2、按以上特征获取后面地址,通过urllib.request.urlopen(url)得到首页面的数据。可以通过正则表达式获取数据,也可按特征字符串定来取到数据。
3、如为规则网地址方式,可以使用线程来提高效率。
百度网友87b2a52
推荐于2016-06-08 · 知道合伙人软件行家
百度网友87b2a52
知道合伙人软件行家
采纳数:523 获赞数:3490
毕业于南京大学,硕士学位。10年软件研发经验。现任信息系统架构师。

向TA提问 私信TA
展开全部
看每一页的地址的特点啊,比如
第一页的地址:http://zhidao.baidu.com/browse/80
第二页的地址:http://zhidao.baidu.com/browse/80?pn=25#list
第三页的地址:http://zhidao.baidu.com/browse/80?pn=50#list
……
懂了吧,只要有地址就可以抓取,而地址是有规律可循的
本回答被提问者采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
学不可以已
2015-12-24 · TA获得超过619个赞
知道小有建树答主
回答量:1317
采纳率:57%
帮助的人:406万
展开全部
先找出每一页URL的规律
然后再用循环构建每页的URL
然后再用常规的抓取方法来抓就行了
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
lichunhai1230
2014-01-12 · TA获得超过518个赞
知道小有建树答主
回答量:974
采纳率:0%
帮助的人:480万
展开全部
可以按url特性来区分,也可以利用爬虫的特性,遍历所有url
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
织丰德
2015-10-22 · 超过16用户采纳过TA的回答
知道答主
回答量:50
采纳率:60%
帮助的人:21.3万
展开全部
安装BeautifulSoup包

在python中:
from bs4 import BeautifulSoup
import urllib2
然后可以用urllib2获取html,然后用BeautifulSoup解析网页了
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 更多回答(7)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式