对于抓取翻页的数据，该如何用python来写

对于抓取翻页的数据，该如何用python来写，比如抓取http://zhidao.baidu.com/browse/80的翻页数据，该如何来写代码... 对于抓取翻页的数据，该如何用python来写，比如抓取http://zhidao.baidu.com/browse/80的翻页数据，该如何来写代码展开

 我来答

9个回答

#热议# 普通体检能查出癌症吗？

就烦条0o
推荐于2018-03-30 · 知道合伙人软件行家

就烦条0o
知道合伙人软件行家

采纳数：33315 获赞数：46492

从事多年系统运维，喜欢编写各种小程序和脚本。

向TA提问私信TA

关注

展开全部

1、首先分析页面源代码中翻页处的特征，按规则取下一页地址适合页面地址不连续时，可通过正则表达式实现，如果页面地址为连续的，则直接按连续的地址获取数据。
2、按以上特征获取后面地址，通过urllib.request.urlopen(url)得到首页面的数据。可以通过正则表达式获取数据，也可按特征字符串定来取到数据。
3、如为规则网地址方式，可以使用线程来提高效率。

已赞过 已踩过<

评论收起

百度网友87b2a52
推荐于2016-06-08 · 知道合伙人软件行家

百度网友87b2a52
知道合伙人软件行家

采纳数：523 获赞数：3490

毕业于南京大学，硕士学位。10年软件研发经验。现任信息系统架构师。

向TA提问私信TA

关注

展开全部

看每一页的地址的特点啊，比如
第一页的地址：http://zhidao.baidu.com/browse/80
第二页的地址：http://zhidao.baidu.com/browse/80?pn=25#list
第三页的地址：http://zhidao.baidu.com/browse/80?pn=50#list
……
懂了吧，只要有地址就可以抓取，而地址是有规律可循的

本回答被提问者采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

学不可以已
2015-12-24 · TA获得超过619个赞

知道小有建树答主

回答量：1317

采纳率：57%

帮助的人：406万

我也去答题访问个人页

关注

展开全部

先找出每一页URL的规律
然后再用循环构建每页的URL
然后再用常规的抓取方法来抓就行了

已赞过 已踩过<

评论收起

lichunhai1230
2014-01-12 · TA获得超过518个赞

知道小有建树答主

回答量：974

采纳率：0%

帮助的人：480万

我也去答题访问个人页

关注

展开全部

可以按url特性来区分,也可以利用爬虫的特性,遍历所有url

已赞过 已踩过<

评论收起

织丰德
2015-10-22 · 超过16用户采纳过TA的回答

知道答主

回答量：50

采纳率：60%

帮助的人：21.3万

我也去答题访问个人页

关注

展开全部

安装BeautifulSoup包

在python中：
from bs4 import BeautifulSoup
import urllib2
然后可以用urllib2获取html,然后用BeautifulSoup解析网页了

已赞过 已踩过<

评论收起

更多回答（7）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

python语言是多模型语言吗-4.0Turbo-国内入口

ppt生成、文本润色、翻译、文档阅读、写文案、写代码、写论文等API直连，集成国内外知名的文生文大模型13家，文生图5家

chat.moshuai.co广告

对于抓取翻页的数据，该如何用python来写

您可能关注的内容

其他类似问题

为你推荐：