如何用python实现爬虫抓取网页时自动翻页

我把网页的第一篇内容抓取好了，但是用python怎么抓取后面的又如何停止。我在我抓取的网页代码中找到了javascript:voidresult_page_down('/... 我把网页的第一篇内容抓取好了，但是用python怎么抓取后面的又如何停止。我在我抓取的网页代码中找到了 javascript:voidresult_page_down('/index.php?t=0&y=0&m=1&s=0&re=1&d=&ajax=1') /下一页。但是不知道如何使用它求解答展开

 我来答

4个回答

#热议# 什么是淋病？哪些行为会感染淋病？

keven1006
2013-12-06 · TA获得超过684个赞

知道小有建树答主

回答量：820

采纳率：66%

帮助的人：372万

我也去答题访问个人页

关注

展开全部

看了你这个网站，下一页每次都不一样，每一页的链接也不一样，这种你靠分析肯定是不行的，因为你永远都不知道会出来什么内容，建议你用八爪鱼采集器，这是目前最好用的网页数据采集利器，解决这种问题很轻松的。

已赞过 已踩过<

评论收起

匿名用户
2015-08-02

展开全部

用爬虫跟踪下一页的方法是自己模拟点击下一页连接，然后发出新的请求；
参考例子如下：
item1 = Item()
yield item1
item2 = Item()
yield item2
req = Request(url='下一页的链接', callback=self.parse)
yield req
注意：使用yield时不要用return语句。

已赞过 已踩过<

评论收起

YDhcui
2013-12-06 · TA获得超过161个赞

知道小有建树答主

回答量：263

采纳率：0%

帮助的人：125万

我也去答题访问个人页

关注

展开全部

url=“http://search.jiayuan.com/index.php?t=0&y=0&m=1&s=0&re=1&d=&ajax=1”

data={'p':页码}
用post方法提交

追问

用post提交self._send_request(method, url, body, headers)  里面那个body就是页码？

本回答被提问者采纳

已赞过 已踩过<

评论收起

xiangnanscu
2013-12-05 · TA获得超过852个赞

知道小有建树答主

回答量：318

采纳率：0%

帮助的人：332万

我也去答题访问个人页

关注

展开全部

不太明白你在说什么....我都是直接从文本里面截取url,不知道你咋扯到javascript了.

更多追问追答

追问

我就是想要取得下一页的内容但是那个网站的每一页的连接都一样

唯一发现的就是这样一个javascript。

初学者很多不懂请见谅

追答

我仍然不知道你在说啥..你把链接发我看看

来自：求助得到的回答

已赞过 已踩过<

评论收起

1条折叠回答

更多回答（2）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

如何用python实现爬虫抓取网页时自动翻页

其他类似问题

为你推荐：