如何用python实现爬虫抓取网页时自动翻页
我把网页的第一篇内容抓取好了,但是用python怎么抓取后面的又如何停止。我在我抓取的网页代码中找到了javascript:voidresult_page_down('/...
我把网页的第一篇内容抓取好了,但是用python怎么抓取后面的 又如何停止。 我在我抓取的网页代码中找到了 javascript:voidresult_page_down('/index.php?t=0&y=0&m=1&s=0&re=1&d=&ajax=1') /下一页。但是不知道如何使用它 求解答
展开
2015-08-02
展开全部
用爬虫跟踪下一页的方法是自己模拟点击下一页连接,然后发出新的请求;
参考例子如下:
item1 = Item()
yield item1
item2 = Item()
yield item2
req = Request(url='下一页的链接', callback=self.parse)
yield req
注意:使用yield时不要用return语句。
参考例子如下:
item1 = Item()
yield item1
item2 = Item()
yield item2
req = Request(url='下一页的链接', callback=self.parse)
yield req
注意:使用yield时不要用return语句。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
追问
用post提交self._send_request(method, url, body, headers) 里面那个body就是页码?
本回答被提问者采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询