利用Python爬取数据翻页时,一共100页,我只想要5页的数据,用什么代码停止翻页呢?
2个回答
展开全部
1、首先分析页面源代码中翻页处的特征,按规则取下一页地址适合页面地址不连续时,可通过正则表达式实现,如果页面地址为连续的,则直接按连续的地址获取数据。
2、按以上特征获取后面地址,通过urllib.request.urlopen(url)得到首页面的数据。可以通过正则表达式获取数据,也可按特征字符串定来取到数据。
3、如为规则网地址方式,可以使用线程来提高效率。
2、按以上特征获取后面地址,通过urllib.request.urlopen(url)得到首页面的数据。可以通过正则表达式获取数据,也可按特征字符串定来取到数据。
3、如为规则网地址方式,可以使用线程来提高效率。
追问
方便直接写出这个停止的代码吗?这是爬取的京东电脑数据。实在是不会
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询