【Python爬虫】分析网页真实请求

 我来答

1个回答

机器1718
2022-07-06 · TA获得超过6846个赞

知道小有建树答主

回答量：2805

采纳率：99%

帮助的人：162万

关注

展开全部

1、抓取网页、分析请求
2、解析网页、寻找数据
3、储存数据、多页处理

翻页有规律：
很多网址在第一页时并没有变化，多翻下一页后规律就出来，比如豆瓣第一页和豆瓣第三页

发现start为40，limit=20，所以猜测start=0就是第一页，每页显示20条数据，对于第三页显示的参数可以一个个删除验证，可以减去不必要的参数， 但是删除前一定要做好数据的对比

（1） 文本框输入后产生一个请求，如常见的登录、注册页面
Referer：表示当前请求的来源
Request URL：表示实际请求地址

翻页后URL不变，该如何寻找请求？
如： http://www.zkh360.com/zkh_catalog/3.html

通过对比可以发现网站是通过pageIndex参数控制翻页的，？表示连接

接下来用抓包工具分析下，从第四页开始看URL就知道了，但是前面几面需要查看请求的参数，这里偏多，就切换到【Inspectors--Webforms】选项，看的比较直观

类似的网站还有今日头条，有兴趣的朋友可以去研究下
（可通过获取max_behot_time的值而改变as和cp）

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容