求大神!提交网页链接的爬虫数据显示403,网页能正常打开,是什么原因?怎么解决?
若以下回答无法解决问题,邀请你更新回答
2个回答
展开全部
403是请求被拒绝了 大多数网站的验证机制无非几种 1判断referer(来源网站) 2加密验证 requestheader 中会有一些特殊的值 3cookie用户验证
解决 1给你的请求header设置referer=上一页网址
2分析js或者在程序中使用浏览器内核运行js渲染
3htmlunit模拟登录 或者直接在header的cookie = 浏览器登录访问进去拷贝到你的程序代码里
解决 1给你的请求header设置referer=上一页网址
2分析js或者在程序中使用浏览器内核运行js渲染
3htmlunit模拟登录 或者直接在header的cookie = 浏览器登录访问进去拷贝到你的程序代码里
本回答被提问者和网友采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
添加header跟agent
追问
这是什么原因啊
还有agent是user agent吗
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询