java网络爬虫怎么实现抓取登录后的页面

 我来答
出家人词悲
高赞答主

推荐于2016-03-13 · 大脑停止不了思考
知道大有可为答主
回答量:1.4万
采纳率:12%
帮助的人:3827万
展开全部

原理即是保存cookie数据

保存登陆后的cookie.

以后每次抓取页面把cookie在头部信息里面发送过去。

系统是根据cookie来判断用户的。

有了cookie就有了登录状态,以后的访问都是基于这个cookie对应的用户的。

补充:Java是一种可以撰写跨平台应用软件的面向对象的程序设计语言。Java 技术具有卓越的通用性、高效性、平台移植性和安全性,广泛应用于PC、数据中心、游戏控制台、科学超级计算机、移动电话和互联网,同时拥有全球最大的开发者专业社群。

Mxyue0208
2013-01-05 · TA获得超过417个赞
知道小有建树答主
回答量:348
采纳率:0%
帮助的人:123万
展开全部
模拟登陆就行了!
追问
刚学,能解释具体点吗?
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
数阔八爪鱼采集器丨RPA机器人
2021-07-29 · 前往八爪鱼RPA应用市场,免费获取机器人
数阔八爪鱼采集器丨RPA机器人
向TA提问
展开全部
在做爬虫时,遇到需要登陆的问题也比较常见,比如写脚本抢票之类的,但凡需要个人信息的都需要登陆,对于这类问题主要有两种解决方式:一种方式是手动设置 cookie ,就是先在网站上面登录,复制登陆后的 cookies ,在爬虫程序中手动设置 HTTP 请求中的 Cookie 属性,这种方式适用于采集频次不高、采集周期短,因为 cookie 会失效,如果长期采集的话就需要频繁设置 cookie,这不是一种可行的办法,第二种方式就是使用程序模拟登陆,通过模拟登陆获取到 cookies,这种方式适用于长期采集该网站,因为每次采集都会先登陆,这样就不需要担心 cookie 过期的问题

1.手动设置 cookie
手动设置 cookie 的方式,这种方式比较简单,在网站上登陆,登陆成功后就可以获取到带有用户信息的cookie

2.模拟登陆方式
模拟登陆的方式可以解决手动设置 cookie 方式的不足之处,但同时也引入了比较复杂的问题,现在的验证码形形色色、五花八门,很多都富有挑战性,比如在一堆图片中操作某类图片,这个还是非常有难度,不是随便就能够编写出来。所以对于使用哪种方式这个就需要开发者自己去衡量利弊啦。关于模拟登陆方式最重要的就是找到真正的登陆请求、登陆需要的参数。 这个我们就只能取巧了,我们先在登陆界面输入错误的账号密码,这样页面将不会跳转,所以我们就能够轻而易举的找到登陆请求。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
yang163_yang
2013-01-05 · TA获得超过499个赞
知道小有建树答主
回答量:207
采纳率:0%
帮助的人:265万
展开全部
原理即是保存cookie数据,本人有已经写好的类一枚,可供参考,如有意向,请hi。
追问
已联系你,谢谢!
本回答被提问者采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 2条折叠回答
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式