java 用程序抓取页面登陆问题
你好,我是java程序员,想问一下,我用java程序抓一个页面,但是这个页面要登陆后才会显示出QQ,有没有什么办法,可以直接登入他们的网站后就可以采集到呢,哪个论坛是用d...
你好,我是java程序员,想问一下,我用java程序抓一个页面,但是这个页面要登陆后才会显示出QQ,有没有什么办法,可以直接登入他们的网站后就可以采集到呢,哪个论坛是用discuz做的,QQ登陆直接到了腾讯界面,如果网站登入的话,需要验证码,也不能用提交的方式登陆,谢谢,java抓取页面,有没有说是利用默认的哪个浏览器过去的呢,抓取的机制是?不好意思,就直接提了这么多问题,谢谢谁帮忙解答一下。
展开
2个回答
展开全部
1、这是典型的需要模拟浏览器登陆后进行网络数据爬取的爬虫。
2、从楼主的表述中,对这种爬虫还不深。需要多了解不同种类的网络爬虫。
大致可分为两类,一类是全网的爬虫,像百度、谷歌就是这种,往往只抓取公共开放的信息。
二类是垂直型爬虫,如微博、团购、电子商务类网站的专业信息,这种往往是需要用户登陆后才能看到 更多的内容。
3、登陆后抓取数据,其实关键在获取登陆的cookie数据,再将cookie放入每次请求的http参数的cookie中,就可以每次如登陆后看到的数据一样抓取数据了。
4、建议楼主先看下关于模拟登陆相关知识点,再考虑如何实现。
希望能有所帮助。
2、从楼主的表述中,对这种爬虫还不深。需要多了解不同种类的网络爬虫。
大致可分为两类,一类是全网的爬虫,像百度、谷歌就是这种,往往只抓取公共开放的信息。
二类是垂直型爬虫,如微博、团购、电子商务类网站的专业信息,这种往往是需要用户登陆后才能看到 更多的内容。
3、登陆后抓取数据,其实关键在获取登陆的cookie数据,再将cookie放入每次请求的http参数的cookie中,就可以每次如登陆后看到的数据一样抓取数据了。
4、建议楼主先看下关于模拟登陆相关知识点,再考虑如何实现。
希望能有所帮助。
2013-10-27
展开全部
用httpserlet里的保存数据的几个对象就行了,session,page,application,cookie
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询