Python爬虫在处理由Javascript动态生成的页面时有哪些解决方案
1个回答
2016-08-18 · 百度知道合伙人官方认证企业
兄弟连教育
兄弟连教育成立于2006年,11年来专注IT职业教育,是国内专业的IT技术培训学校。2016年成功挂牌新三板(股票代码:839467)市值过亿。开设专注程序员培训专注php、Java、UI、云计算、Python、HTML5、
向TA提问
关注
展开全部
我们一直使用思路二中的方法1,也就是说用一个浏览器内容来运行JavaScript和解析动态内容,而用python模拟人在浏览器上做动作。
这个实现方案最自然,虽然有人一直在批评这样的速度比较慢,但是在实际运行环境中,大部分情况下你会担心运行得太快了,我们采集这些网站的目的往往是为了BI项目或者数据分析,会集中且持续地从同一个目标网站上抓取数据,会给这个网站造成很大压力,从而会被封锁或者遇到验证码,所以,速度问题并不是关键问题。
用一个浏览器内容去模拟人的动作,省去用Firebug甚至底层抓包工具去一点点分析每个ajax消息。要知道,现在越来越多的网站使用ajax技术,持续不断的发送xmlhttprequest请求,要是挨个抓包分析,工作量太大了。
这个实现方案最自然,虽然有人一直在批评这样的速度比较慢,但是在实际运行环境中,大部分情况下你会担心运行得太快了,我们采集这些网站的目的往往是为了BI项目或者数据分析,会集中且持续地从同一个目标网站上抓取数据,会给这个网站造成很大压力,从而会被封锁或者遇到验证码,所以,速度问题并不是关键问题。
用一个浏览器内容去模拟人的动作,省去用Firebug甚至底层抓包工具去一点点分析每个ajax消息。要知道,现在越来越多的网站使用ajax技术,持续不断的发送xmlhttprequest请求,要是挨个抓包分析,工作量太大了。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询