学习scrapy爬虫,请帮忙看下问题出在哪

 我来答
就烦条0o
2016-07-06 · 知道合伙人软件行家
就烦条0o
知道合伙人软件行家
采纳数:33315 获赞数:46493
从事多年系统运维,喜欢编写各种小程序和脚本。

向TA提问 私信TA
展开全部
现在的网站对爬虫还是比较反感的,所以我们在爬取的时候一定要想方设法让我们的爬虫像人一样去浏览,楼主的问题我也遇到过,我的总结如下:
1、User-agent头是网站判断爬虫的第一道大门,我在网上搜索了100多个agent头串,保存成txt文件,程序运行时读取到一个数组中,每次打开链接时都随机从数组中挑选一个。
2、爬虫爬取的时间一定要控制好,大量的爬虫快速爬取服务器对服务器性能会产生较大的压力,所以在爬取的时候,写一个随机事件方法,一般而言我都设置1-2秒左右的随机暂停时间,这样也是为了模拟人的访问间隔
3、楼主可以试一下用BeautifulSoup+urllib2来编写爬虫,个人认为更加适合糗百这种信息结构较为简单的网站,对于爬虫的理解也会更加深刻一点。
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式