学习scrapy爬虫,请帮忙看下问题出在哪
1个回答
展开全部
现在的网站对爬虫还是比较反感的,所以我们在爬取的时候一定要想方设法让我们的爬虫像人一样去浏览,楼主的问题我也遇到过,我的总结如下:
1、User-agent头是网站判断爬虫的第一道大门,我在网上搜索了100多个agent头串,保存成txt文件,程序运行时读取到一个数组中,每次打开链接时都随机从数组中挑选一个。
2、爬虫爬取的时间一定要控制好,大量的爬虫快速爬取服务器对服务器性能会产生较大的压力,所以在爬取的时候,写一个随机事件方法,一般而言我都设置1-2秒左右的随机暂停时间,这样也是为了模拟人的访问间隔
3、楼主可以试一下用BeautifulSoup+urllib2来编写爬虫,个人认为更加适合糗百这种信息结构较为简单的网站,对于爬虫的理解也会更加深刻一点。
1、User-agent头是网站判断爬虫的第一道大门,我在网上搜索了100多个agent头串,保存成txt文件,程序运行时读取到一个数组中,每次打开链接时都随机从数组中挑选一个。
2、爬虫爬取的时间一定要控制好,大量的爬虫快速爬取服务器对服务器性能会产生较大的压力,所以在爬取的时候,写一个随机事件方法,一般而言我都设置1-2秒左右的随机暂停时间,这样也是为了模拟人的访问间隔
3、楼主可以试一下用BeautifulSoup+urllib2来编写爬虫,个人认为更加适合糗百这种信息结构较为简单的网站,对于爬虫的理解也会更加深刻一点。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询