如何对付网络爬虫
2个回答
2017-05-31
展开全部
网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。比如,要启用一个新的域名做镜像网站,主要用于PPC的推广,这个时候就要想法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重。以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫(蜘蛛)。1、通过robots.txt文件屏蔽可以说robots.txt文件是最重要的一种渠道(能和搜索引擎建立直接对话),给出以下建议:User-agent:BaiduspiderDisallow:/User-agent:GooglebotDisallow:/User-agent:Googlebot-MobileDisallow:/User-agent:Googlebot-ImageDisallow:/User-agent:Mediapartners-GoogleDisallow:/User-agent:Adsbot-GoogleDisallow:/User-agent:Feedfetcher-GoogleDisallow:/User-agent:Yahoo!SlurpDisallow:/User-agent:Yahoo!SlurpChinaDisallow:/User-agent:Yahoo!-AdCrawlerDisallow:/User-agent:YoudaoBotDisallow:/User-agent:SosospiderDisallow:/User-agent:SogouspiderDisallow:/User-agent:SogouwebspiderDisallow:/User-agent:MSNBotDisallow:/User-agent:ia_archiverDisallow:/User-agent:TomatoBotDisallow:/User-agent:*Disallow:/2、通过metatag屏蔽在所有的网页头部文件添加,添加如下语句:3、通过服务器(如:Linux/nginx)配置文件设置直接过滤spider/robots的IP段。小注:第1招和第2招只对“君子”有效,防止“小人”要用到第3招(“君子”和“小人”分别泛指指遵守与不遵守robots.txt协议的spider/robots),所以网站上线之后要不断跟踪分析日志,筛选出这些badbot的ip,然后屏蔽之。
展开全部
网络爬虫是一种自动化获取互联网上信息的技术,但有些网站可能会采取防采集措施。针对这些措施,我们可以采取相应的解决方法。具体来说,对于网站防采集出现验证码的情况,可以在运行界面的左上角选择【暂停】按钮,手动通过验证后,点击继续按钮,任务即可继续采集。了解更多八爪鱼采集器的功能与合作案例,请前往官网了解更多详情
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询