如何对付网络爬虫

 我来答

2个回答

#热议# 应届生在签三方时要注意什么？

恋恋土豆丝
2017-06-19 · TA获得超过5231个赞

知道大有可为答主

回答量：4569

采纳率：0%

帮助的人：1005万

我也去答题访问个人页

关注

展开全部

可以设置robots.txt来禁止网络爬虫来爬网站。
方法：
首先，你先建一个空白文本文档（记事本），然后命名为：robots.txt；
（1）禁止所有搜索引擎访问网站的任何部分。
User-agent: *
Disallow: /
（2）允许所有的robots访问，无任何限制。
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
还可以建立一个空文件robots.txt或者不建立robots.txt。

（3）仅禁止某个搜索引擎的访问（例如：百度baiduspider）
User-agent: BaiduSpider
Disallow:/
（4）允许某个搜索引擎的访问（还是百度）
User-agent: BaiduSpider
Disallow:
User-agent: *
Disallow: /
这里需要注意，如果你还需要允许谷歌bot，那么也是在“User-agent: *”前面加上，而不是在“User-agent: *”后面。
（5）禁止Spider访问特定目录和特定文件（图片、压缩文件）。
User-agent: *
Disallow: /AAA.net/
Disallow: /admin/
Disallow: .jpg$
Disallow: .rar$
这样写之后，所有搜索引擎都不会访问这2个目录。需要注意的是对每一个目录必须分开说明，而不要写出“Disallow:/AAA.net/ /admin/”。

已赞过 已踩过<

评论收起

数阔八爪鱼采集器丨RPA机器人
2023-08-08 · 前往八爪鱼RPA应用市场，免费获取机器人

数阔八爪鱼采集器丨RPA机器人

向TA提问

关注

展开全部

网络爬虫是一种自动化获取互联网上信息的技术，但有些网站可能会采取防采集措施。针对这些措施，我们可以采取相应的解决方法。具体来说，对于网站防采集出现验证码的情况，可以在运行界面的左上角选择【暂停】按钮，手动通过验证后，点击继续按钮，任务即可继续采集。了解更多八爪鱼采集器的功能与合作案例，请前往官网了解更多详情

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

网络爬虫工具-数据采集就用后羿采集器-小白神器，一键采集

基于人工智能算法的新一代智能网络爬虫工具，不需要配置采集规则，一键采集!导出采集结果无数量限制~不要积分~~

www.houyicaiji.com广告

抵御爬虫攻击-网络爬虫，防止网络恶意爬虫的攻击

如何对付网络爬虫

您可能关注的内容

其他类似问题

为你推荐：