爬虫是什么？

 我来答

3个回答

#热议# 不吃早饭真的会得胆结石吗？

家居搬运工
2020-11-05 · 说说家居家装，如何装修好一个家

家居搬运工

采纳数：6430 获赞数：35945

向TA提问私信TA

关注

展开全部

搜索引擎爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。

1、首先从互联网页面中精心选择一部分网页，以这些网页的链接地址作为种子URL，将这些种子URL放入待抓取URL队列中，爬虫从待抓取URL队列依次读取，并将URL通过DNS解析，把链接地址转换为网站服务器对应的IP地址。

2、然后将其和网页相对路径名称交给网页下载器，网页下载器负责页面内容的下载。对于下载到本地的网页，一方面将其存储到页面库中，等待建立索引等后续处理；另一方面将下载网页的URL放入已抓取URL队列中，这个队列记载了爬虫系统已经下载过的网页URL，以避免网页的重复抓取。

3、对于刚下载的网页，从中抽取出所包含的所有链接信息，并在已抓取URL队列中检查，如果发现链接还没有被抓取过，则将这个URL放入待抓取URL队列末尾，在之后的抓取调度中会下载这个URL对应的网页。如此这般，形成循环，直到待抓取URL队列为空，这代表着爬虫系统已将能够抓取的网页尽数抓完，此时完成了一轮完整的抓取过程。

已赞过 已踩过<

评论收起

小小戏精er

科技发烧友

2020-11-05 · 智能家居/数码/手机/智能家电产品都懂点

知道小有建树答主

回答量：806

采纳率：85%

帮助的人：39.7万

我也去答题访问个人页

关注

展开全部

简单来讲，爬虫就是一个探测机器，它的基本操作就是模拟人的行为去各个网站溜达，点点按钮，查查数据，或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。

已赞过 已踩过<

评论收起

帐号已注销
2020-11-04 · TA获得超过1万个赞

知道答主

回答量：6.4万

采纳率：4%

帮助的人：4677万

我也去答题访问个人页

关注

展开全部

已赞过 已踩过<

评论收起

更多回答（1）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

爬虫是什么？

其他类似问题

为你推荐：