什么是网络爬虫

 我来答

15个回答

#合辑# 面试问优缺点怎么回答最加分？

尚学堂java学院
2020-08-10 · 百度认证:北京尚学堂科技有限公司官方账号

尚学堂java学院

向TA提问

关注

展开全部

爬虫，通俗来说就是抓取网页数据。

比如说大家都喜欢的电子书、文字评论、商品详情等等。

只要网页上有的，都可以通过爬虫爬取下来。

对于大数据行业，数据的价值不言而喻，在这个信息爆炸的年代，互联网上有太多的信息数据，对于中小微公司，合理利用爬虫爬取有价值的数据，是弥补自身先天数据短板的不二选择。

网络爬虫分为四步：

获取网页数据
解析网页数据
存储网页数据
分析网页数据

希望这篇回答能帮到你，望采纳！！！

已赞过 已踩过<

评论收起

jing_work520
2008-11-26

知道答主

回答量：39

采纳率：0%

帮助的人：30.1万

我也去答题访问个人页

关注

展开全部

简单的说就是：人为编写的一个自动化程度。比如搜索引擎的原理，它会派蜘蛛程序在一定的时间里去网上抓取网页，如果网站不被搜索引擎（百度）收录，那么就搜不到。

已赞过 已踩过<

评论收起

帐号已注销
2020-03-09 · TA获得超过1万个赞

知道答主

回答量：6.4万

采纳率：4%

帮助的人：4854万

我也去答题访问个人页

关注

展开全部

已赞过 已踩过<

评论收起

百度网友7d96e5c61
2008-11-26 · TA获得超过1660个赞

知道小有建树答主

回答量：1330

采纳率：100%

帮助的人：508万

我也去答题访问个人页

关注

展开全部

另类搜索资料的方法：网络爬虫程序,WEB爬虫,网页蜘蛛，网络机器人

已赞过 已踩过<

评论收起

IT168
2022-12-16 · 百度认证:IT168官方账号,优质数码领域创作者

IT168

IT168是中国最大的个人和企业IT产品选购、互动网站,每日提供最新的IT产品报价、促销行情、手机、平板、笔记本、相机和企业等50个频道提供最专业的产品选购和使用建议。

向TA提问

关注

展开全部

网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
/iknow-pic.cdn.bcebos.com/d788d43f8794a4c2851e1fb402f41bd5ad6e3974"target="_blank"title="点击查看大图"class="ikqb_img_alink">/iknow-pic.cdn.bcebos.com/d788d43f8794a4c2851e1fb402f41bd5ad6e3974?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_600%2Ch_800%2Climit_1%2Fquality%2Cq_85%2Fformat%2Cf_auto"esrc="https://iknow-pic.cdn.bcebos.com/d788d43f8794a4c2851e1fb402f41bd5ad6e3974"/>
蚂蚁(ant)，自动检索工具(automaticindexer)，或者(在FOAF软件概念中)网络疾走(WEB
scutter)，是一种“自动化浏览网络”的程序，或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。
它们可以自动采集所有其能够访问到的页面内容，以供搜索引擎做进一步处理(分检整理下载的页面)，而使得用户能更快的检索到他们需要的信息。
网络爬虫始于一张被称作种子的统一资源地址(URLs)列表。当网络爬虫访问这些统一资源定位器时，它们会甄别出页面上所有的超链接，并将它们写入一张"待访列表"，即所谓"爬行疆域"(crawl
frontier)。
此疆域上的统一资源地址将被按照一套策略循环访问。如果爬虫在他执行的过程中复制归档和保存网站上的信息，这些档案通常储存，使他们可以被查看。阅读和浏览他们的网站上实时更新的信息，并保存为网站的“快照”。大容量的体积意味着网络爬虫只能在给定时间内下载有限数量的网页，所以要优先考虑其下载。
高变化率意味着网页可能已经被更新或者删除。一些被服务器端软件生成的URLs(统一资源定位符)也使得网络爬虫很难避免检索到重复内容。