网络爬虫是什么？

 我来答

5个回答

#热议# 在购买新能源车时，要注意哪些？

浪禹近9718
2020-02-28 · TA获得超过5929个赞

知道大有可为答主

回答量：7152

采纳率：86%

帮助的人：266万

我也去答题访问个人页

关注

展开全部

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
中文名
网络爬虫
外文名
web crawler
别称
网络蜘蛛
目的
按要求获取万维网信息
产生背景
随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性，如：
(1)不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。
(2)通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。
(3)万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频、视频多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取。
(4)通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。

已赞过 已踩过<

评论收起

柚鸥ASO
2024-03-16 广告

网络爬虫是一种互联网机器人，它通过爬取互联网上网站的内容来工作。它是用计算机语言编写的程序或脚本，用于自动从Internet上获取任何信息或数据。机器人扫描并抓取每个所需页面上的某些信息，直到处理完所有能正常打开的页面。网络爬虫大致有4种类... 点击进入详情页

本回答由柚鸥ASO提供

帐号已注销
2020-03-09 · TA获得超过1万个赞

知道答主

回答量：6.4万

采纳率：4%

帮助的人：4681万

我也去答题访问个人页

关注

展开全部

已赞过 已踩过<

评论收起

小池90后
2020-02-28 · TA获得超过267个赞

知道小有建树答主

回答量：224

采纳率：66%

帮助的人：48.4万

我也去答题访问个人页

关注

展开全部

通俗说就是自动去特点网页上拿前端数据，你手动去拿就是复制粘贴或者另存网页再复制里面的数据

已赞过 已踩过<

评论收起

IT168
2022-12-16 · 百度认证:IT168官方账号,优质数码领域创作者

IT168

IT168是中国最大的个人和企业IT产品选购、互动网站,每日提供最新的IT产品报价、促销行情、手机、平板、笔记本、相机和企业等50个频道提供最专业的产品选购和使用建议。

向TA提问

关注

展开全部

网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
/iknow-pic.cdn.bcebos.com/d788d43f8794a4c2851e1fb402f41bd5ad6e3974"target="_blank"title="点击查看大图"class="ikqb_img_alink">/iknow-pic.cdn.bcebos.com/d788d43f8794a4c2851e1fb402f41bd5ad6e3974?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_600%2Ch_800%2Climit_1%2Fquality%2Cq_85%2Fformat%2Cf_auto"esrc="https://iknow-pic.cdn.bcebos.com/d788d43f8794a4c2851e1fb402f41bd5ad6e3974"/>
蚂蚁(ant)，自动检索工具(automaticindexer)，或者(在FOAF软件概念中)网络疾走(WEB
scutter)，是一种“自动化浏览网络”的程序，或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。
它们可以自动采集所有其能够访问到的页面内容，以供搜索引擎做进一步处理(分检整理下载的页面)，而使得用户能更快的检索到他们需要的信息。
网络爬虫始于一张被称作种子的统一资源地址(URLs)列表。当网络爬虫访问这些统一资源定位器时，它们会甄别出页面上所有的超链接，并将它们写入一张"待访列表"，即所谓"爬行疆域"(crawl
frontier)。
此疆域上的统一资源地址将被按照一套策略循环访问。如果爬虫在他执行的过程中复制归档和保存网站上的信息，这些档案通常储存，使他们可以被查看。阅读和浏览他们的网站上实时更新的信息，并保存为网站的“快照”。大容量的体积意味着网络爬虫只能在给定时间内下载有限数量的网页，所以要优先考虑其下载。
高变化率意味着网页可能已经被更新或者删除。一些被服务器端软件生成的URLs(统一资源定位符)也使得网络爬虫很难避免检索到重复内容。

官方服务
- 官方网站
- 官方网站

已赞过 已踩过<

评论收起

老男孩教育
2020-11-26 · 百度认证:北京一天天教育科技有限公司官方账号,教育领域创作者

老男孩教育

专注于Linux高级运维、Python开发、大数据培训，为您分享行业前沿的技术，有效的学习方法和有价值的学习资料。

向TA提问

关注

展开全部

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常被称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本，已被广泛应用于互联网领域。搜索引擎使用网络回爬虫抓取Web网页、文档甚至图片、音频、视频等资源，通过相应的索引技术组织这些信息，提供给搜索用户进行查询。随着网络的迅速发展，不断优化的网络爬虫技术正在有效地应对各种挑战，为高效搜索用户关注答的特定领域与主题提供了有力支撑。

本回答被网友采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

1条折叠回答

更多回答（3）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

网络爬虫工具-数据采集就用后羿采集器-小白神器，一键采集

基于人工智能算法的新一代智能网络爬虫工具，不需要配置采集规则，一键采集!导出采集结果无数量限制~不要积分~~

www.houyicaiji.com广告

虎课网python 为什么叫爬虫，python学习基础从入门到熟练运用!

python 为什么叫爬虫，python自学教程，，python3爬虫教程，python进阶教程，各种编程教程应有尽有，python系统性学习知识全面讲解，颠覆传统教学模式，随时随地，快学快用

www.huke88.com广告

网络爬虫是什么？

您可能关注的内容

其他类似问题

为你推荐：