设计一个网络爬虫系统，有什么手段来避免抓取重复网页

 我来答

1个回答

#热议# 为什么说不要把裤子提到肚脐眼？

博泽雅瑾
2017-09-19 · 超过49用户采纳过TA的回答

知道小有建树答主

回答量：215

采纳率：45%

帮助的人：63.3万

我也去答题访问个人页

关注

展开全部

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件
爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止
(1) 对抓取目标的描述或定义； 
　　(2) 对网页或数据的分析与过滤； 
　　(3) 对URL的搜索策略。
　　抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。

本回答被提问者采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

2023网络爬虫python每天免费网上学习网络爬虫python

免费网上学习网络爬虫python，国内讲师机构专业授课，适合从基础学习，挑战从入门到熟练运用，海量网络爬虫python学习从入门到编程技术高超 python编程能力快速提升

设计一个网络爬虫系统，有什么手段来避免抓取重复网页

您可能关注的内容

其他类似问题

为你推荐：