如何避免重复抓取同一个网页

 我来答

2个回答

#热议# 海关有哪些禁运商品？查到后怎么办？

育知同创教育
2018-07-05 · 百度知道合伙人官方认证企业

育知同创教育

1【专注：Python+人工智能|Java大数据|HTML5培训】 2【免费提供名师直播课堂、公开课及视频教程】 3【地址：北京市昌平区三旗百汇物美大卖场2层，微信公众号：yuzhitc】

向TA提问

关注

展开全部

判断网页是否抓去过,可以使用bloomFilter算法.可以准确的判断不存在.判断存在则有一定的概率误差.网页抓取这种可以接受这种误差. 在搜索引擎领域，Bloom-Filter最常用于网络蜘蛛(Spider)的URL过滤，网络蜘蛛通常有一个URL列表，保存着将要下载和已经下载的网页的URL，网络蜘蛛下载了一个网页，从网页中提取到新的URL后，需要判断该URL是否已经存在于列表中。此时，Bloom-Filter算法是最好的选择。Bloom-Filter算法的核心思想就是利用多个不同的Hash函数来解决“冲突”。占用的空间性价比很高.

已赞过 已踩过<

评论收起

风十十6654
2017-01-11

知道答主

回答量：28

采纳率：0%

帮助的人：2.8万

我也去答题访问个人页

关注

展开全部

网页是构成网站的基本元素，是承载各种网站应用的平台。通俗地说，您的网站就是由网页组成的，如果您只有域名和虚拟主机而没有制作任何网页的话，您的客户仍旧无法访问您的网站。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

如何避免重复抓取同一个网页

其他类似问题

为你推荐：