网络爬虫程序的爬虫的设计中应该注意的问题

 我来答
龚宕01C
2016-05-29
知道答主
回答量:87
采纳率:0%
帮助的人:22万
展开全部

第一个问题是URL地址的标准化:在WWW上,一个URL地址可以有多种表示方法,可以用IP地址表示,也可以用域名来表示。为了避免爬虫重复访问同一地址。第二个问题是避免掉进网络陷阱:网络上的链接情况比较复杂,一些静态的网页可能构成闭环回路。为了避免爬虫在一条循环路线上反复抓取,在把URL加入待搜索地址列表之前都要检查是否已在待搜索的地址列表中出现过。对于动态网页,爬虫应该忽略所有带参数的URL。第三个问题:对于拒绝访问的页面,爬虫应该遵从“漫游拒绝访问规则”。

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
柚鸥ASO
2024-03-16 广告
ASO(应用商店优化)是一种通过提高应用程序在应用商店中的可见性和排名,来吸引更多用户下载和使用的策略。以下是一些ASO优化的实例:1. 应用标题和描述:应用标题和描述是吸引用户的重要因素。在应用商店中,标题和描述的前几句话对用户决策起着关... 点击进入详情页
本回答由柚鸥ASO提供
佴念yh
2020-10-29 · TA获得超过1192个赞
知道小有建树答主
回答量:1032
采纳率:78%
帮助的人:55.7万
展开全部
  1. 不要盗取别人网站中的信息.

  2. 注意别人的爬取规则.

  3. 不要重复爬取.

  4. 不要影响人家的服务器.

  5. 只要是机器,比人快,效能就是最好的原则.

  6. 注意爬取信息的对象与集磊分类,便可以更准确的获取有用的信息.

  7. 就目前而言,好似没有会遵守规则的爬取者.

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式