【壹】Python爬虫入门——认识URL

 我来答
新科技17
2022-06-28 · TA获得超过5898个赞
知道小有建树答主
回答量:355
采纳率:100%
帮助的人:74.7万
展开全部

【系列前言】前段时间李响同学入门了一些Python的基础知识,觉得一直在IDLE里print一些算法题有一些枯燥,所以决定通过学习爬虫来提高自己的兴趣。而且最近确实有一些重复性劳动,想使用爬虫简化工作。遂打算边自学边写自己自学的过程,一方面作为小白的我可以和其他Python大神交流,一方面也可以以此监督自己。
【本人使用Python版本:2.7.5】

首先按理解一下爬虫(Spider),如果把一个站点比作一张纵横交错的蜘蛛网,那么我们爬虫要做的就是在这张网上爬来爬去,获得这张网上的信息和资源。而Web上每种资源,比如HTML文档、图片、视频等都由一个URI(Universal Resource Identifier,通用资源标志符)进行定位。 URL(Uniform Resource Locator,统一资源定位符)是URI的子集。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。而爬虫主要的处理对象就是URL。所以务必要对URL有一定的熟悉。

URI通常由三部分组成:
1.访问资源的命名机制;
2.存放资源的主机名;
3.资源自身 的名称,由路径表示。

URL的格式由三部分组成:
1.第一部分是协议(或称为服务方式)。
2.第二部分是存有该资源的主机IP地址(有时也包括端口号)。
3.第三部分是主机资源的具体地址,如目录和文件名等。
知乎:HTTP 协议中 URI 和 URL 有什么区别?@西毒 的回答

最近在搞挑战杯可能会有点忙,但还是希望自己能按照计划学习,定期更新此系列。

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式