如何用最简单的Python爬虫采集整个网站

 我来答

3个回答

匿名用户
2017-10-18

展开全部

采集网站数据并不难，但是需要爬虫有足够的深度。我们创建一个爬虫，递归地遍历每个网站，只收集那些网站页面上的数据。一般的比较费时间的网站采集方法从顶级页面开始（一般是网站主页），然后搜索页面上的所有链接，形成列表，再去采集到的这些链接页面，继续采集每个页面的链接形成新的列表，重复执行。

已赞过 已踩过<

评论收起

济宁哲风网络科技有限公司

广告2025-01-17

Pythno新版极速下载，一次激活永久使用，支持简体中文。一键安装激活，在线客服远程安装，无捆绑，无病毒，绿色安全版。终身售后，支持重装。

www.jnzfwl.cn

数阔八爪鱼采集器丨RPA机器人
2021-07-29 · 前往八爪鱼RPA应用市场，免费获取机器人

数阔八爪鱼采集器丨RPA机器人

向TA提问

关注

展开全部

最简单的办法：深层网络爬取的基本构成：URL列表、LVS列表（LVS指的是标签/数值集合，即填充表单的数据源）、爬行控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器。
深层网络爬虫的表单填写有两种类型：
基于领域知识的表单填写（建立一个填写表单的关键词库，在需要的时候，根据语义分析选择对应的关键词进行填写）；
基于网页结构分析的表单填写（一般在领域知识有限的情况下使用，这种方式会根据网页结构进行分析，并自动地进行表单填写）。

已赞过 已踩过<

评论收起

匿名用户
2017-10-18

展开全部

用网站地图就可以

已赞过 已踩过<

评论收起

更多回答（1）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

虎课网python网络爬虫基础教程，python学习基础从入门到熟练运用!

python网络爬虫基础教程，python自学教程，，python3爬虫教程，python进阶教程，各种编程教程应有尽有，python系统性学习知识全面讲解，颠覆传统教学模式，随时随地，快学快用

www.huke88.com广告

IOS移动端手机应用HTTPS傻瓜式抓包，暴力破解HTTPS

下载克魔，连接手机到电脑，无需任何设置，暴力抓包可以抓ios任何https包和tcp包不需要越狱，不需要处理ssl 和pin，不需要设置代理。能直接查看https请求解密后的内容

如何用最简单的Python爬虫采集整个网站

您可能关注的内容

其他类似问题

为你推荐：