如何入门 Python 爬虫
2个回答
展开全部
第一 你是否有PYTHON 语言基础?
第二 你是否有 HTML 语言基础?
第三 你是会正则表达式?
如果你满足以上三点条件,那么恭喜你 可以开始学习SPIDER了。
首先爬虫的基本原理都是通过获取整个HTML 页面 ,然后通过正则表达式 分析 过滤掉不想要的内容 在把想要的内容 输出 保存。
python 爬虫主要用到的mod
1 re
2 urllib and urllib2 or beautiful soup or ...
第一个正则 第二个前两个是用来提交 HTML request 和获得HTML respones的 后面的OR 跟的都是 封装为了更简单处理标记语言的模块。
第二 你是否有 HTML 语言基础?
第三 你是会正则表达式?
如果你满足以上三点条件,那么恭喜你 可以开始学习SPIDER了。
首先爬虫的基本原理都是通过获取整个HTML 页面 ,然后通过正则表达式 分析 过滤掉不想要的内容 在把想要的内容 输出 保存。
python 爬虫主要用到的mod
1 re
2 urllib and urllib2 or beautiful soup or ...
第一个正则 第二个前两个是用来提交 HTML request 和获得HTML respones的 后面的OR 跟的都是 封装为了更简单处理标记语言的模块。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询