python爬虫需要学什么模块和框架
2个回答
2022-06-22 · 百度认证:北京一天天教育科技有限公司官方账号,教育领域创作者
关注
展开全部
最好用的python爬虫框架
①Scrapy:是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中;用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。
②PySpider:是一个用python实现的功能强大的网络爬虫系统,能在浏览器界面上进行脚本的编写,功能的调度和爬取结果的实时查看,后端使用常用的数据库进行爬取结果的存储,还能定时设置任务与任务优先级等。
③Crawley:可以高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等。
④Portia:是一个开源可视化爬虫工具,可让您在不需要任何编程知识的情况下爬取网站,简单地注释您感兴趣的页面,Portia将创建一个蜘蛛来从类似的页面提取数据。
⑤Newspaper:可以用来提取新闻、文章和内容分析,使用多线程,支持10多种语言等。
⑥Beautiful Soup:是一个可以从HTML或XML文件中提取数据的python库,它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式,会帮你节省数小时甚至数天的工作时间。
2016-12-03
展开全部
框架常用的有:scrapy ,pyspider
库比较多:requests, bs4, lxml
库比较多:requests, bs4, lxml
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询