爬虫技术,这个什么编程语言好一点?
我用 PHP 和 Python 都写过爬虫和正文提取程序。
最开始使用 PHP 所以先说说 PHP 的优点:
1.语言比较简单,PHP 是非常随意的一种语言。写起来容易让你把精力放在你要做的事情上,而不是各种语法规则等等。
2.各种功能模块齐全,这里分两部分:
1.网页下载:curl 等扩展库;
2.文档解析:dom、xpath、tidy、各种转码工具,可能跟题主的问题不太一样,我的爬虫需要提取正文,所以需要很复杂的文本处理,所以各种方便的文本处理工具是我的大爱。;
总之容易上手。缺点:
1.并发处理能力较弱:由于当时 PHP 没有线程、进程功能,要想实现并发需要借用多路服用模型,PHP 使用的是 select 模型。实现其来比较麻烦,可能是因为水平问题我的程序经常出现一些错误,导致漏抓。再说说 Python:
优点:
1.各种爬虫框架,方便高效的下载网页;
2.多线程、进程模型成熟稳定,爬虫是一个典型的多任务处理场景,请求页面时会有较长的延迟,总体来说更多的是等待。多线程或进程会更优化程序效率,提升整个系统下载和分析能力。
3.GAE 的支持,当初写爬虫的时候刚刚有 GAE,而且只支持 Python ,利用 GAE 创建的爬虫几乎免费,最多的时候我有近千个应用实例在工作。缺点:
1.对不规范 HTML 适应能力差:举个例子,如果一个页面里面同时有 GB18030 字符集的中文和 UTF-8 字符集的中文,Python 处理起来就没有 PHP 那么简单,你自己需要做很多的判断工作。当然这是提取正文时的麻烦。
Java 和 C++ 当时也考察过,相对脚本语言比较麻烦,所以放弃。
总之,如果开发一个小规模的爬虫脚本语言是个各方面比较有优势的语言。如果要开发一个复杂的爬虫系统可能 Java 是个增加选项, C++ 我感觉写个模块之类的更加适合。对于一个爬虫系统来说,下载和内文解析只是基本的两个功能。真正好的系统还包括完善的任务调度、监控、存储、页面数据保存和更新逻辑、排重等等。爬虫是一个耗费带宽的应用,好的设计会节约大量的带宽和服务器资源,并且好坏差距很大。
2019-12-13 · 百度认证:北京一天天教育科技有限公司官方账号,教育领域创作者
2019-12-09
1:Python薪资高,现在刚火起来在国内,在北上广深行发展一段时间在回二三线城市直接进管理层
2:Python是开发语言里面最简单的上手容易,简单不是说这个语言没含金量,是社会发展到这里了,
3:Python是人工智能,自动化开发,数据分析,无人驾驶,无人机开发必备和基础的功底,这代表未来,
不希望10多年后还要不断学习或者被淘汰就像手动挡汽车,自动挡汽车,无人驾驶,越来越简单越来越方便.用最简单的逻辑实现最复杂的功能是开发语言趋势
4:就业以内部推荐为主,很多单位项目都用Python整改,兼容性,可靠性稳定性更好
5:Python做为国家战略规划已经加入到高中教材和二级考试,没有任何语言这么被重视从小学生抓起,现在少儿编程学的就是Python
6:Python是进入人工智能,数据分析领域的必备语言
7:Python是云计算开发领域的第一语言
8:Python是金融分析领域的第一语言
9:Python是自动化开发领域的第一语言
10:Python是爬虫领域第一语言
11.Python是少儿编程领域的最适合的语言