PHP, Python, Node.js 哪个比较适合写爬虫？

 我来答

1个回答

#热议# 生活中有哪些实用的心理学知识？

电脑速回
2018-03-20

知道答主

回答量：55

采纳率：0%

帮助的人：4.7万

我也去答题访问个人页

关注

展开全部

我觉得做爬虫肯定需要后台技术的支持，和自己的对很多技术的理解和掌握吧，然后就是需要自己去找资料，去请教有经验的人。

1、如果是定向爬取几个页面，做一些简单的页面解析，爬取效率不是核心要求，那么用什么语言差异不大。 2、如果是定向爬取，且主要目标是解析js动态生成的内容

此时候，页面内容是有js/ajax动态生成的，用普通的请求页面->解析的方法就不管用了，需要借助一个类似firefox、chrome浏览器的js引擎来对页面的js代码做动态解析。

此种情况下，推荐考虑casperJS+phantomjs或slimerJS+phantomjs ，当然诸如selenium之类的也可以考虑。

NodeJS：对一些垂直网站爬取倒可以，但由于分布式爬取、消息通讯等支持较弱，根据自己情况判断。
Python：强烈建议，对以上问题都有较好支持。尤其是Scrapy框架值得作为第一选择。优点诸多：支持xpath；基于twisted，性能不错；有较好的调试工具；此种情况下，如果还需要做js动态内容的解析，casperjs就不适合了，只有基于诸如chrome V8引擎之类自己做js引擎。
至于C、C++虽然性能不错，但不推荐，尤其是考虑到成本等诸多因素；对于大部分公司还是建议基于一些开源的框架来做，不要自己发明轮子，做一个简单的爬虫容易，但要做一个完备的爬虫挺难的。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

PHP, Python, Node.js 哪个比较适合写爬虫？

为你推荐：