php如何写爬虫?

 我来答
猪八戒网
2023-04-03 · 百度认证:重庆猪八戒网络有限公司官方账号
猪八戒网
猪八戒网(zbj.com)创建于2006年,现已形成猪八戒网、天蓬网和线下八戒工场的“双平台+一社区”服务模式,是中国领先的人才共享平台。
向TA提问
展开全部

据我所知,很多第三库都可以实现你所要求的这些php爬虫特征。

如phpQuery,phpCrawl,phpSpider,Snoopy。

如果使用curl,也是相当不错的。但你要做的事情更多。它只负责请求和下载,并没有实现爬虫的核心。别的事情都要自己做,至少你得先封装一下。

如果你任务比较紧迫,建议选择那些第三方库,集成一下,能用先用着。

业务时间还是了解一下爬虫的方方面面比较好。

xpath简单,拿到源码,交给phpQuery就可以,像使用jQuery一样,不需要正则。还有一些是需要动态渲染才能拿到数据的,得用无头浏览器,如phantomjs,去处理。

速度不会成为问题,有问题也是因为速度太快,被网站发觉然后屏蔽你,而不是太慢。哈哈。

个人认为比较难的是怎么针对反爬虫策略,怎么做全自动化。还是建议你去看几本关于爬虫的书。

推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式