用php做采集功能网站的思路是怎样的,我会CURL和http,但是有些没有思路 100

怎么样偷取整个站或者整个栏目的功能呢?curl和http只能一次对一个网址进行盗取啊,求解思路.谢谢,这是要用到循环码还是?或者给个完整采集站的源码呗?dedecms的采... 怎么样偷取整个站或者整个栏目的功能呢?curl和http只能一次对一个网址进行盗取啊,求解思路.谢谢,这是要用到循环码还是?或者给个完整采集站的源码呗?dedecms的采集可以借鉴吗? 展开

 我来答

1个回答

#热议# 发烧为什么不能用酒精擦身体来退烧？

沧海昙花
2015-09-03 · TA获得超过100个赞

知道答主

回答量：41

采纳率：0%

帮助的人：30.8万

我也去答题访问个人页

关注

展开全部

1、指定一个列表页，用curl或file_get_contents将页面读取进来；
2、用正则或者XML分析DOM，获取到列表中文章的超链接，将其保存为一个任务数组；
3、遍历数组（循环），使用curl或file_get_contents将数组中的超链接指向的页面读取进来；
4、用正则或者XML分析DOM，获取到文章正文内容，将内容写入数据库中或者使用file_put_contents保存下来。
这是我的大体思路，有错误之处请指正。
可能需要注意的问题：如果页面超时，可以改大脚本运行超时间；为了提高效率是否要改为并发执行的curl_multi；如果被盗取的网站使用了参考referer的防盗链机制需要伪造referer等。

追问

第二点有点疑惑，curl偷到页面后如何操作呢？

懂了，但你这个是连样式也盗取了，如果我不盗取样式是不是通过xml或者json偷取？还有将数据放进数据库或者直接显示，有何优劣

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

用php做采集功能网站的思路是怎样的,我会CURL和http,但是有些没有思路 100

其他类似问题

为你推荐：