用php做采集功能网站的思路是怎样的,我会CURL和http,但是有些没有思路 100

怎么样偷取整个站或者整个栏目的功能呢?curl和http只能一次对一个网址进行盗取啊,求解思路.谢谢,这是要用到循环码还是?或者给个完整采集站的源码呗?dedecms的采... 怎么样偷取整个站或者整个栏目的功能呢?curl和http只能一次对一个网址进行盗取啊,求解思路.谢谢,这是要用到循环码还是?或者给个完整采集站的源码呗?dedecms的采集可以借鉴吗? 展开
 我来答
沧海昙花
2015-09-03 · TA获得超过100个赞
知道答主
回答量:41
采纳率:0%
帮助的人:30.8万
展开全部
1、指定一个列表页,用curl或file_get_contents将页面读取进来;
2、用正则或者XML分析DOM,获取到列表中文章的超链接,将其保存为一个任务数组;
3、遍历数组(循环),使用curl或file_get_contents将数组中的超链接指向的页面读取进来;
4、用正则或者XML分析DOM,获取到文章正文内容,将内容写入数据库中或者使用file_put_contents保存下来。
这是我的大体思路,有错误之处请指正。
可能需要注意的问题:如果页面超时,可以改大脚本运行超时间;为了提高效率是否要改为并发执行的curl_multi;如果被盗取的网站使用了参考referer的防盗链机制需要伪造referer等。
追问
第二点有点疑惑,curl偷到页面后如何操作呢?
懂了,但你这个是连样式也盗取了,如果我不盗取样式是不是通过xml或者json偷取?还有将数据放进数据库或者直接显示,有何优劣
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式