PHP几种抓取网络数据的常见方法

 我来答
若以下回答无法解决问题,邀请你更新回答
百度网友5d50351
2018-07-19 · 超过98用户采纳过TA的回答
知道小有建树答主
回答量:148
采纳率:95%
帮助的人:31.5万
展开全部

1. 使用socket技术采集:

socket采集是最底层的,它只是建立了一个长连接,然后我们要自己构造http协议字符串去发送请求。

例如要想获取这个页面的内容,http://tv.youku.com/?spm=a2hww.20023042.topNav.5~1~3!2~A,用socket写如下

<?php
    //连接,$error错误编号,$errstr错误的字符串,30s是连接超时时间
    $fp=fsockopen("www.youku.com",80,$errno,$errstr,30);
    if(!$fp) die("连接失败".$errstr);
     
    //构造http协议字符串,因为socket编程是最底层的,它还没有使用http协议
    $http="GET /?spm=a2hww.20023042.topNav.5~1~3!2~A HTTP/1.1\r\n";   //  \r\n表示前面的是一个命令
    $http.="Host:www.youku.com\r\n";  //请求的主机
    $http.="Connection:close\r\n\r\n";   // 连接关闭,最后一行要两个\r\n
     
    //发送这个字符串到服务器
    fwrite($fp,$http,strlen($http));
    //接收服务器返回的数据
    $data='';
    while (!feof($fp)) {
    $data.=fread($fp,4096);  //fread读取返回的数据,一次读取4096字节
    }
    //关闭连接
    fclose($fp);
    var_dump($data);
?>

2. 使用curl一套函数

curl把HTTP协议都封装成了很多函数,直接传相应参数即可,降低了编写HTTP协议字符串的难度。

前提:在php.ini中要开启curl扩展。

示例如下:

//生成一个curl对象
$curl=curl_init();
//设置URL和相应的选项
curl_setopt($curl, CURLOPT_URL, "http://www.youku.com");
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);  //将curl_exec()获取的信息以字符串返回,而不是直接输出。
//执行curl操作
$data=curl_exec($curl);
var_dump($data);

3.直接使用file_get_contents()方法

前提:在php.ini中设置允许打开一个网络的url地址。

allow_url_fopen = On

示例如下:

$data=file_get_contents("http://www.youku.com");
var_dump($data);

4.使用fopen()方法,以get方式获取内容

示例如下:

$url = 'http://localhost/test2.php';
$fp = fopen($url, 'r');
stream_get_meta_data($fp);
$result = '';
while(!feof($fp))
{
  $result .= fgets($fp, 1024);
}
echo "url body: $result";
fclose($fp);

4种方式的选择

网络之间通信主要使用的是以上4种。其中后两种用的较多:如果要批量采集大量的数据时使用第二种(CURL),性能好、稳定。

偶尔发几个请求发的频繁不密集时使用第三种(或是第4种)。

本回答被网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 1条折叠回答
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式