首页 > 编程技术 > php

php file_get_contents 设置代理抓取页面示例

发布时间:2016-11-25 15:45

file_get_contents函数在php中可以直接打开本地文件也可以直接抓取远程服务器文件,如果简单的采集我们可以使用file_get_contents直接来操作,如果有防采集我们可能需要代理来操作,下面我来介绍file_get_contents抓取页面示例。


例1,普通页面获取

例如,访问54master论坛,想抓取首页里 所有h3标记内的元素。

 代码如下 复制代码


$url=http://www.111cn.net;
$contents=@file_get_contents($url);
//preg_match_all("/<p class="right forumcount">(.*?)</p>/is",$contents,$content);
preg_match_all("/<h3>(.*?)</h3>/is",$contents,$content);
print_r($content[0]);

例2,设置代码IP去采集数据

使用file_get_contents 和 stream_context_create 即可。

代码如下:

 代码如下 复制代码

$aContext = array(
    'http' => array(
        'proxy' => 'tcp://192.168.0.2:3128',  //这里设置你要使用的代理ip及端口号
        'request_fulluri' => true,
    ),
);
$cxContext = stream_context_create($aContext);
$sFile = file_get_contents("http://www.111cn.net", False, $cxContext);
echo $sFile;

以上代码适用于正常情况,但是如果目标页面需要登录或需要认证信息才能访问的话,可以加多一句代码。

 代码如下 复制代码

$auth = base64_encode('LOGIN:PASSWORD');   //LOGIN:PASSWORD 这里是你的账户名及密码
$aContext = array(
    'http' => array(
        'proxy' => 'tcp://192.168.0.2:3128',  //这里设置你要使用的代理ip及端口号
        'request_fulluri' => true,
        'header' => "Proxy-Authorization: Basic $auth",
    ),
);
$cxContext = stream_context_create($aContext);
$sFile = file_get_contents(http://www.111cn.net, False, $cxContext);
echo $sFile;

这样就可以使用代理来抓取页面或文件了

本文章来人大家介绍一个php文件上传类的使用方法,期望此实例对各位php入门者会有不小帮助哦。

简介

Class.upload.php是用于管理上传文件的php文件上传类, 它可以帮助你快速的给自己的网站集成上传文件功能。不仅如此,此分类还有一些列的处理功能,可以对上传的文件或者本地的文件进行处理,其图片处理功能比较 强大,包括图片的缩放、旋转、剪裁、类型转换、应用滤镜、添加边框文字和水印等。支持的图片类型是png、jpg、gif和bmp。


使用方法

首先我们要有一个用于提交上传文件的表单,如下,注意表单要写上enctype="multipart/form-data"。

 代码如下 复制代码

<form enctype="multipart/form-data" method="post" action="upload.php">

   <input type="file" size="32" name="image_field" value="">

   <input type="submit" name="Submit" value="upload">

 </form>

然后创建表单处理脚本文件upload.php,在脚本中添加如下程序。含义请看注释

 代码如下 复制代码

$handle = new upload($_FILES['image_field']);

//image_field是表单中上传控件的name属性,创建一个类的实例并用$_FILES[' image_field ']初始化,现在这个类已经知道你要处理哪个文件,并对文件的位置大小等信息了如指掌。

 代码如下 复制代码

   if ($handle->uploaded) {

//这个判断是个安全选项,看一下这个文件真的是正规途径过来的上传文件吗。

       $handle->file_new_name_body   = 'image_resized';//给这个文件起个名字吧, 注意这个是不带扩展名的部分,如果有与之同名的文件,默认的行为是重命名。

       $handle->image_resize         = true;//我们传了一张图片,需要对它进行缩放,设置缩放属性为true

       $handle->image_x                  = 100;//缩放要有标准,这里我们以宽度为基准,宽度必须是100像素

       $handle->image_ratio_y        = true;//你也可以指定一个具体的长度数值,写法是$handle->image_y = [数值],这里是告诉程序以宽度为基准,高度按比例缩放。

       $handle->process('/home/user/files/');//在执行这句话之前,你还可以设定更多的处理选项,比如是否对图 片进行旋转剪裁,设定好了,就用这句话来执行图片处理和上传。图片处理时会创建一个原图片的副本,不会修改原始文件,原始文件存在于php的临时文件夹 中,在linux服务器上可能是/tmp目录。这样你可以对同一张上传的图片进行多次处理,并指定上传到不同的位置。这里'/home/user /files/'指定了文件要被复制到的位置。

       if ($handle->processed) {

           echo 'image resized';

           $handle->clean();//如果文件成功上传,就清除掉这个对源文件的引用,此后将不能再对刚才上传到临时文件夹的图片进行处理和复制了。

       } else {

           echo 'error : ' . $handle->error;

       }

   }

 

如何直接下载图片,如果你是做在线图片处理程序,这个很有用。

 代码如下 复制代码

$handle = new upload($_FILES['image_field']);

header('Content-type: ' . $handle->file_src_mime);

header("Content-Disposition:attachment; filename=".rawurlencode($handle->file_src_name).";");

   echo $handle->Process();

 

如何将图片直接输出到浏览器

 代码如下 复制代码

$handle = new upload($_FILES['image_field']);

header('Content-type: ' . $handle->file_src_mime);

echo $handle->Process();

 

比较常用的处理参数,这些参数可以在调用$handle->process()之前设定处理方式

 代码如下 复制代码

$handle->file_new_name_body = 'new name'

指定文件被上传到指定位置后的名字,不包含扩展名的部分

 代码如下 复制代码

$handle->file_new_name_ext = 'txt'

指定文件扩展名

 代码如下 复制代码

$handle->mime_check = true;

指定是否对文件扩展名进行安全性检查,默认是true,即进行检查,注意这可能导致某些类型的文件无法上传,比如.zip文件

 代码如下 复制代码

$handle->allowed = array('application/pdf','application/msword', 'image/*');

指定允许上传的文件mime类型

 代码如下 复制代码

$handle->image_max_width = 200;

指定最大允许的图片宽度,如果图片超过此宽度将被视为不符合要求无法上传,类似参数有$handle->image_max_height,,$handle->image_max_pixels,$handle->image_max_ratio等

 在处理文件之前你可以读取的文件信息

file_src_name:上传文件的原始名称,包括扩展名

file_src_name_body:原始名称,不包括扩展名

file_src_name_ext:扩展名

file_src_pathname:文件完整的路径和名称

file_src_mime:mime类型

file_src_size: 文件大小

file_src_error: 上传错误

file_is_image: 布尔类型,是否是图片

 如果文件是图片,你还可以读到

image_src_x,image_src_y,image_src_pixels,image_src_type,image_src_bits

 文件处理了,也上传了,能返回什么,这个也是很有用的,如果你要记录文件信息到数据库或者显示给用户的话。

file_dst_path:上传后的文件路径

file_dst_name_body: 上传后的文件名,不包括扩展名

file_dst_name_ext:上传后的文件扩展名

file_dst_name:上传后的文件全名

file_dst_pathname:上传后的文件完整的路径和名称

如果文件是图片,你还可以读到

image_dst_x,image_dst_y,image_convert

在php中要执行计划任务我们需要系统的支持,下面我来介绍在linux与windows下实现php计划任务具体配置方法,希望此方法对你有帮助。

面介绍使用Linux中的Crontab来实现的两种方法。关于crontab的使用,可参考文章:Linux计划任务crontab详解

一、在Crontab中使用PHP执行脚本

就像在Crontab中调用普通的shell脚本一样(具体Crontab用法),使用PHP程序来调用PHP脚本。

 每一小时执行myscript.php如下:

 代码如下 复制代码

#crontab -e
00 * * * * /usr/local/bin/php /home/web/abc.php/usr/local/bin/

php为PHP程序的路径。

 二、在Crontab中使用URL执行脚本

如果你的PHP脚本可以通过URL触发,你可以使用lynx或curl或wget来配置你的Crontab。

 下面的例子是使用Lynx文本浏览器访问URL来每小时执行PHP脚本。Lynx文本浏览器默认使用对话方式打开URL。但是,像下面的,我们在lynx命令行中使用-dump选项来把URL的输出转换来标准输出。

 代码如下 复制代码

00 * * * * lynx -dump http://abc.cn/script.php 

下面的例子是使用CURL访问URL来每5分执行PHP脚本。Curl默认在标准输出显示输出。使用”curl -o”选项,你也可以把脚本的输出转储到临时文件。

 代码如下 复制代码

*/5 * * * * /usr/bin/curl -o temp.txt http://abc.cn/script.php 

下面的例子是使用WGET访问URL来每10分执行PHP脚本。-q选项表示安静模式。”-O temp.txt”表示输出会发送到临时文件。

 代码如下 复制代码

*/10 * * * * /usr/bin/wget -q -O temp.txt http://abc.cn/script.php 

再介绍一下在Windows下php计划任务的实现

 1、新建一个abc.php,内容如下:

 代码如下 复制代码

<?
$fp = fopen("abc.txt", "a+");
fwrite($fp, date("Y-m-d H:i:s") . " 成功了!/n");
fclose($fp);
?> 

2、新建abc.bat文件,内容如下:

 代码如下 复制代码

C:/php/php.exe -q D:/web/abc.php 

3、建立WINDOWS计划任务:
开始–>控制面板–>任务计划–>添加任务计划
浏览文件夹选择上面的abc.bat文件
设置时间和密码(登陆WINDOWS的保存即可了。

  4、右键点击计划任务 -> “运行”即可

 再介绍一个使用php程序来实现的计划任务

 这种效率并不高,也不稳定,使用 crontab 才是王道。

 代码如下 复制代码

<?php
ignore_user_abort(); // 关掉浏览器,PHP脚本也可以继续执行
set_time_limit(3000); // 设置程序的执行时间为3000秒
// set_time_limit(0); // 设置程序的执行时间为无限长
$interval = 30; // 每隔30秒运行

do {
    $fp = fopen('abc.txt', 'a'); // 打开 abc.txt
    fwrite($fp, '你好啊,我来自 http://www.111cn.net'); // 往 abc.txt 写入信息
    fclose($fp); // 关闭 abc.txt
    sleep($interval); // 等待30秒
} while (true);
?> 

首先运行该页面,然后关闭该页面,程序仍然运行中,每隔30秒程序会填补信息到abc.txt文件中去。

很多同学都在问为什么时候curl登录之后cookie取不了或存储不了怎么办,下面我来给大家演示两个php curl 登录并读取或存储 cookie值方法。

先准备两?小程式, 做确认程式是否有抓到 COOKIE 值.

login.php (POST 到 login.php, login.php 会确认帐号/密码, 然后写 COOKIE值)

 

 代码如下 复制代码
<?php
if ($_POST['username'] == 'admin' && $_POST['password'] == '1234') {
    setcookie('u', 'admin');
    header('Location: check_login.php');
} else {
    echo 'failed';
}
?>


check_login.php (确认是否有 $_COOKIE['u'] 的值, 而且是否是 'admin', 来判断是否已 Login)

 代码如下 复制代码


<?php
if ($_COOKIE['u'] == 'admin') {
    echo 'Login success.';
} else {
    echo 'Login failed.';
}
?>


假设上述两个档案分别在 http://localhost/login.php / http://localhost/check_login.php, 所以就来写下述程式, 送 POST 到 login.php, 再经由 check_login.php 做确认是否登入完成, 程式如下:


 代码如下 复制代码

<?php

// 取得目? Url ?定的 cookie, ??入 cookie.txt (使用 POST)
function setUrlCookie($url, $postdata)
{
    //$cookie_jar = tempnam('./','cookie'); // Create file with unique file name (cookie*)
    $cookie_jar = './cookie.txt';

    $resource = curl_init();
    curl_setopt($resource, CURLOPT_URL, $url);
    curl_setopt($resource, CURLOPT_POST, 1);
    curl_setopt($resource, CURLOPT_POSTFIELDS, $postdata);
    curl_setopt($resource, CURLOPT_COOKIEFILE, $cookie_jar);
    curl_setopt($resource, CURLOPT_COOKIEJAR, $cookie_jar);
    curl_setopt($resource, CURLOPT_RETURNTRANSFER, 1);
    curl_exec($resource);

    return $resource;
}

// 取得此 Url 的?热?br /> function getUrlContent($resource, $url)
{
    curl_setopt($resource, CURLOPT_URL, $url);
    curl_setopt($resource, CURLOPT_RETURNTRANSFER, 1);
    $content = curl_exec($resource);

    return $content;
}


// Test:
// post to url and get cookie
/*
$url = 'http://localhost/login.php';
$postdata = 'username=admin&password=1234';
$resource = setUrlCookie($url, $postdata); // set cookie 'u' => 'admin' or anything

// get contents (need cookie check)
$url = 'http://localhost/check_login.php';
echo getUrlContent($resource, $url); // Login success.
*/
?>

Function List

■resource setUrlCookie($url, $postdata)
■string getUrlContent($resource, $url)
使用方法

■getUrlContent(setUrlCookie($login_url, $postdata), $login_check_url);
setUrlCookie() 是 POST 送到 Login.php, 然后将 COOKIE 写入 cookie.txt(或者可以用  tempnam() 产生一个唯一名字的档案来储存). 再用 getUrlContent() 去通过 COOKIE 验证, 以取得网页的资料.

照理说应该将上述 function 写成一个 Class, 能方便管理 curl_init() 的 resource, 不过, 先暂时写成 function, 应该较容易理解~

再看一个实例

 代码如下 复制代码

<?php
$cookie_jar_index = 'cookie.txt';
 
$url = "http://www.111cn.net";
$params = "username=dudu&password=****";
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_jar_index);
//curl_setopt($ch, CURLOPT_COOKIE, "fruit=apple; colour=red");
//上面代码是直接传递cookie信息,而非文件
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $params);
//curl_setopt($ch, CURLOPT_NOBODY, 1);//这个不能打开,否则无法生成cookie文件
ob_start();
curl_exec($ch);
curl_close($ch);
ob_clean();
 
$url = "http://www.111cn.net";
$ch2 = curl_init();
curl_setopt($ch2, CURLOPT_URL, $url);
curl_setopt($ch2, CURLOPT_COOKIEFILE, $cookie_jar_index);
ob_start();
curl_exec($ch2);
curl_close($ch2);
$rs = ob_get_contents(); //$rs就是返回的内容
ob_clean();
 
print_r($rs);
 
?>

在php中如果读取普通的小文件方法很简单,但如果我们要利用php读取大文件可能需要一些小技巧了,下面我来总结一下php读取大文件实例

在php开发中,经常遇到要读取一些文件,最简便的方法莫过于使用一些如file、file_get_contents之类的函数,简简单单的几行代码就能轻松的搞定。但当需要操作的文件是一个比较大的文件时,这些函数可能就显的力不从心, 下面将从一个需求入手来说明对于读取大文件时,常用的操作方法。

 

需求:有一个800M的日志文件,大约有500多万行,用php返回最后几行的内容。

 

实现方法有以下:

 

1. 直接采用 file函数 来操作

 

注:由于 file函数是一次性将所有内容读入内存,而php为了防止一些写的比较糟糕的程序占用太多的内存而导致系统内存不足,使服务器出现宕机,所以默认情况下限制只能最大使用内存16M,这是通过php.ini里的 memory_limit = 16M来进行设置,这个值如果设置-1,则内存使用量不受限制.

 

下面是一段用file来取出这具文件最后一行的代码.

 

 代码如下 复制代码

ini_set('memory_limit', '-1');
$file = 'access.log';
$data = file($file);
$line = $data[count($data)-1];
echo $line; 

整个代码执行完成耗时 116.9613 (s).

 

我机器是2个G的内存,当按下F5运行时,系统直接变灰,差不多20分钟后才恢复过来,可见将这么大的文件全部直接读入内存,后果是多少严重,所以不在万 不得以,memory_limit这东西不能调得太高,否则只有打电话给机房,让reset机器了.

 

2.直接调用linux的 tail命令 来显示最后几行

 

在linux命令行下,可以直接使用tail -n 10 access.log很轻易的显示日志文件最后几行,可以直接用php来调用tail命令,执行php代码如下.

 

 代码如下 复制代码

file = 'access.log';
$file = escapeshellarg($file); // 对命令行参数进行安全转义
$line = `tail -n 1 $file`;
echo $line; 

整个代码执行完成耗时 0.0034 (s)

 

3. 直接使用 php的fseek 来进行文件操作

 

这种方式是最为普遍的方式,它不需要将文件的内容全部读入内容,而是直接通过指针来操作,所以效率是相当高效的.在使用fseek来对文件进行操作 时,也有多种不同的方法,效率可能也是略有差别的,下面是常用的两种方法.

 

方法一:

 

首先通过fseek找到文件的最后一位EOF,然后找最后一行的起始位置,取这一行的数据,再找次一行的起始位置, 再取这一行的位置,依次类推,直到找到了$num行。

 

实现代码如下:

 

 代码如下 复制代码

$fp = fopen($file, "r");
$line = 10;
$pos = -2;
$t = " ";
$data = "";
while ($line > 0) {
    while ($t != "n") {
        fseek($fp, $pos, SEEK_END);
        $t = fgetc($fp);
        $pos --;
    }
    $t = " ";
    $data .= fgets($fp);
    $line --;
}
fclose ($fp);
echo $data; 

整个代码执行完成耗时 0.0095 (s)

 

方法二:

 

还是采用fseek的方式从文件最后开始读,但这时不是一位一位的读,而是一块一块的读,每读一块数据时,就将读取后的数据放在一个buf里,然后通过换 行符(n)的个数来判断是否已经读完最后$num行数据.

 

实现代码如下:

 代码如下 复制代码

 

$fp = fopen($file, "r");
$num = 10;
$chunk = 4096;
$fs = sprintf("%u", filesize($file));
$max = (intval($fs) == PHP_INT_MAX) ? PHP_INT_MAX : filesize($file);
for ($len=0; $len<$max; $len+=$chunk) {
    $seekSize = ($max - $len &gt; $chunk) ? $chunk : $max - $len;
    fseek($fp, ($len + $seekSize) * -1, SEEK_END);
    $readData = fread($fp, $seekSize) . $readData;

    if (substr_count($readData, "n") &gt;= $num + 1) {
        preg_match("!(.*?n){".($num)."}$!", $readData, $match);
        $data = $match[0];
        break;
    }
}
fclose($fp);
echo $data; 

整个代码执行完成耗时 0.0009(s).

 

方法三:

 

 代码如下 复制代码

function tail($fp,$n,$base=5) {
    assert($n>0);
    $pos = $n+1;
    $lines = array();
    while(count($lines) <= $n) {
        try{
            fseek($fp,-$pos,SEEK_END);
        } catch (Exception $e) {
            fseek(0);
            break;
        }
        $pos *= $base;
        while(!feof($fp)) {
            array_unshift($lines,fgets($fp));
        }
    }
    return array_slice($lines,0,$n);
}
var_dump(tail(fopen("access.log","r+"), 10)); 

整个代码执行完成耗时 0.0003(s)

标签:[!--infotagslink--]

您可能感兴趣的文章: