Php CURL模拟登陆论坛并采集数据实例_php

本文章来给各位同学介绍一下关于Php CURL模拟登陆论坛并采集数据实例，如果你对利用curl模拟登录功能有兴趣可进入参考。

要模拟浏览器访问网站，首选要学会观察浏览器是如何发送http报文的，以及网站服务器返回给浏览器是什么样的内容。我推荐安装一个国外人开发的httpwatch的软件，最好搞个破解的版本，否则有些功能是使用不了的。这个软件安装完成之后是嵌入在 IE里的，启动Record，在地址栏输入网址后回车，它就会将浏览器和服务器之间的所有通讯扫描出来，让你一览无遗。关于这个软件的使用在本文不做介绍。

模拟浏览器登陆应用开发，最关键的地方是突破登陆验证。CURL技术不只支持http，还支持https。区别就在多了一层SSL加密传输。如果是要登陆 https网站，php记得要支持openssl。还是先拿一个例子来分析。

代码如下

复制代码

<?php
$discuz_url = 'http://127.0.0.1/discuz/'; //论坛地址
$login_url = $discuz_url . 'logging.php?action=login'; //登录页地址

$post_fields = array();
//以下两项不需要修改
$post_fields['loginfield'] = 'username';
$post_fields['loginsubmit'] = 'true';
//用户名和密码，必须填写
$post_fields['username'] = 'tianxin';
$post_fields['password'] = '111111';
//安全提问
$post_fields['questionid'] = 0;
$post_fields['answer'] = '';
//@todo验证码
$post_fields['seccodeverify'] = '';

//获取表单FORMHASH
$ch = curl_init($login_url);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$contents = curl_exec($ch);
curl_close($ch);
preg_match('/<inputs*type="hidden"s*name="formhash"s*value="(.*?)"s*/>/i', $contents, $matches);
if (!empty($matches)) {
$formhash = $matches[1];
} else {
die('Not found the forumhash.');
}

//POST数据，获取COOKIE,cookie文件放在网站的temp目录下
$cookie_file = tempnam('./temp', 'cookie');

$ch = curl_init($login_url);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $post_fields);
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);
curl_exec($ch);
curl_close($ch);

//取到了关键的cookie文件就可以带着cookie文件去模拟发帖,fid为论坛的栏目ID
$send_url = $discuz_url . "post.php?action=newthread&fid=2";

$ch = curl_init($send_url);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);
$contents = curl_exec($ch);
curl_close($ch);

//这里的hash码和登陆窗口的hash码的正则不太一样，这里的hidden多了一个id属性
preg_match('/<inputs*type="hidden"s*name="formhash"s*id="formhash"s*value="(.*?)"s*/>/i', $contents, $matches);
if (!empty($matches)) {
$formhash = $matches[1];
} else {
die('Not found the forumhash.');
}

$post_data = array();
//帖子标题
$post_data['subject'] = 'test2';
//帖子内容
$post_data['message'] = 'test2';
$post_data['topicsubmit'] = "yes";
$post_data['extra'] = '';
//帖子标签
$post_data['tags'] = 'test';
//帖子的hash码，这个非常关键！假如缺少这个hash码，discuz会警告你来路的页面不正确
$post_data['formhash'] = $formhash;

$ch = curl_init($send_url);
curl_setopt($ch, CURLOPT_REFERER, $send_url); //伪装REFERER
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 0);
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $post_data);
$contents = curl_exec($ch);
curl_close($ch);

//清理cookie文件
unlink($cookie_file);
?>

CURL实现网站模拟登陆

代码如下

复制代码

<?php$cookie_file=tempnam('./temp','cookie');$login_url='/bbs/logging.php?action=login&loginsubmit=yes';$post_fields='username=用户名&password=用户密码&referer=index.php&formhash=24eca8af&loginfield=username&questionid=0&loginsubmit=登录';$ch = curl_init($login_url);curl_setopt($ch,CURLOPT_HEADER,0);curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);curl_setopt($ch,CURLOPT_POST,1);curl_setopt($ch,CURLOPT_POSTFIELDS,$post_fields);curl_setopt($ch,CURLOPT_COOKIEJAR,$cookie_file);curl_exec($ch);curl_close($ch);$url='/bbs';$ch =curl_init($url);curl_setopt($ch,CURLOPT_HEADER,0);curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);curl_setopt($ch,CURLOPT_COOKIEFILE,$cookie_file);$contents=curl_exec($ch);echo $contents;curl_close($ch);?>

以前我要验证身份证我们多半会使用正则判断用户输入是不是15位或18位的全数字，然后来判断身份证是否合法了，这种方法只是最基础的，下面提供的这个身份证验证，可以识别真假身份证哦。

代码如下

复制代码

<?php
$IDCard = new IDCard();
var_dump($IDCard::isCard($_GET['card']));

/**
* 身份证处理类
*/
class IDCard {

    //检证身份证是否正确
    public static function isCard($card) {
        $card = self::to18Card($card);
        if (strlen($card) != 18) {
            return false;
        }

        $cardBase = substr($card, 0, 17);

        return (self::getVerifyNum($cardBase) == strtoupper(substr($card, 17, 1)));
    }

    //格式化15位身份证号码为18位
    public static function to18Card($card) {
        $card = trim($card);

        if (strlen($card) == 18) {
            return $card;
        }

        if (strlen($card) != 15) {
            return false;
        }

        // 如果身份证顺序码是996 997 998 999，这些是为百岁以上老人的特殊编码
        if (array_search(substr($card, 12, 3), array('996', '997', '998', '999')) !== false) {
            $card = substr($card, 0, 6) . '18' . substr($card, 6, 9);
        } else {
            $card = substr($card, 0, 6) . '19' . substr($card, 6, 9);
        }
        $card = $card . self::getVerifyNum($card);
        return $card;
    }

    // 计算身份证校验码，根据国家标准gb 11643-1999
    private static function getVerifyNum($cardBase) {
        if (strlen($cardBase) != 17) {
            return false;
        }
        // 加权因子
        $factor = array(7, 9, 10, 5, 8, 4, 2, 1, 6, 3, 7, 9, 10, 5, 8, 4, 2);

        // 校验码对应值
        $verify_number_list = array('1', '0', 'X', '9', '8', '7', '6', '5', '4', '3', '2');

        $checksum = 0;
        for ($i = 0; $i < strlen($cardBase); $i++) {
            $checksum += substr($cardBase, $i, 1) * $factor[$i];
        }

        $mod = $checksum % 11;
        $verify_number = $verify_number_list[$mod];

        return $verify_number;
    }
}

?>

PHP 读取大文件与读取一般的文件是有些区别的，如果你的文件到了几百MB或GB这样可能普通的php读取文件会很慢或卡死了，下面我来介绍一下PHP 读取大文件技巧吧。

一般读取文件我们用fopen 或者 file_get_contents ,前者可以循环读取，后者可以一次性读取，但都是将文件内容一次性加载来操作。如果加载的文件特别大时，如几百M，上G时，这时性能就降下来了，那么PHP里有没有对大文件的处理函数或者类呢？答案是：有的。

PHP真的越来越“面向对象”了，一些原有的基础的SPL方法都开始陆续地实现出class了。

从 PHP 5.1.0 开始，SPL 库增加了 SplFileObject 与 SplFileInfo 两个标准的文件操作类。SplFileInfo 是从 PHP 5.1.2 开始实现的。

从字面意思理解看，可以看出 SplFileObject 要比 SplFileInfo 更为强大。

不错，SplFileInfo 仅用于获取文件的一些属性信息，如文件大小、文件访问时间、文件修改时间、后缀名等值，而 SplFileObject 是继承 SplFileInfo 这些功能的。

代码如下

复制代码

/** 返回文件从X行到Y行的内容(支持php5、php4)
* @param string $filename 文件名
* @param int $startLine 开始的行数
* @param int $endLine 结束的行数
* @return string
*/
function getFileLines($filename, $startLine = 1, $endLine=50, $method='rb') {
    $content = array();
    $count = $endLine - $startLine;
    // 判断php版本（因为要用到SplFileObject，PHP>=5.1.0）
    if(version_compare(PHP_VERSION, '5.1.0', '>=')){
        $fp = new SplFileObject($filename, $method);
        $fp->seek($startLine-1);// 转到第N行, seek方法参数从0开始计数
        for($i = 0; $i <= $count; ++$i) {
            $content[]=$fp->current();// current()获取当前行内容
            $fp->next();// 下一行
        }
    }else{//PHP<5.1
        $fp = fopen($filename, $method);
        if(!$fp) return 'error:can not read file';
        for ($i=1;$i<$startLine;++$i) {// 跳过前$startLine行
            fgets($fp);
        }
        for($i;$i<=$endLine;++$i){
            $content[]=fgets($fp);// 读取文件行内容
        }
        fclose($fp);
    }
    return array_filter($content); // array_filter过滤：false,null,''
}

Ps: 上面都没加”读取到末尾的判断”：!$fp->eof() 或者 !feof($fp)，加上这个判断影响效率，自己加上测试很多很多很多行的运行时间就晓得了，而且这里加上也完全没必要。

从上面的函数就可以看出来使用SplFileObject比下面的fgets要快多了，特别是文件行数非常多、并且要取后面的内容的时候。fgets要两个循环才可以，并且要循环$endLine次。

此方法花了不少功夫，测试了很多中写法，就是想得出效率最高的方法。哪位觉得有值得改进的欢迎赐教。

使用，返回35270行-35280行的内容:

代码如下	复制代码
echo '<pre>'; var_dump(getFileLines('test.php',35270,35280)); echo '</pre>';

再看一个实例

代码如下

复制代码

注意:通过使用PHP的fseek和fread相结合，即可做到随意读取文件中的某一部份数据，关于函数传入的变量$tag的值，根据系统不一样，传入的值也是有区别的：Windows用”rn”，linux/unix用”n”，Mac OS用”r”。

有不少php初学者截取字符都会使用substr()函数或者mb_substr()函数来截取了，第一个中文肯定乱码了，第二个性能不好，下面我总结了几个自定的中文字串截取无乱码实例。

例1

代码如下

复制代码

例2

代码如下

复制代码

<?php
//$start：指定开始截取字符串的位置；$length指定截取字符的长度
function substr2($string, $start, $length)
{
$len = strlen($string);
if($len > $length)
{
   $str = '';
   $len1 = $start + $length; //截取到原字符串的位置
   for($i=$start; $i<$len1; $i++)
   {
    if(ord(substr($string, $i, 2)) > 0xa0) //在ASCII中，0xa0表示汉字的开始
    {
     $str.=substr($string, $i, 2);
     $i++;
    }
    else
    {
     $str.=substr($string, $i, 1);
    }
   }
   return $str.'...';
}
else
{
   return $string;
}
}

再补充个简单的，思路相同（2010-5-31）

代码如下	复制代码
<?php function chinesesubstr($str, $start, $len){ $strlen = $start + $len; for($i=0; $i<$strlen; $i++){ if(ord(substr($str, $i, 1)) > 0xa0){ $tmpstr .= substr($str, $i, 2); $i++; }else{ $tmpstr .= substr($str, $i, 1); } } return $tmpstr; } $str = "waiting for you 等wait你back"; echo chinesesubstr($str, 0, 19) ?>

在php中汉字正则可能有些朋友觉得很简单，但是在使用时会发现在gbk编码与uft8编码可能会有点区别哦，下面小编来介绍一下。

gbk编码下汉字正则

1.判断字符串是否全是汉字

代码如下	复制代码
<?php $str = '全部是汉字测试'; if (preg_match_all("/^([x81-xfe][x40-xfe])+$/", $str, $match)) { echo '全部是汉字'; } else { echo '不全是汉字'; } ?>

当$str = '全部是汉字测试'; 时输出"全部是汉字";
当$str = 'all全部是汉字测试'; 时输出"不全是汉字";

2.判断字符串是否包含汉字

代码如下	复制代码
<?php $str = '汉字3测试'; if (preg_match("/([x81-xfe][x40-xfe])/", $str, $match)) { echo '含有汉字'; } else { echo '不含有汉字'; } ?>

当$str = '汉字3测试'; 时输出"含有汉字";
当$str = 'abc345'; 时输出"不含有汉字";

上述变量$str的内容与utf8还是gbk编码无关，判断结果是一样的。

utf-8编码下用正则表达式如何匹配汉字

代码如下	复制代码
$str = "php编程"; if (preg_match("/^[x{4e00}-x{9fa5}]+$/u",$str)) { print("该字符串全部是中文"); } else { print("该字符串不全部是中文"); }

标签：[!--infotagslink--]

上一篇: php计算时间差之计算文章发表距现在时间

下一篇: 利用Php的CURL POST提交表单登录实例详解

Php CURL模拟登陆论坛并采集数据实例

您可能感兴趣的文章: