首页 > 编程技术 > php

php正则匹配html标签的程序代码

发布时间:2016-11-25 17:42

下面整理的正则匹配html标签的例子都是在网上找了,不过这一篇是非常的全面的并且包括了html中各种标签了,具体有多少我不说我可以告诉你所有的html都可以匹配出来哦。
正则表达式
<(\S*?) [^>]*>.*?</\1>|<.*? />
匹配 <html>hello</html>|<a>abcd</a>
不匹配 abc|123|<html>ddd

 

正则表达式
^[^<>`~!/@\#}$%:;)(_^{&*=|'+]+$
匹配 This is a test
不匹配 <href = | <br> | That's it

 

正则表达式
&lt;!--.*?--&gt;
匹配 &lt;!-- &lt;h1&gt;this text has been removed&lt;/h1&gt; --&gt; | &lt;!-- yada --&gt;
不匹配 &lt;h1&gt;this text has not been removed&lt;/h1&gt;

 

正则表达式
(\[(\w+)\s*(([\w]*)=('|&quot;)?([a-zA-Z0-9|:|\/|=|-|.|\?|&amp;]*)(\5)?)*\])([a-zA-Z0-9|:|\/|=|-|.|\?|&amp;|\s]+)(\[\/\2\])
匹配 [link url=&quot;http://www.domain.com/file.extension?getvar=value&amp;secondvar=value&quot;]Link[/li
不匹配 [a]whatever[/b] | [a var1=something var2=somethingelse]whatever[/a] | [a]whatever[a]

 

正则表达式
href=[\"\'](http:\/\/|\.\/|\/)?\w+(\.\w+)*(\/\w+(\.\w+)?)*(\/|\?\w*=\w*(&\w*=\w*)*)?[\"\']
匹配 href="www.yahoo.com" | href="http://localhost/blah/" | href="eek"
不匹配 href="" | href=eek | href="bad example"

 

正则表达式
&quot;([^&quot;](?:\\.|[^\\&quot;]*)*)&quot;
匹配 &quot;This is a \&quot;string\&quot;.&quot;
不匹配 &quot;This is a \&quot;string\&quot;.

 

正则表达式
(?i:on(blur|c(hange|lick)|dblclick|focus|keypress|(key|mouse)(down|up)|(un)?load|mouse(move|o(ut|ver))|reset|s(elect|ubmit)))
匹配
 
onclick | onsubmit | onmouseover
不匹配 click | onandon | mickeymouse

 

正则表达式
(?s)/\*.*\*/
匹配 /* .................... */ | /* imagine lots of lines here */
不匹配 */ malformed opening tag */ | /* malformed closing tag /*

 

正则表达式
<(\S*?) [^>]*>.*?</\1>|<.*? />
匹配 <html>hello</html>|<a>abcd</a>
不匹配 abc|123|<html>ddd

 

正则表达式
\xA9
匹配 ©
不匹配 anything

 

正则表达式
src[^&gt;]*[^/].(?:jpg|bmp|gif)(?:\&quot;|\')
匹配 src=&quot;../images/image.jpg&quot; | src=&quot;http://domain.com/images/image.jpg&quot; | src='d:\w
不匹配 src=&quot;../images/image.tif&quot; | src=&quot;cid:value&quot;

 

正则表达式
/\*[\d\D]*?\*/
匹配 /* my comment */ | /* my multiline comment */ | /* my nested comment */
不匹配 */ anything here /* | anything between 2 seperate comments | \* *\

 

正则表达式
<[a-zA-Z]+(\s+[a-zA-Z]+\s*=\s*("([^"]*)"|'([^']*)'))*\s*/>
匹配 <img" width=100% src="test.gif"/>
不匹配 <img" width=100% src="test.gif"> | <img" width=100% src="test.gif"a/>
自己写了一个匹配图片路径的正则,总是有点不兼容,有些图片的路径获取不到,在网上找了半天,总算找到一个完美的。

例子

 代码如下 复制代码

$preg = "/<[img|IMG].*?src=[\'|\"](.*?(?:[\.gif|\.jpg]))[\'|\"].*?[\/]?>/i";

preg_match_all($preg,$str,$res);


这下子,管用多了,不管怎样的代码结构,都能顺利的匹配出图片的路径。
例子

 代码如下 复制代码

$str='<p style="padding: 0px; margin-top: 0px; margin-bottom: 0px; line-height: 200%;"><img border="0"" width=100% src="upfiles/2009/07/1246430143_4.jpg" alt=""/></p><p style="padding: 0px; margin-top: 0px; margin-bottom: 0px; line-height: 200%;"><img border="0"" width=100% src="upfiles/2009/07/1246430143_3.jpg" alt=""/></p><p style="padding: 0px; margin-top: 0px; margin-bottom: 0px; line-height: 200%;"><img border="0"" width=100% src="upfiles/2009/07/1246430143_1.jpg" alt=""/></p>';
 
$pattern="/<[img|IMG].*?src=[\'|\"](.*?(?:[\.gif|\.jpg]))[\'|\"].*?[\/]?>/";
 
preg_match_all($pattern,$str,$match);
 
print_r($match);

最后总结一个下载远程图片地址

 代码如下 复制代码

/**
* 提取字符串中图片url地址
* @param type $str
* @return type
*/
function getimgs($str) {
    $reg = '/((http|https):\/\/)+(\w+\.)+(\w+)[\w\/\.\-]*(jpg|gif|png)/';
    $matches = array();
    preg_match_all($reg, $str, $matches);
    foreach ($matches[0] as $value) {
        $data[] = get_file($value);
    }
    return $data;
}

匹配html中A标签其实非常的简单我们只要懂一点正则的都可以实现,下面我整理了两个不同方法正则匹配A标签的例子。

方法一

 代码如下 复制代码

$a ='<a href="www.111cn.net">百度</a>谷哥<a href="www.111cn.net">谷歌</a><a href="www.111cn.net">雅虎</a>';
preg_match_all('/<a[^>]+>[^>]+a>/',$a,$aout);
print_r($aout);

得出结果

Array

(

    [0] => Array

        (

            [0] => <a href="www.111cn.net">百度</a>

            [1] => <a href="www.111cn.net">谷歌</a>

            [2] => <a href="www.111cn.net">雅虎</a>

        )

 

)

方法二

示例如下:

 代码如下 复制代码
$str1 = '<a href=http://www.111cn.net>test</a>';
$str2 = '<a href='http://www.111cn.net'>test</a>';
$str3 = '<a href = "javasccript: href ('test');" target = "_blank" />test</a>';
$regex = '/hrefs*=s*(?:"([^"]*)"|'([^']*)'|([^"'>s]+))/';
preg_match($regex, $str1, $matches);
print_r($matches);
preg_match($regex, $str2, $matches);
print_r($matches);
preg_match($regex, $str3, $matches);
print_r($matches);
 
匹配结果:
Array
(
    [0] => href=http://www.111cn.net
    [1] =>
    [2] =>
    [3] => http://www.111cn.net
)
Array
(
    [0] => href='http://www.111cn.net'
    [1] =>
    [2] => http://www.111cn.net
)
Array
(
    [0] => href = "javasccript: href ('test');"
    [1] => javasccript: href ('test');
)

/href\s*=\s*(?:"([^"]*)"|\'([^\']*)\'|([^"\'>\s]+))/
思路很巧妙,即:
分两步,先区配a标签,然后再区配a标签里面的链接

我做了一个英文站但是经常有人发中文的评论了,希望这些垃圾评论全部替换成字了,下面我整理了两个php正则替换中文的例子,我们一起来看看。

采用php的正则删除中文

 代码如下 复制代码

/*转换为UTF8 再处理*/

$a = mb_convert_encoding($a, 'UTF-8', 'GB2312');
$a = preg_replace("/[x{4e00}-x{9fff}]/u", "", $a);
 
/*再转回来*

$a = mb_convert_encoding($a, 'GB2312', 'UTF-8');

例子

 代码如下 复制代码


$chstr="<a>中文区间afeowahgieawhjo中文区间fawgwea中文区间aghoiawghowi中文区间</a>";
$match="/[中文区间|中文区间|我靠|中文区间]/";
$chstr=preg_replace($match,"",$chstr);
echo $chstr;


简单说明下

x{4e00}-x{9fff} 这个是中文区间(各种文字都有unicode码区间)

/u 表示采用unicode码 进行正则判断

[] 正则标准括号,表示范围[0-3]表示 0,1,2,3, 0到3的意思

一般情况下用户名我们只能使用数字字母之类的但有时可能可以有中文,数字之类的,下面本文章总结了一些利用正则来验证用户名的例子。

例子,字母、数字和汉字

 代码如下 复制代码

if(preg_match("/[ '.,:;*?~`!@#$%^&+=)(<>{}]|]|[|/|\|"||/",$user)){
echo '不要在名字里面整些特殊符号,请只使用字母、数字和汉字,当然要你的浏览器要选简体中文GB2312哟,千万不要选繁体、中文HZ等。返回修改后,再来,我等你哟!';
exit();
}

例子,全字母

 代码如下 复制代码

<?php 

if (mb_ereg("^[w-.]{1,32}$", $str)) { 
echo 'yes'; 
} else { 
echo 'no'; 

?>

附一些常用正则

只能以数字或字母开头和结尾 用户名长度为4~18个字符

 代码如下 复制代码
^[a-za-z0-9]{1}[a-za-z0-9|-|_]{2-16}[a-za-z0-9]{1}$

用户名为大写字母小写字母或下划线,并以字母开头,长度为6-20

 代码如下 复制代码
^[a-za-z][wd_]{5,19}

用户名:包括英文小写、汉字、数字、下划线,不能全部是数字,下划线不能在末尾

 代码如下 复制代码
/^[a-z0-9_u4e00-u9fa5]+[^_]$/g
utf-8下
preg_match("/^[a-z0-9_x80-xff]+[^_]$/g",$a);
gbk下:
preg_match("/^[a-z0-9_".chr(0xa1)."-".chr(0xff)."]+[^_]$/",$a)

可有中文的用户名验证

 代码如下 复制代码
[a-za-z0-9][u4e00-u9fa5]
标签:[!--infotagslink--]

您可能感兴趣的文章: