代码如下 | 复制代码 |
//将内容进行UNICODE编码 functionunicode_encode($name) { $name= iconv('UTF-8','UCS-2',$name); $len=strlen($name); $str='' for($i= 0;$i<$len- 1;$i=$i+ 2) { $c=$name[$i]; $c2=$name[$i+ 1]; if(ord($c) > 0) { // 两个字节的文字 $str.='\u'.base_convert(ord($c), 10, 16).base_convert(ord($c2), 10, 16); } else { $str.=$c2; } } return$str; } $name='MY,你大爷的' $unicode_name=unicode_encode($name); echo' '.$unicode_name.'' // 将UNICODE编码后的内容进行解码 functionunicode_decode($name) { // 转换编码,将Unicode编码转换成可以浏览的utf-8编码 $pattern='/([\w]+)|(\\\u([\w]{4}))/i' preg_match_all($pattern,$name,$matches); if(!empty($matches)) { $name='' for($j= 0;$j<count($matches[0]);$j++) { $str=$matches[0][$j]; if(strpos($str,'\\u') === 0) { $code=base_convert(substr($str, 2, 2), 16, 10); $code2=base_convert(substr($str, 4), 16, 10); $c=chr($code).chr($code2); $c= iconv('UCS-2','UTF-8',$c); $name.=$c; } else { $name.=$str; } } } return$name; } echo'MY,\u4f60\u5927\u7237\u7684 -> '.unicode_decode($unicode_name); |
小编推荐的这篇文章介绍了用PHP将Unicode 转化为UTF-8的实现方法,非常实用,有兴趣的同学快来看看吧。
代码如下 | 复制代码 |
functionunescape($str) { $str= rawurldecode($str); preg_match_all("/(?:%u.{4})|&#x.{4};|&#\d+;|.+/U",$str,$r); $ar=$r[0]; //print_r($ar); foreach($aras$k=>$v) { if(substr($v,0,2) =="%u"){ $ar[$k] = iconv("UCS-2BE","UTF-8",pack("H4",substr($v,-4))); } elseif(substr($v,0,3) =="&#x"){ $ar[$k] = iconv("UCS-2BE","UTF-8",pack("H4",substr($v,3,-1))); } elseif(substr($v,0,2) =="&#") {
$ar[$k] = iconv("UCS-2BE","UTF-8",pack("n",substr($v,2,-1))); } } returnjoin("",$ar); } echounescape("紫星蓝"); 今天有用户反馈,表单系统用户提交的数据中文会乱码。测试发现问题出在 iconv 转换上。 |
搜索发现,原因是 Linux 服务器上 UCS-2 编码方式与 Winodws 不一致。
于是,我改成
iconv('UCS-2BE',
'GBK',
'中文')
试试,中文正常了
以下是有关两个平台
UCS-2 编码的潜规则:
1、 UCS-2 不等于 UTF-16。UTF-16 每个字节使用 ASCII 字符范围编码,而 UCS-2 对每个字节的编码可以超出 ASCII 字符范围。UCS-2 和 UTF-16 对每个字符至多占两个字节,但是他们的编码是不一样的。
2、对于 UCS-2, windows 下默认是 UCS-2LE。用 MultibyteToWidechar(或者A2W)生成的是 UCS-2LE 的 unicode。windows记事本可以将文本保存为 UCS-2BE,相当于多了层转换。
3、 对于 UCS-2, linux 下默认是 UCS-2BE。用iconv(指定UCS-2)来转换生成的是 UCS-2BE 的 unicode。如果转换windows平台过来的 UCS-2, 需要指定 UCS-2LE。
4、鉴于windows和linux等多个平台对 UCS-2 的理解不同(UCS-2LE,UCS-2BE)。MS 主张 unicode 有个引导标志(UCS-2LE FFFE, UCS-2BE FEFF),以表明下面的字符是 unicode 并且判别 big-endian 或 little-endian。 所以从 windows 平台过来的数据发现有这个前缀,不用慌张。
5、 linux 的编码输出,比如从文件输出,从 printf 输出,需要控制台做适当的编码匹配(如果编码不匹配,一般和该程序编译时的编码有若干关系),而控制台的转换输入需要查看当前的系统编码。比如控制台当前的编码是 UTF-8, 那么 UTF-8 编码的东西能正确显示,GBK 就不能;同样,当前编码是 GBK, 就能显示 GBK 编码,后来的系统应该更智能的处理好更多的转换了。不过通过 putty 等终端还是需要设置好终端的编码转换以解除乱码的烦恼。
小编推荐的这篇文章介绍了php 常用的系统函数,非常实用,有兴趣的同学快来看看吧。字符串函数
strlen:获取字符串长度,字节长度
substr:字符串截取,获取字符串(按照字节进行截取)
strchr:与substr相似,从指定位置截取一直到最后
strrchr(获取文件后缀名):与strchr一样,只是从右边开始查找字符
strtolower:所有的字符都小写(针对英文字母)
strtoupper:所有的字符都大写
strrev:字符串反转(只能反转英文:英文存储只有一个字节),按照字节进行反转
strpos:从字符串中找对应字符出现的位置(数字下标),从最左边开始找
strrpos:与strpos一样,只是从字符串的右边开始找
trim:去掉函数两边的字符,默认是空格
时间日期函数
time:得到当前时间的时间戳(整型:从格林威治时间1970年1月1日0时0分0秒开始)秒数
date:时间序列化函数,将指定的时间戳转换成规定时间日期的显示格式(随意的字符串:有专业的格式符规定),如果没有指定时间戳,系统默认使用当前时间的时间戳
strtotime:时间日期格式的字符串转换成对应的时间戳(只要是正确的英语时间表达方式,都可以进行转换)
microtime:微秒时间戳,根据不同的要求返回不同的结果 混合 microtime (布尔类型 ),可以返回一个浮点数的时间,也可以返回一个数组(时间戳和微秒数)
数学相关函数
abs:绝对值
floor:向下取整 floor(3.2) 结果等于3
ceil:向上取整
round:四舍五入
rand:取得一个指定范围内的随机整数
mt_rand:取得一个指定范围内的随机整数(效率更高)
数组相关函数
key:获取当前数组当前指针所指向的元素的下标
current:获取的当前指针指向元素的数值
next:获取下一个元素的值,并且将指针下移
prev:获取上一个元素的值,并且将指针上移
end :将指针移到数组的最后一个元素,并返回最终指针位置的值
reset:将指针移到数组的第一个元素,返回最终指针位置的值
array_keys:获取一个数组的所有键名,返回一个索引数组
array_values:获取一个数组的所有值,返回一个索引数组
explode:爆炸,将一个字符串按照某个指定的规则(通常是特殊字符),将数组分成多个段,每一段都当做一个数组的元素,返回一个索引数组
implode:粘合,将一个数组内部的所有元素按照某个指定的规则(特殊字符),将所有的元素拼接成一个字符串
array_merge:合并,指的是将两个数组中的元素进行累计。如果后面的数组与前面的数组有下标(键名:关联)相同的,那么后面的元素的值会覆盖前面的;如果是索引的相同下标,会自动的修改下标叠加到前面的数组里。
数据结构模拟函数
array_shift:从数组的前面弹出元素,得到元素的值
array_pop:从数组的后面弹出元素,获得元素的值
array_unshift:从数组的前面压入元素,得到当前数组元素的个数
array_push:从数组的后面压入元素,得到当前数组元素的个数
判断变量
is_bool:判断是否是布尔类型
is_float:判断浮点型
is_integer:判断整型
is_object:判断对象
is_array:判断数组
is_string:判断字符串
is_resource:判断资源
is_scalar:scalar是标量的,判断是基本数据类型:整型,浮点型,布尔型和字符串型
is_null:是否为空
is_numeric:判断数字或者纯数字组成的字符串
gettype:获得数据类型
settype:改变数据类型
文件操作函数
opendir(路径):打开一个路径资源(将路径内部的所有数据读入到内存)
readdir(路径资源):从文件夹资源中读取当前资源指针所指向的文件的名字,指针会向下移动一位
closedir(资源):释放对应的文件资源
scandir(路径):读取一个路径内部的所有文件名,返回一个数组,数组的每一个元素都是文件名。
file_exists:判断一个文件是否存在(文件是广义:路径和文件)
is_dir:判断一个指定路径是否存在(文件夹)
is_file:判断一个指定路径是否是文件(文件)
mkdir:创建一个路径,如果路径存在就会报错
rmdir:移除文件夹
file_get_contents:从一个指定的文件内读取数据内容。
file_put_contents:将指定的字符串写入到对应的文件
fopen:打开一个文件资源
fgetc:c代表character,一次读取一个字符
fgets:s代表string,代表可以读取多个字符,取决于指定的读取长度或者是否碰到换行(最多只能读取一行数据)
两个函数都是对当前资源指针进行操作,读取之后都会将指针下移
fread:获取指定长度的数据直到文件结束
fwrite:向文件资源指针所在的位置写入数据,写东西不会将当前位置已有的东西往后移,而是会覆盖
fseek:将指针指定到对应的位置
fclose:使用对应的文件资源
copy:复制
unlink:删除文件
rename:重命名文件
filemtime:m代表modify,文件最后被修改的时间
filesize:文件大小(字节)
fileperms:文件权限(Linux下的八进制)