博客小子:记录我们对互联网和生活的探索! 注册 | 登陆

php的substr截断中文的时候可能会出现截到半个汉字出现乱码的解决

Tags: php, substr, 中文, 解决

之前有一篇http://www.blogguy.cn/show-286-1.html,2007年的文章,现在看起来太古老了,实现在也太麻烦了。

现在可以使用mb_substr()函数安全的截取,后来看康盛的uchome,里面有一个用代码实现的getstr函数,写得真好。拿下来了。

    tring substr ( string $string , int $start [, int $length ] )

    返回string中从start位置开始长度为length的字符串

substr函数在截取字符时是按字节来截取的,中文字符在GB2312编码时为2个字节,utf-8编码时为3个字节,所以截取指定长度的字符串时如果截断了汉字,那么返回的结果显示出来便会出现乱码。

 

解决办法:

1、改用mb_substr()函数

    string mb_substr ( string $str , int $start [, int $length [, string $encoding ]] )

    类似substr()函数,只是计数按字符数来计,保证字符安全

使用mb_substr()函数可保证不会出现乱码,但缺点是长度统计变成了字符数统计,而不是按字节数统计。用于显示时,同样长度的中文结果和英文结果会出现较大的显示长度的差别。

2、来自康盛的substr功能
中文字符按2个长度单位来计算,使得中英文混用环境下字符串截取结果最后的显示长度接近;舍弃最后一个不完整字符,保证不会出现显示上的乱码;且兼容了中文字符常用的utf-8编码和GB2312编码,有很好的通用性。

 

PHP代码
  1. function getstr($string$length$encoding  = 'utf-8') {   
  2.     $string = trim($string);   
  3.     
  4.     if($length && strlen($string) > $length) {   
  5.         //截断字符   
  6.         $wordscut = '';   
  7.         if(strtolower($encoding) == 'utf-8') {   
  8.             //utf8编码   
  9.             $n = 0;   
  10.             $tn = 0;   
  11.             $noc = 0;   
  12.             while ($n < strlen($string)) {   
  13.                 $t = ord($string[$n]);   
  14.                 if($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) {   
  15.                     $tn = 1;   
  16.                     $n++;   
  17.                     $noc++;   
  18.                 } elseif(194 <= $t && $t <= 223) {   
  19.                     $tn = 2;   
  20.                     $n += 2;   
  21.                     $noc += 2;   
  22.                 } elseif(224 <= $t && $t < 239) {   
  23.                     $tn = 3;   
  24.                     $n += 3;   
  25.                     $noc += 2;   
  26.                 } elseif(240 <= $t && $t <= 247) {   
  27.                     $tn = 4;   
  28.                     $n += 4;   
  29.                     $noc += 2;   
  30.                 } elseif(248 <= $t && $t <= 251) {   
  31.                     $tn = 5;   
  32.                     $n += 5;   
  33.                     $noc += 2;   
  34.                 } elseif($t == 252 || $t == 253) {   
  35.                     $tn = 6;   
  36.                     $n += 6;   
  37.                     $noc += 2;   
  38.                 } else {   
  39.                     $n++;   
  40.                 }   
  41.                 if ($noc >= $length) {   
  42.                     break;   
  43.                 }   
  44.             }   
  45.             if ($noc > $length) {   
  46.                 $n -= $tn;   
  47.             }   
  48.             $wordscut = substr($string, 0, $n);   
  49.         } else {   
  50.             for($i = 0; $i < $length - 1; $i++) {   
  51.                 if(ord($string[$i]) > 127) {   
  52.                     $wordscut .= $string[$i].$string[$i + 1];   
  53.                     $i++;   
  54.                 } else {   
  55.                     $wordscut .= $string[$i];   
  56.                 }   
  57.             }   
  58.         }   
  59.         $string = $wordscut;   
  60.     }   
  61.     return trim($string);   
  62. }  

很强大的代码。

Tags: php, substr, 中文, 解决

« 上一篇:mysql的char,varchar,text,blob的几点个人理解 | 下一篇:php的strip_tags,htmlspecialchars,htmlentities,stripslashes,addslashes解释 »

只显示10条记录相关文章

Trackbacks

点击获得Trackback地址,Encode: UTF-8

发表评论

评论内容 (必填):