之前有一篇http://www.blogguy.cn/show-286-1.html,2007年的文章,现在看起来太古老了,实现在也太麻烦了。
现在可以使用mb_substr()函数安全的截取,后来看康盛的uchome,里面有一个用代码实现的getstr函数,写得真好。拿下来了。
tring substr ( string $string , int $start [, int $length ] )
返回string中从start位置开始长度为length的字符串
substr函数在截取字符时是按字节来截取的,中文字符在GB2312编码时为2个字节,utf-8编码时为3个字节,所以截取指定长度的字符串时如果截断了汉字,那么返回的结果显示出来便会出现乱码。
解决办法:
1、改用mb_substr()函数
string mb_substr ( string $str , int $start [, int $length [, string $encoding ]] )
类似substr()函数,只是计数按字符数来计,保证字符安全
使用mb_substr()函数可保证不会出现乱码,但缺点是长度统计变成了字符数统计,而不是按字节数统计。用于显示时,同样长度的中文结果和英文结果会出现较大的显示长度的差别。
2、来自康盛的substr功能
中文字符按2个长度单位来计算,使得中英文混用环境下字符串截取结果最后的显示长度接近;舍弃最后一个不完整字符,保证不会出现显示上的乱码;且兼容了中文字符常用的utf-8编码和GB2312编码,有很好的通用性。
- function getstr($string, $length, $encoding = 'utf-8') {
- $string = trim($string);
- if($length && strlen($string) > $length) {
- //截断字符
- $wordscut = '';
- if(strtolower($encoding) == 'utf-8') {
- //utf8编码
- $n = 0;
- $tn = 0;
- $noc = 0;
- while ($n < strlen($string)) {
- $t = ord($string[$n]);
- if($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) {
- $tn = 1;
- $n++;
- $noc++;
- } elseif(194 <= $t && $t <= 223) {
- $tn = 2;
- $n += 2;
- $noc += 2;
- } elseif(224 <= $t && $t < 239) {
- $tn = 3;
- $n += 3;
- $noc += 2;
- } elseif(240 <= $t && $t <= 247) {
- $tn = 4;
- $n += 4;
- $noc += 2;
- } elseif(248 <= $t && $t <= 251) {
- $tn = 5;
- $n += 5;
- $noc += 2;
- } elseif($t == 252 || $t == 253) {
- $tn = 6;
- $n += 6;
- $noc += 2;
- } else {
- $n++;
- }
- if ($noc >= $length) {
- break;
- }
- }
- if ($noc > $length) {
- $n -= $tn;
- }
- $wordscut = substr($string, 0, $n);
- } else {
- for($i = 0; $i < $length - 1; $i++) {
- if(ord($string[$i]) > 127) {
- $wordscut .= $string[$i].$string[$i + 1];
- $i++;
- } else {
- $wordscut .= $string[$i];
- }
- }
- }
- $string = $wordscut;
- }
- return trim($string);
- }
很强大的代码。



