很早以前找到一个把gb码转化为utf-8的函数,配合一个gb到unicode的对照表(gb2312.txt),用于在gd中输出汉字。后来发现在欲输出的内容中含有西文字符时,会出现混乱。后来找到了修改后的代码,解决了问题。现将两个函数做一对比分析如下。
首先,这是一个unicode到utf-8编码转换的函数,这一部分修改前后没有变化:
function u2utf8($c)
{
for($i=0;$i<count($c);$i++)
$str="";
if ($c < 0x80) {
$str.=$c;
}
else if ($c < 0x800) {
$str.=(0xc0 | $c>>6);
$str.=(0x80 | $c & 0x3f);
}
else if ($c < 0x10000) {
$str.=(0xe0 | $c>>12);
$str.=(0x80 | $c>>6 & 0x3f);
$str.=(0x80 | $c & 0x3f);
}
else if ($c < 0x200000) {
$str.=(0xf0 | $c>>18);
$str.=(0x80 | $c>>12 & 0x3f);
$str.=(0x80 | $c>>6 & 0x3f);
$str.=(0x80 | $c & 0x3f);
}
return $str;
}
这里完全是按照utf-8编码的规则,通过判断字符属于不同的unicode编码段范围,进行不同的移位和位与操作,以转化为utf-8编码。关于该规则可参考http://www.utf8.org/上的说明。
这是修改前的gb转化为utf-8编码的函数,其中调用了上面的u2utf8函数。
function gb2utf8($gb) /* program writen by sadly www.phpx.com */
{
if(!trim($gb))
return $gb;
$filename="gb2312.txt";
$tmp=file($filename);
$codetable=array();
while(list($key,$value)=each($tmp))
$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);
$utf8="";
while($gb)
{
if (ord(substr($gb,0,1))>127)
{
$this=substr($gb,0,2);
$gb=substr($gb,2,strlen($gb));
| 对此文章发表了评论 |
