文谷首页 | 业界传真 | 网络技术 | 服务器 | 数据库 | 存储技术 | 系统安全 | 无线技术 | Cisco | .Net | Windows | Linux | Unix | Java
电子商务 | 网站工程 | 网页设计 | 平面设计 | 多媒体 | 编程语言 | Oracle | MSSQL | Photoshop | ASP | PHP | 实用技巧 | 进程查询 | 文谷论坛
 规划发展   网页美工   标记语言   网页编程   Web服务器   广告攻略   开发常识   趋势研究   网站维护   网站数据库   网页设计工具   论坛
您现在的位置: IT文谷 >> 网站工程 >> 网页编程 >> PHP >> 文章正文
GD输出汉字的函数的分析2006-3-27 17:12:14GD输出汉字的函数的分析2006-3-27 17:12:14GD输出汉字的函数的分析
GD输出汉字的函数的分析2006-3-27 17:12:14GD输出汉字的函数的分析2006-3-27 17:12:14GD输出汉字的函数的分析
GD输出汉字的函数的分析

GD输出汉字的函数的分析2006-3-27 17:12:14GD输出汉字的函数的分析2006-3-27 17:12:14GD输出汉字的函数的分析

    很早以前找到一个把GB码转化为UTF-8的函数,配合一个GB到UNICODE的对照表(gb2312.txt),用于在GD中输出汉字。后来发现在欲输出的内容中含有西文字符时,会出现混乱。后来找到了修改后的代码,解决了问题。现将两个函数做一对比分析如下。

首先,这是一个UNICODE到UTF-8编码转换的函数,这一部分修改前后没有变化:
function u2utf8($c)
{
for($i=0;$i<count($c);$i++)
$str="";
if ($c < 0x80) {
$str.=$c;
}
else if ($c < 0x800) {
$str.=(0xC0 | $c>>6);
$str.=(0x80 | $c & 0x3F);
}
else if ($c < 0x10000) {
$str.=(0xE0 | $c>>12);
$str.=(0x80 | $c>>6 & 0x3F);
$str.=(0x80 | $c & 0x3F);
}
else if ($c < 0x200000) {
$str.=(0xF0 | $c>>18);
$str.=(0x80 | $c>>12 & 0x3F);
$str.=(0x80 | $c>>6 & 0x3F);
$str.=(0x80 | $c & 0x3F);
}
return $str;
}

这里完全是按照UTF-8编码的规则,通过判断字符属于不同的UNICODE编码段范围,进行不同的移位和位与操作,以转化为UTF-8编码。关于该规则可参考http://www.utf8.org/上的说明。

这是修改前的GB转化为UTF-8编码的函数,其中调用了上面的u2utf8函数。
function gb2utf8($gb)     /* Program writen by sadly www.phpx.com  */
{
if(!trim($gb))
return $gb;
$filename="gb2312.txt";
$tmp=file($filename);
$codetable=array();
while(list($key,$value)=each($tmp))
$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);
$utf8="";
while($gb)
{
if (ord(substr($gb,0,1))>127)
{
$this=substr($gb,0,2);
$gb=substr($gb,2,strlen($gb));
$utf8.=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));
}
else
{
$gb=substr($gb,1,strlen($gb));
$utf8.=u2utf8(substr($gb,0,1));
}
}

$ret="";
for($i=0;$i<strlen($utf8);$i+=3)
$ret.=chr(substr($utf8,$i,3));

return $ret;
}
函数中while循环部分,把汉字逐个按照“对照表”转化为UNICODE,再通过u2utf8函数转化为UTF-8。但从中可以看出,while循环结束后,又用一个for循环,把每三个字节合成了一个UTF-8字符(见http://www.utf8.org/上的规则说明,每个汉字的UTF-8编码为三字节),没有考虑到其中的西文字符(西文字符的UTF-8编码为一字节)。所以,如果欲输出的内容中不论是开始时出现西文字符,或是汉字当中穿插西文字符,转化为UTF-8后,都会被按照“每三个字节截取”的方式截开,导致乱码。


以下是修改后的函数:
function gb2utf8($gb)    /* Program writen by sadly   modified by agun */
{
if(!trim($gb))
return $gb;
$filename="gb2312.txt";
$tmp=file($filename);
$codetable=array();
while(list($key,$value)=each($tmp))
$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);

$ret="";
$utf8="";
while($gb)
{
if (ord(substr($gb,0,1))>127)
{
$this=substr($gb,0,2);
$gb=substr($gb,2,strlen($gb));
$utf8=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));
for($i=0;$i<strlen($utf8);$i+=3)
$ret.=chr(substr($utf8,$i,3));
}
else
{
$ret.=substr($gb,0,1);
$gb=substr($gb,1,strlen($gb));
}
}
return $ret;
}

修改后的函数将 GB转化为UNICODE、UNICODE转化为UTF-8、几个字节合成一个UTF-8字符,这三个步骤在一个循环里完成,尤其是几个字节合成一个UTF-8字符这一步骤,放在判断了字符属于西文还是属于汉字的条件分支里,据此决定截取一个字节还是三个字节。于是结果正确了!

GD输出汉字的函数的分析2006-3-27 17:12:14GD输出汉字的函数的分析2006-3-27 17:12:14GD输出汉字的函数的分析
  • 上一篇文章:

  • 下一篇文章:
  • 进入论坛讨论

    相关文章
    IIS+PHP+MySQL+Zend Optimizer+GD库+phpMyAdmin安装配置
    国外的一篇在IIS6上安装PHP5的教程
    Apache 2 + php 5 + mysql 5 在Windows下的安装与配置详解(最新版)
    为什么linux系统不需要碎片整理
    正版风暴让微软找到平衡点 Linux祸福难料
    定制安全的Linux系统的服务平台(4)
    定制安全的Linux系统服务平台(3)
    定制安全的Linux系统服务平台(2)
    定制安全的Linux系统服务平台(1)
    redhat下搞定红外线/GPRS/WAP代理上网
    Linux系统在嵌入式系统上的实践和探讨
    Linux3.0下安装DB2 8.2
    热门文章最新推荐

    版权与免责声明:
    ① 本网转载其他媒体稿件是为传播更多的信息,此类稿件不代表本网观点,版权归原作者所有,本网不承担此类稿件侵权行为的连带责任。
    ② 在本网BBS上发表言论者,文责自负。
    ③ 如您因版权等问题需要与本网联络,请在30日内联系 。
    GD输出汉字的函数的分析2006-3-27 17:12:14GD输出汉字的函数的分析2006-3-27 17:12:14GD输出汉字的函数的分析
    GD输出汉字的函数的分析2006-3-27 17:12:14GD输出汉字的函数的分析2006-3-27 17:12:14GD输出汉字的函数的分析

    PHP专题
    人气排行
  • 此栏目下没有文章
  • 最近更新
    普通文章php生成WAP页面
    普通文章PHP的XML分析函数
    普通文章PHP中的XML应用(一)
    普通文章PHP中的XML应用(二)
    普通文章PHP5的XML新特性
    普通文章一个用于MySQL的PHP XML类
    普通文章PHP 和 XML: 使用expat函数(一
    普通文章PHP 和 XML: 使用expat函数(二
    普通文章PHP 和 XML: 使用expat函数(三
    普通文章用 PHP5 轻松解析 XML
    全站热点       
    最新推荐
    关于文谷 | 联系文谷 | 免责声明 | 文谷社区
    Tel: 0577-65690019    E-mail: ichenjian@gmail.com    MSN:ichenjian@hotmail.com    QQ:2911194
    Copyright © 2004-2006 wengu.org 文谷 All Rights Reserved
    浙ICP备05000327号