当前位置:  编程技术>php

php中文编码问题解决方法汇总

    来源: 互联网  发布时间:2014-08-30

    本文导语:  php程序中文编码问题很普遍,每个国家(或区域)都规定了计算机信息交换用的字符编码集,如美国的扩展 ascii 码,中国的 gb2312-80,日本的 jis 等。 作为该国家/区域内信息处理的基础,字符编码集起着统一编码的重要作用。字符...

php程序中文编码问题很普遍,每个国家(或区域)都规定了计算机信息交换用的字符编码集,如美国的扩展 ascii 码,中国的 gb2312-80,日本的 jis 等。

作为该国家/区域内信息处理的基础,字符编码集起着统一编码的重要作用。字符编码集按长度分为 sbcs(单字节字符集),dbcs(双字节字符集)两大类。

早期的软件(尤其是操作系统),为了解决本地字符信息的计算机处理,出现了各种本地化版本(l10n),为了区分,引进了 lang, codepage 等概念。
但是由于各个本地字符集代码范围重叠,相互间信息交换困难; 软件各个本地化版本独立维护成本较高。因此有必要将本地化工作中的共性抽取出来,作一致处理,将特别的本地化处理内容降低到最少。这也就是所谓的国际化(118n)。各种语言信息被进一步规范为 locale 信息。处理的底层字符集变成了几乎包含了所有字形的 unicode。
 
现在大部分具有国际化特征的软件核心字符处理都是以 unicode 为基础的,在软件运行时根据当时的ocale/lang/codepage 设置确定相应的本地字符编码设置,并依此处理本地字符。在处理过程中需要实现 unicode 和本地字符集的相互转换,甚或以 unicode 为中间的两个不同本地字符集的相互转换。这种方式在网络环境下被进一步延伸,任何网络两端的字符信息也需要根据字符集的设置转换成可接受的内容。
 
一,数据库中的字符集编码问题
 
流行的关系数据库系统都支持数据库字符集编码,也就是说在创建数据库时可以指定它自己的字符集设置,数据库的数据以指定的编码形式存储。当应用程序访问数据时,在入口和出口处都会有字符集编码的转换。对于中文数据,数据库字符编码的设置应当保证数据的完整性。GB2312、GBK、UTF-8 等都是可选的数据库字符集编码; 当然我们也可以选择 ISO8859-1 (8-bit),只是我们得在应用程序写数据之前先将 16Bit 的一个汉字或 Unicode 拆分成两个 8-bit 的字符,读数据之后也需要将两个字节合并起来,同时还要判别其中的 SBCS 字符,因此我们并不推荐采用 ISO8859-1 作为数据库字符集编码。这样不但没有充分利用数据库自身的字符集编码支持,而且同时也增加了编程的复杂度。编程时,可以先用数据库管理系统提供的管理功能检查其中的中文数据是否正确。
 
PHP 程序在查询数据库之前,首先执行 mysql_query("SET NAMES xxxx"); 其中 xxxx 是你网页的编码(charset=xxxx),如果网页中 charset=utf8,则 xxxx=utf8,如果网页中 charset=gb2312,则xxxx=gb2312,几乎所有 WEB 程序,都有一段连接数据库的公共代码,放在一个文件里,在这文件里,加入 mysql_query("SET NAMES xxxx") 就可以了。
 
SET NAMES 显示客户端发送的 SQL 语句中使用什么字符集。因此,SET NAMES 'utf-8' 语句告诉服务器"将来从这个客户端传来的信息采用字符集 utf-8"。它还为服务器发送回客户端的结果指定了字符集(例如,如果你使用一个 SELECT 语句,它表示列值使用了什么字符集)。(www. 脚本学堂 整理)
 
二,定位问题时常用的技巧
 
定位中文编码问题

通常采用最笨的也是最有效的办法―在认为有嫌疑的程序处理后打印字符串的内码。
通过打印字符串的内码,你可以发现什么时候中文字符被转换成 Unicode,什么时候Unicode 被转回中文内码,什么时候一个中文字成了两个 Unicode 字符,什么时候中文字符串被转成了一串问号,什么时候中文字符串的高位被截掉了……
 
取用合适的样本字符串也有助于区分问题的类型。
例如:"aa啊 aa?@aa" 等中英相间,GB、GBK特征字符均有的字符串。

一般来说,英文字符无论怎么转换或处理,都不会失真(如果遇到了,可以尝试着增加连续的英文字母长度)。
 
三,解决各种应用的乱码问题
 
1)、使用标签设置页面编码
 
这个标签的作用是声明客户端的浏览器用什么字符集编码显示该页面,xxx 可以为 GB2312、GBK、UTF-8(和 MySQL 不同,MySQL 是 UTF8)等等。

因此,大部分页面可以采用这种方式来告诉浏览器显示这个页面的时候采用什么编码,这样才不会造成编码错误而产生乱码。
但是,有时候会发现有了这句还是不行,不管 xxx 是哪一种,浏览器采用的始终都是一种编码,这个情况后面会谈到。
 
注意, 是属于 HTML 信息的,仅仅是一个声明,仅表明服务器已经把 HTML 信息传到了浏览器。
 
2)、header("content-type:text/html; charset=xxx");
 
这个函数 header() 的作用是把括号里面的信息发到 http 标头。如果括号里面的内容为文中所说那样,那作用和 标签基本相同,大家对照第一个看发现字符都差不多的。但是不同的是如果有这段函数,浏览器就会永远采用你所要求的 xxx 编码,绝对不会不听话,因此这个函数是很有用的。为什么会这样呢?那就得说说 http 标头和 HTML信息的差别了:
 
http 标头是服务器以 http 协议传送 HTML 信息到浏览器前所送出的字串。而 标签是属于 HTML 信息的,所以 header() 发送的内容先到达浏览器,通俗点就是 header() 的优先级高于 (不知道可不可以这样讲)。假如一个PHP页面既有header("content-type:text/html; charset=xxx"),又有,浏览器就只认前者 http 标头而不认 meta 了。当然这个函数只能在PHP页面内使用。
 
同样也留有一个问题,为什么前者就绝对起作用,而后者有时候就不行呢?这就是接下来要谈的Apache 的原因了。
 
3)、AddDefaultCharset
 
Apache 根目录的 conf 文件夹里,有整个 Apache 的配置文档 httpd.conf。
 
用文本编辑器打开 httpd.conf,第 708 行(不同版本可能不同)有 AddDefaultCharset xxx,xxx为编码名称。这行代码的意思:设置整个服务器内的网页文件 http 标头里的字符集为你默认的 xxx字符集。有这行,就相当于给每个文件都加了一行 header("content-type:text/html; charset=xxx")。这下就明白为什么明明 设置了是 utf-8,可浏览器始终采用 gb2312 的原因。
 
如果网页里有 header("content-type:text/html; charset=xxx"),就把默认的字符集改为你设置的字符集,所以这个函数永远有用。如果把 AddDefaultCharset xxx 前面加个"#",注释掉这句,而且页面里不含 header("content-type…"),那这个时候就轮到 meta 标签起作用了。
 
下面列出以上的优先顺序:
 

代码示例:
header("content-type:text/html; charset=xxx")
AddDefaultCharset xxx

建议为每个页面都加个header("content-type:text/html; charset=xxx"),这样就可以保证它在任何服务器都能正确显示,可移植性也比较强。
 
4)、PHP.ini 中的 default_charset 配置:
 
php.ini 中的 default_charset = "gb2312" 定义了PHP的默认语言字符集。一般推荐注释掉此行,让浏览器根据网页头中的 charset 来自动选择语言而非做一个强制性的规定,这样就可以在同台服务器上提供多种语言的网页服务。
 
其实PHP开发中的中文编码并没有想像的那么复杂,虽然定位和解决问题没有定规,各种运行环境也各不尽然,但后面的原理是一样的。了解字符集的知识是解决字符问题的基础。不过,随着中文字符集的变化,不仅仅是PHP编程,中文信息处理中的问题还是会存在一段时间的。
 
以上这些内容是送给还没有解决PHP开发中的中文编码问题的小伙伴们一些解决性建议,也希望正在学习php的小伙伴们多多了解这些知识。


    
 
 

您可能感兴趣的文章:

  • php判断字符串是否全是中文或含有中文
  • 中文分词PHP扩展 MFSOU
  • php网页标题中文乱码如何解决
  • 解决php json_encode中文转码、乱码问题
  • php网页标题中文乱码的有效解决方法
  • php中文字符串截取函数示例
  • PHP中文套件 PHPnow
  • php+正则将字符串中的字母数字和中文分割
  • php导入csv文件中文乱码的解决方法
  • PHP中文分词扩展 robbe
  • PHP中file_exists函数不支持中文名的解决方法
  • 支持中文和其他编码的php截取字符串函数分享(截取中文字符串)
  • php截取中文字符串(无乱码)方法
  • 解决php csv文件导入mysql中文乱码
  • PHP解决URL中文GBK乱码问题的两种方法
  • 解决php接收shell返回的结果中文乱码问题
  • php mb_substr()函数截取中文字符串应用示例
  • 我在安装LINUX 9简体中文版时,漏装了一个PHP-MYSQL的模块,那我现在该如何加装?
  • php中文乱码怎么办如何让浏览器自动识别utf-8
  • php中file_exists函数不支持中文名怎么办?
  • PHP防止表单重复提交的几种常用方法汇总
  • 有关于PHP中常见数据类型的汇总分享
  • php中出现空白页的原因及解决方法汇总
  • PHP5.3与5.5废弃与过期函数整理汇总
  • PHP对表单提交特殊字符的过滤和处理方法汇总
  • 清除IE缓存的方法汇总(asp asp.net php等)
  • php5 字符串处理函数汇总
  • PHP数组遍历知识汇总(包含遍历方法、数组指针操作函数、数组遍历测速)
  • PHP常用的缓存技术汇总
  •  
    本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
    本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • php字符串编码转换函数 可以自动识别原编码
  • php页面编码与mysql数据库编码区别
  • php编码转换分析
  • PHP 数组字符集编码转换的函数
  • 设置php页面编码的二种方法
  • 两种设置php载入页面时编码的方法
  • php自动识别文件编码并转换为UTF-8的方法
  • 设置php页面编码的两种方法示例介绍
  • php pdo编码乱码问题的解决方法
  • php字符串编码转换小例子
  • php mb_convert_encoding文字编码转换函数
  • php iconv函数解决utf-8与gb2312编码转换问题
  • php 字符编码转换方法
  • php编码转换小例子
  • php 判断网页是否是utf8编码的方法
  • php验证是否是md5编码的简单代码
  • php编码转换方法举例
  • PHP生成UTF-8编码的CSV文件打开乱码的解决方法
  • PHP学习笔记之字符串编码的转换和判断
  • php检测文件编码的方法示例
  • 修改配置真正解决php文件上传大小限制问题(nginx+php)
  • IIS7配置PHP图解(IIS7+PHP_5.2.17/PHP_5.3.5)
  • PHP 5.4.19 和 PHP 5.5.3 发布及下载地址
  • php输入流php://input使用示例(php发送图片流到服务器)
  • 修改配置真正解决php文件上传大小限制问题(apache+php)
  • PHP转换器 HipHop for PHP
  • PHP去除html标签,php标记及css样式代码参考
  • PHP 框架 Pop php
  • PHP 'ext/soap/php_xml.c'不完整修复存在多个任意文件泄露漏洞
  • PHP的JavaScript框架 PHP.JS
  • php通过socket_bind()设置IP地址代码示例


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3