[Oracle]搞懂Oracle字符集(一)

2014-11-24 13:02:08 · 作者: · 浏览: 0
[Oracle]搞懂Oracle字符集
基本概念
字符集(Character set):是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。常见的字符集有ASCII,ZHS16GB231280,ZHS16GBK等。
字符编码(Character Encoding):是一套法则,使用该法则能够对自然语言的字符的一个集合(如字母表或音节表),与其它的一个集合(如电脑编码)进行配对。即在符号集合与数字系统之间建立对应关系。与字符集相对应,常见的字符编码有:ASCii,ZHS16GBK,ZHT16BIG5,ZHS32GB18030等。
字符集的定义其实就是字符的集合,而字符编码则是指怎么将这些字符变成字节用于保存、读取和传输。
万国码(Unicode):包含了几乎人类所有可用的字符,每年还在不断的增加,可以看作是一种通用的字符集。它将全世界所有的字符统一化,统一编码,不会再出现字符不兼容和字符转换的问题。它有以下三种编码方式:
UTF-32编码:固定使用4个字节来表示一个字符,存在空间利用效率的问题。
UTF-16编码:对相对常用的60000余个字符使用两个字节进行编码,其余的使用4字节。
UTF- 8编码:兼容ASCII编码;拉丁文、希腊文等使用两个字节;包括汉字在内的其它常用字符使用三个字节;剩下的极少使用的字符使用四个字节。
Oracle字符集基本原理
在搞懂Oracle字符集基本原理之前,一定要先分清以下三个概念:
1. Oracle 数据库服务器字符集:即 Oracle以哪种字符编码存储字符,可以通过以下语句查出数据库字符集的设置。
[sql] 
SQL> select * from v$nls_parameters where parameter='NLS_CHARACTERSET';  
  
PARAMETER                      VALUE  
------------------------------ -----------------  
NLS_CHARACTERSET               AL32UTF8  

2. 客户端操作 系统字符集:即客户端操作系统以哪种字符编码存储字符。
如果是Windows,可以使用chcp命令获得代码页(code page):
[sql] 
C:\Users\xianzhu>chcp  
Active code page: 936  

根据该代码页,到微软的官方文档《National Language Support (NLS) API Reference》找到其对应的字符集。
如果是 Linux,字符集在/etc/sysconfig/i18n设置:
[plain] 
LANG="zh_CN.GB2312" (指定当前操作系统的字符集)   
SUPPORTED="zh_CN.GB2312"(指定当前操作系统支持的字符集)   
SYSFONT="lat0-sun16"(指定当前操作系统的字体)  

3. 客户端NLS_LANG参数:该参数用于向Oracle指示客户端操作系统的字符集。
有了以上3个基本概念之后,我来阐述一下Oracle字符集转换的基本原则:
设置客户端的NLS_LANG为客户端操作系统的字符集
如果数据库字符集等于NLS_LANG,数据库和客户端传输字符时不作任何转换
如果它们俩不等,则需要在不同字符集间转换,只有客户端操作系统字符集是数据库字符集子集的基础上才能正确转换,否则会出现乱码。
几种常见情况分析
下面先看一个例子,再透过现象看本质,我们会针对这个例子进行分析。
该例子如下:
[sql] 
1. 数据库字符集为Unicode(UTF-8编码)  
我们的数据库版本是10.2.0.4.0,数据库字符集是:  
SQL> select * from v$nls_parameters where parameter='NLS_CHARACTERSET';  
  
PARAMETER                                VALUE  
---------------------------------------- ------------------------------  
NLS_CHARACTERSET               AL32UTF8  

2. 客户端操作系统字符集为代码页936(字符集为ZHS16GBK)
可以使用chcp获得 windows的代码页(code page)
C:\Documents and Settings\a105024\Desktop>chcp
Active code page: 936
3. 创建测试表
SQL> create table test(id number,var varchar2(30));  
Table created.  
4. 插入数据
这里在同一个操作系统启动两个session,session1的NLS_LANG设为和数据库字符集一样(即AL32UTF8):
C:\Documents and Settings\a105024\Desktop>set nls_lang=Simplified Chinese_China.AL32UTF8
连接数据库并插入一条数据:
Session_1>insert into test values(1,'中国');  
  
1 row created.  
  
Session_1>commit;  
  
Commit complete.  

session2的NLS_LANG设为和客户端操作系统一样(即ZHS16GBK):
C:\Documents and Settings\a105024\Desktop>set nls_lang=Simplified Chinese_China.ZHS16GBK
连接数据库并插入一条数据:
Session_2>insert into test values(2,'中国');  
  
1 row created.  
  
Session_2>commit;  
  
Commit complete.  

5. 执行查询
在session 1上执行查询:
Session_1>select * from test;  
  
        ID VAR  
---------- ---------------------  
         1 中国  
         2 涓      
在session 2上执行查询:  
Session_2>select * from test;  
  
        ID VAR  
---------- --------------------  
         1 ?    
         2 中国  

上面例子看起来很诡异,session1和2都能正常显示自己插入的字符串,又都不能正常显示对方插入的字符串。为了弄清楚,我们首先得知道数据库里对这两个字符串是怎么存储的。我们可以使用dump函数获得字符在数据库的编码:
[sql] 
SQL> select id,dump(var,1016) from test;  
ID DUMP(VAR,1016