java unicode 编码转换两种方法(一)

2014-11-24 03:07:57 · 作者: · 浏览: 4

JAVA 字符的编码问题,有很多情况会出现,比如:

1. jsp页面显示不出中文字符

2. servlet不能返回正确的中文名

3. 资源文件乱码,比如就需要中文转unicode

4. 调用js乱码,需要与调用它的jsp页面的编码保持一致

5. 邮件附件名的乱码 或 邮件正文乱码 等等

二、起源:

Javac编译期间,也会先从OS中取得现在使用的字符集,此处设为A,之后把送入的字符串转化为Unicode编码,在编译之后再从Unicode转化为A型字符集。因此:

1. 当你的操作系统国际设定错误,编译时就会产出错误的字符集编码。

2. 一些比较lj的编译器会按照预先设定的字符集,而非OS所使用的字符集进行编码。

3. 原是文件存盘时使用的字符集与编译器所使用的字符集无法匹配也会产生错误。

对于1和2,很好理解。对于3,例如我们使用的OS时GB2312,但是存盘时使用的编码字符集时UTF-8,这样java编译器编译文件的时候,就把UTF-8字符集当成GB2312字符集来处理,这样当然会出错。

原文见:http://hi.baidu.com/embrace_you/blog/item/20a663b1228c1d5e08230240.html

三、解决办法:

1. 对于一般的问题,我们只要指定编码方式就行了:

比如,javac -encoding gb2312 ... 或在jsp等文件头增加charset 设定

2. 但有时候不得不面临另外一种不幸的情况,即我们手头只有字节码文件,但是原来类中的常量中肯定存在编码问题。只有先反编译字节码文件,修改文件之后再重新编译。这需要另外一些办法——利用I/O

文字毕竟也是“binary”,为什么要单独给它们编写Reader和Writer类呢?问题在于,InputStream与OutputStream会照本宣科的解读所有输入的数据为binary,而Reader和Writer才真正的把文字当成文 字,并且在需要的时候将其转换。

3. 字符的转码:

可以用byte[] getBytes(String charset);将String转化为指定字符集的byte数组。

String(byte[] bytes, int offset, int length, String charset);

String(byte[] bytes, String charset);

以通过byte数组创建指定字符集的字符串

还可以通过ByteArrayInputStream 或ByteArrayOutputStream 串接到InputStreamReader 或OutputStreamWriter,来达到转码的目的。

比如tFileInputMail 组件出现一个问题,解析出的mail附件名乱码,解决方案就是

--> 用byte[] 构造一个ByteArrayInputStream 对象A

ByteArrayInputStream bis = new ByteArrayInputStream(str.getBytes());

--> 将此A 对象传入到特定解码算法里,返回一个InputStream 子类的对象B

Object obj = new com.sun.mail.util.BASE64DecoderStream(bis);

--> 读取B到一个byte[]里,根据String(byte[] bytes, int offset, int length, String charset);来构造能返回的正确的附件名

if (obj != null){

int k = bis .available();

byte[] arrByte = new byte[k ];

k = ((java.io.InputStream) (obj )).read(arrByte , 0, k );

attachfileName = new String(arrByte , 0, k , sCharSet );

}

四、unicode 案例

组件是将字符串保存到microsoft message queue里,据说是16位的unicode的保存的,如果它能自动化转换为unicode保存怎么会出现乱码呢?unicode是统一字符标准编码,每个字符都有它的16位字符集编码,是大而全的编码。

组件的问题是,中文等unicode字符保存后取出来就是乱码了,采取了一个办法,也不知道是不是最好的办法。类似于Properties类里的unicode转换方法,写了一个unicode的转换类

package org.talend.msmq;

public class CharacterSetToolkit {

public static void main(String[] args)

{

String str = "abc";

str = toUnicode(str, false);

System.out.println(str);

str ="\u4F60\u597D";

str = fromUnicode(str);

System.out.println(str);

}

public CharacterSetToolkit() {

}

private static final char[] hexDigit = {

'0','1','2','3','4','5','6','7','8','9','A','B','C','D','E','F'

};

private static char toHex(int nibble) {

return hexDigit[(nibble & 0xF)];

}

/*

* Converts unicodes to encoded \uxxxx and escapes

* special characters with a preceding slash

*/

public static String toUnicode(String theString, boolean escapeSpace) {

int len = theString.length();

int bufLen = len * 2;

if (bufLen < 0) {

bufLen = Integer.MAX_VALUE;

}

StringBuffer outBuffer = new StringBuffer(bufLen);

for(int x=0; x

char aChar = theString.charAt(x);

// Handle common case first, selecting largest block that

// avoids the specials below

if ((aChar > 61) && (aChar < 127)) {

if (aChar == '\\') {

outBuffer.append('\\'); outBuffer.append('\\');

continue;

}

outBuffer.append(aChar);

continue;

}

switch(aChar) {

case ' ':

if (x == 0 || escapeSpace)

outBuffer.append('\\');

outBuffer.append(' ');

break;

case '\t':outBu