java byte转string乱码(byte数组转字符串java)

===Tips:回复关键字“Java”或“C语言”分类速查历史文章===

java byte转string乱码(byte数组转字符串java)

一、文件页面编码导致的乱码

每一个文件(java,js,jsp,html等)都有其本身的编码格式,文件中的代码在一种编码中显示正常,在另外一种编码下就会显示出乱码。

在Eclipse中,每一个工程都会有编码格式(Text file encoding), 一般默认为GBK。而一个比较好的编程习惯是新建一个项目,优先把项目的编码设为UTF-8。

这样做的原因很简单,UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。几种常见的字符集,GBK,GB2312,UTF-8之间的关系如下:GBK是国家标准GB2312基础上扩容后兼容GB2312的标准。GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换。有兴趣了解更多,可以参考如下链接的文章,写的很好:

http://www.cnblogs.com/xiaomia/archive/2010/11/28/1890072.html。

二、不同字符集的字符串转换时导致的乱码

每一个String,底层实现都是用一个byte数组存储,使用不同的字符集,存储的数组长度当然就不同。如果不使用同一种字符集进行解码,就一定会出现乱码。例如如下代码:

importjava.io.UnsupportedEncodingException;

importjava.nio.charset.Charset;

publicclassTestCharset{

publicstaticvoidmain(String[]args)throwsUnsupportedEncodingException{

StringstrChineseString=”中文”;

Stringencoding=System.getProperty(“file.encoding”);

System.out.println(“系统默认的字符集是:” encoding);

System.out.println(strChineseString.getBytes(Charset.forName(“GBK”)).length);

System.out.println(strChineseString.getBytes(Charset.forName(“UTF-8″)).length);

System.out.println(strChineseString.getBytes().length);

}

}

输出结果为:

系统默认的字符集是:UTF-8

4

6

6

JDK中关于getBytes方法的描述:

getBytes() 使用平台的默认字符集将此 String 编码为 byte 序列,并将结果存储到一个新的 byte 数组中。

getBytes(Charset charset) 使用给定的 charset 将此 String 编码到 byte 序列,并将结果存储到新的 byte 数组。

每一个字符串底层都有自己的编码方式。不过一旦调用getByte()方法后,得到的byte数组就是使用某种特定字符集编码后的数组,不需要再做多余的转换。当得到上面的byte数组后,就可以调用String的另外一个方法来生成需要转码的String了。测试例子如下:

importjava.io.UnsupportedEncodingException;

importjava.nio.charset.Charset;

publicclassTestCharset{

publicstaticvoidmain(String[]args)throwsUnsupportedEncodingException{

StringstrChineseString=”中文”;

byte[]byteGBK=null;

byte[]byteUTF8=null;

byteGBK=strChineseString.getBytes(Charset.forName(“GBK”));

byteUTF8=strChineseString.getBytes(Charset.forName(“utf-8″));

System.out.println(newString(byteGBK,”GBK”));

System.out.println(newString(byteGBK,”utf-8″));

System.out.println(“**************************”);

System.out.println(newString(byteUTF8,”utf-8″));

System.out.println(newString(byteUTF8,”GBK”));

}

}

输出结果为:

中文

????????

**************************

中文

涓??枃

可以看出,使用哪种字符集编码一个String,在生成一个String的时候就必须使用相应的编码,否则就会出现乱码。

简单来讲,只有满足如下公式的String转码,才不会乱码。

StringstrSource=”你想要转码的字符串”;

StringstrSomeEncoding=”utf-8″;//例如utf-8

StringstrTarget=newString(strSource.getBytes(Charset.forName(strSomeEncoding)),strSomeEncoding);

JDK中关于String构造方法的描述:

String(byte[] bytes) 通过使用平台的默认字符集解码指定的 byte 数组,构造一个新的 String。

String(byte[] bytes, Charset charset) 通过使用指定的 charset 解码指定的 byte 数组,构造一个新的 String。

三、Socket网络传输时导致的中文乱码

使用Socket进行通讯的时候,传输有多种选择,可以使用PrintStream,也可以使用PrintWriter。传输英文还好,传输中文就可能出现乱码问题。网上的说法很多,经过实际测试,发现问题还在字节和字符的问题上面。

众所周知,Java中分为字节流和字符流,字符(char)是16bit的,字节(BYTE)是8bit的。PrintStrean是写入一串8bit的数据的。 PrintWriter是写入一串16bit的数据的。 String缺省是用UNICODE编码,是16bit的。因此用PrintWriter写入的字符串,跨平台性好一些,PrintStream的可能会出现字符集乱码。

可以这样理解上面的话,PrintStream是用来操作byte, PrintWriter是用来操作Unicode, PrintStream一次读8bit的话,如果遇到汉字(一个汉字占16bit),就可能会出现乱码。一般需要处理中文时用PrintWriter好了。

最后网站测试,使用PrintWriter没有出现乱码。代码如下:

importjava.io.BufferedReader;

importjava.io.DataOutputStream;

importjava.io.IOException;

importjava.io.OutputStreamWriter;

importjava.io.PrintWriter;

importjava.net.Socket;

publicclassTestSocket{

publicstaticvoidmain(String[]args)throwsIOException{

Socketsocket=newSocket();

DataOutputStreamdos=null;

PrintWriterpw=null;

BufferedReaderin=null;

StringresponseXml=”要传输的中文”;

//……….

dos=newDataOutputStream(socket.getOutputStream());

pw=newPrintWriter(newOutputStreamWriter(dos));//不带自动刷新的Writer

pw.println(responseXml);

pw.flush();

}

}

需要注意的方面是,需要使用PrintWriter的println而不是write方法,否则服务器端会读不到数据的。原因就是println会在输出的时候在字符串后面加一个换行符,而write不会。

Println和write具体区别可以参考如下网址,里面的网友有讨论:

http://www.oschina.net/question/101123_17855

四、JSP中显示中文的乱码

有的时候JSP页面在显示中文的时候会有乱码,大多数情况就是字符集配置和页面编码的问题。只要保证如下的几个配置没有问题,一般就不会有乱码出现。

1.JSP页面顶端添加如下语句

<%@pagecontentType=”text/html;charset=utf-8″language=”java”errorPage=””%>

2.在HTML的head标签中添加如下语句

<metahttp-equiv=”Content-Type”content=”text/html;charset=utf-8″/>

3.保证JSP的页面编码与上面两个的charset相同,这点我有在文章的第一点说过。

上面的字符集可以根据需要自己灵活选择,不一定非要utf-8。不过因为utf-8对各国语言,特别是中文支持较好,所以推荐使用。我就曾经遇到过滘在GB2312编码的页面无法正常显示的问题。

五、Post和Get传递中文,后台获取乱码

前台传递中文也分为Get和Post方法。

1.Get方法的情况

Get方法的时候主要是URL传递中文。

如果是在js文件中,可以使用如下代码进行中文转码。

varurl=”http://www.baidu.com/s?industry=编码”

url=encodeURI(url);

如果是在jsp文件中,则可以使用如下语句进行转码。

页面开始引入:

<%@pageimport=”java.net.URLEncoder”%>

需要转码的地方使用URLEncoder进行编码:

<ahref=”xxxxx.xx?industry=<%=URLEncoder.encode(“http://www.baidu.com/s?wd=编码”,”UTF-8″)%>”>

无论使用哪种方法,在后台获取中文的时候都要使用如下代码:

request.setCharacterEncoding(“utf-8”);

Stringindustry=newString(

request.getParameter(“industry”).getBytes(“ISO8859-1″),”UTF-8”);

【注】

(1)对于request,是指提交内容的编码,指定后可以通过getParameter()则直接获得正确的字符串,如果不指定,则默认使用iso8859-1编码,为了统一,需要提交指定传输编码。

(2)上面代码的第二句好像和第2条中给出的公式矛盾。我也纠结了好久,最后发现ISO8859-1是一种比较老的编码,通常叫做Latin-1,属于单字节编码,正好和计算机最基础的表示单位一致,因此使用它进行转码一般也没有问题。iso-8859-1是JAVA网络传输使用的标准字符集,而gb2312是标准中文字符集,当你作出提交表单等需要网络传输的操作的时候,就需要把 iso-8859-1转换为gb2312字符集显示,否则如果按浏览器的gb2312格式来解释iso-8859-1字符集的话,由于2者不兼容,所以会是乱码。为了省事,建议统一使用utf-8字符集。

2.POST方法的情况。

对于Post的情况就比较简单了,只需要在post的函数调用部分,制定post的header的字符集,如:

xmlHttp.open(“post”,url,true);

xmlHttp.setRequestHeader(“Content-Type”,”text/xml;charset=utf-8″);

xmlHttp.send(param);

xmlHttp.open(“post”, url , true);

xmlHttp.setRequestHeader(“Content-Type”,”text/xml; charset= utf-8″);

xmlHttp.send(param);

其中param为要传递的参数。

后台部分和get方法一样,设置如下即可,注意传输和接受的字符集要统一。没懂的话可以参考如下文章,写的挺好:

http://www.cnblogs.com/qiuyi21/articles/1089555.html。

六、后台向前台传递中文乱码

在这里提供一个函数,通过这个函数来发送信息,就不会出现乱码,核心思想也是设置response流的字符集。函数代码如下:

/**

*@Function:writeResponse

*@Description:ajax方式返回字符串

*@paramstr:json

*@return:true:输出成功,false:输出失败

*/

publicbooleanwriteResponse(Stringstr){

booleanret=true;

try{

HttpServletResponseresponse=ServletActionContext.getResponse();

response.setContentType(“text/html;charset=utf-8”);

PrintWriterpw=response.getWriter();

pw.print(str);

pw.close();

}catch(Exceptione){

ret=false;

e.printStackTrace();

}

returnret;

}

七、下载文件时文件名乱码

下载过的人都知道下载的文件容易出现乱码,原因也是没有对输出流的编码格式进行限定。附上一段代码,用来帮你完成无乱码下载。

HttpServletResponseresponse=ServletActionContext.getResponse();

response.setContentType(“text/html;charset=utf-8″);

response.reset();

Stringheader=”attachment;filename=” picName;

header=newString(header.getBytes(),”UTF-8″);

response.setHeader(“Content-disposition”,header);

HttpServletResponse response = ServletActionContext.getResponse();

response.setContentType(“text/html;charset=utf-8”);

response.reset();

String header = “attachment; filename=” picName;

header = new String(header.getBytes(), “UTF-8”);

response.setHeader(“Content-disposition”, header);

核心代码就上几句,注意第二句和第三句的reset的顺序不能搞错。reset的作用是用来清空buffer缓存的,清空请求前部的一些空白行。

资料引用:http://aspnetdb.iteye.com/blog/1162774

发表评论

登录后才能评论