因為一直不信Java竟會有不能混排顯示多國語言的BUG這個周末研究了一下ServletJsp的多國語言顯示的問題也就是Servlet的多字符集問題由於我對字符集的概念還不是很清晰所以寫出的東西未必是准確的我是這樣理解Java中的字符集的在運行時每個字符串對象中存儲的都是編碼為UNICODE內碼的(筆者認為所有的語言中都是有相應編碼的因為在計算機內部字符串總是用內碼來表示的只不過一般計算機語言中的字符串編碼時平台相關的而Java則采用了平台無關的UNICODE)
Java從一個byte流中讀取一個字符串時將把平台相關的byte轉變為平台無關的Unicode字符串在輸出時Java將把Unicode字符串轉變為平台相關的byte流如果某個Unicode字符在某個平台上不存在將會輸出一個´?´舉個例子在中文Windows中Java讀出一個GB編碼的文件(可以是任何流)到內存中構造字符串對象將會把GB編碼的文字轉變為Unicode編碼的字符串如果把這個字符串輸出又將會把Unicode字符串轉化為GB的byte流或數組中文測試>ueduudbubd>中文測試
byte[] bytes = new byte[]{(byte)
xd
(byte)
xd
(byte)
xce
(byte)
xc
(byte)
xb
(byte)
xe
(byte)
xca
(byte)
xd
};//GBK編碼的
中文測試
java
io
ByteArrayInputStream bin = new java
io
ByteArrayInputStream(bytes);
java
io
BufferedReader reader =new java
io
BufferedReader(new java
io
InputStreamReader (bin
GBK
));
String msg = reader
readLine();
System
out
println(msg)
這段程序放到包含中文測試這四個字的系統(如中文系統)中可以正確地打印出這些字msg字符串中包含了正確的中文測試的Unicode編碼ueduudbubd打印時轉換為操作系統的默認字符集是否可以正確顯示依賴於操作系統的字符集只有在支持相應字符集的系統中我們的信息才能正確的輸出否則得到的將會是垃圾
話入正題我們來看看Servlet/Jsp中的多語言問題我們的目標是任一國家的客戶端通過Form向Server發送信息Server把信息存入數據庫中客戶端在檢索時仍然能夠看到自己發送的正確信息事實上我們要保證最終Server中的SQL語句中保存的時包含客戶端發送文字的正確Unicode編碼DBC與數據庫通訊時采用的編碼方式能包含客戶端發送的文字信息事實上最好讓JDBC直接使用UNICODE/UTF與數據庫通訊!這樣就可以確保不會丟失信息Server向客戶端發送的信息時也要采用不丟失信息的編碼方式也可以是Unicode/Utf
如果不指定Form的Enctype屬性Form將把輸入的內容依照當前頁面的編碼字符集urlencode之後再提交服務器端得到是urlencoding的字符串編碼後得到的urlencoding字符串是與頁面的編碼相關的如gb編碼的頁面提交中文測試得到的是%D%D%CE%C%B%E%CA%D每個%後跟的是進制的字符串而在UTF編碼時得到的卻是%E%B%AD%E%%%E%B%B%E%AF%因為GB編碼中一個漢字是位的而UTF中一個漢字卻是位的中日韓三國的ie以上浏覽器均支持UTF編碼這種方案肯定包涵了這三國語言所以我們如果讓Html頁面使用UTF編碼那麼將至少可以支持這三國語言
但是如果我們html/Jsp頁面使用UTF編碼因為應用程序服務器可能不知道這種情況因為如果浏覽器發送的信息不包含charset信息至多Server知道讀到AcceptLanguage請求投標我們知道僅靠這個投標是不能獲知浏覽器所采用編碼的所以應用程序服務器不能正確解析提交的內容為什麼?因為Java中的所有字符串都是Unicode位編碼的HttpServletRequestrequest(String)的功能就是把客戶端提交的Urlencode編碼的信息轉為Unicode字符串有些Server只能認為客戶端的編碼和Server平台相同簡單地使用URLDecoderdecode(String)方法直接解碼如果客戶端編碼恰好和Server相同那麼就可以得到正確地字符串否則如果提交地字符串中包含了當地字符那麼將會導致垃圾信息
From:http://tw.wingwit.com/Article/program/Java/hx/201311/27246.html