这是在整理另一篇博客的时候发现的一个有趣的现象,是这样描述的:我们都知道Java默认使用的是UniCode编码集,我们也知道char类型占用两个字节。所以奇怪的现象又发生了(见代码):
1 @Test 2 public void testCode_1() throws Exception{ 3 4 System.out.println("汉字UniCode编码大小:" + "字".getBytes("UniCode").length); 5 System.out.println("数字UniCode编码大小:" + "0".getBytes("UniCode").length); 6 System.out.println("字母UniCode编码大小:" + "a".getBytes("UniCode").length); 7 System.out.println("========================================="); 8 9 System.out.println("汉字GBK编码大小:" + "字".getBytes("GBK").length); 10 System.out.println("数字GBK编码大小:" + "0".getBytes("GBK").length); 11 System.out.println("字母GBK编码大小:" + "a".getBytes("GBK").length); 12 System.out.println("========================================="); 13 14 System.out.println("汉字GB2312编码大小:" + "字".getBytes("GB2312").length); 15 System.out.println("数字GB2312编码大小:" + "0".getBytes("GB2312").length); 16 System.out.println("字母GB2312编码大小:" + "a".getBytes("GB2312").length); 17 System.out.println("========================================="); 18 19 System.out.println("汉字UTF-8编码大小:" + "字".getBytes("UTF-8").length); 20 System.out.println("数字UTF-8编码大小:" + "0".getBytes("UTF-8").length); 21 System.out.println("字母UTF-8编码大小:" + "a".getBytes("UTF-8").length); 22 System.out.println("========================================="); 23 24 System.out.println("汉字UTF-16编码大小:" + "字".getBytes("UTF-16").length); 25 System.out.println("数字UTF-16编码大小:" + "0".getBytes("UTF-16").length); 26 System.out.println("字母UTF-16编码大小:" + "a".getBytes("UTF-16").length); 27 System.out.println("========================================="); 28 29 }
testCode_1执行的结果如下:
汉字UniCode编码大小:4 数字UniCode编码大小:4 字母UniCode编码大小:4 ========================================= 汉字GBK编码大小:2 数字GBK编码大小:1 字母GBK编码大小:1 ========================================= 汉字GB2312编码大小:2 数字GB2312编码大小:1 字母GB2312编码大小:1 ========================================= 汉字UTF-8编码大小:3 数字UTF-8编码大小:1 字母UTF-8编码大小:1 ========================================= 汉字UTF-16编码大小:4 数字UTF-16编码大小:4 字母UTF-16编码大小:4 =========================================
发现其实Unicode编码的大小和UFT-16的大小是一样的统一是4个字节,而GBK和GB2312是一样的分别是(汉字2个字节,数字1个字节,字母1个字节)。但这其实没什么奇怪的。接下来的事情才令人不可理解:
1 @Test 2 public void testCode_2(){ 3 char c = (char)Long.MAX_VALUE; 4 System.out.println("char类型的大小:"+(int)c); 5 }
testCode_2执行的结果如下:
char类型的大小:65535
可能你还没觉得这个结果奇怪。我们都知道计算机都是使用二进制存储,65535是2^16-1,也就是说char用了2个字节,但是UniCode是4个字节啊,4个字节应该是2^32-1=4294967295。这下应该明白是不是哪里不对?颠覆了自己的认知?怀疑自己记错了?可能都开怀疑java可能不是用UniCode编码的,但是无论如何也不会用GBK或者GB2312编码的,因为这两个编码是我们中国搞的,JDK不是我们中国搞的,所以通用的话肯定是UniCode编码了。
过于这个问题的理解:我们知道编码是有发展过程的,这个故事说起来就很长远了,我们找重点。简单来说,就是曾经UniCode编码是占两个字节的时候,我们使用的JDK就采用了这种编码。后来人家UniCode扩展了更多的内容变成了4个字节,但是我们JDK没有扩展,在JDK1.5的时候并没有扩展,并保留了char类型的行为来表示UTF-16,并实现了码位的概念来表示UTF-32。可能当时的人考虑的每次UniCode编码扩展都要重写底层很麻烦,所以才采用了自己的方式扩展。详情请访问:https://www.ibm.com/developerworks/cn/java/j-unicode/。我也是参考这篇博客来的。总之编码问题是变成路上不可避免的问题,但其实问题也不大,一般公司内部会统一编码,通常都是UTF-8。