JAVA编码机制

java中所有都是unicode的编码，恐怕大家都清楚，但是这具体是哪里的编码。在一台中文windows操作系统（GBK），或英文的linux操作系统下（ISO-8859-1）下，这些编码是如何转换的。JAVA中的String类的getBytes()方法和String类的指定编码方式的构造函数中的编码又是如何呢？

这里我不做深入解释，只是展示一下这些编码转换的流程。

以windows中文操作系统为例，我们编写好的java文件以默认本地操作系统的编码方式进行存储（java源文件和class文件），即GBK。

当jvm需要载入相应的类时，jvm将GBK编码的字符转换为unicode字节码，即jvm中的字节码是unicode的。

以上两个过程实际上不需要我们参与，因此对于任何平台，我们所要操作的目标都是unicode编码的字符串。

byte[] getBytes(code)

这个方法是将unicode字符串按照code指定的编码方式转换为字节数组，这里会出现转码问题，如unicode-->iso-8859-1。如果是ASCII的字符，则不会有问题，但是如果出现汉字的unicode，则得到的iso编码必然是?(63)

String(byte[],code)

按照code指定的解码方式，将byte[]字节组解码为对应编码方式的字符串。

Internet上传递的字节流的编码都是ISO-8859-1的，因此要想恢复到之前的汉字字符串需要按照以下步骤：

String string = in.readLine();

byte[] b = string.getBytes("iso-8859-1");

new String（b,"gbk"）;

相关阅读:
咏南微服务架构中间件
几个开源的clickstream 分析工具
partiql 学习一试用
partiql 亚马逊开源的基于sql 的查询语言
cube.js 最新版本的一些特性
astronomer 企业级的airflow 框架
neodash 构建neo4j dashboard 的工具
开发自定义的dremio 函数
dremio sql 操作
dremio 生产部署推荐硬件配置

原文地址：https://www.cnblogs.com/williamcai/p/2971504.html