hessian messagePack protocolbuffer 序列化协议分析

hessian messagePack protocolbuffer 序列化协议分析
序列化协议作用：

协议在网络通信中的作用；

序列化 / 反序列化属于 TCP/IP模型应用层和 OSI`模型表示示层的主要功能：
（序列化）把应用层的对象转换成二进制串
（反序列化）把二进制串转换成应用层的对象

常见协议（messagepack介绍）

官方介绍：It’s like JSON.but fast and small.

https://github.com/msgpack/msgpack/blob/master/spec.md
简单来说，它的数据格式与json相似，但在存储时做了很多优化，减少无用的字符，二进制格式

编码方式尽量减少带来额外的存储空间。

如上图：使用json需要27字节，而MessagePack仅要18字节。

在MessagePack中常见类型是怎么进行编码的？

1）Boolean类型：1字节就能标识

2）可变长度：[类型长度] + 数据

比如：字符串、数组（map与数组类似）、二进制数据（bin类型），
1bite 前四位表示类型后四位表示长度，接着是真实数据。

以String类型为例：
编码后就是数据真实长度+1位。
当data长度大于31字节小于(2^8)-1时，会使用0xd9的方式，第2字节记录data长度，
以此类推，最大支持(2^32)-1。

MessagePack对字符串的部分编码规则：

3）int类型：
uint8 8位正数、uint16 16位正数最大支持64位正数。

举个例子，介绍下MessagePack是如何进行序列化和反序列化的
```
@Test
public void init() throws Exception {
    File tempFile = new File("D:/msgPackTemp.txt");
    StudentInfo studentInfo = new StudentInfo();
    studentInfo.setName("jack");
    studentInfo.setAge(12);
    String[] strings = {"sleep", "basketball", "football"};
    studentInfo.setHabits(strings);
    FileOutputStream fileOutputStream = new FileOutputStream(tempFile);
    MessagePack messagePack = new MessagePack();
    Packer packer = messagePack.createPacker(fileOutputStream);
    packer.write(studentInfo);
    packer.close();
    System.out.println("----------------------------end");
}
```
结果：

分析：

这种编码方式，解密时需要完全按照顺序去解码。
同时说明了，如果在rpc调用中接口参数升级，对象添加属性必须注意顺序。

常见协议（hessian介绍）

Hessian ：是自我描述序列化的类型，不需要外部架构和接口定义。

Hessian的对象支持八种原始类型：
1，原生二进制数据
2，Boolean
3，64位毫秒值的日期
4，64位double
5，32位int
6，64位long
7，null
u8，tf-8的string
它有三种循环的类型：
1，list for lists and arrays
2，map for maps and dictionaries
3，object for objects
共享和循环对象引用

常见类型的编码方式介绍：

上述仅是部分，详细参见：

中文文档： https://www.jianshu.com/p/e800d8af4e22
官网文档： http://hessian.caucho.com/doc/hessian-serialization.html

看个例子：
```
@Test
public void init() throws Exception {
    File tempFile = new File(fileName);
    //序列化
    StudentInfo studentInfo = new StudentInfo();
    studentInfo.setName("jack");
    studentInfo.setAge(12);
    studentInfo.setHabits(new String[]{"sleep", "football", "basketball"});
    Hessian2Output out = new Hessian2Output(new FileOutputStream(tempFile));
    out.writeObject(studentInfo);
    out.flush();
    System.out.println("----------------------------end");
}
```
结果：

分析：

编码结果上看：对象的全描述，编码传输报文比较大，可以根据编码直接得到全量信息；

常见协议（protocolbuffer）

protocolbuffer 编码后的数据没有任何属性的描述信息，它是依赖.proto文件对数据序列化与反序列化处理。

它将结构化数据按一定的编码规范转换为指定格式，protobuf使用的是Base 128 Varints的编码方式，

Varints是一种使用可变字节序列化整型的方法。

1 . 每个Byte的最高位(msb)是标志位，如果该位为1，表示该Byte后面还有其它Byte，如果该位为0，表示该

Byte是最后一个Byte

2 . 每个Byte的低7位是用来存数值的位

3 . Varints方法用Litte-Endian(小端）字节序

Protocol Buffer 编码机制

field_number：指的是 proto文件中属性的唯一标示；后面例子中 name = 2， 2 即是field_number。

wire_type：为proto支持的类型。

举个例子：

syntax = "proto3";
message Student {
// 姓名
string name = 2;
// 年龄

int32 age = 3;
// 习惯（集合）
repeated string habits = 4;
}
```
@Test
public void init() throws Exception {
    StudentMsg.Student.Builder builder = StudentMsg.Student.newBuilder();
    builder.setName("jack");
    builder.setAge(12);
    builder.addHabits("sleep");
    builder.addHabits("football");
    builder.addHabits("basketball");
    StudentMsg.Student student = builder.build();
    byte[] packet = student.toByteArray();
    File file = new File("D:/pbOBJ.txt");
    FileOutputStream fileOutputStream = new FileOutputStream(file);
    fileOutputStream.write(packet);
    fileOutputStream.flush();
    fileOutputStream.close();
    System.out.println("----------------------------end");
}
```
结果：

分析：

常见协议（协议小结）

messagePack：“无描述型” 编码方式，按照顺序将字段与数据进行编码描述；
（理论上编码数据后的长度最小）
编码形式：类型(长度) + 数据

Hessian ：“全描述型”编码方式，针对对象、属性及属性值进行编码描述，

重复的值会使用 ref 索引优化。（理论上编码数据后的长度最大）
编码形式：对象描述+属性描述+属性值（类型、长度）+数据

protocolbuffer：“半描述型”编码方式，描述文件独立存在，编码时使用更小空间

将数据与描述文件关联上。（ messagePack < 编码数据后的长度 < hessian ）
编码形式：坐标(属性坐标+类型)+长度+数据

性能分析对比

测试前提：
相同的本地环境，针对相同的数据进行一千万次编码与解码操作。
执行多次，随机取了一次的值如下：

测试数据：StudentInfo对象
属性 Name： jack
属性 Age：12
属性 Habits ：["sleep", "basketball", "football"]

ProtocolBuffer 编码耗时：4 002ms
ProtocolBuffer 解码耗时：3 762ms

Hessian 编码耗时：20 568 ms
Hessian 解码耗时：10 726 ms

MessagePack 编码耗时：11 992 ms
MessagePack 解码耗时：13 442 ms

相关代码详见：https://github.com/dehuiliu/protocol-demo

其它

1，从性能上看，protocolbuffer具有绝对优势；但是需要使用proto文件，增加学习成本

以及后续的维护成本。
2，hessian对类全描述，将对象描述及对象的值都进行编码，可移植行更好，跨平台

跨语言也更好。
3，从传输报文大小上考虑，messagepack是最小的传输，但基于这种编码方式，只能

按照顺序去解码并且性能不如protocolbuffer。
4，从可读性看，以上任何一种编码协议，都不如json的可读性好。

一点小小的思考：

1，流行的编码协议各具特色，但也大同小异，满足一般的业务场景任何一种编码协议

均足以支持。
2，具体业务场景具体分析，选择应用最合适的协议。
3，接触编码协议另一个感触就是：要充分利用计算机空间，充分利用每一字节和每一

位。（例如：应用大内存k-v存储时， key及value的合理设计，会极大节省内存空间）
相关阅读:
第34周二
 JAVA数组的定义及用法
 最小生成树（普利姆算法、克鲁斯卡尔算法）
再谈Hibernate级联删除——JPA下的Hibernate实现一对多级联删除CascadeType.DELETE_ORPHAN
站点系统压力測试Jmeter+Badboy
AfxMessageBox和MessageBox差别
 最长递增子序列
 JAVA Metrics 度量工具使用介绍1
递归函数时间复杂度分析
 HDU 5052 LCT
原文地址：https://www.cnblogs.com/fish-in-sky/p/9819098.html