第二次作业

参考书《数据压缩导论（第4版）》Page 66

2 利用程序huff_enc和huff_dec进行以下操作（在每种情况下，利用由被压缩图像生成的码本）。

（a）对Sena、Sensin和Omaha图像时行编码。

（b）编写一段程序，得到相邻之差，然后利用huffman对差值图像进行编码。

（c）使用adap_huff重复（a）和（b）。

文件名	源文件大小	压缩后文件大小	压缩之比
SENA	64.0KB	56.1KB	88%
SINAN	64.0KB	60.2KB	94%
OMAHA	64.0KB	57.0KB	89%

4 一个信源从符号集A={a₁, a₂, a₃, a₄, a₅}中选择字母，概率为P（a₁）=0.15，P（a₂）=0.04，P（a₃）=0.26，P（a₄）=0.05，P（a₅）=0.50。

（a）计算这个信源的熵。

（b）求这个信源的霍夫曼码。

（c）求（b）中代码的平均长度及其冗余度。

(a)H=-ЕP(a_i)logP(A_i)

=-( P(a₁)log₂P(a₁)+P(a₂)log₂P(a₂)+P(a₃)log₂P(a₃)+P(a₄)log₂P(a₄)+P(a5)log₂P(a5) )

= -0.15log₂ (0.15)-0.04log₂ (0.04)-0.26log₂ (0.26)-0.05log₂ (0.05)-0.50log₂ (0.50)

=0.41+0.19+0.51+0.22++0.50

=1.82(bits)

(b)

符号	编码
a1	000
a2	0011
a3	01
a4	0010
a5	1

(c)l=0.15*3+0.04*4+0.26*2+0.05*4+0.5*1=1.83

l-H=0.01;

5 一个符号集A={a₁, a₂, a₃, a₄,}，其概率为P（a₁）=0.1，P（a₂）=0.3，P（a₃）=0.25，P（a₄）=0.35，使用以下过程找出一种霍夫曼码：

（a）本章概述的第一种过程：

（b）最小方差过程。

解释这两种霍夫曼码的区别。

(a)

1计算所有符号的概率；对所有符号按其概率排序；

2在最小的的码字前加‘0’，在第二小的码字前加‘1’；

3将这两个集合的概率相加与剩下的符号概率再次进行排序，重复第2步骤，直到每个码被标记；

故：

符号	编码
a1	000
a2	01
a3	001
a4	1

平均码长l=0.1*3+0.3*2+0.25*3+0.35*1=2;

(b) 同(a)，选择方差小的进行编码，所以编码为

符号	编码
a1	00
a2	10
a3	01
a4	11

平均码长l=0.1*2+0.3*2+0.25*2+0.35*2=2

对于第一种方法来说

S²=0.1(3-2)²+0.3(2-2)²+0.25(3-2)²+0.35(1-2)²

=0.70

对于第二种方法来说

S²=0.1(2-2)²+0.3(2-2)²+0.25(2-2)²+0.35(2-2)²

=0

因此、最小方差树是第二种！

参考书《数据压缩导论（第4版）》Page 30

6在本书配套的数据中有几个图像和语音文件。

(a) 编写一段程序，计算其中一些图像和语音文件的一阶熵。

(b) 选择一个图像文件，计算其二阶熵。试解释一阶熵与二阶熵的差别。

(c) 对于(b)中所有的图像文件，计算其相邻像素之差的熵，试解释你的发现。

调试程序得出的结果如下表所示：

文件名	一阶熵	二阶熵	差分熵
BERK	7.151537	6.705169	8.976150
EARTH	4.770801	2.568358	3.962697
GABE	7.116338	6.654578	8.978236
OMAHA	6.942426	4.488626	6.286834
SENA	6.834299	3.625204	3.856899
SENSIN	7.317944	4.301673	4.541547

我得出的结论是：

图片的一阶熵和二阶熵可以得出，二阶熵都比一阶熵要小

图片的差分熵位于一阶熵和二阶熵之间。而RAW格式的文件的差分熵似乎都比一阶熵，二阶熵要大。

原文地址：https://www.cnblogs.com/iyuyong/p/4784722.html