1-1
答:数据压缩就是以最少的数码表示信源所发的信号,减少容纳给定消息集合或数据采样集合的信号空间;这里的信号空间就是压缩对象,也就是我们要压缩的对象。包括:
1.物理空间:如储存器,硬盘,磁盘,光盘,U盘等数据储存介质。
2.时间区间:如传送给定消息集合所需要的时间。
3.电磁频段:如位传输给定消息集合所需的频谱,带宽等。
1-2
答:数字技术有很多优越性,但同时也使数量大增,数据比较繁杂,甚至还有数据冗余。所以,为了使数据更加精纯,缩减数据量以减少存储空间,提高其传输、存储和处理效率,消除冗余,我们要对数据进行压缩。这样能提高我们的工作效率,更增加了数据的实用性。
1-6
答:数据压缩分为可逆压缩和不可逆压缩。
可逆压缩也叫做无失真、无差错编码或无噪声编码,也叫做冗余压缩、熵编码、数据紧缩、信息保持编码等等。
不可逆压缩也就是有失真编码信息论中称为熵压缩。
参考书《数据压缩导论(第四版)》
1.
用你的计算机上的压缩工具来压缩不同文件。研究原文件的大小和类型对于压缩文件与原文件大小之比的影响
答:压缩比则根据文件类型的不同有所不同,文档类的文件压缩比很大(一个字或者一个词在同一个文件会反复出现),而影音文件的压缩相对较小(因为每个声音,像素,色素等不会相同,不会反复出现)
2.
从一本通俗杂志中摘录几段文字,并删除所有不会影响理解的文字,实现压缩。例如,在“This is the dog that belongs to my friend”中,删除is、the、that和to之后,仍然能传递相同的意思。用被删除的单词数与原文本的总单词数之比来衡量文本中的冗余度。用一本技术期刊中的文字来重复这一试验。对于摘自不同来源的文字,我们能否就其冗余度做出定量论述?
答:对于摘自不同来源的文字,我们不能否就其冗余度做出定量论述;重复这一试验,不同文本中的信息是不同的,冗余度是不一样的。
参考书《数据压缩导论(第4版)》Page 30
3.
给定符号集A={a1,a2,a3,a4},求一下条件下的一阶熵:
(a)P(a1)=P(a2)=P(a3)=P(a4)=1/4
(b)P(a1)=1/2 , P(a2)=1/4 , P(a3)=P(a4)=1/8
(c)P(a1)=0.505 , P(a2)=1/4 , P(a3)=1/8 , P(a4)=0.12
答: (a)-1/4*log2 (1/4)-1/4*log2 (1/4)-1/4*log2 (1/4)-1/4*log2 (1/4)=4*1/2= 2
(b)-1/2*log2(1/2)-1/4*log2(1/4)-1/8*log2(1/8)-1/8*log2(1/8)= 1/2+1/2+3/8+3/8=1.75(bits)
(c) -0.505*log20.505-1/4*log2(1/4)-1/8*log2(1/8)-0.12*log20.12=1.74
5.
考虑以下序列:
ATGCTTAACGTGCTTAACCTGAAGCTTCCGCTGAAGAACCTG
CTGAACCCGCTTAAGCTGAACCTTCTGAAGCTTAACCTGVTT
(a)根据此序列估计各概率值,并计算这一序列的一阶熵。
解答:该序列共有84个字母,则
P(A)=21/84 P(C)=23/84
P(G)=16/84 P(T)=23/84 P(V)=1/84
H=21/84 * log24 +23/84*log284/23*2+16/84*log284/16+1/84*log284/1 =0.5+1.024+0.455+0.076=2.055
7.
做一个实验,看看一个模型能够多么准确地描述一个信源。
(a)编写一段程序,从包括26个字母的符号集{a,b,...,z}中随机选择字母,组成100个四字母单词,这些单词中有多少是有意义的?