• 数据压缩第一次作业


    1-1:数据压缩的一个基本问题是“我们要压缩什么”,对此你是怎样理解的?

    答:数据压缩,就是指不丢失有用信息的前提下,以最少的数码表示信号源所发的信号,减少容纳给定消息集合或数据采样集合的信号空间。

              所谓的信号空间就是我们压缩的对象,即 

    1) 物理空间,如存储器和U盘等数据存储介质。

    2) 时间空间,如传输给定消息集合所需的时间。

    3)频带空间,如传输给定消息所要求的宽带等。

    1-2:数据压缩的另一个基本问题是“为什么进行压缩”,对此你又是如何理解的?

    答:减少信息存储空间,提高其传输、存储和处理效率。经过数据压缩可以将一些占用内存比较大多媒体数据,压缩成可以缩小的文件内存,这样可以方便传递。

    1-6:数据压缩技术是如何进行分类的?
    答:(1)按照压缩方法是否产生失真分类 —— 根据解码后数据与原始数据是否完全一致进行分类,压缩方法可被分为有失真编码和无失真编码两大类。

    (2)按照压缩方法的原理分类 —— 根据编码原理进行分类,大致有编码、变换编码、统计编码、分析-合成编码、混合编码和其他一些编码方法。


    1.4 1、用你的计算机上的压缩工具来压缩不同文件。研究原文件的大小和类型对于压缩文件与原文件大小之比的影响。

    压缩了一下发现小的图片压缩后变化基本没有,文字文件变化不大,但是影音文件变化很大。




    1.4.2 从一本通俗杂志中摘录几段文字,并删除所有不会影响理解的文字,实现压缩。例如,在“This is the dog that belongs 
    to my friend”中,删除is、the、that和to之后,仍然能传递相同的意思。用被删除的单词数与原文本的总单词数之比来衡量文本 
    中的冗余度。用一本技术期刊中的文字来重复这一试验。对于摘自不同来源的文字,我们能否就其冗余度做出定量论述?

    冗余度它表征源信息率的多于程度,是描述信源客观统计特性的一个物理量。也可以说是从多余的一个量,它不影响数据的完整,也正是因为这一个多余量的存在,才能对其信源进行压缩,压缩后不会影响传递信息。信源=信息+冗余度。

    三、参考书《数据压缩导论(第4版)》Page 30

    3、给定符号集A={a1,a2,a3,a4},求一下条件下的一阶熵:

    (a)P(a1)=P(a2)=P(a3)=P(a4)=1/4

              h=-1/4*4*log21/4

               =2(bit)

    (b)P(a1)=1/2 , P(a2)=1/4 , P(a3)=P(a4)=1/8 

             h= -1/2log21/2-1/4*log21/4-2*1/8*log21/8

               =1.75(bit)

    (c)P(a1)=0.505 ,  P(a2)=1/4 , P(a3)=1/4 , P(a4)=0.12 

            h=-0.505*log20.505-1/4*log21/4-1/4*log21/4-0.12*log20.12          

              =1.8672(bit)

                

     5、考虑以下序列:

                    ATGCTTAACGTGCTTAACCTGAAGCTTCCGCTGAAGAACCTG

                    CTGAACCCGCTTAAGCTTAAGCTGAACCTTCTGAACCTGCTT

    (a)根据此序列估计各概率值,并计算这一序列的一阶、二阶、三阶和四阶熵。

    (b)根据这些熵,能否推断此序列具有什么样的结构?

    答(a):
    1:
    A出现的次数是:21; T出现的次数是:23 ;G出现的次数是:16 ;C出现的次数是:24;
     P(A)=1/4 ;
    P(T)=23/84;
     P(G)=4/21;
     P(C)=2/7;
    一阶熵为:
    -1/4*log2(1/4)-23/84*log2(23/84)-4/21*log2(4/21)-2/7*log2(2/7)
    =1.983(bit)
     2:按顺序把每两个字母进行组队得到:
    AT,GC,TT,AA,CG,TG,CT,TA,AC,CT,GA,AG,CT,TC,CG,CT,GA,AG,AA,CC,TG
    CT,GA,AC,CC,GC,TT,AA,GC,TT,AA,GC,TG,AA,CC,TT,CT,GA,AC,CT,GC,TT
    出现的组合分别是:AT,GC,TT,AA,CG,TG,TA,AC,AG,TC,CC,CT十二种组合,
    AT出现的次数是:1 ;GC出现的次数是:5 ;TT出现的次数是:5; AA出现的次数是:5 ;CG出现的次数是:2; TG出现的次数是:3;TA出现的次数是:1 ;AC出现的次数是:4 ;AG出现的次数是:2; TC出现的次数是:1 ;CC出现的次数是:3 ;CT出现的次数是:7;
    P(AT)=1/42,P(GC)=5/42,P(TT)=5/42,P(AA)=5/42,P(CG)=1/21,P(TG)=1/14,P(CT)=7/42,P(TA)=1/42,P(AC)=1/14,P(GA)=2/21,P(AG)=1/21,P(TC)=1/42,P(CC)=1/14
     二阶熵为:
    -1/42*log2(1/42)*4-5/42*log2(5/42)*3-1/21*log2(1/21)*2-1/14*log2(1/14)*3-2/21*log2(2/21)-7/42*log2(7/42)
    =3.530(bit)
    3:按顺序把每三个字母进行组队得到:

    ATG,CTT,AAC,GTG,CTT,AAC,CTG,AAG,CTT,CCG,CTG,AAG,AAC,CTG
    CTG,AAC,CCG,CTT,AAG,CTT,AAG,CTG,AAC,CTT,CTG,AAC,CTG,CTT
     得到的组合分别是:ATG,CTT,AAC,GTG,CTG,AAG,AAG
    ATG出现的次数是:1 ;CTT出现的次数是:7 ;AAC出现的次数是:6 ;GTG出现的次数是:1;
     CTG出现的次数是:7 ;AAG出现的次数是:4 ;AAG出现的次数是:2;
    P(ATG)=1/28,P(CTT)=7/28,P(AAC)=3/14,P(GTG)=1/28,P(CTG)=1/4,P(AAG)=1/7,P(CCG)=1/14
     三阶熵为:
    -1/28*log2(1/28)*2-1/4*log2(1/4)*2-3/14*log2(3/14) -1/7*log2(1/7) -1/14*log2(1/14)
    =2.491(bit)
    4:按顺序把每四个字母进行组队得到:
    ATGC,TTAA,CGTG,CTTA,ACCT,GAAG,CTTC,CGCT,GAAG,AACC,TGCT
    GAAC,CCGC,TTAA,GCTT,AAGC,TGAA,CCTT,CTGA,ACCT,GCTT
    得到的组合分别是:ATGC,TTAA,CGTG,CTTA,ACCT,GAAG,CTTC,CGCT,AACC,TGCT;
     
    ATGC出现的次数是:1 TTAA出现的次数是:2; CGTG出现的次数是:1; CTTA出现的次数是:1; ACCT出现的次数是:2; GAAG出现的次数是:2 ;CTTC出现的次数是:1 ;
    CGCT出现的次数是:1 ;AACC出现的次数是:1; TGCT出现的次数是:1;
    GAAC出现的次数是:1 ;GCTT出现的次数是:2 ;  AAGC出现的次数是:1;
    TGAA出现的次数是:1‘ CCTT出现的次数是:1; CTGA出现的次数是:1 ;
    P(ATGC)=1/21,P(TTAA)=2/21,P(CGTG)=1/21,P(CTTA)=1/21,P(ACCT)=2/21,P(GAAG)=2/21,P(CTTC)=1/21,P(CGCT)=1/21,P(AACC)=1/21,P(TGCT)=1/21,P(GAAC)=1/21,P(CCGC)=1/21,P(GCTT)=2/21,P(AAGC)=1/21,P(TGAA)=1/21,P(CCTT)=1/21,P(CTGA)=1/21.
     四阶熵为:
    -1/21*log2(1/21)*13-2/21*log2(2/21)*4
    =4.01(bit)
    得到的规律:当构成的字母个数越多所得的熵就越大。

    7、做一个实验,看看一个模型能够多么准确地描述一个信源。

     (a)编写一段程序,从包括26个字母的符号集{a,b,...,z}中随机选择字母,组成100个四字母单词,这些单词中有多少是有意义的?

     
  • 相关阅读:
    JS基础三
    淘宝 NPM 镜像使用
    zepto的tap事件的点透问题的几种解决方案
    Web 通信 之 长连接、长轮询(long polling)(转载)
    命令模式坚决svn树冲突(local unversioned, incoming add upon update)
    svn st 状态详解
    Atom与markdown
    chrome调试创建sq设备进行调试
    webpack 使用教程--实时刷新测试
    前端资源
  • 原文地址:https://www.cnblogs.com/xzqly/p/4765883.html
Copyright © 2020-2023  润新知