第六章主要讲的是关于压缩数据的,首先文件存储的基本单位是1字节,LZH是用LHA等工具压缩过的文件的扩展名,改文件格式有时也称为LZH,ZIP是用PKZIP等工具压缩过的文件的扩展名,该文件格式有时也称为ZIP格式。
文件是将数据存储在磁盘等存储媒介中的一种形式,压缩方式有RLE算法的机制,把文件内容用“数据×重复次数”的形式来表示的压缩方法称为RLE(Run Length Encoding,行程长度编码)算法,但是RLE算法有缺点,不适合文本文件中的压缩,例如,“This is a pen”原本是十四个字节,经过RLE算法之后变成了28个字节。
通过莫尔斯编码来看哈夫曼算法的基础,可以用二叉树实现哈夫曼编码,哈夫曼编码是指,为各压缩对象文件分别构造最佳的编码体系,并以该编码体系为基础进行压缩,哈夫曼算法能够大幅度提升压缩比率。
可逆压缩和非可逆压缩,对于图像文件来说,即使有事无法还原到压缩前的那样鲜明的图像状态,但肉眼看不出什么区别,有一些模糊也可以勉强接受,把能还原到压缩前状态的压缩称为可逆压缩,无法还原到压缩前状态的压缩称为不可逆压缩。