• 《编程珠玑》阅读小记(1)— 开篇


    1. 前言

    久闻《编程珠玑》一书的大名,一直没有找到合适的机会深入学习阅读,最近终于得以入手,便决心投入细细的研究,提升一下自己的编程思想与技术。阅读之后才发现,这本书确实一本不可多得的好书。它以计算机领域应用与编程算法相结合,让读者面对实际问题时,不单单局限于考虑该问题的解决方案,而是在入手实践之前能够驻足于考虑,该方案是否符合当前的实际环境,它的时间与空间的消耗是否达到了一个比较好的指标。
    通过阅读这本书,很大程度上拓宽了我这样一个菜鸟程序员的视野。对于我来讲,发现要想真正的对书中内容有所理解、领悟,每一个小节我都不得不反复阅读两遍以上,唉,或许是我太笨了,正所谓“书读百遍,其义自见”,笨人有笨办法,就这样慢慢学习吧~

    2. 开篇导读

    本书第一章“开篇”,当我按照往日阅读速度完成第一章节时,却发现几乎不知所云。于是,只好回头重读!

    2.1 问题描述

    本章以一个常见磁盘文件排序开始介绍,这并不仅仅是一个简单的排序问题。我们要考虑的包括时间和空间的消耗。整个问题可以描述如下:
    输入:一个最多包含n个正整数的文件,每个数都小于10^7,没有重复数据。n<=10000000;
    输出:按升序排列的输入整数的列表;
    约束条件:最多有1MB的内存空间可用,有充足的磁盘空间,运行时间最多几分钟,性能到达10秒钟之内无需进一步优化。


    2.2 问题分析

    对以上问题进行分析,引出归并排序与快速排序的对比:
    (1)以一种基于磁盘的归并排序为起点,进行相应的调整,改变为针对当下问题的1000万条整数记录排序,代码量可由约200h缩减为几十行,但是归并排序的性能却不尽如人意,时间复杂度为T(n)=O(nlogn),完全执行该程序仍然需要几天时间。
    也就是说,合并排序从输入中一次性读取文件,多次调用工作文件,之后对输出文件一次性写入完成整个过程。
    归并排序执行图
    (2)另一种解决方案,则考虑在1MB的内存空间中,多趟快排来实现。使用32位存储每个整数,那么1MB的内存可存储1MB/4B = 250000个整数,这样对于10000000个整数需要40趟排序来完成,此时改程序不需要借用磁盘空间,于是整个流程可如下图所示:
    快速排序执行图
    然而该程序具有的代价则是读取输入文件40次!
    (3)那么,除了以上两种解决方式,还有没更好的举措呢?既不需要利用磁盘空间又不需要多读取输入文件。这就引入了一种位图解决方案,我们输入数据是1000万个7位十进制整数,我们可以使用一个1000万个位的字符串来表示这个文件,其中当且仅当整数i在文件中存在时,该位为1。感觉有点不对哈?确实,1MB只有800万个位,存储空间不足呀,我们需要1.25MB的存储空间呢。对于这个问题,一种方式是寻找出200万的稀疏位,或者采取两趟排序,就可以得以解决了,纵观性能,还是符合当下条件的。位图解决方案的流程如下图所示:
    位图排序执行图
    整个程序分三个步骤完成:

    • 初始化所有位为0
    • 读入文件,遍历记录,对应位设置为1
    • 检验每一位,存在则打印,输出序列即为升序序列

    程序执行伪代码如下:

    /*phase 1: initialize set to empty*/
    for i = [0 , n)
        bit[i] = 0
    /*phase 2: insert present elements into the set*/
    for each i in the input file
        bit[i] = 1
    /*phase 3: write sorted output*/
    for i = [0 , n)
        if bit[i] == 1
            write i on the output file

    3. 动手之前驻足思考

    从以上案例,我们可以看出一个道理“磨刀不误砍柴工”,对面临的实际问题仔细斟酌分析,精巧的编程可以得到更加稳固,性能更好的代码。
    所以,在任何一个程序员面临实际问题的解决时,一定要注意:

    • 明确正确的问题
    • 牢记位图数据结构,该数据结构不仅可以应用在排序问题,它在其它应用也经常可作为高效率解决方案
    • 内存不足时,可以考虑多趟算法
    • 时间-空间的折中与双赢
    • 简单的设计,简单程序相比繁杂程序通常更加安全、可靠,更健壮、高效且易于维护

    4. 习题分析解答

    问题1. 本题要求利用具有库的语言实现排序,在我熟悉的语言即是C和C++了,C语言库“stdlib.h”中有qsort函数,而C++中标准容器库set本身就是一个无重复数据且升序排列元素的容器,具体实现如下:

    
    /*
    *   《编程珠玑》习题1.6
    *   习题1:如果不缺内存,使用一个具有库的语言实现一种排序算法以表示和排序集合
    *   在C语言中,使用qsort函数
    *   函数定义于“stdlib.h”库中,定义为:void qsort(void *base,size_t nelem,size_t width,int (*Comp)(const void *,const void *));
    */
    
    #include <iostream>
    #include <cstdlib>
    #include <set>
    
    using namespace std;
    
    //定义比较函数,确定排序模式
    int comp(const void *x, const void *y)
    {
        return *(int *)x - *(int *)y;
    }
    
    int arr[10000];
    int main()
    {
        int n = 0, i;
        while (cin >> arr[n])
        {
            n++;
        }
    
        qsort(arr, n, sizeof(int), comp);
    
        for (i = 0; i < n; i++)
        {
            cout << arr[i] << "	";
        }
        cout << endl;
        system("pause");
        return 0;
    }
    /*
    *   《编程珠玑》习题1.6
    *   习题1:如果不缺内存,使用一个具有库的语言实现一种排序算法以表示和排序集合
    *   在C++语言中,使用标准程序库容器set 自动存储不重复升序数据
    */
    
    int main()
    {
        set<int> s;
        int temp;
        while (cin >> temp)
            s.insert(temp);
    
        set<int>::iterator siter;
    
        for (siter = s.begin(); siter != s.end(); siter++)
            cout << *siter << "	";
    
        cout << endl;
        system("pause");
    
        return 0;
    }

    问题2/3/4. 此三个问题相结合,实现位图排序解决方案,位向量采用位逻辑运算实现:

    /*
    *   《编程珠玑》习题1.6
    *   习题2 3 4 关联性习题
    *
    */
    
    #include <iostream>
    #include <cstdlib>
    
    using namespace std;
    
    //2. 位逻辑运算实现位向量
    #define BITSPERWORD 32
    #define SHIFT 5
    #define MASK 0x1F
    #define N 10000000
    int a[1 + N / BITSPERWORD];
    
    void _set(int i)
    {
        a[i >> SHIFT] |= (1 << (i & MASK));
    }
    
    void clr(int i)
    {
        a[i >> SHIFT] &= ~(1 << (i & MASK));
    }
    
    int test(int i)
    {
        return a[i >> SHIFT] & (1 << (i & MASK));
    }
    
    //4. 得到[0 ,n)内k个非重复随机数
    /*等学习到12章节,补充此处*/
    
    //3. 主程序
    
    int main(void)
    {
        int i;
        for (i = 0; i < N; i++)
            clr(i);
        //随机数现采取用户输入方式,待12章学习完毕,补充随机数生成算法
        while (cin >> i)
        {
            _set(i);
        }
    
        for (i = 0; i < N; i++)
        if (test(i))
            cout << i << "	";
    
        system("pause");
        return 0;
    }
    

    问题5. 采取两趟排序。

    问题6. 我们之前的案例是无重复数据出现,当数据重复时,我们依然可以采用位图解决方案,只不过不能采用1bit来记录出现次数了,当2bit时可记录< 4次 , 3bit 可记录<8次,那么当最多不出现10次时,就可以采用4bit来记录每一个数据的出现次数,此时需要增大内存使用量,若内存空间有限制,只能针对数据量采用多趟位图解决问题。

    习题7-12. 每人有不同的见解,我也只是参考了下答案,才有所思考,此处就不重复答案书上的解法。

  • 相关阅读:
    结构化分析工具之判定树
    结构化分析工具之判定表
    结构化分析工具之结构化语言
    结构化分析工具之数据字典
    结构化分析工具之数据流图
    结构化分析方法
    软件生存周期模型之V模型
    软件生存周期模型之喷泉模型
    软件生存周期模型之螺旋模型
    软件生存周期模型之原型模型
  • 原文地址:https://www.cnblogs.com/shine-yr/p/5214953.html
Copyright © 2020-2023  润新知