• 20200917-3 白名单


    此作业要求参见:https://edu.cnblogs.com/campus/nenu/2020Fall/homework/11207/

    老杨因为留作业太多被学生投诉下岗了,去面试,刚好你是公司的面试官。出了道题,题目要求如下(别忙着答题,现在是背景,作业的要求还在后面)。

    1) 程序名brute,按照下面的要求读入两个文件。

    文件 whitelist,包含1列整数10个,随机生成(要求老杨自己想办法),通过命令行参数指出文件名。

    文件 q,包含1列整数1000个,随机生成(也要求老杨自己想办法),通过控制台读入。

    2) 在文件q中查找所有不在whitelist中的整数,定向输出到一个文件中。

    (读到此处,你见老杨面露困惑,出于多年,不,一年,不,半年的师生情谊,你补充道,“杨老师,您就当这是从交易记录q中查找不符合白名单whitelist的非法交易。”老杨感激地点点头。)

    3) 写一份如何部署运行代码的readme。

    老杨写成如下代码:

    //brute.cpp
    #include <fstream> #include <iostream> #include <cstring> using namespace std; const int w_1m=1000000; int w[w_1m]; bool is_match(int t, int w[], int w_length) { for(int i=0;i<w_length;i++) { if(t!=w[i]) { return true; } } return false; } // brute -w whitelist < T int main(int argc, char *argv[]) { if(argc != 3 || strcmp(argv[1], "-w")) { return 1; } // init w //// for(int i=0;i<w_1m) //// { //// w[i]=-1; //填充非法数据 //// } ifstream infile; infile.open(argv[2]); int i=0; cout << argv[2]<< endl; while(infile>>w[i++]) { } int w_length = i-1; cout << w_length << endl; // check t int t=0; while(cin >> t) { if(is_match(t, w, w_length)) { cout << t << endl; } } }

    由于数据老杨也得自己想办法,所以老杨又写了两段代码生成数据,代码如下:

    //create.cpp
    #include <iostream> #include <stdlib.h> #include <time.h> using namespace std; int main(int argc, char* argv[]) { srand((unsigned)time(NULL)); for(int i=0; i<10;i++) { cout << rand() << " "; } cout << endl; return 0; }

    readme文档如下:

    readme.md

    1. 安装vs;
    2. 配置环境变量;
    3. 编译create.cpp文件;
    4. 执行“create >whitelist”生成文件whitelist;
    5. 将create.cpp中的for循环中的“10”改为1000;
    6. 重新编译create.cpp文件;
    7. 执行“create >q”生成文件q;
    8. 编译brute.cpp文件;
    9. 执行“brute -w q < whitelist > output”

     

     

     

     

     

     

     

     

    老杨有多年的指导学生的经验,所以会使用多种语言编程。既然是面试,就想着多多展示自己,所以老杨又用C#解了这道题,代码如下:

     

    //foo.cs
    using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.IO; namespace foo { class Program { static void Main(string[] args) { DateTime beforDT = System.DateTime.Now; if(args.Count() < 1) return; string path = args[0]; string[] sm = File.ReadAllLines(path); int[] p = new int[sm.Length]; //Console.WriteLine(sm.Length); int[] array = new int[1000000]; for (int i = 0; i < 1000000; i++) { array[i] = Convert.ToInt32(Console.ReadLine()); } for(int i = 1;i < sm.Length; ++i) { int temp = Convert.ToInt32(sm[i]); if(find(temp, array) == -1) Console.WriteLine(temp); } DateTime afterDT = System.DateTime.Now; TimeSpan ts = afterDT.Subtract(beforDT); Console.WriteLine("DateTime: {0}ms.", ts.TotalMilliseconds); } static int find(int key, int[] array) { for(int j = 0; j < 10; j++) { if(key == array[j]) return key; } return -1; } } }

     

    readme文档如下:

    readme.md

    1. 安装vs;
    2. 编译create.cpp文件;
    3. 执行“create >whitelist”生成文件whitelist;
    4. 将create.cpp中的for循环中的“10”改为1000;
    5. 重新编译create.cpp文件;
    6. 执行“create >q”生成文件q;
    7. 编译.cs文件;
    8. 执行“foo q <whitelist >output”。

     

     

     

     

     

     

     

     

    你读了一遍老杨的readme.md文件,看了看老杨生成数据的代码,建议到:“为什么不用命令行参数决定生成的数据量的大小呢?”你说完这句话之后老杨有点儿疑惑,你赶紧补充说:“你把for循环中的10替换成1000有点儿麻烦啊,何不把它定义成一个变量呢?在控制台进行输入。”老杨恍然大悟,马上修改了create.cpp和readme.md。

     

    作业0(5分)

    修改create.cpp文件,改成由命令行参数确定生成的数据的数据量。修改readme.md的对应部分。(要求贴出修改之后的代码和read.md。)

    你看了一下代码,又说道:“老杨,你这结果倒是能对……但是”。你觉得代码的执行效率会比较低。但是你想引导他独立完成修改,你说:“我认为你应该profile一下你的代码,找到代码最慢的地方。”

    profile?还好老杨看过《构建之法》,那本书中提到过效能分析。不过老杨不明白为啥要进行效能分析,但毕竟是在面试也不好把太多疑义说出来。所以只好照做。

    答:

    #include <iostream>
    #include <stdlib.h>
    #include <time.h>
    #include <string.h>
    using namespace std;
    
    int main(int argc, char* argv[])
    {
        srand((unsigned)time(NULL));
        for (int i = 0; i < atoi(argv[1]); i++)
        {
            cout << rand() << "
    ";
        }
        cout << endl;
    
        return 0;
    }

    readme.md

    1. 安装vs;
    2. 配置环境变量;
    3. 编译create.cpp文件;
    4. 执行“create 10 >whitelist”生成文件whitelist;
    5. 执行“create 100 >q”生成文件q;
    6. 编译brute.cpp文件;
    7. 执行“brute -w q < whitelist > output”

    作业1(10分)

    对上面两段老杨写的代码任选其一进行profile,观察现象(要求有截图记录)。

     答:

    如图 有三个占9次,main占5次

    你是一个好人,为了让老杨知道为什么要对代码进行profile,于是你在原来的题目的基础上做出了修改,修改之后的题要求如下:

    1) 读入两个文件,一个用控制台,一个用命令行参数指出文件名。

    文件 biggerwhitelist,包含1列整数1M个,随机生成(要求老杨自己想办法),通过命令行参数指出文件名。

    文件 biggerq,包含1列整数10M个,随机生成(也要求老杨自己想办法),通过控制台读入。

    #include <iostream>
    #include <stdlib.h>
    #include <time.h>
    #include <fstream>
    #include <string.h>
    using namespace std;
    
    int main(int argc, char* argv[])
    {
        int shu;
        cin >> shu;
        ofstream outfile;
        srand((unsigned)time(NULL));
        for (int i = 0; i < atoi(argv[1]); i++)
        {
            cout << rand() << "
    ";
        }
        cout << endl;
        outfile.open("biggerq");
        for (int i = 0; i < shu; i++)
        {
            outfile << rand() << endl;
        }
        outfile.close();
        return 0;
    }

    2) 在文件biggerq中查找所有不在biggerwhitelist中的整数,重定向输出到一个文件中。

    3) 写一份如何部署运行代码的readme。

    readme.md
    1. 编译create.cpp文件;
    2. 执行“create 1000000 >whitelist”enter “10000000”生成文件biggerwhitelist和biggerq;
    3. 在VS里点项目->brute属性->调试->命令行参数填 -w biggerwhitelist < biggerq >output
    4. 点分析->性能探查器;

    老杨看了一下,发现只是数据量变大了,代码不用变。于是换了数据又运行了一遍自己的代码,发现跑了很久(大概10分钟)还没结果。由于是在面试,老杨急坏了。这个时候作为面试官的你知道目的已经达成了,于是告诉老杨:“你看,知道为啥让你profile了吧,你还是再profile一次吧。

    作业2(10分)

    以biggerwhitelist和biggerq作为输入,对作业1中选择的代码再次进行profile,找到代码执行最“慢”的地方,截图为证并文字说明。

     答:

     

     由图可以看出此程序跑了3分49秒,主要图中有5个占213677次,跑的最慢的就是这5个函数。

    老杨再次profile之后发现了代码最慢的地方在哪儿。这时候你说:“既然找到了最慢的地方,那就开始对你的代码进行优化吧。”对于这次引导的结果,你很得意。

    作业3(10分)

    根据作业2找到的最慢的地方,优化作业1中你选择的代码,在保证输出结果正确的前提下,减少老杨程序运行的时间。(优化后的代码需要你提交到git上,作为教师的判断依据。优化后的程序的名字应该是better.cpp或者better.cs。)

     GitHub:https://github.com/zhaoyw456/baimingdan.git

    老杨在优化了代码之后,发现果然代码运行“快”了很多,很是得意。这时候你想“好人”做到底,顺水推舟一把。你说:“对优化后的代码再profile一下吧。”老杨与你意见一致。

    答:

     

     如图所示代码只跑了1分13秒,主要的5个从213677次都降到了66984,明显代码快了很多。

    作业4(5分)

    对作业3优化后的代码进行profile,结果与作业2的结果做对比。画表格并文字说明。

    答:

      优化前 优化后
    主要的最多的5个函数 213677 66984
    is_match() 657 10176

    我用的是折半二分查找方式(递归方法),因此is_match会增加,但下降跟上升之比是1:15

    最后,老杨发现了他原本代码的不足,并且对于你的引导表达了谢意。

    但是,你还是犹豫要不要录用老杨。因为你觉得老杨的文档(readme),注释和代码风格有很大的问题,并且给老杨指了出来。

    答:注释不用连续注两次

    做业5(5分)

    你觉得老杨的文档(readme),注释和代码风格又哪些问题,该如何改进?

    答: 多行注释可以尝试/**/的方式

    面试结束了,你和老杨握手,对他说出了面试的结果。你说的内容,不是今天的作业题,也许是若干年以后你想对当年教你的教师说的,也许是你希望未来的面试官对你说的。你想说的是什么呢?

    答:明天上班,出去把门带上。

     
  • 相关阅读:
    Python之遍历所有行
    Python之找到所有空值所在行
    Python之根据条件筛选特定行
    Python之ArcGIS的字段计算器的运用
    Python之时间格式的快速处理
    Python之多列数据(元组)同时写入DataFrame不同列
    Python之对DataFrame的多列数据运用apply函数操作
    ubuntu12 配置samba服务 实现文件共享 分类: ubuntu 测试 虚拟机 2015-04-25 20:35 38人阅读 评论(0) 收藏
    判断一个对象是否可迭代 的方法 分类: python 2015-03-27 12:20 82人阅读 评论(0) 收藏
    ubuntu中设置tomcat自启动 分类: ubuntu 测试 2015-02-28 17:15 66人阅读 评论(0) 收藏
  • 原文地址:https://www.cnblogs.com/zhaoyw456/p/13720534.html
Copyright © 2020-2023  润新知