• Shell在大数据的魅力时代:从一点点思路百度大数据面试题


    供Linux开发中的同学们,Shell这可以说是一个基本功。

    对于同学们的操作和维护。Shell也可以说是一种必要的技能,Shell。对于Release Team,软件配置管理的同学来说。Shell也起到了非常关键的数据。尤其是分布式系统发展的如火如荼,非常多开源项目都开展的如火如荼(好像不是分布式的系统都不好意思拿出来说事)。分布式系统的配置。管理,Shell也起到了非常关键的数据,尽管仅仅是简单的文件拷贝,可是谁让Shell天生是做这些的呢?


    当然了,以上不是本文的主题。本文的主题是Shell在大数据分析领域的作用。

    看一代经典的百度面试题吧:

    对于一个用户日志文件,每行记录了一个用户查询串,长度为1-255字节,共千万行,请排出查询最多的前100条。 日志能够自己构造。

    对于使用C++, Java的同学来说。这个不是说几分钟就能够把可执行的代码搞定的。这个怎么样也得几十行代码吧。

    当然了,这个也能够考察一个同学编程,设计的基本能力。

    可是我相信。假设你能用Shell来完毕,面试官。或者至少是我,会非常惬意,由于Shell天生就是做这个的:

    一行代码搞定:

    awk '{print $1}' $file | sort | uniq -c | sort -k1nr | head -n$100

    不用操心内存的问题。由于这几千万条数据全然能够装在内存中,并且,如今集群中的可用节点,没有几十G的内存都不好意思活着(当然了假设你们生产环境下的机器还是个位数的内存。那么你们。。。)。


    尤其是你上线了自己的某个Feature,可能想非常快的看一下相关的数据,那么把某个时间段的数据拿来分析一下,能够非常好的去评估一下上线Feature的性能,等等。


    版权声明:本文博主原创文章,博客,未经同意不得转载。

  • 相关阅读:
    2019 年值得关注的 23 个开发者博客
    牛津词典 2018 年度词汇 ——「有毒」!
    17 个关于雪花的有趣事实🌨❄️❄️❄️
    Google 里的软件工程学
    作为软件工程师,如何进行知识管理
    x == (x = y) 不等于 (x = y) == x ?
    Docker-compose编排微服务顺序启动
    Ubuntu 20.04 修改字体、调整缩放
    How To Upgrade Ubuntu To 20.10
    写给工程师的 Ubuntu 20.04 最佳配置指南
  • 原文地址:https://www.cnblogs.com/lcchuguo/p/4878735.html
Copyright © 2020-2023  润新知