• 大数据基础部件配比问题


            现在的计算机里,CPU和硬盘(机械硬盘)的差距越来越大。CPU的性能每年都在提升,而硬盘的IO性能基本是以蜗牛的速度在前进。这种情况放在大数据计算环境里,在一个计算过程中,导致CPU大部分时间被空耗了。
           以Laxcus的随机排序为例,10G的数据量,10台计算机,每台分配1G数据,结果是:80%的时间发生在硬盘IO阶段,8%的时间进行网络传输,8%时间产生随机数据和执行排序。

           改善上述问题的办法是部署更多的计算机。相同数据量的情况下,每台计算机可以分配更少的数据,从而减少硬盘IO时间,来提高总体的计算效率。同样是上面这个例子,在10G数据量不变的情况下,计算机数量改为20台,每台分配500M的数据,计算时间就缩短了一半。


    附操作图示,分别是10G和20G的分布计算排序

     

     


  • 相关阅读:
    Linux常用命令大全详解
    C++语言关键字及注解
    求两数的最大公约数
    ICOP完成端口详解
    C/C++常见面试题
    猴子吃桃问题之《C语言经典案例分析》
    DTD
    DTD
    DTD的使用
    Rust
  • 原文地址:https://www.cnblogs.com/laxcus/p/5303521.html
Copyright © 2020-2023  润新知