• MapReduce01


    ================== Hadoop内核 | MapReduce(分布式计算框架) ==================

    源于Google的MapReduce论文 ---------->

    √发表于2004年12月

    √Hadoop MapReduce是Google MapReduce克隆版

    MapReduce特点 ---------->

    √良好的扩展性

    √高容错性

    √适合PB级以上海量数据的离线处理

     

     ===================== WordCount问题 =====================

    场景:有大量文件,里面存储了单词,且一个单词占一行

    任务:如何统计每个单词出现的次数?

    类似应用场景:

    √搜索引擎中,统计最流行的K个搜索词

    √统计搜索词频率,帮助优化搜索词提示

    Case 1:整个文件可以加载到内存中;

    √sort datafile | uniq -c 

    Case 2:文件太大不能加载到内存中,但<word,count>可以存放到内存中;

    Case 3:文件太大无法加载到内存中,且 <word,count>也不行

    将问题范化为:有一批文件(规模为TB级或 者 PB级),如何统计这些文件中所有单词出 现的次数; 

    方案:首先,分别统计每个文件中单词出现 次数,然后累加不同文件中同一个单词出现 次数;

    典型的MapReduce过程。

    Worcount问题—MR解决过程

  • 相关阅读:
    Vue中过度动画效果应用
    最小公倍数和最大公约数求解方法
    Vue实现双向绑定的原理以及响应式数据
    Hive SQL语法总结
    java安装配置
    Ubuntu vmware补丁
    centos6 安装tensorflow
    python hive
    python 连接 hive
    ubuntu下python通过cx_Oracle库访问oracle数据库
  • 原文地址:https://www.cnblogs.com/xtdxs/p/7076581.html
Copyright © 2020-2023  润新知