MapReduce01

================== Hadoop内核 | MapReduce(分布式计算框架) ==================

源于Google的MapReduce论文 ---------->

√发表于2004年12月

√Hadoop MapReduce是Google MapReduce克隆版

MapReduce特点 ---------->

√良好的扩展性

√高容错性

√适合PB级以上海量数据的离线处理

===================== WordCount问题 =====================

场景：有大量文件，里面存储了单词，且一个单词占一行

任务：如何统计每个单词出现的次数？

类似应用场景：

√搜索引擎中，统计最流行的K个搜索词

√统计搜索词频率，帮助优化搜索词提示

Case 1：整个文件可以加载到内存中；

√sort datafile | uniq -c

Case 2：文件太大不能加载到内存中，但<word,count>可以存放到内存中；

Case 3：文件太大无法加载到内存中，且 <word,count>也不行

将问题范化为：有一批文件（规模为TB级或者 PB级），如何统计这些文件中所有单词出现的次数；

方案：首先，分别统计每个文件中单词出现次数，然后累加不同文件中同一个单词出现次数；

典型的MapReduce过程。

Worcount问题—MR解决过程

相关阅读:
vue滑块拖拽校验
vue和原生自动聚焦
vue实现bar左右拖拽
fastclick插件使用
三大家族易忘点和案例
移动端调试工具chrome+devtools
restful 与 webapi 详解
.NET Core 中依赖注入框架详解 Autofac
.NET Core 对象( Transient、Scope、Singleton )生命周期详解 (对象创建以及释放)
C# 通过DataSet 获取SQL 存储过程返回的多个结果集（tables）

原文地址：https://www.cnblogs.com/xtdxs/p/7076581.html