1 hadoop生态系统
hdfs 分布式文件系统 hadoop-hdfs-2.7.2.jar
mapreduce 分布式计算框架 hadoop-mapreduce-client-app-2.7.2.jar
Ambari 安装部署配置和管理工具
zookeeper分布式协作服务zookeeper-3.5.1.jar
hbase实时分布式数据库hbase-server-1.0.2.jar
hive数据仓库hive-service-1.2.1.spark.jar
pig数据流处理
mahout数据挖掘库
flume日志收集工具flume-ng-sdk-1.6.0.jar
sqoop数据库etl工具
2 mapreduce 思想分而治之,需要分别实现2个方法:map(),reduce()
Mapper 分解若干任务处理Job
Reducer 将map任务的输出处理后写成文件到hdfs