hadoop 分布式处理大数据的框架
分为三个阶段:
1)data -db -user/app
2)data - 存储hdfs - 处理mapreduce - user/apps
大数据开源技术分类
3)DATA - 数据传输/采集 - 数据处理 - 数据存储 - 数据查询 - users/apps
数据传输: 按流的形式分:文件流(sqoop Flume) 消息流(报文 kafka/rocketmq)
数据加工:计算模型,批处理(hadoop、spark) 和 流处理(Flink STORM)
数据存储:数据的载体,加工和分析基于存储 分为 文件系统(HDFS)和数据库(MYSQL PIG REDIS)
数据问询:查询数据:SQL(HIVE SparkSQL) NO-SQL(HBASE redis)
sqoop:连接hdfs和关系型数据库传输数据的平台
Flume:日志文件的采集
kafka/rocketmq:消息中间件
HIVE: mapreduce上的封装
HBASE:列式的数据库
redis:基于内存的数据查询,key-value