数据处理框架
基于内存、线程
特点:快速、易用、通用、运行在很多地方
产生背景:
mapreduce的局限性:
1)代码繁琐
2)只能够支持map和reduce方法
3)执行效率低下
4)不适合迭代多次、交互式、流式的处理
框架的多样化:
1)批处理(离线处理):mapreduce、hive、pig
2)流式处理(实时):storm、jstorm
3)交互式计算:impala
===>Spark
1 master n worker
数据处理框架
基于内存、线程
特点:快速、易用、通用、运行在很多地方
产生背景:
mapreduce的局限性:
1)代码繁琐
2)只能够支持map和reduce方法
3)执行效率低下
4)不适合迭代多次、交互式、流式的处理
框架的多样化:
1)批处理(离线处理):mapreduce、hive、pig
2)流式处理(实时):storm、jstorm
3)交互式计算:impala
===>Spark
1 master n worker