1.Spark
Spark是继Hadoop之后,另外一种开源的高效大数据处理引擎,目前已提交为apach顶级项目。
效率:
据官方网站介绍,Spark是Hadoop运行效率的10-100倍(随内存计算、磁盘计算的不同而不同)。
语言:
支持的语言包括java、scala、python等,此外还支持SQL查询。
模块:
Spark的模块分为 Spark SQL、 MLlib、 GraphX、 Spark Streaming四个模块,在同一个应用中可以无缝的使用以上四个模块。
运行环境:
Hadoop,Mesos,单机, 云环境
数据源:
支持HDFS、HBase、MongoDB、Cassandra以及其他Hadoop可以读取的数据源。
2.MLlib:
基于Spark的机器学习库。
针对迭代次数较多的算法和模型,比较适合在spark的MLlib中执行。
算法包括:K-means、奇异值分解、SVM、贝叶斯等
待续...
日期:2014-11-13