初识Spark（Spark系列） - 润新知

初识Spark（Spark系列）

1.Spark

Spark是继Hadoop之后，另外一种开源的高效大数据处理引擎，目前已提交为apach顶级项目。

效率：

据官方网站介绍，Spark是Hadoop运行效率的10-100倍（随内存计算、磁盘计算的不同而不同）。

语言：

支持的语言包括java、scala、python等，此外还支持SQL查询。

模块：

Spark的模块分为 Spark SQL、 MLlib、 GraphX、 Spark Streaming四个模块，在同一个应用中可以无缝的使用以上四个模块。

运行环境：

Hadoop，Mesos，单机，云环境

数据源：

支持HDFS、HBase、MongoDB、Cassandra以及其他Hadoop可以读取的数据源。

2.MLlib：

基于Spark的机器学习库。

针对迭代次数较多的算法和模型，比较适合在spark的MLlib中执行。

算法包括：K-means、奇异值分解、SVM、贝叶斯等

待续...

日期：2014-11-13
相关阅读:
PHP curl_share_init函数
 使用脚本管理mongodb服务
 多项式全家桶
 Resharper 如何把类里的类移动到其他文件
 Resharper 如何把类里的类移动到其他文件
 win10 17025 触摸bug
win10 17025 触摸bug
VisualStudio 自定义外部命令
 VisualStudio 自定义外部命令
 C＃ Find vs FirstOrDefault
原文地址：https://www.cnblogs.com/Deron/p/4095758.html

Copyright © 2020-2023 润新知