Spark机器学习 Day1 机器学习概述

Spark机器学习 Day1

机器学习概述

今天主要讨论个问题：Spark机器学习的本质是什么，其内部构成到底是什么。
简单来说，机器学习是数据+算法。

数据

在Spark中做机器学习，肯定有数据来源，在Spark的最底层肯定是RDD封装，这个和Spark具体是什么版本没有任何关系，版本发展只不过是提供了更多高层的API而已，例如DataFrame、Dataset等，而之所以有DataFrame、Dataset，一般情况下是为了使用统一的优化引擎(抽象程度越高，优化算法和空间越大)。

RDD有一个弱点，是每一行列的数据不是可知的，使用Catalyst可以看到列的数据，有更大的优化空间。在2.0中，DataFrame作为了mlib的主要API，基于RDD的API有可能在3.0被移除掉。

算法

Spark的机器学习就是Spark平台之上的函数库。函数肯定有一套内部的逻辑。

机器学习从算法角度而言，最原始的其实都是基于Vector和Matrix来进行计算的，也就是说RDD/DataFrame/Dataset等里面的数据从机器学习角度讲都是Vector和Matrix，而借助于RDD/DataFrame/Dataset天然分布式并行计算完成了机器学习的并行化和可扩展性等。

其实这和图计算的思路非常相似，图计算中数据也是存储在RDD中的，但是Spark的图计算提供了Vertices、Edges、Routing Table等对象来解析RDD中的数据，从而变成图计算可用的数据。

小结

整个过程可以用下面这个图来表示。

Snip20160728_8

欲知后事如何，且听下回分解!

DT大数据每天晚上20：00YY频道现场授课频道68917580

相关阅读:
Python基础 2----Python 基础语法
安卓开发35：一些安卓设计经验总结
HDU 4707 Pet（DFS(深度优先搜索)+BFS（广度优先搜索））
对象数组
Mac与Window之间的共享文件
实用数据结构总结之二叉树遍历
csdn的登录框好难看
图像切割性能评价
基于Solr的HBase实时查询方案
图片的缩放源码与使用

原文地址：https://www.cnblogs.com/dt-zhw/p/5715927.html