来自马铁大神的Spark10年回忆录

来自马铁大神的Spark10年回忆录
本篇分享来自Martei在Spark AI Submit 2020的开场分享。

马铁是谁

什么！你不知道马铁是谁？Martei Zaharia（说实话，不知道谁给起的中文名字叫马铁，跟着叫就是了），现任Databricks的CTO，也许Databricks你也不是很熟，Spark总是听过的吧？可以说Spark就出自Martei之手，项目开源后组了个公司专门基于Spark提供企业服务。

先来看看Martei大神在LinkedIn的简历，你就知道他的背景有多牛了：
- 2003-2007，就读于滑铁卢大学（加拿大前三的大学）
- 2007-2012，就读于加州伯克利读博，其中07年在google实习3个月，08年在facebook实习一年.
- 2015-2016，在MIT麻省理工任副教授。
- 2016-至今，在斯坦福任副教授。
- 从09年开始加入Apache，成为hadoop的commiter，14年开始成为apache spark的VP，13年开始担任Databricks的CTO。
可以说想要学习现在最先进的分布式知识，follow下马铁的twitter就行了。

Spark的过去10年

回头再来说说本次的分享，显示回忆了Spark的发展历程，然后介绍了当前Spark 3.0的主要特性，介绍Spark相关的生态组件。中间有美女介绍了koalas的使用以及3.0相关的特性展示。最后Martei推荐了《Learning Spark》第二版这本书。最后展望Spark的未来表示会持续优化 Spark 在探索数据分析和生产应用上的易用性，丰富Spark生态体系。
- 2007年Martei攻读博士，主要的研究方向是p2p系统。
- 2008年在雅虎和facebook开始接触数据中心，涉及到分布式与大数据计算。可惜当时的分布式计算主要是依赖于MapReduce，编写困难，缺乏交互式的查询，也不支持机器学习。
- 2009回到伯克利开始研究分布式机器学习框架，开始了Spark相关的工作。
- 2010年开源了第一版的Spark。
- 2010-2011年针对社区的需求，开始了交互式查询、Streaming流处理、R和SQL API的支持等工作。
- 2012-2015年，丰富了Spark的生态，支持更多的API，比如Python、R、SQL；支持更多的组件库，如机器学习、图计算、流计算；支持更高级的API，比如DataFrame、Spark SQL等。
至今为止，有68%的用户在notebook中使用Python操作Spark；超过90%的API通过Spark SQL来执行。

总结过去的Spark开源10年历程，得到最大的经验就是：
- 1 产品的易用性，无论是数据探索还是生产应用
- 2 API的最佳实践，比如组件、测试、模块化。
Spark 3.0

最近Spark发布了3.0版本，超过3400多次升级特性，46%与SQL相关：

最主要的特性有：
- 1 AQE，自适应查询计划。比如动态调整分区数、动态调整join算法、自动处理数据倾斜问题
- 2 动态分区裁剪
- 3 编译器速度优化
- 4 优化器代码提示
- 5 ANSI SQL的支持
- 6 Python API的优化
- 7 R API的优化
- 8 新的流处理UI、更易用的流指标统计、SQL使用文档、Data Source V2 API、GPU加速等。
相关的特性再上一篇也有介绍过，详情前一篇文章：Spark 3.0 新特性

Spark的生态

比如：
- 1 基于pandas API调用Spark的Koalas
- 2 支持批流一体化的Delta Lake
- 3 Sklearn、Hyperort、Joblib等基于Spark的分布式扩展方案
- 4 用于大规模基因分析的GLOW
- 5 用于GPU加速的python库rapids
- 6 用于可视化的tableau, qlik, looker, redash等
参考
- Martei的LinkedIn：https://www.linkedin.com/in/mateizaharia/
最后关注公众号，可以直接观看文中视频，回复 learning spark 就可以获得对应的电子书。
相关阅读:
swarm集群搭建及集群维护操作
 zabbix 告警说明
 yum 下载安装包
 mongdb常见操作
 cloudera5.16.1 离线安装
 centos7 安装hadoop-3.2.1
rpcbind 启动报错
 ingress-nginx 安装
 Dubbo学习
 mybatis防止SQL注入
原文地址：https://www.cnblogs.com/xing901022/p/13388013.html

来自马铁大神的Spark10年回忆录

马铁是谁

Spark的过去10年

Spark 3.0

Spark的生态

参考