spark的若干问题

spark的若干问题

问题1：SPARK与HADOOP之间的关系？

　　spark是一种高效处理hadoop分布式数据的处理引擎。借助hadoop的yarn框架，spark就可以运行在hadoop集群中。同时spark也可以处理存储在hdfs、Hbase、Cassandra、hive和所有存储在hadoop中的数据。spark可以采取类似于hadoop的mapreduce的方式处理一般数据，也可以采取stream的方式处理流式数据。

问题2：SPARK支持的开发语言？

　　spark支持scala、java和python三种语言。

问题3：SPARK目前可以支持多大的集群？

　　目前已知的spark最大集群节点数已经超过1000台。

问题4：SPARK中已经缓存的数据不适合存储在内存时，spark如何处理？

　　spark将数据序列化到磁盘中或者spark重新计算内存中的数据。默认情况下，spark采取重新计算的方式，即每次请求内存中的数据时，spark都是重新从磁盘中读取数据到内存，然后重新计算。可以通过修改storage level级别来修改处理方式(默认为MEMORY_AND_DISK)

问题5：spark如何在集群中执行？

　　如果集群中每个节点中都存在JAVA执行环境，那么也可以执行纯spark程序。如果你需要在Amazon EC2环境中执行spark程序，那么就需要在每个节点执行EC2 脚本。如果目前没有集群环境，那么可以通过local参数执行单机模式。local[n]中的n代表的是CPU核数，这个n也可以理解成spark并行执行数。

问题6：执行spark时一定需要存在hadoop环境么？

　　如果你不需要在集群环境中执行，那么就不需要hadoop环境。如果你需要执行集群环境，那么你需要搭建一下共享文件系统(NFS文件系统也可以的)。

问题7：学习spark有好资源么？

　　可以访问http://www.artima.com/scalazine/articles/steps.html做个入门，同时在apache也有一个 Scala tutorial for Java programmers和 Programming in Scala.如果你有JAVA开发经验和其他脚本开发经验，那么将程序迁移到scala中就很容易了。spark目前提供JAVA、scala和python三种API。

如果您认为此文章对您有所帮助，请您点击推荐。进步来源于思想的碰撞，所以欢迎大家踊跃留言评论。
相关阅读:
.net core Docker 整套部署流程
 Mysql 关键字 ESCAPE
ZJOI2022 题解
 多项式全家桶
 THUPC2022 游记
 FidderComposer（自定义请求）
Postman使用详解
 FiddlerAutoResponder（自动响应器）
Fiddler—工具栏
 Fiddler—过滤器（Filters）
原文地址：https://www.cnblogs.com/vikings-blog/p/3849735.html