spark开发常见问题

spark开发常见问题

1、spark中一个job中的某个task卡顿不动了：

https://blog.csdn.net/fct2001140269/article/details/103732120

解决思路：

（1）是否有数据倾斜的可能。

（2）查看cpu，内存是否异常，cpu是否被打满，若被打满，查看到底是哪个进程的哪个线程导致的，对应的去修改代码。

https://blog.csdn.net/Aeve_imp/article/details/107644922?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param

2、spark中如何取定位数据倾斜：

（1）查看web ui界面，查看task执行时间、task执行的数据量。若个别的task执行时间较长且数据量很大，通过这两点基本上可以断定是数据倾斜。

（2）具体是哪个key导致的数据倾斜，若是hive数据源，可以在hive中查询各个key的条数。也可以在程序中，使用countByKey，然后collect到driver端，从而得到各个key的数量。

https://www.jianshu.com/p/c412d11b1ffa

3、spark中上个stage的task都运行完了，但是下一个stage却一直不开始

可能是遇到了shuffle gc

4、jvm 报stack overflow的错误

　　在读数据的时候，每读一千条，生成一个rdd，然后将其和之前的rdd进行union合并，会出现stack overflow的错误，因为union是转换操作，所以合并是最后执行的，底层就是递归，不断的调用parrentRDD，一直调用到最初的那个RDD返回。合并3000次，就是三千个栈空间，就会导致栈溢出。

　　解决方式就是避免去union，换一种方式，如用集合存储每次的一千条数据，攒起来，再进行批处理。集合用的是堆内存，也有上限。这也是不能用spark api去读数据的情况下的没有办法的办法。
相关阅读:
动手动脑之异常处理
 git一些概念
 jquery each函数使用
 数据库客户端
 plotly.js
网站跳转汇总
 jquery 实现间隔运行
 学习在线调试
 Robot限制字典的key大写的class
Gerrit 相关
原文地址：https://www.cnblogs.com/guoyu1/p/12596956.html

热门文章
js的逻辑运算
 别名
 JavaWeb基础
 字符串查找判断
 随堂测验——添加课程信息
 动手动脑4
java人员类
 Html标签
 随机数
 Javaweb超链接

spark开发常见问题

1、spark中一个job中的某个task卡顿不动了：

2、spark中如何取定位数据倾斜：

3、spark中上个stage的task都运行完了，但是下一个stage却一直不开始

4、jvm 报stack overflow的错误