一面 43min:
自我介绍
问了两个项目, 问了下项目中如何实现的Mysql和hdfs数据同步
讲一下对Hadoop的了解讲了下HDFS原理、MapReduce的过程,想讲HDFS检查点机制没让讲。
Spark和MapReduce的区别?是不是用了Spark就不需要MapReduce了?(答得不太好)
问对Hive的了解?自己提了下数据倾斜
如果有海量数据,如何求Top10?(说错了一块,后来又改过来了)
Linux平常用的指令?说了 ls 、 ll 、 df 、 nohup & 、ps 、 kill 等等
Hadoop用到的指令 Hadoop fs -ls 、 mkdir、 hdfs fsck(查看块信息)
用什么语言比较多?(我用的py比较多) Python常用的数据类型?list 和 tuple的区别?
回答了下 不可变对象和可变对象
常用的python库(requests 、bs4 、keras 等等)如何安装包
算法题:数组去重 上台阶、动态规划和递归的区别
还有什么问题要问我吗?(问了下缺不缺hc、主要工作内容)
二面 23min
全程问项目,同时问了很多有没有看过Spark 源码 ES源码 Flask源码(都没看过)。
各个项目问的比较深,算法模型等等。
HR面 30min
可以实习多久
如何解决做项目和社团和日常生活的平衡问题
简单介绍下流计算的spark streaming storm flink的优缺点
未来发展等等
觉得有用可以点个赞!最后欢迎关注我的公众号:互联网校招面经。每天一篇高质量互联网校招面经分享!每半个月定期总结归纳!关注后最新超详细面经精选直接拿走!!还有电子书福利赠送!!