面试范围

面试问的比较多的

JAVA:进程、线程、多线程、反射、IO、集合、网络编程、接口、类与对象

Linux：shell脚本、AWK与sed指令，其他常用指令

hadoop：HDFS读写机制、mapreduce的执行流程、shuffle的执行流程、yarn平台的执行流程、hive的架构、hive中的各种join、视图、索引、hive中的数据倾斜、hive中的HQL语句如何转换成mapreduce任务的

面试时还有可能现场写HQL语句

Zookeeper的运行原理、选举机制

Hbase的架构原理、逻辑结构与物理机构、列族、RowKey、常用的shell命令、常用Java API、 Hbase作为输入或输出源的实现思路、布隆过滤器、扫描器

spark：scala中的Trait（特质）、高阶函数、匿名函数、模式匹配、类型参数、集合（seq、set、map）、伴生类与伴生对象、apply方法、隐式转换（隐式函数、隐式参数、隐式值）、actor、偏函数

spark的运行原理、spark与hadoop的区别、spark为什么处理数据的速度比较快（基于内存计算、DAG）

flatmap与map的区别、reduceByKey与groupByKey的区别、容错机制（lineage、checkpoint）、窄依赖于宽依赖的区别、共享变量（广播变量、累加器）

sparkContext初始化的过程和运行原理

sparksql的执行流程、sqlcontext与hivecontext的区别、

如何对文本文件、json、parquet进行操作

spark streaming架构原理、streamingContext的初始化过程

spark streaming如何操作flumekafka中的数据

flume（海量日志收集系统）的组件有哪些，数据在flume中的执行流程

kafka（分布式发布-订阅消息系统）中组件有哪些:发布者（或生产者）producer Broker Server订阅过程（或消费者）consumer

kafka的消息发布订阅的执行过程

spark streaming 与storm的区别

解释一下DStream(离散流)、windows窗口操作（窗口长度，滑动时间间隔）

spark MLlib:（可选）

机器学习(ML):k-means、KNN、决策树

神经网络、朴素贝叶斯、回归、降维、关联规则

相关阅读:
利用Mathematica计算伴随矩阵
一个游戏
华南理工大学2016年数学分析高等代数考研试题参考解答
中山大学2016年数学分析高等代数考研试题参考解答及其讲解
张祖锦第7卷第483期一个对数-平方根不等式
为新生儿办理户口
丘成桐大学生数学竞赛2014年分析与方程个人赛试题第一题另解
家里蹲大学数学杂志第7卷第481期一道实分析题目参考解答
顶级俄国数学家是怎样炼成的？[2016-06-25 张羿赛先生]
Calculations are rather interesting

原文地址：https://www.cnblogs.com/liuwei6/p/6625399.html