Spark Core官网学习回顾
Speed
disk 10x
memory 100x
Easy
code
interactive shell
Unified Stack
Batch
Streaming
ML
Graph
Deployment
Local
Standalone
YARN
K8S
Multi Language
Scala
Python
R
Java
RDD: Resilient Distributed Dataset
five <==> source code
Create way:
textFile: local HDFS s3
parallelize: test
Transformation
lazy evaluated
map filter flatMap
Action
eager
return a value to Driver
collect reduce count take top
Cache
处理的日志: (有问题,就是有脏数据,(考虑代码的健壮性,所以要在代码中进行判断))
别想当然是正确的
虽然说日志中每个字段的含义以及分隔符是什么都是事先定义好的
一行核心代码,需要N多行代码来保障
LogApp: 目的性
了解Spark如何进行大数据业务处理
掌握生产上边界值 ==》 使的你的代码
运行架构是什么样子的呢? ********
一个task就是一个分区
一个core上有多个线程 看并行度