• 大数据系统需要的知识概览



    Linux
    1. 用户、组创建、更改、授权,文件常用命令
    2. 磁盘基本命令以及管理 (df, du, fdisk, mount)
    3. 内存使用监控 (top, free etc...)
    4. 软件安装 (rpm, tar, yum, etc...)
    5. host 配置,IPTable 配置,

    HDFS
    1. 基本概念
    2. 内部结构
    3. 读写原理
    4. 安装配置
    5. 常用指令

    HBase
    1. 基本概念
    2. 特点
    3. HBase 数据模型,Row Key, Column family, timestamp, Region, cell, lock
    4. 物理模型
    5. 体系结构
    6. 容错机制
    7. 交换接口
    8. Row key 设计原理
    9. 基本操作,DDL 操作、DML 操作、DML

    MapReduce
    1. 思想和原理
    2. 执行过程与执行细节 Shuffle, combiner, partition
    3. 程序构成以及基于 MapReduce 的编程知识
    4. MapReduce 的 Reduce 类、Map 函数
    5. MapReduce job, Driver, InputFormat, OutputFormat

    Hive
    1. 基本概念
    2. 体系结构
    3. 工作机制
    4. 数据库管理 DDL 操作、DML操作、DQL 操作
    5. 索引管理
    6. 数据模型

    Spark
    1. 核心框架概念、运行模式、基本术语介绍
    2. 技术原理
    3. 核心组件 RDD 及相关数据分析方法
    4. Spark-SQL
    5. Spark-Streaming
    6. Spark-MLlib
    7. Spark-GraphX
    8. 性能优化

    Kafka
    1. 基本概念
    2. 内部结构
    3. 读写原理
    4. 安装配置
    5. Producer, Consumer 指令使用

  • 相关阅读:
    UVA10361
    △UVA10494
    △UVA465
    △UVA10106
    △UVA424
    阶乘的精确值
    小学生算术
    UVA156
    △UVA120
    linux应用之ntpdate命令联网同步时间
  • 原文地址:https://www.cnblogs.com/champaign/p/7503541.html
Copyright © 2020-2023  润新知