• 20212022年寒假学习进度18


    今天学习了sparkRDD的一些基本知识。并学习了钉钉直播回放的项目简介。

    Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于
    处理不同的应用场景。三大数据结构分别是:
    RDD : 弹性分布式数据集
    累加器:分布式共享只写变量
    广播变量:分布式共享只读变量
    什么是 RDD
    RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据
    处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行
    计算的集合。
    弹性
    存储的弹性:内存与磁盘的自动切换;
    容错的弹性:数据丢失可以自动恢复;
    计算的弹性:计算出错重试机制;
    分片的弹性:可根据需要重新分片。
    分布式:数据存储在大数据集群不同节点上
    数据集:RDD 封装了计算逻辑,并不保存数据
    数据抽象:RDD 是一个抽象类,需要子类具体实现
    不可变:RDD 封装了计算逻辑,是不可以改变的,想要改变,只能产生新的 RDD,在
    新的 RDD 里面封装计算逻辑
    可分区、并行计算
    核心属性

     了解到项目开发的正常流程:

    项目开发流程
    项目调研
    从零开始
    需求调研
    流行大数据框架

    项目需求分析
    有什么需求,需要分析得到什么样的结果

    项目设计
    概要设计
    大方向,框架级别
    详细设计
    具体的模块设计、表的设计

    项目编码 --30%时间
    编码
    需要不断的测试

    项目测试
    单元测试
    联调测试
    集群测试

    项目上线运行
    试运行阶段
    正式运行

    项目的运维
    项目的优化

  • 相关阅读:
    为什么 ObjectiveC 很难
    PHP开发Windows桌面应用程序实例
    windows下借助InstantRails环境搭建redmine
    php,python,ruby,perl的优缺点?
    Ruby在windows上的eclipse开发环境搭建
    Python的web框架很多,比如Django,webpy等,但是哪一种综合实力最强呢?
    使用JRockit作为Eclipse的Java VM
    Fat Jar Eclipse PlugIn Tutorial
    ECLIPSE插件集合
    Java反编译利器Jad, Jode, Java Decompiler等及其IDE插件
  • 原文地址:https://www.cnblogs.com/haobox/p/15819458.html
Copyright © 2020-2023  润新知