• 大数据之路_1


    大数据的特点:
    1.数据来源广
    数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件)
    数据量大(最少是TB级别的,甚至可能是PB级别的)、数据增长速度快等

    采集汇总:Sqoop、Cammel、DataX工具
    存储:GFS、HDFS、TFS等分布式文件存储
    批处理运算:MapReduce 。分布式快速运算框架
    解析引擎:Hive,Pig 将SQL转换为MapReduce的解析引擎。
    流处理运算:Strom/JStrom等低延时的流式计算框架。
    集群:Hadoop(HDFS+MapReduce+Yarn) 和Storm
    一站式集群:Spark 一站式计算框架,即可以进行批处理,也可以进行流处理(微批处理)
    Lambda框架,Kappa架构的出现,提供了业务处理的通用框架。
    辅助工具(加快工作效率,加快运算速度):
    1:Ozzie,azkaban:定时任务调度的工具
    2.Hue,Zepplin:图形化任务执行管理,结果查看工具
    3.Scala语言:编写Spark程序的最佳语言,可以选择用Python
    4.Python语言,编写脚本时会用到
    5.Alluxio,kylin等,通过对存储的数据进行预处理,加快运算速度的工具。

    针对以上特点,要考虑的问题
    1.数据来源广,如何采集汇总? Sqoop,Cammel,DataX等工具
    2.数据采集后,如何存储?对应出现了GFS、HDFS、TFS等分布式文件存储系统
    3.由于数据增长速度快,数据存储要求可以水平扩展,
    4.数据存储后,该如何通过运算快速转换成一致的格式,快速运算出自己要的结果。
    对应的MapReduce的分布式运算框架解决了这个问题。
    普通的MapReduce只能一批一批的处理,时间延时太长了,为了实现,每输入一条数据就得到结果,出现了Strom/JStrom这样的低延时流式计算框架。

    如果同时要做批处理和流处理,就要搭两个集群,Hadoop集群和Storm集群
  • 相关阅读:
    luogu P4779 【模板】单源最短路径(标准版)| dijkstra
    luogu P1160 队列安排 | 链式前向星
    luogu P1996 约瑟夫问题 | 链表
    luogu P3386 【模板】二分图匹配 | 匈牙利算法
    luogu P3366 【模板】最小生成树 | kruskal
    luogu P3378 【模板】堆
    luogu P3372 【模板】线段树 1
    luogu P1776 宝物筛选_NOI导刊2010提高(02) | 多重背包(二进制拆分)
    luogu P1616 疯狂的采药 | 完全背包
    luogu P1588 丢失的牛 | 宽搜
  • 原文地址:https://www.cnblogs.com/sujingnuli/p/9947164.html
Copyright © 2020-2023  润新知