【大数据】基础概念 - 润新知

【大数据】基础概念
Hadoop

分布式系统基础架构
- HDFS 分布式文件系统
- MapReduce 并行计算编程模型
- YARN 资源管理系统
入门学习资料：
http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html

Spark

基于内存的计算框架
https://spark.apache.org/docs/2.3.2/quick-start.html

Spark Streaming

SparkSQL

Spark的重要组成部分
- 兼容Hive语法
- 兼容标准SQL
  https://spark.apache.org/docs/2.3.2/rdd-programming-guide.html
HBase

可伸缩，面向列的分布式云存储系统
- 海量数据存储
- 实时查询
  https://hbase.apache.org/book.html
Hive

建立在Hadoop上的数据仓库基础架构。Hive定义了简单的类SQL查询语言，允许使用SQL查询数据。

HBase与Hive的区别
- Hive是一种类SQL语言，最终被转化成Map/Reduce。Hive虽然类似SQL，但是不能交互查询，只能在Hadoop上批量执行。
- HBase是一个Key/Value系统，运行在HDFS上。HBase可以实时运行。
- Hive查询花费时间长，会默认遍历表中所有数据。
- Hive不支持更新操作。
- HBase需要特定语言编写，可以通过Apache Phonenix实现，但必须提供schema为代价。而且为了运行HBase，还需要提供Zookeeper支持。
- Hive适合离线数据查询分析。
- HBase适合大数据实时查询。
HBase与Hive的协作关系
- 通过Hive清洗、处理和计算数据数据；
- 通过ETL工具将数据抽取到HDFS存储；
- Hive清洗处理后的结果、如果是面向海量数据查询场景可以存入HBase；
- 数据应用应从HBase查询数据。
Kafka

分布式、分区、多副本的消息发布及订阅系统。
- 消息持久化
- 高吞吐
- 可靠性
- 分布式
  https://kafka.apache.org/0100/documentation.html
Storm

Sotrm是一个分布式的实时计算系统，为大规模流式数据提供实时处理。适合场景：实时分析、持续计算、分布式ETL。
- 分布式实时计算框架
- 高容错
- 可靠的消息保证
- 灵活的拓扑定义及部署
- 与外部组件集成，包括Kafka、HDFS、HBase。
  https://storm.apache.org/
Flume

分布式和高可用的海量日志聚合系统
相关阅读:
应用程序中的服务器错误,怎么解决
 日期格式
 怎样破解网页禁用鼠标右键
 web.config中配置页面出错后跳转指定错误页面
 无法复制文件
 jquery 上传图片即时预览功能
 jquery若干问题
 web.xml 中的listener、 filter、servlet 加载顺序及其详解
 使用jquery 对 radio 和 select 的各种操作.
零散技术整理
原文地址：https://www.cnblogs.com/nonkicat/p/10794238.html

Copyright © 2020-2023 润新知