大数据简介 - 润新知

大数据简介
- 离线计算
1. 计算的速度比较慢
2. 计算的数据量大
3. 需要的技术Hadoop、HIve(离线分析，他的本质就是hadoop)、sqoop（协作框架） Hbase（数据库，非关系型数据库，分布式数据库）Flume(写作框架，收集日志数据) CM (图形化管理器，监控集群资源状态，部署集群。)
- 实时计算
1. 计算的数据量体量没有离线大。
2. 计算的速度快
3. 实时计算是基于内存的计算。内存空间比较小，数据的体量不大。
4. 需要技术
  1. Scale (函数式遍程) Spark 、（Spark Core ,Spark sql,Spark streaming [流式计算]）
  2. Flink(他基本和Spark的设计相通)、
  3. kdfaka 可以实时的帮我们抽取数据
  4. 　　PySpark 他和Spark是一样的，但是他是用python写的。
5. 大数据的应用场景
  1. 交通（高德地图，利用到实时计算框架）
  2. 银行，（分析消费行为，推销具体业务）
  3. 股票的预测（基于多年数据的预测，用数据挖掘）
  4. 电商（淘宝、京东，统计分析用户浏览商品行为，推荐商品，每个人的淘宝页面的商品是不同
6. 大数据流程
  1. 数据的来源，用户行为产生的数据，服务器产生的内部，用爬虫技术采集到的数据，关系型数据库中的数据。
  2. 数据的采集（kafaka流式的数据、flume服务器、sqoop数据库中的数据）
  3. 数据的存储
  4. 数据的清洗
    
    　　采集过来的数据未必可用，ETL ,对数据清洗，数据清洗一般情况是用的hive
  5. 数据的分析
    
    离线用hive
    
    实时用的spark
  6. 数据的展示
    
    一般会用插件进行数据的展示
相关阅读:
14-补充内容：MySQl创建用户和授权
 15-可视化工具Navicat的使用
 11-数据的增删改
 12-单表查询
 09-完整性约束
 10-外键的变种三种关系
 07-数据类型
 08-数据类型(2)
Mysql 基本语法
 E. K-periodic Garland
原文地址：https://www.cnblogs.com/dousil/p/12180270.html

最新文章
第四周总结
 第三周总结
 开课博客
 数组
 读后感
 15号
 14号总结
 13号总结
 12号总结
 使用动态规划法求数组的最大子数组