• 大数据学习笔记(一)


    一、大数据的基本处理步骤
    1)数据获取
    flume
    数据来源:专业数据机构,国家统计局,企业内部数据,互联网数据
    2)数据清洗
    mapreduce
    清除不需要,错误,无效的数据
    3)数据存储
    hdfs
    性能,可用,可靠,成本等方面考量
    4)数据处理
    hive
    按业务需求处理
    5)数据分享
    sqoop,kettle
    可视化展示,最大化利用数据价值

    二、数据仓库技术 ETL

    E: extract 抽取

    T: tansform 交互转换

    L: load 加载

    三、 商业智能 BI(Business Intelligence)

    1)商业智能

    2)将企业现有数据有效整合,快速准确提供报表提出决策依据,帮助作出业务决策

    3)需求分析和功能实现依赖的技术组件

    四、Hadoop

    1)apache旗下开源软件平台,广义是指Hadoop生态圈

    2)利用分布式集群,根据具体业务,对海量数据进行分布式处理

    3)核心组件包括COMMON,HDFS,YARN,MAPREDUCE

    组件名称以及主要功能
    HDFS:分布式文件系统
    MAPREDUCE:分布式运算程序开发框架
    HIVE:基于文件系统和运算框架的SQL数据仓库工具
    ZOOKEEPER:分布式协调服务基础组件
    HBASE:分布式数据库OLTP
    Mahout:基于分布式运算框架的机器学习算法库
    Saoop:数据的导入导出工具
    Flume:日志数据采集框架

  • 相关阅读:
    Gson中@SerializedName 注解使用
    centos8 安装mongodb4.4
    ssh 连接manjaro失败
    git保存仓库的账号密码
    centos 安装etcd
    kubeadm部署k8s 拉取基础镜像
    centos 安装cloc 代码统计工具
    centos7 安装mongodb
    shell获取时间戳
    最详细的阿里云ECS服务器CentOS7上安装tomcat8服务(三)
  • 原文地址:https://www.cnblogs.com/cs99lzzs/p/11049916.html
Copyright © 2020-2023  润新知