• 大数据技术原理与应用:【第二讲】大数据处理架构Hadoop


    2.1 Hadoop概论

    创始人:Doug Cutting

    1.简介:

    开源免费;

    操作简单,极大降低使用的复杂性;

    Hadoop是Java开发的;

    在Hadoop上开发应用支持多种编程语言、不限于Java;

    Hadoop两大核心:HDFS+MapReduce

    HDFS:海量数据存储

    MapReduce:海量数据的处理

    2.起源:

    原本是文本搜索库,模仿谷歌的搜索引擎;

    融入了谷歌相关技术:分布式文件系统GFS;分布式并行编程框架MapReduce;

    3.成名史:数据排序 的傲人成绩

    4.特性:

    1.高可靠性

    2.高效性

    3高可扩展性

    4.高容错性

    5.低成本

    6.运行在Linux平台上

    7.支持多种编程语言

    5.应用现状:

    例如:Facebook

    2.2 Hadoop项目结构

     HDFS:分布式文件存储

    MapReduce:数据处理,基于磁盘

    Spark(性能比MapReduce高一个数量级):数据处理,基于内存

    Hive:数据仓库;做决策分析;支持SQL语句(把SQL语句转成MapReduce作业,再去执行);

    Pig:流数据处理,轻量级数据;提供类似SQL的查询语句Pig Latin;

    Oozie:作业流调度系统

    Zookeeper:分布式协调服务;分布式锁;集群管理;

    HBase:列族数据库,随机读写

    Flume:日志收集

    Sqoop:数据导入导出,关系型数据库到HDFS、HBase、Hive互导

    Ambari:快速部署工具

    2.3 Hadoop安装与使用

    1.Linux选择:

    选择Linux版本:Ubuntu

    内存选择:看电脑。内存大于4G,选择64位

    2.系统安装 虚拟机还是双系统:

    看电脑配置

    电脑比较新,装虚拟机

    3.关于Linux基础知识

    1.Shell:命令解析器

    2.sudo命令:权限管理机制,管理员可以授权普通用户去执行一些需要root权限执行的操作

    3.输入密码:看不见自己输入的密码

    4.输入法中英文切换:使用“shift”键

    5.Ubuntu终端赋值黏贴快捷键:ctrl+shift+V

    4.安装方式:

    单机模式,伪分布式模式,分布式模式

    5.创建虚拟机:

    1.材料与工具:虚拟机软件与系统映像文件

     2.确认系统版本:

    2.4 Hadoop集群的部署与使用

    考虑HDFS和MapReduce

    (后补)

    慕课链接:https://www.icourse163.org/learn/XMU-1002335004?tid=1003965001#/learn/content

  • 相关阅读:
    转数组
    字符串分割(分行)
    字符串操作:判断相等、判断首尾、大小写转换
    字符串操作:索引位置、去空格、替换字符串
    数组(遍历、转置、元素替换、排序、复制)
    专利申请教程
    循环语句
    条件语句
    输入
    h.264直接预测
  • 原文地址:https://www.cnblogs.com/musecho/p/10991177.html
Copyright © 2020-2023  润新知