• 北风风hadoop课程体系


    课程一、基于Linux操作系统平台下的Java语言开发(20课时)
    课程简介
    本套课程主要介绍了Linux系统下的Java环境搭建及最基础的Java语法知识。学习Linux操作系统下Java语言开发的好处 好处一:不再束缚在Windows操作系统下,开阔眼界。
    好处二:熟练Linux操作系统的指令,走出“指指点点”的开发,成为真正的代码程序员。
    好处三:增加自己的竞争实力,为自己应聘时加上浓浓的一笔。
    课程大纲
    第一讲 安装虚拟机以及Linux操作系统
    第二讲 Linux桌面系统
    第三讲 Linux文件和目录管理
    第四讲 VIM的使用(上)
    第五讲 VIM的使用(下)
    第六讲 Linux终端常用命令
    第七讲 Java开发环境的搭建
    第八讲 Java语言基础(上)
    第九讲 Java语言基础(下)
    第十讲 Java中IO详解(上)
    第十一讲 Java中IO详解(下)
    第十二讲 Java中容器详解(上)
    第十三讲 Java中容器详解(下)
    第十四讲 Java中Swing详解(上)
    第十五讲 Java中Swing详解(下)
    第十六讲 JSP开发环境的搭建
    第十七讲 JSP语法详解(上)
    第十八讲 JSP语法详解(下)
    第十九讲 开发用户登陆,用户注册系统
    第二十讲 开发用户管理系统


    通过本课程的学习,用户可在最短的时间内掌握MySQL的安装配置与使用、MySQL DML特性的高级用法、MySQL常见内置函数的高级用法、MySQL中存储过程写法、视图、用户自定义函数、触发器等高级用法、MySQL中的事务功能。并了解图形化管理工具的使用、字符集及乱码处理、MySQL的数据备份与还原技术、MySQL的安全技术、MySQL的系统管理、MySQL集群的配置。
    课程大纲
    第一部分:安装配置MySQL数据库(1课时)
    第二部分:图形化管理工具(2课时)
    第三部分:存储引擎及数据库基本操作(2课时)
    第四部分:字符集及乱码处理(2课时)
    第五部分:MySQL DML特性的高级用法(5课时)
    第六部分:MySQL内置函数(1课时)
    第七部分: MySQL 中的存储过程、触发器高级应用(2课时)
    第八部分:MySQL中视图与事务高级应用(3课时)
    第九部分:MySQL中索引的使用(1课时)
    第十部分:MySQL数据库的安全技术(1课时)
    第十一部分:系统管理(1课时)
    第十二部分:MySQL备份和还原操作(1课时)
    第十三部分:性能优化(1课时)
    第十四部分:集群的配置及应用(1课时)


    Linux系统管理教程(21课时)
    课程简介
    通过此课程的学习,系统全面的了解虚拟机VMWare在各种环境下的安装配置,及Linux系统管理的专业内容。
    课程大纲
    补1、虚拟机VMWare 在XP下安装视频教程
    补2、VMware及Linux安装配置教程
    补3、专业Linux系统管理课程
    01.对Linux进行简单介绍并安装Linux操作系统包括系统的配置
    02.Linux图形界面管理
    03.用户和用户组管理(1)
    04.用户和用户组管理(2)
    05.文件和目录管理(1)
    06.文件和目录管理(2)
    07.软件包管理
    08.磁盘管理(1)
    09.磁盘管理(2)
    10.文件和目录管理(3)
    11.Linux终端命令系统命令
    12.常用信息显示命令
    13.常用系统管理命令
    14.备份打包和压缩(1)
    15.备份打包和压缩(2)
    16.系统级管理
    17.日志和常用软件
    18.网络管理
    19.系统安全


    课程一、 Greenplum 分布式数据库开发入门到精通(41课时)
    课程简介
    Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等,它的特点主要就是查询速度快,数据装载速度快,批量DML处理快。而且性能可以随着硬件的添加,呈线性增加,拥有非常良好的可扩展性。因此,它主要适用于面向分析的应用。比如构建企业级ODS/EDW,或者数据集市等等。本课程全面深入地介绍了Greenplum数据库,包括架构特性、部署、管理、开发和调优等,由浅入深,理论结合实战,让同学全面彻底掌握这把大数据利剑。
    课程大纲
    一、 Greenplum架构
    什么是Greenplum
    Greenplum体系结构
    Greenplum高可用性架构
    二、安装Greenplum
    配置环境
    安装并初始化GPDB系统
    启停数据库
    配置GP系统
    三、分布式数据库存储
    数据是如何存储的
    分布策略
    四、 GBDB查询处理
    查询命令的执行
    SQL查询处理机制
    并行查询计划
    五、角色权限及客户端认证管理
    客户端认证
    管理用户和组
    六、客户端接口和程序
    pgAdmin III
    PSQL
    七、定义数据库对象
    创建并管理数据库
    创建并管理表空间
    创建并管理模式
    创建并管理表
    分区表
    数据分布与分区
    压缩存储与行列存储
    序列、索引与视图
    八、管理数据
    插入、更新、删除记录
    事务管理
    空间回收和统计
    九、查询数据
    定义查询
    使用函数和运算符
    查询分析
    十、工作负载及资源管理
    GP工作负载管理概述
    配置工作负载管理
    创建资源队列
    分配资源队列
    检查资源队列状态
    十一、装载和卸载数据
    GP装载命令概述
    装载数据到GP
    从GP卸载数据
    格式化数据文件
    十二、备份恢复
    串行备份和恢复
    并行恢复和恢复
    十三、性能调优
    如何进行调优
    常见的性能问题
    十四、GP系统配置参数
    关于GP的Master参数与本地化参数
    设置配置参数
    配置参数种类
    十五、开启高可用性
    GP高可用概述
    开启GP的Mirror
    获知Segment何时失败
    恢复失败的Segment
    恢复失败的Master
    十六、GP MapReduce
    MapReduce基础
    GP MapReduce编程
    MapReduce作业执行和故障诊断

    课程二、全面深入Greenplum Hadoop大数据分析平台(55课时)
    课程简介
    大量的半结构化和非结构化信息无法管理和存储,大数据增长速度惊人,每年以几何级数速度增长,需要有专业化的解决方案应对大数据挑战。EMC收购了Greenplum之后,推出的针对Hadoop的Greenplum的数据库软件。采用Greenplum HD技术管理半结构化和非结构化信息,整体TCO更低,除了进行有效存储和管理,可以通过MapReduce技术进行并行的分析和挖掘,把大量的数据存储变成有价值的数据资产。本课程深入阐述了Hadoop的架构原理,Hadoop整体技术架构,包括HBase、Hive、Pig、ZooKeeper、Chukwa等实战运用。另外还介绍了云计算的基础知识和Hadoop在云计算领域的运用,以及剖析了Hadoop在各个互联网巨头商业环境的运用。
    课程大纲
    一、 Hadoop的起源和体系
    Hadoop思想起源:Google
    Hadoop子项目家族
    Hadoop的架构
    二、 Hadoop的安装与配置
    准备和配置环境
    三种运行模式
    完全分布式模式安装
    三、 HDFS-大数据存储
    HDFS概念与体系结构
    HDFS的可靠性
    HDFS文件操作
    HDFS API
    四、 关于MapReduce
    MapReduce编程模型
    MapReduce的集群行为
    MapReduce任务的优化
    MapReduce工作机制
    错误处理及作业调度机制
    五、 MapReduce应用开发
    Hadoop Eclipse插件开发
    数据筛选程序开发
    倒排索引程序开发
    六、 Hadoop监控与管理
    页面监控
    hadoop备份
    七、 HBase数据库
    Hbase体系结构
    HBase shell
    HBase API应用实例
    HBase场景应用
    HBase模式设计
    八、 Hive数据仓库
    Hive组件与体系架构
    Hive安装配置
    Hive的服务接口
    HiveQL常用操作
    Hive的优化
    Hive UDF编程
    Hive综合实战
    九、 Pig数据分析平台
    Pig框架
    Pig安装配置
    Pig的使用
    Pig的数据模型
    常用Pig Latin操作
    Pig UDF编程
    Pig数据分析实战
    十、ZooKeeper分布式服务框架
    ZooKeeper工作原理
    ooKeeper设计目标
    ZooKeeper的数据结构和组成
    ZooKeeper的安装配置
    ZooKeeper命令行工具
    ZooKeeper API
    ZooKeeper实战:Hadoop任务调度
    十一、 Chukwa集群监控系统
    Chukwa的组成
    Chukwa架构和设计
    Chukwa安装与配置
    常用Chukwa命令
    实现自定义数据处理
    十二、 Hadoop商业应用案例
    云计算概念和特征
    云计算服务模式和形态
    Hadoop在云计算的运用
    京东商城
    百度
    阿里巴巴
    腾讯
    十三、 Greenplum Hadoop集群
    集成架构的特征
    集成架构的优势
    配置gphdfs协议使用环境
    使用HDFS外部表

    课程一:Hadoop2.0/YARN深入浅出(21课时)
    课程简介
    详细讲解了Hadoop 2.0架构、部署以及YARN,并讲解了运行在YARN上主要的计算框架,包括Spark、Storm和Tez
    课程大纲
    一、Hadoop 2.0(6课时)
    Hadoop 2.0产生背景
    Hadoop 2.0基本构成
    二、HDFS 2.0
    MapReduce 2.0
    Hadoop 2.0安装配置
    集群测试
    三、YARN资源管理系统(4课时)
    YARN产生背景
    YARN基本设计思想
    YARN基本架构
    YARN工作流程
    YARN通信协议
    YARN容错
    YARN资源调度机制
    四、YARN支持的计算框架(Storm,Tez,Spark)(11课时)
    以YARN为核心的生态系统
    Storm基本概念
    Storm流式计算框架
    基于YARN的Storm架构
    YARN-Storm部署
    Storm On YARN服务
    Apache Tez介绍
    Tez特点
    Tez数据处理引擎
    DAGAppMaster实现
    Tez优化机制
    Tez应用场景
    Tez部署
    什么是Spark
    Spark生态系统
    Spark的核心--RDD和Lineage
    RDD的存储、容错机制、内部设计及数据模型
    Spark调度框架
    Spark的分布式部署方式
    基于Mesos的Spark模式
    基于YARN的Spark模式
    Spark的独立模式部署
    Spark的YARN模式部署

    课程二:MapReduce/Hbase进阶提升(29课时)
    课程简介
    本部分内容主要针对MapReduce和HBase的高阶应用做深入的讲解和实战演练
    课程大纲
    一、MapReduce多语言编程(5课时)
    MapReduce编程接口
    Java编程接口实例解析
    Hadoop Streaming实现方式
    Hadoop Streaming编程实战(C++,PHP,PYTHON)
    Hadoop Streaming原理剖析
    Hadoop Pipes的编程实例
    Hadoop Pipes的原理剖析
    二、MapReduce高阶实现(14课时)
    复杂的MapReduce应用
    K-means聚类、贝叶斯分类等
    工作流编程实例及原理剖析
    JobControl、ChainMapper/ChainReducer
    Hadoop工作流引擎
    常用MapReduce优化技巧
    配置多个reducer
    设置Stream的处理格式
    控制分片的大小
    避免分片
    输入格式:文本输入、多种类型输入
    输出控制:多个输出、延迟输出
    实战:数据分区 ?
    MapReduce高级特性
    计数器、内置计数器
    实例:用户自定义计数器
    MapReduce部分排序的实现
    实例:MapReduce全排序
    Terasort算法分析
    实例:MapReduce实现二次排序
    连接、Map端连接的实现
    实例:Reduce端连接
    连接类型、连接策略介绍
    重分区连接框架的实现
    复制连接框架的实现
    实例:半连接
    全局作业参数/数据文件传递
    三、HBase编程实践及案例分析(10课时)
    HBase基础精讲
    HBase Java编程实例
    HBase多语言编程
    Thrift安装、服务配置
    HBase C++编程实例
    HBase Python编程实例
    HBase MapReduce编程基础
    实战:HBase MapReduce编程
    Hbase案例:OpenTSDB的实现
    基于HBase的爬虫调度库
    基于HBase的爬虫索引库
    银行人民币查询系统


    课程三:Hadoop Sqoop/Flume/Avro实战(14课时)
    课程简介
    Hadoop Sqoop、Flume、Avro重要子项目的技术实战
    课程大纲
    一、Sqoop(6课时)
    Sqoop产生背景、基本
    Sqoop1和Sqoop2架构及特点
    Sqoop1安装配置(版本1.4.4)
    Sqoop导入介绍
    实战:从mysql导入数据到HDFS
    实战:从mysql导入数据到Hive
    Sqoop导出介绍
    实战:将Hive数据导出到Mysql
    Sqoop与Hbase结合
    Sqoop作业操作
    Sqoop作业安全配置
    Sqoop2安装配置(版本1.99.3)
    Sqoop2使用综合实战
    二、Flume日志收集系统(7课时)
    Flume概念和特点
    Flume OG架构、组成、特点、容错机制设计
    日志收集系统综合比较
    Flume NG架构、核心概念
    Flume OG的安装
    Flume OG的配置(Web端、Flume shell)
    Flume NG的安装配置、测试
    Flume NG模块配置(Source、Channel、Sink)
    三、Avro数据序列化系统(1课时)
    Avro介绍
    Avro特性、主要作用
    RPC使用Avro
    Avro与其他序列化系统的区别


    课程四:深入浅出Hadoop Mahout数据挖掘实战(17课时)
    课程简介
    1、Mahout数据挖掘工具 2、Hadoop实现推荐系统的综合实战,涉及到MapReduce、Pig和Mahout的综合实战
    课程大纲
    一、Mahout数据挖掘工具(10课时)
    数据挖掘概念、系统组成
    数据挖掘常用方法及算法(回归分析、分类、聚类等)
    数据挖掘分析工具
    Mahout支持的算法
    Mahout起源和特点
    Mahout安装、配置及测试
    实战:Mahout K-means聚类分析
    Mahout实现Canopy算法
    Mahout实现分类算法
    实战:Mahout逻辑回归分类预测
    实战:Mahout朴素贝叶斯分类
    推荐系统的概念及分类
    协同过滤推荐算法概念、分类及应用
    实战:实现基于Mahout的电影推荐系统
    二、Hadoop综合实战-文本挖掘项目(7课时)
    文本挖掘的概念及应用场景
    项目背景
    项目流程
    中文分词技术
    庖丁分词器的使用
    MapReduce并行分词程序的设计与实现
    Pig划分数据集
    Mahout构建朴素贝叶斯文本分类器
    模型应用-计算用户偏好类别


    第四阶段:Hadoop实战教学(80课时) -- 是骡子是马,拉出来溜溜
    课程简介
    本课程属于迪伦老师的Hadoop课程的升级课程,加入完全实战操作,从零开始搭建Hadoop大数据平台,包含了丰富的实例操作以及错误诊断的案例。
    课程大纲
    一、Hadoop大数据分析平台(实操部分)
    Hadoop的安装与配置
    HDFS实例操作
    MapReduce应用开发
    HBase
    HBase安装
    HBase shell操作实例
    Hive
    Hive安装
    HiveQL使用实例
    Hive UDF编程
    Hive项目实战
    Pig
    Pig安装
    Pig Latin实例
    Pig UDF编程
    Pig综合实战
    Zookeeper安装
    Chukwa安装及实例配置
    二、Hadoop2.0实操部分
    Hadoop2.0安装及测试
    Storm on YARN部署
    Tez部署测试
    Spark Standalone部署
    Spark监控
    Scala编程实例
    Spark独立模式HA实现
    Spark服务配置及应用实例
    Spark On Yarn实战
    三、MapReduce&HBase高阶实操部分
    Hadoop1.0&2.0-eclipse插件编译
    Hadoop2 eclipse配置测试
    MapReduce2.0实例
    Hadoop Streaming实例
    MapReduce高阶编程实例
    自连接
    多表连接
    复杂排序
    数据库操作实例(hsqldb,mysql)
    数据去重
    二次排序
    反向索引
    MapReduce Chain实例(旧API)
    MapReduce Chain实例(新API)
    HBase高阶
    HBase0.98.5 on Hadoop2部署
    HBase API编程实例
    HBase Thrift安装配置
    HBase Thrift PHP编程实例
    HBase MapReduce编程实例
    四、Sqoop&Flume实操部分
    Sqoop
    Sqoop1.4.5_ Hadoop2&Hive0.13安装配置
    Sqoop导入实例(涉及mysql,HDFS,HBase,Hive)
    Sqoop导出实例
    Sqoop作业操作实例
    Sqoop1.99.3_Hadoop2安装配置
    Sqoop2操作实例
    Flume
    Flume OG_Hadoop2安装部署
    Flume OG的节点配置实例(Web端、Flume shell)
    Flume NG_Hadoop2安装部署
    Flume NG简单实例(涉及Source、Channel、Sink基本实现等)
    Flume NG复杂实例(涉及多Agent,Channel复制及多路复用,HBase等)
    Flume NG综合实战
    五、Mahout数据挖掘实操部分
    Hadoop2.0安装及测试
    Mahout数据挖掘
    Mahout安装、配置及测试
    K-means聚类分析实例
    Canopy算法实例
    分类算法实例
    贝叶斯分类实例
    推荐系统实例:电影推荐系统
    六、Hadoop综合项目实战
    项目1、文本挖掘项目(运用Mapreduce、pig及mahout)
    庖丁分词器的使用
    MapReduce并行分词程序的设计与实现
    Pig划分数据集
    Mahout构建朴素贝叶斯文本分类器
    模型应用-计算用户偏好类别
    项目2、搜狗数据分析项目(运用Hive、HBase、Mapreduce及Sqoop)
    数据预处理
    构建Hive数据仓库
    实现数据分析
    1、条数分析
    2、关键字分析
    3、UID分析
    4、用户行为分析
    分析结果通过sqoop导出到Mysql,导入到Hbase
    通过HBase API访问数据


    课程涉及到哪些技术,版本是多少?
    答:A:课程涉及到以下技术,目前基本都是最新版本:
    Linux RedHat 5.2
    Maven 3.1.1
    Java 1.7
    Mysql 5.6.16
    Storm 0.9.0
    Hadoop2.0 2.2.0
    Hadoop1.0 1.2.1
    Zookeeper 3.4.5
    Chukwa 0.4.0
    Tez 0.4.1
    Spark 1.0.2
    Scala 2.10.4
    Pathon 2.7.8
    PHP 5.6.0
    Hbase-hadoop1 0.94.16
    Hbase-hadoop2 0.98.5
    Thrift 0.8.0
    Hive-hadoop1 0.11
    Hive-hadoop2 0.13
    Pig 0.12
    Sqoop-hadoop2 1.4.5
    Sqoop-hadoop2 1.99.3
    Flume OG 0.9.4
    Flume NG 1.5.0.1
    Mahout 0.9

  • 相关阅读:
    🍖JS函数
    🍖JS流程控制
    🍖JS运算符介绍
    🍖JS数值类型与字符串类型的内置方法
    多态
    property装饰器
    封装
    组合
    继承&派生 属性查找
    继承与派生
  • 原文地址:https://www.cnblogs.com/timssd/p/5381575.html
Copyright © 2020-2023  润新知