MapReduce/Hbase进阶提升(原理剖析、实战演练)

MapReduce/Hbase进阶提升(原理剖析、实战演练)

什么是MapReduce？

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，和他们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。

有什么用途？

在Google，MapReduce用在非常广泛的应用程序中，包括“分布grep，分布排序，web连接图反转，每台机器的词矢量，web访问日志分析，反向索引构建，文档聚类,机器学习，基于统计的机器翻译...”值得注意的是，MapReduce实现以后，它被用来重新生成Google的整个索引，并取代老的ad hoc程序去更新索引。

MapReduce会生成大量的临时文件，为了提高效率，它利用Google文件系统来管理和访问这些文件。

在谷歌，超过一万个不同的项目已经采用MapReduce来实现,包括大规模的算法图形处理、文字处理、数据挖掘、机器学习、统计机器翻译以及众多其他领域。

什么是HBase？

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

有什么用途？

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

与Yonghong Z-Data Mart等商用大数据产品不同，HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用 Chubby作为协同服务，HBase利用Zookeeper作为对应。

课程介绍

本课程主要针对MapReduce和HBase的高阶应用做深入的讲解和实战演练

课程针对人群

1、本课程适合于有一定java基础知识，对数据库和sql语句有一定了解，熟练使用linux系统的技术人员，特别适合于想换工作或寻求高薪职业的人士

2、最好有Greenplum Hadoop、Hadoop2.0、YARN等大数据基础，学习过北风课程《Greenplum 分布式数据库开发入门到精通》、《全面深入Greenplum Hadoop大数据分析平台》、《Hadoop2.0、YARN深入浅出》为最佳

课程大纲

MapReduce多语言编程（5课时）

MapReduce编程接口

Java编程接口实例解析

Hadoop Streaming实现方式

Hadoop Streaming编程实战（C++，PHP，PYTHON）

Hadoop Streaming原理剖析

Hadoop Pipes的编程实例

Hadoop Pipes的原理剖析

MapReduce高阶实现（14课时）

复杂的MapReduce应用

K-means聚类、贝叶斯分类等

工作流编程实例及原理剖析

JobControl、ChainMapper/ChainReducer

Hadoop工作流引擎

常用MapReduce优化技巧

配置多个reducer

设置Stream的处理格式

控制分片的大小

避免分片

输入格式：文本输入、多种类型输入

输出控制：多个输出、延迟输出

实战：数据分区

MapReduce高级特性

计数器、内置计数器

实例：用户自定义计数器

MapReduce部分排序的实现

实例：MapReduce全排序

Terasort算法分析

实例：MapReduce实现二次排序

连接、Map端连接的实现

实例：Reduce端连接

连接类型、连接策略介绍

重分区连接框架的实现

复制连接框架的实现

实例：半连接

全局作业参数/数据文件传递

HBase编程实践及案例分析（10课时）

HBase基础精讲

HBase Java编程实例

HBase多语言编程

Thrift安装、服务配置

HBase C++编程实例

HBase Python编程实例

HBase MapReduce编程基础

实战：HBase MapReduce编程

Hbase案例：OpenTSDB的实现

基于HBase的爬虫调度库

基于HBase的爬虫索引库

银行人民币查询系统
相关阅读:
Linux 基本权限管理
 javaweb期末项目-stage1-part2-UML设计
 javaweb期末项目-项目结构
 javaweb期末项目-stage1-part1-需求分析（Requirements analysis）
Data type
Backup &recovery备份和还原
 CDI services--Scope（生命周期）&&EL.(Sp El)
CDI services--Event（事件）
CentOS 8.2上安装部署MongoDB 4.4
CentOS8.2 安装部署squid代理服务器
原文地址：https://www.cnblogs.com/timssd/p/5380593.html