基础介绍
Apache Hudi(简称:Hudi)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。这两种原语分别是:
- Update/Delete记录:Hudi使用细粒度的文件/记录级别索引来支持Update/Delete记录,同时还提供写操作的事务保证。查询会处理最后一个提交的快照,并基于此输出结果。
- 变更流:Hudi对获取数据变更提供了一流的支持:可以从给定的时间点获取给定表中已updated/inserted/deleted的所有记录的增量流,并解锁新的查询姿势(类别)
当下最流行数据湖框架Apache Hudi,使用HDFS、云对象存储存储数据,集成Spark、Flink、Hive、Presto等分析数据,逐步在大中型公司中使用,构建湖仓一体化架构。为了让大家更好学习使用Hudi,基于0.9.0版本,黑马程序员联合ApacheHudi推出本套课程,从数据湖概念,到集成Spark和Flink,最后整合实际需求案例,由0到1深入浅出剖析Hudi使用。
课程概述
本次课程分为三大部分:Hudi基础入门篇、Hudi集成进阶篇和Hudi实战案例篇
- Hudi基础入门篇:主要讲解Hudi框架概述、快速使用Hudi及基本概念。
学习收获:了解什么是数据湖,为什么使用Hudi,及Hudi如何使用管理数据和基本概念理解。 - Hudi应用进阶篇:主要讲解Hudi与Spark整合及与Flink整合,数据流式存储分析。
学习收获:如何在企业中使用Hudi,尤其与Spark和Flink集成,无论是流式存储还是离线分析计算。 - Hudi实战案例篇:主要讲解Hudi在传智教育博学谷和数据中心中实际案例
学习收获:如何在实际业务中使用Hudi,与Spark或Flink集成,掌握实战操作
视频观看地址
https://www.bilibili.com/video/BV1sb4y1n7hK
欢迎在评论区留下你的学习收获,或者对于课程的建议。
关于传智教育
传智教育是一家以就业为导向,培养科技人才的职业教育机构,2021年1月12日在深交所主板上市,成为中国教育行业A股IPO第一股(股票代码003032)。自成立以来,传智教育紧随国家互联网科技战略及产业发展步伐,始终与软件、互联网、智能制造等前沿技术齐头并进,已持续向社会高科技企业输送数十万名科技人才,促进了当地数字化经济的发展及新一代信息技术行业的发展,积极响应了党和国家“大力发展职业教育”、“新一代人工智能发展”号召,有力配合了国家“稳就业”、“教育强国”、“信息化发展”战略,为当地数字化经济发展及企业数字化转型升级提供了强有力的人才支撑。
关于ApacheHudi
Apache Hudi是Apache顶级开源项目,Hudi是一个支持插入、更新、删除的流式数据湖平台,为数据湖带来了类似数据仓库及数据库的功能,诸如分钟级数据新鲜度、优化存储、自我管理表等功能,借助Apache Hudi可快速构建下一代企业级数据湖平台。