数据湖架构开发-Hudi入门教程

当下大数据技术在工业环境中应用,主要构建离线数仓和实时数仓,进行大规模数据管理和分析。为了更好管理数据,出现数据湖DataLake:用来存储大量的原始数据。当下最流行数据湖框架Apache Hudi,使用HDFS存储数据,集成Spark、Flink、Hive等分析数据,逐步在大中型公司中使用,构建湖仓一体化架构。为了让大家更好学习使用Hudi,基于0.9.0版本,推出本套课程,从数据湖概念,到集成Spark和Flink,最后整合实际需求案例,由0到1深入浅出剖析Hudi使用,整个课程分为:基础入门篇、应用进阶篇和实战案例篇,涵盖最新特性和功能。

大数据数据湖架构Hudi视频教程,从Apache Hudi基础到项目实战(涵盖HDFS+Spark+Flink+Hive)

资料链接:https://pan.baidu.com/s/1zKXtY-dPzEGWWYsn5w88sQ?pwd=igvc
提取码:igvc

本次课程分为 三大部分:Hudi 基础入门篇、Hudi 集成进阶篇和Hudi 实战案例篇

Hudi 基础入门篇:主要讲解Hudi 框架概述、快速使用Hudi及基本概念。
学习收获:了解什么是数据湖,为什么使用Hudi,及Hudi 如何使用管理数据和基本概念理解。

Hudi 应用进阶篇:主要讲解Hudi与Spark整合及与Flink整合,数据流式存储分析。
学习收获:如何在企业中使用Hudi,尤其与Spark和Flink集成,无论是流式存储还是离线分析计算。

Hudi 实战案例篇 :主要讲解Hudi在传智教育博学谷和数据中心中实际案例。
学习收获:如何在实际业务中使用Hudi,与Spark或Flink集成,掌握实战操作。`

课程内容:

1-Hudi 基础入门篇
1-1.什么是数据湖
1-2.数据湖框架
1-3.Apache Hudi 基本介绍
1-4.Apache Hudi 快速发展
1-5.编译 Hudi 源码
1-6.大数据环境准备
1-7.spark-shell 使用
1-8.初识 Hudi 数据管理
1-9.IDEA 编程开发
1-10.基本概念
1-11.表的存储类型
1-12.数据写操作流程

2-Hudi 应用进阶篇
2-1.Hudi集成Spark
2-1-1.大数据环境准备
2-1-2.滴滴运营分析
2-1-3.结构化流写入Hudi
2-1-4.集成 SparkSQL
2-2.Hudi集成Flink
2-2-1.安装部署 Flink 1.12
2-2-2.快速入门使用
2-2-3.Streaming Query
2-2-4.Flink SQL Writer
2-2-5.Hudi CDC

3-Hudi 实战案例篇
3-1.传智教育博学谷Hudi案例实战
3-1-1.案例技术架构
3-1-2.业务数据调研
3-1-3.七陌数据采集
3-1-4.实时存储七陌数据
3-1-5.集成Hive指标分析
3-1-6.Spark 离线指标分析
3-1-7.FineBI 报表可视化

3-2.传智教育数据中心Hudi案例实战
3-2-1.案例实战技术架构
3-2-2.业务数据调研
3-2-3.Flink CDC 实时数据采集
3-2-4.Presto 即席分析
3-2-5.Flink SQL 流式分析
3-2-6.FineBI 报表可视化

你可能感兴趣的