第一部份: 数据平台整体介绍
(1) 数据平台整体介绍
(2) 各种异构数据清洗加载
(3) 任务调度系统设计
(4) 业务快速迭代过程中,数据模型如何构建
(5) 大数据平台基本组件以及技术选型
第二部份:环境准备
(1) Hadoop安装配置管理
(2) spark安装配置管理
(3) sqoop,flume安装配置
(4) 数据压缩存储格式,几种数据存储格式对比
第三部份: 数据同步收集(一)
(1) 如何从rdbms同步数据到hdfs
(2) 自己开发ETL 数据抽取工具
(2) sqoop的使用
(3) 后台日志,nginx日志等数据的清洗规范化,介绍 hadoop streaming,mapreduce,
使用spark/Scala模式匹配 等方式清洗日志
(4) 特殊格式日志如何清洗
第四部份: 数据同步收集(二)
(1) 异地跨网段数据同步清洗方案
(2) 超大数据量日志同步清洗,并保证数据的准确性
(3) 同步数据小文件过多如何处理
(4) 历史数据归档处理,冷热数据存储
第五部份:数据同步收集(三)
(1) 准小时级别数据更新处理
(2) 使用spark streaming,kafka 等实时处理后台,nginx 日志
(3) mySQL binlog实时日志处理
第六部份:任务调度系统设计
(1) 定时任务设计以及处理
(2) 触发,依赖模式的任务调度系统设计
(3) 调度系统中如何做到ETL任务依赖关系自动解析
(4) 手把手教你实现一个任务调度系统
第七部份:调度系统选择
(1) oozie,azkaban,airflow等调度系统介绍
(2) airbnb airflow基本架构设计
(3) Airflow 任务调度系统配置和使用
(4) Airflow 高级使用
(5) Airflow 二次开发,自定义某些功能模块
第八部份: ETL任务系统设计
(1) 数据抽取,加载工具的实现
(2) ETL任务模板的实现
(3) ETL任务元数据设计
(4) 企业级数据仓库模型设计:维度建模,分层,宽表设计等
第九部份:adhoc查询以及查询平台
(1) presto,impala,spark-sql 的使用
(2) hue搭建以及使用
(3) zeppelin搭建以及使用,zeppelin中调试spark,pyspark等
(5) 更快的查询,毫秒级的响应速度之elasticsearch
第十部份:数据罗盘
(1) 数据罗盘常图表样式
(2) airbnb开发的Superset 安装以及使用
(3) Superset架构介绍以及使用案例
(4) Superset简单定制化开发
第十一部份:数据安全
(1) 从hdfs层面来空值数据的访问权限
(2) 如何保障敏感表,敏感字段的安全性
(3) 应用层面,查询服务层来保障安全
第十二部份:大数据平台监控
(1) etl任务监控,数据质量监控
(2) etl作业日志,yarn日志解析以及监控
(3) 数据量增长,数据量未来发展准确预估
(4) 借助对象存储,把冷热数据分离处理
|