曙海教育集团
全国报名免费热线:4008699035 微信:shuhaipeixun
或15921673576(微信同号) QQ:1299983702
首页 课程表 在线聊 报名 讲师 品牌 QQ聊 活动 就业
 
大数据Hadoop生态体系课程培训

 
  班.级.规.模.及.环.境--热.线:4008699035 手.机:15921673576( 微.信.同.号)
      每个班级的人数限3到5人,互动授课, 保障效果,小班授课。
  上间和地点
上部份地点:【上海】同济大学(沪西)/新城金郡商务楼(11号线白银路站)【深圳分部】:电影大厦(地铁一号线大剧院站)/深圳大学成教院【北京分部】:北京中山学院/福鑫大楼【南京分部】:金港大厦(和燕路)【武汉分部】:佳源大厦(高新二路)【成都分部】:领馆区1号(中和大道)【沈阳分部】:沈阳理工大学/六宅臻品【郑州分部】:郑州大学/锦华大厦【石家庄分部】:河北科技大学/瑞景大厦
最近开间(周末班/连续班/晚班):2019年1月26日
  实.验.设.备
    ◆小班教学,教学效果好
       
       ☆注重质量☆边讲边练

       ☆合格学员免费推荐工作
       ★实.验.设.备请点击这儿查看★
  质.量.保.障

       1、免费重修;
       2、课程结束后,授课老师留联系方式,保障培训效果,免费技术支持。
       3、推荐机会。☆合格学员免费颁发相关工程师等资格证书,提升职业资质。专注高端技术培训15年,曙海学员的能力得到大家的认同,受到用人单位的广泛赞誉,曙海的证书受到广泛认可。

部份程大纲
 
  • 01 大数据概论 & Hadoop生态
    大数据概念
    大数据的特点(4V)
    大数据应用场景
    大数据发展前景
    大数据部门业务流程分析
    大数据部门组织结构(重点)
    Hadoop是什么
    Hadoop发展历史
    Hadoop三大发行版本
    Hadoop的优势(4高)
    02 Hadoop入门
    Hadoop组成
    HDFS架构概述
    YARN架构概述
    MapReduce架构概述
    大数据技术生态体系
    推荐系统框架图
    Hadoop运行环境搭建
    虚拟机环境准备
    安装JDK、安装Hadoop
    Hadoop目录结构
    03 Hadoop运行模式
    本地运行模式
    官方Grep案例
    官方WordCount案例
    伪分布式运行模式
    启动HDFS并运行MapReduce程序
    启动YARN并运行MapReduce程序
    配置历史服务器
    配置日志的聚集
    配置文件说明
    完全分布式运行模式
    04 完全分布式模式&源码编译
    虚拟机准备
    编写集群分发脚本xsync
    集群配置
    集群单点启动
    SSH无密登录配置
    群起集群
    集群启动/停止方式总结
    集群时间同步
    Hadoop编译源码
    常见错误及解决方案
    05 HDFS入门
    HDFS概述
    HDFS产出背景及定义
    HDFS优缺点
    HDFS组成架构
    HDFS文件块大小
    HDFS的Shell操作
    HDFS客户端操作
    HDFS客户端环境准备
    HDFS的API操作
    HDFS文件上传

    06 HDFS的API操作
    HDFS文件下载
    HDFS文件夹删除
    HDFS文件名更改
    HDFS文件详情查看
    HDFS文件和文件夹判断
    HDFS的I/O流操作
    HDFS文件上传
    HDFS文件下载
    07 HDFS的框架原理
    定位文件读取
    HDFS的数据流
    HDFS写数据流程
    剖析文件写入
    网络拓扑-节点距离计算
    机架感知
    副本存储节点选择
    HDFS读数据流程
    08 NN & DN工作机制
    NameNode&2NN工作机制
    Fsimage和Edits解析
    CheckPoint时间设置
    NameNode故障处理
    集群安全模式
    NameNode多目录配置
    DataNode工作机制
    数据完整性
    09 DN工作机制&新特性
    掉线时限参数设置
    服役新数据节点
    退役旧数据节点
    添加白名单
    黑名单退役
    Datanode多目录配置
    HDFS 2.X新特性
    集群间数据拷贝
    10 新特性& HA框架原理
    小文件存档
    回收站
    快照管理
    HA概述
    HDFS-HA工作机制
    HDFS-HA工作要点
    HDFS-HA自动故障转移工作机制
    HDFS-HA集群配置
    第三阶段
    大数据Hadoop生态体系
    11 HDFS-HA集群配置
    环境准备
    规划集群
    配置Zookeeper集群
    配置HDFS-HA集群
    启动HDFS-HA集群
    配置HDFS-HA自动故障转移
    YARN-HA配置
    YARN-HA工作机制
    配置YARN-HA集群
    HDFS Federation架构设计
    12 MapReduce框架原理
    MapReduce核心思想
    MapReduce进程
    MapReduce编程规范(八股文)
    MapReduce程序运行流程分析
    MapReduce工作流程
    常用数据序列化类型
    自定义bean对象实现序列化接口
    FileInputFormat切片机制
    CombineTextInputFormat切片机制
    自定义InputFormat
    13 Shuffle机制
    MapTask工作机制
    并行度决定机制
    Shuffle机制
    Partition分区
    WritableComparable排序
    GroupingComparator分组(辅助排序)
    Combiner合并
    数据倾斜&Distributedcache
    ReduceTask工作机制
    自定义OutputFormat
    14 数据压缩 & Yarn
    MapReduce支持的压缩编码
    采用压缩的位置
    压缩配置参数
    计数器应用、数据清洗
    Yarn基本架构、工作机制
    Yarn资源调度器、任务推测执行
    MapReduce作业提交全过程
    MapReduce开发总结
    MapReduce参数优化
    企业高频真题讲解20道
    15 MapReduce案例(一)
    案例一:统计一堆文件中单词出现的个数
    案例二:把单词按照ASCII码奇偶分区
    案例三:对每一个maptask的输出局部汇总
    案例四:大量小文件的切片优化
    案例五:统计手机号耗费的流量
    案例六:按照手机归属地不同省份输出到不同文件中
    案例七:按照总流量倒序排序
    案例八:不同省份输出文件内部排序
    案例九:求每个订单中最贵的商品
    案例十:Reduce端表合并(数据倾斜)

    16 MapReduce案例(二)
    案例十一:Map端表合并(Distributedcache)
    案例十二:小文件处理(自定义InputFormat)
    案例十三:自定义日志输出路径(自定义OutputFormat)
    案例十四:日志清洗(数据清洗)
    案例十五:倒排索引(多job串联)
    案例十六:找博客共同好友分析
    案例十七:对数据流的压缩和解压缩
    案例十八:在Map输出端采用压缩
    案例十九:在Reduce输出端采用压缩
    案例二十:TopN案例
    17 Zookeeper原理
    Zookeeper概述、特点
    Zookeeper数据结构
    Zookeeper应用场景
    Zookeeper下载地址
    Zookeeper本地模式安装
    配置参数解读
    Zookeeper内部原理
    Zookeeper选举机制
    Zookeeper节点类型
    Stat结构体
    18 Zookeeper原理&实战
    监听器原理、写数据流程
    分布式安装部署
    客户端命令行操作
    API应用环境搭建
    创建ZooKeeper客户端案例
    创建子节点案例
    获取子节点并监听节点变化案例
    判断Znode是否存在案例
    监听服务器节点动态上下线案例
    企业高频真题讲解3道
    19 Hive入门&安装
    什么是Hive
    Hive的优缺点
    Hive架构原理
    Hive和数据库比较
    Hive安装地址
    Hive安装部署
    将本地文件导入Hive案例
    MySql安装
    安装MySql服务器
    安装MySql客户端
    20 Hive远程连接
    MySql中user表中主机配置
    Hive元数据配置到MySql
    驱动拷贝
    配置Metastore到MySql
    多窗口启动Hive测试
    HiveJDBC访问
    启动hiveserver2服务
    启动beeline
    连接hiveserver2
    Hive常用交互命令
    第三阶段
    大数据Hadoop生态体系
    21 Hive命令 & 数据类型
    Hive其他命令操作
    Hive常见属性配置
    Hive数据仓库位置配置
    Hive查询后信息显示配置
    Hive运行日志信息配置
    参数配置方式
    Hive数据类型
    Hive基本数据类型
    Hive集合数据类型
    类型转化
    22 Hive DDL数据定义
    创建数据库
    查询数据库
    修改数据库
    删除数据库
    创建管理表
    创建外部表
    管理表与外部表的互相转换
    分区表基本操作
    分区表注意事项
    修改表、删除表
    23 Hive DML数据操作
    向表中装载数据(Load)
    通过查询语句向表中插入数据(Insert)
    查询语句中创建表并加载数据(as select)
    创建表时通过location指定加载数据路径
    Import数据到指定hive表中
    Insert导出
    Hadoop命令导出到本地
    Hive Shell 命令导出
    Export导出到HDFS上
    清除表中数据(Truncate)
    24 Hive查询
    全表和特定列查询
    列别名
    算术运算符、常用函数
    LIMIT语句
    WHERE语句
    比较运算符(BETWEEN/IN/ IS NULL)
    LIKE和RLIKE
    逻辑运算符(AND/OR/NOT)
    分组、GROUP BY语句
    HAVING语句
    25 Hive JOIN & 排序
    等值JOIN & 表的别名
    内连接
    左外连接、右外连接
    满外连接、多表连接
    笛卡尔积 JOIN
    全局排序(Order By)
    按照别名排序、多个列排序
    每个MapReduce内部排序(Sort By)
    分区排序(Distribute By)
    CLUSTER BY

    26 Hive分桶 & 函数
    分桶表数据存储
    分桶抽样查询
    常用查询函数
    空字段赋值
    CASE WHEN
    行转列
    列转行
    窗口函数
    Rank
    系统内置函数
    27 Hive函数 & 压缩 & 存储
    自定义UDF、UDAF、UDTF函数
    压缩和存储
    源码编译支持Snappy压缩
    开启Map输出阶段压缩
    开启Reduce输出阶段压缩
    列式存储和行式存储
    TextFile格式、Orc格式
    Parquet格式
    主流文件存储格式对比实验
    存储和压缩结合案例
    28 企业级调优
    Fetch抓取
    本地模式
    表的优化
    小表、大表Join
    大表Join大表
    MapJoin
    Group By
    Count(Distinct) 去重统计
    笛卡尔积
    行列过滤
    29 Hive企业级调优(二)
    动态分区调整
    分桶、分区
    Map数
    小文件进行合并
    复杂文件增加Map数
    Reduce数
    并行执行、严格模式
    JVM重用、推测执行
    压缩
    EXPLAIN(执行计划)
    30 企业级调优 & 项目实战
    项目视频表
    项目用户表
    项目技术选型
    数据清洗
    数据分析
    ETL之ETLUtil
    ETL之Mapper
    ETL之Runner
    执行ETL
    项目数据准备
    第三阶段
    大数据Hadoop生态体系
    31 Hive项目实战&企业真题
    统计视频观看数Top10
    统计视频类别热度Top10
    统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数
    统计视频观看数Top50所关联视频的所属类别Rank
    统计每个类别中的视频热度Top10,以Music为例
    统计每个类别中视频流量Top10,以Music为例
    统计上传视频最多的用户Top10以及他们上传的观看次数在前20的视频
    统计每个类别视频观看数Top10
    项目总结
    企业高频真题讲解2道
    32 Cloudera Manager & Impala
    CM概念
    CM功能
    CM环境准备
    CM安装部署
    CM案例实操
    Impala入门
    什么是Impala
    Impala优缺点
    Impala架构
    Impala下载地址
    33 Impala安装
    Impala安装方式
    Impala监护管理
    Impala初体验
    Impala的操作命令
    Impala的外部shell
    Impala的内部shell
    Impala的数据类型
    DDL数据定义
    创建数据库
    查询数据库
    34 Impala操作
    创建管理表、外部表
    创建分区表
    向表中导入数据
    查询分区表中的数据
    增加多个分区
    删除分区、查看分区
    数据导入、导出
    自定义函数
    存储和压缩
    优化
    35 IDEA
    IDEA介绍
    Windows下安装过程
    启动应用后简单配置
    创建工程
    设置显示常见的视图
    工程界面展示
    创建package和class
    设置常用配置20项
    设置快捷键、自定义模板
    关联Tomcat、Web项目案例实操

    36 数据采集框架Flume
    Flume定义
    Flume组成架构
    Flume拓扑结构
    Flume Agent内部原理
    Flume事务
    Flume快速入门
    Flume下载地址、安装部署
    案例一:监控端口数据官方案例
    案例二:实时读取本地文件到HDFS案例
    案例三:实时读取目录文件到HDFS案例
    37 Flume高级
    案例四:单数据源多出口案例(选择器)
    案例五:单数据源多出口案例(Sink组)
    案例六:多数据源汇总案例
    自定义组件
    案例七:自定义Source案例
    案例八:自定义Sink案例
    Flume监控之Ganglia
    Ganglia的安装与部署
    操作Flume测试监控
    企业高频真题讲解6道
    38 Kafka入门
    消息队列
    为什么需要消息队列
    什么是Kafka
    Kafka架构
    环境准备
    Kafka集群部署
    Kafka命令行操作
    Kafka工作流程分析
    数据写入方式
    数据分区(Partition)
    39 Kafka原理
    数据副本(Replication)
    数据写入流程
    数据保存
    存储方式
    存储策略
    Zookeeper存储
    本地存储
    数据消费
    高级API
    低级API
    40 Kafka高级
    消费者组
    消费方式
    消费者组案例
    Kafka生产者Java API
    创建生产者(新API)
    创建生产者带回调函数(新API)
    自定义分区生产者
    Kafka消费者高级API
    Kafka消费者低级API
    Kafka拦截器原理及案例
    第三阶段
    大数据Hadoop生态体系
    41 Kafka高级
    Kafka监控
    KafkaManager
    KafkaMonitor
    Kafka进阶
    分区分配策略
    Range Strategy
    RoundRobin Strategy
    高可靠性存储
    Kafka文件存储机制
    复制原理和同步方式

    42 Kafka高级 & 面试题
    ISR
    数据可靠性和持久性保证
    框架整合
    Kafka与Flume比较
    Flume与Kafka集成
    Kafka Streams简介
    Kafka Streams特点
    为什么要有Kafka Stream
    Kafka Stream数据清洗案例
    企业高频真题10道

    43 HBase原理及安装
    HBase的角色
    HBase的架构
    HBase部署与使用
    HBase基本操作
    HBase表的操作
    HBase读数据流程
    HBase写数据流程
    HBase JavaAPI
    安装Maven并配置环境变量
    新建Maven Project
    编写HBaseAPI程序
    44 HBase集成及运维
    官方HBase-MapReduce
    自定义HBase-MapReduce1
    自定义HBase-MapReduce2
    HBase与Hive的对比
    HBase与Hive集成使用
    与Sqoop的集成
    常用的Shell操作
    数据的备份与恢复
    节点的服役
    节点的退役
    版本的确界
    45 HBase企业级优化
    HBase高可用
    Hadoop的通用性优化
    Linux优化
    Zookeeper优化
    HBase优化
    HBase预分区优化
    RowKey设计
    内存优化
    基础优化
    HBase在商业项目中的能力
    HBase2.0新特性

    46 HBase微博项目
    微博系统需求分析
    微博系统代码设计
    创建命名空间以及表名的定义
    创建微博内容表
    创建用户关系表
    发布微博内容
    添加关注用户
    移除(取关)用户
    获取关注的人的微博内容
    测试
    47 Sqoop
    Sqoop原理、安装
    导入数据
    RDBMS到HDFS
    RDBMS到Hive
    导出数据
    HIVE/HDFS到RDBMS
    脚本打包、常用命令列举
    命令&参数详解
    Sqoop的案例实操

    48 Azkaban
    各种调度工具特性对比
    Azkaban与Oozie对比
    Azkaban特点
    Azkaban下载地址
    Azkaban安装部署
    案例一:Command类型之单一job
    案例二:Command类型之多job工作流
    案例三:HDFS操作任务调度
    案例四:MapReduce任务调度
    案例五:Hive脚本任务调度
    49 Oozie
    Oozie框架原理
    Oozie的功能模块
    Oozie的常用节点
    Oozie的安装部署
    案例一:Oozie调度shell脚本
    案例二:Oozie逻辑调度执行多个Job
    案例三:Oozie调度MapReduce任务
    案例四:Oozie定时任务/循环任务


    50 HUE
    HUE简介
    HUE安装
    案例一:HUE与HDFS集成案例
    案例二:HUE与YARN集成案例
    案例三:HUE与Hive集成案例
    案例四:HUE与Mysql集成案例
    案例五:HUE与Oozie集成案例
    案例六:HUE与HBase集成案例
    案例七:HUE与Zookeeper集成案例
    案例八:HUE与Sqoop2集成案例
    第三阶段
    大数据Hadoop生态体系
    51 Git&Git Hub
    Git安装配置
    Git本地库搭建
    Git常用操作命令
    Github注册与配置
    Github与Git协同办公
    TortoiseGit安装配置
    Egit操作push/pull,
    Git工作流
    集中式&GitFlow&Forking
    52 ETL数据清洗工具Kettle
    Kettle入门
    Kettle安装
    Kettle使用
    案例一:日志文件导数据到Hive
    案例二:MySQL导数据到Hive
    案例三:Hive导数据到Hive
    案例四:Hive导数据到HBase
    案例五:Hive导数据到ES

    53 Kylin
    Kylin应用场景
    Kylin工作原理
    Kylin体系架构
    Kylin集群环境
    为Kylin集群搭建负载均衡器
    Sample Cube案例
    Cube创建案例
    查询Cube
    Kylin的元数据、垃圾清理
    54 Storm原理
    Storm应用场景及行业案例
    Storm特点、编程模型
    元组(Tuple)、流(Stream)
    水龙头(Spout)、转接头(Bolt)
    拓扑(Topology)
    主控节点与工作节点
    流分组(Stream grouping)
    工作进程(Worker)
    spout的tail特性
    55 Storm案例
    执行器(Executor)、任务(Task)
    实时流计算常见架构图
    Storm集群规划、集群搭建
    Storm命令行操作
    分组策略和并发度
    网站日志处理案例
    实时单词统计案例
    实时计算网站PV案例
    实时计算网站UV去重案例
 

-

 

  备案号:沪ICP备08026168号 .(2014年7月11)..............