培训内容:
第一部分:如何构建分布式数据仓库平台
1. 怎么样才算是真正意义的大数据平台
2. 开源Hadoop介绍
3. 数据采集过程与分布式存储
1)ETL介绍
2)Sqoop
3)HDFS
4. 数据仓库与数据分析
1)MapReduce
2)Hive
3)Pig
4)HBase
5. 集群监控与调度组件
1)Ganglia监控
2)Hadoop集群权限管理
3)Hbase列数据库监控
4)Oozie介绍
6. Hue介绍
7. 运营商全国用户上网记录案例介绍
8. 网上舆情分析
第二部分:大数据平台部署及案例
1. 我们应该选哪种Hadoop?
1)选哪个版本?为什么?
2)选哪种发行版本?为什么?
2. 集群硬件应该如何选配?
1)内存
2)CPU
3)硬盘
3. 部署案例讲解
1)英特尔Hadoop详解
2)某省级通信运营商清帐单查询系统介绍
第三部分:Hbase列数据库及应用案例
1. Hbase感性认识
1)Hbase简介
2)Hbase特点
3)HBase与RDBMS对比
4)HBase体系结构
5)Hbase常见概念
6)性能优化
2. Hbase主要组成
7)Zookeeper、Hmaster
8)HRegionServer、Region
9)HStore存储、Hfile
10)Hbase内部扫描RowKey的原理
11)Hbase内部读写原理
12)HBase设计原理、架构分析
13)Hadoop+HBase伸缩性(自动扩容、热部署)
14)HBase相关表结构设计(列族、列详细分析)
15)HBase主HMaster与备用HMaster间的切换原理
16)HBase基本命令介绍
3. 如何使用Hbase?
17)Hbase的6种使用方式
18)HBase Shell方式访问;
19)HBase Java API方式访问;
20)Hive+Hbase方式访问;
21)Pig+Hbase方式访问;
4. Hbase+Zookeeper使用配置
22)Zookeeper简介
23)Zookeeper与 HBase 的关系
5. Hbase的RowKey设计原则
6. 项目案例:
24)HBase在小米业务的应用
第四部分:大数据挖掘介绍与应用案例
1. 大数据挖掘和传统数据挖掘区别?
1)传统数据挖掘
2)SPSS Modeler 14.2
3)SAS简介
4)Mahout简介
5)R语言介绍
6)R语言连接HIVE
2. 算法介绍和应用
1)关联分析
2)K-means
3)决策数据C5.0
4)逻辑线性Logistic回归
5)主成分/因子分析
6)Apriori算法
7)预测算法
8)神经网络
9)协同过滤挖掘算法
3. 项目案例详解
1)用户行为编好分析
2)客户流失预测分析
3)营销产品推荐系统
4)TF-IDF与余弦相似性的应用