这是一个信息爆炸的时代。经过数十年的积累,很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急。但数据增长的速度往往比cou和内存性能增长的速度还要快得多。要处理海量数据,如果求助于昂贵的专用主机甚至超级计算机,成本无疑很高,有时即使是保存数据,也需要面对高成本的问题,因为具有海量数据容量的存储设备,价格往往也是天文数字。成本和IT能力成为了海量数据分析的主要瓶颈。
Hadoop这个开源产品的出现,打破了对数据力量的压制。Hadoop源于Nutch这个小型的搜索引擎项目。而Nutch则出自于著名的开源搜索引擎解决方案Lucene,而Lucene则来源于对Google的学习模仿。在Hadoop身上有着明显的Google的影子。HDFS是GFS的山寨版,Map-Reduce的思想来源于Goolge对Page rank的计算方法,HBase模仿的是Big Table,Zookeeper则学习了Chubby。Google巨人的力量尽管由于商业的原因被层层封锁,但在Hadoop身上得到了完美的重生和发展。
第1节 Hadoop的源起与体系介绍;实施Hadoop集群;CDH家族
第2节 分布式文件系统HDFS原理与操作,HDFS API编程;2.x下HDFS新特性,高可用,联邦,快照
第3节 具有全部新特性的2.x企业级集群实施
第4节 Map-Reduce原理、体系架构和工作机制,eclipse与Hadoop集群连接,使用maven
第5节 Map-Reduce编程实战,日志分析
第6节 Map-Reduce复杂应用案例,Hadoop流
第7节 新一代计算框架YARN
第8节 Pig原理,部署与Pig Latin语言,应用案例
第9节 Hive体系架构、安装与HiveQL
第10节 Hive应用案例,impala子项目
第11节 Zookeeper与分布式系统开发
第12节 HBase体系架构,集群部署,管理
第13节 HBase数据模型,实战案例建模剖析
第14节 数据集成Sqoop,Flume,Chukwa,商业数据库与Hadoop集群的连接
第15节 与应用连接,REST和Thrift接口,UDF实战,RHadoop,数据分析软件与Hadoop集群的连接
第16节 进军Hadoop源代码
第17节 Hadoop在互联网企业中的应用案例;集成各个子项目形成企业级数据分析平台;Hadoop与机器学习 |