学习内容:
Spark介绍、Spark应用场景 、Spark和Hadoop MR、Storm的比较和优势 、RDD、Transformation、Action、Spark计算PageRank、Lineage、Spark模型简介、Spark缓存策略和容错处理、宽依赖与窄依赖、Spark配置讲解、Spark集群搭建、集群搭建常见问题解决、Spark原理核心组件和常用RDD、数据本地性、任务调度、 DAGScheduler、TaskScheduler、Spark源码解读、性能调优、Spark和Hadoop2.x整合:Spark on Yarn原理......
学习目标:
本部分内容全面涵盖了Spark生态系统的概述及其编程模型,深入内核的研究,Spark on Yarn,Spark Streaming流式计算原理与实践,Spark SQL,Spark的多语言编程以及SparkR的原理和运行