第一章:课程概述与Linux基础
(01)Spark从基础开始
(02)安装Linux的实验环境
(03)Linux的配置与课程概述
(04)使用vi编辑器
(05)Linux的常用命令和JDK的安装
(06)案例:分析Java的死锁
第二章:Scala编程基础
(07)Scala简介和配置
(08)Scala中数据的类型
(09)变量、函数、条件判断
(10)Scala中的循环
(11)函数的参数
(12)懒值和异常处理
(13)数组
(14)元组和映射
第三章:Scala的面向对象编程
(15)Scala面向对象语言概述
(16)面向对象的概念和类的定义
(17)属性的get和set方法
(18)内部类
(19)类的构造器
(20)Object对象
(21)类的apply方法
(22)继承
(23)trait
(24)包和包对象
第四章:Scala的函数式编程
(25)Scala语言的函数式编程概述
(26)Scala的函数和匿名函数
(27)带函数参数的函数
(28)闭包
(29)柯里化
(30)高阶函数示例
第五章:Scala的集合
(31)可变集合和不可变集合
(32)可变列表和不可变列表
(33)序列
(34)集Set
(35)模式匹配
(36)样本类
第六章:Scala的高级特性
(37)泛型类
(38)泛型函数
(39)上界和下界
(40)视图界定
(41)协变和逆变
(42)隐式转换函数
(43)隐式参数和隐式类
第七章:Spark的体系结构与安装配置
(44)Spark Core课程概述
(45)什么是Spark和特点
(46)Spark的体系结构
(47)安装和部署Spark环境
(48)基于文件目录的单点故障恢复
(49)基于ZooKeeper的Spark HA的实现
(50)利用ZooKeeper实现分布式锁
第八章:执行Spark任务
(51)使用spark-submit提交spark任务
(52)使用spark-shell交互式命令行工具
(53)开发Scala版本的WordCount程序
(54)开发Java版本的WordCount程序
(55)分析WordCount程序的执行过程
(56)Spark提交任务的流程
第九章:RDD和RDD的算子
(57)什么是RDD
(58)RDD的算子
(59)RDD基本算子示例
(60)RDD的缓存机制
(61)RDD的容错机制
(62)RDD的依赖关系和Spark任务中的Stage
(63)高级算子:mapPartitionsWithIndex
(64)高级算子:aggregate
(65)高级算子:aggregate(1)
(66)高级算子:aggregate(2)
(67)高级算子:aggregateByKey
(68)高级算子:coalesce和repartition
第十章:Spark RDD编程案例
(69)案例一:求网站访问量
(70)案例二:自定义分区28:55
(71)案例三:访问关系型数据库29:58
(72)案例四:使用JdbcRDD
第十一章:Spark SQL基础
(73)Spark SQL课程概述
(74)什么是Spark SQL?
(75)通过case class创建DataFrame
(76)通过SparkSession创建DataFrame
(77)通过带格式的文件创建DataFrame
(78)操作DataFrame
(79)临时视图
(80)DataSet简介
第十二章:Spark SQL的数据源
(81)load和save函数
(82)什么是Parquet文件
(83)Parquet文件Schema的合并
(84)读取JSON文件
(85)使用JDBC数据源
(86)访问HiveTable
(87)指定schema的格式
(88)使用caseclass
(89)保存到关系型数据库中
(90)SparkSQL性能的优化
第十三章:Spark Streaming基础
(91)SparkStreaming课程概述
(92)什么是SparkStreaming和结构
(93)演示Demo:NetworkWordCount
(94)开发自己的NetworkWordCount程序
第十四章:Spark Streaming进阶
(95)StreamingContext和DStream简介
(96)DStream中的转换操作
(97)窗口操作
(98)DStream的输入和输出
(99)集成Spark SQL
第十五章:使用外部数据源
(100)集成Spark Streaming和Flume(1)
(101)集成Spark Streaming和Flume(2)
(102)Kafka消息系统简介和体系结构
(103)搭建Kafka环境
(104)集成Spark Streaming和Kafka
-