本课程内容:
第一章:
1、课程内容
2、课程需要的环境
第二章:spark SQL相关的基本概念
1、spark SQL基本概念
2、浅尝spark SQL的API
3、浅尝spark SQL的API(python版)
4、SparkSession的讲解
5、SparkSession的讲解(python版)
第三章 Dataset/DataFrame的创建
1、DataFrame的创建
2、DataFrame的创建(python版)
3、schema的定义以及复杂数据类型的用法
4、schema api的用处
5、schema相关API的讲解(python版)
第四章 spark SQL读写外部数据源
1、基本操作load和save
2、基本操作load和save(python版)
3、parquet和orc文件的读写
4、parquet和orc文件的读写(python版)
5、json文件的读写一
6、json文件的读写二
7、json文件的读写(python版)
8、csv文件的读写一
9、csv文件的读写二
10、csv文件的读写(python版)
11、通过jdbc读写mysql数据库
12、通过jdbc写mysql数据库需要注意的点
13、通过jdbc读mysql数据库需要注意的点
14、通过jdbc读写mysql数据库(python版)
15、text文件和table数据源的读写
16.、text文件和table数据源的读写(python版)
17、数据源实战之数据分区
18、数据源实战之数据分区(python版)
第五章: SQL操作spark SQL
1、catalog元数据管理讲解
2、catalog元数据管理讲解(python版)
3、DDL-表的类型种类及其创建方式
4、DDL-表的类型种类及其创建方式(python版)
5、DQL-sql查询及其sql函数讲解
6、DQL-sql查询及其sql函数讲解(python版)
7、SQL内置函数(绝对全)
第六章:Dataset/DataFrame的API的使用
1、Column的表达
2、Column的表达(python版)
3、DataFrame中Untyped API讲解
4、DataFrame中Untyped API讲解(python版)
5、DataFrame Untyped API与SQL对比
6、group分组聚合相关API
7、group分组聚合相关API(python版)
8、join关联相关API
9、join关联相关API(python版)
10、sort排序相关API
11、sort排序相关API(python版)
12、Action API和其他API
第六章:spark SQL实战
1、RDDs\DataFrames\Datasets各自使用场景
2、json格式数据处理
3、json格式数据处理(python版)
4、物联网设备信息的ETL
5、物联网设备信息的ETL(python版)