SPARK课程讲解

课程概述
目录
资料区

spark的教学体系。体系涵盖了从基础学习到spark的性能优化。

1、所有视频涵盖以下所有内容，word文档结构如下(文档于资料处下载):

第1章Spark概述

1.1什么是Spark

1.2Spark特点

1.3Spark核心概念

第2章SparkCore应用解析

2.1RDD概念

2.1.1RDD为什么会产生?

2.1.2RDD概述

2.1.3RDD弹性

2.1.4RDD特点

2.2RDD编程

2.2.1编程模型

2.2.2创建RDD

2.2.3RDD编程

2.2.4RDD持久化

2.2.5RDD检查点机制

2.2.6RDD的依赖关系

2.2.7DAG的生成

2.2.8RDD相关概念关系

2.3键值对RDD

2.3.1键值对RDD的转化操作

2.3.2键值对RDD的行动操作

2.3.3键值对RDD的数据分区

2.4数据读取与保存主要方式

2.4.1文本文件输入输出

2.4.2JSON文件输入输出

2.4.3CSV文件输入输出

2.4.4SequenceFile文件输入输出

2.4.5对象文件输入输出

2.4.6Hadoop输入输出格式

2.4.7文件系统的输入输出

2.4.8数据库的输入输出

2.5RDD编程进阶

2.5.1累加器

2.5.2自定义累加器

2.5.3广播变量

2.6Spark 组件基本概念和运行流程

2.6.1组件基本概念

2.6.2运行流程

2.7Spark Shuffle过程

2.7.1HashShuffle过程介绍

2.7.2SortShuffle过程介绍

2.7.3MapReduce与Spark过程对比

2.8部署模式解析

2.8.1本地运行模式

2.8.2分布式(集群)部署模式概述

第3章Spark SQL

3.1 Spark SQL 概述

3.1.1什么是Spark SQL

3.1.2RDD vs DataFrames vs DataSet

3.2执行SparkSQL查询

3.2.1命令行查询流程

3.2.2IDEA创建SparkSQL程序

3.2.3Java创建SparkSQL程序

3.3SparkSQL解析

3.3.1新的起始点SparkSession

3.3.2创建DataFrames

3.3.3DataFrame常用操作

3.3.4创建DataSet

3.3.5DataFrame和RDD互操作

3.3.6类型之间的转换总结

3.3.7用户自定义函数

3.4SparkSQL数据源

3.4.1通用加载/保存方法

3.4.2Parquet文件

3.4.3Hive数据库

3.4.4JSON数据集

3.4.5JDBC

第4章Spark性能优化

4.1调优基本原则

4.1.1基本概念和原则

4.1.2性能监控方式

4.1.3调优要点

4.2数据倾斜优化

4.2.1为何要处理数据倾斜（Data Skew）

4.2.2如何定位导致数据倾斜的代码

4.3Shuffle调优

4.3.1调优概述

4.3.2ShuffleManager发展概述

4.3.3HashShuffleManager运行原理

4.3.4SortShuffleManager运行原理

4.3.5shuffle相关参数调优

4.4程序开发开发调优

4.4.1原则一：避免创建重复的RDD

4.4.2原则二：尽可能复用同一个RDD

4.4.3原则三：对多次使用的RDD进行持久化

4.4.4原则四：尽量避免使用shuffle类算子

4.4.5原则五：使用map-side预聚合的shuffle操作

4.4.6原则六：使用高性能的算子

4.4.7原则七：广播大变量

4.4.8原则八：使用Kryo优化序列化性能

4.4.9原则九：优化数据结构

4.5运行资源调优

4.5.1调优概述

4.5.2Spark作业基本运行原理

4.5.3资源参数调优

4.6GC调优

4.6.1JVM虚拟机

4.6.2GC算法原理

4.6.3Spark的内存管理

4.6.4选择垃圾收集器

4.6.5根据日志进一步调优

2、spark学习路径

第1章 spark课程讲解

第1节 sparkCore讲解1-spark简介 34.48 免费

第2节 spark生态免费

第3节 spark与hadoop对比31 免费

第4节 spark与hadoop对比32 免费

第5节 spark与hive区别 29.34 免费

第6节 sparkCore讲解-RDD特点及惰性求值 8.06 免费

第7节 sparkCore讲解-spark工作原理 10.59 免费

第8节 sparkCore讲解-RDD创建方式 22.01 免费

第9节 sparkCore讲解-map算子 29.19 免费

第10节 sparkCore讲解-filter算子 9.21 免费

第11节 sparkCore讲解-flatmap算子 12.40 免费

第12节 sparkCore讲解-mappair算子 21.26 免费

第13节 sparkCore讲解-mappartitions算子 25.33 免费

第14节 sparkCore讲解-distinct及sample算子 14.06 免费

第15节 sparkCore讲解-reducebykey算子 17.48 免费

第16节 sparkCore讲解-sortbykey算子 29.57 免费

第17节 sparkCore讲解-伪集合算子 21.53 免费

第18节 sparkCore讲解-Action之reduce算子 14.44 免费

第19节 sparkCore讲解-Action之take及top算子 17.11 免费

第20节 sparkCore讲解-Action之saveAsTextFile及countbykey算子 22.04 免费

第21节 sparkCore讲解-wordcount例子 20.12 免费

第22节 sparkSQL-sparksql简介及与rdd区别免费

第23节 sparSQL-sparksql实例 16:00 免费

第24节 sparkSQL讲解-spark连接mysql的三种方法 22.35 免费

第25节 sparkSQL讲解-代码示例 39.23 免费

第26节 sparkSQL讲解-spark读取的数据源类型 8.27 免费

第27节 sparkSQL讲解-json解析 15.22 免费

第28节 sparkSQL讲解-spark解析json格式 32.14 免费

第29节 sparkCore讲解-spark csv解析 22.47 免费

第30节 sparkStreaming-原理及案例 32.11 免费

第31节 sparkStreaming-实时案例 42.21 免费

第32节 sparkStreaming-UpdateStateByKey 13.53 免费

第33节 sparkStreaming-滑动窗口 17.07 免费

第34节 sparkStreaming-DStreams输出 11.58 免费

第35节 spark核心编程-local部署模式 15.56 免费

第36节 spark核心编程- local模式上传并查看日志 41.25 免费

第37节 spark核心编程- 部署综述mp4 18.43 免费

第38节 spark核心编程-client部署模式 39.50 免费

第39节 Spark核心编程进阶-yarn-client模式原理讲解 37.35 免费

第40节 spark核心编程-cluster模式提交spark作业 40.35 免费

第41节 Spark核心编程进阶-spark运行流程 23.58 免费

第42节 Spark核心编程进阶-spark运行流程2 31.18 免费

第43节 Spark核心编程进阶-spark宽依赖和窄依赖 24.12 免费

1、sparkPro源码.rar

2、sparkCore及sql文档.rar

3、Spark文档.docx

SPARK课程讲解

第1章 spark课程讲解

推荐课程

试看时间结束