SPARK课程讲解

SPARK课程讲解
00:00 / 00:00
分享给朋友:
课程目录
  • 课程概述
  • 目录
  • 资料区

spark的教学体系。体系涵盖了从基础学习到spark的性能优化。

 1、所有视频涵盖以下所有内容,word文档结构如下(文档于资料处下载):

第1章Spark概述 

1.1什么是Spark 

1.2Spark特点 

1.3Spark核心概念 

第2章SparkCore应用解析

2.1RDD概念

2.1.1RDD为什么会产生?

2.1.2RDD概述

2.1.3RDD弹性

2.1.4RDD特点

2.2RDD编程

2.2.1编程模型

2.2.2创建RDD

2.2.3RDD编程

2.2.4RDD持久化

2.2.5RDD检查点机制

2.2.6RDD的依赖关系

2.2.7DAG的生成

2.2.8RDD相关概念关系

2.3键值对RDD

2.3.1键值对RDD的转化操作

2.3.2键值对RDD的行动操作

2.3.3键值对RDD的数据分区

2.4数据读取与保存主要方式 

2.4.1文本文件输入输出 

2.4.2JSON文件输入输出 

2.4.3CSV文件输入输出 

2.4.4SequenceFile文件输入输出 

2.4.5对象文件输入输出 

2.4.6Hadoop输入输出格式 

2.4.7文件系统的输入输出 

2.4.8数据库的输入输出 

2.5RDD编程进阶 

2.5.1累加器 

2.5.2自定义累加器 

2.5.3广播变量 

2.6Spark 组件基本概念和运行流程 

2.6.1组件基本概念 

2.6.2运行流程 

2.7Spark Shuffle过程 

2.7.1HashShuffle过程介绍 

2.7.2SortShuffle过程介绍 

2.7.3MapReduce与Spark过程对比 

2.8部署模式解析 

2.8.1本地运行模式 

2.8.2分布式(集群)部署模式概述 

第3章Spark SQL 

3.1 Spark SQL 概述 

3.1.1什么是Spark SQL 

3.1.2RDD vs DataFrames vs DataSet 

3.2执行SparkSQL查询 

3.2.1命令行查询流程 

3.2.2IDEA创建SparkSQL程序 

3.2.3Java创建SparkSQL程序 

3.3SparkSQL解析 

3.3.1新的起始点SparkSession 

3.3.2创建DataFrames 

3.3.3DataFrame常用操作 

3.3.4创建DataSet 

3.3.5DataFrame和RDD互操作 

3.3.6类型之间的转换总结 

3.3.7用户自定义函数 

3.4SparkSQL数据源 

3.4.1通用加载/保存方法 

3.4.2Parquet文件 

3.4.3Hive数据库 

3.4.4JSON数据集 

3.4.5JDBC 

第4章Spark性能优化 

4.1调优基本原则 

4.1.1基本概念和原则 

4.1.2性能监控方式 

4.1.3调优要点 

4.2数据倾斜优化 

4.2.1为何要处理数据倾斜(Data Skew) 

4.2.2如何定位导致数据倾斜的代码 

4.3Shuffle调优 

4.3.1调优概述 

4.3.2ShuffleManager发展概述 

4.3.3HashShuffleManager运行原理 

4.3.4SortShuffleManager运行原理 

4.3.5shuffle相关参数调优 

4.4程序开发开发调优 

4.4.1原则一:避免创建重复的RDD 

4.4.2原则二:尽可能复用同一个RDD 

4.4.3原则三:对多次使用的RDD进行持久化 

4.4.4原则四:尽量避免使用shuffle类算子 

4.4.5原则五:使用map-side预聚合的shuffle操作 

4.4.6原则六:使用高性能的算子 

4.4.7原则七:广播大变量 

4.4.8原则八:使用Kryo优化序列化性能 

4.4.9原则九:优化数据结构 

4.5运行资源调优 

4.5.1调优概述 

4.5.2Spark作业基本运行原理 

4.5.3资源参数调优 

4.6GC调优 

4.6.1JVM虚拟机 

4.6.2GC算法原理 

4.6.3Spark的内存管理 

4.6.4选择垃圾收集器 

4.6.5根据日志进一步调优

2、spark学习路径

spark导图.png


第1章  spark课程讲解

第1节 sparkCore讲解1-spark简介 34.48    免费
第2节 spark生态    免费
第3节 spark与hadoop对比31    免费
第4节 spark与hadoop对比32    免费
第5节 spark与hive区别 29.34    免费
第6节 sparkCore讲解-RDD特点及惰性求值 8.06    免费
第7节 sparkCore讲解-spark工作原理 10.59    免费
第8节 sparkCore讲解-RDD创建方式 22.01    免费
第9节 sparkCore讲解-map算子 29.19    免费
第10节 sparkCore讲解-filter算子 9.21    免费
第11节 sparkCore讲解-flatmap算子 12.40    免费
第12节 sparkCore讲解-mappair算子 21.26    免费
第13节 sparkCore讲解-mappartitions算子 25.33    免费
第14节 sparkCore讲解-distinct及sample算子 14.06    免费
第15节 sparkCore讲解-reducebykey算子 17.48    免费
第16节 sparkCore讲解-sortbykey算子 29.57    免费
第17节 sparkCore讲解-伪集合算子 21.53    免费
第18节 sparkCore讲解-Action之reduce算子 14.44    免费
第19节 sparkCore讲解-Action之take及top算子 17.11    免费
第20节 sparkCore讲解-Action之saveAsTextFile及countbykey算子 22.04    免费
第21节 sparkCore讲解-wordcount例 子 20.12    免费
第22节 sparkSQL-sparksql简介及与rdd区别    免费
第23节 sparSQL-sparksql实例 16:00    免费
第24节 sparkSQL讲解-spark连接mysql的三种方法 22.35    免费
第25节 sparkSQL讲解-代码示例 39.23    免费
第26节 sparkSQL讲解-spark读取的数据源类型 8.27    免费
第27节 sparkSQL讲解-json解析 15.22    免费
第28节 sparkSQL讲解-spark解析json格式 32.14    免费
第29节 sparkCore讲解-spark csv解析 22.47    免费
第30节 sparkStreaming-原理及案例 32.11    免费
第31节 sparkStreaming-实时案例 42.21    免费
第32节 sparkStreaming-UpdateStateByKey 13.53    免费
第33节 sparkStreaming-滑动窗口 17.07    免费
第34节 sparkStreaming-DStreams输出 11.58    免费
第35节 spark核心编程-local部署模式 15.56    免费
第36节 spark核心编程- local模式上传并查看日志 41.25    免费
第37节 spark核心编程- 部署综述mp4 18.43    免费
第38节 spark核心编程-client部署模式 39.50    免费
第39节 Spark核心编程进阶-yarn-client模式原理讲解 37.35    免费
第40节 spark核心编程-cluster模式提交spark作业 40.35    免费
第41节 Spark核心编程进阶-spark运行流程 23.58    免费
第42节 Spark核心编程进阶-spark运行流程2 31.18    免费
第43节 Spark核心编程进阶-spark宽依赖和窄依赖 24.12    免费

推荐课程