账号不能为空
密码不能为空
账号或密码错误
手机号码未注册
手机号码格式错误
图形验证码错误
填写图形验证码
动态密码错误
填写动态密码
两次密码不一致
手机号已被注册
第1节 sparkCore讲解1-spark简介
第2节 spark生态
第3节 spark与hadoop对比31
第4节 spark与hadoop对比32
第5节 spark与hive区别
第6节 sparkCore讲解-RDD特点及惰性求值
第7节 sparkCore讲解-spark工作原理
第8节 sparkCore讲解-RDD创建方式
第9节 sparkCore讲解-map算子
第10节 sparkCore讲解-filter算子
第11节 sparkCore讲解-flatmap算子
第12节 sparkCore讲解-mappair算子
第13节 sparkCore讲解-mappartitions算子
第14节 sparkCore讲解-distinct及sample算子
第15节 sparkCore讲解-reducebykey算子
第16节 sparkCore讲解-sortbykey算子
第17节 sparkCore讲解-伪集合算子
第18节 sparkCore讲解-Action之reduce算子
第19节 sparkCore讲解-Action之take及top算子
第20节 sparkCore讲解-Action之saveAsTextFile及countbykey算子
第21节 sparkCore讲解-wordcount例 子
第22节 sparkSQL-sparksql简介及与rdd区别
第23节 sparSQL-sparksql实例
第24节 sparkSQL讲解-spark连接mysql的三种方法
第25节 sparkSQL讲解-代码示例
第26节 sparkSQL讲解-spark读取的数据源类型
第27节 sparkSQL讲解-json解析
第28节 sparkSQL讲解-spark解析json格式
第29节 sparkCore讲解-spark csv解析
第30节 sparkStreaming-原理及案例
第31节 sparkStreaming-实时案例
第32节 sparkStreaming-UpdateStateByKey
第33节 sparkStreaming-滑动窗口
第34节 sparkStreaming-DStreams输出
第35节 spark核心编程-local部署模式
第36节 spark核心编程- local模式上传并查看日志
第37节 spark核心编程- 部署综述mp4
第38节 spark核心编程-client部署模式
第39节 Spark核心编程进阶-yarn-client模式原理讲解
第40节 spark核心编程-cluster模式提交spark作业
第41节 Spark核心编程进阶-spark运行流程
第42节 Spark核心编程进阶-spark运行流程2
第43节 Spark核心编程进阶-spark宽依赖和窄依赖
spark的教学体系。体系涵盖了从基础学习到spark的性能优化。
1、所有视频涵盖以下所有内容,word文档结构如下(文档于资料处下载):
第1章Spark概述
1.1什么是Spark
1.2Spark特点
1.3Spark核心概念
第2章SparkCore应用解析
2.1RDD概念
2.1.1RDD为什么会产生?
2.1.2RDD概述
2.1.3RDD弹性
2.1.4RDD特点
2.2RDD编程
2.2.1编程模型
2.2.2创建RDD
2.2.3RDD编程
2.2.4RDD持久化
2.2.5RDD检查点机制
2.2.6RDD的依赖关系
2.2.7DAG的生成
2.2.8RDD相关概念关系
2.3键值对RDD
2.3.1键值对RDD的转化操作
2.3.2键值对RDD的行动操作
2.3.3键值对RDD的数据分区
2.4数据读取与保存主要方式
2.4.1文本文件输入输出
2.4.2JSON文件输入输出
2.4.3CSV文件输入输出
2.4.4SequenceFile文件输入输出
2.4.5对象文件输入输出
2.4.6Hadoop输入输出格式
2.4.7文件系统的输入输出
2.4.8数据库的输入输出
2.5RDD编程进阶
2.5.1累加器
2.5.2自定义累加器
2.5.3广播变量
2.6Spark 组件基本概念和运行流程
2.6.1组件基本概念
2.6.2运行流程
2.7Spark Shuffle过程
2.7.1HashShuffle过程介绍
2.7.2SortShuffle过程介绍
2.7.3MapReduce与Spark过程对比
2.8部署模式解析
2.8.1本地运行模式
2.8.2分布式(集群)部署模式概述
第3章Spark SQL
3.1 Spark SQL 概述
3.1.1什么是Spark SQL
3.1.2RDD vs DataFrames vs DataSet
3.2执行SparkSQL查询
3.2.1命令行查询流程
3.2.2IDEA创建SparkSQL程序
3.2.3Java创建SparkSQL程序
3.3SparkSQL解析
3.3.1新的起始点SparkSession
3.3.2创建DataFrames
3.3.3DataFrame常用操作
3.3.4创建DataSet
3.3.5DataFrame和RDD互操作
3.3.6类型之间的转换总结
3.3.7用户自定义函数
3.4SparkSQL数据源
3.4.1通用加载/保存方法
3.4.2Parquet文件
3.4.3Hive数据库
3.4.4JSON数据集
3.4.5JDBC
第4章Spark性能优化
4.1调优基本原则
4.1.1基本概念和原则
4.1.2性能监控方式
4.1.3调优要点
4.2数据倾斜优化
4.2.1为何要处理数据倾斜(Data Skew)
4.2.2如何定位导致数据倾斜的代码
4.3Shuffle调优
4.3.1调优概述
4.3.2ShuffleManager发展概述
4.3.3HashShuffleManager运行原理
4.3.4SortShuffleManager运行原理
4.3.5shuffle相关参数调优
4.4程序开发开发调优
4.4.1原则一:避免创建重复的RDD
4.4.2原则二:尽可能复用同一个RDD
4.4.3原则三:对多次使用的RDD进行持久化
4.4.4原则四:尽量避免使用shuffle类算子
4.4.5原则五:使用map-side预聚合的shuffle操作
4.4.6原则六:使用高性能的算子
4.4.7原则七:广播大变量
4.4.8原则八:使用Kryo优化序列化性能
4.4.9原则九:优化数据结构
4.5运行资源调优
4.5.1调优概述
4.5.2Spark作业基本运行原理
4.5.3资源参数调优
4.6GC调优
4.6.1JVM虚拟机
4.6.2GC算法原理
4.6.3Spark的内存管理
4.6.4选择垃圾收集器
4.6.5根据日志进一步调优
2、spark学习路径
如果想继续收看,请购买该视频,或者办理vip,进行免费学�?
spark的教学体系。体系涵盖了从基础学习到spark的性能优化。
1、所有视频涵盖以下所有内容,word文档结构如下(文档于资料处下载):
第1章Spark概述
1.1什么是Spark
1.2Spark特点
1.3Spark核心概念
第2章SparkCore应用解析
2.1RDD概念
2.1.1RDD为什么会产生?
2.1.2RDD概述
2.1.3RDD弹性
2.1.4RDD特点
2.2RDD编程
2.2.1编程模型
2.2.2创建RDD
2.2.3RDD编程
2.2.4RDD持久化
2.2.5RDD检查点机制
2.2.6RDD的依赖关系
2.2.7DAG的生成
2.2.8RDD相关概念关系
2.3键值对RDD
2.3.1键值对RDD的转化操作
2.3.2键值对RDD的行动操作
2.3.3键值对RDD的数据分区
2.4数据读取与保存主要方式
2.4.1文本文件输入输出
2.4.2JSON文件输入输出
2.4.3CSV文件输入输出
2.4.4SequenceFile文件输入输出
2.4.5对象文件输入输出
2.4.6Hadoop输入输出格式
2.4.7文件系统的输入输出
2.4.8数据库的输入输出
2.5RDD编程进阶
2.5.1累加器
2.5.2自定义累加器
2.5.3广播变量
2.6Spark 组件基本概念和运行流程
2.6.1组件基本概念
2.6.2运行流程
2.7Spark Shuffle过程
2.7.1HashShuffle过程介绍
2.7.2SortShuffle过程介绍
2.7.3MapReduce与Spark过程对比
2.8部署模式解析
2.8.1本地运行模式
2.8.2分布式(集群)部署模式概述
第3章Spark SQL
3.1 Spark SQL 概述
3.1.1什么是Spark SQL
3.1.2RDD vs DataFrames vs DataSet
3.2执行SparkSQL查询
3.2.1命令行查询流程
3.2.2IDEA创建SparkSQL程序
3.2.3Java创建SparkSQL程序
3.3SparkSQL解析
3.3.1新的起始点SparkSession
3.3.2创建DataFrames
3.3.3DataFrame常用操作
3.3.4创建DataSet
3.3.5DataFrame和RDD互操作
3.3.6类型之间的转换总结
3.3.7用户自定义函数
3.4SparkSQL数据源
3.4.1通用加载/保存方法
3.4.2Parquet文件
3.4.3Hive数据库
3.4.4JSON数据集
3.4.5JDBC
第4章Spark性能优化
4.1调优基本原则
4.1.1基本概念和原则
4.1.2性能监控方式
4.1.3调优要点
4.2数据倾斜优化
4.2.1为何要处理数据倾斜(Data Skew)
4.2.2如何定位导致数据倾斜的代码
4.3Shuffle调优
4.3.1调优概述
4.3.2ShuffleManager发展概述
4.3.3HashShuffleManager运行原理
4.3.4SortShuffleManager运行原理
4.3.5shuffle相关参数调优
4.4程序开发开发调优
4.4.1原则一:避免创建重复的RDD
4.4.2原则二:尽可能复用同一个RDD
4.4.3原则三:对多次使用的RDD进行持久化
4.4.4原则四:尽量避免使用shuffle类算子
4.4.5原则五:使用map-side预聚合的shuffle操作
4.4.6原则六:使用高性能的算子
4.4.7原则七:广播大变量
4.4.8原则八:使用Kryo优化序列化性能
4.4.9原则九:优化数据结构
4.5运行资源调优
4.5.1调优概述
4.5.2Spark作业基本运行原理
4.5.3资源参数调优
4.6GC调优
4.6.1JVM虚拟机
4.6.2GC算法原理
4.6.3Spark的内存管理
4.6.4选择垃圾收集器
4.6.5根据日志进一步调优
2、spark学习路径
第1章 spark课程讲解
推荐课程