大数据第17阶段《Spark分布式计算框架》实时更新你必须要掌握的大数据技术就在这了

《大数据》

本次课程更新内容为大数据十七阶段——Spark分布式计算框架

本阶段所讲的Spark 是当前流行的基于内存计算的分布式框架，在Spark 的生态圈中的框架几乎能够解决所有的大数据的应用场景，如果基于内存计算，计算速度比 Hadoop 生态圈中的MapReduce快100倍以上，如果是基于磁盘的计算，那么速度快10倍以上，所以Spark是当前大数据开发人员必备的技能之一。

适合人群：

1)掌握Hadoop及HDFS原理和使用

2)掌握Scala语言编程

3)掌握zookeeper原理及使用

4)掌握Hive原理及使用

章节	内容
章节1 概述	1：课程介绍 2：概述_什么是Spark？ 3：概述_Spark主要功能 4：概述_Spark与Hadoop 5：概述_Spark技术栈 6：概述_PySpark Vs Spark
章节2 运行模式	7：运行模式_概述 8：运行模式_WordCount一 9：运行模式_WordCount二 10：运行模式_Local模式安装 11：运行模式_Local模式WebUI 12：运行模式_Spark目录介绍 13：运行模式_SparkPi源码解析 14：运行模式_spark-submit 15：运行模式_Standalone架构分析 16：运行模式_Standalone模式安装一 17：运行模式_Standalone模式安装二 18：运行模式_Standalone启动测试 19：运行模式_Standalone执行任务 20：运行模式_查看历史日志WebUI 21：运行模式_StandaloneHA安装 22：运行模式_StandaloneHA测试 23：运行模式_Yarn模式概述 24：运行模式_Yarn模式安装 25：运行模式_Yarn Client 26：运行模式_Yarn Cluster 27：运行模式_spark-submit参
章节3 RDD	28：RDD_为什么需要RDD 29：RDD_定义 30：RDD_五大特性总述 31：RDD_五大特性1 32：RDD_五大特性2 33：RDD_五大特性3 34：RDD_五大特性4 35：RDD_五大特性5 36：RDD_五大特性总结 37：RDD_创建概述 38：RDD_并行化创建 39：RDD_读取文件创建RDD 40：RDD_读取小文件创建RDD 41：RDD_算子概述 42：RDD_转换算子map 43：RDD_转换算子flatMap 44：RDD_转换算子reduceByKey 45：RDD_转换算子filter 46：RDD_转换算子distinct 47：RDD_转换算子glom 48：RDD_转换算子groupBy 49：RDD_转换算子groupByKey 50：RDD_转换算子sortBy 51：RDD_转换算子sortByKey 52：RDD_转换算子union并集 53：RDD_转换算子交集和差集 54：RDD_转换算子关联算子 55：RDD_转换算子partitionBy 56：RDD_转换算子mapPartitions 57：RDD_转换算子sample 58：RDD_行动算子foreachPartition 59：RDD_行动算子foreach 60：RDD_行动算子saveAsTextFile 61：RDD_行动算子countByKey 62：RDD_行动算子reduce 63：RDD_行动算子fold 64：RDD_行动算子first_take_count 65：RDD_行动算子top_takeOrdered 66：RDD_行动算子takeSampl
章节4 内核进阶	67：内核进阶_DAG概述 68：内核进阶_血缘关系 69：内核进阶_宽窄依赖关系 70：内核进阶_Stage划分 71：内核进阶_任务调度概述 72：内核进阶_管道计算模式上 73：内核进阶_管道计算模式下 74：内核进阶_Cache缓存 75：内核进阶_CheckPoint检查点 76：内核进阶_Cache和CheckPoint区别 77：内核进阶_并行度 78：内核进阶_广播变量 79：内核进阶_累加器一 80：内核进阶_累加器二 81：内核进阶_累加器之重复计算 82：内核进阶_项目实战PVUV需求分析 83：内核进阶_项目实战PV分析 84：内核进阶_项目实战UV分析 85：内核进阶_二次排序实战 86：内核进阶_分组取topN实战 87：内核进阶_卡口统计项目需求分析 88：内核进阶_卡口统计项目统计正常的卡口 89：内核进阶_卡口统计项目Top5 90：内核进阶_卡口统计项目统计不同区域同时出现的车辆 91：内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹一 92：内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹二 93：内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹三 94：内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹四
章节5 SparkSQL	95：SparkSQL_简介 96：SparkSQL_发展史 97：SparkSQL_与Hive区别 98：SparkSQL_SparkSession 99：SparkSQL_数据抽象 100：SparkSQL_DataFrame概述 101：SparkSQL_DataSet概述 102：SparkSQL_DataFrame构成 103：SparkSQL_创建项目 104：SparkSQL_createDataFrame创建DF 105：SparkSQL_toDF创建DF 106：SparkSQL_toDF使用样例类创建DF 107：SparkSQL_DataFrame转换RDD 108：SparkSQL_创建DataSet 109：SparkSQL_DataSet和RDD转换 110：SparkSQL_DataSet和DataFrame转换 111：SparkSQL_读写parquet文件 112：SparkSQL_读写parquet文件扩展 113：SparkSQL_读写text文件 114：SparkSQL_读写json文件 115：SparkSQL_读写csv文件 116：SparkSQL_JDBC读MySQL 117：SparkSQL_JDBC写MySQL 118：SparkSQL_SparkOnHive概述 119：SparkSQL_SparkOnHive配置 120：SparkSQL_SparkOnHive代码开发一 121：SparkSQL_SparkOnHive代码开发二 122：SparkSQL_SparkOnHive代码集群提交 123：SparkSQL_DSL API 124：SparkSQL_数据去重 125：SparkSQL_functions包 126：SparkSQL_SQL API 127：SparkSQL_SQL API实战 128：SparkSQL_自定义函数概述 129：SparkSQL_自定义UDF函数 130：SparkSQL_自定义UDF函数扩展 131：SparkSQL_ArrayType返回值类型的UDF 132：SparkSQL_UDAF函数Old一 133：SparkSQL_UDAF函数Old二 134：SparkSQL_UDAF函数Old三 135：SparkSQL_UDAF函数Old四 136：SparkSQL_UDAF函数New一 137：SparkSQL_UDAF函数New二 138：SparkSQL_UDAF函数New三 139：SparkSQL_开窗函数概述 140：SparkSQL_开窗函数实战 141：SparkSQL实战_找出变化的行一 142：SparkSQL实战_找出变化的行二 143：SparkSQL实战_函数转换Json数据 144：SparkSQL实战_读取嵌套的Json 145：SparkSQL实战_解析JsonArray数据 146：SparkSQL实战_行列转换一 147：SparkSQL实战_行列转换二 148：SparkSQL实战_行列转换三 149：SparkSQL实战_行列转换四 150：SparkSQL实战_用户7日留存分析一 151：SparkSQL实战_用户7日留存分析二 152：SparkSQL实战_用户7日留存分析三 153：SparkSQL实战_统计访问总时长一 154：SparkSQL实战_统计访问总时长二 155：SparkSQL实战_用户在线分析_需求分析 156：SparkSQL实战_用户在线分析_错位关联 157：SparkSQL实战_用户在线分析_数据补全和过滤 158：SparkSQL实战_用户在线分析_总时长_次数_最大时长 159：SparkSQL实战_用户在线分析_每小时在线人数一 160：SparkSQL实战_用户在线分析_每小时在线人数二 161：SparkSQL实战_用户在线分析_每小时在线人数三 162：SparkSQL实战_用户在线分析_每小时在线人数四
章节6 SparkStreaming	163：SparkStreaming概述 164：SparkStreaming_架构 165：SparkStreaming_创建项目 166：SparkStreaming_WordCount 167：SparkStreaming_数据抽象 168：SparkStreaming_RDD队列创建DStream 169：SparkStreaming_自定义数据源一 170：SparkStreaming_自定义数据源二 171：SparkStreaming_DStream无状态转换 172：SparkStreaming_DStream无状态转换transform 173：SparkStreaming_DStream有状态转换 174：SparkStreaming_窗口操作reduceByKeyAndWindow概述 175：SparkStreaming_窗口操作reduceByKeyAndWindow实战 176：SparkStreaming_窗口操作reduceByKeyAndWindow优化 177：SparkStreaming_窗口操作Window 178：SparkStreaming_输出 179：SparkStreaming_优雅关闭一 180：SparkStreaming_优雅关闭二 181：SparkStreaming_优雅关闭测试 182：SparkStreaming_整合Kafka模式 183：SparkStreaming_整合Kafka开发一 184：SparkStreaming_整合Kafka开发二 185：SparkStreaming_整合Kafka测试

另附本章节课程资料

关于

课程分类

百战程序员微信公众号

百战程序员微信小程序

大数据第17阶段《Spark分布式计算框架》实时更新 你必须要掌握的大数据技术就在这了

《大数据》

本次课程更新内容为大数据十七阶段——Spark分布式计算框架

同学您好

大数据第17阶段《Spark分布式计算框架》实时更新你必须要掌握的大数据技术就在这了