本阶段所讲的Spark 是当前流行的基于内存计算的分布式框架,在Spark 的生态圈中的框架几乎能够解决所有的大数据的应用场景,如果基于内存计算,计算速度比 Hadoop 生态圈中的MapReduce快100倍以上,如果是基于磁盘的计算,那么速度快10倍以上,所以Spark是当前大数据开发人员必备的技能之一。
适合人群:
1)掌握Hadoop及HDFS原理和使用
2)掌握Scala语言编程
3)掌握zookeeper原理及使用
4)掌握Hive原理及使用
章节 | 内容 |
---|---|
章节1 概述 | 1:课程介绍 2:概述_什么是Spark? 3:概述_Spark主要功能 4:概述_Spark与Hadoop 5:概述_Spark技术栈 6:概述_PySpark Vs Spark |
章节2 运行模式 | 7:运行模式_概述 8:运行模式_WordCount一 9:运行模式_WordCount二 10:运行模式_Local模式安装 11:运行模式_Local模式WebUI 12:运行模式_Spark目录介绍 13:运行模式_SparkPi源码解析 14:运行模式_spark-submit 15:运行模式_Standalone架构分析 16:运行模式_Standalone模式安装一 17:运行模式_Standalone模式安装二 18:运行模式_Standalone启动测试 19:运行模式_Standalone执行任务 20:运行模式_查看历史日志WebUI 21:运行模式_StandaloneHA安装 22:运行模式_StandaloneHA测试 23:运行模式_Yarn模式概述 24:运行模式_Yarn模式安装 25:运行模式_Yarn Client 26:运行模式_Yarn Cluster 27:运行模式_spark-submit参 |
章节3 RDD | 28:RDD_为什么需要RDD 29:RDD_定义 30:RDD_五大特性总述 31:RDD_五大特性1 32:RDD_五大特性2 33:RDD_五大特性3 34:RDD_五大特性4 35:RDD_五大特性5 36:RDD_五大特性总结 37:RDD_创建概述 38:RDD_并行化创建 39:RDD_读取文件创建RDD 40:RDD_读取小文件创建RDD 41:RDD_算子概述 42:RDD_转换算子map 43:RDD_转换算子flatMap 44:RDD_转换算子reduceByKey 45:RDD_转换算子filter 46:RDD_转换算子distinct 47:RDD_转换算子glom 48:RDD_转换算子groupBy 49:RDD_转换算子groupByKey 50:RDD_转换算子sortBy 51:RDD_转换算子sortByKey 52:RDD_转换算子union并集 53:RDD_转换算子交集和差集 54:RDD_转换算子关联算子 55:RDD_转换算子partitionBy 56:RDD_转换算子mapPartitions 57:RDD_转换算子sample 58:RDD_行动算子foreachPartition 59:RDD_行动算子foreach 60:RDD_行动算子saveAsTextFile 61:RDD_行动算子countByKey 62:RDD_行动算子reduce 63:RDD_行动算子fold 64:RDD_行动算子first_take_count 65:RDD_行动算子top_takeOrdered 66:RDD_行动算子takeSampl |
章节4 内核进阶 | 67:内核进阶_DAG概述 68:内核进阶_血缘关系 69:内核进阶_宽窄依赖关系 70:内核进阶_Stage划分 71:内核进阶_任务调度概述 72:内核进阶_管道计算模式上 73:内核进阶_管道计算模式下 74:内核进阶_Cache缓存 75:内核进阶_CheckPoint检查点 76:内核进阶_Cache和CheckPoint区别 77:内核进阶_并行度 78:内核进阶_广播变量 79:内核进阶_累加器一 80:内核进阶_累加器二 81:内核进阶_累加器之重复计算 82:内核进阶_项目实战PVUV需求分析 83:内核进阶_项目实战PV分析 84:内核进阶_项目实战UV分析 85:内核进阶_二次排序实战 86:内核进阶_分组取topN实战 87:内核进阶_卡口统计项目需求分析 88:内核进阶_卡口统计项目统计正常的卡口 89:内核进阶_卡口统计项目Top5 90:内核进阶_卡口统计项目统计不同区域同时出现的车辆 91:内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹一 92:内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹二 93:内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹三 94:内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹四 |
章节5 SparkSQL | 95:SparkSQL_简介 96:SparkSQL_发展史 97:SparkSQL_与Hive区别 98:SparkSQL_SparkSession 99:SparkSQL_数据抽象 100:SparkSQL_DataFrame概述 101:SparkSQL_DataSet概述 102:SparkSQL_DataFrame构成 103:SparkSQL_创建项目 104:SparkSQL_createDataFrame创建DF 105:SparkSQL_toDF创建DF 106:SparkSQL_toDF使用样例类创建DF 107:SparkSQL_DataFrame转换RDD 108:SparkSQL_创建DataSet 109:SparkSQL_DataSet和RDD转换 110:SparkSQL_DataSet和DataFrame转换 111:SparkSQL_读写parquet文件 112:SparkSQL_读写parquet文件扩展 113:SparkSQL_读写text文件 114:SparkSQL_读写json文件 115:SparkSQL_读写csv文件 116:SparkSQL_JDBC读MySQL 117:SparkSQL_JDBC写MySQL 118:SparkSQL_SparkOnHive概述 119:SparkSQL_SparkOnHive配置 120:SparkSQL_SparkOnHive代码开发一 121:SparkSQL_SparkOnHive代码开发二 122:SparkSQL_SparkOnHive代码集群提交 123:SparkSQL_DSL API 124:SparkSQL_数据去重 125:SparkSQL_functions包 126:SparkSQL_SQL API 127:SparkSQL_SQL API实战 128:SparkSQL_自定义函数概述 129:SparkSQL_自定义UDF函数 130:SparkSQL_自定义UDF函数扩展 131:SparkSQL_ArrayType返回值类型的UDF 132:SparkSQL_UDAF函数Old一 133:SparkSQL_UDAF函数Old二 134:SparkSQL_UDAF函数Old三 135:SparkSQL_UDAF函数Old四 136:SparkSQL_UDAF函数New一 137:SparkSQL_UDAF函数New二 138:SparkSQL_UDAF函数New三 139:SparkSQL_开窗函数概述 140:SparkSQL_开窗函数实战 141:SparkSQL实战_找出变化的行一 142:SparkSQL实战_找出变化的行二 143:SparkSQL实战_函数转换Json数据 144:SparkSQL实战_读取嵌套的Json 145:SparkSQL实战_解析JsonArray数据 146:SparkSQL实战_行列转换一 147:SparkSQL实战_行列转换二 148:SparkSQL实战_行列转换三 149:SparkSQL实战_行列转换四 150:SparkSQL实战_用户7日留存分析一 151:SparkSQL实战_用户7日留存分析二 152:SparkSQL实战_用户7日留存分析三 153:SparkSQL实战_统计访问总时长一 154:SparkSQL实战_统计访问总时长二 155:SparkSQL实战_用户在线分析_需求分析 156:SparkSQL实战_用户在线分析_错位关联 157:SparkSQL实战_用户在线分析_数据补全和过滤 158:SparkSQL实战_用户在线分析_总时长_次数_最大时长 159:SparkSQL实战_用户在线分析_每小时在线人数一 160:SparkSQL实战_用户在线分析_每小时在线人数二 161:SparkSQL实战_用户在线分析_每小时在线人数三 162:SparkSQL实战_用户在线分析_每小时在线人数四 |
章节6 SparkStreaming | 163:SparkStreaming概述 164:SparkStreaming_架构 165:SparkStreaming_创建项目 166:SparkStreaming_WordCount 167:SparkStreaming_数据抽象 168:SparkStreaming_RDD队列创建DStream 169:SparkStreaming_自定义数据源一 170:SparkStreaming_自定义数据源二 171:SparkStreaming_DStream无状态转换 172:SparkStreaming_DStream无状态转换transform 173:SparkStreaming_DStream有状态转换 174:SparkStreaming_窗口操作reduceByKeyAndWindow概述 175:SparkStreaming_窗口操作reduceByKeyAndWindow实战 176:SparkStreaming_窗口操作reduceByKeyAndWindow优化 177:SparkStreaming_窗口操作Window 178:SparkStreaming_输出 179:SparkStreaming_优雅关闭一 180:SparkStreaming_优雅关闭二 181:SparkStreaming_优雅关闭测试 182:SparkStreaming_整合Kafka模式 183:SparkStreaming_整合Kafka开发一 184:SparkStreaming_整合Kafka开发二 185:SparkStreaming_整合Kafka测试 |
另附本章节课程资料