《大数据全系列》
本次更新内容为大数据第六阶段:Hive数据仓库:
本阶段介绍Hive 是基于Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql 查询功能,可以将sql 语句转换为MapReduce 任务进行运行。
其优点是学习成本低,可以通过类SQL 语句快速实现简单的MapReduce 统计,不必开发专门的MapReduce 应用,十分适合数据仓库的统计分析。不仅有Hive背后实现的原理、实战、还有深入讲解Hive调优。
适合人群:
1)掌握Linux操作系统命令及shell编程
2)掌握zookeeper、Hadoop HDFS、MapReduce使用及原理
3)掌握SQL语言及SQL编程
第一章 概述、搭建实战、sql语法、分区 |
01Hive介绍 |
02Hive架构 |
03三种安装方式区别 |
04mysql安装与配置 |
05直连数据库(mysql)模式安装 |
06远程服务器模式安装 |
07数据库实例、表、数据类型介绍 |
08表基础知识1 |
09表基础知识2 |
10内部表和外部表的区别 |
11表的单分区 |
12表的双分区 |
13添加分区 |
14删除分区 |
15修复分区 |
16使用已有表创建新表 |
17删除数据和添加数据 |
18SerDe正则匹配 |
19beeline与hiveserver2 |
20HiveJDBC |
第二章 运算符和函数、实战、动态分区、分桶 |
01运算符与复杂类型函数 |
02内置函数 |
03自定义函数 |
04struct结构体实战 |
05实战-找出掉线率最高的前10基站 |
06实战-单词统计 |
07参数和动态分区 |
08分桶 |
第三章 视图、索引、安全认证、优化、高可用 |
01Lateral View |
02View视图 |
03Index索引 |
04Hive运行方式 |
05WebGUI-hwi |
06SQL标准的授权模型 |
07角色管理 |
08权限管理 |
09优化一:Fetch抓取和本地运行模式 |
10优化二:并行运行 |
11优化三:严格模式与非严格模式 |
12优化四:排序 |
13优化五:分区剪裁、列裁剪 |
14优化六:JVM重用 |
15优化七:推测执行 |
16优化八:表优化 |
17优化九:合适设置Map与Reduce数量 |
18Hive高可用集群搭建 |
另附各章节课程资料