《大数据全系列》
本次更新内容为大数据第四、五阶段:
Hadoop核心由HDFS和MapReduce组成,HDFS负责分布式存储,MapReduce负责分布式计算。
第四阶段 -Hadoop 分布式文件系统HDFS
HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。
它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集的应用处理带来了很多便利。
章节1:Hadoop第1天 |
01_复习与查漏补缺 |
02_创建节点 |
03_删除节点 |
04_查询节点数据和session连接转移 |
05_api其他方法 |
06_zk实现RMI |
07_启蒙思想之1TB文件查找重复行 |
08_分治-大数据辩证 |
章节2:Hadoop第2天 |
01_复习1 |
02_复习2 |
03_hadoop概述 |
04_HDFS架构 |
05_NameNode |
06_SN_DN_副本的放置策略 |
07_权限了解 |
08_HDFS写操作 |
章节3:Hadoop第3天 |
01_复习1 |
02_完全分布式安装上 |
03_完全分布式安装 |
04_联邦 |
05_高可用 |
06_HA |
07_HA测试和启动关闭脚本编写 |
08_获取文件信息_创建目录_上传文件 |
09_删除_文件块位置信息_seek |
第五阶段 -Hadoop 分布式计算框架 MapReduce
Mapreduce是一种编程模型,编程方法,采用“分而自治”思想。最早是由Google研究提出的一种面向大规模数据处理的并行计算模型和方法,其初衷主要是为了解决搜索引擎中大规模网页数据的并行化处理。
由于MapReduce可以普遍应用于很多大规模数据的计算问题,Google进一步将其广泛应用于很多大规模数据处理问题。到目前为止,Google有上万个各种不同的算法问题和程序都使用MapReduce进行处理。
章节1:Hadoop第1天 |
01_MapReduce概述 |
02_MapReduce_shuffle |
03_MR执行流程 |
04_RM高可用 |
05_hadoop自带的wc演示 |
06_开发wordcount01 |
07_wordcount02 |
08_手动编写wordcount和打包和本地运行 |
章节2:Hadoop第2天 |
01_复习总结 |
02_源码日志_jobId分析 |
03_计算切片大小上 |
04_Map任务分析1 |
05_Map02 |
06_圆形缓冲区 |
07_Map阶段总结 |
08_reduce阶段 |
章节3:Hadoop第3天 |
01_好友推荐需求分 |
02_MR1-Main-Mapper |
03_MR1-Reducer |
04_MR2-Main-Mapper |
05_MR2-Reduce |
06_温度统计需求分析 |
07_key的设置Weather类 |
08_SortComparator_Mapper |
09_Partitioner_Grouping_Reducer |
10_reduce方法补充 |
章节4:Hadoop第4天 |
01_PangRank需求分析 |
02_pageRank代码分析 |
03_tfidf需求分析 |
04_tfidf-MR1 |
05_tfidf-MR2-3 |
06_ItemCf01 |
07_itemCf02 |
另附各章节课程资料