首页>课程更新>本周热门,大数据实战来了,《大数据全系列》第4、5阶段更新

本周热门,大数据实战来了,《大数据全系列》第4、5阶段更新

《大数据全系列》

 

本次更新内容为大数据第四、五阶段:

Hadoop核心由HDFS和MapReduce组成,HDFS负责分布式存储,MapReduce负责分布式计算。

 

第四阶段 -Hadoop 分布式文件系统HDFS

HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。 


它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集的应用处理带来了很多便利。

 


章节1:Hadoop第1天

01_复习与查漏补缺

02_创建节点

03_删除节点

04_查询节点数据和session连接转移

05_api其他方法

06_zk实现RMI

07_启蒙思想之1TB文件查找重复行

08_分治-大数据辩证


章节2:Hadoop第2

01_复习1

02_复习2

03_hadoop概述

04_HDFS架构

05_NameNode

06_SN_DN_副本的放置策略

07_权限了解

08_HDFS写操作


章节3:Hadoop第3天

01_复习1

02_完全分布式安装上

03_完全分布式安装

04_联邦

05_高可用

06_HA

07_HA测试和启动关闭脚本编写

08_获取文件信息_创建目录_上传文件

09_删除_文件块位置信息_seek

























第五阶段 -Hadoop 分布式计算框架 MapReduce

Mapreduce是一种编程模型,编程方法,采用“分而自治”思想最早是由Google研究提出的一种面向大规模数据处理的并行计算模型和方法,其初衷主要是为了解决搜索引擎中大规模网页数据的并行化处理。


由于MapReduce可以普遍应用于很多大规模数据的计算问题,Google进一步将其广泛应用于很多大规模数据处理问题。到目前为止,Google有上万个各种不同的算法问题和程序都使用MapReduce进行处理。



章节1:Hadoop第1天

01_MapReduce概述

02_MapReduce_shuffle

03_MR执行流程

04_RM高可用

05_hadoop自带的wc演示

06_开发wordcount01

07_wordcount02

08_手动编写wordcount和打包和本地运行


章节2:Hadoop第2天

01_复习总结

02_源码日志_jobId分析

03_计算切片大小上

04_Map任务分析1

05_Map02

06_圆形缓冲区

07_Map阶段总结

08_reduce阶段


章节3:Hadoop第3天

01_好友推荐需求分

02_MR1-Main-Mapper

03_MR1-Reducer

04_MR2-Main-Mapper

05_MR2-Reduce

06_温度统计需求分析

07_key的设置Weather类

08_SortComparator_Mapper

09_Partitioner_Grouping_Reducer

10_reduce方法补充


章节4:Hadoop第4天

01_PangRank需求分析

02_pageRank代码分析

03_tfidf需求分析

04_tfidf-MR1

05_tfidf-MR2-3

06_ItemCf01

07_itemCf02

 

 


另附各章节课程资料

 


百战程序员微信公众号

百战程序员微信小程序

©2014-2024 百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园
网站维护:百战汇智(北京)科技有限公司
京公网安备 11011402011233号    京ICP备18060230号-3    营业执照    经营许可证:京B2-20212637