目录
百战程序员,全站22050+开发课程+文档 ,学习精选优质好课快人一步!观看视频 快捷键ALT+N

大数据全系列 教程

1869个小节阅读:464.8k

收藏
全部开发者教程

JAVA全系列 教程

面向对象的程序设计语言

Python全系列 教程

Python3.x版本,未来主流的版本

人工智能 教程

顺势而为,AI创新未来

大厂算法 教程

算法,程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务 教程

目前业界流行的框架组合

web前端全系列 教程

通向WEB技术世界的钥匙

大数据全系列 教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(336)
赞(0)

#三、HDFS概述

3.1 HDFS介绍

  • 产生背景

    随着数据量越来越大,在一台电脑上存不下所有的数据,那么就分配到更多的电脑组成的集群上,但是不方便管理和维护,于是就需要一种可以在集群中来管理多台机器上文件的系统,即分布式文件关系系统。HDFS便是分布式文件管理系统中的一员。

  • 定义:

    HDFS (Hadoop Distributed File System):分布式文件系统,用于存在文件,通过目录树来定位文件;构建在分布式集群上,集群中的服务器有各自的角色。

  • 适用场景

    适合一次写入,多次读取的场景。适合用来做大数据分析。

  • HDFS优点

    1. 可构建在廉价的机器上

    2. 高容错

      1. 数据自动保存多个副本,通过增加副本的形式,提高容错性。

      2. 当某一个副本数据块丢失后,通过自动恢复保持副本数量。

    3. 适合存储大量数据

      1. HDFS上的一个典型文件大小一般都在G字节至T字节。MB GB TB PB ZB
      2. HDFS支持大文件存储。
      3. 单一HDFS实例能支撑数以千万计的文件。
    4. 简单的一致性模型

      1. HDFS应用遵循“一次写入多次读取”的文件访问模型。
      2. 简化了数据一致性问题,并且使高吞吐量的数据访问成为可能。
      3. Map/Reduce应用或者网络爬虫应用都非常适合这个模型。
  • HDFS缺点

    1. 不适合低延迟的数据访问。
    2. 无法高效的对大量小文件进行存储。
    3. 不支持对同一个文件的并发写入。
    4. 不支持文件的随机修改。

 

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越(北京)科技有限公司 All Rights Reserved.

京ICP备14032124号-2