目录
百战程序员,全站22050+开发课程+文档 ,学习精选优质好课快人一步!观看视频 快捷键ALT+N

大数据全系列 教程

1869个小节阅读:468k

收藏
全部开发者教程

408考研

JAVA全系列 教程

面向对象的程序设计语言

Python全系列 教程

Python3.x版本,未来主流的版本

人工智能 教程

顺势而为,AI创新未来

大厂算法 教程

算法,程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务 教程

目前业界流行的框架组合

web前端全系列 教程

通向WEB技术世界的钥匙

大数据全系列 教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(280)
赞(0)

RDD_定义

在Spark开山之作Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing这篇paper中,Matei等人提出了RDD这种数据结构。

分解描述:

  • Resilient:RDD中的数据可以弹性的存储在内存中或者磁盘中
  • Dataset:一个数据集合,用于存放数据的。
  • Distributed:RDD中的数据是分布式存储的,可用于分布式计算。

RDD(Resilient Distributed Dataset)是弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。

  1. 弹性的:

    1. 存储的弹性:内存与磁盘的自动切换;
    2. 容错的弹性:数据丢失可以自动恢复;
    3. 计算的弹性:计算出错重试机制;
    4. 分片的弹性:可根据需要重新分片。
  2. 分布式:数据存储在大数据集群不同节点上

  3. 数据集:RDD封装了计算逻辑,并不保存数据

  4. 数据抽象:RDD是一个抽象类,需要子类具体实现

  5. 不可变:需要使用val声明,表示不可变集合。RDD封装了计算逻辑,是不可以改变的,想要改变,只能产生新的RDD,在新的RDD里面封装计算逻辑

  6. 分区的:集合数据被划分为多个部分,每部分被称为一个分区。

  7. 并行计算:每个分区的数据被一个task任务处理,集合中的多个分区可以被同时计算。

实时效果反馈

1. 关于RDD的描述,正确的是:

A 不可变:需要使用val声明,表示不可变集合。RDD封装了计算逻辑,是不可以改变的,想要改变,只能产生新的RDD,在新的RDD里面封装计算逻辑。

B 分区的:集合数据被划分为多个部分,每部分被称为一个分区。

C 并行计算:每个分区的数据被一个task任务处理,集合中的多个分区可以被同时计算。

D 以上三个选项都正确。

答案:

1=>D

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越(北京)科技有限公司 All Rights Reserved.

京ICP备14032124号-2