大数据全系列 教程
1869个小节阅读:468k
目录
408考研
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
在Spark开山之作Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing这篇paper中,Matei等人提出了RDD这种数据结构。
分解描述:
RDD(Resilient Distributed Dataset)是弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。
弹性的:
分布式:数据存储在大数据集群不同节点上
数据集:RDD封装了计算逻辑,并不保存数据
数据抽象:RDD是一个抽象类,需要子类具体实现
不可变:需要使用val声明,表示不可变集合。RDD封装了计算逻辑,是不可以改变的,想要改变,只能产生新的RDD,在新的RDD里面封装计算逻辑
分区的:集合数据被划分为多个部分,每部分被称为一个分区。
并行计算:每个分区的数据被一个task任务处理,集合中的多个分区可以被同时计算。
实时效果反馈
1. 关于RDD的描述,正确的是:
A 不可变:需要使用val声明,表示不可变集合。RDD封装了计算逻辑,是不可以改变的,想要改变,只能产生新的RDD,在新的RDD里面封装计算逻辑。
B 分区的:集合数据被划分为多个部分,每部分被称为一个分区。
C 并行计算:每个分区的数据被一个task任务处理,集合中的多个分区可以被同时计算。
D 以上三个选项都正确。
答案:
1=>D