大数据全系列 教程
1869个小节阅读:466.7k
目录
408考研
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
Internally, each RDD is characterized by five main properties:
A list of partitions
RDD是有分区的,RDD数据结构中存在分区列表,用于执行任务时并行计算,是实现分布式计算的重要属性。A function for computing each split
计算方法会作用到每个分片(分区)上,是使用分区函数对每一个分区进行计算A list of dependencies on other RDDs
RDD之间存在相互依赖关系,RDD是计算模型的封装,当需求中需要将多个计算模型进行组合时,就需要将多个RDD建立依赖关系。Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
KV型RDD可以有分区,当数据为KV类型数据时,可以通过设定分区器自定义数据的分区Optionally, a list of preferred locations to compute each split on (e.g. block locations foran HDFS file)
RDD的分区规划尽量靠近数据所在的服务器(例如HDFS文件的块位置)来自于org/apache/spark/rdd/RDD.scala的源码,前三个特性每个RDD都具备,后两个特性是可选的。
实时效果反馈
1. 以下哪个选项不是RDD必有的是:
A RDD是有分区的。
B 计算方法会作用到每个分片(分区)上。
C RDD有分区器。
D RDD之间存在相互依赖关系。
答案:
1=>C 可能的, Key-Value型RDD 可有分区器。