目录
百战程序员,全站22050+开发课程+文档 ,学习精选优质好课快人一步!观看视频 快捷键ALT+N

大数据全系列 教程

1869个小节阅读:466.7k

收藏
全部开发者教程

408考研

JAVA全系列 教程

面向对象的程序设计语言

Python全系列 教程

Python3.x版本,未来主流的版本

人工智能 教程

顺势而为,AI创新未来

大厂算法 教程

算法,程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务 教程

目前业界流行的框架组合

web前端全系列 教程

通向WEB技术世界的钥匙

大数据全系列 教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(274)
赞(0)

RDD_五大特性总述

Internally, each RDD is characterized by five main properties:

  1. A list of partitions RDD是有分区的,RDD数据结构中存在分区列表,用于执行任务时并行计算,是实现分布式计算的重要属性。
  2. A function for computing each split 计算方法会作用到每个分片(分区)上,是使用分区函数对每一个分区进行计算
  3. A list of dependencies on other RDDs RDD之间存在相互依赖关系,RDD是计算模型的封装,当需求中需要将多个计算模型进行组合时,就需要将多个RDD建立依赖关系。
  4. Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned) KV型RDD可以有分区,当数据为KV类型数据时,可以通过设定分区器自定义数据的分区
  5. Optionally, a list of preferred locations to compute each split on (e.g. block locations foran HDFS file) RDD的分区规划尽量靠近数据所在的服务器(例如HDFS文件的块位置)

来自于org/apache/spark/rdd/RDD.scala的源码,前三个特性每个RDD都具备,后两个特性是可选的。

实时效果反馈

1. 以下哪个选项不是RDD必有的是:

A RDD是有分区的。

B 计算方法会作用到每个分片(分区)上。

C RDD有分区器。

D RDD之间存在相互依赖关系。

答案:

1=>C 可能的, Key-Value型RDD
可有分区器。

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越(北京)科技有限公司 All Rights Reserved.

京ICP备14032124号-2