大数据全系列 教程
1869个小节阅读:465.3k
目录
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
特性1:RDD是有分区的
RDD的分区是RDD数据存储的最小单位;一个RDD的数据,本质上是拆分成了多个分区。
比如一个RDD中有数据1,2,3,4,5,6,它有3个分区。
代码演示:
xxxxxxxxxx
[root@node1 ~]# startha.sh #如果hadoop集群已经启动忽略此步[root@node1 ~]# spark-shell
scala> sc.parallelize(List(1,2,3,4,5,6),3).glom().collect()
res0: Array[Array[Int]] = Array(Array(1, 2), Array(3, 4), Array(5, 6))#设置3个分区,数据就分为3部分
scala> sc.parallelize(List(1,2,3,4,5,6),4).glom().collect()
res1: Array[Array[Int]] = Array(Array(1), Array(2, 3), Array(4), Array(5, 6))#设置4个分区,数据就分为4部分
实时效果反馈
1. 关于特性1RDD是有分区的描述错误是:
A RDD的分区是RDD数据存储的最小单位;
B RDD可以没有分区。
C 一个RDD的数据,本质上是拆分成了多个分区。
D RDD至少有一个分区。
答案:
1=>B 至少有一个分区。