大数据全系列 教程
1869个小节阅读:466.7k
目录
408考研
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
特性4:Key-Value型的RDD可以有分区器
默认分区器∶Hash分区规则,可以手动设置一个分区器(rdd.partitionBy的方法来设置)
xxxxxxxxxx
//将数据按照指定Partitioner重新进行分区。Spark默认的分区器是HashPartitioner
val rdd1: RDD[(Int, String)] =
sc.makeRDD(Array((1,"tuhao"),(2,"tom"),(3,"lucy")),3)
import org.apache.spark.HashPartitioner
val rdd2: RDD[(Int, String)] =
rdd.partitionBy(new HashPartitioner(2))
这个特性是可选的,因为不是所有RDD都是Key-Value型。
Key-Value RDD∶ RDD中存储的是Tuple2二元元组,这就是Key-Value型RDD
注:二元元组∶只有2个元素的元组。
实时效果反馈
1. 关于特性4Key-Value型的RDD可以有分区器的错误描述是:
A RDD默认分区器∶Hash分区规则。
B Key-Value RDD中存储的是Tuple3三元元组。
C 可以手动设置一个分区器(rdd.partitionBy的方法来设置)。
D 这个特性是可选的,因为不是所有RDD都是Key-Value型。
答案:
1=>B Key-Value RDD中存储的是二元元组。