大数据全系列 教程
1869个小节阅读:465.9k
目录
408考研
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
xxxxxxxxxx
package com.itbaizhan.rdd
//1.导入类
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object RddDistinct {
def main(args: Array[String]): Unit = {
//2.构建SparkConf对象,并设置本地运行和程序名称
val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("filter")
//3.使用conf对象构建SparkContet对象
val sc = new SparkContext(conf)
//5.创建Rdd
val rdd: RDD[Int] = sc.parallelize(List(1, 2, 3, 2, 5, 2))
//6.去重后输出 : 1,2,3,5
println(rdd.distinct().collect().mkString(","))
//7.key-value型的rdd,如何认定为重复元素?只有key和value的值都相同时认定为重复元素
//结果(y,1),(x,1),(x,2)
val rdd1: RDD[(Char, Int)] = sc.parallelize(List(('x', 1), ('x', 2), ('x', 1), ('y', 1)))
println(rdd1.distinct().collect().mkString(","))
//4.关闭sc对象
sc.stop()
}
}
实时效果反馈
1. 以下关于distinct()
的描述正确的是:
A 可以对单值型的RDD中元素进行去重。
B 可以对Key-Value型的RDD中元素进行去重。
C Key-Value型的RDD中的两个元素的只有key、value都分别相同了才认为重复。
D 以上三个选项都正确。
答案:
1=>D