RDD_转换算子sortBy-【官方】百战程序员_IT在线教育培训机构


xxxxxxxxxx
package com.itbaizhan.rdd

//1.导入类
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object RddSortBy {
  def main(args: Array[String]): Unit = {
    //2.构建SparkConf对象，并设置本地运行和程序名称
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("groupByKey")
    //3.使用conf对象构建SparkContet对象
    val sc = new SparkContext(conf)
    //5.创建Key-Value型Rdd
    val rdd: RDD[(Char, Int)] = sc.parallelize(List(('w', 2), ('h', 5), ('k', 9), ('m', 3),('a', 7),
      ('p', 4), ('q', 1), ('n', 8), ('y', 6)))
    //6.使用sortBy对rdd按照元祖的第二个值进行排序
    /*f: (T) => K,指定按照第几个元素记进行排序
      ascending: Boolean = true,true表示升序，false表示降序，默认就是true升序
      numPartitions: Int = this.partitions.length排序的分区数，默认为rdd的分区数*/
    val result1: Array[Array[(Char, Int)]] = rdd.sortBy(tup => tup._2,
      ascending = true, numPartitions = 3).glom().collect()
    result1.foreach(arr=>println(arr.mkString(",")))
    //7.全局有序，排序后的分区数设置为1
    val result2: Array[(Char, Int)] = rdd.sortBy(tup => tup._2,
      ascending = true, numPartitions = 1).collect()
    println(result2.mkString(","))
    //8按照元祖的第一个元素进行降序排序
    val result3: Array[(Char, Int)] = rdd.sortBy(tup => tup._1,
      ascending = false, numPartitions = 1).collect()
    println(result3.mkString(","))
    //4.关闭sc对象
    sc.stop()
  }
}

实时效果反馈

1. 以下代码中哪个选项表示"根据元组中的第一值进行降序排序，并分为1个分区"：

A rdd.sortBy(tup => tup._2, ascending = true, numPartitions = 3)

B rdd.sortBy(tup => tup._1,ascending = true, numPartitions = 1)

C rdd.sortBy(tup => tup._1,ascending = false, numPartitions = 1)

答案：

1=>C

RDD_转换算子groupByKey RDD_转换算子sortByKey

北京市昌平区回龙观镇南店村综合商业楼2楼226室