RDD_行动算子foreachPartition-【官方】百战程序员_IT在线教育培训机构


xxxxxxxxxx
package com.itbaizhan.rdd.action

//1.导入类
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import scala.collection.mutable.ListBuffer
object RddForeachPartition {
  def main(args: Array[String]): Unit = {
    //2.构建SparkConf对象，并设置本地运行和程序名称
    val conf: SparkConf = new SparkConf().setMaster("local[1]").
      setAppName("ForeachPartition")
    //3.使用conf对象构建SparkContet对象
    val sc = new SparkContext(conf)
    //5.创建RDD对象
    val rdd: RDD[String] = sc.parallelize(List("a", "b", "c", "e", "f", "d"), 3)
    //6.自定义处理函数
    def process(datas: Iterator[String]): Unit = {
      println("操作一-开始一个分区...")
      val result = ListBuffer[String]()
      for(data<-datas){
        result.append(data)
      }
      println("当前分区的数据:"+result)
      println("操作二-结束一个分区...")
    }
    //7.调用foreachPartition算子，参数为自定义函数
    rdd.foreachPartition(process)
    //4.关闭sc对象
    sc.stop()
  }
}

运行结果：


xxxxxxxxxx
操作一-开始一个分区...
当前分区的数据:ListBuffer(a, b)
操作二-结束一个分区...
操作一-开始一个分区...
当前分区的数据:ListBuffer(c, e)
操作二-结束一个分区...
操作一-开始一个分区...
当前分区的数据:ListBuffer(f, d)
操作二-结束一个分区...

实时效果反馈

1. 以下关于rdd.foreachPartition(process)的描述错误的是：

A 与mapPartition类似，遍历的单位是每个partition上的数据。

B rdd中的一个分区的数据调用执行一次process函数。

C 参数process自定义每个分区的处理逻辑，它是一个函数。

D foreachPartition函数的返回值为RDD。

答案：

1=>D foreachPartition是行动算子，返回值不是RDD。

RDD_转换算子sample RDD_行动算子foreach

北京市昌平区回龙观镇南店村综合商业楼2楼226室