SparkStreaming_RDD队列创建DStream-【官方】百战程序员_IT在线教育培训机构


xxxxxxxxxx
def queueStream[T: ClassTag](
    queue: Queue[RDD[T]],
    oneAtATime: Boolean = true
    ): InputDStream[T] = {
   queueStream(queue, oneAtATime, sc.makeRDD(Seq.empty[T], 1))
}


xxxxxxxxxx
package com.itbaizhan.streaming
import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.{Seconds, StreamingContext}
import scala.collection.mutable

object RddCreateDStream {
  def main(args: Array[String]): Unit = {
    //1.初始化Spark配置信息
    val conf = new SparkConf().
      setMaster("local[*]")
      .setAppName("RddCreateDStreamWC")
    //2.初始化SparkStreamingContext
    val ssc = new StreamingContext(conf, Seconds(3))
    //3.创建RDD队列
    val rddQueue = new mutable.Queue[RDD[Int]]()
    //4.获取InputDStream，oneAtATime 是否只应使用一个RDD
    val inputDStream = ssc.queueStream(rddQueue,oneAtATime = false)
    //5.处理队列中的RDD数据
    val mapStream = inputDStream.map((_,1))
    val redStream = mapStream.reduceByKey(_ + _)
    //6.打印结果
    redStream.print()
    //7.启动任务
    ssc.start()
    //8.循环创建并向RDD队列中放入RDD
    for (i <- 1 to 6) {
      rddQueue += ssc.sparkContext.makeRDD(0 to 9)
      Thread.sleep(2000)
    }
    //9.等待执行停止
    ssc.awaitTermination()
  }
}

实时效果反馈

1. 关于queueStream函数的描述，错误的是：

def queueStream[T: ClassTag](queue: Queue[RDD[T]],oneAtATime: Boolean = true): InputDStream[T]= {......}

A queue: Queue[RDD[T]Queue是scala.collection.mutable包下的。

B 参数oneAtATime默认值为true，表示一批次应使用一个RDD。

C 参数oneAtATime默认值为false，表示一批次不应使用一个RDD。

答案：

1=>C 默认值为true

SparkStreaming_数据抽象 SparkStreaming_自定义数据源一

北京市昌平区回龙观镇南店村综合商业楼2楼226室