大数据全系列 教程
1869个小节阅读:467.5k
目录
408考研
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
网址:https://spark.apache.org/docs/3.2.1/streaming-programming-guide.html
Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams.
Spark Streaming是核心Spark API的扩展,支持实时数据流的可扩展、高吞吐量、容错流处理。
Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、HDFS、Kinesis和TCP套接字等等。数据输入后可以用Spark的高级函数(如map、reduce、join和window等进行运算。而结果也能保存在很多地方,如HDFS,数据库和实时仪表板等。还可以可以在数据流上应用Spark的机器学习和图形处理算法。
Spark Streaming接收实时输入数据流,并将数据分为多个批次,然后由Spark引擎进行处理,以批量生成最终结果流。在内部,它的工作原理如下:
和Spark基于RDD的概念很相似,Spark Streaming使用离散化流(discretized stream)作为抽象表示,叫作DStream。DStream 是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为 RDD 存在,而DStream是由这些RDD所组成的序列(因此得名“离散化”)。所以简单来将,DStream就是对RDD在实时数据处理场景的一种封装。
Spark Streaming特点:易用、容错、易整合到Spark体系中。
注:可以用Scala、Java或Python编写Spark流处理程序。
实时效果反馈
1. 关于SparkStreaming的描述,错误的是:
A Spark Streaming
是核心Spark API的扩展,支持实时数据流的可扩展、高吞吐量、容错 流处理。
B Spark Streaming
用于批式数据的处理。
C Spark Streaming
接收实时输入数据流,并将数据分为多个批次,然后由Spark引擎进 行处理,以批量生成最终结果流。
D 和Spark基于RDD的概念很相似,Spark Streaming
使用离散化流(discretized stream) 作为抽象表示,叫作DStream。
答案:
1=>B Spark Streaming用于流式数据的处理