目录
百战程序员,全站22050+开发课程+文档 ,学习精选优质好课快人一步!观看视频 快捷键ALT+N

大数据全系列 教程

1869个小节阅读:467.5k

收藏
全部开发者教程

408考研

JAVA全系列 教程

面向对象的程序设计语言

Python全系列 教程

Python3.x版本,未来主流的版本

人工智能 教程

顺势而为,AI创新未来

大厂算法 教程

算法,程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务 教程

目前业界流行的框架组合

web前端全系列 教程

通向WEB技术世界的钥匙

大数据全系列 教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(257)
赞(0)

SparkStreaming_概述

网址:https://spark.apache.org/docs/3.2.1/streaming-programming-guide.html

Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams.

Spark Streaming是核心Spark API的扩展,支持实时数据流的可扩展、高吞吐量、容错流处理。

Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、HDFS、Kinesis和TCP套接字等等。数据输入后可以用Spark的高级函数(如map、reduce、join和window等进行运算。而结果也能保存在很多地方,如HDFS,数据库和实时仪表板等。还可以可以在数据流上应用Spark的机器学习和图形处理算法。

Spark Streaming接收实时输入数据流,并将数据分为多个批次,然后由Spark引擎进行处理,以批量生成最终结果流。在内部,它的工作原理如下:

和Spark基于RDD的概念很相似,Spark Streaming使用离散化流(discretized stream)作为抽象表示,叫作DStream。DStream 是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为 RDD 存在,而DStream是由这些RDD所组成的序列(因此得名“离散化”)。所以简单来将,DStream就是对RDD在实时数据处理场景的一种封装。

Spark Streaming特点:易用、容错、易整合到Spark体系中。

注:可以用Scala、Java或Python编写Spark流处理程序。

实时效果反馈

1. 关于SparkStreaming的描述,错误的是:

A Spark Streaming是核心Spark API的扩展,支持实时数据流的可扩展、高吞吐量、容错 流处理。

B Spark Streaming用于批式数据的处理。

C Spark Streaming接收实时输入数据流,并将数据分为多个批次,然后由Spark引擎进 行处理,以批量生成最终结果流。

D 和Spark基于RDD的概念很相似,Spark Streaming使用离散化流(discretized stream) 作为抽象表示,叫作DStream。

答案:

1=>B Spark Streaming用于流式数据的处理

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越(北京)科技有限公司 All Rights Reserved.

京ICP备14032124号-2