目录
百战程序员,全站22050+开发课程+文档 ,学习精选优质好课快人一步!观看视频 快捷键ALT+N

大数据全系列 教程

1869个小节阅读:464.8k

收藏
全部开发者教程

JAVA全系列 教程

面向对象的程序设计语言

Python全系列 教程

Python3.x版本,未来主流的版本

人工智能 教程

顺势而为,AI创新未来

大厂算法 教程

算法,程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务 教程

目前业界流行的框架组合

web前端全系列 教程

通向WEB技术世界的钥匙

大数据全系列 教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(240)
赞(0)

RDD_五大特性5

特性5:RDD的分区规划尽量靠近数据所在的服务器

在初始RDD(读取数据的时候)规划的时候,分区会尽量规划到存储数据所在的服务器上。因为这样可以走本地读取,避免网络读取
。

本地读取∶Executor所在的服务器,同样是一个DataNode,同时这个DataNode上有它要读的数据,所以可以直接读取机器硬盘即可无需走网络传输


网络读取∶读取数据 需要经过网络的传输才能读取到,效率远远低于本地读取。

注意:Spark会在确保并行计算能力的前提下,尽量确保本地读取
这里是尽量确保 而不是100%确保。所以这个特性也是∶可能的

实时效果反馈

1. 关于特性5:RDD的分区规划尽量靠近数据所在的服务器错误是:

A 在初始RDD(读取数据的时候)规划的时候,分区会尽量规划到存储数据所在的服务器上。

B 本地读取指的是Executor所在的服务器,同样是一个DataNode,同时这个DataNode上有它要读的数据,所以可以直接读取机器硬盘即可无需走网络传输。

C 所有的场景均可以实现RDD的本地读取。

D Spark会在确保并行计算能力的前提下,尽量确保本地读取
这里是尽量确保 而不是100%确保。

答案:

1=>C 不是所有场景都可以实现本地读取的。

 

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越(北京)科技有限公司 All Rights Reserved.

京ICP备14032124号-2