目录
百战程序员,全站22050+开发课程+文档 ,学习精选优质好课快人一步!观看视频 快捷键ALT+N

大数据全系列 教程

1869个小节阅读:468.1k

收藏
全部开发者教程

408考研

JAVA全系列 教程

面向对象的程序设计语言

Python全系列 教程

Python3.x版本,未来主流的版本

人工智能 教程

顺势而为,AI创新未来

大厂算法 教程

算法,程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务 教程

目前业界流行的框架组合

web前端全系列 教程

通向WEB技术世界的钥匙

大数据全系列 教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(352)
赞(0)

内核进阶_Cache和CheckPoint区别

也就是缓存和检查点区别:

  1. Cache缓存只是将数据保存起来,不切断血缘依赖。Checkpoint检查点切断血缘依赖。
  2. Cache缓存的数据通常存储在磁盘、内存等地方,可靠性低。Checkpoint的数据通常存储在HDFS等容错、高可用的文件系统,可靠性高。
  3. 建议对checkpoint()的RDD使用Cache缓存,这样checkpoint的job只需从Cache缓存中读取数据即可,否则需要再从头计算一次RDD。

总结:

  • 注意CheckPoint是一种重量级的使用,也就是RDD的重新计算成本很高的时候,我们采用CheckPoint比较合适。或者数据量很大,用CheckPoint比较合适。
  • 如果数据量小,或者RDD重新计算是非常快的,用CheckPoint没啥必要,直接缓存即可。
  • Cache和CheckPoint两个API都不是Action类型,所以,想要它俩工作,必须在后面接上Action。接上Action的目的,是让RDD有数据,而不是为了让CheckPoint和Cache工作。

实时效果反馈

1. 关于Cache和CheckPoint区别的相关描述,正确的是:

A Cache缓存只是将数据保存起来,不切断血缘依赖。Checkpoint检查点切断血缘依赖。

B Cache缓存的数据通常存储在磁盘、内存等地方,可靠性低。Checkpoint的数据通常存储在HDFS等容错、高可用的文件系统,可靠性高。

C Cache和CheckPoint两个API都不是Action类型,所以,想要它俩工作,必须在后面接上Action。接上Action的目的,是让RDD有数据,而不是为了让CheckPoint和Cache工作。

D 以上三个选项都正确。

答案:

1=>D

 

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越(北京)科技有限公司 All Rights Reserved.

京ICP备14032124号-2