目录
百战程序员,全站22050+开发课程+文档 ,学习精选优质好课快人一步!观看视频 快捷键ALT+N

大数据全系列 教程

1869个小节阅读:465.5k

收藏
全部开发者教程

408考研

JAVA全系列 教程

面向对象的程序设计语言

Python全系列 教程

Python3.x版本,未来主流的版本

人工智能 教程

顺势而为,AI创新未来

大厂算法 教程

算法,程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务 教程

目前业界流行的框架组合

web前端全系列 教程

通向WEB技术世界的钥匙

大数据全系列 教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(273)
赞(0)

运行模式_Standalone模式安装

Standalone模式是Spark自带的一种集群模式,不同于本地模式启动多个线程来模拟集群的环境,Standalone模式是真实地在多个机器之间搭建Spark集群的环境,完全可以利用该模式搭建多机器集群,用于实际的大数据处理。

集群规划

服务器node1node2node3
角色Master、Worker、HistoryServerWorkerWorker

历史服务器不是Spark环境的必要组件, 是可选的。功能: 将Spark运行的程序的历史日志记录下来, 通过历史服务器方便用户查看程序运行的历史信息。

Standalone集群是Spark自带的资源调度框架,支持分布式搭建,这里建议搭建Standalone节点数为3台,1台master节点,3台worker节点,这虚拟机中每台节点的内存至少给2G和2个core,这样才能保证后期Spark基于Standalone的正常运行。node1上配置好后,同步到node2和node3上。搭建Standalone集群的步骤如下:

  1. 进入到spark的配置文件目录中
  1. 将workers.template改为workers
  1. 配置workers文件

  1. 将spark-env.sh.template改名为spark-env.sh

  1. 修改spark_env.sh文件

ui.port:WEB UI访问的端口号为18080

fs.logDirectory:指定历史服务器日志存储路径

retainedApplications:指定保存Application历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。

cleaner.enabled=true:表示运行删除历史日志。

  1. 将spark-defaults.conf.template改名为spark-defaults.conf

  2. 配置spark-defaults.conf

  3. 启动hadoop集群(如果已经启动了,忽略此步):startha.sh

  4. HDFS上创建程序运行历史记录存放的文件夹,并修改权限。

  1. 将log4j.properties.template改名为log4j.properties
  1. 配置log4j.properties 文件

  1. 将Spark安装文件夹  分发到node2和node3

  1. node2和node3配置环境变量,并使之生效

 

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越(北京)科技有限公司 All Rights Reserved.

京ICP备14032124号-2