大数据全系列 教程
1869个小节阅读:467.2k
目录
408考研
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
配置时确保在spark-env.sh中(或环境变量配置文件中均可)包含以下配置:
xxxxxxxxxx
JAVA_HOME=/usr/java/default
#HADOOP软件配置文件目录,读取HDFS上文件和运行YARN集群
HADOOP_CONF_DIR=/opt/hadoop-3.1.3/etc/hadoop
YARN_CONF_DIR=/opt/hadoop-3.1.3/etc/hadoop
修改node1配置文件/opt/hadoop-3.1.3/etc/hadoop/yarn-site.xml
删除:
xxxxxxxxxx
<!-- yarn容器允许分配的最大最小内存 -->
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>512</value>
</property>
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>1024</value>
</property>
<!-- yarn容器允许管理的物理内存大小(NN) -->
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>1024</value>
</property>
确认包含
xxxxxxxxxx
<!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
同步配置文件到其它三台虚拟机中
xxxxxxxxxx
[root@node1 hadoop]# scp yarn-site.xml node2:`pwd`
[root@node1 hadoop]# scp yarn-site.xml node3:`pwd`
[root@node1 hadoop]# scp yarn-site.xml node4:`pwd`
重启hadoop集群
xxxxxxxxxx
[root@node1 hadoop]# stopha.sh
[root@node1 hadoop]# startha.sh
由于Spark作业需要Hadoop 的Yarn提供资源的管理,所以使用时一定要将hadoop集群启动起来(除了HDFS集群,还包含Yarn的ResourceManager以及NodeManager等)