大数据全系列 教程
1869个小节阅读:464.7k
目录
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
开发和测试阶段使用本地模式,优点快,缺点是http://node3:8088/cluster看不到。对于小数据集hive通过本地模式在单机上处理任务,执行时间可以明显被缩短。
xxxxxxxxxx
hive> set hive.exec.mode.local.auto;
hive.exec.mode.local.auto=false #默认为false
对比操作:
xxxxxxxxxx
# 开启本地模式前:
hive> select count(*) from person;
OK
_c0
9
Time taken: 75.729 seconds, Fetched: 1 row(s)
# 开启本地模式
hive> set hive.exec.mode.local.auto=true;
# 开启本地模式之后
hive> select count(*) from person;
OK
_c0
9
Time taken: 5.677 seconds, Fetched: 1 row(s)
对比发现当被查询的表中数据集比较少时,使用本地模式有时较短。
较小的数据集如何界定:
设置local mr的最大输入数据量,当输入数据量小于这个值是采用local mr的方式,默认134217728也就是128M。若大于该配置仍会以集群方式来运行!
hive.exec.mode.local.auto.inputbytes.max=134217728
设置local mr的最大输入文件个数,当输入文件个数小于这个值是采用local mr方式
hive.exec.mode.local.auto.input.files.max=4 #默认4