Hive优化_合理设置MapTask数量mp4-【官方】百战程序员_IT在线教育培训机构

答：不是。如果一个任务有很多小文件，则每个小文件都会被当成一个split切片，用一个map任务来完成，执行真是业务逻辑运算的时间远远小于map任务的启动和初始化的时间，就会造成很大的资源浪费。另外，同时可执行的map数也是受限的。如何优化，答案当然是减少map的数量，比如通过合并小文件减少map数量，见10.10.2。

思考二：是不是保证每个map处理接近128M的文件块，就高枕无忧了？

答：不一定，比如一个128MB（或者接近该值）的文件，默认情况会用一个map去完成，但是这个文件可能只有很少的小字段，却又几千万的记录，如果map处理的逻辑比较复杂，用一个map任务去做，肯定比较耗时。如何解决？当然是增加map的个数。见10.10.3

10.10.2 合并小文件

小文件数目多，容易在文件存储端造成压力，给hdfs造成压力，影响效率

设置合并属性

是否合并map输出文件：hive.merge.mapfiles=true

是否合并reduce输出文件：hive.merge.mapredfiles=true;

合并文件的大小：hive.merge.size.per.task=256*1024*1024

CombineHiveInputFormat具有对小文件进行合并的功能（系统默认的格式）

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

10.10.3 复杂文件增加map数

对比设置split逻辑切块的大小（minSize,maxSize）,复杂文件增加map数量就是将splitsize调小，同样的数据，切片数就变多。


xxxxxxxxxx
set mapred.max.split.size=256000000(默认值）
set mapred.min.split.size=1;（默认值）
splitSize = Math.max(minSize,Math.min(maxSize,blockSize))

一个split的最大值，即每个map处理文件的最大值。让该值小于blocksize就可以增加map的个数。

扩展Map数量相关的参数


xxxxxxxxxx
mapred.min.split.size.per.node
一个节点上split的最小值

mapred.min.split.size.per.rack
一个机架上split的最小值

Hive优化_去重统计和避免笛卡尔积出现 Hive优化_合理设置Reduce数

北京市昌平区回龙观镇南店村综合商业楼2楼226室