大数据全系列 教程
1869个小节阅读:467.9k
目录
408考研
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
如何分区?
要保证同一组数据(年和月都相同的)在一个分区下
每个区中的数据尽可能比较均衡,也就是每个分区中的数据量相差不多,避免数据倾斜情况的出现。
可以月份进行分区
1,2,3 4,5,6 7,8,9 10,11,12 不太合理
1,5,9 2,6,10 3,7,11 4,8,12比较合理的分法
xxxxxxxxxx
package com.itbaizhan;
import org.apache.hadoop.mapreduce.Partitioner;
import org.apache.hadoop.io.Text;
//泛型中的类型分别 Mapper输出的key和value的类型
public class WeatherPartitioner extends Partitioner<Weather, Text> {
@Override
public int getPartition(Weather weather, Text text, int numPartitions) {
return weather.getMonth()%numPartitions;
}
}