xxxxxxxxxx
CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name
  [(col_name data_type [column_constraint_specification] [COMMENT col_comment], ... [constraint_specification])]
  [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
  [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
 [ROW FORMAT row_format]

创建分桶表：


xxxxxxxxxx
create table psnbucket( id int, name string, age int)
clustered by (age) into 4 buckets 
row format delimited fields terminated by ',';

创建原始数据表：


xxxxxxxxxx
create table psn31( id int, name string, age int)
row format delimited fields terminated by ',';

准备测试数据：


xxxxxxxxxx
[root@node4 data]# vim bucket
1,tom,11
2,cat,22
3,dog,33
4,hive,44
5,hbase,55
6,mr,66
7,alice,77
8,scala,88

将数据给添加到psn31表中：


xxxxxxxxxx
hive> load data local inpath '/root/data/bucket' into table psn31;
Loading data to table default.psn31
OK
Time taken: 1.656 seconds
hive> select * from psn31;
OK
psn31.id    psn31.name  psn31.age
1   tom 11
2   cat 22
3   dog 33
4   hive    44
5   hbase   55
6   mr  66
7   alice   77
8   scala   88
Time taken: 3.263 seconds, Fetched: 8 row(s)

将psn31中的数据导入到psnbucket中


xxxxxxxxxx
hive> insert into table psnbucket select id,name,age from psn31;
Query ID = root_20211119125326_ea57ba42-a38f-43d9-9c78-b9ce17d7cf4d
Total jobs = 2
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 4

4个桶对应四个reduce任务数。

查看结果文件列表：


xxxxxxxxxx
[root@node4 data]# hdfs dfs -ls /user/hive_remote/warehouse/psnbucket
Found 4 items
-rw-r--r--   3 root supergroup         21 2021-11-19 12:55 /user/hive_remote/warehouse/psnbucket/000000_0
-rw-r--r--   3 root supergroup         20 2021-11-19 12:54 /user/hive_remote/warehouse/psnbucket/000001_0
-rw-r--r--   3 root supergroup         17 2021-11-19 12:54 /user/hive_remote/warehouse/psnbucket/000002_0
-rw-r--r--   3 root supergroup         20 2021-11-19 12:55 /user/hive_remote/warehouse/psnbucket/000003_0

查看文件中的内容：


xxxxxxxxxx
[root@node4 data]# hdfs dfs -cat /user/hive_remote/warehouse/psnbucket/000000_0
8,scala,88
4,hive,44
[root@node4 data]# hdfs dfs -cat /user/hive_remote/warehouse/psnbucket/000001_0
7,alice,77
3,dog,33
[root@node4 data]# hdfs dfs -cat /user/hive_remote/warehouse/psnbucket/000002_0
6,mr,66
2,cat,22
[root@node4 data]# hdfs dfs -cat /user/hive_remote/warehouse/psnbucket/000003_0
5,hbase,55
1,tom,11

Hive参数与动态分区_动态分区 Hive分桶_创建分桶表二

北京市昌平区回龙观镇南店村综合商业楼2楼226室