大数据全系列 教程
1869个小节阅读:466k
目录
408考研
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
参考官网地址:https://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#hdfs-sink
支持的逃逸字符:
别名 | 描述 |
---|---|
%t | Unix时间戳,毫秒 |
%{host} | 替换名为"host"的事件header的值。支持任意标题名称。 |
%a | 星期几的短名,即Mon, Tue, ... |
%A | 星期几的全名,即Monday, Tuesday, ... |
%b | 月份短名,即Jan, Feb, ... |
%B | 月份全名,即January, February, ... |
%c | 时间和日期,即Thu Mar 3 23:05:25 2030 |
%d | day of month (01) |
%e | day of month without padding (1) |
%D | date; same as %m/%d/%y |
%H | hour (00..23) |
%I | hour (01..12) |
%j | day of year (001..366) |
%k | 小时 ( 0..23) |
%m | 月份 (01..12) |
%n | 不加前缀的月份 (1..12) |
%M | 分钟(00..59) |
%p | locale’s equivalent of am or pm |
%s | seconds since 1970-01-01 00:00:00 UTC |
%S | second (00..59) |
%y | 年份最后两位 (00..99) |
%Y | year (2030) |
%z | +hhmm数字时区 (for example, -0400) |
参数介绍:
属性名称 | 默认值 | 说明 |
---|---|---|
channel | - | |
type | - | 组件类型名称,必须是hdfs |
hdfs.path | - | HDFS路径,如hdfs://mycluster/flume/mydata |
hdfs.filePrefix | FlumeData | flume在hdfs目录中创建文件的前缀 |
hdfs.fileSuffix | - | flume在hdfs目录中创建文件的后缀。 |
hdfs.inUsePrefix | - | flume正在写入的临时文件的前缀 |
hdfs.inUseSuffix | .tmp | flume正在写入的临时文件的后缀 |
hdfs.rollInterval | 30 | 多长时间写一个新的文件 (0 = 不写新的文件),单位秒 |
hdfs.rollSize | 1024 | 文件多大写新文件单位字节(0: 不基于文件大小写新文件) |
hdfs.rollCount | 10 | 当写一个新的文件之前要求当前文件写入多少事件(0 = 不基于事件数写新文件) |
hdfs.idleTimeout | 0 | 多长时间没有新增事件则关闭文件(0 = 不自动关闭文件)单位为秒 |
hdfs.batchSize | 100 | 写多少个事件开始向HDFS刷数据 |
hdfs.codeC | - | 压缩格式:gzip, bzip2, lzo, lzop, snappy |
hdfs.fileType | SequenceFile | 当前支持三个值:SequenceFile,DataStream,CompressedStream。(1)DataStream不压缩输出文件,不要设置codeC (2)CompressedStream 必须设置codeC |
hdfs.maxOpenFiles | 5000 | 最大打开多少个文件。如果数量超了则关闭最旧的文件 |
hdfs.minBlockReplicas | - | 对每个hdfs的block设置最小副本数。如果不指定,则使用hadoop的配置的值。1 |
hdfs.writeFormat | - | 对于sequence file记录的类型。Text或者Writable(默认值) |
hdfs.callTimeout | 10000 | 为HDFS操作如open、write、flush、close准备的时间。如果HDFS操作很慢,则可以设置这个值大一点儿。单位毫秒 |
hdfs.threadsPoolSize | 10 | 每个HDFS sink的用于HDFS io操作的线程数 (open, write, etc.) |
hdfs.rollTimerPoolSize | 1 | 每个HDFS sink使用几个线程用于调度计时文件滚动。 |
hdfs.round | false | 支持文件夹滚动的属性。是否需要新建文件夹。如果设置为true,则会影响所有的基于时间的逃逸字符,除了%t。 |
hdfs.roundValue | 1 | 该值与roundUnit一起指定文件夹滚动的时长,会四舍五入 |
hdfs.roundUnit | second | 控制文件夹个数。多长时间生成新文件夹。可以设置为- second, minute 或者 hour. |
hdfs.timeZone | Local Time | Name of the timezone that should be used for resolving the directory path, e.g. America/Los_Angeles. |
hdfs.useLocalTimeStamp | false | 一般设置为true,使用本地时间。如果不使用本地时间,要求flume发送的事件header中带有时间戳。该时间用于替换逃逸字符 |