目录
百战程序员,全站22050+开发课程+文档 ,学习精选优质好课快人一步!观看视频 快捷键ALT+N

大数据全系列 教程

1869个小节阅读:466k

收藏
全部开发者教程

408考研

JAVA全系列 教程

面向对象的程序设计语言

Python全系列 教程

Python3.x版本,未来主流的版本

人工智能 教程

顺势而为,AI创新未来

大厂算法 教程

算法,程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务 教程

目前业界流行的框架组合

web前端全系列 教程

通向WEB技术世界的钥匙

大数据全系列 教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(238)
赞(0)

2.5 Sink实战

2.5.1 HDFS Sink

参考官网地址:https://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#hdfs-sink

支持的逃逸字符:

别名描述
%tUnix时间戳,毫秒
%{host}替换名为"host"的事件header的值。支持任意标题名称。
%a星期几的短名,即Mon, Tue, ...
%A星期几的全名,即Monday, Tuesday, ...
%b月份短名,即Jan, Feb, ...
%B月份全名,即January, February, ...
%c时间和日期,即Thu Mar 3 23:05:25 2030
%dday of month (01)
%eday of month without padding (1)
%Ddate; same as %m/%d/%y
%Hhour (00..23)
%Ihour (01..12)
%jday of year (001..366)
%k小时 ( 0..23)
%m月份 (01..12)
%n不加前缀的月份 (1..12)
%M分钟(00..59)
%plocale’s equivalent of am or pm
%sseconds since 1970-01-01 00:00:00 UTC
%Ssecond (00..59)
%y年份最后两位 (00..99)
%Yyear (2030)
%z+hhmm数字时区 (for example, -0400)

参数介绍:

属性名称默认值说明
channel- 
type-组件类型名称,必须是hdfs
hdfs.path-HDFS路径,如hdfs://mycluster/flume/mydata
hdfs.filePrefixFlumeDataflume在hdfs目录中创建文件的前缀
hdfs.fileSuffix-flume在hdfs目录中创建文件的后缀。
hdfs.inUsePrefix-flume正在写入的临时文件的前缀
hdfs.inUseSuffix.tmpflume正在写入的临时文件的后缀
hdfs.rollInterval30多长时间写一个新的文件 (0 = 不写新的文件),单位秒
hdfs.rollSize1024文件多大写新文件单位字节(0: 不基于文件大小写新文件)
hdfs.rollCount10当写一个新的文件之前要求当前文件写入多少事件(0 = 不基于事件数写新文件)
hdfs.idleTimeout0多长时间没有新增事件则关闭文件(0 = 不自动关闭文件)单位为秒
hdfs.batchSize100写多少个事件开始向HDFS刷数据
hdfs.codeC-压缩格式:gzip, bzip2, lzo, lzop, snappy
hdfs.fileTypeSequenceFile当前支持三个值:SequenceFile,DataStream,CompressedStream。(1)DataStream不压缩输出文件,不要设置codeC (2)CompressedStream 必须设置codeC
hdfs.maxOpenFiles5000最大打开多少个文件。如果数量超了则关闭最旧的文件
hdfs.minBlockReplicas-对每个hdfs的block设置最小副本数。如果不指定,则使用hadoop的配置的值。1
hdfs.writeFormat-对于sequence file记录的类型。Text或者Writable(默认值)
hdfs.callTimeout10000为HDFS操作如open、write、flush、close准备的时间。如果HDFS操作很慢,则可以设置这个值大一点儿。单位毫秒
hdfs.threadsPoolSize10每个HDFS sink的用于HDFS io操作的线程数 (open, write, etc.)
hdfs.rollTimerPoolSize1每个HDFS sink使用几个线程用于调度计时文件滚动。
hdfs.roundfalse支持文件夹滚动的属性。是否需要新建文件夹。如果设置为true,则会影响所有的基于时间的逃逸字符,除了%t。
hdfs.roundValue1该值与roundUnit一起指定文件夹滚动的时长,会四舍五入
hdfs.roundUnitsecond控制文件夹个数。多长时间生成新文件夹。可以设置为- second, minute 或者 hour.
hdfs.timeZoneLocal TimeName of the timezone that should be used for resolving the directory path, e.g. America/Los_Angeles.
hdfs.useLocalTimeStampfalse一般设置为true,使用本地时间。如果不使用本地时间,要求flume发送的事件header中带有时间戳。该时间用于替换逃逸字符

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越(北京)科技有限公司 All Rights Reserved.

京ICP备14032124号-2