大数据全系列 教程
1869个小节阅读:464.9k
目录
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
基于文件数据源, 一般用于测试。
从文本文件加载数据时,可以是压缩文件,支持压缩格式如下表:
Compression Method | 扩展名 | 是否可并行化 |
---|---|---|
gzip | .gz, .gzip | no |
bzip2 | .bz2 | no |
xz | .xz | no |
deflate | .deflate | no |
压缩并下载文件:
[root@node1 ~]# gzip -c words > words.gz
#下载到本地项目的datas目录
[root@node1 ~]# sz words.gz
演示代码:
xpackage com.itbaizhan.flink.scala.source
import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}
object FlieSourceDemo {
def main(args: Array[String]): Unit = {
//1.构建执行环境对象
val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
//默认按照当前机器的CPU核数并行运行
env.setParallelism(1)
//2.读取普通 .txt .log .sh
val txtDs: DataStream[String] = env.readTextFile("datas/words")
//3.转化 ...
//4.输出sink
//txtDs.printToErr()
// txtDs.print()
//读取压缩文件
val gzDs: DataStream[String] = env.readTextFile("datas/words.gz")
gzDs.print()
//5.触发执行
env.execute("FlieSourceDemo")
}
}