大数据全系列 教程
1869个小节阅读:466.8k
目录
408考研
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
读取csv数据源,使用format(“csv”)读取csv数据
数据文件准备student.csv
xxxxxxxxxx
id,name,age
1,tom,22
2,lucy,21
3,peter,23
4,john,25
演示代码:
xxxxxxxxxx
package com.itbaizhan.sql
import org.apache.spark.SparkConf
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}
object SSRWCsv {
def main(args: Array[String]): Unit = {
//1.创建配置文件对象
val conf: SparkConf = new SparkConf()
.setMaster("local[*]")
.setAppName("SSRWCsv")
//2.创建SparkSession对象
val spark: SparkSession = SparkSession.builder()
.config(conf).getOrCreate()
//4.读取本地csv文件,返回DataFrame对象
val df: DataFrame = spark.read.format("csv")
//第一行为列名
.option("header", true)
//设置字段之间的分隔符,默认是“,”
.option("delimiter", ";")
//未设置前各个字段都是String类型,设置后匹配对应的类型
.option("inferSchema","true")
.option("encoding", "utf-8")
//.load("data/sql/student.csv")
.load("data/sql/student2.csv")
//val df: DataFrame = spark.read.csv("data/sql/student2.csv")
df.printSchema()
df.show()
//5写文件
df.write.mode(SaveMode.Overwrite)
.option("header","true")
.csv("data/sqlout/csv")
//3.关闭spark
spark.stop()
}
}
运行结果:
xxxxxxxxxx
root
|-- id: integer (nullable = true)
|-- name: string (nullable = true)
|-- age: integer (nullable = true)
+---+-----+---+
| id| name|age|
+---+-----+---+
| 1| tom| 22|
| 2| lucy| 21|
| 3|peter| 23|
| 4| john| 25|
+---+-----+---+