SparkSQL_读写parquet文件-【官方】百战程序员_IT在线教育培训机构


xxxxxxxxxx
package com.itbaizhan.sql
import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}
object SSRWParquet {
  def main(args: Array[String]): Unit = {
    //1.创建配置文件对象
    val conf: SparkConf = new SparkConf()
      .setMaster("local[*]")
      .setAppName("SSRWParquet")
    //2.创建SparkSession对象
    val spark: SparkSession = SparkSession.builder()
      .config(conf).getOrCreate()
    //4.读取本地parquet文件，返回DataFrame对象
    //4.1方式一
    //format("parquet/csv/json/text/jdbc")指定读取文件的格式
    /*val df: DataFrame = spark.read.format("parquet")
      .load("data/sql/student.parquet")*/
    //4.2方式二
    //由于默认的读取的文件格式为parquet，所以还可以省略format("parquet")
    //如果spark.sql.sources.default被修改过，不能省略format("parquet")
    /*val df: DataFrame = spark.read
      .load("data/sql/student.parquet")*/
    //4.3方式三
    val df: DataFrame = spark.read
      .parquet("data/sql/student.parquet")
    /*df.printSchema()
    df.show()*/
    //5.写文件
//    df.write.format("parquet")
//      .save("data/sqlout/parquet")
    //由于默认的读取的文件格式为parquet，所以还可以省略format("parquet")
    //如果spark.sql.sources.default被修改过，不能省略format("parquet")
    df.write.save("data/sqlout/parquet")
    //3.关闭spark
    spark.stop()
  }
}

运行程序：


xxxxxxxxxx
root
 |-- age: long (nullable = true)
 |-- id: long (nullable = true)
 |-- name: string (nullable = true)

+----+---+------+
| age| id|  name|
+----+---+------+
|  23|  1|令狐冲|
|  50|  2|岳不群|
|null|  3|林平之|
+----+---+------+

SparkSQL_DataSet和DataFrame转换 SparkSQL_读写parquet文件扩展

北京市昌平区回龙观镇南店村综合商业楼2楼226室