SparkSQL_DSL API-【官方】百战程序员_IT在线教育培训机构

DSL语法风格
1. DSL称之为：领域特定语言。就是指DataFrame的特有API
2. DSL风格意思就是以调用API的方式来处理Data
  比如：df.where().limit()
SQL语法风格
SQL风格就是使用SQL语句处理DataFrame的数据
比如：sparkSession.sql(“SELECT * FROM tb_xxx)

演示代码：


xxxxxxxxxx
package com.itbaizhan.sql
import org.apache.spark.SparkConf
import org.apache.spark.sql.{Column, DataFrame, RelationalGroupedDataset, SaveMode, SparkSession}
object SSDslApi {
  def main(args: Array[String]): Unit = {
    //1.创建配置文件对象
    val conf: SparkConf = new SparkConf()
      .setMaster("local[*]")
      .setAppName("SSDslApi")
    //2.创建SparkSession对象
    val spark: SparkSession = SparkSession.builder()
      .config(conf).getOrCreate()
    //4.读取本地csv文件，返回DataFrame对象
    val df: DataFrame = spark.read.format("csv")
      //第一行为列名
      .option("header", true)
      //设置字段之间的分隔符，默认是“,”
      .option("delimiter", ",")
      //未设置前各个字段都是String类型，设置后匹配对应的类型
      .option("inferSchema","true")
      .option("encoding", "utf-8")
      .load("data/sql/score.csv")
    /*df.printSchema()
    df.show()*/
    //5.获取指定的列
    //df.select("id","name","score").show(5)
    import spark.implicits._
    println("-----------获取指定的列--------------")
    //涉及到运算的时候，每列都必须使用$,或者采用单引号+字段
    df.select($"id",$"score"+1).show(5)
    df.select('id,'score+1).show(5)
    //6.获取列的Column对象
    val idColumn: Column = df("id")
    val scoreColumn: Column = df("score")
    df.select(idColumn,scoreColumn).show(5)
    //7.filter过滤数据
    println("-----------filter过滤数据--------------")
    df.filter("score<90").show()
    df.filter(df("score")<90).show()
    df.filter($"score"<90).show()
    //8.where过滤数据
    println("-----------where过滤数据--------------")
    df.where("score<85").show()
    df.where(df("score")<85).show()
    df.where($"score"<85)
    //9.分组聚合 groupBy
    //返回RelationalGroupedDataset类对象
    //后续通常会和聚合函数一起使用：max(),min(),sum(),avg(),count(),
    // 然后返回DataFrame对象
    println("-----------groupBy--------------")
    val groupData = df.groupBy("project")
    val dataFrame: DataFrame = groupData.count()
    dataFrame.show()
    groupData.max("score").show()
    //3.关闭spark
    spark.stop()
  }
}

实时效果反馈

1. 以下选项中哪个不是DSL语法风格的代码？

A df.select("id","score").show()

B df.filter("score < 90").show()

C sparkSession.sql(“SELECT * FROM tb_xxx)

D df.where("score < 90").show()

答案：

1=>C。

SparkSQL_SparkOnHive代码集群提交 SparkSQL_数据去重

北京市昌平区回龙观镇南店村综合商业楼2楼226室