SparkSQL_数据去重-【官方】百战程序员_IT在线教育培训机构


xxxxxxxxxx
//去重，无参数是对数据进行整体去重
df.dropDuplicates().show()
//同样可以针对字段进行去重，如下传入'col1','col2'字段，表示这两个列的值一样就认为你是重复数据
df.dropDuplicates("col1","col2").show()

代码实操：


xxxxxxxxxx
package com.itbaizhan.sql
import org.apache.spark.SparkConf
import org.apache.spark.sql.{Column, DataFrame, SparkSession}
object SSDropDuplicates {
  def main(args: Array[String]): Unit = {
    //1.创建配置文件对象
    val conf: SparkConf = new SparkConf()
      .setMaster("local[*]")
      .setAppName("SSDropDuplicates")
    //2.创建SparkSession对象
    val spark: SparkSession = SparkSession.builder()
      .config(conf).getOrCreate()
    //4.读取本地csv文件，返回DataFrame对象
    val df: DataFrame = spark.read.format("csv")
      //第一行为列名
      .option("header", true)
      //设置字段之间的分隔符，默认是“,”
      .option("delimiter", ",")
      //未设置前各个字段都是String类型，设置后匹配对应的类型
      .option("inferSchema","true")
      .option("encoding", "utf-8")
      .load("data/sql/clear_data.csv")
    df.printSchema()
    df.show()
    println("---------无参数去重---------")
    //5,无参数去重，将所有列联合起来进行比较，只保留一条(第一条)
    df.dropDuplicates().show()
    //6.有参数去重，指定字段进行去重
    println("---------指定字段进行去重---------")
    df.dropDuplicates("name","gender",
      "height","weight").show()

    //3.关闭spark
    spark.stop()
  }
}

实时效果反馈

1. 以下关于去重API描述的选项中正确的是？

A df.dropDuplicates()无参数对全部的列联合起来进行比较, 去除重复值, 只保留最先出现的一条。

B `df.dropDuplicates()无参数对全部的列联合起来进行比较, 去除重复值, 只保留中间出现一条。

C `df.dropDuplicates()无参数对全部的列联合起来进行比较, 去除重复值, 只保留最后出现一条。

答案：

1=>A。

SparkSQL_DSL API SparkSQL_functions包

北京市昌平区回龙观镇南店村综合商业楼2楼226室