目录
百战程序员,全站22050+开发课程+文档 ,学习精选优质好课快人一步!观看视频 快捷键ALT+N

大数据全系列 教程

1869个小节阅读:467.2k

收藏
全部开发者教程

408考研

JAVA全系列 教程

面向对象的程序设计语言

Python全系列 教程

Python3.x版本,未来主流的版本

人工智能 教程

顺势而为,AI创新未来

大厂算法 教程

算法,程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务 教程

目前业界流行的框架组合

web前端全系列 教程

通向WEB技术世界的钥匙

大数据全系列 教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(226)
赞(0)

ETL数据清洗思路

  1. 首先判断是否传递参数,没有参数提示:请输入数据日期,格式例如:年月日(20301010)

  2. 判断本地运行还是集群运行,分别构建不同参数的SparkSession对象

  3. 切换Hive的命名空间baizhan_music

  4. 为表TO_YCAK_MAC_D添加列PRDCT_TYPE值为2(1表示Kshow,2表示MiniK)后注册临时表TO_YCAK_MAC_D(同名则在本次操作替代原表)

  5. 加载TO_YCBK_MAC_ADMIN_MAP_D机器客户关系资料表 获取机器信息,并将ACTV_TMORDER_TM进行格式化清洗和Null值的填补;然后注册临时表TO_YCBK_MAC_ADMIN_MAP_D

    14位则不变

    8位后面补充000000

    无值或非8位填充"19700101000000"

  6. 由以上两张表 获取所有的 机器ID 信息,并注册临时视图TEMP_MAC_ALL

只查询这两列"MID","PRDCT_TYPE"

  1. 读取TO_YCAK_MAC_LOC_D机器位置信息表进行清洗

1.对表中的 PRVC、CTY 字段进行格式整理,对于省份和市不为空则使用原来的值,如果省份或城市为空值,由 ADDR 字段截取获得 2.过滤清洗数据之后,PRVC和CTY字段依然为null的数据,我们认为这类数据就是脏数据(丢弃掉不要)。 3.对 REV_TM(运营时间)、SALE_TM(销售时间)字段进行清洗,思路同步骤2相似 4.操作完后注册临时表TO_YCAK_MAC_LOC_D

  1. 获取机器上歌曲版本机器位置信息 TEMP_MAC_ALL中的MID 为基准,对TO_YCAK_MAC_DTO_YCAK_MAC_LOC_D两张表的信息进行统计,结果注册临时表TEMP_YCAK_MAC_INFO

  2. 获取机器套餐名称、投资分成、机器门店、场景信息 以TEMP_MAC_ALL 表为基准, 对 ycbk 系统对应的ODS层数据 进行统计;并将结果注册为临时表result

  3. 将以上结果保存到 Hive EDS层分区表

  4. 将每日统计的数据同时通过SparkSQL写入mysql中,供可视化查询

 

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越(北京)科技有限公司 All Rights Reserved.

京ICP备14032124号-2