大数据全系列 教程
1869个小节阅读:467.2k
目录
408考研
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
首先判断是否传递参数,没有参数提示:请输入数据日期,格式例如:年月日(20301010)
判断本地运行还是集群运行,分别构建不同参数的SparkSession对象
切换Hive的命名空间baizhan_music
为表TO_YCAK_MAC_D
添加列PRDCT_TYPE
值为2(1表示Kshow,2表示MiniK)后注册临时表TO_YCAK_MAC_D
(同名则在本次操作替代原表)
加载TO_YCBK_MAC_ADMIN_MAP_D
机器客户关系资料表 获取机器信息,并将ACTV_TM
、ORDER_TM
进行格式化清洗和Null
值的填补;然后注册临时表TO_YCBK_MAC_ADMIN_MAP_D
14位则不变
8位后面补充000000
无值或非8位填充"19700101000000"
由以上两张表 获取所有的 机器ID 信息,并注册临时视图TEMP_MAC_ALL
只查询这两列"MID","PRDCT_TYPE"
TO_YCAK_MAC_LOC_D
机器位置信息表进行清洗1.对表中的 PRVC、CTY 字段进行格式整理,对于省份和市不为空则使用原来的值,如果省份或城市为空值,由 ADDR 字段截取获得 2.过滤清洗数据之后,PRVC和CTY字段依然为null的数据,我们认为这类数据就是脏数据(丢弃掉不要)。 3.对 REV_TM(运营时间)、SALE_TM(销售时间)字段进行清洗,思路同步骤2相似 4.操作完后注册临时表
TO_YCAK_MAC_LOC_D
获取机器上歌曲版本机器位置信息
以TEMP_MAC_ALL
中的MID 为基准,对TO_YCAK_MAC_D
、TO_YCAK_MAC_LOC_D
两张表的信息进行统计,结果注册临时表TEMP_YCAK_MAC_INFO
获取机器套餐名称、投资分成、机器门店、场景信息
以TEMP_MAC_ALL 表为基准, 对 ycbk 系统对应的ODS层数据 进行统计;并将结果注册为临时表result
将以上结果保存到 Hive EDS层分区表
xxxxxxxxxx
insert overwrite table tw_mac_baseinfo_d partition(data_dt=${analyticDate}) select * from result
将每日统计的数据同时通过SparkSQL写入mysql中,供可视化查询