大数据全系列 教程
1869个小节阅读:464.8k
目录
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
由于在前面的课程中已经学过数据的采集和ETL,本项目不再赘述,现在我们直接随机生成数据到文件中(方便测试),后续写入Kafka。
项目中模拟车辆速度数据和车辆经过卡口个数使用到了高斯分布,高斯分布就是正态分布。"正态分布"(Normal Distribution)可以描述所有常见的事物和现象:正常人群的身高、体重、考试成绩、家庭收入等等。这里的描述是什么意思呢?就是说这些指标背后的数据都会呈现一种中间密集、两边稀疏的特征。以身高为例,服从正态分布意味着大部分人的身高都会在人群的平均身高上下波动,特别矮和特别高的都比较少见,正态分布非常常见。
基于以上所以需要在pom.xml中导入高斯分布需要的依赖包:
xxxxxxxxxx
<dependency>
<groupId>org.apache.commons</groupId>
<artifactId>commons-math3</artifactId>
<version>3.6.1</version>
</dependency>
生成高斯标准分布的代码如下:
xxxxxxxxxx
//获取随机数生成器
val generator: JDKRandomGenerator = new JDKRandomGenerator()
//随机生成高斯分布的数据
val grg: GaussianRandomGenerator = new GaussianRandomGenerator(generator)
//获取标准正态分布的数据
println(s"随机生成数据为:${grg.nextNormalizedDouble()}")
创建包:com.itbaizhan.traffic.util,并在该包下创建空文件traffic_data
将软件\CreateDataToFile、CreateDataToKafka
拷贝到上步创建的包下。
运行CreateDataToFile类,然后在控制台输出的路径下查看文件内容:
1975026431000,0094,17287,京U83345,22.1,383,03 1975089057000,0049,08122,鲁E06431,102.1,918,00 1975087751000,0092,47424,鲁E06431,7.2,499,00 1975043817000,0054,75605,皖R68701,88.0,129,01
分析CreateDataToFile代码