首页>课程更新>人工智能前沿技术,实时更新-《人工智能》第三十一阶段

人工智能前沿技术,实时更新-《人工智能》第三十一阶段

《人工智能》

 

本次更新内容为人工智能第三十一阶段:AI_强化学习

   强化学习是智能系统从环境到行为映射的学习,以使奖励信号函数值最大。如果智能体的某个行为策略引发正的奖赏,那么智能体以后产生这个行为策略的趋势会加强。强化学习是接近自然界动物学习本质的一种学习范式。强化学习和深度学习的结合,取得令人瞩目的成果。

第一章节    01_Q-LearningSARSA算法

01_强化学习通过智能体与环境交互进行学习

02_引入马尔科夫链和价值评估的Q值与V

03_详解Q值和V值以及它们之间关系

04_蒙特卡洛采样回溯计算V

05_蒙特卡洛和时序差分估算状态V

06_SARSA算法和Q-learning算法

07_理解Q-table_创建maze交互环境

08_代码实战Q-Learning_AgentEnv整体交互

09_代码实战Q-Learning智能体选择行为

10_代码实战Q-Learning智能体训练模型

11_代码实战Sarsa_AgentEnv整体交互

12_代码实战Sarsa_Agent选择行为和训练模型

13_代码实战SarsaLambda_训练模型

 

 

第二章节  02_Deep Q-Learning Network

14_DQN算法思想

15_DQN算法具体流程

16_ε-greedy_ReplayBuffer_FixedQ-targets

17_代码实战DQN_Agent和Env整体交互

18_代码实战DQN_构建Q网络

19_代码实战DQN_定义损失函数_构建Target网络更新逻辑

20_代码实战DQN_训练阶段得到Q网络的预测值和真实值

21_代码实战DQN_训练阶段最小化损失_记录loss方便展示_随着learn的越多选择action随机性减小

22_DQN会over-estimate的本质原因

23_DoubleDQN缓解over-estimate

24_DoubleDQN代码实战

25_DuelingDQN

26_困难样本挖掘_Multi-step_NoiseyNet系统的探索

27_计算Action的方差避免风险

28_Rainbow_DQN如何计算连续型的Actions

 

第三章节   03_Policy Gradient 策略梯度

29_策略梯度PG_对比基于值和基于策略网络的区别

30_策略梯度PG_明确目标函数和导函数

31_策略梯度PG_简化导函数的公式推导

32_策略梯度PG_总结整体流程_对比交叉熵损失函数求导

33_策略梯度PG_讲解CartPole环境

34_代码实战_策略梯度PG和CartPole交互

35_代码实战_策略梯度PG网络构建

36_代码实战_策略梯度PG选择行为和参数训练

37_策略梯度PG_对TotalReward进行均值归一化

38_策略梯度PG_同一个回合中不同的action回溯不同的TotalReward_代码实战

 

第四章节    04_Actor Critic (A3C)

39_ActorCritic原理_把PG和QLearning结合起来

40_AdvantageActorCritic_共享参数和修改reward技巧

41_代码实战_ActorCritic与环境交互

42_代码实战_Actor网络构建及训练

43_代码实战_详解Critic网络构建及训练

44_A3C架构和训练流程

45_Pendulum环境_根据网络预测的μ和σ得到连续型的action值

46_代码实战_A3C_讲解Coordinator调度多线程运算

47_代码实战_A3C_定义Worker计算loss的逻辑_针对连续型的action提高actor探索性

48_代码实战_A3C_增加actor探索性用到熵_定义worker正太分布抽样和求梯度的逻辑

49_代码实战_A3C_定义AC网络结构_定义worker拉取参数和更新全局网络参数的逻辑

50_代码实战_A3C_结合流程图分三点总结前面讲的代码

51_代码实战_A3C_讲解线程中worker和环境交互

52_代码实战_A3C_讲解线程中worker和GlobalNet交互_代码运行效果展示

 

第五章节   05_DDPG、PPO、DPPO算法

53_DDPG解决DQN不能输出连续型动作的问题_DDPG如何训练Actor和Critic

54_代码实战_DDPG_构建Actor和Critic四个网络_定义Critic求loss和求梯度的逻辑

55_代码实战_DDPG_Critic网络构建_Actor网络链式求导

56_代码实战_DDPG_与环境之间的互动_AC训练调整参数_效果展示

57_TD3_使用DoubleNetwork优化DDPG

58_PPO_强调AC如何输出连续型动作_区分On-Policy与Off-Policy

59_PPO_通过重要性采样使得PPO可以做Off-Policy学习

60_PPO_重要性采样的问题_期望矫正但是方差还是不同带来的问题

61_PPO_PPO1、TRPO、PPO2三种不同的方式解决两个分布不同的问题

62_代码实战_PPO与环境整体交互_Actor与Critic网络构建

63_代码实战_定义PPO1和PPO2不同版本Actor的Loss计算逻辑

64_代码实战_剖析PPO代码中如何体现Off-Policy的学习方式_效果展示

65_DPPO分布式PPO

66_代码实战_DPPO_创建一个PPO和多个Worker_创建多线程

67_代码实战_DPPO_GlobalPPO和Workers交替执行

 

 

另附各章节课程资料


百战程序员微信公众号

百战程序员微信小程序

©2014-2024 百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园
网站维护:百战汇智(北京)科技有限公司
京公网安备 11011402011233号    京ICP备18060230号-3    营业执照    经营许可证:京B2-20212637