《人工智能》
强化学习是智能系统从环境到行为映射的学习,以使奖励信号函数值最大。如果智能体的某个行为策略引发正的奖赏,那么智能体以后产生这个行为策略的趋势会加强。强化学习是接近自然界动物学习本质的一种学习范式。强化学习和深度学习的结合,取得令人瞩目的成果。
第一章节 01_Q-Learning与SARSA算法
01_强化学习通过智能体与环境交互进行学习
02_引入马尔科夫链和价值评估的Q值与V值
03_详解Q值和V值以及它们之间关系
04_蒙特卡洛采样回溯计算V值
05_蒙特卡洛和时序差分估算状态V值
06_SARSA算法和Q-learning算法
07_理解Q-table_创建maze交互环境
08_代码实战Q-Learning_Agent和Env整体交互
09_代码实战Q-Learning智能体选择行为
10_代码实战Q-Learning智能体训练模型
11_代码实战Sarsa_Agent和Env整体交互
12_代码实战Sarsa_Agent选择行为和训练模型
13_代码实战SarsaLambda_训练模型
第二章节 02_Deep Q-Learning Network
14_DQN算法思想
15_DQN算法具体流程
16_ε-greedy_ReplayBuffer_FixedQ-targets
17_代码实战DQN_Agent和Env整体交互
18_代码实战DQN_构建Q网络
19_代码实战DQN_定义损失函数_构建Target网络更新逻辑
20_代码实战DQN_训练阶段得到Q网络的预测值和真实值
21_代码实战DQN_训练阶段最小化损失_记录loss方便展示_随着learn的越多选择action随机性减小
22_DQN会over-estimate的本质原因
23_DoubleDQN缓解over-estimate
24_DoubleDQN代码实战
25_DuelingDQN
26_困难样本挖掘_Multi-step_NoiseyNet系统的探索
27_计算Action的方差避免风险
28_Rainbow_DQN如何计算连续型的Actions
第三章节 03_Policy Gradient 策略梯度
29_策略梯度PG_对比基于值和基于策略网络的区别
30_策略梯度PG_明确目标函数和导函数
31_策略梯度PG_简化导函数的公式推导
32_策略梯度PG_总结整体流程_对比交叉熵损失函数求导
33_策略梯度PG_讲解CartPole环境
34_代码实战_策略梯度PG和CartPole交互
35_代码实战_策略梯度PG网络构建
36_代码实战_策略梯度PG选择行为和参数训练
37_策略梯度PG_对TotalReward进行均值归一化
38_策略梯度PG_同一个回合中不同的action回溯不同的TotalReward_代码实战
第四章节 04_Actor Critic (A3C)
39_ActorCritic原理_把PG和QLearning结合起来
40_AdvantageActorCritic_共享参数和修改reward技巧
41_代码实战_ActorCritic与环境交互
42_代码实战_Actor网络构建及训练
43_代码实战_详解Critic网络构建及训练
44_A3C架构和训练流程
45_Pendulum环境_根据网络预测的μ和σ得到连续型的action值
46_代码实战_A3C_讲解Coordinator调度多线程运算
47_代码实战_A3C_定义Worker计算loss的逻辑_针对连续型的action提高actor探索性
48_代码实战_A3C_增加actor探索性用到熵_定义worker正太分布抽样和求梯度的逻辑
49_代码实战_A3C_定义AC网络结构_定义worker拉取参数和更新全局网络参数的逻辑
50_代码实战_A3C_结合流程图分三点总结前面讲的代码
51_代码实战_A3C_讲解线程中worker和环境交互
52_代码实战_A3C_讲解线程中worker和GlobalNet交互_代码运行效果展示
第五章节 05_DDPG、PPO、DPPO算法
53_DDPG解决DQN不能输出连续型动作的问题_DDPG如何训练Actor和Critic
54_代码实战_DDPG_构建Actor和Critic四个网络_定义Critic求loss和求梯度的逻辑
55_代码实战_DDPG_Critic网络构建_Actor网络链式求导
56_代码实战_DDPG_与环境之间的互动_AC训练调整参数_效果展示
57_TD3_使用DoubleNetwork优化DDPG
58_PPO_强调AC如何输出连续型动作_区分On-Policy与Off-Policy
59_PPO_通过重要性采样使得PPO可以做Off-Policy学习
60_PPO_重要性采样的问题_期望矫正但是方差还是不同带来的问题
61_PPO_PPO1、TRPO、PPO2三种不同的方式解决两个分布不同的问题
62_代码实战_PPO与环境整体交互_Actor与Critic网络构建
63_代码实战_定义PPO1和PPO2不同版本Actor的Loss计算逻辑
64_代码实战_剖析PPO代码中如何体现Off-Policy的学习方式_效果展示
65_DPPO分布式PPO
66_代码实战_DPPO_创建一个PPO和多个Worker_创建多线程
67_代码实战_DPPO_GlobalPPO和Workers交替执行
另附各章节课程资料