代码实现(一)之Nature DQN 发表于 2019-08-06 | 分类于 代码 , 深度强化学习 | 阅读次数: 字数统计: 2.9k | 阅读时长 ≈ 13 前言 主要参考莫烦大神的代码,对OpenAI gym的CartPole环境进行算法验证,所用算法为2015版本的Nature DQN。全部代码 一、CartPole说明 下图中的动态图没有显示出来,详细信息,点击CartPole-V0 杆通过未致动的接头连接到推车,推车沿着无摩擦的轨道移动。通 ... 阅读全文 »
搭建OpenAI gym环境并简单测试 发表于 2019-08-05 | 分类于 代码 , 深度强化学习 | 阅读次数: 字数统计: 1.2k | 阅读时长 ≈ 5 前言 搭建OpenAI gym环境的目的是为了后面的一系列DRL的强化学习代码的实现,因为OpenAI gym提供了很多的环境,并且训练较快,不用耗很长时间才能看到效果,因此是一个不错的环境。 我已经在gazebo中基于ardrone实现了一个关于DQN算法的验证,由于机器性能及其他的原因,耗时很长 ... 阅读全文 »
DRL论文阅读(九)之A3C算法 发表于 2019-08-05 | 分类于 论文 , 深度强化学习 | 阅读次数: 字数统计: 2.8k | 阅读时长 ≈ 11 前言 针对普通AC算法中比较难收敛的问题,DeepMind在Asynchronous Methods for Deep Reinforcement Learning一文中,介绍了另一种简单的轻量级深度强化学习框架——异步地进行深度神经网络梯度下降。论文提出了四种标准强化学习算法的异步变体,分别是As ... 阅读全文 »
DRL论文阅读(八)之DDPG算法 发表于 2019-08-04 | 分类于 论文 , 深度强化学习 | 阅读次数: 字数统计: 4.5k | 阅读时长 ≈ 17 前言 DDPG (Deep Deterministic Policy Gradient)算法是一种model-free(无环境模型),off-policy(产生行为的策略和进行评估的策略不一样)的强化学习算法,且使用了深度神经网络用于函数近似。相比较于DQN(model-free、off-polic ... 阅读全文 »
DRL论文阅读(七)之DPG方法 发表于 2019-07-31 | 分类于 论文 , 深度强化学习 | 阅读次数: 字数统计: 2.9k | 阅读时长 ≈ 11 前言 为什么需要引入确定性策略梯度? 传统的策略梯度算法以概率形式$\pi\theta(a|s) = P[a|s;\theta]$来表示一个策略,以此来随机的选择行为。但DPG用一种确定性的策略形式$a=\mu\theta(s)$。 DPG有着比PG更简单的形式:DPG的策略函数的更新就是actio ... 阅读全文 »
DRL(六)之Actor-Critic算法介绍 发表于 2019-07-30 | 分类于 论文 , 深度强化学习 | 阅读次数: 字数统计: 3.9k | 阅读时长 ≈ 16 前言 在上一节中,讲到了基于Policy Based的强化学习方法,最后也涉及到了模特卡洛策略梯度reinforce算法,但是在计算之前,需要提前知道完整的状态序列,同时还需要单独对策略函数进行迭代更新,不太容易收敛,并且方差较大。 因此本篇笔记将讨论策略(Policy Based)和价值(Valu ... 阅读全文 »
Python UDP编程 发表于 2019-07-29 | 分类于 语言 , python | 阅读次数: 字数统计: 3k | 阅读时长 ≈ 14 前言 在机器人的运动控制过程中,关于多机通信控制,除了用ros外,还可以进行网络编程,这里就用的是UDP编程实现两台电脑间的通信 两台电脑信息 A电脑用于服务端,B电脑用于客户端 A电脑:10.10.100.56 B电脑:10.10.100.54 注:两台电脑必须在同一个局域网内 一、UDP ... 阅读全文 »
初始Carla(一)之Carla预编译版安装使用 发表于 2019-07-25 | 分类于 Carla | 阅读次数: 字数统计: 808 | 阅读时长 ≈ 3 前言 Carla和Airsim都是基于UE4引擎的仿真模拟器,但是经过安装笔记,Carla的源码安装是真的比Airsim复杂很多,因为之前源码安装的失败了,因此这里先记录如何使用预编译版的Carla 版本说明 Ubuntu16.04 CARLA_0.9.6 后面的安装步骤都是在刚装完ubunt ... 阅读全文 »
DRL论文阅读(五)之Policy Gradient理解 发表于 2019-07-23 | 分类于 论文 , 深度强化学习 | 阅读次数: 字数统计: 3.4k | 阅读时长 ≈ 13 前言 在前面的四篇DQN强化学习算法中,主要是对价值函数进行了近似表示,这是只一种基于价值函数(Value Based)的方法,是基于状态价值函数V(s)或者动作价值函数Q(s,a)的控制问题解法。在确定性的环境中,当我们知道了每个状态价值函数V(s)的数值之后,策略就可以选择使得下一个状态期望状态 ... 阅读全文 »
DRL论文阅读(四)之DQN改进网络结构(Dueling DQN) 发表于 2019-07-19 | 分类于 论文 , 深度强化学习 | 阅读次数: 字数统计: 1.6k | 阅读时长 ≈ 5 前言 DDQN对DQN的目标Q值进行优化,去除max操作来减少过度估计的问题,Prioritized Replay DQN对DQN的经验回访池进行优化,给每个experience一个权重值,并按权重采样来优化算法提高训练速度,而这篇博客即将介绍的是Dueling DQN,对DQN的神经网络结构进行优 ... 阅读全文 »