ldg个人博客


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 搜索

代码实现(一)之Nature DQN

发表于 2019-08-06 | 分类于 代码 , 深度强化学习 | 阅读次数:
字数统计: 2.9k | 阅读时长 ≈ 13
前言 主要参考莫烦大神的代码,对OpenAI gym的CartPole环境进行算法验证,所用算法为2015版本的Nature DQN。全部代码 一、CartPole说明 下图中的动态图没有显示出来,详细信息,点击CartPole-V0 杆通过未致动的接头连接到推车,推车沿着无摩擦的轨道移动。通 ...
阅读全文 »

搭建OpenAI gym环境并简单测试

发表于 2019-08-05 | 分类于 代码 , 深度强化学习 | 阅读次数:
字数统计: 1.2k | 阅读时长 ≈ 5
前言 搭建OpenAI gym环境的目的是为了后面的一系列DRL的强化学习代码的实现,因为OpenAI gym提供了很多的环境,并且训练较快,不用耗很长时间才能看到效果,因此是一个不错的环境。 我已经在gazebo中基于ardrone实现了一个关于DQN算法的验证,由于机器性能及其他的原因,耗时很长 ...
阅读全文 »

DRL论文阅读(九)之A3C算法

发表于 2019-08-05 | 分类于 论文 , 深度强化学习 | 阅读次数:
字数统计: 2.8k | 阅读时长 ≈ 11
前言 针对普通AC算法中比较难收敛的问题,DeepMind在Asynchronous Methods for Deep Reinforcement Learning一文中,介绍了另一种简单的轻量级深度强化学习框架——异步地进行深度神经网络梯度下降。论文提出了四种标准强化学习算法的异步变体,分别是As ...
阅读全文 »

DRL论文阅读(八)之DDPG算法

发表于 2019-08-04 | 分类于 论文 , 深度强化学习 | 阅读次数:
字数统计: 4.5k | 阅读时长 ≈ 17
前言 DDPG (Deep Deterministic Policy Gradient)算法是一种model-free(无环境模型),off-policy(产生行为的策略和进行评估的策略不一样)的强化学习算法,且使用了深度神经网络用于函数近似。相比较于DQN(model-free、off-polic ...
阅读全文 »

DRL论文阅读(七)之DPG方法

发表于 2019-07-31 | 分类于 论文 , 深度强化学习 | 阅读次数:
字数统计: 2.9k | 阅读时长 ≈ 11
前言 为什么需要引入确定性策略梯度? 传统的策略梯度算法以概率形式$\pi\theta(a|s) = P[a|s;\theta]$来表示一个策略,以此来随机的选择行为。但DPG用一种确定性的策略形式$a=\mu\theta(s)$。 DPG有着比PG更简单的形式:DPG的策略函数的更新就是actio ...
阅读全文 »

DRL(六)之Actor-Critic算法介绍

发表于 2019-07-30 | 分类于 论文 , 深度强化学习 | 阅读次数:
字数统计: 3.9k | 阅读时长 ≈ 16
前言 在上一节中,讲到了基于Policy Based的强化学习方法,最后也涉及到了模特卡洛策略梯度reinforce算法,但是在计算之前,需要提前知道完整的状态序列,同时还需要单独对策略函数进行迭代更新,不太容易收敛,并且方差较大。 因此本篇笔记将讨论策略(Policy Based)和价值(Valu ...
阅读全文 »

Python UDP编程

发表于 2019-07-29 | 分类于 语言 , python | 阅读次数:
字数统计: 3k | 阅读时长 ≈ 14
前言 在机器人的运动控制过程中,关于多机通信控制,除了用ros外,还可以进行网络编程,这里就用的是UDP编程实现两台电脑间的通信 两台电脑信息 A电脑用于服务端,B电脑用于客户端 A电脑:10.10.100.56 B电脑:10.10.100.54 注:两台电脑必须在同一个局域网内 一、UDP ...
阅读全文 »

初始Carla(一)之Carla预编译版安装使用

发表于 2019-07-25 | 分类于 Carla | 阅读次数:
字数统计: 808 | 阅读时长 ≈ 3
前言 Carla和Airsim都是基于UE4引擎的仿真模拟器,但是经过安装笔记,Carla的源码安装是真的比Airsim复杂很多,因为之前源码安装的失败了,因此这里先记录如何使用预编译版的Carla 版本说明 Ubuntu16.04 CARLA_0.9.6 后面的安装步骤都是在刚装完ubunt ...
阅读全文 »

DRL论文阅读(五)之Policy Gradient理解

发表于 2019-07-23 | 分类于 论文 , 深度强化学习 | 阅读次数:
字数统计: 3.4k | 阅读时长 ≈ 13
前言 在前面的四篇DQN强化学习算法中,主要是对价值函数进行了近似表示,这是只一种基于价值函数(Value Based)的方法,是基于状态价值函数V(s)或者动作价值函数Q(s,a)的控制问题解法。在确定性的环境中,当我们知道了每个状态价值函数V(s)的数值之后,策略就可以选择使得下一个状态期望状态 ...
阅读全文 »

DRL论文阅读(四)之DQN改进网络结构(Dueling DQN)

发表于 2019-07-19 | 分类于 论文 , 深度强化学习 | 阅读次数:
字数统计: 1.6k | 阅读时长 ≈ 5
前言 DDQN对DQN的目标Q值进行优化,去除max操作来减少过度估计的问题,Prioritized Replay DQN对DQN的经验回访池进行优化,给每个experience一个权重值,并按权重采样来优化算法提高训练速度,而这篇博客即将介绍的是Dueling DQN,对DQN的神经网络结构进行优 ...
阅读全文 »
<i class="fa fa-angle-left"></i>1…567…10<i class="fa fa-angle-right"></i>

99 日志
22 分类
69 标签
RSS
GitHub E-Mail 微博 知乎
© 2021 ldg
本站总访问量次 本站访客数人次
由 Hexo 强力驱动
|
主题 — NexT.Gemini v5.1.4
0%