初识Airsim(八)之Pixhawk配置(HIL) 发表于 2019-08-21 | 分类于 Airsim | 阅读次数: 字数统计: 1k | 阅读时长 ≈ 3 前言 在Airsim上做PX4的集成,并简单完成其算法验证 此配置是在Windows下配置,不是Ubuntu16 准备工具 Pixhawk(我这里用的pixhawk如下图) 一根micro usb数据线 一、启动Airsim环境 关于Airsim在windows下的环境配置,请浏览初识A ... 阅读全文 »
初识Airsim(七)之强化学习训练测试 发表于 2019-08-20 | 分类于 Airsim | 阅读次数: 字数统计: 2.2k | 阅读时长 ≈ 11 前言 Airsim的官方github上面其实提供了一些强化学习的训练demo,如drone的DQN训练、car的DQN训练,但是都是基于cntk进行实现的,而这一块我不熟悉,还是用我熟悉的Tensorflow进行训练测试,与drone的DQN训练目标不同,甚至由于是cntk相关实现,也没有去细看其官 ... 阅读全文 »
初始Airsim(六)之多机控制 发表于 2019-08-19 | 分类于 Airsim | 阅读次数: 字数统计: 4.6k | 阅读时长 ≈ 23 前言 之前的控制部分都是在单个drone或car的条件下进行控制的,本篇博客将基于多个drone进行控制 一、settings.json设置 多机的配置如下,其中如果要设置某一个drone的初始角度,则只需要修改Yaw的值即可。 Yaw的值一般取[0,90,-90,180]这4个值中的一个 这里的 ... 阅读全文 »
代码实现(六)之Actor-Critic 发表于 2019-08-15 | 分类于 代码 , 深度强化学习 | 阅读次数: 字数统计: 3.6k | 阅读时长 ≈ 17 前言 针对前面PG算法的高方差问题,本篇博客将基于AC算法进行实现。其理论部分请点击DRL(六) 主要在莫烦代码的基础之上,进行更改 一、实验环境 主要使用两个环境进行训练测试,分别是CartPole环境和Pendulum环境。其中CartPole应用于softmax策略函数的离散行为空间,Pen ... 阅读全文 »
初始Airsim(五)之PX4、Mavros控制 发表于 2019-08-13 | 分类于 Airsim | 阅读次数: 字数统计: 3.1k | 阅读时长 ≈ 13 前言 mavros包允许在运行ROS的计算机、支持MAVLink的飞控板以及支持MAVLink的地面站之间通讯。MAVROS可以用来与任何支持MAVLink的飞控板通讯。 基于mavros和mavlink协议,实现对airsim的控制 说明 针对上一节中mavros的配置,在安装./install ... 阅读全文 »
代码实现(五)之Policy Gradient 发表于 2019-08-12 | 分类于 代码 , 深度强化学习 | 阅读次数: 字数统计: 2.7k | 阅读时长 ≈ 12 前言 Policy Gradient是RL里面基于Policy-Based的方法,与前面的DQN的基于Value-Based的方法不同。其理论部分,查看DRL论文阅读(五) 本篇代码是基于莫烦的代码,然后进行了少量的修改,实践中使用的是离散行为空间的softmax策略函数,而不是连续行为空间的高斯策 ... 阅读全文 »
ardrone强化学习训练环境搭建 发表于 2019-08-11 | 分类于 ROS | 阅读次数: 字数统计: 2k | 阅读时长 ≈ 9 前言 本篇主要是针对DRL论文阅读(一)中的论文题目来实现,其主要实现了第一部分标记检测,目前是只实现了单纹理下的训练。 其论文题目:Autonomous Quadrotor Landing using Deep Reinforcement Learning 一、基础环境搭建1.1 版本说明 Ub ... 阅读全文 »
代码实现(四)之 Dueling DQN 发表于 2019-08-10 | 分类于 代码 , 深度强化学习 | 阅读次数: 字数统计: 1.3k | 阅读时长 ≈ 5 前言 Dueling DQN 相比较于之前的Double DQN(目标Q值方面的优化)、Prioritized Experience Replay(经验回放池的优化),这次注重的是神经网络的优化,即将最后的Q网络分为V网络和A网络。 其中,V网络仅仅与状态S有关,与具体要采用的动作A无关,通常称为 ... 阅读全文 »
代码实现(三)之Prioritized Experience Replay 发表于 2019-08-09 | 分类于 代码 , 深度强化学习 | 阅读次数: 字数统计: 3k | 阅读时长 ≈ 13 前言 理论部分,点击DRL论文阅读(三)查看 本文的代码主要参考了莫烦和Fisher’s的代码,在他们的基础之上,修改为自己习惯能看懂的代码 Prioritized DQN不同于DQN/DDQN的是,它关注的是经验回放池中那些很少但有用的正面信息 一、实验环境 使用MountainCar环境来对算 ... 阅读全文 »
代码实现(二)之Double DQN 发表于 2019-08-08 | 分类于 代码 , 深度强化学习 | 阅读次数: 字数统计: 2.5k | 阅读时长 ≈ 11 前言 理论部分,这里将不再强调,直接强调重点部分(理论部分请点击Double DQN) 经验证,DQN中使用max操作,会使得其Q值会出现过估计的情况,因此提出了DQN的改进算法之一:Double DQN;Double DQN就是将DQN中的目标Q值的动作与计算分离,来减缓过估计情况。 本文的代码, ... 阅读全文 »