猪蒙索洛夫-CSDN博客

原创【论文翻译】ACTOR-MIMIC ：DEEP MULTITASK AND TRANSFER REINFORCEMENT LEARNING

Abstract：在多个环境中行动并且将学会的知识进行迁移，是智能体的一个重要技能。为此，我们定义了一种新的“多任务和迁移学习”方法，使智能体能够学习如何同时处理多个任务，然后将其知识推广到新的领域。这种方法被称为“Actor-Mimic”，利用深度强化学习技术和模型压缩技术，来学习一个单一的策略网络：在几位专家老师的指导下，学习如何在一系列不同的任务中行动。我们随后证明了：学习到的表征...

2019-11-15 09:43:29 627

翻译【论文翻译】LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS

1 .Introduction 高效导航是一种很重要的智能行为。传统方法基于SLAM。本文中我们follow了最近的DRL方法，提出了这样的思想：“导航能力可以作为agent在学习最大化reward的策略时候的一个副产品”。端到端方法的固有优势就是：action和representation不分开，同时进行学习，这保证了“和任务相关的特征”可以被表示在representation当中。然后...

2019-06-03 16:17:13 922

翻译【翻译】What is the natural gradient, and how does it work?

最近的研究需要用到natural gradient，但是2002年的那篇ICML看不懂。外网有大佬在2016年写了一篇博客，很好，翻译一下搬运过来了。链接：http://kvfrans.com/what-is-the-natural-gradient-and-where-does-it-appear-in-trust-region-policy-optimization/阅读本文只需要少...

2019-05-27 17:56:46 505

翻译【论文翻译】Target Driven Visual Navigation with Hybrid Asynchronous Universal Successor Representations

Abstract 能够在最少的监督和先验知识的情况下导航到目标，这对于创建"类人agent"至关重要。以前基于地图和无地图方法的工作具有有限的泛化能力。在本文中，我们提出了一种新的方法，混合异步通用后继表示(HAUSR)，它通过将最近的HAUSR与A3C相结合，克服了对新目标泛化的问题。我们的agent能够成功地达到新的目标，并且我们能够快速调整网络以适应新的场景。这打开了一个新的应用场...

2019-05-24 21:07:40 1125

翻译【论文翻译】End-to-end Driving via Conditional Imitation Learning

I. INTRODUCTION 为什么模仿学习没有扩展到完全自主的城市驾驶？模仿学习的一个假设是：最优action可以直接从observation中推断出来。但实际上这个假设并不成立，比如说：“当汽车接近十字路口时，摄像机的图像不足以预测该汽车应该左转、右转还是直行”。从数学上讲，从图像到控制命令的映射不再是一对一的函数映射。因此，用神经网络处理时候会遇到困难，导致震荡。就算神经网络可以...

2019-05-18 18:46:15 1571

翻译【论文翻译】Distort-and-Recover: Color Enhancement using Deep Reinforcement Learning

ABSTRACT：本文提出——人类修图是按照步骤逐渐进行的序列，于是用MDP建模，训练agent得到一个最优的动作序列。此外，我们提出了一种“失真-复原”训练方案，只需要高质量图像进行训练，而不需要“修改前后的图像对“。资料和代码在https://sites.google.com/view/distort-and-recover/可以找到。论文地址https://...

2019-04-02 21:25:33 1374

翻译【论文翻译】End-To-End Memory Networks

Astract：本文提出了一种基于大规模外部记忆的RNN，可以端到端训练，需要更少的监督数据，比前一个版本更实用。它也可以被看作是RNN研究的扩展，在这种情况下，每个输出符号执行多个计算步骤。 1 .Introduction 人工智能研究面临的两大挑战是，建立能够在回答问题或完成任务时执行多个计算步骤的模型，以及能够描述序列数据中长期依赖关系的模型。本文提出了一种...

2019-02-12 20:01:48 707

原创【强化学习】基于A3C的好奇心Agent in OpenAI-Gym

import tensorflow as tfimport pandas as pdimport numpy as npfrom config.config import GLOBAL_NET_SCOPE,ENTROPY_BETA,MAX__EPISODE,MAX_STEP_IN_EPISODE,UPDATE_ITERfrom config.config import plus_glob...

2019-02-09 16:37:40 747 1

原创【Tensorflow】学习笔记

tf.stop_gradient（） https://blog.csdn.net/u013745804/article/details/79589514 https://blog.csdn.net/zbrwhut/article/details/83341869 tf.Variable、tf.get_variable、tf.variable_scope以及tf.name_sc...

2019-01-27 15:53:37 167

原创【Pycharm】小贴士

pycharm 选中单词在整个文件中高亮颜色调整： file>settings>editor>color scheme>general>code>identifier under caret>background,将background设置为你想要的颜色 ImportError: libcusolver.so.8.0: cannot op...

2019-01-26 16:10:46 186

原创【AI2 THOR】环境使用说明

官方链接：http://ai2thor.allenai.org/tutorials/installation 安装： pip install ai2thor Before running the below code, make sure X server with OpenGL is running, and the OpenGL extensions have been inst...

2019-01-23 19:59:08 3931 2

翻译【论文翻译】Curiosity-driven Exploration by Self-supervised Prediction

Abstract 1. Introduction 2. Curiosity-Driven Exploration 2.1. Prediction error as curiosity reward 基于raw sensory space进行下一时刻的预测是不受欢迎的。因为“基于像素进行预测”能不能提供一个好的优化目标，这一点很难说。问题来了，我们基于什么进行...

2019-01-17 09:35:37 1974

原创【demo】DDQN玩gym之立木杆

import gymfrom contents.OpenAI_gym.my_rl_brain import Double_DQN_Agentmy_env = gym.make("CartPole-v0")my_env = my_env.unwrappedprint("observation:",my_env.observation_space)print("observatio...

2018-12-28 18:09:23 604

转载【强化学习】知乎上David的笔记

知乎上的叶强大大写的笔记，感谢他的分享精神。作者链接：https://www.zhihu.com/people/qqiang00/posts?page=2写的很好，整理一下方便用讲解： 1.《强化学习》第一讲简介： https://zhuanlan.zhihu.com/p/28084904 2.《强化学习》第二讲马尔科夫决策过程：https://zhuanlan.zhihu...

2018-12-24 09:51:54 2433

翻译【论文翻译】One-Shot Visual Imitation Learning via Meta-Learning

读这篇文章给我带来了不小的阻力，有两篇博客在理解上给了我很大的帮助和启发。谢谢他们，顺便附上链接： https://blog.csdn.net/u010909964/article/details/84501919 https://zhuanlan.zhihu.com/p/33248019 原作中有一些东西我没理解于是直接跳过。 Abstract:...

2018-12-19 09:48:43 1727

翻译【论文翻译】Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

最近集中火力肝imitation learning。。MAML是一个重要的方法论，写给自己凑活看的。。。。开始 Abstract 本文针对meta-learning提供了一种模型不可知的的算法，适用于任何基于梯度下降的模型，可以应用于不同的学习问题：分类/回归/RL。meta-learning的目标是：“基于不同的任务进行训练，接下来只需要少数训练样本就可以完成新任务”。在“从新任务中获...

2018-12-16 16:52:58 5693 6

翻译【论文翻译】One-Shot Imitation from Observing Humans via Domain-Adaptive Meta-Learning

1. Introduction 人类和动物仅仅通过观察别人就能掌握行为的要点，并且能够对形态，背景，和任务细节的变化相当鲁棒。并且人类需要非常少量的示范就可以学会。机器如何获取这种能力？解决“基于视觉输入的skill学习”有两个问题：（1）人类示范和机器人之间的“外貌和行为差异”引入了一个“系统域唯一的问题”，即对应问题。（2）从视觉输入进行学习需要大量的数据。本文中，我们使用met...

2018-12-14 15:22:52 1355 1

翻译【论文翻译】One-Shot Imitation Learning

这篇论文看的想爆炸了。。context network实在是看不懂。。。。写了一半暂时放弃，有缘再回来继续嚼 Abstract 理想的情况是：agent可以从“关于给定任务的少量demonstration”中进行学习，并且泛化到相同任务的新情况，并且不需要特殊的工程。假设有一个任务集合（用桌上的木块搭建一个塔/用桌上的木块搭建两个塔），每个任务有许多实例（不同的实例意味着：木块具有不同的...

2018-12-12 23:07:39 875

翻译【论文翻译】ZERO-SHOT VISUAL IMITATION

摘要：目前主导范式依旧是依靠“专家行为”的强监督学习。我们追求一种无监督学习的模式来探索世界，并把经验提炼成目标导航策略，并具有“前向一致性损失”。策略在学习到了一组图像序列后开始模仿专家的行为。我们提出“zero-shot”方法：agent在训练期间无法接触到专家的行为。我们用了两个真实世界的实验来评估“zero-shot”：用Baxter-robot 做复杂绳索操作&用TurtleBo...

2018-11-16 10:45:27 857 1

翻译【论文翻译】Learning to Navigate in Cities Without a Map

摘要：在非结构化环境中导航是agent的一项基本能力，因此在人工智能的研究和发展中具有重要的意义。远程导航是一项复杂的认知任务，它依赖于对空间的内部表示，以可识别的地标和健壮的视觉处理为基础，能够同时支持连续的定位(“我在这里”)和目标表示(“我要去那里”)。基于近期“将深度强化学习应用于迷宫导航问题”的研究，我们提出了一种可应用于城市尺度的端到端深度强化学习方法。我们意识到成功的导航依赖于“通用...

2018-11-14 09:38:25 1725

原创【强化学习笔记】基于蒙特卡洛的强化学习算法

import numpy as npimport pandas as pdimport randomclass MC_RL(object): def __init__(self, states_list, action_lists, gamma): self.states = states_list self.actions = action_...

2018-11-13 21:49:00 1641 1

原创实现对 2:3 或者3:2的图片进行1:1裁剪

常用的脚本存网上。。。from PIL import Imageimport os# 存放源图片的路径：source_path = "/Users/myname/Desktop/日系图片/植物"# 存放裁剪后图片的路径result_path = "/Users/myname/Desktop/temp"# 裁剪后的边长target_size = 224for pic_...

2018-11-04 11:53:54 1198

翻译【论文翻译】Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning

摘要：有两个关于深度强化学习的问题没有得到很好的解决：（1）缺乏对新目标的泛化能力（2）数据效率低下，即，模型需要多次(而且往往代价高昂)反复试验和错误才能收敛，将其应用于实际场景是不切实际的。在本文中，我们解决了这两个问题，并将我们的模型应用到目标驱动的视觉导航中。为了解决第一个问题，我们提出了一个actor-critic模型，它的策略是一个有关于目标和...

2018-10-27 16:34:44 3987 13

翻译【论文翻译】Playing Atari with Deep Reinforcement Learning

摘要：我们第一个提出了"利用强化学习从高维输入中直接学习控制策略"的深度学习模型。该模型是一个卷积神经网络，经过Q-learning训练，输入为原始像素，输出为：“用来估计未来reward”的值函数。我们将我们的方法应用于游戏环境下的7款atari 2600游戏，没有调整过架构或学习算法。我们发现它在6个游戏中超越了所有以前的方法，并且在3个游戏中超过了人类专家。 1 . Introduct...

2018-10-18 10:20:38 7353 1

转载路径规划之A*算法

参考：https://blog.csdn.net/hitwhylz/article/details/23089415算法总体框架： 1.把起点加入 open list 。 2.重复如下过程： a.遍历 open list ，查找 F 值最小的节点，把它作为当前要处理的节点。 b.把这个节点移到 close list ，记为方格x。 c....

2018-10-10 16:58:28 2991

转载路径规划算法之Djistra算法

本文转载自作者Ouyang_Lianjun的《最短路径问题---Dijkstra算法详解》一文。附原文链接：https://blog.csdn.net/qq_35644234/article/details/60870719。觉得作者写的很好就转载过来了，稍作了描述上的修改，是很实用的基础算法，需要牢牢掌握，再次感谢作者的原创。问题：寻找最短路径（从图中的某个顶点出发到达另外一个顶点的...

2018-10-10 11:32:43 6584

翻译【论文翻译】Efficient Trajectory Optimization using a Sparse Model——使用稀疏模型对有效轨迹进行优化(TEB局部规划)

摘要 : “TEB”方法针对全局路径规划器生成的初始轨迹进行后续修正，从而优化了机器人的运动轨迹。在轨迹优化问题中考虑的目标包括但不限于：整体路径长度、轨迹运行时间、与障碍物的距离、通过中间路径点以及机器人动态、运动学和几何约束的符合性。“TEB方法”明确考虑了运动状态下时空方面的动态约束，如机器人的速度和加速度是有限制的。路径规划是实时进行的，“TEB”能够解决动态障碍...

2018-10-08 22:05:48 10812 1

翻译【论文翻译】 Residual Networks Behave Like Ensembles of Relatively Shallow Networks

原文链接： See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/303409435 标题：Residual Networks Behave Like Ensembles of Relatively Sh...

2018-10-06 14:10:53 1728 1

原创【python实战】基于数据挖掘的航空公司客户价值分析

import pandas as pd# 数据预处理datafile="/Users/wangyouzhuo/Desktop/python数据挖掘/图书配套数据、代码/chapter7/demo/data/air_data.csv"data=pd.read_csv(datafile,encoding='utf-8')data=data[data['SUM_YR_1'].notnull(...

2018-04-08 20:39:06 2303

weixin_40523230的博客