自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 【论文翻译】ACTOR-MIMIC :DEEP MULTITASK AND TRANSFER REINFORCEMENT LEARNING

Abstract: 在多个环境中行动并且将学会的知识进行迁移,是智能体的一个重要技能。为此,我们定义了一种新的“多任务和迁移学习”方法,使智能体能够学习如何同时处理多个任务,然后将其知识推广到新的领域。这种方法被称为“Actor-Mimic”,利用深度强化学习技术和模型压缩技术,来学习一个单一的策略网络:在几位专家老师的指导下,学习如何在一系列不同的任务中行动。我们随后证明了:学习到的表征...

2019-11-15 09:43:29 627

翻译 【论文翻译】LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS

1 .Introduction 高效导航是一种很重要的智能行为。传统方法基于SLAM。本文中我们follow了最近的DRL方法,提出了这样的思想:“导航能力可以作为agent在学习最大化reward的策略时候的一个副产品”。端到端方法的固有优势就是:action和representation不分开,同时进行学习,这保证了“和任务相关的特征”可以被表示在representation当中。然后...

2019-06-03 16:17:13 922

翻译 【翻译】What is the natural gradient, and how does it work?

最近的研究需要用到natural gradient,但是2002年的那篇ICML看不懂。外网有大佬在2016年写了一篇博客,很好,翻译一下搬运过来了。链接:http://kvfrans.com/what-is-the-natural-gradient-and-where-does-it-appear-in-trust-region-policy-optimization/阅读本文只需要少...

2019-05-27 17:56:46 505

翻译 【论文翻译】Target Driven Visual Navigation with Hybrid Asynchronous Universal Successor Representations

Abstract 能够在最少的监督和先验知识的情况下导航到目标,这对于创建"类人agent"至关重要。以前基于地图和无地图方法的工作具有有限的泛化能力。在本文中,我们提出了一种新的方法,混合异步通用后继表示(HAUSR),它通过将最近的HAUSR与A3C相结合,克服了对新目标泛化的问题。我们的agent能够成功地达到新的目标,并且我们能够快速调整网络以适应新的场景。这打开了一个新的应用场...

2019-05-24 21:07:40 1125

翻译 【论文翻译】End-to-end Driving via Conditional Imitation Learning

I. INTRODUCTION 为什么模仿学习没有扩展到完全自主的城市驾驶?模仿学习的一个假设是:最优action可以直接从observation中推断出来。但实际上这个假设并不成立,比如说:“当汽车接近十字路口时,摄像机的图像不足以预测该汽车应该左转、右转还是直行”。从数学上讲,从图像到控制命令的映射不再是一对一的函数映射。因此,用神经网络处理时候会遇到困难,导致震荡。就算神经网络可以...

2019-05-18 18:46:15 1571

翻译 【论文翻译】Distort-and-Recover: Color Enhancement using Deep Reinforcement Learning

ABSTRACT: 本文提出——人类修图是按照步骤逐渐进行的序列,于是用MDP建模,训练agent得到一个最优的动作序列。此外,我们提出了一种“失真-复原”训练方案,只需要高质量图像进行训练,而不需要“修改前后的图像对“。资料和代码在https://sites.google.com/view/distort-and-recover/可以找到。 论文地址https://...

2019-04-02 21:25:33 1374

翻译 【论文翻译】End-To-End Memory Networks

 Astract: 本文提出了一种基于大规模外部记忆的RNN,可以端到端训练,需要更少的监督数据,比前一个版本更实用。它也可以被看作是RNN研究的扩展,在这种情况下,每个输出符号执行多个计算步骤。  1 .Introduction 人工智能研究面临的两大挑战是,建立能够在回答问题或完成任务时执行多个计算步骤的模型,以及能够描述序列数据中长期依赖关系的模型。 本文提出了一种...

2019-02-12 20:01:48 707

原创 【强化学习】基于A3C的好奇心Agent in OpenAI-Gym

import tensorflow as tfimport pandas as pdimport numpy as npfrom config.config import GLOBAL_NET_SCOPE,ENTROPY_BETA,MAX__EPISODE,MAX_STEP_IN_EPISODE,UPDATE_ITERfrom config.config import plus_glob...

2019-02-09 16:37:40 747 1

原创 【Tensorflow】学习笔记

tf.stop_gradient() https://blog.csdn.net/u013745804/article/details/79589514 https://blog.csdn.net/zbrwhut/article/details/83341869 tf.Variable、tf.get_variable、tf.variable_scope以及tf.name_sc...

2019-01-27 15:53:37 167

原创 【Pycharm】小贴士

pycharm 选中单词在整个文件中高亮颜色调整: file>settings>editor>color scheme>general>code>identifier under caret>background,将background设置为你想要的颜色 ImportError: libcusolver.so.8.0: cannot op...

2019-01-26 16:10:46 186

原创 【AI2 THOR】环境使用说明

官方链接:http://ai2thor.allenai.org/tutorials/installation 安装: pip install ai2thor Before running the below code, make sure X server with OpenGL is running, and the OpenGL extensions have been inst...

2019-01-23 19:59:08 3931 2

翻译 【论文翻译】Curiosity-driven Exploration by Self-supervised Prediction

Abstract 1. Introduction 2. Curiosity-Driven Exploration 2.1. Prediction error as curiosity reward 基于raw sensory space进行下一时刻的预测是不受欢迎的。因为“基于像素进行预测”能不能提供一个好的优化目标,这一点很难说。问题来了,我们基于什么进行...

2019-01-17 09:35:37 1974

原创 【demo】DDQN玩gym之立木杆

import gymfrom contents.OpenAI_gym.my_rl_brain import Double_DQN_Agentmy_env = gym.make("CartPole-v0")my_env = my_env.unwrappedprint("observation:",my_env.observation_space)print("observatio...

2018-12-28 18:09:23 604

转载 【强化学习】知乎上David的笔记

知乎上的叶强大大写的笔记,感谢他的分享精神。作者链接:https://www.zhihu.com/people/qqiang00/posts?page=2写的很好,整理一下方便用讲解: 1.《强化学习》第一讲 简介: https://zhuanlan.zhihu.com/p/28084904 2.《强化学习》第二讲 马尔科夫决策过程 :https://zhuanlan.zhihu...

2018-12-24 09:51:54 2433

翻译 【论文翻译】One-Shot Visual Imitation Learning via Meta-Learning

读这篇文章给我带来了不小的阻力,有两篇博客在理解上给了我很大的帮助和启发。谢谢他们,顺便附上链接: https://blog.csdn.net/u010909964/article/details/84501919 https://zhuanlan.zhihu.com/p/33248019 原作中有一些东西我没理解于是直接跳过。 Abstract:...

2018-12-19 09:48:43 1727

翻译 【论文翻译】Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

最近集中火力肝imitation learning。。MAML是一个重要的方法论,写给自己凑活看的。。。。开始 Abstract 本文针对meta-learning提供了一种模型不可知的的算法,适用于任何基于梯度下降的模型,可以应用于不同的学习问题:分类/回归/RL。meta-learning的目标是:“基于不同的任务进行训练,接下来只需要少数训练样本就可以完成新任务”。在“从新任务中获...

2018-12-16 16:52:58 5693 6

翻译 【论文翻译】One-Shot Imitation from Observing Humans via Domain-Adaptive Meta-Learning

1. Introduction 人类和动物仅仅通过观察别人就能掌握行为的要点,并且能够对形态,背景,和任务细节的变化相当鲁棒。并且人类需要非常少量的示范就可以学会。机器如何获取这种能力? 解决“基于视觉输入的skill学习”有两个问题:(1)人类示范和机器人之间的“外貌和行为差异”引入了一个“系统域唯一的问题”,即对应问题。(2)从视觉输入进行学习需要大量的数据。本文中,我们使用met...

2018-12-14 15:22:52 1355 1

翻译 【论文翻译】One-Shot Imitation Learning

这篇论文看的想爆炸了。。context network实在是看不懂。。。。写了一半暂时放弃,有缘再回来继续嚼 Abstract 理想的情况是:agent可以从“关于给定任务的少量demonstration”中进行学习,并且泛化到相同任务的新情况,并且不需要特殊的工程。假设有一个任务集合(用桌上的木块搭建一个塔/用桌上的木块搭建两个塔),每个任务有许多实例(不同的实例意味着:木块具有不同的...

2018-12-12 23:07:39 875

翻译 【论文翻译】ZERO-SHOT VISUAL IMITATION

摘要:目前主导范式依旧是依靠“专家行为”的强监督学习。我们追求一种无监督学习的模式来探索世界,并把经验提炼成目标导航策略,并具有“前向一致性损失”。策略在学习到了一组图像序列后开始模仿专家的行为。我们提出“zero-shot”方法:agent在训练期间无法接触到专家的行为。我们用了两个真实世界的实验来评估“zero-shot”:用Baxter-robot 做复杂绳索操作&用TurtleBo...

2018-11-16 10:45:27 857 1

翻译 【论文翻译】Learning to Navigate in Cities Without a Map

摘要:在非结构化环境中导航是agent的一项基本能力,因此在人工智能的研究和发展中具有重要的意义。远程导航是一项复杂的认知任务,它依赖于对空间的内部表示,以可识别的地标和健壮的视觉处理为基础,能够同时支持连续的定位(“我在这里”)和目标表示(“我要去那里”)。基于近期“将深度强化学习应用于迷宫导航问题”的研究,我们提出了一种可应用于城市尺度的端到端深度强化学习方法。我们意识到成功的导航依赖于“通用...

2018-11-14 09:38:25 1725

原创 【强化学习笔记】基于蒙特卡洛的强化学习算法

import numpy as npimport pandas as pdimport randomclass MC_RL(object): def __init__(self, states_list, action_lists, gamma): self.states = states_list self.actions = action_...

2018-11-13 21:49:00 1641 1

原创 实现对 2:3 或者3:2的图片进行1:1裁剪

常用的脚本 存网上。。。from PIL import Imageimport os# 存放源图片的路径:source_path = "/Users/myname/Desktop/日系图片/植物"# 存放裁剪后图片的路径result_path = "/Users/myname/Desktop/temp"# 裁剪后的边长target_size = 224for pic_...

2018-11-04 11:53:54 1198

翻译 【论文翻译】Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning

摘要: 有两个关于深度强化学习的问题没有得到很好的解决: (1)缺乏对新目标的泛化能力 (2)数据效率低下,即,模型需要多次(而且往往代价高昂)反复试验和错误才能收敛,将其应用于实际场景是不切实际的。 在本文中,我们解决了这两个问题,并将我们的模型应用到目标驱动的视觉导航中。为了解决第一个问题,我们提出了一个actor-critic模型,它的策略是一个有关于目标和...

2018-10-27 16:34:44 3987 13

翻译 【论文翻译】Playing Atari with Deep Reinforcement Learning

摘要:我们第一个提出了"利用强化学习从高维输入中直接学习控制策略"的深度学习模型。该模型是一个卷积神经网络,经过Q-learning训练,输入为原始像素,输出为:“用来估计未来reward”的值函数。我们将我们的方法应用于游戏环境下的7款atari 2600游戏,没有调整过架构或学习算法。我们发现它在6个游戏中超越了所有以前的方法,并且在3个游戏中超过了人类专家。 1 . Introduct...

2018-10-18 10:20:38 7353 1

转载 路径规划之A*算法

 参考:https://blog.csdn.net/hitwhylz/article/details/23089415算法总体框架: 1.把起点加入 open list 。 2.重复如下过程: a.遍历 open list ,查找 F 值最小的节点,把它作为当前要处理的节点。 b.把这个节点移到 close list ,记为方格x。 c....

2018-10-10 16:58:28 2991

转载 路径规划算法之Djistra算法

本文转载自作者Ouyang_Lianjun的《最短路径问题---Dijkstra算法详解》一文。附原文链接:https://blog.csdn.net/qq_35644234/article/details/60870719。觉得作者写的很好就转载过来了,稍作了描述上的修改,是很实用的基础算法,需要牢牢掌握,再次感谢作者的原创。问题:寻找最短路径(从图中的某个顶点出发到达另外一个顶点的...

2018-10-10 11:32:43 6584

翻译 【论文翻译】Efficient Trajectory Optimization using a Sparse Model——使用稀疏模型对有效轨迹进行优化(TEB局部规划)

          摘  要  : “TEB”方法针对全局路径规划器生成的初始轨迹进行后续修正,从而优化了机器人的运动轨迹。在轨迹优化问题中考虑的目标包括但不限于:整体路径长度、轨迹运行时间、与障碍物的距离、通过中间路径点以及机器人动态、运动学和几何约束的符合性。“TEB方法”明确考虑了运动状态下时空方面的动态约束,如机器人的速度和加速度是有限制的。路径规划是实时进行的,“TEB”能够解决动态障碍...

2018-10-08 22:05:48 10812 1

翻译 【论文翻译】 Residual Networks Behave Like Ensembles of Relatively Shallow Networks

原文链接: See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/303409435 标题:Residual Networks Behave Like Ensembles of Relatively Sh...

2018-10-06 14:10:53 1728 1

原创 【python实战】基于数据挖掘的航空公司客户价值分析

import pandas as pd# 数据预处理datafile="/Users/wangyouzhuo/Desktop/python数据挖掘/图书配套数据、代码/chapter7/demo/data/air_data.csv"data=pd.read_csv(datafile,encoding='utf-8')data=data[data['SUM_YR_1'].notnull(...

2018-04-08 20:39:06 2303

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除