这梦想不休不止-CSDN博客

原创 Counterfactual multi-agent policy gradients.

这个是实验室做项目的时候用到的一个算法，我没仔细看原文，主要看了一下github上的code一般智能体协作存在的问题：1：joint action随着智能体增加指数级增大2：由于部分可观测性，每个agent只能观测到自己的信息，没有信息共享（很多实验跑的都是全局信息当做局部，也就不存在这个问题，还有一些直接输入两个agent的信息，理论上也不存在）3：使用联合动作空间获得的rewa...

2020-02-27 22:27:00 1802 2

原创 Modeling Others using Oneself in Multi-Agent Reinforcement Learning

ICML-18的文章，前几天我自己想的方法，就是对敌方和己方分别应用一个goal目标，只是我一直在考虑怎么从state中抽离出两个goal，而这篇文章思路的确很新奇，但是也有很明显的局限性。老习惯，先上环境：文章一共给了三个环境，第一个是coin，第二个是recipe，第三个是door我先一个一个介绍环境设置，第一个环境是一个合作性质的环境reward的设置：有两个ag...

2020-02-26 18:40:00 894 3

原创 A Deep Bayesian Policy Reuse Approach Against Non-Stationary Agents

NIPS18的一篇文章，来分析一下。首先这篇文章主要的思路：我先介绍一下这个算法的实验环境，实验环境先行：一共包括上面三个实验环境，第一个是两个agent合作分别达到自己的绿色区域G，当两个agent发生碰撞就会被惩罚，其中agent 0相当于有若干个定死的策略，他会随机采用这几个策略来进行游戏，agent o不会根据你的行动而改变自己的行为。第二个环境是两个age...

2020-02-24 17:00:26 553

原创 AphaStar设计技巧与方法

这篇文章主要是总结一下它实现上应用的好的技术，也许有的可以用到最近做的项目上。paper上面的实验一般都很toy，这篇文章对工程提升要更加显著。首先说一点的是，这篇文章成功的一个重要原因是专家数据的利用。因此专家数据是不可或缺的，但很多时候，我们并没有专家数据并且数据很难做出来。但是这篇文章很多技巧还是可以借鉴的。第一点：V trace 这个知识点我没有看，主要是解决大规模训练下，off...

2020-02-22 01:40:12 210

原创 Learning Policy Representations in Multiagent Systems

ICML18关于对手策略建模的文章：主要顺一下思路：其中Ei是agent i与其余n个agent对弈，sample出来条轨迹（obs和action对），然后将其中第一条轨迹进行上面一个f（x）映射函数的学习，学得一个映射，这个映射就是对对手的策略建模embedding，然后以这个embedding为基础，在第二条轨迹上进行模仿学习，即基于embedding的基础上在第二条轨迹上的obs...

2020-02-16 01:39:36 510 1

原创由Adversarially Learned Inference引发

首先ALI和BiGAN上本质上是一样的，但是有一点区别，那就是ALI的encoder输出是mu和sigma，然后随机采样出来编码，而BiGAN则直接输出一个确定的结果，没有sample这一步。看到这篇文章我又去补习了一下VAEGAN，BiGAN，因此这篇文章主要就是做一下对比吧。VAEGAN：从VAE的角度去理解，增加了判别器，来使得生成的图片尽可能的逼真。包含VAE中的所有l...

2020-01-28 18:19:00 1027

原创 GAN里面的一个小坑

-log sigmoid(f(x)) = log (1 + exp(-f(x))) = softplus(-f(x))-log(1-sigmoid(f(x))) = log (1 + exp(f(x))) = softplus(f(x)).Thus,softplus(-f(x)) + sof...

2020-01-27 18:13:43 633

原创 Learning deep representations by mutual information estimation and maximization

ICLR18的文章，reference100多，算贡献比较大的文章了。首先介绍一下本文的预备知识点：本文主要是涉及了一种数据表征方法，无监督的提取出图片中的高维表征。不进行具体任务的训练。比如我们进行训练之后，固定好训练完的网络，进行分类，聚类等工作的训练。创新点：1：利用了互信息最大化输入与高维表征的关联程度。2：互信息包含了局部互信息，以及全局互信息。3：使用对抗网...

2020-01-25 17:41:40 4583 5

原创 Temporal Difference Variational Auto-Encoder

Deepmind 投的ICLR2019的文章。之前没有认真推导过公式，所以看起来比较费劲。用了几天，看了看两套代码，推了推公式，快过年了，每天放在上面的时间也不多，用了四天才弄了个半懂，下面我展开讲一下，希望我之后看我的自己的笔记可以看懂。（之前FudalNet我就忘了，回来看到自己文章，都不知道谁写的）首先上一个基础知识，求高斯分布的KL散度：(之前一直使用和标准正态的KL，不太了解泛化的...

2020-01-20 17:32:35 422

原创 faster RCNN

首先是整个网络的结构：转发自：里面比较重要的两个东西，一个是RPN，一个是ROI Pooling。下面链接都讲了一下。https://blog.csdn.net/gbyy42299/article/details/80352418以及https://www.cnblogs.com/wangyong/p/8513563.html ...

2018-12-13 21:03:24 174

原创 Long Text Generation via Adversarial Training with Leaked Information

这篇文章是我看完RankGAN之后看的。这篇文章思想上是一个感觉还是有一定的前沿性。很新颖，至少之前没人这么想过。也把HRL和GAN结合在了一起。很Nice，这两天状态不好，看代码又花去了两天时间。首先先说一下我看完代码之后的感觉吧：第一点，leak主要体现在泄露了D对一个生成的句子提取的特征值（D也是根据这个特征值来得到最后的【fake，real】的）第二点：因为使用了HRL的结...

2018-12-05 20:04:35 795 3

原创 A Reinforcement Learning Framework for Natural Question Generationusing Bi-discriminators

果然，我在看完这篇论文表示一脸懵逼，这论文干啥了?啥也没干啊。这不会是A会的吧，一查，果然不是A会的。单纯的小结构的创新，加几层网络，删去几层感觉作用也不大。主要思想用的是上一篇写的seqGan，不过用到了两个D，一个D关注一部分东西。不过看这篇文章又知道了一个focal loss（何大神的作品，这是这篇文章，我最大的收获之一，用于平衡样本数量悬殊的平衡办法）对于这两个D，感觉在这...

2018-12-01 17:04:31 324

原创 SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

这篇文章是在GAN的基础上加入了pg策略，从而可以进行文本等离散数据的生成与处理。看一遍文章倒是不需要多少时间，但是看代码花费了大量时间。感觉有代码的还是收获要多一些。GAN之所以无法对离散数据进行很好的生成，是因为:离散输出使得从d到g的梯度难以传递。（微小的变化引起的改变，可能没有与之对应的标签）。同时也只有当d得到一个完整的数据的时候，才可以进行判断。部分完成的无法给出评分。...

2018-11-30 20:06:10 975

原创对LSTM的思考

本来我觉得LSTM，知道里面几个门就可以了，还有怎么用tf直接写，知道今天我看到了一个lstm的手搓代码。看了一遍，不知道这个人在写啥，我才决定重新看一下lstm。首先说下RNN，RNN说白了就是一个循环的NN嵌套，所以他才存在梯度消失和梯度爆炸，难以形成长时间的记忆。所以才提出了LSTM，之前我也没仔细看RNN的结构，现在看了恍然大悟。再来一个别的图。更加详细：黄色的就是...

2018-11-29 01:05:28 384

原创 A Deep Hierarchical Approach to Lifelong Learning in Minecraft

把之前读的一篇HRL的文章也补上。这个文章的代码，我看了两天，表示看的不大明白，只能找到一个lua脚本写出来的版本，感觉读起来很吃力网络模型：先介绍一下文章的总体思想：主要由两部分组成，一个控制器，一个以往获得的经验。这里提到了一个蒸馏法，也就是有一个T net 有一个 S net ， S net可以不断地学习T net，不断拟合。控制器主要是决定采用一个单独的...

2018-11-28 00:07:57 517

原创 FeUdal Networks for Hierarchical Reinforcement Learning

这篇文章和hdqn，我个人感觉差别还是很明显的。最明显的是我没有感受到时间维度的差异，也就是什么提供goal的时间维度小，施行者时间维度大，这一个特点。我花了三天吧（前两天感觉没有集中精神），把文章代码都读了几遍。除了文章中的dilated lstm，我不大明白是怎么实现的外（文章中说和cw lstm的idea一样，还列出了dilated convelution的paper，所以我感觉...

2018-11-27 21:19:07 1768 1

原创 Addressing Function Approximation Error in Actor-Critic Methods

TD3算法，这个论文的名字一眼就看出，这个的目的是为了解决函数模拟的误差。按照spinningup的说法，这个算法是基于DDPG的，做了三个方面的改进：第一点：Clipped Double Q-learning 第二点：Delayed policy update 第三点：Traget policy smoothing注意：1：TD3是一个off policy的算法 2：TD3只...

2018-11-21 01:48:47 1379

原创 Soft Actor-Critic:Off-Policy Maximum Entropy Deep ReinforcementLearning with a Stochastic Actor

18年的SAC算法，这篇论文读了一遍，在看openai的spinup的时候，回来再读一遍，结合两者，提出一些要点。首先要指出现在存在的问题：1：现在多数model free的算法需要的样本sample的复杂度过高。2：然后就是需要大强度调参数，参数对performance影响很大。对于on policy的算法，比如TRPO，PPO，A3C，都存在样本sample的巨大复杂度，并且会...

2018-11-19 00:36:25 2306

原创 exploration by random network distillation

看了半天这篇文章给的源码，大概思路能理解，但是要完全读明白OpenAI的代码，感觉有点难，没什么注释，还缺少文件。这篇文章读下来是基于18年Deepmind提出的一种不确定性度量法。随后OpenAI，就是用这个这个思想在这个内部奖励/好奇心/内在动机的思路中。并且取得了相对可观的效果。首先讨论了以下以前提出的基于table的counts based方法以及non-table的pse...

2018-11-14 19:13:20 1348

原创 Surprise-based intrinsic motivation for deep reinforcement learning

最近读论文一直没怎么写博客，以前读论文注重结论，现在转向了过程。这篇论文，是看了一篇18年openai的论文里面的reference。17年的，比较新。这篇论文主要涉及了一个内在R，用于在sparse state下更好的去和环境交互。文中所有的P都是转移。首先给出了优化函数：也就是想最大化转移函数，f是正则函数。L是在文章中定义为根据policy在有结束的情况下的e...

2018-11-13 23:32:06 385

原创似然函数和reparemerization

似然函数链接：https://www.cnblogs.com/zhsuiy/p/4822020.html解释的很好。今天又看到了VAE，于是对里面的一个方法reparemerization以及变分又进行了查询。https://www.cnblogs.com/king-lps/p/8477300.htmlhttps://www.zhihu.com/collection/1623572...

2018-11-12 00:59:30 368

原创难以积分的函数的估计方法

前几天看了一篇论文，提到了变分，随后进行了一波大的补习课。全是关于难以积分问题的解决方法。一种是Sampling 随机性的解决方法。一种是变分确定性的解决方法。同时多一嘴EM算法（用来解决含有隐变量的参数估计的方法，需要用到最大似然估计以及詹森不等式）并且优缺点互补。 ...

2018-11-09 15:10:49 445

原创极大似然

之前看了好几遍，总是忘，这次记下地址：https://blog.csdn.net/zengxiantao1994/article/details/72787849

2018-11-07 23:31:15 162

原创 MCMC

转载：http://www.cnblogs.com/pinard/p/6645766.html

2018-11-07 17:31:49 218

原创重要性采样

之前再看pr DQN的时候，还有pg的时候都会说到重要性采样，尽管目前我对其应用还有一些疑惑。但是今天看了一篇博客，大概算是看懂了。转自https://blog.csdn.net/wangpeng138375/article/details/74645637下面是博客内容：简单直观因为我是做强化学习的，还有一个强化学习IS的连接https://blog.csdn.net/philthi...

2018-10-31 19:58:32 439

原创强化学习基本算法总结

总结转发也可以直接去看李弘毅的RL课程，这个总结就是来自他的课程。

2018-10-30 16:21:02 585

原创 Learning to Communicate with Deep Multi-Agent Reinforcement Learning

2017Nips的文章，看了一篇18的一篇相关方向的，但是没太明白，第一次看communicate的文章（multi-agent RL with communication），理解的也不太透彻。大概简要介绍一下：在MA的环境中，agent需要相互合作去完成任务，这个时候就需要agent之间相互交流，从而合作完成任务，之前的文章里都是没有agent间交流的。或者说是没有显示的定义出来这一...

2018-10-22 20:02:19 4685 8

原创 Learning Against Non-Stationary Agents withOpponent Modelling & Deep Reinforcement Learning

17年nips beach的文章，这个文章是通过为对手建模，然后更好的切换自己的对战策略的一个方法。这篇文章，主要是对里面不确定度有了很好的应用，才能正确的在不同的策略之间比较正确的切换。主要是对两种方式进行了实验：首先我们针对第一种来设计算法，而本文也是主要针对第一种情况进行的，第二种用来比较本文提出了SAM算法switching Agent Model首先我们逐步介绍他...

2018-10-17 16:47:30 741

原创 Factorized Q-Learning for Large-Scale Multi-Agent Systems

这篇是19年AAAI的文章。和我上一篇写的文章思想上很相似。主要还是解决大规模agent的合作或者竞争问题。这篇文章的灵感来源于被广泛用于推荐系统的(Rendle 2012; Rendle and Schmidt-Thieme 2010) ，我们通过为复杂的环境与agents之间的关系建模为高阶，高维向量，然后通过分解（Factorization）去拟合它更加具体的可以描述为，MAQ ...

2018-10-16 21:08:30 1320

原创 Mean Field Multi-Agent Reinforcement Learning

这是18 ICML的文章，文中的证明推理很多，主要借鉴一下思想。文章首先阐述了以前的一些找Nash平衡等方法对于大规模agent合作或者对抗的计算量要求很大。因此提出了这个算法。首先介绍了Stochastic Game的环境：第一个参数是状态空间，随后的N个参数是agent i的动作空间，在随后是agent i 的奖励函数，p是转移函数，y是折扣因子每个agent j 根据自己...

2018-10-16 17:16:03 4925 2

原创 Deep Reinforcement Learning Variants ofMulti-Agent Learning Algorithms

这是一个80页的论文，有效内容70页，10页reference。本篇论文主要介绍了两个算法，这篇论文写自2016年，也就是DQN发表一年后，所以这一年结合深度网络写rl的文章很多。下面我们就介绍一下本篇论文。我会摘取一些有用没用的大家都知道的以前的知识做铺垫。这篇文章主要讲述了两种算法，DRUQN（deep repeated update Q-network ）和DLCQN（Deep ...

2018-10-10 19:19:56 807

原创 An Algorithm for Distributed Reinforement Learning in Cooperative Multi-Agent Systems

这篇文章是2000年发在ICML上的（如果我没记错的话），本篇博客主要是记录读后的总结，因为信息量比较大，只是混杂。区分两个概念：deterministic enviroment and stochastic enviroment:摘一段原文：随即环境下的区别是没有成熟的转移函数，所有的状态转移全都是互相独立运行的。在deterministic enviroment下：Q表的...

2018-10-07 23:04:58 762 1

原创强化学习R&R总结

今天在看蒙特卡洛搜索树的时候，看到了UCB(upper confident bound)，然后顺眼查到了一些其他很有趣的算法，在这里特意记录一下。这些算法主要都是针对更好的平衡探索与利用而开发出来的。第一个 e贪婪这个我就不展开解释了。应用的范围太广了，而且很多情况下比较依赖于e的取值第二种 SoftMax算法：以k摇臂赌博机为例子，SoftMax是对探索与利用的一个折中的方法，若...

2018-10-05 17:00:01 1731

原创食物链题目（带全并查集）

这个题目需要注意好几个地方，最重要的方法就是向量法确定关系转移，而关系转移又需要退到两种情况，第一种，是Find的时候，进行路径压缩的时候，另一种是两个点属于不同的树的时候，而且为了便于操作，我们需要设置0 为相同（与题目中的关系1相同）， 1 为 a吃b（与题目中的关系2对应）。3对应b吃a代码如下，注意关系，不能随意推到，因为有方向关系：#include<iostream&g...

2018-07-24 21:58:15 1166

原创 Poj 1481 （DFS+DFS）

寻找一堆点中，包含的x的个数，如果相连，表示为1个。需要用到两个dfs代码如下：#include<iostream>#include<cstdio>#include<algorithm>#include<cstdlib>#include<cmath>#include<cstring>us...

2018-07-23 13:59:41 314

原创南大18本地夏令营题目

题目如下：第一个题目，题解:需要好好考虑前序和后续的性质，考虑树链：#include<iostream>#include<cstdio>#include<string.h>#include<vector>using namespace std ;#define MAX 1005int pre[MAX];int aft[MA...

2018-07-23 11:38:11 1530

原创 PAT 1010

地址:https://pintia.cn/problem-sets/994805342720868352/problems/994805507225665536题目需要注意的东西有点多，第一个：是数据范围大小，数据最长10位，已经超出了int的范围，因此要用long long 转化进制，有可能还是超出范围，在二分搜索的时候还有溢出的可能，此时也看做大。代码如下:#includ...

2018-07-21 18:58:25 347

原创 PAT 1004

https://pintia.cn/problem-sets/994805342720868352/problems/994805521431773184看到这个题目，马上就想到了广搜。但是需要单独开一个数组，用来区分每个点属于哪一个层，同时记录每个层叶节点个数。下面是 bfs的：#include<iostream>#include<cstdio>#inc...

2018-07-21 14:15:50 237

原创 PAT3

https://pintia.cn/problem-sets/994805342720868352/problems/994805523835109376这个题目，是一个最短路的题目，但是又有一些不同，求的不是最短路，而是最短路的条数，以及在这些最短路上，点的权和最大的结果。注意这里有一个前提条件就是：每两个城市之间，路只有一条。代码如下:就是多开两个数组，记录这两个数值即可。 ...

2018-07-21 12:47:15 387

原创 what I see in ISCAS

第一个题目，很简单，但是我就是没想明白，后来被点了一下，就是stack每次存储的都是最后一次的（5 4）括号中的第一个数字，用于记录个数，还需要定义一个Now变量，每次遇到（就乘以后边的数，并将这个数据进栈，遇到）就除以之前进栈的数据。代码如下：#include<iostream>#include<cstdio>#include<stack>#includ...

2018-07-12 14:12:30 177

空空如也

caffe 数据处理时imread问题

caffe的python接口问题

Cmake的编译caffe的cmd文件问题

Python中调用theano库的问题

python中的Random问题