自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(223)
  • 问答 (5)
  • 收藏
  • 关注

原创 Counterfactual multi-agent policy gradients.

这个是实验室做项目的时候用到的一个算法,我没仔细看原文,主要看了一下github上的code一般智能体协作存在的问题:1:joint action随着智能体增加指数级增大2:由于部分可观测性,每个agent只能观测到自己的信息,没有信息共享(很多实验跑的都是全局信息当做局部,也就不存在这个问题,还有一些直接输入两个agent的信息,理论上也不存在)3:使用联合动作空间获得的rewa...

2020-02-27 22:27:00 1802 2

原创 Modeling Others using Oneself in Multi-Agent Reinforcement Learning

ICML-18的文章,前几天我自己想的方法,就是对敌方和己方分别应用一个goal目标,只是我一直在考虑怎么从state中抽离出两个goal,而这篇文章思路的确很新奇,但是也有很明显的局限性。老习惯,先上环境:文章一共给了三个环境,第一个是coin,第二个是recipe,第三个是door我先一个一个介绍环境设置,第一个环境是一个合作性质的环境reward的设置:有两个ag...

2020-02-26 18:40:00 894 3

原创 A Deep Bayesian Policy Reuse Approach Against Non-Stationary Agents

NIPS18的一篇文章,来分析一下。首先这篇文章主要的思路:我先介绍一下这个算法的实验环境,实验环境先行:一共包括上面三个实验环境,第一个是两个agent合作分别达到自己的绿色区域G,当两个agent发生碰撞就会被惩罚,其中agent 0相当于有若干个定死的策略,他会随机采用这几个策略来进行游戏,agent o不会根据你的行动而改变自己的行为。第二个环境是两个age...

2020-02-24 17:00:26 553

原创 AphaStar设计技巧与方法

这篇文章主要是总结一下它实现上应用的好的技术,也许有的可以用到最近做的项目上。paper上面的实验一般都很toy,这篇文章对工程提升要更加显著。首先说一点的是,这篇文章成功的一个重要原因是专家数据的利用。因此专家数据是不可或缺的,但很多时候,我们并没有专家数据并且数据很难做出来。但是这篇文章很多技巧还是可以借鉴的。第一点:V trace 这个知识点我没有看,主要是解决大规模训练下 ,off...

2020-02-22 01:40:12 210

原创 Learning Policy Representations in Multiagent Systems

ICML18关于对手策略建模的文章:主要顺一下思路:其中Ei是agent i与其余n个agent对弈,sample出来条轨迹(obs和action对),然后将其中第一条轨迹进行上面一个f(x)映射函数的学习,学得一个映射,这个映射就是对对手的策略建模embedding,然后以这个embedding为基础,在第二条轨迹上进行模仿学习,即基于embedding的基础上在第二条轨迹上的obs...

2020-02-16 01:39:36 510 1

原创 由Adversarially Learned Inference引发

首先ALI和BiGAN上本质上是一样的,但是有一点区别,那就是ALI的encoder输出是mu和sigma,然后随机采样出来编码,而BiGAN则直接输出一个确定的结果,没有sample这一步。看到这篇文章我又去补习了一下VAEGAN,BiGAN,因此这篇文章主要就是做一下对比吧。VAEGAN:从VAE的角度去理解,增加了判别器,来使得生成的图片尽可能的逼真。包含VAE中的所有l...

2020-01-28 18:19:00 1027

原创 GAN里面的一个小坑

-log sigmoid(f(x)) = log (1 + exp(-f(x))) = softplus(-f(x))-log(1-sigmoid(f(x))) = log (1 + exp(f(x))) = softplus(f(x)).Thus,softplus(-f(x)) + sof...

2020-01-27 18:13:43 633

原创 Learning deep representations by mutual information estimation and maximization

ICLR18的文章,reference100多,算贡献比较大的文章了。首先介绍一下本文的预备知识点:本文主要是涉及了一种数据表征方法,无监督的提取出图片中的高维表征。不进行具体任务的训练。比如我们进行训练之后,固定好训练完的网络,进行分类,聚类等工作的训练。创新点:1:利用了互信息最大化输入与高维表征的关联程度。2:互信息包含了局部互信息,以及全局互信息。3:使用对抗网...

2020-01-25 17:41:40 4583 5

原创 Temporal Difference Variational Auto-Encoder

Deepmind 投的ICLR2019的文章。之前没有认真推导过公式,所以看起来比较费劲。用了几天,看了看两套代码,推了推公式,快过年了,每天放在上面的时间也不多,用了四天才弄了个半懂,下面我展开讲一下,希望我之后看我的自己的笔记可以看懂。(之前FudalNet我就忘了,回来看到自己文章,都不知道谁写的)首先上一个基础知识,求高斯分布的KL散度:(之前一直使用和标准正态的KL,不太了解泛化的...

2020-01-20 17:32:35 422

原创 faster RCNN

首先是整个网络的结构:转发自:里面比较重要的两个东西,一个是RPN,一个是ROI Pooling。下面链接都讲了一下。https://blog.csdn.net/gbyy42299/article/details/80352418以及https://www.cnblogs.com/wangyong/p/8513563.html    ...

2018-12-13 21:03:24 174

原创 Long Text Generation via Adversarial Training with Leaked Information

这篇文章是我看完RankGAN之后看的。这篇文章思想上是一个感觉还是有一定的前沿性。很新颖,至少之前没人这么想过。也把HRL和GAN结合在了一起。很Nice,这两天状态不好,看代码又花去了两天时间。首先先说一下我看完代码之后的感觉吧:第一点,leak主要体现在泄露了D对一个生成的句子提取的特征值(D也是根据这个特征值来得到最后的【fake,real】的)第二点:因为使用了HRL的结...

2018-12-05 20:04:35 795 3

原创 A Reinforcement Learning Framework for Natural Question Generationusing Bi-discriminators

果然,我在看完这篇论文表示一脸懵逼,这论文干啥了?啥也没干啊。这不会是A会的吧,一查,果然不是A会的。单纯的小结构的创新,加几层网络,删去几层感觉作用也不大。主要思想用的是上一篇写的seqGan,不过用到了两个D,一个D关注一部分东西。不过看这篇文章又知道了一个focal loss(何大神的作品,这是这篇文章,我最大的收获之一,用于平衡样本数量悬殊的平衡办法)对于这两个D,感觉在这...

2018-12-01 17:04:31 324

原创 SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

这篇文章是在GAN的基础上加入了pg策略,从而可以进行文本等离散数据的生成与处理。看一遍文章倒是不需要多少时间,但是看代码花费了大量时间。感觉有代码的还是收获要多一些。GAN之所以无法对离散数据进行很好的生成,是因为:离散输出使得从d到g的梯度难以传递。(微小的变化引起的改变,可能没有与之对应的标签)。同时也只有当d得到一个完整的数据的时候,才可以进行判断。部分完成的无法给出评分。...

2018-11-30 20:06:10 975

原创 对LSTM的思考

本来我觉得LSTM,知道里面几个门就可以了,还有怎么用tf直接写,知道今天我看到了一个lstm的手搓代码。看了一遍,不知道这个人在写啥,我才决定重新看一下lstm。首先说下RNN,RNN说白了就是一个循环的NN嵌套,所以他才存在梯度消失和梯度爆炸,难以形成长时间的记忆。所以才提出了LSTM,之前我也没仔细看RNN的结构,现在看了恍然大悟。再来一个别的图。更加详细:黄色的就是...

2018-11-29 01:05:28 384

原创 A Deep Hierarchical Approach to Lifelong Learning in Minecraft

把之前读的一篇HRL的文章也补上。这个文章的代码,我看了两天,表示看的不大明白,只能找到一个lua脚本写出来的版本,感觉读起来很吃力网络模型:先介绍一下文章的总体思想:主要由两部分组成,一个控制器,一个以往获得的经验。这里提到了一个蒸馏法,也就是有一个T net 有一个 S net , S net可以不断地学习T net,不断拟合。控制器主要是决定采用一个单独的...

2018-11-28 00:07:57 517

原创 FeUdal Networks for Hierarchical Reinforcement Learning

这篇文章和hdqn,我个人感觉差别还是很明显的。最明显的是我没有感受到时间维度的差异,也就是什么提供goal的时间维度小,施行者时间维度大,这一个特点。我花了三天吧(前两天感觉没有集中精神),把文章代码都读了几遍。除了文章中的dilated lstm,我不大明白是怎么实现的外(文章中说和cw lstm的idea一样,还列出了dilated convelution的paper,所以我感觉...

2018-11-27 21:19:07 1768 1

原创 Addressing Function Approximation Error in Actor-Critic Methods

TD3算法,这个论文的名字一眼就看出,这个的目的是为了解决函数模拟的误差。按照spinningup的说法,这个算法是基于DDPG的,做了三个方面的改进:第一点:Clipped Double Q-learning  第二点:Delayed policy update  第三点:Traget policy smoothing注意:1:TD3是一个off policy的算法   2:TD3只...

2018-11-21 01:48:47 1379

原创 Soft Actor-Critic:Off-Policy Maximum Entropy Deep ReinforcementLearning with a Stochastic Actor

18年的SAC算法,这篇论文读了一遍,在看openai的spinup的时候,回来再读一遍,结合两者,提出一些要点。首先要指出现在存在的问题:1:现在多数model free的算法需要的样本sample的复杂度过高。2:然后就是需要大强度调参数,参数对performance影响很大。对于on policy的算法,比如TRPO,PPO,A3C,都存在样本sample的巨大复杂度,并且会...

2018-11-19 00:36:25 2306

原创 exploration by random network distillation

看了半天这篇文章给的源码,大概思路能理解,但是要完全读明白OpenAI的代码,感觉有点难,没什么注释,还缺少文件。这篇文章读下来是基于18年Deepmind提出的一种不确定性度量法。随后OpenAI,就是用这个这个思想在这个内部奖励/好奇心/内在动机的思路中。并且取得了相对可观的效果。首先讨论了以下以前提出的基于table的counts based方法以及non-table的pse...

2018-11-14 19:13:20 1348

原创 Surprise-based intrinsic motivation for deep reinforcement learning

最近读论文一直没怎么写博客,以前读论文注重结论,现在转向了过程。这篇论文,是看了一篇18年openai的论文里面的reference。17年的,比较新。这篇论文主要涉及了一个内在R,用于在sparse state下更好的去和环境交互。文中所有的P都是转移。首先给出了优化函数:也就是想最大化转移函数,f是正则函数。L是在文章中定义为根据policy在有结束的情况下的e...

2018-11-13 23:32:06 385

原创 似然函数和reparemerization

似然函数链接:https://www.cnblogs.com/zhsuiy/p/4822020.html解释的很好。今天又看到了VAE,于是对里面的一个方法reparemerization以及变分又进行了查询。https://www.cnblogs.com/king-lps/p/8477300.htmlhttps://www.zhihu.com/collection/1623572...

2018-11-12 00:59:30 368

原创 难以积分的函数的估计方法

前几天看了一篇论文,提到了变分,随后进行了一波大的补习课。全是关于难以积分问题的解决方法。一种是Sampling 随机性的解决方法。一种是变分         确定性的解决方法。同时多一嘴EM算法(用来解决含有隐变量的参数估计的方法,需要用到最大似然估计以及詹森不等式)并且优缺点互补。    ...

2018-11-09 15:10:49 445

原创 极大似然

之前看了好几遍,总是忘,这次记下地址:https://blog.csdn.net/zengxiantao1994/article/details/72787849

2018-11-07 23:31:15 162

原创 MCMC

转载:http://www.cnblogs.com/pinard/p/6645766.html

2018-11-07 17:31:49 218

原创 重要性采样

之前再看pr DQN的时候,还有pg的时候都会说到重要性采样,尽管目前我对其应用还有一些疑惑。但是今天看了一篇博客,大概算是看懂了。转自https://blog.csdn.net/wangpeng138375/article/details/74645637下面是博客内容:简单直观因为我是做强化学习的,还有一个强化学习IS的连接https://blog.csdn.net/philthi...

2018-10-31 19:58:32 439

原创 强化学习基本算法总结

总结转发也可以直接去看李弘毅的RL课程,这个总结就是来自他的课程。

2018-10-30 16:21:02 585

原创 Learning to Communicate with Deep Multi-Agent Reinforcement Learning

2017Nips的文章,看了一篇18的一篇相关方向的,但是没太明白,第一次看communicate的文章(multi-agent RL with communication),理解的也不太透彻。大概简要介绍一下:在MA的环境中,agent需要相互合作去完成任务,这个时候就需要agent之间相互交流,从而合作完成任务,之前的文章里都是没有agent间交流的。或者说是没有显示的定义出来这一...

2018-10-22 20:02:19 4685 8

原创 Learning Against Non-Stationary Agents withOpponent Modelling & Deep Reinforcement Learning

17年nips beach的文章,这个文章是通过为对手建模,然后更好的切换自己的对战策略的一个方法。这篇文章,主要是对里面不确定度有了很好的应用,才能正确的在不同的策略之间比较正确的切换。主要是对两种方式进行了实验:首先我们针对第一种来设计算法,而本文也是主要针对第一种情况进行的,第二种用来比较本文提出了SAM算法switching Agent Model首先我们逐步介绍他...

2018-10-17 16:47:30 741

原创 Factorized Q-Learning for Large-Scale Multi-Agent Systems

这篇是19年AAAI的文章。和我上一篇写的文章思想上很相似。主要还是解决大规模agent的合作或者竞争问题。这篇文章的灵感来源于被广泛用于推荐系统的(Rendle 2012; Rendle and Schmidt-Thieme 2010) ,我们通过为复杂的环境与agents之间的关系建模为高阶,高维向量,然后通过分解(Factorization)去拟合它更加具体的可以描述为,MAQ ...

2018-10-16 21:08:30 1320

原创 Mean Field Multi-Agent Reinforcement Learning

这是18 ICML的文章,文中的证明推理很多,主要借鉴一下思想。文章首先阐述了以前的一些找Nash平衡等方法对于大规模agent合作或者对抗的计算量要求很大。因此提出了这个算法。首先介绍了Stochastic Game的环境:第一个参数是状态空间,随后的N个参数是agent i的动作空间,在随后是agent i 的奖励函数,p是转移函数,y是折扣因子每个agent j 根据自己...

2018-10-16 17:16:03 4925 2

原创 Deep Reinforcement Learning Variants ofMulti-Agent Learning Algorithms

这是一个80页的论文,有效内容70页,10页reference。本篇论文主要介绍了两个算法,这篇论文写自2016年,也就是DQN发表一年后,所以这一年结合深度网络写rl的文章很多。下面我们就介绍一下本篇论文。我会摘取一些有用没用的大家都知道的以前的知识做铺垫。这篇文章主要讲述了两种算法,DRUQN(deep repeated update Q-network )和DLCQN(Deep ...

2018-10-10 19:19:56 807

原创 An Algorithm for Distributed Reinforement Learning in Cooperative Multi-Agent Systems

这篇文章是2000年发在ICML上的(如果我没记错的话),本篇博客主要是记录读后的总结,因为信息量比较大,只是混杂。区分两个概念:deterministic enviroment and  stochastic enviroment:摘一段原文:随即环境下的区别是没有成熟的转移函数,所有的状态转移全都是互相独立运行的。在deterministic enviroment下:Q表的...

2018-10-07 23:04:58 762 1

原创 强化学习R&R总结

今天在看蒙特卡洛搜索树的时候,看到了UCB(upper confident bound),然后顺眼查到了一些其他很有趣的算法,在这里特意记录一下。这些算法主要都是针对更好的平衡探索与利用而开发出来的。第一个 e贪婪这个我就不展开解释了。应用的范围太广了,而且很多情况下比较依赖于e的取值第二种 SoftMax算法:以k摇臂赌博机为例子,SoftMax是对探索与利用的一个折中的方法,若...

2018-10-05 17:00:01 1731

原创 食物链题目(带全并查集)

这个题目需要注意好几个地方,最重要的方法就是向量法确定关系转移,而关系转移又需要退到两种情况,第一种,是Find的时候,进行路径压缩的时候,另一种是两个点属于不同的树的时候,而且为了便于操作,我们需要设置0 为 相同(与题目中的关系1相同), 1 为 a吃b(与题目中的关系2对应)。3对应b吃a代码如下,注意关系,不能随意推到,因为有方向关系:#include<iostream&g...

2018-07-24 21:58:15 1166

原创 Poj 1481 (DFS+DFS)

寻找一堆点中,包含的x的个数,如果相连,表示为1个。需要用到两个dfs代码如下:#include<iostream>#include<cstdio>#include<algorithm>#include<cstdlib>#include<cmath>#include<cstring>us...

2018-07-23 13:59:41 314

原创 南大18本地夏令营题目

题目如下:第一个题目,题解:需要好好考虑前序和后续的性质,考虑树链:#include<iostream>#include<cstdio>#include<string.h>#include<vector>using namespace std ;#define MAX 1005int pre[MAX];int aft[MA...

2018-07-23 11:38:11 1530

原创 PAT 1010

地址:https://pintia.cn/problem-sets/994805342720868352/problems/994805507225665536题目需要注意的东西有点多,第一个:是数据范围大小,数据最长10位,已经超出了int的范围,因此要用long long 转化进制,有可能还是超出范围,在二分搜索的时候还有溢出的可能,此时也看做大。代码如下:#includ...

2018-07-21 18:58:25 347

原创 PAT 1004

https://pintia.cn/problem-sets/994805342720868352/problems/994805521431773184看到这个题目,马上就想到了广搜。但是需要单独开一个数组,用来区分每个点属于哪一个层,同时记录每个层叶节点个数。下面是 bfs的:#include<iostream>#include<cstdio>#inc...

2018-07-21 14:15:50 237

原创 PAT3

https://pintia.cn/problem-sets/994805342720868352/problems/994805523835109376这个题目,是一个最短路的题目,但是又有一些不同,求的不是最短路,而是最短路的条数,以及在这些最短路上,点的权和最大的结果。注意这里有一个前提条件就是:每两个城市之间,路只有一条。代码如下:就是多开两个数组,记录这两个数值即可。 ...

2018-07-21 12:47:15 387

原创 what I see in ISCAS

第一个题目,很简单,但是我就是没想明白,后来被点了一下,就是stack每次存储的都是最后一次的(5 4)括号中的第一个数字,用于记录个数,还需要定义一个Now变量,每次遇到(就乘以后边的数,并将这个数据进栈,遇到)就除以之前进栈的数据。代码如下:#include<iostream>#include<cstdio>#include<stack>#includ...

2018-07-12 14:12:30 177

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除