- 博客(66)
- 资源 (3)
- 收藏
- 关注
原创 每天一个RL基础理论(10)—Exploration in Bandits
在最简易的问题规模下,经典的探索与利用策略Upper Confidence Bound和Linear UCB在Bandits问题下的理论分析、推导、结果。为Tabular MDP的exploration问题做铺垫
2021-12-19 03:02:15 431
原创 每天一个RL基础理论(9)——Fitted Q-iteration
Fitted Q-iteration的理论分析,给出了value-based强化算法的性能上界
2021-12-14 22:21:33 1669
原创 每天一个RL基础理论(7)——总结篇
总结了经典强化算法Value Iteration+Policy Iteration的基础理论结果,即收敛性证明、收敛速度、计算复杂度、样本复杂度等
2021-12-02 16:02:57 538
原创 每天一个RL基础理论(6)——Sample Complexity(下)
Sample Complexity在unknown转移矩阵,使用VI算法的完整推导
2021-11-26 16:15:47 747
原创 每天一个RL基础理论(5)——Sample Complexity(中)
样本复杂度的完整分析——均匀交互假设下(generative model),使用VI算法得到一个near optimal的policy,sample complexity bound是多少?
2021-11-17 21:31:22 842
原创 每天一个RL基础理论(4)——Sample Complexity(上)
在经典的MDP setting中去分析一个Sample Complexity Bound,回答需要多少样本才能学习到near-optimal的policy这个问题。Sample complexity 上集
2021-11-10 21:55:53 759
原创 每天一个RL基础理论(3)——Computational Complexity
在infinite horizon discounted MDP的设定下,对deterministic & stationary的policy,给出两类经典算法value iteration以及policy iteration的计算复杂度
2021-11-08 21:49:00 585
原创 每天一个RL基础理论(2)——VI&PI
在infinite discounted MDP已知的情况下,关于如何找到最优策略的两个基础理论Value Iteration & Policy Iteration及其相关证明
2021-11-06 02:58:33 880
原创 每天一个RL基础理论(1)——Bellman Optimality
在infinite horizon discounted的MDP下,deterministic&stationary的optimal policy存在性证明,和Bellman Optimality的两个性质的证明
2021-11-03 02:17:48 599
原创 离线强化学习-4 DP-based方法
解决Offline RL中使用Dynamics Programming方法学习Q函数时遇到的问题。主要介绍策略约束、基于不确定性的两大类方法。
2021-05-08 20:25:58 582
原创 离线强化学习-3 对偶性的应用
将对偶性理论用在Offline RL中,比如Linear Program Duality、Lagrange Duality、Fenchel Duality
2021-05-05 21:04:30 418 5
原创 离线强化学习-2重要性采样和Duality介绍(劝退版)
详解基于重要性采样和Convex Duality的Offline RL两大类方法,并简洁直观地阐述了共轭与对偶性。
2021-05-03 17:57:13 910 3
原创 机器学习中的外推问题(OOD上,硬核慎点)
Out of Distribution Generalization in Machine Learning。对机器学习外推的理论解析文章,侧重直觉分析。
2021-04-22 00:26:39 7288 3
原创 科研工具流1——Zotero管理文献
Mac + Safari + Zotero管理文献。总结了一下Zotero的初步介绍,以及具体工作流。具体配置操作可参见青柠学术
2021-03-06 17:17:43 3876 1
原创 TuRBO(2019NIPS)—贝叶斯优化的应用
贝叶斯优化的一个应用例子讲解,来自一篇2019NIPS的论文Scalable Global Optimization via Local Bayesian Optimization ,简记TuRBO
2021-03-03 21:42:03 1231
原创 贝叶斯优化(深度剖析)
一文超详细地贝叶斯优化仔细剖开,概念、公式、理论与应用直通车。下一篇应用2019NIPS的一篇论文,作为贝叶斯优化的应用解读
2021-03-02 16:28:05 6172 1
原创 Paper-10 精读MetaMimic (2019 DeepMind)
将Meta-Learning引入到DeepMImic中,文章值得阅读的应该是Related Work这部分了= =
2020-06-23 16:58:15 329
原创 Paper-9 精读VAIL (2019 ICLR)
与之前精读DeepMimic、GAIL、GCL、AIRL进行了对比,提出了一种利用Mutual Information 对GAN进行正则化的方法,并在IL、IRL的背景下提供了一定的理论分析与充足实验验证。
2020-06-20 23:37:54 856
原创 Paper-8 泛读 DeepMimic (2018 ACL)
具体介绍了DeepMimic,比较经典的Paper,主要是Imitation Objective与Task Objective结合的Reward,建模成RL问题。
2020-06-17 18:53:27 542
原创 Paper-7 精读AIRL Learn Robust Reward (2018 ICLR)
与前面的Paper,GAIL、GCL、Inverse RL进行对比的较为前沿的工作。Learning Robust Rwards With Adversarial Inverse RL
2020-06-15 22:24:17 1466
原创 Paper-6 精读 Deep Visuomotor Policies (2016 JMLR)
超级详细地解读一篇2016 JMLR的期刊文章:Deep Visuomotor Policies。涉及到Guided Policy Search、Trajectory Optimization以及Policy Supervision,最后是一个关于BADMM的大框架。
2020-06-09 14:52:22 879 1
原创 Paper-5 总结 GAN-IRL-Energy Model之间的联系 2016年
一篇总结性的Paper,涉及到精读过的Paper:Generative Adversarial Imitation Learning(GAIL)、Guided Cost Learning、Inverse RL与GAN的联系
2020-06-06 16:34:06 751
原创 Paper-4 精读 GCL(2016 ICML)
精读2016 ICML Chelsea Finn的Guided Cost Learning,与GAIL有异曲同工之妙,都有对抗思想的渗透。
2020-06-05 21:44:05 1325 2
原创 Paper-3 精读 Learn NN Policies with GPS under Unknown Dynamics(2014 NIPS)
精读Sergey Levine 2014 NIPS的的Paper:Learning Neural Network Policies with Guided Policy Search under Unknown Dynamics。将GPS的Setting从Known Dynamics变成Unknown Dynamics
2020-06-05 16:33:10 369 3
原创 OpenAI Gym--Classical Control 环境详解
Gym中Classic Control的环境详细信息以及gym的基本使用
2020-05-31 22:42:17 3113 1
原创 Paper-1 精读GAIL 2016 NIPS
Generative Adversarial Imitation Learning 2016 NIPS Paper精读,结合GAN思想进行指导的Imitation Learning
2020-05-31 16:30:25 719
matlab求解最优化线性规划问题代码以及思维导图
2018-03-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人