芷若初荨-CSDN博客

原创强化学习课程学习（8）——基于连续动作空间上的方法求解RL

策略梯度提供了和DQN之类的方法不同的新思路，但是我们上面的蒙特卡罗策略梯度reinforce算法却并不完美。由于是蒙特卡罗法，我们需要完全的序列样本才能做算法迭代，同时蒙特卡罗法使用收获的期望来计算状态价值，会导致行为有较多的变异性，我们的参数更新的方向很可能不是策略梯度的最优方向。这时可以考虑结合value-based强化学习方法来解决——AC算法Actor-CriticPolicy Based+Value Based结合的策略梯度方法Actor-Critic从名字上看包括两部分，演员(Actor

2020-06-22 16:33:44 2154 2

原创强化学习课程学习（7）——基于策略梯度方法求解RL

在前面讲到的DQN系列强化学习算法中，我们主要对价值函数进行了近似表示，基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用，但是Value Based强化学习方法也有很多局限性，因此在另一些场景下我们需要其他的方法，比如策略梯度(Policy Gradient)、Actor-Critic、Asynchronous Advantage Actor-critic(以下简称A3C)等。整体来看下强化学习的分类：Value Based强化学习方法存在很多不足之处，主要体现以下几

2020-06-22 16:24:41 799

原创强化学习课程学习（6）——基于深度学习方法求解RL

在之前讲到了强化学习求解方法，无论是动态规划DP，蒙特卡罗方法MC，还是时序差分TD，使用的状态都是离散的有限个状态集合SSS。此时问题的规模比较小，比较容易求解。但是假如我们遇到复杂的状态集合呢？甚至很多时候，状态是连续的，那么就算离散化后，集合也很大，此时我们的传统方法，比如Q-Learning，根本无法在内存中维护这么大的一张Q表。对此，随着深度学习地方法的发展兴起，基于深度学习的算法模型开始流行起来——Deep Q-learning、Nature DQN、Double DQN、Prioritized

2020-06-22 16:22:50 720

原创强化学习课程学习（5）——基于Q表格的方式求解RL之Model-Free类型的方法

在上一章节主要是阐述了基于模型的方法来求解强化学习的预测问题和控制问题，但是由于动态规划法需要在每一次回溯更新某一个状态的价值时，回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候，我们连环境的状态转化模型PPP都无法知道，这时动态规划法根本没法使用。这时候我们如何求解强化学习问题呢？由此，model-free类型的方法就产生了，其中常见的方法是：蒙特卡罗(Monte-Calo, MC)、ARSAR、Q-learning`.蒙特卡罗（MC）求解蒙特卡洛法是一种通过采样近似求解问题

2020-06-22 16:15:18 576

原创强化学习课程学习（4）——基于Q表格的方式求解RL之Model-Based类型的方法

经过初始了解强化学习的基本要素后，单单地凭借着这些要素还是无法构建强化学习模型来帮助我们解决实际问题，那么最初地模型是基于Q表格的方式来解决问题，常见的模型可以分成model-based和model-free两大类别，model-based常见的有MDP、DP;model-free常见的有MC、RASRA、Q-learning。在本小章主要是阐述Model-based类型的常见方法。基于Q表格的算法的思维导图马尔可夫决策过程求解有了这些基本要素，仍旧无法构建强化学习模型来帮助我们解决实际问题，在此

2020-06-22 16:13:03 822

原创强化学习课程学习（3）——初识Reinforcement Learning

在整理一些相关的数学基础知识后，接下来就让我们来和Reinforcement Learning来个第一次的约会????????吧！个人觉得，在学习一个新知识的过程中，一般都会是What->How->Why的思路去认识以及理解这个新知识，那么下面就按照这个思路开始描述强化学习门技术????‍????——什么是强化学习？强化学习（英语：Reinforcement Learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。核心思想：智能体agent在

2020-06-17 11:14:48 1462

原创强化学习课程学习（2）——必备数学基础集锦

在了解了深度学习的基本理论以后，可以开始不断的去深入了解背后的原理是什么。为什么图片能被计算机读取？为什么我们可以用CNN对成千上万中图片进行分类，这背后的原理是什么？在了解原理之前，因为无论是深度学习还是机器学习，背后都是有一些数学原理和公式推导的，所以掌握必备的数学知识必不可少，在加入百度AI Studio开展的强化学习的课程的过程中，百度大佬提供了这些以后需要用到的数学基础知识，正好罗列收藏整理下，以方便以后自己学习过程中需要的时候可以查看——数学基础知识数据科学需要一定的数学基础，但仅仅做应..

2020-06-17 10:57:32 3542 1

原创强化学习课程学习（1）——深度学习前期回顾

在实习的过程中给，碰到有个项目是有关医疗行业中某种疾病的预测，正好需要加补点强化学习的相关基础以及知识，经过朋友推荐，考虑并加入了百度AI Studio开展的强化学习课程，以便于提升自己的知识面，下面是由大度大佬提供的学习资料——一、深度学习的发展历程1.1 Turing Testing (图灵测试)图灵测试是人工智能是否真正能够成功的一个标准，“计算机科学之父”、“人工智能之父”英国数学家图灵在1950年的论文《机器会思考吗》中提出了图灵测试的概念。即把一个人和一台计算机分别放在两个隔离的房间中，.

2020-06-17 10:51:25 1454

Springer和IEEE等会议论文排版格式.zip

AdvancesinIntelligentSystemsandComputing-1.zip

空空如也