「已注销」-CSDN博客

原创强化学习导论(Reinforcement Learning: An Introduction)读书笔记(二)：多臂赌博机(Multi-arm Bandits)

研究困难的问题之前先要解决简单的问题，本章以多臂赌博机作为问题对象。多臂赌博机是一类非常简单的问题，它只包含一种情景，但可以说明强化学习中的一些基本方法。1.多臂赌博机多臂赌博机是指一类问题，这类问题重复的从 kk 个行为(action)中选择一个，并获得一个奖励(reward)，一次选择的时间周期称为一个时间步(time-step)。当选择并执行完一个行为后，得到一个奖励，我们称奖励的期望为这次

2017-01-14 22:16:07 6372 10

原创强化学习导论(Reinforcement Learning: An Introduction)读书笔记(一)：强化学习介绍

因为课题需要研究强化学习的内容，因此开始读这方面的书，Reinforcement Learning: An Introduction（Richard S. Sutton and Andrew G.Barto）第二版作为主要学习的资料，因为英语读起来不仅速度慢，而且理解的也没那么深入，因此为了记录学到的知识，并加深理解，同时也抱着分享的态度，开始写此系列的博客。首先从第一章开始，第一章主要是对强

2017-01-14 12:43:47 11792

转载凸壳与线性可分

本篇博客是对《统计学习方法》中习题2.3的证明。

2016-08-15 14:14:22 8489 7

原创拉格朗日对偶性

在支持向量机中，需要用拉格朗日对偶性将原始问题转换成对偶问题，解得对偶问题的解从而得到原始问题的解。在此简单介绍拉格朗日对偶性的基本原理和方法。原始问题假设f(x)f(x)，ci(x)c_{i}(x)，hj(x)h_{j}(x) 是定义在Rn\textbf{R}^n上的连续可微函数。考虑约束最优化问题 minx∈Rnf(x)s.t.ci(x)hj(x)≤0,i=1,2,⋯,k=0,j=1

2016-08-09 11:01:22 951 1