自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 What different between online algorithm and offline algorithm

An online algorithm processes the input only piece by piece and doesn't know about the actual input size at the beginning of the algorithm. (So MDP?) An offline algorithm on the other hand works o...

2018-11-05 12:43:15 331

原创 梯度下降法

https://www.jianshu.com/p/c7e642877b0e

2018-10-23 08:46:35 215

原创 强化学习导论笔记:多臂赌博机问题(初稿)

前言:接触强化学习最开始是参看的Sutton的本系列是参照Sutton的reinforcement learning an introduction这本书,刚开始读的时候感觉这本书晦涩难懂,非常不好理解。因此就找了几本中文的强化学习相关的书籍,阅读之后发现这些教材里很多东西都没讲清楚。折腾了一圈,最后还是决定仔细研读Sutton的这本教材。为了检验自己对于强化学习知识点的掌握情况,我就写了这个...

2018-07-04 22:19:35 771

原创 Q-learning简化过程

Q learning里的核心思想是如下公式:其中,第一个Q(S, A)是更新后的值,第二个Q(S, A)是Q表中值,a是指学习效率,r是奖励值。\gamma是折扣因子。第三个Q是指要选取Q表中的最大值。最后一个表示Q表中值,与第二个Q一样。现在通过书中的伪代码来展示Q-learning的过程:1. 初始化Q-Table:Q-table|S|*|A|的矩阵。其中,|S|代表了所...

2018-05-08 14:44:27 3212 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除