WinddyAkoky-CSDN博客

原创 Q-learning

一、介绍Q-learning 算法本质上是在求解函数Q(s,a). 如下图，根据状态s和动作a, 得出在状态s下采取动作a会获得的未来的奖励，即Q(s,a)。然后根据Q(s,a)的值，决定下一步动作该如何选择。二、算法Q-learning 算法中我们通过获得Q(s,a)函数来寻找在某个状态下的最好的动作，使得最终获得的累计奖励最大其Q(s,a)的计算方法是利用贝尔曼方程如下图是常见...

2018-11-22 11:08:03 319

原创 Actr-Critc

一、介绍Actor-Critic 算法有两部分组成：actor 和 critic。其中 action 就是Policy Gradient 算法，critic 是Q-learning。所以实际上 actor-critic算法是Q-learning算法和policy gradient算法的结合。Actor Critic 算法能在有限维的输入和有限维的输出中起到比较好的效果。Actor 角色起到...

2018-11-22 11:07:35 697

一、介绍回顾以下以前 value-based的方法：在value-based方法中，他们都是去学习一个动作的价值函数，然后根据这个动作的价值函数作出下一步选择。以至于这个方法高度依赖动作价值函数，如果没有动作价值函数，也就不知道如何为下一步作出抉择。在本文中，我们提出一种新的想法来解决Reinforcement Learning 中的决策问题。即直接去训练这么一个策略，它能直接给出下一步动作是...

2018-11-22 11:06:30 290

原创 [强化学习-3] Devil 课程第二章解析+ 学生马尔可夫决策过程代码

马尔可夫决策过程（MDP）一：介绍马尔可夫决策过程是用来形式化地描述强化学习中的环境其中环境是完全可以观测的值得注意的是，大部分强化学习问题都可以看作 MDP 问题。简单地理解，MDP是用来描述环境的，且 agent 可以观察到环境的全部信息。也就是说是完全可以观测。所以 agent的状态会等于环境的状态，因此在MDP中会出现action这个概念。二：马尔可夫性质现在或未来的状...

2018-09-30 15:29:20 1819 3

原创 ModuleNotFoundError: No module named 'compiler'

一、报错原因：python3 废除了包 compiler二、解决方法：把下面代码粘贴到你的程序里import collectionsdef flatten(x): result = [] for el in x: if isinstance(x, collections.Iterable) and not isinstance(el, str): ...

2018-09-24 15:46:34 4114 3

原创 python 批量安装和卸载库/安装包

显示已经安装的包名及其版本pip freeze将已经安装的包名及其版本写入txt文件pip freeze > requirement.txtpip 批量安装包/库pip install -r requirement.txt或者你也可以批量卸载包pip uninstall -r requirement.txt...

2018-09-21 16:52:27 4221 1

原创阅读《SeedNet: Automatic Seed Generation with Deep Reinforcement Learning for Robust Interactive Segme》

一：介绍**这篇文章提出了一个基于强化学习的自动种子生成技术去解决交互分割问题。交互分割问题的主要难点之一是如何在减少人工参与的同时保持被提取物体的鲁棒性和连续性。目前大部分存在的算法都高度依赖与输入的分布。不同的人会有不同的输入，从而导致不同的结果。而本文提出的系统中，用户只需要在一开始的时候指定一个背景里的点和一个目标物体的点，剩下的都会自动生成.**对于本文，主要贡献有两...

2018-09-12 19:39:16 2523 3

原创 [强化学习-2] 机器人找金币例子

目的本文介绍一个简单的案例。目标如下：我们的机器人在上面的地图上行走，目的是要找到宝藏，如果进入骷髅头，游戏就失败。定义状态空间我们对地图上的小方格进行编号： 1 - 8 代码简单表示如下：self.states = [1,2,3,4,5,6,7,8] #状态空间同时定义终止状态：self.terminate_states = dict() #终...

2018-09-07 19:54:08 1907

原创 Gym 简单画图

首先，导入库文件（包括gym模块和gym中的渲染模块）import gymfrom gym.envs.classic_control import rendering我们生成一个类，该类继承 gym.Env. 同时，可以添加元数据，改变渲染环境时的参数class Test(gym.Env): # 如果你不想改参数，下面可以不用写 metadata = ...

2018-09-07 19:53:32 2365 3

原创 Python 学习笔记[1]: python 读取文件夹

import osfiler_path = './MPEG7-png'with root, dirs, files in os.walk(filer_path): print(root) print(dirs) print(files) for file in files: print(file)

2018-09-03 20:17:15 269

原创 Anaconda 笔记[1]: Intel MKL FATAL ERROR: Cannot load libmkl_avx2.so or libmkl_def.so.

Intel MKL FATAL ERROR: Cannot load libmkl_avx2.so or libmkl_def.so. 解决方法重新安装numpy包，参数 -f 是强制安装的意思conda install -f numpy

2018-09-03 20:08:52 642

原创安装GPU加速的tensorflow 卸载tensorflow

安装GPU加速的tensorflow 卸载tensorflow&nbsp;一：本次安装实验环境Ubuntu 16.04 + cuda9.0 + cudnn7.0 或 Ubuntu 16.04 + cuda8.0 + cudnn5.1什么是CUDA呢？简单的来讲它是为了实现GPU运算的平台。我们的tensorflow会调用cuda的接口，利用显卡帮助我们运算程序而CUDNN...

2018-08-08 20:15:28 12428 1

原创阅读《A2-RL: Aesthetics Aware Reinforcement Learning for Image Cropping Debang》

阅读《A2-RL: Aesthetics Aware Reinforcement Learning for Image Cropping Debang》一：文章的主要任务本文介绍的是如何用强化学习的方法对图片做美学剪裁如下图，Input是一张风景图，初始化是整张图片，然后经过多个action后，我们得到了最后的裁剪方案作为输出。二：相关的工作对于图片的裁剪，...

2018-08-07 10:13:43 1310 2

原创阅读《Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition》

一：本文的目的如题目所说的，本文的主要工作是提出一个深度逐步改进的强化学习方法来做基于骨架的动作识别。说白了，就是做基于骨架数据的动作识别。如上图所示，给定一个输入：vedio，然后最终目的是输入一个标签能判断这个视频中的模型在做什么动作。思路简单概括为： 1. 我们的输入是一段视频，视频中有多个帧。 2. 我们想用RL的算法来选择关键帧（本文是FDNet） 3. 再把选取...

2018-08-07 10:12:41 2087 6

原创 Pycharm安装并配置jupyter notebook

Pycharm安装并配置jupyter notebook一：安装命令jupyter： pip install jupyter如果缺少依赖，缺啥装啥二：运行 jupyter notebook首先，查看一下自己是否已经安装成功，在终端输入：jupyter notebook如果运行成功，结果如下：[I 09:03:15.177 NotebookApp] J...

2018-07-10 09:50:02 17987 7

原创 python 读取图片、显示和保存图片

python 读取图片、显示和保存图片matplotlibimport matplotlib.pyplot as plt # 显示图片import matplotlib.image as mpimg # 读取图片# 读取图片img = mpimg.imread('图片的路径')plt.imshow(img) #把图片画在画板上plt.show() # 显示...

2018-04-10 19:08:27 3581

原创 python学习笔记之可变参数【5】

可变参数我们先来看看俩个参数的函数形式：# 两个数相加def sum(num1, num2): return num1 + num2print sum(1,2)现在，假设不知道要传入参数的个数，只是想把传入的参数都累加起来，那么可以这样定义函数：def sum(numbers): total = 0 for i in numbers: ...

2018-04-09 21:26:36 119

原创 python学习笔记之函数【5】

定义函数格式: def 函数名( 参数 ): 可执行代码def print_my(x): print('windyy: %s' % x) return参数可有可无返回值可有可无.如果没有返回值,默认返回 None空函数. 如果想定义一个什么事都不做的函数,可以用 pass语句 def nop(): passpass语...

2018-04-09 20:53:18 149

原创 python学习笔记之dict和set【4】

dictPython内置了字典: dict支持,dict 全称dictionary,在其他语言也成为map, 使用见-值存储,具有极快的查找速度. 格式: {键:值}>>> d = {'winddy':99, 'selly':93, 'amy':98}而访问字典时,只需要键就能找到对应的值, 如输入d[‘winddy’],则会输入99. 如果k...

2018-04-09 20:51:51 151

原创 python学习笔记之条件和循环语句【3】

條件判斷格式: if 判斷語句 : 語句注意上面是沒有分號的. 編譯器根據縮進判斷語句是不是被包含在if語句裏面注意冒號不要漏掉!!! 只要判斷語句是非零数值、非空字符串、非空list等，就判断为True，否则为False。age = 3if age >= 18: print 'your age is', age...

2018-04-09 20:49:23 138

原创 python学习笔记之list和tuple【2】

list Python內置的一種數據類型是列表: list. list是一種有序的集合,可以隨時添加和刪除元素.>>> classmates = ['winddy','selly','marry']>>> classmates['winddy', 'selly', 'marry']變量 classmates 就是一個list, 用 l...

2018-04-09 20:48:03 171

原创 python学习笔记【1】

python 的字符和數字的轉化 ord() 和 chr()函數>>> ord('A')65>>> chr(65)'A'python 的格式化輸出 Python採用的格式化方式和C語言是一致的,用%實現,如:>>> 'Hello,%s' % 'world''Hello,world'>>> ...

2018-04-09 20:45:47 103

原创 PyChram 粘贴键不能用

打开setting –> Tools —> Vim Emulation 如图，把Handler那一栏改成IDE即可

2018-03-21 19:56:27 297

原创 ubuntu笔记【1】强制关闭程序或窗口或关闭进程

ubuntu系统强制关闭程序或窗口$ps -aux 查看所有运行的进程$kill -9 (PID) 杀死进程号为PID的进程$killall (program) killall 加上程序的名字，直接杀掉所有进程$pkill (program) pkill 加上程序的名字,方法killall类似$xkill xkill 是在桌面用的杀死图形界面的程序。比如当fi...

2018-03-07 00:18:21 3472

原创 [C++]C++使用类前必须先定义类，不能只是声明类类型

下面代码编译时会报错：error C2079: “p”使用未定义的 class“person”class person;int main(void){ person p; p.get_age(); return 0;}class person {public: int get_age() { return age; } std::string get_name()

2017-07-17 15:58:08 3349

原创 [算法导论]计数排序

计数排序假设 n 个输入元素中的每一个元素都是在 0 到 k 区间的一个整数，其中 k 为某个整数。当 k = O(n) 时，排序的运行时间为 Θ(n)基本思想：对于每一个输入元素 x ，确定小于 x 的元素个数。利用这一信息，就可以直接把 x 放在它在输出数组中的位置上了。伪算法：CountingSort( A , B, k ) let C[0..

2017-07-17 10:22:18 272

原创 [算法导论]堆排序

1: 如图所示，（二叉）堆是一个数组，它可以被看成一个近似的完全二叉树表示堆的数组A有两个属性：A.length 给出数组元素个数A.heap-size 表示有多少个堆元素存储在该数组中也就是说 A[1..length]可能都存放有数据，但只有A[1..A.heap-size]中存放的是堆的有效元素。这里 0 2. 树的根节点是A[i]，这样给定一个结点

2017-07-15 16:27:48 238

原创 [算法导论-分治策略]求最大子数组之各种解法及源代码实现

/*问题：已知数组 A = {2,4,-1,-5,3,-4,2,-6,4,1,2,2,4,-2,2};求：最小子数组和分析：一：分治法：把问题分解成若干个简单易解的小问题，最后再把小问题归并起来，找到我们原来要解决问题的解本问题中，我们把问题分解成两个规模尽量相等的子问题。 A[low...mid] 和 A[mid+1...high] 那最小的子数组

2017-07-12 13:46:10 623

组合数学答案全.zip

(美)Richard A.Brualdi 版的组合数学答案，1-8章都有，不过是英文版的。

2019-10-20

强化学习课程资料

这是devil 强化学习课程的ppt资料，为了方便，整理了一下

2018-09-30

Devil 强化学习资料带标签

Devil 的强化学习课程的学习资料，里面是叶强整理的知识点。

2018-09-30

MPEG7数据集（包含gif文件,png文件，jpg文件）

这是MPEG7的数据集文件（包含gif文件,png文件，jpg文件）

2018-09-12

matlab的画图工具包gramm

如题所示,这是matlab的仿R风格的画图工具包,里面带有教程.

2018-04-03

红黑树实现源码

关于红黑树的功能实现

2017-07-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Ubuntu装机必备

原创 Q-learning

原创 Actr-Critc

原创 Policy Gradient

原创 [强化学习-3] Devil 课程第二章解析+ 学生马尔可夫决策过程代码

原创 ModuleNotFoundError: No module named 'compiler'

原创 python 批量安装和卸载库/安装包

原创阅读《SeedNet: Automatic Seed Generation with Deep Reinforcement Learning for Robust Interactive Segme》

原创 [强化学习-2] 机器人找金币例子

原创 Gym 简单画图

原创 Python 学习笔记[1]: python 读取文件夹

原创 Anaconda 笔记[1]: Intel MKL FATAL ERROR: Cannot load libmkl_avx2.so or libmkl_def.so.

原创安装GPU加速的tensorflow 卸载tensorflow

原创阅读《A2-RL: Aesthetics Aware Reinforcement Learning for Image Cropping Debang》

原创阅读《Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition》

原创 Pycharm安装并配置jupyter notebook

原创 python 读取图片、显示和保存图片

原创 python学习笔记之可变参数【5】

原创 python学习笔记之函数【5】

原创 python学习笔记之dict和set【4】

原创 python学习笔记之条件和循环语句【3】

原创 python学习笔记之list和tuple【2】

原创 python学习笔记【1】

原创 PyChram 粘贴键不能用

原创 ubuntu笔记【1】强制关闭程序或窗口或关闭进程

原创 [C++]C++使用类前必须先定义类，不能只是声明类类型

原创 [算法导论]计数排序

原创 [算法导论]堆排序

原创 [算法导论-分治策略]求最大子数组之各种解法及源代码实现

组合数学答案全.zip

强化学习课程资料

Devil 强化学习资料带标签

MPEG7数据集（包含gif文件,png文件，jpg文件）

matlab的画图工具包gramm

红黑树实现源码

空空如也

组合数学答案全.zip

强化学习课程资料

Devil 强化学习资料 带标签

MPEG7数据集（包含gif文件,png文件，jpg文件）

matlab的画图工具包gramm

红黑树实现源码

空空如也

Devil 强化学习资料带标签