ArtistA-CSDN博客

原创 GPS(guided policy search)中BADMM关键公式的一些理解

#1.问题陈述在状态空间XX中存在路径l(τ)l(\tau)，l(xt,ut)l(x_t,u_t)是其策略。需要优化这个路径使得动作在状态空间中的某种收益J(p(τ))J(p(\tau))最大化。我们可以通过神经网络或者LQR控制器等方法将控制策略参数化，从而这个问题可以转化为一个参数优化问题。但是在实际操作中，我们一般不可能知道系统的全状态xx，而只知道系统的某些观测状态oo，全状态可以由

2017-04-09 17:35:02 2716

原创 google facenet+ROS实现人脸识别

faceNet 实战解析facenet是google在2015年CVPR上发布的一种用于人脸识别和聚类的新架构，其主要思想是想寻求一种表示，将人脸embedding到一个128维度的空间，并且通过计算各个空间点之间的欧式距离距可以完美反应不同人脸之间的相似度！在github上我们找到了一个tensorflow实现的facenet例子，我们主要就这个例子来说明如何构建一个facenet并将其用于一个人

2017-04-09 17:32:14 7448 2

原创 tensorflow minist数据集分类笔记

2017-04-09 17:29:47 2035

翻译 reinforcement learing for visual object detection - 阅读笔记

2016CVPR的文章，从结构上来看和一般的强化学习似乎有一些不一样。在给定一张图像的情况下（目标区域蕴含在当前图像中）我们需要从图像的子区块中找到和目标区块最接近的子区块。图像的子区块可以使用简单的bounding-box，也可以使用现在比较新的建议生成方法（我们仅对bounding-box的情况进行讨论，子区块的选择方式并不影响算法效果）reinforcement learing for

2016-11-10 17:11:45 1739

原创一个基于tensorflow的finetune整体流程代码

本文主要是https://github.com/joelthchao/tensorflow-finetune-flickr-style代码的解释，用于阐述如何构建网络，载入数据以及微调一个已有数据的网络。1.整体结构工程主要有5个python文件构成，其中：finetune.py 为工程主体，调用不同模块完成finetune过程model.py 构架所使用的网络network.py 详细定义网

2016-10-19 15:42:22 21444 4

原创基于Wishart分布的Bayesian检验

首先，Wiahsrt分布是用来刻画协方差矩阵统计量概率分布的一个分布，记作W(Σ,d,n)W(\Sigma,d,n)其中n代表构成协方差矩阵的样本数目，d代表样本维度，Σ\Sigma代表方差。假设有总体A1,A2，...,AGA_1,A_2，...,A_G其中每一个总体都符合P维的正态分布，即有： Ai∼N(μi,Σi)A_i\sim N(\mu _i,\Sigma _i) 那么，对于其中某个总

2016-09-18 10:21:02 5699

原创 AlphaGo解析

本文基于Google在Nature上关于AlphaGo的文章解读以及Git上对于AlphaGo的复现项目学习综合而来，主要探寻AlphaGo的学习技巧以及探寻其在机器人应用方面的思路和启事。1.设计思路deep Q-learing的问题【Mnih V, Kavukcuoglu K, Silver D, et al. Playing atari with deep reinforcement lear

2016-08-08 17:13:55 4188

原创 tensorflow图像分类实战解析（下）

global_step = tf.Variable(0, name='global_step', trainable=False) train_op = optimizer.minimize(loss, global_step=global_step) return train_op设定最小化目标以及最大步长def evaluation(logits, labels): correct

2016-07-18 11:21:18 9189 4

原创 tensorflow 图像分类实战解析（上）

之前一直是想解决从规定的文件名列表里面读取图片并且放入TF训练的问题，stackoverflow上面找到了这个答案:http://stackoverflow.com/questions/37450620/tensorflow-image-classification，虽然并非是我最想达到的效果，但毕竟是一个有用的蓝本，在之后以这个为基础再进行改进吧，所以想把这一段代码深入理解一下。from __fu

2016-07-18 11:20:52 27053 2

翻译 Gflags使用

google用于命令行参数解析的一个库，其主要致力于解决麻烦的参数解析问题。声明参数参数的声明很简单，形如#include <gflags/gflags.h>DEFINE_bool(big_menu, true, "Include 'advanced' options in the menu listing");DEFINE_string(languages, "english,french,ge

2016-07-06 21:41:21 1591

原创强化学习ROS实战-RLagent解析（下）

2.深入了解Agent2.1.agent整体架构由于统一接口的需要，ROS端的agent接口全部可以由agent.cpp提供交互，其中提供了可以由命令行参数修改的各种引擎配置。其自带引擎有：DiscretizationAgentQLearnerModelBasedAgentSavedPolicyDynaSarsa接口提供了两个publisher,分别为out_rl_action 发布

2016-06-05 22:48:35 2829 1

原创强化学习ROS实战-RLagent解析（上）

refornenced learing理论的东西看着总是让人云里雾里没有实感，别担心，看看代码就懂了。让我们来看一下ROS里面是如何实现强化学习算法的1.基础准备首先，让我们来了解下ROS-RL-agent的基本结构及其定义。1.1.ROS-RL-agentROS 的RL引擎提供了一系列强化学习的引擎和环境。代码可以在https://github.com/toddhester/rl-texp

2016-06-05 22:47:47 6844 1

原创强化学习-无模型控制（下）

2.在线策略学习2.1.ε\varepsilon -蒙特卡洛控制有了上一节的引导，我们现在可以提出一个基于ε\varepsilon的蒙特卡洛控制算法，其流程如下：随机选择一个策略π\pi依据该策略执行一个状态周期，并估算各个状态的价值使用ε\varepsilon贪婪探索进行优化2.1.1.sarsa有了之前蒙特卡洛控制的经验，很容易想到，把其中蒙特卡洛预测的部分替换成时间差分，那不就可以完

2016-06-05 20:01:23 3569

原创强化学习-无模型控制（上）

之前的一章了解到了如何在无模型的环境下进行各个状态转移概率以及价值函数的估计。但是仍留有一个疑问，在有模型为前提的动态规划算法中，各个状态的转移概率已知，从而可以通过尝试策略组合找出最优策略。但是实际上我们的蒙特卡洛方法和时间差分方法都只估计除了转移概率和价值函数，并没有对于策略的优化及其方法做出更多的考虑。这也就是我们需要深入讨论的问题——如何优化既有的控制策略。粗略来说，基于无模型控制的控制策略

2016-06-05 20:00:38 4378

翻译基于Theano的多层神经网络及其实现(三)（实现代码）

附录：实现代码# -*- coding:utf-8 -*- -"""This tutorial introduces the multilayer perceptron using Theano. A multilayer perceptron is a logistic regressor whereinstead of feeding the input to the logistic r

2016-06-03 19:45:54 1528

原创基于Theano的多层神经网络及其实现(二)

4.多层神经网络优化的一些技巧在多层神经网络的实战中，很多参数看上去都是由设计人员直观的判断而得到的，例如网络的层数以及各个结点的数量。而诸如权值的初始化，下降梯度的选择，看似不论选择什么样的数值，总会迎来收敛（其区别仅在于收敛速度的快慢）。其实不然，多层神经网络由于其网络的复杂性，其问题往往会变成一个非凸的高维优化问题，这样，在构建高层神经网络的时候就必须注意到收敛速度以及最优解是否会出现的问题。

2016-06-03 19:45:03 1632 1

原创基于Theano的多层神经网络及其实现(一)

前言本文讨论了多层神经网络中的优化技巧及其theano实现，以theano官网中关于多层神经网络的教程为蓝本，并补充作者对于优化算法的理解，是对多层神经网络及其优化技巧相关资料进行的一次整合和报告。1.Theano简介Theano是一个允许用户定义、优化并且评价数学表达式的python函数库，其在多维变量的情况下依然可以保持很高的效率和处理能力。基于cupy的GPU拓展使其拥有在GPU上并行处理算式

2016-06-03 19:43:42 3250

原创强化学习基本方法(三)

3.2.蒙特卡洛方法在之前已经了解在所有信息我们都知晓的情况下，该如何估计和优化目标。但是，在实际情况中，我们没有办法事前就知道所有事件的状态将其转义概率的。我们最多只能在每一次的实验之中观察并且总结经验。蒙特卡洛方法就是基于这样的思路而进行的。首先，我们必须做一个限定，由于我们没有能力处理无限的序列，所以我们假设蒙特卡洛方法所处理的状态序列总会在有限步之后回归到一个（或者几个）吸收状态（状态不

2016-06-03 19:39:48 5667 1

原创强化学习基本方法(二)

2.2.状态-动作收益评价函数之前的讨论里面只提到了状态的转化，然而实际情况可能更加复杂，第一：应用在状态上的不同动作其价值本来就是不同的，这也值得我们加入考虑的范围。比如花枯萎的时候，我得去挑水来浇花，这时候我要付出劳动力的，这个动作的收益可以设置为-100，我也可以选择不管，虽然花会死，但是“不管”这个动作的收益可是0，要是花不怎么值钱，我还是任由它死掉算了嘿嘿嘿。第二：不同的动作也会影响状态转

2016-06-03 19:37:16 2204

原创强化学习基本方法(一)

1.基本概念1.1.强化学习是什么在机器学习领域一般将机器学习划分为三大类型：有监督学习，无监督学习和强化学习。有监督学习和无监督学习都主要是为了解决分类问题，而强化学习比较特殊，强化学习的目的是为了研究策略，比如让机器人自主的学会如何把花养好，如何在一个未知环境进行探索等。强化学习的核心问题在于通过研究各种不同策略的价值并给予评价，来自主选择最优策略。策略，即是决策层对于不同的状态所作出的不同

2016-06-03 19:35:23 6251

原创粒子滤波与重要性采样

最近又复习粒子滤波，感觉实际代码和推导总是有那么一些差距那一理解，主要是好好的分布为什么一转就变成特征似然程度了。这个东西让我们理一遍之前理解粒子的思想可能是有一些问题的，对于一个未知分布来说的话，我们想要知道这个分布的期望，好，现在我们均匀的去撒粒子吧，其实蒙特卡洛方法来说，我们只要对大量的粒子求平均就可以知道我们想要分布的期望了。但是在粒子滤波的问题里面，我们偏偏对每一个粒子反馈的情报加上了一个

2016-06-02 22:52:48 12216 3

原创信号的频率估计(一) 最小二乘法

引子首先我们来讨论这样一个问题，给定正弦信号sin3tsin3t这样，在t=[0,1,2,...]t=[0,1,2,...]我们就可以得到一个序列[sin0,sin3,sin6,...][sin0,sin3,sin6,...]也就是[0,0.14,−0.27,...][0,0.14, -0.27,...]这样一个序列。现在，提问，我们已知这样一个序列的时候，如何反推它的频率。在没有噪声且的情况下

2016-04-21 16:16:20 11980 4

翻译 ROS摄像机的标定

本文主要为ROS camera_calibration 单目相机标定教程的翻译原文：http://wiki.ros.org/camera_calibration/Tutorials/MonocularCalibration 仅供英文苦手的同学参考使用1.准备工作首先，请在这里下载标定板。教程中使用的是8X6，边长为108mm的棋盘标定板。由于标定过程使用的是棋盘内部的角点进行，所以实际上我们使

2016-04-11 21:06:07 10520 2

翻译射影几何基础（一）

前言这是关于计算机视觉中的多视图几何学的一篇学习记录,在这本书第一次接触到射影几何学，这是和之前所接触的解析几何、古希腊传承的纯粹几何不同，射影几何可以说是链接着各个学科的桥梁，有着惊人的对称性和美一.R2R^2空间内的直线我们从熟悉的解析几何引入今天的话题，一条R2R^2平面的直线方程为ax+by+c=0ax+by+c=0，实际上，决定一条唯一直线的根本就在于a、b、ca、b、c三个的取值，我们把

2016-04-10 15:21:01 5631

原创序列自相关矩阵的计算和分析

序列自相关矩阵的计算和分析这几天在搞DSP的时候遇到的一些问题，稍微整理了一下在下文中，你将会看到：平稳过程到底有什么意义、随机信号处理是如何与固定信号分析联系起来的、自相关函数的定义、自相关矩阵的意义和计算、自相关矩阵如何用于噪声白化平稳过程平稳过程是现代数字信号处理的一个大问题它的定义是: 统计特性不随时间推移而改变的随机过程在严格的定义中，它需要随机过程的各阶矩都保持一个稳定的值，

2016-04-08 16:49:42 28388 6

原创 CUDA7.5+PCL1.8编译教程

本教程是搭建PCL1.8+opencv3.0+ROS+CUDA7.5开发环境的一部分其余教程会在后续给出安装CUDA 7.5很简单到CUDA官网下载对应操作系统版本的CUDA安装包就可以了TIP：实测在WINDOWS环境下面OpenCV似乎只支持CUDA5.5版本(这个问题尝试过配置CMAKE变量修复但是失败了)但是在LINUX下CUDA7.5版本和CV3.1也没有出

2016-03-15 18:31:41 5657 2

原创 OpenCV3.0基本类型初探（三）MAT初探

在研究Mat之前，我们先来看下CV提供的一些小型Mat实现 MatxMatx定义于matx.hpp中继承关系如图Matx 用于表述规模较小的确定大小的矩阵，在模板定义的时候就确定了矩阵的规模，其定义如下：template class Matx数据存储实体如下： _Tp val[m*n]; //虽然没有动态分配内存的灵活性，Matx对于小型的矩阵却不失为一种

2015-09-28 13:08:10 2895

原创 OpenCV3.0基本类型初探（二）

Point_ point是CV中最基本的类型，其表示一个单个的点，文件中声明如下templatetypename _Tp> class CV_EXPORTS Point_ { public: typedef _Tp value_type; // various constructors Point_(); Point_(_Tp _

2015-09-25 08:58:11 2656

原创 OpenCV3.0基本类型初探（一）

本篇主要讲述了CV中基本数据类型的定义以及一些模板的初步使用技巧，对于CV所支持数据类型的特性和操作讨论将放在下一章，如果对这些不感兴趣的同学可以跳过这章，不会影响阅读 CV的基本数据类型都在tyoes.hpp中进行声明其和其他文件的结构关系大概是这样的（箭头指向表示包含关系）可以看到types文件是CV世界和C++其他文件在组织结构上的唯一桥梁为什么这样设

2015-09-24 18:34:08 2602

AliceArtwork