自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(60)
  • 资源 (3)
  • 收藏
  • 关注

原创 使用cv2.applyColorMap报错

需要把image转为255以及uint8,然后再转回去即可。 real_image = cv2.cvtColor(real_image,cv2.COLOR_GRAY2RGB) real_image = cv2.resize(real_image,(256,256)) real_image *= 255 real_image = real_image.astype(np.uint8) real_image = cv2.appl

2022-01-12 19:52:26 2151

原创 (一)逐步搭建机器人(机械臂)强化学习环境 Pybullet + Gym + Stable Baselines3

本文代码可在https://github.com/YijiongLin中进行下载。(请点赞支持!)一、搭建基于pybullet的gym环境1.1 基本文件结构My_Robot_Gym/ setup.py __init__.py (for register) my_robot_gym/ assets/ (for storing robot model, etc.) robo

2021-06-24 23:59:45 4057 7

原创 最全:在Ubuntu 18安装Nvidia Driver, Cuda 10.2, Pytorch及一些疑问的解答和讨论

由于实验室的项目需要运用到Ubuntu 18和Cuda 10.2版本,只能放弃之前使用的配置。本篇博文主要记录本人配置Ubuntu 18, Nvidia Driver, Cuda 10.2, Pytorch的过程及一些疑问的解答,抛砖引玉,欢迎客官留下意见。0. 安装前为了后面顺利进行,确保系统不存在Nvidia Driver,Cuda相关文件。sudo apt-get purge nvidia*sudo apt-get autoremovesudo apt --purge re.

2021-05-15 03:39:03 616 1

原创 在python virtualenv中使用matlab engine (Ubuntu 18.04)

本文讲述如何在python virtualenv中使用matlab engine。1. 在ubuntu 18.04上安装matlab可根据以下链接的指示进行安装(官方正版),其他版本请自行搜索下载。Install Products Using Internet Connection2. 创建virtual env确保系统安装了python3-dev$ sudo apt-get install python3-dev安装python virtual env$ s..

2021-05-04 03:29:26 299

转载 Ubuntu安装划词翻译软件Goldendict 单词翻译 句子翻译

有道词典长期未更新,由于某些模块不支持的问题已经无法在Ubuntu18.04中使用了。现在介绍另一款强大的翻译软件——Goldendict。1.安装:sudo apt-get install goldendict2.配置词典源打开Goldendict -> 编辑 -> 词典 -> 词典来源 -> 网站,添加有道词典源:http://dict.youdao.com/search?q=%GDWORD%&ue=utf8 添加海词词典源:http...

2021-01-05 03:05:41 3517 2

转载 机器人学领域的顶级期刊总结

本文转载自:https://www.sohu.com/a/116061841_470013,如有侵权请告知,立即删除摘要此前有不少博客总结了机器人领域的核心期刊 [1][2][3],本文结合身边大牛投稿经验和JCR排名奉上最新版的总结。不足之处请指正并联系【闻博全球博士项目分享】,我们会根据您的来信更新本篇文章,希望本篇文章能够让机器人领域的学者对这些期刊如数家珍。▲The Int...

2020-02-29 23:17:04 11784

原创 论文笔记: Large-Scale Study of Curiosity-Driven Learning

一、总结1、这里的large-scale是指从不同方面来分析curiosity method的效果:利用什么作为intrinsic reward: dynamic error (prediction error), prediction uncertainty, improvement of a forward dynamics model. 利用什么作为feature encoder...

2019-10-02 12:20:04 837

原创 Ubuntu 16 create new user account

1. ubuntu怎么切换到root用户,切换到root账号方法https://jingyan.baidu.com/article/fd8044fa1e74035031137ae0.html2. Create a new user accounthttps://blog.csdn.net/taolusi/article/details/813040573. Give the aut...

2019-08-16 09:25:42 500

原创 配置NeurIPS 2019 竞赛环境

1. 直接按照官网进行:https://github.com/GOAL-Robots/REALCompetitionStartingKit2.本台电脑已经安装过gym,详细安装gym的方法可以参考以下链接https://blog.csdn.net/linyijiong/article/details/843822793.第一个问题:安装不了pyopengl解决方法1:单独运行...

2019-07-17 14:27:57 347

原创 为什么Q learning,DQN,DPG,DDPG不需要importance sampling?

最近有同学问我为什么Qlearning,DQN,DDPG等off policy的算法不需要importance sampling。我看了一下网上的资料很少,仅有的资料虽然解释得还算清晰,但是基本上也是只有懂的人才看得懂,不懂的人还是得消化很久。从ADEPT(Analogy / Diagram / Example / Plain / Technical Definition)的学习规律出发,本人...

2019-07-11 19:52:30 1975 2

翻译 Batch Normalization

# Batch Normalization优点:1. 减少训练时间,使得更深的网络可训练: * 由于更小的 internal covariate shift,可以使用更大的learning rate; * 缓解梯度消失问题(对于sigmoid,tanh等).2. 对于数据的初始化敏感度更低.3. 减少overfitting的可能(因此也不需要太多的regularizati...

2019-06-26 21:31:04 104

原创 DELL 暗夜精灵无法进入BIOS系统

1.【1】开始菜单-“设置”。【2】单击“更新和安全”。【3】单击右边列表项中的“恢复”。【4】单击左侧的“立即重启”,这时电脑就会立即重启,所以单击前请保存好未保存文件。【5】当电脑重启之后会进入如下界面,单击”疑难解答“。【6】当出现一下界面,单击”启动设置“。【7】当出现以下界面,单击 ”高级选项“。【8】单击 ”重启“,当电脑再次重启就能进入BIOS界面了。...

2019-06-24 10:04:53 3769

原创 彻底卸载Ubuntu,包括其引导boot

1. 首先查看自己win系统的启动类型按Win+R打开运行,输入msinfo32,回车查看系统信息。在BIOS模式中如果显示“传统”,表示系统启动方式为Legacy BIOS;如果为UEFI,则显示UEFI。2. 如果是UEFI, 可以下载以下软件进行卸载。https://easyuefi.en.softonic.com/3. 重开机当出现grab的时候只需要进入...

2019-06-23 11:00:23 25175 1

转载 what is docker?

Dockerfile is used to create docker imageDocker Hub: Online cloud repositorydocker container is the instance of the docker image1. If you stop the docker, this problem shows upyou ca...

2019-06-21 17:11:03 219

原创 ROS Baxter update URDF in runtime 更新URDF模型

1. Check the computer and robot connectionping + ID.local to check the connection condition(search google **rethink robot ssh**)http://sdk.rethinkrobotics.com/wiki/SSH#Start.2FStop_the_robot_so...

2019-05-17 09:38:11 259

转载 一文看懂常用的梯度下降算法

概述梯度下降算法(Gradient Descent Optimization)是神经网络模型训练最常用的优化算法。对于深度学习模型,基本都是采用梯度下降算法来进行优化训练的。梯度下降算法背后的原理:目标函数关于参数的梯度将是目标函数上升最快的方向。对于最小化优化问题,只需要将参数沿着梯度相反的方向前进一个步长,就可以实现目标函数的下降。这个步长又称为学习速率。参数更新公式如下:...

2019-05-10 10:41:27 745

转载 机器人这几十年到底研究了什么?进展如何?未来发展如何?(网言大杂烩)

“感觉没有太大进展”是因为提问者的评判角度不同,这里做一些分析:首先是对机器人的定义,不是只有像人一样的外观,像人一样智慧的机器才能叫“机器人”,凡是具备感知(输入)、决策(处理)、执行(输出)三部分的机器,都可以称之为“机器人”。 其次是对进展的评价,机器人技术领域有很多进展是基础性的,并不直接反映在最终能展现出来的机器人身上,机器人本身是技术综合程度非常高的“物种”,不能因为这个“物种”...

2019-05-06 09:13:15 325

原创 Policy Gradient 学习笔记

1.策略梯度的优化:,最后这个Vt,有的书写的是Gt,还有就是每一个trajectory,可以用几次进行训练。有的地方说是每一个si,ai,R(i+1),都可以进行一次参数的更新,有的则说是整个trajectory只能用一次,R就是整个的Gt2.策略梯度定理是怎么推导成这个参数增量更新的式子?答:1.1。1在Sutton书里面...

2019-05-06 09:12:58 128

转载 库文件(动、静态)/ 依赖项

构建目标可以采用多种形式,但通常它们代表两种可能性之一: 可执行目标executable- 我们可以运行的程序 (包含main函数) 库目标library - 编译和/或运行时(取决于动态还是静态)可由executable使用的库(不含main函数) 库在windows和Linux下都存在着大量的库,库是什么呢?本质上来说,库时一种可执行代码的二进制形式,可以被操...

2019-05-06 09:12:31 283

原创 安装UBUNTU

1. 安装系统https://www.jianshu.com/p/00ddf43a4f16https://blog.csdn.net/flyyufenfei/article/details/79187656注意“可以用efi作为启动的话,就不用boot了。2. 截图快捷键 Alt + a (设置好下面的代码后再按一次 Alt + a)3. 隐藏terminal的...

2019-05-06 09:12:08 207

原创 Ubuntu下安装虚拟机、Win7和office软件

1. 根据以下网站安装虚拟机https://blog.csdn.net/jdliyao/article/details/806118132.进行到这一步时,将你的Win7 iso文件拉到ubuntu本地。然后根据上述网站提示进行Win7的安装3. 安装过程中,遇到提示密钥输入,跳过即可4. 安装好后,weil,点击虚拟器工具栏中的Device,然后点...

2019-05-06 09:11:50 812

原创 DDPG Project

1. Remember the difference between the DQN and DDPG in the Q function learning is that the Target's next MAX Q value is estimated by the actor, not the critic itself. (In continuous action space, the ...

2019-05-06 09:11:28 314

原创 Python 笔记

对数列list、数组array、元组tuple、矩阵、向量操作的中文总结常用用法https://www.cnblogs.com/deepleo/p/python-list-tuple-dict.html1. list能改变元素,tuple不可以。 2. numpy array 和 python list 有什么区别?标准Python的列表(list)中,元素本质是对象。如:...

2019-05-06 09:11:10 202

原创 Udacity DNN

一、Linear Boundary1.ELement wise operation 2.  Perceptron Trick (10)How to move the line to be close to a certain point.My code vs Solution3. Why disrete activation function ( e.g. St...

2019-02-11 17:21:39 128

原创 Udacity Pytorch

https://www.youtube.com/watch?v=MswxJw-8PvE&list=PLaiC38QTRBdwq9MzAIrlThEBI2vIeT8hn1.1.1 使用矩阵乘法 torch.mm() or torch.matmul()一般使用前者,因为后者支持broadcasting,如果输入不正确会出现奇怪结果.You can do the multi...

2019-02-05 10:51:50 427

原创 Udacity-DRL MC Blackjet Source Code

print 只用于第一个知识点三个知识点:1. 用defaultdict来创建一个字典负责Q的存储,该字典的key为state,不包括action,action对应value的索引,value的值即为state、action对应的Q值。注意,value值的类型是一个长度为2的一维数组,这里只能通过lambda返回这个类型,不能直接指定这个类型。另外,给Q词典赋key的时候,直接在Q...

2019-02-05 10:33:50 165

原创 Udacity-DRL Temporal_Difference_Solution CliffWalking & Taxi

CliffWalking1. Collection Dequehttps://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001411031239400f7181f65f33a4623bc42276a605debf6000  2. 画图plot一个参数为横坐标,第二个...

2019-02-05 10:33:46 255

原创 Udacity-DRL Tile Coding

1. 可以通过concatenate将矩阵变为列向量 (消除嵌套数组中的嵌套)https://docs.scipy.org/doc/numpy/reference/generated/numpy.concatenate.html  2. Tile的数据处理: 不过只是普通离散化的迭代版 3. for循环同时迭代多个对象 for中的每一次对象都为一个tuple的时...

2019-02-05 10:33:39 816

原创 Udacity-DRL Discretization Mountain Car

数据离散化处理1. 离散化环境的state space (state_grid) 2. 将采样state转化为离散化后的state space对应的state  3. 用array的方法( TD用的是dict)初始化一个Q table注意第26行,这里的+号表示将两个tuple合并起来,而不是element-wise操作 上面第十行...

2019-02-05 10:33:31 317

原创 Udacity DL CNN : Basic Idea

The way of research:Difference of MLP & CNNPoolingmaxpooling is better at noticing the most important details about edges and other features in an image. average pooling is used for smo...

2019-02-05 10:32:56 356

原创 Python dnarray: 用多维数组作为index提取另一多维数组的操作规律

X数组为坐标点,如下图所示(shape为500*2)在这里提取admitted的时候,通过argwhere来选取y(label)符合条件的索引号,得到的是二维数组,如下图,argwhere(y==1)为(shape为127*1) 那么用np.argwhere(y==1)作为X的索引,假设A = np.argwhere(y==1),即X[A]输出为三维的矩阵(shape为12...

2019-01-15 19:01:16 4305 1

原创 Ubuntu 遇到的小问题

19.01.121.输入 sudo apt-get upgrade遇到问题:E: dpkg was interrupted, you must manually run 'sudo dpkg --configure -a' to correct the problem.运行sudo dpkg --configure -a 后,提示缺少一些依赖项,需要输入”-f“所以输入: ...

2019-01-12 21:21:41 3016

原创 Mujoco、Mujoco-py、gym/baseline的环境配置 (可用于UC Berkeley CS294-112 18FA 课程学习)

0. 本人环境(以下均可根据右侧网址进行环境配置https://blog.csdn.net/linyijiong/article/details/84198384)Ubuntu16.04 , Anaconda3 , python 3.6 , tensorflow-gpu 1.10.1 , CUDA 9.0 , cuDNN8.0.以下安装配置均在虚拟环境中进行1...

2018-11-23 12:58:53 2236 3

转载 DL - mini batch

回顾之前我们讲到了一些在训练模型的时候用到的超参数,例如上一次说的L2 正则, 在过拟合的场景中增加L2的值有助于减小网络的复杂度。 还有诸如学习率, 在梯度下降中,每一次迭代的下降的步长是学习率乘以成本函数对w的导数。所以如果我们想让算法训练的快一点,调高学习率可以有效的减少迭代次数。 诸如此类的还有迭代次数,激活函数的选取等等。今天我们说一下mini batch什么是mini batc...

2018-11-23 09:00:48 170

原创 Ubuntu 16.04配置 Cuda, Cudnn, Anaconda, Tensorflow (GPU)

本文教程适用于刚安装好的Ubuntu 16.04注意:以下安装的版本有时效性,且因设备而异,因此要自行判断选择哪个版本,是否选择最新版本。(比如CUDA9.0这个大版本的小版本也不更新了,但cuDNN9.0的大版本下的小版本还在更新)0. What is CUDA & CuDnnCUDA is NVIDIA’s language/API for programming on t...

2018-11-18 15:40:32 2249

原创 Bourne强化学习笔记3:在简单的Bandit问题中抓住强化学习的本质

强化学习最重要的特点是利用训练信息来评估动作,而不是指出最优动作。这就要求需要探索(explore)多个动作来评估、比较出最优动作。即前者只反馈动作的好坏程度,但没有直接指出哪个动作是最好或最坏的;而后者可以指导处哪个动作是最好的,并且该指导反馈与已经发生的动作无关。这也是非监督学习(评价性反馈)与监督学习(指导性反馈)的区别。评价性反馈完全依赖于所选择的动作(即所产生的样本),而指导性反馈则与所...

2018-08-25 22:31:49 1544

原创 微积分:极限

lim把一个有极限的函数转换为一个常数(极限值),而无穷小(大)是用来形容一个函数(数列)的状态:可以无限接近零,零是极限值,但该函数(数列)的无穷小不是零。即一个无穷小的函数取极限后为零。 在这里,有的童鞋疑惑为什么既然无穷小不是零,那为啥去极限后没有误差呢? 在这里我们可以用实无穷的思想理解一下(以下引用https://zhidao.baidu.com/question/1518999...

2018-08-22 11:05:51 1489

原创 Bourne强化学习笔记2:彻底搞清楚什么是Q-learning与Sarsa

为了理清强化学习中最经典、最基础的算法——Q-learning,根据ADEPT的学习规律(Analogy / Diagram / Example / Plain / Technical Definition),本文努力用直观理解、数学方法、图形表达、简单例子和文字解释来展现其精髓之处。区别于众多Q-learning讲解中的伪代码流程图,本文将提供可视化的算法流程图帮助大家学习、对比Q-learni...

2018-08-12 16:35:47 4701 1

原创 Bourne强化学习笔记1:用简单例子说明Off-policy的思想与使用方法

本着ADEPT(Analogy / Diagram / Example / Plain / Technical Definition)的学习规律,本人给出直观理解、数学方法、图形表达、简单例子和文字解释,来介绍off-policy,而on-policy也将在本讲解过程中获得理解。( 在此假设大家已了解Markov Process Decision,动作概率,转移概率,Monte Carlo Met...

2018-08-11 11:32:09 5277

转载 强化学习:基于MDP的经典RL方法 (基于南大俞扬博士演讲的少量修改和补充)

三、从马尔可夫决策过程到强化学习在强化学习任务中,奖赏和转移都是未知的,需要通过学习得出。具体解决办法有两个:一种是还原出奖赏函数和转移函数。首先把MDP还原出来,然后再在MDP上解这个策略,这类方法称为有模型(Model-Based)方法,这里的模型指的是MDP。还有一类和它相对应的方法,免模型(Model-Free)法,即不还原奖赏和转移。基于模型的方法在这类方法中,智...

2018-08-07 23:15:06 3167

MFC Tab Control 嵌套 组合 多层 子对话框

MFC Tab Control 嵌套 组合 多层 子对话框,简单易懂,适合新手开发软件。详细教程网址http://blog.csdn.net/linyijiong/article/details/65662360

2017-03-25

MFC Tab Control 嵌套 多层子对话框

MFC Tab Control 嵌套 多层子对话框M,非常简单实用的demo,新手适用。

2017-03-24

MFC对话框在Picture Control显示OpenGL

MFC对话框在Picture Control显示OpenGL

2016-12-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除