好程序不脱发-CSDN博客

原创强化学习 OpenAI Gym Universe Docker在Windows WSL 2安装配置最全的全记录

1. 事情的起源全记录事情的起源是为了学习Python强化学习实战，先在自己的windows操作系统的Pycharm+Anaconda+Gym配置下运行成功了CartPole示例和CarRacing示例，接着运行Universe，据说OpenAI Universe需要在Docker的镜像下运行，在安装Docker的时候偶然遇到了WSL 2，既然windows有WSL 2的Linux环境，那么直接在Linux分发上做运行，然而从此事情变得不简单了。2. 在Win10家庭版上安装Docker下载安装Doc

2021-02-02 10:58:58 2122 9

原创 python容易忘记的小语法

判断list是否为空，直接用if语句复制list类型

2024-03-06 17:05:06 383

原创 GPU命令的一些汇总

查看GPU显卡基本信息watch -n 3 nvidia-smi3表示3秒更新一次查询结果，单位是秒

2024-03-06 17:02:25 368

原创强化学习学习记录-一些碎片

马尔可夫过程MDP是一种建模方法，很多问题都在用马尔可夫建模强化学习其实是一种模式套路目标Q网络和预测Q网络→目标Q网络中有一步是真实的，其余是预测的，预测Q网络中全部是预测的，隔一段时间用预测Q网络的参数去更新目标Q网络的参数奖励函数设计...

2024-03-06 17:00:00 364

原创 GAN学习笔记

GAN网络

2024-03-06 16:58:13 857

原创【学习笔记】计算机视觉深度学习网络模型

计算机视觉神经网络模型算法原理

2024-03-06 14:47:16 861

原创【学习笔记】实时机器学习算法

实时机器学习算法学习笔记

2024-03-06 14:27:41 473

原创带有action mask动作掩码的PPO算法（附代码实现）

带有action mask动作掩码的PPO算法（附代码实现）

2023-07-03 16:01:42 2124 1

原创 gym0.26.2版本相比0.9版本用法变化

gym0.26.2版本相比0.9版本用法变化

2023-07-03 14:22:59 1966

原创 PPO玩Pendulum倒立摆代码（一个Actor网络）Pytorch实现

PPO玩Pendulum倒立摆代码（一个Actor网络）Pytorch实现

2023-07-03 11:18:43 293

原创 PPO玩Pendulum倒立摆代码（两个Actor网络）Pytorch实现

PPO玩Pendulum倒立摆代码（两个Actor网络）Pytorch实现

2023-07-03 11:11:54 505

原创 PPO算法基本原理及流程图（KL penalty和Clip两种方法）

PPO算法基本原理及流程图（KL penalty和Clip两种方法）

2023-06-30 17:06:28 9407 3

原创 PPO算法基本原理（李宏毅课程学习笔记）

PPO算法基本原理（李宏毅课程学习笔记）

2023-06-29 15:35:22 579

原创 PolicyGradient算法玩CartPole和MountainCar代码Pytorch版本

PolicyGradient算法玩CartPole倒立摆和MountainCar小车爬山的Pytorch版本代码

2023-06-29 15:24:51 210 1

原创 gym不渲染画面的解决方案（gym版本号0.26.2）

gym0.26.2版本不渲染画面解决方案

2023-05-24 10:18:31 1793 2

原创 Policy Gradient策略梯度算法详解

Policy Gradient策略梯度算法原理

2023-05-16 16:47:51 3506

原创 DQN基本概念和算法流程（附Pytorch代码）

DQN，Deep Q Network本质上还是Q learning算法，它的算法精髓还是让Q估计尽可能接近Q现实，或者说是让当前状态下预测的Q值跟基于过去经验的Q值尽可能接近。在后面的介绍中Q现实也被称为TD Target相比于Q Table形式，DQN算法用神经网络学习Q值，我们可以理解为神经网络是一种估计方法，神经网络本身不是DQN的精髓，神经网络可以设计成MLP也可以设计成CNN等等，DQN的巧妙之处在于两个网络、经验回放等trick。

2023-04-14 14:46:23 7654