RavenRaaven-CSDN博客

原创 UCB CS285课程笔记目录

1. 监督学习与强化学习（Imitation Learning）2. Model-Free方法3. Model-Based方法4. Exploration Method5. RL理论与DRL算法设计6. 概率图角度理解强化学习框架（变分推断）7. Inverse RL8. Transfer Learning, Multi-task Learning, Meta-learning...

2021-02-23 10:34:48 1060 3

0.0 写给自己这部分只写给自己，建议直接跳过。（只是一些自己的感悟）一周多之前开始了复习本科内容的征程。一切的一切都源于保研复试，当时被老师问到什么是安培环路定理，明明是学过的内容我竟然忘了，竟然忘了！之后大四的这一年我一直提醒自己要好好恶补电磁场理论，以至于大学期间所有的理论实践课程。还好如我所愿，快毕业的这段时间真挺充裕的，再接再厉！。学完18.01之后再看18.02 多变量微积分真的...

2019-06-12 20:33:15 6386 1

原创 MIT 18.01 单变量微积分笔记——总目录及对应链接

0. 写在前面这篇总目录主要参考了MIT 18.01单变量微积分的课程结构，当然我也做了一些我认为更合理的思路上的改动。给自己定个小目标，争取一周之内填补目录上的几乎所有内容，我每写完一篇就在本目录中加一个超链接（现在已有三条链接），有兴趣看的伙伴直接打开这个目录进入想看的章节即可。1. 导数和微分（Derivative and Differential）：1.1 导数的定义1.2 求导（...

2019-05-31 22:48:19 11745 1

原创 Lattice Planner从入门到放弃

Lattice Planner相关背景和更正式的公式推导可以直接参考其原始论文《Optimal Trajectory Generation for Dynamic Street Scenarios in a Frenét Frame》（ICRA 2010），本文侧重于Lattic planner理论和代码的结合。1. Lattice Planner基本流程Lattice Planner算法（含轨迹跟踪算法）的基本流程如下所示：在笛卡尔坐标系中获取车辆的全局规划路径点（包括起始点和终点）的坐标，如有

2023-06-18 17:45:59 1308

原创 Apollo安装踩坑记录

本文记录安装Apollo的踩坑记录，本人系统配置为：ubuntu 20.04.5，cuda 11.4；

2022-10-11 21:27:12 2468 2

原创 OpenCDA代码学习笔记（1）——CARLA-SUMO联合仿真demo

OpenCDA的主要文件结构就是根目录下的opencda，其中assets包含了各类测试用例的地图文件或对应SUMO中的.net.xml和.rou.xml文件等；文件夹中的对应CARLA 0.9.11中的Co-simulation部分中同名的文件夹；core文件夹非常重要，包含了从感知到决策规划的所有模块，此外还实现了地图管理等功能；customize文件夹中包含了一些自定义的算法，例如yolov5模型的导入就在中；最后，文件夹包含了OpenCDA所有的测试用demo源文件（.yaml和.py。

2022-10-04 14:59:10 3483 2

原创多智能体深度强化学习值分解方法总结（1）——VDN/QMIX/QTRAN/Qatten

最近准备把之前看过的MARL相关文章重新捡起来，一方面是综述，一方面是具体方法。因为我本人课题中的一部分使用了QMIX做应用，为之后思考可以改进的idea做准备。所以借这篇文章的机会重新回顾一下值分解的相关方法，本文先总结VDN/QMIX/QTRAN/Qatten这四篇文章，主要对每一篇文章中的理论及方法进行总结，尽量讲清楚这些方法的motivation，针对的具体问题，理论及从理论推导出的算法，一些算法结果记录和方法的局限性。

2022-09-11 10:31:59 1863 2

原创《Grokking Deep Reinforcement Learning》笔记（Chapter 11-12）

Grokking Deep Reinforcement Learning》书Chapter 11-12的个人笔记

2022-07-06 11:35:53 380

原创《Grokking Deep Reinforcement Learning》笔记（Chapter 8-10）

第8-10章重点讲解了基于值的RL算法。本书依然聚焦于强化学习问题中智能体与环境交互之后得到的feedback signal的形式，前7章包含了sequential and evaluative feedback，而DRL的目标是构建一个能够从sequential, evaluative and sampled feedback中学习的智能体. 深度强化学习是关于complex sequential decision-making problems under uncertainty的，其中complex

2022-06-12 16:34:34 271

原创《Grokking Deep Reinforcement Learning》笔记目录

最近看完了《Grokking Deep Reinforcement Learning》这本书，内容强调的是理论和实践的结合，既有相关公式的回顾也有对应的实现代码，看完后受益匪浅。接下来的这一系列就是关于这本书各章节的笔记。Chapter 1~Chapter 2Chapter 3~Chapter 4Chapter 5~Chapter 7Chapter 8~Chapter 10Chapter 11~Chapter 12.........

2022-05-19 16:43:10 302

原创《Grokking Deep Reinforcement Learning》笔记（Chapter 5-7）

文章目录Chapter 5评估策略的方法：MC类方法TD类方法：Chapter 6强化学习算法的组成部分提升策略的几种方法MC类方法TD类方法一些关于收敛性的讨论：Chapter 7**将λ−\lambda-λ−return与之前的on-policy SARSA和off-policy Q-learning相结合。**SARSA(λ\lambdaλ)：**Model-based的几种算法：**Chapter 5主要内容：解决的是在environment transition dynamics未知的情况下p

2022-05-19 16:32:51 387

原创《Grokking Deep Reinforcement Learning》笔记（Chapter 3-4）

《Grokking DRL》笔记（Chapter 3-4）Chapter 3主要内容：如何求解MDPs, agent的目标是什么，两种求解MDPs的算法（动态规划算法）：value iteration (VI) and policy iteration (PI)本章内容只考虑sequential feedback。The objective of a decision-making agents: maximize the return: the sum of rewards (discounted

2022-05-19 15:21:36 229

原创《Grokking Deep Reinforcement Learning》笔记（Chapter 1-2）

Chapter 1基本概念：DRL中的智能体只是做出决策的部分，其他部分都归属于环境environment.1. learn from sequential feedback会导致temporal credit assignment问题，智能体如何权衡Immediate and long-term goals（chapter 3 will cover this problem，解决办法是动态规划类算法）2. learn from evaluative feedback会导致“exploratio

2022-05-19 14:55:36 331

原创综述文章笔记——《A Survey on Traffic Signal Control Methods》等

Traffic Signal Control（TSC）一些背景知识为什么要进行TSCTSC传统建模方式用强化学习算法解决TSC有哪些优点如何用RL方法框架描述TSC问题深度强化学习应用到TSC问题的流程分类依据如何评估算法算法的评价标准仿真环境的选择路网与车流的设定未来的研究方向引用本文总结的两篇综述文章：其他综述文章：...

2021-09-11 15:54:36 958

原创 win10下星际争霸II和Pymarl环境配置

SMAC与Pymarl相关博文链接：ubuntu单独安装SMAC:https://blog.csdn.net/weixin_39059031/article/details/117247635非whiRL pymarl的算法库安装：https://blog.csdn.net/qq_38163755/article/details/109690507SMAC官方地址https://github.com/oxwhirl/smacpymarl官方地址https://github.com/oxwhi

2021-08-11 20:15:22 2642 2

原创 CS285课程笔记（4）——Exploration Method

1. 为什么要用引入exploration1.1 直观解释1.2 强化学习中的exploration-exploitation权衡1.3 不同类型问题下的optimal exploration strategy是否是可解的2. Bandits问题中的exploration2.1 Optimistic Exploration2.2 Posterior Sampling (Probability Matching)2.3 Information Gain3. 用于深度强化学习中的explorat

2021-07-12 21:11:17 482 1

原创 CS285课程笔记（6）——Inverse Reinforcement Learning

1. 为什么要引入Inverse Reinforcement Learning2. Inverse RL问题的定义3. 经典方法3.1 Feature Matching IRL & Maximum Margin Planning3.2 Maximum Entropy IRL4. 与深度学习结合的方法4.1 Guided Cost Learing Algorithm4.2 IRL & GANs...

2021-05-24 13:09:19 548 1

原创 CS285课程笔记（5.(2)）——从概率图角度理解强化学习 (Control as Inference)

本文对应Lecture 19，重点时以概率图模型的视角看待强化学习，并推导出新算法。将RL问题等效为概率图模型中的推断问题1. Motivation （源自用强化学习对人类或动物行为建模）2. 用概率图模型重新RL问题建模3. Exact Inference (Control as Inference)4. Approximate Inference (Control as Variational Inference)5. 基于Soft Optimality的一些实际算法A. Q-learni

2021-04-30 12:02:09 588

原创 CS285课程笔记（5.(1)）——从概率图角度理解强化学习（变分推断原理+VAE）

一、变分推断与生成模型（Variational Inference and Generative Models）二、用概率图模型和推断描述RL问题

2021-04-14 16:23:38 885

原创 CS285课程笔记（3.2(2)）—— Model-Based方法之Model Learning, Policy Learning

1

2021-03-28 17:28:25 688 2

原创 CS285课程笔记（3.2(1)) Model-Based方法---Planning方法

PlanningLearn the Model

2021-03-16 23:06:56 666 1

原创 CS285课程笔记（3.1(1)）——Model-free方法之Policy Gradient

Policy GradientActor CriticQ-learning

2021-03-04 18:44:26 583 2

原创 CS285课程笔记（2）——强化学习一般方法框架

1. 强化学习的一般方法框架2. Model-free方法

2021-02-27 19:26:51 588 1

原创 CS285课程笔记（1）——模仿学习（Imitation Learning）

1. 强化学习与监督学习的区别2. 模仿学习（Imitation Learning）

2021-02-23 10:34:13 1129

原创多智能体深度强化学习——MADDPG算法代码分析（tensorflow）

MADDPG算法介绍MADDPG代码分析与实验

2020-12-12 23:13:03 38768 97

原创强化学习实践笔记（1）——Q-learning、SARSA和SARSA(lambda)

概述本文介绍了单步q-learning和sarsa的原理和python实现（按照莫烦强化学习中的代码重新敲了一遍），基于eligibility trace1. Q-learning 算法原理2. SARSA算法原理3. Q-learning与SARSA的不同之处4. Q-learning python 实现5. SARSA python实现...

2020-10-05 18:41:32 1293 1

转载 Latex符号对照表

感谢博主的总结，这里转载方便自己平时快速找到。https://blog.csdn.net/zgj926503/article/details/52757631?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160189222519724836739518%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=16018922251972483

2020-10-05 18:05:38 2678

原创深度强化学习笔记——DDPG原理及实现（pytorch）

概要DDPG算法原理(Deep Deterministic Policy Gradient)DDPG算法实现

2020-09-13 21:12:05 25089 8

原创深度强化学习笔记——DQN原理与实现（pytorch+gym）

概要1. DQN（Deep Q-Network）基本原理1.11.22. DQN的pytorch实现2.1 所需要的环境配置2.2 DQN伪代码2.3

2020-08-29 15:51:09 11201 3

原创深度强化学习笔记——基本方法分类与一般思路

概要本文梳理了一下台大李宏毅老师的深度强化学习系列课程内容。该课程主要是对无模型深度强化学习方法的一些大致介绍，将其分为大致三类：基于值函数的、基于梯度的方法、actor-critic的方法。（其他方法还有模仿学习imitation learning与逆强化学习inverse reinforcement learning）分类方法可以见下图：本文对三大类方法的基本思路进行阐述，为了写作的方便，文中的图大部分来自课件中的原图。有任何不准确的地方望指正！1. 基于梯度的方法（Policy-based

2020-08-23 21:04:09 1251

原创 ROS笔记——tf library相关

概要本文是我在看完官方tutorial和tf的论文《tf: The Transform Library》做的一些笔记。

2020-08-16 13:10:05 534

原创 Autoware源码分析——astar_search

1. 概要本文是对autoware中core_planning文件夹中astar_search功能包的相关文件组成和具体源码的分析，承接上一篇关于astar_avoid的分析。如果有理解有误的地方，望指正!2. 文件结构2.1 astar_avoid中与之有关的函数astar_avoid.cpp中的planAvoidWaypoints调用了astar_search中的astar_.makePlan()等函数，目的就是执行hybrid A* 算法。planAvoidWaypoints该函数使用

2020-08-02 23:30:55 1886

原创 Autoware源码分析——astar_avoid

概要本文是对autoware中waypoint_planner功能包的相关文件组成和具体节点的分析。由于程序比较复杂，我认为还存在一些不完整的地方，之后也会继续分析，继续更新。有任何错误或不足之处，望指正！waypoint_planner功能包的概述及整体结构Waypoint planner can be alternatively used to generate a set of waypoints to the destination. This package differs from la

2020-07-26 20:50:24 3318 2

MIT-18-01单变量微积分完整课件及习题.rar

空空如也