自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Pytorch安装遇到的坑

注意:版本匹配很重要!AttributeError: ‘NoneType’ object has no attribute ‘origin’这个是因为直接使用pip install torch-sparse==某个版本``pip install torch-scatter==某个版本,导致安装的torch-geometric不含有-cuda.so链接库导致的。详情可以参考:https://github.com/pyg-team/pytorch_geometric/issues/2304如果你使用如下

2022-01-04 20:16:24 1496

原创 Driving Behavior Modeling Using Naturalistic Human Driving Data With Inverse Reinforcement Learning

数学建模The state st∈S\mathbf{s}_t \in \mathcal{S}st​∈S: the driver observes at timestep ttt consists of the position, orientations, and velocities of itself and surrounding vehiclesThe action at∈A\mathbf{a}_t \in \mathcal{A}at​∈A the driver takes is compos

2021-10-11 19:30:43 412 3

原创 最大熵逆强化学习

逆强化学习给定expert (专家)的一组demonstration (示范) D={τi}i=1nD=\{\tau_i\}_{i=1}^nD={τi​}i=1n​, 其中τi={(si1,ai1),(si2,ai2),...,(si(n−1),ai(n−1)),sn}\tau_i = \{(s_{i1}, a_{i1}), (s_{i2}, a_{i2}), ..., (s_{i(n-1)}, a_{i(n-1)}), s_n\}τi​={(si1​,ai1​),(si2​,ai2​),...,(si(

2021-08-17 15:13:51 2615

原创 为什么要最大化熵?

为什么要最大化熵?What entropy represents?The entropy H(p)\mathbf{H}(p)H(p) of some event probability distribution ppp is defined as:H(p)=−∑x∈Xp(x)log⁡2p(x)(1)\mathbf{H}(p) = -\sum_{x\in \mathcal{X}}p(x) \log_2 p(x) \tag{1}H(p)=−x∈X∑​p(x)log2​p(x)(1)where X\mat

2021-08-02 17:05:06 629 1

原创 逆强化学习经典算法复现(一)

**前言:**这篇博客复现的是文章“Algorithms for Inverse Reinforcement Learning”中有限状态空间的Grid World的相关实验,重点是如何将非线性规划模型转化为线性规划模型。环境模型首先,构造环境模型Gridworld,代码如下所示:import numpy as npimport randomimport copyclass MyGirdWorld(object): size = 5 reward_grid = np.zero

2021-07-27 16:32:59 1848

原创 逆强化学习论文笔记 (一)

Algorithm for Inverse Reinforcement Learning摘要:这篇文章解决了马尔可夫决策过程中的逆强化学习问题,也就是,从一个给定被观察的、最优的行为中提取出reward function。IRL也许可以帮助apprenticeship learning获得熟练的行为,以及确定由自然系统优化的reward function。我们首先刻画给定最优策略的reward function的集合,然后我们推导出三个IRL的算法。前面两个算法解决知道entire policy的情形;我

2021-07-05 19:48:56 998

原创 ROS 系列教程 (三)

用C++写一个简单的publisher和subscriberwriting the publisher nodeInitialize the ROS systemAdvertise that we are going to be publishing std_msgs/String messages on the chatter topic to the masterLoop while publishing messages to chatter 10 times a second.# in

2020-09-07 14:52:41 133

原创 ROS 系列教程 (二)

理解ROS Topicsturtlesim_node和turtle_teleop_key 节点之间是通过一个ROS Topic进行交流的。turtle_teleop_key将键盘敲击发送到一个Topic上,turtlesim订阅相同的Topic来接收键盘敲击。让我们使用rqt_graph,它展示了当前正在运行着的node和Topic。使用rqt_graphrqtgraphrqt_graphrqtg​raph creates a dynamic graph of what’s going on

2020-09-07 10:22:22 413

原创 ROS 系列教程 (一)

文件系统概念Packages: Packages are the software organization unit of ROS code. Each package can contain libraries, executables, scripts, or other artifacts.Manifests (package.xml): A manifest is a description of a package. It serves to define dependencies bet

2020-09-01 20:45:40 289

原创 C++ Primer Plus 处理数据笔记

C++ Primer Plus 处理数据笔记内置的C++类型分两组:基本类型和复合类型3.1 简单变量3.1.1 变量名简单的C++命名规则在名称中只能使用字母字符、数字和下划线名称的第一个字符不能是数字区分大写字符和小写字符不能用C++关键字用作名称以两个下划线或下划线和大写字母大头的名称被保留给实现(编译器及其使用的资源)使用。以一个下划线开头的名称被保留给实现,用作全局标识符。C++对于名称的长度没有限制,名称中所有的字符都有意义3.1.2 整型C++的基本整型(按宽度

2020-06-28 17:10:12 110

原创 算法导论:分治策略

在分治策略中,我们递归地求解一个问题,在每层递归中应用如下三个步骤: 分解 -> 将问题划分为一些子问题,子问题的形式与原问题一样,只是规模更小 解决 -> 递归地求解出子问题。如果子问题的规模足够小,则停止递归,直接求解 合并 -> 将子问题的解组合成原问题的解三种求解递归式的方法,即得出算法的时间复杂度的方法:代入法:猜...

2020-06-06 16:23:13 241

原创 C primer 学习笔记 (一)

1. 编程机制用c语言编写程序时,编写的内容被储存在文本文件中,该文件被称为源代码文件。编译器将源代码转换为中间代码,链接器将目标代码、系统的标准启动代码和库代码合并为可执行文件。对于库代码,链接器只会把程序中要用到的库函数代码提取出来。目标文件和可执行文件都是由机器语言指令组成的,然而,目标文件中只包含编译器为你编写的代码翻译的机器语言代码,可执行文件中还包含你编写的程序中使用的库函数和启动代码的机器代码。2. 知识点# include <stdio.h> 这一句的作

2020-06-04 19:41:02 488

转载 Java 反射机制笔记

1.反射机制定义:Java反射机制是在运行状态时,对于任意一个类,都能够知道这个类的所有属性和方法;对于任何一个对象,都能够调用它的任意一个方法和属性.2.Java反射机制的类库支持Class类和java.lang.reflect类库一起构成了对Java反射机制的支持.其中最常用的类是Constructor,Field,Method,而这三个类都继承了一个接口Java.lang.reflect.M...

2018-04-12 11:32:14 104

原创 算法设计系列笔记(一)

算法的起源:在1962年,两个数学经济学家David Gale和Lloyd Shapley问了这样一个问题:能否设计一个学院招生或者工作招聘等自动实施(self-enforcing)的过程即给一组招聘者和应聘者的优先列表,我们能否设计这样一个算法:对于每一个招聘方E和每一个没有为E工作的应聘方A,使得下面两种情况中的一个成立:E相对于A更喜欢每一个接受它的应聘者;A相对于为E工作更喜欢为现在的公司...

2018-04-10 01:22:20 166

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除