溯源006-CSDN博客

原创 habitat模型训练总结（一）：点导航PPO

PPO是actor_critic结构，需要两个网络一个actor网络，一个critic网络。这两个网络可以共享参数也可以不共享参数。habitat中的ppo在特征提取阶段采用了参数共享，然后分出了两个头。"""agent: PPO上面的代码可以看出self.actor_critic是NetPolicy类型，而NetPolicy类在中定义。在中的方法中......定义了self.actor_critic，如上。这个policy在中进行了定义，其中也对网络结构进行了定义。这个policy直接在。

2024-03-09 00:14:25 1680

原创 habitat中的坑（一）：训练模型的时候找不到数据

在habitat中训练一个模型需要指定配置文件，（根据目前的学习）一般要指定两个yaml文件：一个是训练的配置文件一个是任务的配置文件举例如下：import randomimport numpy as npfrom habitat_baselines.common.baseline_registry import baseline_registryfrom habitat_baselines.config.default import get_config as get_baselines

2024-03-07 19:36:45 351

原创 rearrangement-challenge-2022环境使用学习（一）

在…/habitat-challenge/habitat-lab/habitat/config/default.py中定义。该文件中定义了:1） get_config()方法2）所有配置变量的默认值。

2024-03-05 21:33:35 347

原创 conda多虚拟环境的搭建与切换

在 Python 开发中，很多时候我们希望每个应用有一个独立的 Python 环境（比如应用 1 需要用到 TensorFlow 1.X，而应用 2 使用 TensorFlow 2.0）。这时，Conda 虚拟环境即可为一个应用创建一套 “隔离” 的 Python 运行环境。使用 Python 的包管理器 conda 即可轻松地创建 Conda 虚拟环境。

2024-01-26 22:33:56 459

原创变分自编码器（Variational AutoEncoder，VAE）

说到这块，不可避免地要讲起（AutoEncoder）自编码器。它的结构下图所示：据图可知，AE通过自监督的训练方式，能够将输入的原始特征通过编码encoder后得到潜在的特征编码，实现了自动化的特征工程，并且达到了降维和泛化的目的。而后通过对进行decoder后，我们可以重构输出。一个良好的AE最好的状态就是解码器的输出能够完美地或者近似恢复出原来的输入, 即。∣∣x−x∣∣AE的重点在于编码，而解码的结果，基于训练目标，如果损失足够小的话，将会与输入相同。

2024-01-17 21:26:19 1052

原创变分推断（Variational Inference）

在贝叶斯体系中，指的是，即我们在已经输入变量x后，如何获得未知变量z的分布p(z|x)[3].通俗一点讲一个完整的故事就是，如果没有任何信息，我们可能大概了解一个（latent）变量z的分布，这个分布可能方差比较大。变量x是可观察的，并含有z的一些信息。那么在观察到x后，关于z的分布（此时是后验分布p(z|x)）会发生变化，比如方差变得更小了，如下图所示。利用贝叶斯公式：[4]px∣z与pz可以做出必要的假设符合某个分布。px是已经观察到的，所以称为证据（evidence）。

2024-01-17 16:45:36 1014

原创 DDPM: Denoising Diffusion Probabilistic Models的白话总结

目前所采用的扩散模型大都是来自于2020年的工作。本文主要是对b站视频的记录和总结。该视频是目前见到的对DDPM讲述最为浅显易懂的，首先表达对视频作者的敬意，推荐看原视频，本文的讲述略去了一些比较常识性的东西，原视频非常值得看，会有很多收获。故记录总结之。对深入的知识进行本质的理解，并以形象、浅显、易懂的形式呈现出来，是毕生之追求。目前能力尚浅，有幸看到很多大神已经做出了很多漂亮的工作。所以先做好转呈记录。

2024-01-15 22:41:23 2046

原创 HTML（一）

作为一名教育工作者，总是想用尽量好的方法展示自己的想法。所以总是抑制不住要学习前端的诱惑。所以从现在开始，积跬步以致千里。主要采用思维导图的方式。学习资源来自于MDN网站（

2024-01-13 20:51:47 351

原创 ubuntu配置pip 清华源

如果提示没有该目录或者文件不存在，则会自动创建相应的目录及文件。或者用其他编辑器也可以比如vim或者其他文本编辑器。这样就已经将pip源设置为清华大学的镜像站点了。现在使用pip安装Python包时速度会更快。在Ubuntu上配置pip源可以通过修改~/.pip/pip.conf文件来完成。若要还原默认的官方源，只需删除 pip.conf 文件即可。

2024-01-09 23:54:51 736

转载 anaconda常用命令大全

conda当前的源设置在$HOME/.condarc中，可通过文本查看器查看或者使用命令>conda config --show-sources查看。升级Anaconda需先升级conda。豆瓣(douban)

2024-01-07 17:11:24 558

原创 Habitat-Lab readme翻译

Habitat-Lab是一个模块化的高级库，用于嵌入式人工智能的端到端开发。它旨在训练智能体在室内环境中执行各种各样的具身人工智能任务，以及开发可以在执行这些任务时与人类互动的智能体。为此，Habitat-Lab旨在支持以下功能:1、灵活的任务定义:允许用户在各种各样的单个和多代理任务中训练代理(例如，导航、重新安排、指令跟随、问题回答、人类跟随)，以及定义新颖的任务。2、多样的具身代理:配置和实例化一组多样的具身代理，包括商业机器人和类人机器人，指定它们的传感器和能力。

2024-01-07 16:59:12 912

原创 Error adding module to project: setSdk: sdk ‘17‘ type ‘JavaSDK‘ is not registered in ProjectJdkTable

新安装的JDK17，但是在IDEA中新建模块的时候出现了以下错误。点击file—>Project Structure。SDK选择自己安装的JDK。SDK选择自己安装的JDK。

2023-11-26 08:45:46 3360

原创 windows安装JDK17

点击上面的安装文件进行安装：设置一下安装路径，其他点击“确定”和“下一步”即可。

2023-11-24 22:22:41 545

原创 MoCo 与 CLIP

接下来就是我们通过一个模型得到一些特征，然后在这些特征上使用一些对比学习的目标函数就可以了。比如说。

2023-11-13 23:20:43 142

原创【翻译】Causality Inspired Representation Learning for Domain Generalization

提出了一种因果关系启发表征学习（CIRL）算法，该算法强制要求表征满足上述属性，然后用它们来模拟因果因素，从而提高泛化能力。在几个广泛使用的数据集上的大量实验结果验证了我们方法的有效性

2023-11-10 15:49:21 161

原创【论文翻译】Semantic Abstraction: Open-World 3D Scene Understanding from 2D Vision-Language Model【未完】

我们研究开放世界3D场景理解，这是一个系列的任务，要求代理使用开放词汇和域外视觉输入来推理其3D环境的任务，这是机器人在非结构化3D世界中操作的关键技能。为此，我们提出了语义抽象(SemAbs)，这是一个为2D视觉语言模型(vlm)提供新的3D空间能力的框架，同时保持其zero-shot鲁棒性。我们使用从clip中提取的关联图来实现这种抽象，并以语义不可知的方式在这些抽象的基础上学习3D空间和几何推理技能。我们证明了SemAbs在两个开放世界3D场景理解任务中的有用性:1)完成部分观察的对象和2)从语言描述

2023-10-28 20:23:07 182

原创 MoCo视频笔记

1）CVPR2020最佳论文提名，视觉领域里使用对比学习的里程碑式的工作2）是无监督视觉表征学习，3）不仅在分类这个任务上逼近了有监督的基线模型，而且在很多主流的视觉任务上（比如检测、分割、人体关键点检测）都超越了有监督预训练的模型4）MoCo的出现证明了：无监督学习真的可以。不需要大量标好的数据去做训练1）对比学习2019年到现在机器学习领域最炙手可热的领域之一2）对比学习就是对比着学习，不需要知道类别，只需要知道上面两张图片类似，下面这张图片与上面的两张不类似。

2023-10-27 13:02:02 47

原创关于交叉熵损失函数以及几个类似的损失函数

交叉熵度量了两个分布的差异的大小。p和q差异越大H(p,q)就越大，差异越小，H(p,q)就越小。当p=q时最小，此时交叉熵变为p的熵。

2023-10-27 12:41:56 84 1

原创 mybatis相关注解总结

mybatis用到的一些注解的总结，备忘

2023-10-15 10:37:42 72 1

原创 SpringBoot Web开发思路整合以及注解总结

注解说明表明这是一个请求处理类表明用来处理哪个请求路径控制反转：@Component声明bean的基础注解，不属于以下三类时，用此注解控制反转：@Controller@Component的衍生注解，标注在控制器类上控制反转： @Service@Component的衍生注解标注在业务类上控制反转：@Repository@Component的衍生注解标注在数据访问类上（由于与mybatis整合，用的少）依赖注入：@Autowired默认是按照类型。

2023-10-12 10:52:10 109

原创【论文翻译】RT-1: ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE【未完待续】

这种模型成功的关键在于。

2023-10-09 22:18:28 620 1

原创【论文翻译】Open X-Embodiment: Robotic Learning Datasets and RT-X Models【未完待续】

在不同数据集上训练的大型高容量模型在有效处理下游应用程序方面取得了显著成功。在从NLP到计算机视觉的领域，这导致了预训练模型的整合，一般的预训练backbones作为许多应用程序的起点。这样的整合会发生在机器人领域吗？传统上，机器人学习方法为每个应用程序、每个机器人甚至每个环境训练一个单独的模型。我们是否可以训练“通才”X机器人策略，使其能够有效地适应新的机器人，任务和环境？在本文中，我们提供了标准化数据格式和模型的数据集，以便在机器人操作的背景下探索这种可能性，以及提供有效X机器人策略示例的实验结果。

2023-10-09 21:41:42 227 1

原创基于策略的强化学习：PPO

PPO算法的原理解读以及代码实现

2023-09-26 13:45:59 145

原创基于策略的强化学习：Actor-Critic算法

Actor-Crtic算法伪代码和pytorch以及stable-baselines3代码实现

2023-09-24 21:35:35 450 1

原创基于策略的深度强化学习：理论部分

PPO是基于策略的强化学习，本文开始讲基于策略的强化学习，本文主要是理论部分

2023-09-22 11:59:49 99 1

原创基于价值的深度强化学习：DQN

本文主要是介绍DQN原理和算法伪代码和代码实现，算法实现包括pytorch版本和stable-baselines3版本

2023-09-21 23:17:06 165

原创自己一些感想1：之于人，之于智能体，之于交互

从外在来看，人是一个终端。这个终端连接了一个“有”的世界和一个“无”的世界。其实这个“有”的世界也只是人的感官感知到的一个结果。因为感官的存在，人们意识不到“无”的世界，只能在“有”的世界里喜怒哀乐。从小到大，我们“为学日益”，在“有”的世界里越陷越深。基于某种机缘，有少数人意识到了这个“有”的世界的一些假象，开始了“为道日损”的回归。这个回归的过程也是逐步意识到“无”的世界的过程。造化不同，所以也不必强求。再往下写，就要偏离主题了，赶紧找回来。我们不探讨这个“为道日损”的过程。

2023-07-18 21:09:34 45 1

原创 Yann Lecun: A Path Towards Autonomous Machine Intelligence论文的思维导图（2）

读论文不在于追求数量，而在于对于真正的论文一定要读懂。所谓的读懂，就是尽量揣摩文章的核心思想。怎么从一堆文字中提炼出文章的核心思想，思维导图往往是一个好的工具。脚踏实地，积跬步以致千里。

2023-06-19 21:45:24 42

原创 Yann Lecun: A Path Towards Autonomous Machine Intelligence论文的思维导图（1）