然后就去远行吧-CSDN博客

原创强化学习小笔记 —— 如何选择合适的更新步长

如果我们使用固定步长，智能体将更好地适应这些变化，因为它会持续地从新的经验中学习，而不是逐渐降低学习速率。因此，我们对最新的观测不太重视，对特定动作的动作值的估计会随着时间的推移而逐渐稳定下来。在一个随时间变化的环境中，我们通常设置固定的步长，避免模型过分依赖过去的经验。在某些情况下，我们希望使用不会随时间减小的固定不长，例如，固定的步长。这意味着，如果最近观测到的奖励大于当前的估计值，我们会向上修改行动值的估计值。项，随着我们进行更多的观测，我们调整估计的比率将变小（公式中的。，继而获得新的估计值。

2023-11-23 21:06:38 435

原创【深入理解Typescript】—— 第一章：为什么要使用Typescript

对于【深入理解Typescript】这本书的一些笔记

2023-11-21 22:43:23 308

原创强化学习小笔记 —— 从 Normal 正态分布的对数概率密度到 tanh-Normal的对数概率密度

因为动作是从正态分布中采样得到的，然后使用tanh()进行转换，经过转换后的动作的对数概率密度不能再使用从正态分布中获取的log_prob。所以，我们需要计算的是这个转换后的动作的对数概率密度，而不是转换前的动作的对数概率密度。从代码里可以看到，策略网络的目标是输出一个动作，这个动作是从一个参数为 mu 和 std 的正态分布中采样得到的。然后，这个动作被一个 tanh 函数转换到 -1 到 1 的范围内，以满足环境的动作空间要求。这里的 log_prob 是动作的对数概率密度。，y对应的概率密度函数为。

2023-11-04 19:37:20 513 1

原创 Dueling Network

从图9中可以看出，在传统DQN中，DQN的神经网络直接输出Q函数的值，即某个状态下不同动作对应的动作价值，输出层的前一层是全连接层。Dueling Network对DQN的结构改进主要在全连接层上，它在全连接层和输出层之间进行修改，将全连接层改为两条流，其中一条输出关于状态的价值，另外一条输出关于动作的优势函数的值，最终将两条流合并得到Q动作价值。所以优势函数表示的是当前动作值函数相比于当前状态值函数的优势，如果优势值大于零，表示当前动作比平均动作好，如果优势函数值小于0，表示当前动作比平均动作差。

2023-08-06 21:07:43 335

原创强化学习 —— 广义优势估计GAE

GAE的原理是将这些不同步数的优势估计进行指数加权平均，这里先通过简单的例子介绍一下指数加权平均。趋向于1时，GAE会考虑更多步差分的平均值。下面是一段GAE的实现代码，给定折扣系数。即只看到一步差分得到的优势值，当。简单解释一下上面的公式，根据。可以通过类似的方法推导得到。是在GAE中引入的超参数。表示时序差分误差，公式中的。将上面公式进行转换可以得到。表示可调节的超参数值。

2023-08-06 18:15:10 818

原创 C++ 常量指针和指针常量

const 关键字修饰的是指针对所指向的值的访问方式，而不是所指向的值本身。const关键字只是为了指针无法直接修改指向的值，指向的值本身可以是非const的。如上所述，const int* ptr = &a 与 int const* ptr = &a具有相同的意义，它们创建的指针指向一个 const int 类型的值。这有助于确保程序始终访问相同的内存位置。：当你编写一个函数，该函数接受指向整数的指针作为参数时，可以声明参数为 const int* 类型，以确保该函数不会无意中修改指针所指向的数据。

2023-07-26 22:19:29 210

原创 wasserstein distance简单记录

所以说一种移动策略对应一种联合概率分布，我们需要得到的是使得距离之和最小的一个概率分布。距离的计算中，我们并不是在讨论两个随机变量的联合概率分布，而是在寻找一个联合概率分布，使得它的边缘分布分别等于给定的两个概率分布。在这个过程中，我们可以有无数种可能的移动策略，每种策略都对应了一个联合概率分布，这个联合概率分布描述了从。，我们需要做的是在这么多种联合概率分布中找到一个最符合条件的，在。距离中，我们需要在所有可能的联合概率分布中寻找最优的那一个。，它们的联合概率分布是确定的，因为它描述了。

2023-07-18 22:06:07 302 1

原创基于值的深度强化学习算法

（不同深度学习框架中的channel的位置可能不一样，在tf中输入的数据是将channel设置在最后一个维度，我们暂以此描述）形式的多维数据，输入数据经过卷积神经网络得到。，将特征向量作为全连接神经网络的输入，得到输出的动作价值函数。，使用完全贪婪算法或者epsilon贪婪算法基于。的值选择对应的动作。DQN2013伪代码。

2023-07-01 21:04:51 383

原创 C++使用#include的时候使用＜＞和““的区别

C++使用#include的时候使用和""的区别

2023-02-06 13:24:21 204 1

原创从键盘中输入文件结束符

怎么从键盘中输入文件结束符

2023-02-06 13:16:03 462

原创物理层基本概念

计算机网络物理层相关概念

2023-01-02 18:33:23 683 1

原创计算机网络体系结构

计算机网络体系结构简介

2023-01-01 20:45:58 2962

原创计算机网络的定义和性能指标

计算机网络的定义和相关性能指标简介

2023-01-01 19:01:25 759

原创计算机网络-交换方式

计算机网络交换方式

2022-12-23 16:21:37 735

原创因特网概述

因特网概述

2022-12-23 14:01:32 1167

转载【转】文本文件和二进制文件的区别

计算机系统中理解文本文件和二进制文件

2022-10-26 20:28:28 368

原创 torch.distributions.Categorical()的简单记录

简单介绍torch.distributions.Categorical()的部分内容

2022-10-10 22:56:05 7669 4

原创 tensorflow实现强化学习DDPG算法

基于tf1.x和tf2.x简单实现强化学习ddpg算法，在gym中验证算法可行性

2022-08-03 10:56:03 1325 6

原创使用git将本地文件上传到远程仓库

操作步骤在文件目录下打开Git，在Git中输入以下指令：git init # 本地文件夹会生成.git文件夹git add . git commit -m 'commit file'添加远程仓库，可以执行git remote add [shortname] [url]命令：git remote add pb https://github.com/paulboone/ticgit # pb为对应仓库的别名，现在可以在命令行中使用pb字符串代替完整的URL使用命令git

2022-02-15 00:20:27 3210

原创【计算机网络】—— 停止-等待协议

目录一、为什么要有停止-等待协议二、研究停止-等待协议的前提三、停止-等待协议有几种应用情况无差错情况有差错情况1、数据帧就是或检测到帧出错2、ACK丢失3、ACK迟到四、停止-等待协议性能分析五、总结一、为什么要有停止-等待协议除了比特出错，底层信道还会出现丢包问题；同时还为了能够实现流量控制；丢包：物理路线故障、设备故障、病毒攻击、路由信息错误等原因，会导致数据包的丢失；二、研究停止-等待协议的前提虽然现在常用全双工通信方式，但为了讨论问题的方便，仅考虑一方发送数据（发送方），一方接收数据（

2021-12-11 16:42:29 3027

原创【计算机网络】——流量控制与可靠传输机制

目录一、数据链路层的流量控制二、流量控制的方法停止-等待协议滑动窗口协议协议比较可靠传输、滑动窗口、流量控制三者关系三、总结一、数据链路层的流量控制较高的发送速度和较低的接收能力的不匹配，会造成传输出错，因此流量控制也是数据链路层的一项重要工作。数据链路层和传输层都有流量控制，数据链路层的流量控制是点到点的，而传输层的流量控制是端到端的。简单理解，传输层存在于发送端主机和接收端主机之间，而数据链路层存在于交换机、路由器等网络节点之间。数据链路层流量控制手段：接收方收不下就不回复确认。传输层流量控制

2021-12-11 16:21:39 2447

原创【计算机网络】—— 差错编码（纠错编码）

目录一、海明码工作流程确定校验码位数r确定校验码和数据的位置求出校验码的值检错并纠错总结海明码：发现双比特错，纠正单比特错；一、海明码工作流程确定校验码位数r海明不等式：2r>=k+r+12^r >= k+r+12r>=k+r+1 r为冗余信息位，k为信息位。确定校验码和数据的位置校验位按照顺序分别放在2的几次方的位置，数据按照顺序把剩余空格填满即可。求出校验码的值假如要求P1P_1P1校验码的实际值，P1P_1P1对应的二进制位为0001，P1P_1P1的二

2021-12-11 14:18:58 1854

原创【计算机网络】—— 差错控制（检错编码）

目录一、差错从何而来？二、数据链路层的差错控制检错编码 —— 奇偶校验码检错编码 —— CRC循环冗余码一、差错从何而来？概括来说，传输中的差错都是由于噪声引起的。全局性噪声：产生原因：由于线路本身电气特性所产生的随机噪声（热噪声），是信道固有的，随机存在的；解决办法：提高信噪比来减少或避免干扰，提高信噪比可以对传感器下手。局部性噪声：产生原因：外界特定的短暂原因所造成的冲击噪声，是产生差错的主要原因；解决办法：通常利用编码技术来解决；造成的差错可以分为以下两种：位错：比特

2021-12-11 13:31:41 2163

原创【计算机网络】—— 封装成帧 & 透明传输

2021-12-10 22:01:22 8387

原创【计算机网络】—— 数据链路层的功能概述

目录一、数据链路层的基本概念二、数据链路层功能概述功能一：为网络层提供服务功能二：链路管理功能三：组帧功能四：流量控制功能五：差错控制（帧错/位错）一、数据链路层的基本概念结点：主机、路由器；链路：网络中两个结点之间的物理通道，链路的传输介质主要有双绞线、光纤和微波。分为有线链路、无线链路。数据链路：网络中两个结点之间的逻辑通道，把实现控制数据传输协议的硬件和软件加到链路上就构成数据链路；帧：链路层的协议数据单元，封装网络层数据报；数据链路层负责通过一条链路从一个结点向另一个物理链路直接

2021-12-10 20:52:38 4582

原创【计算机网络】 —— 标准化工作及相关组织

目录一、标准化对计算机网络至关重要二、标准的分类三、标准化工作四、标准化工作的相关组织五、总结一、标准化对计算机网络至关重要要实现不同厂商的硬、软件之间相互连通，必须遵从统一的标准；二、标准的分类法定标准：由权威机构制定的正式的、合法的标准（OSI）；事实标准：某些公司的产品在竞争中占据了主流，时间长了，这些产品中的协议和技术就成了标准（TCP/IP）；三、标准化工作RFC(Reguest For Comments) —— 因特网标准的形式；RFC要上升为因特网正式标准的四个阶段：因

2021-12-10 20:29:01 1112

原创【计算机网络】—— 概念、组成、功能和分类

目录一、计算机网络的概念二、计算机网络的功能1、数据通信（连通性）2、资源共享3、分布式处理4、提高可靠性5、负载均衡三、计算机网络的组成1、组成部分2、工作方式3、功能组成四、计算机网络的分类五、总结一、计算机网络的概念计算机网络是一个将分散的、具有独立功能的计算机系统，通过通信设备与路线连接起来，由功能完善的软件实现资源共享和信息传递的系统。计算机网络是互联的、自治的计算机集合。互联是指互联互通。自治是指无主从关系，相互间相互独立，可以互相通信，但是无法控制对方。二、计算机网络的功能1、数据

2021-12-10 20:15:12 4328

转载【转载】javascript，声明变量和导入时，大括号的特殊用法

目录1、关于导入时的大括号（据说是ES6引入的特性）2、命名变量时，变量名字在大括号中在看javacript代码的时候，发现在import或者定义变量的时候使用大括号将import的module/function/param或者定义的变量框起来：import { getToken } from '@/utils/auth'let { data } = request()这个大括号代表什么意思呢？为了记录这个问题，特意转载了一篇文章。1、关于导入时的大括号（据说是ES6引入的特性）在Javas

2021-12-10 17:14:24 799

原创 Cocos Creator教程 ——（二）UI系统介绍（上）

目录前言一、Sprite（精灵）二、Label（文字）三、Weight（对齐挂件）四、Layout（自动布局）前言这里会通过一个demo项目去介绍现在的UI系统有生产什么游戏的能力，以及在制作UI的过程中的各种实现细节；Cocos Creator实现了彻底的脚本化、组件化以及数据驱动的特点，还有一个好用的UI系统，现在我们看一个UI的demo；由于视频作者没有提供源代码素材，所以这里只能简单进行素材的替换并进行演示。所有的UI界面的生成都是由UI元素拼装而成，我们会这里会分别介绍Sprite精灵，Lab

2021-10-23 16:03:12 2210

原创 Cocos Creator教程 ——（一）Hello World

目录一、新建项目欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入一、新建项目我们先通过一个简单的项目了解Cocos的基本结构；打开cocos creator，在下面界面中选择"new"，然

2021-10-23 11:09:09 12651

空空如也

空空如也