kill bert-CSDN博客

原创 HTML学习

DOCTYPE html > < html > < head > < meta charset = " utf-8 " > < title > 菜鸟教程(runoob.com) </ title > </ head > < body > < h1 > 我的第一个标题 </ h1 > < p > 我的第一个段落。

2023-06-25 17:08:24 1185

原创 DDPG算法详解

在RL领域，DDPG主要从：PG -> DPG -> DDPG 发展而来。

2023-04-19 16:05:09 1924

什么是策略梯度？直接根据状态输出动作或者动作的概率。那么怎么输出呢，最简单的就是使用神经网络啦！我们使用神经网络输入当前的状态，网络就可以输出我们在这个状态下采取每个动作的概率，那么网络应该如何训练来实现最终的收敛呢？我们之前在训练神经网络时，使用最多的方法就是反向传播算法，我们需要一个误差函数，通过梯度下降来使我们的损失最小。但对于强化学习来说，我们不知道动作的正确与否，只能通过奖励值来判断这个动作的相对好坏。

2023-04-19 10:55:40 135

原创 DQN算法详解

强化学习算法可以分为三大类：value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法，这种算法中只有一个值函数网络，没有policy网络，以及以DDPG,TRPO为代表的actor-critic算法，这种算法中既有值函数网络，又有policy网络。说到DQN中有值函数网络，这里简单介绍一下强化学习中的一个概念，叫值函数近似。一个state action pair 对应一个值函数。

2023-04-17 17:31:37 4198 1

原创 Sarsa VS Q-Learning

Sarsa 是一种on-policy算法，它优化的是它实际执行的策略，它直接用下一步会执行的动作去优化 Q 表格。在学习的过程中，只存在一种策略，它用同一种策略去做动作的选取和优化。所以 Sarsa 知道它下一步的动作有可能会跑到悬崖那边去，它就会在优化自己的策略的时候，尽可能离悬崖远一点。Sarsa 是一种off-policy算法，它优化的是它所有执行的策略，它用下一步会执行的所有动作去优化 Q 表格。在学习的过程中，存在两种策略，它用一种策略去做动作的选取，用另一种策略优化。

2023-04-16 20:51:08 330

原创强化学习笔记一（周博磊）

在deep learning之前，传统CV往往是先提取特征，再训练分类器。RL遇到高维状态也是这样。有了DRL，可以构造一个端到端的模型，同时完成特征提取和“分类”。看了一些value based paper，感觉这类DRL更像是利用强化学习来构造标签，利用神经网络来学习。而policy based DRL更像是在普通分类问题上加了一个Reward作为更新步长的refine。

2023-03-28 10:15:03 95

原创第一章概述

偏好探索指的是，个体在与环境进行交互的过程中，会偏好于从不是自身认为最优的其他可选行为中选取一个并作用于环境:偏好利用则相反，这样的个体更倾向于选择实施自身认为最优的行为。首先这要求个体必须在同一个状态下尝试过相当多次的非最优行为，否则个体推荐的最优行为就是不可靠的，但是尝试过多的非最优行为需要相当多次的学习过程，而且会降低个体的学习效率，这通常是不现实的。牛顿的三大定律没有爱因斯坦的相对论完善准确，这是因为人类的认识在进步，同时人类的观测水平在进步，人类构建的认识宇宙的模型也在不断发展。

2023-03-27 19:36:15 54

原创【无标题】

./ffmpeg -f video4linux2 -s 640x480 -i /dev/video0 -pix_fmt bgr24 -r 30 -c:v libx264 -preset ultrafast -f flv “rtmp://live-push.bilivideo.com/live-bvc/?streamname=live_394195210_50161271&key=681b39cccd3814d298b2935d46e35c20&schedule=rtmp&pflag

2022-05-14 17:46:57 122

原创阅读AAE论文

paper流程图：1Adversarial Autoencoders的核心仍然是利用一个生成器G和一个判别器D进行对抗学习，以区分real data和fake data，但是差别在于这里需要判别真假的data并不是自然图像，而是一个编码向量z，对应的real data和fake data分别由autoencoder中的encoder和一个预定义的随机概率分布生成，最后用于image generation的网络也并非是之前的生成器G，而是autoencoder中的decoder。如果要类比原始GAN的架构

2022-04-17 17:43:08 339

原创 win10 python ffmpeg推流到b站

1.安装ffmpeg下载链接：「ffmpeg」https://www.aliyundrive.com/s/UoRHg9VMA8F下载后将文件夹里面的bin文件添加到环境变量系统变量的path中。pip install ffmpeg pip install ffmpy调用命令行（windows+R输入cmd）输入“ffmpeg –version”2.安装opencvpip install opencv-python3.代码其中rtmpUrl中填入，申请到的服务器地址和串流密钥参考链接

2022-03-28 12:22:09 1425

原创 IoU GIoU DIoU CIoU分析比较

IoU GIoU DIoU CIoU分析比较IoU1. IoU的简介及原理解析2.IOU的应用有哪些？GIoU1.Iou的缺陷2.GIoU的简介及原理解析3.GIoU的性质DIoU & CIoU1.IoU和GIoU的缺点2.DIoU的简介及原理解析3.CIoU的简介及原理解析IoU1. IoU的简介及原理解析IoU 的全称为交并比（Intersection over Union），通过这个名称我们大概可以猜到 IoU 的计算方法。IoU 计算的是 “预测的边框” 和 “真实的边框” 的交集和并

2022-03-25 15:50:42 695

原创【李宏毅机器学习特训营】之优化器Momentum详解

【李宏毅机器学习特训营】之常用优化器a'd【李宏毅机器学习特训营】之优化器Momentum详解传统梯度下降的缺陷一、梯度爆炸二、梯度梯度消失梯度消失解决方法梯度爆炸解决方法传统梯度下降的缺陷一、梯度爆炸误差梯度是神经网络训练过程中计算的方向和数量，用于以正确的方向和合适的量更新网络权重。在深层网络或循环神经网络中，误差梯度可在更新中累积，变成非常大的梯度，然后导致网络权重的大幅更新，并因此使网络变得不稳定。在极端情况下，权重的值变得非常大，以至于溢出，导致 NaN 值。网络层之间的梯度（值大于 1

2021-04-22 21:02:50 1004

原创树莓派4B 镜像烧录和模型部署 64位

文章目录前言一、我的前期准备二、配置步骤1.下载文件并编译文件2.部署总结前言最近做项目需要将训练好的图像分类模型部署到树莓派上，将步骤记录下来，让需要的人参考一、我的前期准备1.使用百度开源框架训练的模型，差不多每句代码都有注释2.树莓派4B/8G（供电为5v 3A 这个很重要）键盘鼠标显示屏3.镜像文件（这个镜像里面没有vnc需要自己安装）提取码：g4rz4.烧入镜像文件如何没有显示屏键盘和鼠标可以在网上找没有显示屏的配置方法，使用自己的笔记本去控制树莓派，这个我没有试，

2021-03-26 23:26:49 698 1

原创基于百度深度学习框架paddle训练一个分类模型

https://aistudio.baidu.com/aistudio/projectdetail/1702953欢迎fork

2021-03-26 22:01:24 204

转载工业相机

https://blog.csdn.net/iflyme/article/details/85775710线扫相机和镜头的选型[1] 相机选型步骤：已知：幅宽为200mm、检测精度为0.1mm/pixel、运动速度为100mm/s、物距500mm(1). 相机像素=幅宽/检测精度=200mm/0.1mm/pixel=2000pixel，最少需要2000个像素，选定为2K相机；(2). 实际检测精度=幅宽/实际像素=200mm/2000pixel=0.1mm/pixel(3).扫描行频=运动速度.

2021-03-18 21:11:24 3114

转载用SPSS对参数进行正态性检验

https://jingyan.baidu.com/article/cb5d6105dc57b6005c2fe016.html

2020-07-23 10:23:04 369

原创用stata进行回归的参数解释

SS离均差平方和:df自由度;MS均方差;F模型回归系数全为0的无效假设检验对应的F值:Prob>F为F检验相应的p值;Model为回归项:对应为回归平方和和回归均方差Residual残差项，对应为残差平方和、残差自由度和残差均方和:R-squared为决定系数:Adj R-squared为调整自由度后的决定系数:Total为残差均方和的根号;Coef回归系数;Std.Err回归系数的标准误:t回归系数检验的t值;p>|t|回归系数检验相应的p值;95%回归系数的95

2020-07-23 10:10:16 11195

原创效用曲线

什么是效用曲线效用曲线是用于反映决策者对风险态度的一种曲线。又称"偏好曲线"。在决策中，决策者的个性、才智、胆识、经验等主观因素，使不同的决策者对相同的益损问题 (获取收益或避免损失)作出不同的反应；即使是同一决策者，由于时间和条件等客观因素不同，对相同的益损问题也会有不同的反应。决策者这种对于益损问题的独特感受和取舍，称之为“效用”。效用曲线就是用来反映决策后果的益损值对决策者的效用(即益损值与效用值)之间的关系曲线。通常以益损值为横坐标，以效用值为纵坐标，把决策者对风险态度的变化在此坐标系中描点而拟合

2020-07-17 15:29:17 4802

原创模型的灵敏性分析

原文链接一个简单的数学规划求最大值问题：一头猪重 200 磅，每天增重 5 磅，饲养每天需花费 45 美分。猪的市场价格为每磅 65 美分，但每天下降 1 美分，求出售猪的最佳时间。求：y=f（x）=（0.65-0.01x)(200+5x)-0.45x最大值时的x值（8，133.20 ）为f 在整个实轴上的全局极大值点灵敏度分析数据是由测量，观察有时甚至完全猜测得到的，因此，我们要考虑数据不准确的可能性。上例中，生猪现在的重量，现在的价格，每天饲养花费都很容易测量，而且有相当大的确定性。

2020-07-16 19:20:06 6785