韭菜盖饭-CSDN博客

原创 nginx部署前端教程

一般来说现在的软件项目，都是分用户端以及管理端的，并且是前后端分离的，这里我来记录一下部署两个前端的教程。部署前端之前需要的准备工作是部署springBoot后端程序，这里我来对后端程序进行部署docker compose部署springboot+redis+mysql这里我的后端接口地址为centos安装nginx准备还以上的工具就可以继续往下走了。

2024-04-07 20:13:17 1533 1

原创强化学习------Actor-Critic(A2C)算法(附pytorch代码)

算法是一种基于策略梯度和价值函数的强化学习方法，通常被用于解决连续动作空间和高维状态空间下的强化学习问题。该算法将一个Actor网络和一个Critic网络组合在一起，通过Actor网络产生动作，并通过Critic网络估计状态值函数或状态-动作值函数，最终通过策略梯度算法训练Actor网络和Critic网络。算法的优点是在处理大型状态空间时具有较高的效率和可扩展性。

2024-03-16 19:56:18 1565 3

原创强化学习------DDPG算法(附pytorch代码)

算法是DeepMind团队提出的一种专门用于解决连续控制问题的在线式(on-line)深度强化学习算法，它其实本质上借鉴了算法里面的一些思想。本文将会介绍其基本原理，并实现DDPG算法来训练游戏的例子。

2024-03-16 19:21:11 1105

智能图像处理、文字表格识别、文档内容提取产品的背景源自于人工智能技术的快速发展和广泛应用。随着计算机视觉和自然语言处理技术的不断进步，人工智能在图像处理和文字识别领域取得了巨大的突破，使得这些产品能够实现更加精准和高效的功能。在图像处理方面，智能图像处理产品能够识别图像中的各种物体、场景和特征，并进行自动标注和分类。这使得用户能够快速找到他们需要的信息，提高工作效率。同时，这些产品还能够对图像进行修复和增强，提高图像的质量和清晰度。

2024-01-30 13:40:56 1132

原创 SpringBoot整合七牛云

最近在做有关文件上传得项目，一般来说服务器足够大，将图片上传到本地服务器倒也够用，但是如果我们得服务器过小，或者随着运营时间推进，图片资源将占用服务器大量得空间，这时候，我们可以考虑使用OSS对象存储。对象关系存储。OSS是在云上提供无层次结构的分布式存储产品，为用户提供单价较低且快速可靠的数据存储方案。简单点：用户把静态数据如图片、视频、js、html、css等等放入到Bucket中，然后每个数据对象会得到一个唯一的访问地址，客户端只需要通过REST API去获取资源就行了。

2024-01-30 12:15:03 1029

原创 H5网页跳转支付宝进行支付

支付链接可以是返回的二维码链接。

2024-01-22 18:24:44 1625

原创 SpringBoot对接支付宝当面付

支付宝当面付相比较微信支付的门槛比较低，但是无论对接微信支付还是支付宝支付都是比较麻烦的一件事，这里来记录一下对接支付宝当面付的过程。我这里已经注册好了支付宝当面付的环境支付宝当面付申请设置教程，支持个人用户。

2024-01-22 16:53:40 458

原创大数据----基于sogou.500w.utf8数据的MapReduce编程

最近学习大数据的知识，需要做一些有关的实验实验内容是在数据的基础上进行的。1、统计出搜索过包含有“仙剑奇侠传”内容的UID及搜索关键字记录2、统计rank<3并且order>2的所有UID及数量3、上午7-9点之间，搜索过“赶集网”的用户UID4、通过Rank：点击排名对数据进行排序该实验是在已经搭建好Hadoop集群的基础上进行的，如果还没有搭建，请参考以下文章进行集群搭建。

2023-12-24 21:25:13 1220

原创大数据----MapReduce实现统计单词

是一个编程框架，它可以轻松地编写应用程序，以可靠的、容错的方式处理大量的数据(数千个节点)。正如其名，MapReduce的工作模式主要分为Map阶段和Reduce阶段。一个MapReduce任务（Job）通常将输入的数据集分割成独立的块，这些块被map任务以完全并行的方式处理。框架对映射（map）的输出进行排序，然后将其输入到reduce任务中。通常，作业的输入和输出都存储在文件系统中。框架负责调度任务、监视任务并重新执行失败的任务。在Hadoop集群中，计算节点一般和存储节点相同，即。

2023-12-24 16:57:41 525

原创强化学习------Policy Gradient算法公式推导

算法是一种基于策略的强化学习算法，与基于值的方法（如Q-learning和DQN）不同。基于值的方法主要关注于学习值函数（如状态值函数或者动作值函数），然后通过值函数来选择最优的动作。而算法则直接优化策略函数，通过梯度上升来最大化长期累积奖励。简单来说基于策略的算法给出了智能体在特定状态下应该采取的动作的概率分布基于值的算法是给出智能体在特定状态下每一个动作的Q值策略梯度（）是基于策略搜索方法中最基础的方法，要理解ACDDPG需要先学习策略梯度。学习策略梯度（），要明白其原理，更是离不开其公式的推导。

2023-12-18 10:17:22 147

原创 Python多线程threading的使用方法

有时候，我们在编写Python程序时，会遇到比较耗时的函数方法，我们的需求是等这个耗时的函数执行完毕之后，在执行后面的程序，这时候就需要用到多进程。下面我们来举一个使用多进程threading的例子。

2023-12-14 11:26:39 80

原创 linux配置python环境

对上传到服务器的文件进行解压。

2023-12-12 16:01:45 532

原创 conda常用命令

什么是conda?AIConda是一个流行的开源软件包管理系统和环境管理系统，用于安装和管理软件包以及创建和管理虚拟环境。它可以在Linux、macOS和Windows等多个操作系统上使用。Conda可以用于安装Python及其各种库和框架，例如NumPy、Pandas、TensorFlow、PyTorch等。Conda可以轻松地创建和管理虚拟环境，这对于在不同项目之间切换和管理依赖项非常有用。虚拟环境可以隔离不同项目的依赖项，避免版本冲突和其他问题。

2023-12-11 21:18:09 144

原创实现TensorBoard可视化网络的参数

最近在做神经网络相关的实验，为了方便神经网络参数是否变化，学习一下TensorBoard可视化网络的参数的方法，这里使用pytorch实现。

2023-12-11 19:54:42 108

原创 GoogleColab修改python版本

使用时，发现项目运行不了，经过排查之后，发现是python版本的问题，之前的项目在本地测试是python版本是3.7，但是的python版本是3.10，所以需要修改python版本，下面记录一下过程。

2023-12-06 20:54:45 1183 2

原创强化学习------时序差分（Temporal-Difference Learning）

时序差分方法（Temporal-Difference Learning）简称TD算法是强化学习中非常经典的一种方法，Sarsa算法和Q-learning算法都是基于时序差分这种方法的。强化学习分为基于模型和不基于模型的方法基于模型的方法：是一种通过建立对环境的模型来预测状态和行动结果，然后基于这些预测来制定最优策略的方法在基于模型的强化学习中，智能体会尝试建立一个对环境的内部模型，该模型可以预测在给定状态下采取某个行动后可能产生的下一个状态，以及相应的奖励。

2023-12-03 17:35:49 209

原创强化学习------贝尔曼方程

最近在学习强化学习的内容，为了更加方便理解强化学习中的各种算法与底层原理，学习了贝尔曼方程以及最优公式，特此记录强化学习的数学原理什么是贝尔曼方程？贝尔曼方程，又叫动态规划方程，是以Richard Bellman命名的，表示动态规划问题中相邻状态关系的方程。某些决策问题可以按照时间或空间分成多个阶段，每个阶段做出决策从而使整个过程取得效果最优的多阶段决策问题，可以用动态规划方法求解。

2023-11-23 10:12:41 323

原创 Python读取csv文件并绘制曲线

有时候我们的数据保存在csv文件中，但是想要更加直观的看出数据的好坏，最好利用matplotlib来画出曲线图。

2023-11-12 09:29:48 692

原创 linux后台运行python脚本

我们在运行程序时，有的程序花费时间较多，但我们总不能一直看着程序运行，所以我在这里记录一下，Linux服务器如何后台运行我们的脚本程序。

2023-10-31 15:01:49 620

原创强化学习------DDQN算法

DQN算法DQN算法有一个显著的问题，就是DQN估计的Q值往往会偏大。这是由于我们Q值是以下一个s’的Q值的最大值来估算的，但下一个state的Q值也是一个估算值，也依赖它的下一个state的Q值…，这就导致了Q值往往会有偏大的的情况出现。所以出现了对DQN算法的改进算法算法。

2023-10-30 22:48:53 847

原创强化学习------PPO算法

PPO算法之所以被提出，根本原因在于在处理连续动作空间时取值抉择困难。取值过小，就会导致深度强化学习收敛性较差，陷入完不成训练的局面，取值过大则导致新旧策略迭代时数据不一致，造成学习波动较大或局部震荡。除此之外，因为在线学习的性质，进行迭代策略时原先的采样数据无法被重复利用，每次迭代都需要重新采样；同样地置信域策略梯度算法虽然利用重要性采样、共轭梯度法求解提升了样本效率、训练速率等，但在处理函数的二阶近似时会面临计算量过大，以及实现过程复杂、兼容性差等缺陷。而PPO算法具备。

2023-10-27 23:05:26 6471 3

原创 Google Colab免费GPU使用教程

有时候本地跑代码可能耗时比较久，而且还会耽误你本地电脑的使用，购买云服务器又不舍得买，所以我们可以使用谷歌的免费服务器，可以使用GPU跑代码Google Colab官网是一个免费的基于云端的Jupyter笔记本环境，由Google提供。它提供了一个方便的平台，使用户可以创建、分享和协作编写Python代码和机器学习模型。以下是是免费的，无需购买任何硬件或软件。使用Google的云端计算机，使用户能够在云端上运行代码，而不必担心自己的电脑性能和存储空间。Jupyter基于Jupyter。

2023-10-21 15:23:04 3363

原创强化学习------Policy Gradient算法

之前的都是通过计算动作得分来决策的，我们是在确定了价值函数的基础上采用某种策略，即，通过先算出价值函数，再去做决策。而算法是一种直接的方法，我们直接去评估策略的好坏，然后进行选择。即。智能体通过与环境的交互获得特定时刻的状态信息，并直接给出下一步要采取各种动作的概率，然后根据该状态动作的策略分布采取下一步的行动，所以每种动作都有可能被选中，只是选中的概率性不同。智能体直接学习状态动作的策略分布，在强化学习的训练中，用神经网络来表示状态动作分布，给一个状态，就会输出该状态下的动作分布。

2023-10-17 15:17:17 170

原创进化策略算法

进化策略后面都简称ES，其本质就是：种群通过交叉产生后代，我们只保留较好的父代和子代，一直这样迭代下去，父代产生后代，然后将后代DNA和原来的父母DNA合并，然后根据适应度排序，然后选取前POP_SIZE的个体，重新组成一个种群微生物进化算法（MGA）遗传算法前两个文章都是以长度大于1的列表当作DNA序列，本次我们用实数来代替，即DNA就是一个实数，长度为1选好父母进行繁殖 (GA);先繁殖, 选好的孩子 (ES)通常用二进制编码 DNA (GA);

2023-10-16 12:13:01 251

原创遗传算法------微生物进化算法（MGA）

GA算法遗传算法 (GA)的问题在于没有有效保留好的父母 (Elitism), 让好的父母不会消失掉.(后面统称 MGA) 就是一个很好的保留Elitism的算法.一句话来概括: 在袋子里抽两个球, 对比两个球, 把球大的放回袋子里, 把球小的变一下再放回袋子里, 这样在这次选着中,大球不会被改变任何东西, 就被放回了袋子, 当作下一代的一部分.MGA算法与GA算法的本质区别在于，MGA算法对适应度较好的个体进行了保留，并将适应度较好的个体的DNA复制给较差的DNA个体并进行变异操作。

2023-10-15 21:17:12 256

原创遗传算法------代码示例

遗传算法就是在一个解空间上，随机的给定一组解，这组解称为父亲种群，通过这组解的交叉，变异，构建出新的解，称为下一代种群，然后在目前已有的所有解中抽取表现好的解组成新的父亲种群，然后继续上面的过程，直到达到了迭代条件或者获取到了最优解。进化算法流程框架下面我们来解释下这个流程图里面的一些概念适应度所谓的适应度，本质上可以理解为一个代价函数，或者一个规则，通过对初始种群中的个体计算适应度，能够得到对初始种群中的个体是否优劣的一个度量选择。

2023-10-15 11:00:31 417

原创 Hadoop分布式集群搭建教程

大数据课程需要搭建Hadoop分布式集群，在这里记录一下搭建过程。

2023-10-11 23:17:24 1300 1

原创 pytorch学习------TensorBoard的使用

建好一个神经网络，其实我们也不知道神经网络里头具体细节到底做了什么，要人工调试十分困难(就好比你无法想象出递归的所有步骤一样)。有了，可以将TensorFlow程序的执行步骤都显示出来，非常直观。并且，我们可以对训练的参数(比如loss值)进行统计，用图的方式来查看变化的趋势。可以用于记录训练数据、评估数据、网络结构、图像等，并且可以在web上展示，对于观察神经网络的过程非常有帮助。PyTorch也推出了自己的可视化工具，一个是包，一个是，二者的使用相差不大，这里介绍后者。

2023-10-09 22:34:07 558

原创强化学习------DQN算法

DQN，即深度Q网络（），是指基于深度学习的Q-Learing算法。Q-Learing算法维护一个Q-table，使用表格存储每个状态s下采取动作a获得的奖励，即状态-价值函数Q(s,a)，这种算法存在很大的局限性。在现实中很多情况下，强化学习任务所面临的状态空间是连续的，存在无穷多个状态，这种情况就不能再使用表格的方式存储价值函数。为了解决这个问题，我们可以用一个函数Q(s,a;w)来近似动作-价值Q(s,a)

2023-10-08 22:05:57 1063

原创强化学习------Qlearning算法

Q learning算法是一种的强化学习算法，Q是quality的缩写，Q函数 Q(state，action)表示在状态state下执行动作action的quality，也就是能获得的Q value是多少。算法的目标是最大化Q值，通过在状态state下所有可能的动作中选择最好的动作来达到最大化期望reward。Q learning算法使用Q table来记录不同状态下不同动作的预估Q值。

2023-10-07 22:42:51 1312

原创强化学习------Sarsa算法

是一个学习马尔可夫决策过程策略的算法，通常应用于机器学习和强化学习学习领域中。它由Rummery和Niranjan在技术论文“” 中介绍了这个算法，并且由Rich Sutton在注脚处提到了SARSA这个别名。这个名称清楚地反应了其学习更新函数依赖的5个值，分别是当前状态S1，当前状态选中的动作A1，获得的奖励RewardS1状态下执行A1后取得的状态S2及S2状态下将会执行的动作A2。我们取这5个值的首字母串起来可以得出一个词SARSA。

2023-10-07 22:02:35 1109

原创 git回滚到指定版本

参考：https://www.bmabk.com/index.php/post/123247.html

2023-10-01 10:13:05 39

原创 pytorch学习------实现文本情感分类

本案例主要是学习这种常用的文本向量化的方法现在我们有一个经典的数据集IMDB，这是一份包含了5万条流行电影的评论数据，其中训练集25000条，测试集25000条。数据格式如下：下图左边为名称，其中名称包含两部分，分别是序号和情感评分，（1-4为neg，5-10为pos），右边为评论内容根据上述的样本，需要使用pytorch完成模型，实现对评论情感进行预测。

2023-09-25 14:30:24 228

原创 pytorch学习------实现手写数字识别

黑白图片的通道数只有1，其中每个像素点的取值为[0,255],彩色图片的通道数为(R,G,B),每个通道的每个像素点的取值为[0,255]，三个通道的颜色相互叠加，形成了各种颜色。，shape和图片的通道数相同(指的是每个通道的均值)，方差：std，和图片的通道数相同(指的是每个通道的方差)，将会把。如果mean(x)不是全部数据的mean的时候，std(y)也不是的时候，Normalize后的数据分布满足下面的关系。当mean为全部数据的均值，std为全部数据的std的时候，才是进行了标准化。

2023-09-24 10:06:33 99