Scc_hy-CSDN博客

原创强化学习_06_pytorch-PPO实践(Hopper-v4)

针对之前的PPO做了主要以下优化：1. `batch_normalize`: 在`mini_batch` 函数中进行adv的normalize, 加速模型对adv的学习2. `policyNet`采用`beta`分布(0~1): 同时增加MaxMinScale 将beta分布产出值转换到action的分布空间3. 收集多个`episode`的数据，依次计算adv，后合并到一个dataloader中进行遍历：加速模型收敛

2024-02-28 23:29:27 516

原创 LLM_InterLM-Demo学习

在多项视觉语言大模型的主流评测上均取得了最佳性能，包括MME Benchmark (英文评测), MMBench (英文评测), Seed-Bench (英文评测), CCBench(中文评测), MMBench-CN (中文评测).模型理解题意生成解此题的 Python 代码，Lagent 调度送入 Python 代码解释器求出该问题的解。设计了高效的训练策略，为模型注入海量的多模态概念和知识数据，赋予其强大的图文理解和对话能力。的封装，同时通过ssh将端口映射到本地，资源占用的时服务器的资源。

2024-01-08 21:13:03 996

原创强化学习_06_pytorch-TD3实践(CarRacing-v2)

TD3征服CarRacing-v2环境，对环境的调整已经actor-critic网络构建经验分享

2023-12-24 16:48:13 1665 1

原创【论文解读】ICLR2023 TimesNet: TEMPORAL 2D-VARIATION MODELING FOR GENERAL TIME SERIES ANALYSIS

实时序列通常具有多个周期性，如天气观测的日变化和年变化，电力消耗的周变化和季度变化每个时间点的变化不仅受其相邻区域的时间模式（周期内变化）的影响，而且与相邻周期的变化（周期间变化）高度相关。对于没有明确周期性的时间序列，其变化将以周期内变化为主，相当于具有无限周期长度的时间序列。（这类数据理论上很难进行长期预测）受多周期性和周期内及周期间复杂相互作用的启发，我们找到了一种时间变化建模的模块化方法。笔者思考：没有考虑到特定的人为因素的影响。

2023-11-15 00:19:36 650 3

原创【论文解读】元学习：MAML

元学习的目标是在各种学习任务上训练模型，这样它就可以只使用少量的训练样本来解决新任务。论文所提出的。该算法与任何用梯度下降训练的模型兼容，适用于各种学习问题，包括分类、回归和强化学习。论文中表明，该算法在基准上达到了SOTA的性能，在上也产出了良好的结果，。

2023-09-11 01:20:15 583

原创【论文解读】终生学习LLL-正则化方法：Memory Aware Synapses

AMS可以在无监督和在线学习中计算网络参数的重要性。给与新数据可以计算出网络参数的特征重要性，基于模型数据的L2范数的平方，其参数的梯度反应新数据预测的敏感性，将其作为权重，让其保守变化，提高模型的泛化能力和减少模型的复杂度。首次将，这可能会因测试条件而异。

2023-07-22 22:42:50 247

原创 Linux-gym mujoco安装

在ubuntu22.4 python3.10的环境中安装mujoco 折腾了半天，记录下。

2023-07-19 22:13:48 651

原创【论文解读】2017 STGCN: Spatio-Temporal Graph Convolutional Networks

使用历史速度数据预测未来时间的速度。同时用于序列学习的RNN(GRU、LSTM等)网络需要迭代训练，它引入了逐步累积的误差，并且RNN模型较难训练。为了解决以上问题，我们提出了新颖的深度学习框架STGCN，用于交通预测。

2023-07-19 00:01:55 930 1

原创机器学习_预测概率校准

我们在建模时通常根据准确性或准确性来评估其预测模型，但几乎不会问自己：“我的模型能够预测实际概率吗？但是，从商业的角度来看，准确的概率估计是非常有价值的（准确的概率估计有时甚至比好的精度更有价值）。来看一个例子。AB两个模型的AUC一样。但是根据模型A，你可以通过推荐普通马克杯来最大化预期的利润，然而根据模型B，小猫马克杯可以最大化预期的利润。在像这样的现实应用中，搞清楚哪种模型能够估算出更好的概率是至关重要的事情。

2023-06-14 22:31:21 2380 4

原创 LLM_文本生成评估指标

一个单词只计算它在引用中出现的次数。Example: 计算 ROUGE1。可以看出包内的计算原理同上述。可以看出包内的计算原理同上述。Example: 计算。

2023-05-16 21:39:15 772

原创强化学习_06_pytorch-TD3实践(BipedalWalkerHardcore-v3)

DDPG的critic会高估, 从而导致actor策略失败。TD3是增加了三个关键技巧优化DDPG。经过优化后的TD3(Twin Dalayed DDPG 双延迟深度确定性策略梯度算法)适合于具有高维连续动作空间的任务。

2023-05-07 21:28:19 1175 6

原创 LLM__llama-7B模型试验

llama模型已经开源很久了，所以拿做小的模型做了个简单尝试。

2023-04-19 22:43:25 3628 7

原创深度学习_Learning Rate Scheduling

我们在训练模型时学习率的设置非常重要。我们可以通过学习率时间表（）有效地管理准确性。

2023-04-05 17:16:11 1336 1

原创数据结构_哈夫曼树(python实现)

哈夫曼树是一种重要的数据结构，用于压缩和编码数据。它由经典的数学家和计算机科学家大卫哈夫曼在20世纪50年代发明。哈夫曼树的目的是为了在编码和解码数据中，尽可能地减少所需的比特数。换句话说，它可以将大量数据压缩为在传输过程中所需的最小比特数。在NLP领域的词向量开篇制作Word2Vec中用到了一种softmax优化方法——层次softmax，就是将词频编码成哈夫曼树的形式，然后，（以skip-gram为例）在样本[v, w]进入模型前，将周围词w，基于哈夫曼树映射成从根到叶路径两个方向路径，最终组成。

2023-03-20 23:32:52 1194

原创数据结构_图优化-最小费用最大流MCMF（python解）

线性规划问题有一个有趣的特性，即所有求极大的问题都有一个与其匹配的求极小的线性规划问题。我们通过求解一个问题的对偶问题，再加以转化就可以得到原始问题的解。

2023-03-08 00:16:04 1071 4

原创数据结构_栈及栈的应用非递归快速排序

O(1)O(n)

2023-02-24 23:40:21 441

原创强化学习_06_pytorch-DDPG实践(Pendulum-v1)

PPO这类算法都是在线策略算法，样本效率（sample efficiency）较低。像DQN算法，是直接估计最优价值函数，可以做离线策略学习，但是它只能处理动作空间有限的环境。吸收DQN的优点，同时弥补PPO这类算法的缺陷，DDPG（deep deterministic policy gradient）就顺应而生。它构造一个确定性策略，用梯度上升的方法来最大化值。DDPG 也属于一种 Actor-Critic 算法。REINFORCE、TRPO 和 PPO 学习随机性策略（Actor。

2023-01-18 23:41:05 2572

原创强化学习_06_pytorch-PPO实践(Pendulum-v1)

TRPO(Trust Range Policy Optimate)算法每一步更新都需要大量的运算，于是便有其改进版本PPO在2017年被提出。PPO 基于 TRPO 的思想，但是其算法实现更加简单。TRPO 使用泰勒展开近似、共轭梯度、线性搜索等方法直接求解。PPO 的优化目标与 TRPO 相同，但 PPO 用了一些相对简单的方法来求解。具体来说, PPO 有两种形式，一是PPO-惩罚，二是PPO-截断，我们接下来对这两种形式进行介绍。

2023-01-05 21:52:56 2287 7

原创强化学习_06_pytorch-doubleDQN实践(Pendulum-v1)

环境是倒立摆（Inverted Pendulum），该环境下有一个处于随机位置的倒立摆。环境的状态包括倒立摆角度的；动作为对倒立摆施加的力矩()。每一步都会根据当前倒立摆的状态的好坏给予智能体不同的奖励，该环境的奖励函数为，倒立摆向上保持直立不动时奖励为 0，倒立摆在其他位置时奖励为负数。环境本身没有终止状态，所以训练的时候需要设置终止条件(笔者在本文设置了260)。

2022-12-13 10:51:34 1411 4

原创【论文解读】CIKM 2022: STID: A Simple yet Effective Baseline for Multivariate Time Series Forecasting

STGNNs在多维序列预测中表现超前，所以近期的多数研究都是基于此进行。而本文提出了基于序列、时间、空间编码，的简单Spatial and Temporal IDentity (STID)模型结构。其效果在多维序列预测任务上运行速度快，同时效果好，效果比邻甚至超越STGNNs。论文的背景知识，前人的工作等多序列预测往往之间具有一定的相关性。

2022-11-23 02:08:15 2879 5

原创深度学习_用LSTM+Attention与Self-Attention

笔者在重新尝试用深度学习的各个模型对序列进行预测，就LSTM进行一些使用记录。

2022-10-23 23:57:28 3329

原创机器学习_LightGBM callback示例

lightgbm在train的时候有callback的接口，我们需要将训练过程的损失下降情况进行记录就需要这个接口。本文笔者就是以记录训练迭代过程的损失为出发点，写一个简单的lightgbm中callback的使用方法。

2022-10-18 22:05:31 3671 5

原创多目标线性规划——pulp

现在的问题是如何选择α。在这种情况下，典型的方法是确定有效边界。在经济学中，例如被称为“最佳最优”。

2022-10-15 17:40:06 1770

原创机器学习_kedro+mlfow使用简单示意

kedro用来构建可复用，易维护，模块化的机器学习代码。相比于Notebook的超级灵活性,便于探索数据和算法， Kedro 定位于解决版本控制，可复用性，文档，单元测试，部署等工程方面的问题。

2022-10-15 16:52:56 722

原创算法技能树——子集

给你一个整数数组 nums ，数组中的元素互不相同。返回该数组所有可能的子集（幂集）。解集不能包含重复的子集。你可以按任意顺序返回解集。示例 1：输入：nums = [1,2,3]示例 2：输入：nums = [0][[],[0]]提示：nums 中的所有元素互不相同。

2022-09-13 11:50:13 299 1

原创机器学习_kedro框架使用简单示意

kedro用来构建可复用，易维护，模块化的机器学习代码。相比于Notebook的超级灵活性,便于探索数据和算法，Kedro 定位于解决版本控制，可复用性，文档，单元测试，部署等工程方面的问题。

2022-09-05 23:42:58 1115

原创 PID原理及python简单实现与调参

pid = 比例控制(基本控制) + 积分控制（消除稳态误差）+微分控制（减少震荡）U(t)=Kp∗errort+Ki∑i=0terrori+Kd∗(errort−errort−1)U(t)=Kp∗errort+Kii=0∑terrori+Kd∗(errort−errort−1)KpK_pKp。...

2022-08-15 22:12:13 3993 10

原创 tqdm高级使用方法(类keras进度条)

在很多场景，我们希望对一个进度条标识其运行的内容()，同时也希望在进度条中增加一些信息，如模型训练的精度等。本文就将基于tqdm，在实际应用中充实进度条。

2022-08-09 22:05:42 855 10

原创机器学习_LGB调参汇总（开箱即食）

在数据层面的一些正负采样，业务层面一些数据筛选，以及异常值的处理后。我们进行模型训练，同时需要对模型进行参数的调整，以提升模型的精度。笔者就一些现有的调参框架进行汇总。

2022-08-08 23:20:22 3131 5

原创算法技能树——放棋子(递归)

今有6×6的棋盘，其中某些格子已预放了棋子。现在要再放上去一些，使得每行每列都正好有3颗棋子。最多有多少种放法？需要每次都计算行和列，所以需要做好准备工作三、解题因为存在多种填充解，显然可以用递归遍历多个路径。我们可以先用循环写出一个路径，然后再逐步改成递归3.2 递归修改从循环中我们可以得到一个终止条件:几个进入下一个递归的条件:同时我们需要构建一个直接下一步的辅助递归函数，从下列的实现我们可以看出基本是和循环一致的，仅仅是将循环的一些跳跃动作用连接。增加了多种可能性的探索将下棋的点不

2022-07-07 01:17:37 270

原创算法技能树——字母矩阵(动态数组)

仔细寻找,会发现:在下面的8x8的方阵中,隐藏着字母序列:“LANQIAO”。SLANQIAOZOEXCCGBMOAYWKHIBCCIPLJQSLANQIAORSFWFNYAXIFZVWALCOAIQNAL我们约定: 序列可以水平,垂直,或者是斜向;并且走向不限(实际上就是有一共8种方向)。上面一共有4个满足要求的串。总共存在8个方向，但是其中两两是相反的，所以我们有四种模式的搜索：...

2022-06-27 12:57:29 1001

原创 python3调用Dubbo_直连 & socket连接（hession序列化）

公司后端很多都是dubbo接口，python调用就回存在难题。网上的一些连接方法很多都是基于python2的；有的是基于直连，这个方法存在一些监控及安全问题，所以需要通过socket方法建立安全链接，但是该方法就存在序列化(hession)的问题。于是就结合pydubbo包，以及网上大家一些现有探索，做总结并整合简单调用三、python 通过socket及hession序列化链接Dubbosocket连接相关知识af 为地址族（Address Family），也就是 IP 地址类型，常用的有 AF

2022-06-11 23:06:00 890

智慧海洋_data.zip

mnist-riginal(手写识别常用数据)

空空如也