自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大道至简

深度学习、强化学习

  • 博客(168)
  • 资源 (2)
  • 收藏
  • 关注

原创 强化学习_06_pytorch-PPO实践(Hopper-v4)

针对之前的PPO做了主要以下优化:1. `batch_normalize`: 在`mini_batch` 函数中进行adv的normalize, 加速模型对adv的学习2. `policyNet`采用`beta`分布(0~1): 同时增加MaxMinScale 将beta分布产出值转换到action的分布空间3. 收集多个`episode`的数据,依次计算adv,后合并到一个dataloader中进行遍历:加速模型收敛

2024-02-28 23:29:27 516

原创 LLM_InterLM-Demo学习

在多项视觉语言大模型的主流评测上均取得了最佳性能,包括MME Benchmark (英文评测), MMBench (英文评测), Seed-Bench (英文评测), CCBench(中文评测), MMBench-CN (中文评测).模型理解题意生成解此题的 Python 代码,Lagent 调度送入 Python 代码解释器求出该问题的解。设计了高效的训练策略,为模型注入海量的多模态概念和知识数据,赋予其强大的图文理解和对话能力。的封装,同时通过ssh将端口映射到本地,资源占用的时服务器的资源。

2024-01-08 21:13:03 996

原创 强化学习_06_pytorch-TD3实践(CarRacing-v2)

TD3征服CarRacing-v2环境,对环境的调整已经actor-critic网络构建经验分享

2023-12-24 16:48:13 1665 1

原创 【论文解读】ICLR2023 TimesNet: TEMPORAL 2D-VARIATION MODELING FOR GENERAL TIME SERIES ANALYSIS

实时序列通常具有多个周期性,如天气观测的日变化和年变化,电力消耗的周变化和季度变化每个时间点的变化不仅受其相邻区域的时间模式(周期内变化)的影响,而且与相邻周期的变化(周期间变化)高度相关。对于没有明确周期性的时间序列,其变化将以周期内变化为主,相当于具有无限周期长度的时间序列。(这类数据理论上很难进行长期预测)受多周期性和周期内及周期间复杂相互作用的启发,我们找到了一种时间变化建模的模块化方法。笔者思考:没有考虑到特定的人为因素的影响。

2023-11-15 00:19:36 650 3

原创 【论文解读】元学习:MAML

元学习的目标是在各种学习任务上训练模型,这样它就可以只使用少量的训练样本来解决新任务。论文所提出的。该算法与任何用梯度下降训练的模型兼容,适用于各种学习问题,包括分类、回归和强化学习。论文中表明,该算法在基准上达到了SOTA的性能,在上也产出了良好的结果,。

2023-09-11 01:20:15 583

原创 【论文解读】终生学习LLL-正则化方法:Memory Aware Synapses

AMS可以在无监督和在线学习中计算网络参数的重要性。给与新数据可以计算出网络参数的特征重要性,基于模型数据的L2范数的平方,其参数的梯度反应新数据预测的敏感性,将其作为权重,让其保守变化,提高模型的泛化能力和减少模型的复杂度。首次将,这可能会因测试条件而异。

2023-07-22 22:42:50 247

原创 Linux-gym mujoco安装

在ubuntu22.4 python3.10的环境中安装mujoco 折腾了半天,记录下。

2023-07-19 22:13:48 651

原创 【论文解读】2017 STGCN: Spatio-Temporal Graph Convolutional Networks

使用历史速度数据预测未来时间的速度。同时用于序列学习的RNN(GRU、LSTM等)网络需要迭代训练,它引入了逐步累积的误差,并且RNN模型较难训练。为了解决以上问题,我们提出了新颖的深度学习框架STGCN,用于交通预测。

2023-07-19 00:01:55 930 1

原创 机器学习_预测概率校准

我们在建模时通常根据准确性或准确性来评估其预测模型,但几乎不会问自己:“我的模型能够预测实际概率吗?但是,从商业的角度来看,准确的概率估计是非常有价值的(准确的概率估计有时甚至比好的精度更有价值)。来看一个例子。AB两个模型的AUC一样。但是根据模型A,你可以通过推荐普通马克杯来最大化预期的利润,然而根据模型B,小猫马克杯可以最大化预期的利润。在像这样的现实应用中,搞清楚哪种模型能够估算出更好的概率是至关重要的事情。

2023-06-14 22:31:21 2380 4

原创 LLM_文本生成评估指标

一个单词只计算它在引用中出现的次数。Example: 计算 ROUGE1。可以看出包内的计算原理同上述。可以看出包内的计算原理同上述。Example: 计算。

2023-05-16 21:39:15 772

原创 强化学习_06_pytorch-TD3实践(BipedalWalkerHardcore-v3)

DDPG的critic会高估, 从而导致actor策略失败。TD3是增加了三个关键技巧优化DDPG。经过优化后的TD3(Twin Dalayed DDPG 双延迟深度确定性策略梯度算法)适合于具有高维连续动作空间的任务。

2023-05-07 21:28:19 1175 6

原创 LLM__llama-7B模型试验

llama模型已经开源很久了,所以拿做小的模型做了个简单尝试。

2023-04-19 22:43:25 3628 7

原创 深度学习_Learning Rate Scheduling

我们在训练模型时学习率的设置非常重要。我们可以通过学习率时间表()有效地管理准确性。

2023-04-05 17:16:11 1336 1

原创 数据结构_哈夫曼树(python实现)

哈夫曼树是一种重要的数据结构,用于压缩和编码数据。它由经典的数学家和计算机科学家大卫哈夫曼在20世纪50年代发明。哈夫曼树的目的是为了在编码和解码数据中,尽可能地减少所需的比特数。换句话说,它可以将大量数据压缩为在传输过程中所需的最小比特数。在NLP领域的词向量开篇制作Word2Vec中用到了一种softmax优化方法——层次softmax,就是将词频编码成哈夫曼树的形式,然后,(以skip-gram为例)在样本[v, w]进入模型前,将周围词w,基于哈夫曼树映射成从根到叶路径两个方向路径,最终组成。

2023-03-20 23:32:52 1194

原创 数据结构_图优化-最小费用最大流MCMF(python解)

线性规划问题有一个有趣的特性,即所有求极大的问题都有一个与其匹配的求极小的线性规划问题。我们通过求解一个问题的对偶问题,再加以转化就可以得到原始问题的解。

2023-03-08 00:16:04 1071 4

原创 数据结构_栈及栈的应用非递归快速排序

O(1)O(n)

2023-02-24 23:40:21 441

原创 强化学习_06_pytorch-DDPG实践(Pendulum-v1)

PPO这类算法都是在线策略算法,样本效率(sample efficiency)较低。像DQN算法,是直接估计最优价值函数,可以做离线策略学习,但是它只能处理动作空间有限的环境。吸收DQN的优点,同时弥补PPO这类算法的缺陷,DDPG(deep deterministic policy gradient)就顺应而生。它构造一个确定性策略,用梯度上升的方法来最大化值。DDPG 也属于一种 Actor-Critic 算法。REINFORCE、TRPO 和 PPO 学习随机性策略(Actor。

2023-01-18 23:41:05 2572

原创 强化学习_06_pytorch-PPO实践(Pendulum-v1)

TRPO(Trust Range Policy Optimate)算法每一步更新都需要大量的运算,于是便有其改进版本PPO在2017年被提出。PPO 基于 TRPO 的思想,但是其算法实现更加简单。TRPO 使用泰勒展开近似、共轭梯度、线性搜索等方法直接求解。PPO 的优化目标与 TRPO 相同,但 PPO 用了一些相对简单的方法来求解。具体来说, PPO 有两种形式,一是PPO-惩罚,二是PPO-截断,我们接下来对这两种形式进行介绍。

2023-01-05 21:52:56 2287 7

原创 强化学习_06_pytorch-doubleDQN实践(Pendulum-v1)

环境是倒立摆(Inverted Pendulum),该环境下有一个处于随机位置的倒立摆。环境的状态包括倒立摆角度的;动作为对倒立摆施加的力矩()。每一步都会根据当前倒立摆的状态的好坏给予智能体不同的奖励,该环境的奖励函数为,倒立摆向上保持直立不动时奖励为 0,倒立摆在其他位置时奖励为负数。环境本身没有终止状态,所以训练的时候需要设置终止条件(笔者在本文设置了260)。

2022-12-13 10:51:34 1411 4

原创 【论文解读】CIKM 2022: STID: A Simple yet Effective Baseline for Multivariate Time Series Forecasting

STGNNs在多维序列预测中表现超前,所以近期的多数研究都是基于此进行。而本文提出了基于序列、时间、空间编码,的简单Spatial and Temporal IDentity (STID)模型结构。其效果在多维序列预测任务上运行速度快,同时效果好,效果比邻甚至超越STGNNs。论文的背景知识,前人的工作等多序列预测往往之间具有一定的相关性。

2022-11-23 02:08:15 2879 5

原创 深度学习_用LSTM+Attention与Self-Attention

笔者在重新尝试用深度学习的各个模型对序列进行预测,就LSTM进行一些使用记录。

2022-10-23 23:57:28 3329

原创 机器学习_LightGBM callback示例

lightgbm在train的时候有callback的接口,我们需要将训练过程的损失下降情况进行记录就需要这个接口。本文笔者就是以记录训练迭代过程的损失为出发点,写一个简单的lightgbm中callback的使用方法。

2022-10-18 22:05:31 3671 5

原创 多目标线性规划——pulp

现在的问题是如何选择α。在这种情况下,典型的方法是确定有效边界。在经济学中,例如被称为“最佳最优”。

2022-10-15 17:40:06 1770

原创 机器学习_kedro+mlfow使用简单示意

kedro用来构建可复用,易维护,模块化的机器学习代码。相比于Notebook的超级灵活性,便于探索数据和算法, Kedro 定位于解决版本控制,可复用性,文档,单元测试,部署等工程方面的问题。

2022-10-15 16:52:56 722

原创 算法技能树——子集

给你一个整数数组 nums ,数组中的元素 互不相同。返回该数组所有可能的子集(幂集)。解集 不能 包含重复的子集。你可以按 任意顺序 返回解集。示例 1:输入:nums = [1,2,3]示例 2:输入:nums = [0][[],[0]]提示:nums 中的所有元素 互不相同。

2022-09-13 11:50:13 299 1

原创 机器学习_kedro框架使用简单示意

kedro用来构建可复用,易维护,模块化的机器学习代码。相比于Notebook的超级灵活性,便于探索数据和算法,Kedro 定位于解决版本控制,可复用性,文档,单元测试,部署等工程方面的问题。

2022-09-05 23:42:58 1115

原创 PID原理及python简单实现与调参

pid = 比例控制(基本控制) + 积分控制(消除稳态误差)+微分控制(减少震荡)U(t)=Kp∗errort+Ki∑i=0terrori+Kd∗(errort−errort−1)U(t)=Kp​∗errort​+Ki​i=0∑t​errori​+Kd​∗(errort​−errort−1​)KpK_pKp​。...

2022-08-15 22:12:13 3993 10

原创 tqdm高级使用方法(类keras进度条)

在很多场景,我们希望对一个进度条标识其运行的内容(),同时也希望在进度条中增加一些信息,如模型训练的精度等。本文就将基于tqdm,在实际应用中充实进度条。

2022-08-09 22:05:42 855 10

原创 机器学习_LGB调参汇总(开箱即食)

在数据层面的一些正负采样,业务层面一些数据筛选,以及异常值的处理后。我们进行模型训练,同时需要对模型进行参数的调整,以提升模型的精度。笔者就一些现有的调参框架进行汇总。

2022-08-08 23:20:22 3131 5

原创 算法技能树——放棋子(递归)

今有6×6的棋盘,其中某些格子已预放了棋子。现在要再放上去一些,使得每行每列都正好有3颗棋子。最多有多少种放法?需要每次都计算行和列,所以需要做好准备工作三、解题因为存在多种填充解,显然可以用递归遍历多个路径。我们可以先用循环写出一个路径,然后再逐步改成递归3.2 递归修改从循环中我们可以得到一个终止条件:几个进入下一个递归的条件:同时我们需要构建一个 直接下一步的辅助递归函数,从下列的实现我们可以看出基本是和循环一致的,仅仅是将循环的一些跳跃动作 用连接。增加了多种可能性的探索将下棋的点不

2022-07-07 01:17:37 270

原创 算法技能树——字母矩阵(动态数组)

仔细寻找,会发现:在下面的8x8的方阵中,隐藏着字母序列:“LANQIAO”。SLANQIAOZOEXCCGBMOAYWKHIBCCIPLJQSLANQIAORSFWFNYAXIFZVWALCOAIQNAL我们约定: 序列可以水平,垂直,或者是斜向;并且走向不限(实际上就是有一共8种方向)。上面一共有4个满足要求的串。总共存在8个方向,但是其中两两是相反的,所以我们有四种模式的搜索:...

2022-06-27 12:57:29 1001

原创 python3调用Dubbo_直连 & socket连接(hession序列化)

公司后端很多都是dubbo接口,python调用就回存在难题。网上的一些连接方法很多都是基于python2的;有的是基于直连,这个方法存在一些监控及安全问题,所以需要通过socket方法建立安全链接,但是该方法就存在序列化(hession)的问题。于是就结合pydubbo包,以及网上大家一些现有探索,做总结并整合简单调用三、python 通过socket及hession序列化链接Dubbosocket连接相关知识af 为地址族(Address Family),也就是 IP 地址类型,常用的有 AF

2022-06-11 23:06:00 890

原创 python连接redis/codis_直连与通过kz代理连接

在我们的模型部署实时预测的时候,需要通过redis拿取实时数据。所以需要对redis进行连接与get操作。一. 直连示例二、通过zk代理连接主要步骤如下:

2022-06-11 14:30:05 408

原创 Lunix(阿里云服务器)安装Anaconda并开启jupyter服务本地访问

一、下载安装Anaconda (Anaconda版本对应的python版本)二、配置jupyter notebook (配置 并 本地打开)

2022-05-31 23:14:06 693

原创 动态规划——从0-1背包问题到leetcode正则匹配

一、背包问题解析下列是我们熟悉的背包问题的描述:有n个物体,每个物体有一定的体积(viv_ivi​),和一定的价值(pip_ipi​)。我们想挑选一些物品放入容量为V的背包里,希望放进去的物体价值最大。显然其中标红的部分是核心,即在一个限制条件下,将价值最大化。就和机器学习的损失函数一样,将函数最优化。对于损失函数,我们可以基于问题是分类还是回归,来自己选定;对于我们的背包问题的价值最大化,没有一个固定式进行优化,所以很重要的一件事是我们需要找到它的模式亦或是数学表达式(状态转移方程)寻找状态

2022-05-01 20:04:13 614

原创 数据结构_二叉树_属性-构建-遍历

二叉树的属性python二叉树构建, cpp二叉树构建二叉树遍历

2022-03-23 22:44:19 1125

原创 【论文解读】滴滴智能派单-KDD2018 Large-Scale Order Dispatch in On-Demand Ride-Hailing

《Large-Scale Order Dispatch in On-Demand Ride-Hailing Platforms: A Learning and Planning Approach》一、简介基于大量历史数据,构建一个大Q表,用于订单的评估,满足乘客的需求的同时,兼顾平台的长期价值,最终提升平台的收入。二、背景从司机抢单到平台派单,使得平台的收入提升了10%。对于派单,需要对司机和订单进行高效的组合。之前大家都是基于一些在线策略(会在一定时间将司机和订单放到一个bucket里,然后.

2022-03-09 08:38:27 931

原创 强化学习_12_Datawhale深度确定性策略梯度

习题12-1 请解释随机性策略和确定性策略。对于随机性策略而言: 就是我们在一个状态,采取的Action是一个基于概率分布的一个抽样确定性策略:就是我们在一个状态,采取的Action是一个基于固定了\theat的网络输出的结果12-2 对于连续动作的控制空间和离散动作的控制空间,如果我们都采取使用策略网络的话,分别应该如何操作?对于输出值而言,简单讲其实有点类似随机森林的输出predict 和 predict_proba。在网络上的话,需要输出离散动作就在顶层用softmax进行归一化输出离散

2022-03-04 15:46:27 697

原创 强化学习_11_Datawhale模仿学习

习题11-1 对于模仿学习,具体的方法有哪些?11-2 行为克隆存在哪些问题呢?我们可以如何处理呢?11-3 逆强化学习是怎么运行的呢?11-4 逆强化学习方法与生成对抗网络(generative adversarial networks,GAN)在图像生成中有什么异曲同工之处?...

2022-02-16 09:32:31 482

原创 强化学习_10_Datawhale稀疏奖励

习题10-1 解决稀疏奖励的方法有哪些?设计奖励好奇心驱动的奖励课程学习 / 逆课程学习分层强化10-2 设计奖励方法存在什么主要问题?需要预先拥有领域知识,需要经验积累10-3 内在好奇心模块是什么?我们应该如何设计这个内在好奇心模块?内在好奇心模块: 输入状态s1、动作a1和状态s2, 输出另一个奖励ri1。总奖励包含r和ri设计内在好奇心模块:一般网络构建输入s1, a1, 输出s’t+1;评估: similar(s’t+1, st+1) 越大则奖励越大。简述:

2022-01-26 11:30:51 382

智慧海洋_data.zip

文章用到数据 https://blog.csdn.net/Scc_hy/article/details/115826685

2021-04-18

mnist-riginal(手写识别常用数据)

MNIST 有70000张图片,每张图片有784个特征。 这是因为每个图片都是28*28像素的,并且每个像素的值介于0~255之间

2018-10-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除