自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (3)
  • 收藏
  • 关注

原创 强化学习并行算法:决策速度提升

在线交互采集样本是个比较耗时的过程。多个环境同时并行采集数据,会加速训练。强化学习在采集样本侧,也就是和仿真环境进行交互部分,需要的更多的是cpu资源,而在训练模型侧,可以利用GPU加速训练,提高训练速度。

2024-02-22 13:30:00 862

原创 强化学习平台:智能决策产品的通用范式

强化学习作AI决策,工业界会怎么做?整个产品思路是怎么样的?为了方便决策模型的构建,一般会开发一个强化学习训练平台。有这个平台之后,就能通过平台对公司内部服务器集群的cpu、gpu的资源进行调度,并且支持对接仿真,选择强化学习算法进行训练,以及训练后的效果展示。我这里从两个方面进行梳理。第一是在线强化学习平台框架,第二是离线强化学习平台框架。当然,可以把这两个合为一个产品。不过按照这样划分,对于理解不同场景下用在线或者离线RL会更清晰。

2024-02-21 22:50:26 884

原创 强化学习的实际应用及思考

1 强化学习用在哪些领域在人类世界中,决策无处不在,每天都要决定很多小事,每年也大多有些重要的事情要决策。目前,强化学习在深度学习大热之后,也迎来了一波高峰,深度网络的加持下,决策也变得更加智能,能应对更加复杂的场景。研究在各行业遍地开花,但是目前强化学习真正能够实现落地的公司少之又少,通常在游戏的场景,才是强化学习的主战场。当然,除了游戏之外,在量化交易、无人机控制、国防、化工、水务、出行、运筹优化、医药等行业都有相关的研究工作,所以强化学习称得上是各行各业都可以使用的技术。

2024-02-18 15:06:56 846

原创 分层强化学习

2 分层强化学习算法1 分层强化学习简介分层强化算是强化学习领域比较流行的研究方向。当环境较为复杂或者任务较为困难时,智能体的状态和动作空间过大,会导致强化学习难以取得理想的效果。应对这种状况,分层强化学习应运而生,主要解决稀疏reward以及状态动作空间过大导致难以训练的问题。人类在解决一个复杂问题时,往往会将其分解为若干个容易解决的子问题,分而治之,分层的思想正是来源于此。

2024-02-08 15:20:35 1336 2

原创 Value-based RL和Policy-based RL介绍和区别

根据上面的内容,Value-based和Policy-based的概率应该大体有些了解了,另外对于不确定性和确定性策略应该也能区分了,这几个概念是刚学习强化学习绕不过去的。

2024-02-05 15:48:21 469

原创 如何快速修改多篇文档合并后的标题格式

在word中进行两篇文档合并,遇到两篇文章的标题合并起来之后各有各的格式。

2023-12-15 13:45:10 55

原创 OfflineRL的重要环节-离线策略评估介绍

离线策略评估是强化学习中一种重要的技术,用于评估一个策略在某个环境中的性能,而不需要与环境进行实际交互。离线策略评估主要用于以下场景:当前策略不适用于实际环境中的交互,但希望评估其性能。通过已有一些历史数据,利用这些数据来评估策略的性能。

2023-11-10 18:30:22 230

原创 模仿学习入门

为了达到模仿学习的目的,目前主要有2种方法,一是Behavior cloning,即行为克隆方法;二是Inverse Reinforcement Learning(IRL),即逆向强化学习方法。

2023-11-10 18:08:25 165

原创 迁移学习入门

迁移学习按学习方法分类,可以分为四个大类:基于样本的迁移学习方法、基于特征的迁移学习方法、基于模型的迁移学习方法、基于关系的迁移学习方法。

2023-11-10 17:45:02 345

原创 MARL三种架构

在 MARL 中,智能体之间会相互影响,而本节中的“去中心化训练”把智能体视为独立个体,忽视它们之间的关联,直接 用 SARL 方法独立训练每个智能体。所有agent都把信息传到中央控制器,中央控制器知道所有agent的观测、动作以及奖励,agent上没有策略网络,自己不做决策,只执行指令。智能体负责与环境交互,执行中央控制器的决策,并把观测到的o汇报给中央控制器。训练结束之后,不再需要中央控制器,每个智能体独立根据本地观测o做决策。在完成训练之后,智能体不再做通信,智能体用本地部署的策略网络做决策。

2023-11-10 17:38:00 70

原创 图谱入门学习

知识图谱以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。其本质上是一种语义网络,其中节点代表实体或者概念,边代表实体/概念之间的各种语义关系。知识图谱可分为模式层与数据层,模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。数据层主要是由一系列的事实组成,知识以事实为单位存储在图数据库。

2023-11-10 17:27:18 56

原创 docker-镜像:使用GPU训练的简易教程以及一些常用命令

下载基础镜像查看镜像运行容器查看正运行容器docker ps输入命令会进到容器中,如上图.在容器中写测试是否可以使用GPU的脚本执行脚本退出容器exit删除容器。

2023-10-22 19:03:42 669 1

原创 docker: Error response from daemon: could not select device driver with capabilities: [[gpu]]问题记录解决

如果显示的是WARNING:No swap limit support或者什么都没显示,就说明是nvidia驱动程序没有被docker daemon使用,这个时候有点麻烦,可能是因为/etc/docker/daemon.json配置文件没配置对,也可能是docker没安装好。如果显示"nvidia:yes"或者有其他正常显示,就说明docker daemon正在使用nvidia驱动程序,这个时候使用--gpus=all选项是不会报错的。检查docker是否正确安装,用下面命令。在当前目录位置创建一个脚本。

2023-10-21 20:40:09 3495 1

原创 ubuntu服务器构建docker环境操作流程(docker新版:docker19之后版本)

新版docker搭建教程,简明易懂 , 与老版本的docker操作方式完全不一样,大家注意搭建docker环境的时候要注意。

2023-10-21 20:04:41 92 1

原创 强化学习在流程工业应用思考

难点:长迟滞导致当前的决策影响后几分钟的数据变化,但是这个时间也就是“停留时间”在反应的前中后期也不一样。另外反应过程中反应程度你是不可控的,导致几分钟后的数据是因为当前的这个决策所影响的判断较难下定量的结论。奖励:上述的奖励设定感觉还是短迟滞反应的奖励设定,长迟滞反应的奖励你该怎么设定,这个还需要考虑,如果想做一个较通用化的软件来训练RL的模型,也逃避不了奖励的设定、态势的选取。如果奖励考虑优化,那么就会加入能耗这个指标,定奖励时,控稳的权重要远大于能耗的权重,这样效果会更好。

2023-10-21 18:41:21 66 1

原创 self_play简介

联盟对抗:基于智能体的自博弈,将己方和对手智能体训练得到的具有一定胜率的策略放进己方和对手的策略池中,将策略池的策略通过概率选择器进行选择其中之一,让己方和对手智能体进行对抗。而这种方式让红蓝双方有来有回的进行策略迭代,让行为模型往更优的地方发展。自博弈介绍:首先通过策略训练得到一个智能体,然后训练到一定程度,换对手为智能体进行训练博弈,然后等待对手智能体训练到一定的程度,再换己方智能体训练,循环往复。主智能体(Main Agent): 为正在训练的智能体,用于训练鲁棒性最强的策略,也是最后部署的策略。

2023-10-16 22:44:29 79 1

原创 vim学习-应付工作最简化版本

1. 左下上右 :hjkl2. x :删除光标所在字符3. d+motion :删除+范围数字+motion :多个+motionmotion(重要)拷贝: y [数字] motion3. p :将最后一次删除的内容粘贴到光标下一行P :将最后一次删除的内容粘贴到光标前一行4. y :拷贝......

2022-06-30 23:50:32 57 1

原创 10个提升你10倍效率的搜索引擎小技能

经常有人会问我,怎么收集资料、查找文档、书籍速度那么快,都是在哪里找的?因此还得了一个“电子书小王子”的称号,本文就把我所日常运用的小技能全都教给你,希望看到本文的读者朋友,一刻不要停,马上开始应用起来,用起来就是赚到。因为好的搜索引擎习惯与技巧,往往可以成倍的提升你的效率,所以请花上5分钟阅读,并坚持至少一周时间实践并形成习惯,你会发现你的工作效率提升了10倍不止,而且一旦学会,终身受用。接下来我就以Google和百度两大搜索引擎为例,分享我所知道的10个搜索引擎小技能:1、双引

2022-04-11 21:14:42 1276

原创 git使用够用指南

命令:git clone怎么去找开源项目:Trending repositories on GitHub today · GitHub人工智能-掘金 (juejin.cn)怎么在github搜索项目:找百科大全 awesome XXX找列子: XXX sample找空项目架子 : xxx starter / xxx boilerplate找教程: xxx tutoria推荐一个git简明视频教程让你更好的学习,讲的非常好:Github 新手够用指南 |.

2022-04-09 08:40:51 1103

原创 linux(centos7)搭建共享文件夹 #samba (亲测有用)

步骤如下:建议直接看博主的视频,直接按部就班操作就能搞定。linux搭建文件共享(四) #samba #centos7文件共享_哔哩哔哩_bilibili

2022-04-08 22:37:00 367

原创 虚拟机安装Linux系统Centos7 的网络配置 (亲测有用)

【保姆级操作步骤】虚拟机安装Linux系统Centos7 以及后续的网络配置_哔哩哔哩_bilibili谢谢这位大侠,我按照他的教程仔细的装了,终于搞定了 。PS.这个视频的最后一步,我在操作的时候,输入systemctl restart network.service命令报错。不要着急! 三步教你搞定。第一步,禁用NetworkManger 服务/bin/systemctl stop NetworkManager.service第二步,将NetworkManager开机禁用.

2022-04-08 00:17:22 1144

原创 Failed to convert a array to a Tensor

(遇到此error,看这篇就对了)运行代码:model.fit(in_fe, labels, validation_split=0.25, epochs=10, batch_size=64)报错:ValueError: Failed to convert a array to a Tensor (Unsupported object type这里也是经过查找解决方法,有一种解决方法是说卸载numpy,换一个版本,这种方式不如直接用下面的转换数据格式的方式直接。原因: fit()之前没

2022-03-06 11:01:34 2093

原创 jupyter notebook切换环境 , bad file descriptor问题

jupyter notebookanoconda python

2022-03-05 21:04:17 1697 2

原创 github国内网速慢的问题解决(win+linux)

github国内网速慢的问题解决(win+linux)

2021-11-21 11:27:03 620

原创 杭州的互联网公司总结

杭州的互联网公司比较多,这篇文章也只是挑选出一些比较有代表性的来简单介绍一下。希望能够对你们有帮助!整理不易,希望大家能够多多帮忙扩散转发支持一下。一二线大厂字节跳动 「基本情况」:字节总部在北京,在上海、深圳、杭州、广州、成都等地都有办公室。今年 6 月,抖音电商落户杭州。 「业务方向」:抖音电商、抖音餐饮、字节跳动广告业务、字节跳动本地生活 「工作地点」:余杭区中国杭州 5G 创新园 5 层、余杭区杭州巨量引擎网络技术有限公司 1401 「福利情...

2021-10-17 23:23:05 3217

迁移学习代码(python+tf2.1.0)+猫狗识别的数据集

迁移学习代码(python+tf2.1.0)+猫狗识别的数据集

2022-03-07

温度预测数据集+简单全连接代码实现

温度预测数据集+简单全连接代码实现

2022-03-06

基于模板匹配的车牌识别

基于模板匹配的车牌识别,这里面有代码解释,还有字符模板库,车牌图片,将word转换成m文件,然后另外两个压缩包解压放在与m文件同一个文件夹下,运行即可以出结果。记住一定放在同一个文件夹下。

2017-12-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除