爱科技Ai-CSDN博客

原创强化学习并行算法：决策速度提升

在线交互采集样本是个比较耗时的过程。多个环境同时并行采集数据，会加速训练。强化学习在采集样本侧，也就是和仿真环境进行交互部分，需要的更多的是cpu资源，而在训练模型侧，可以利用GPU加速训练，提高训练速度。

2024-02-22 13:30:00 862

强化学习作AI决策，工业界会怎么做？整个产品思路是怎么样的？为了方便决策模型的构建，一般会开发一个强化学习训练平台。有这个平台之后，就能通过平台对公司内部服务器集群的cpu、gpu的资源进行调度，并且支持对接仿真，选择强化学习算法进行训练，以及训练后的效果展示。我这里从两个方面进行梳理。第一是在线强化学习平台框架，第二是离线强化学习平台框架。当然，可以把这两个合为一个产品。不过按照这样划分，对于理解不同场景下用在线或者离线RL会更清晰。

2024-02-21 22:50:26 884

原创强化学习的实际应用及思考

1 强化学习用在哪些领域在人类世界中，决策无处不在，每天都要决定很多小事，每年也大多有些重要的事情要决策。目前，强化学习在深度学习大热之后，也迎来了一波高峰，深度网络的加持下，决策也变得更加智能，能应对更加复杂的场景。研究在各行业遍地开花，但是目前强化学习真正能够实现落地的公司少之又少，通常在游戏的场景，才是强化学习的主战场。当然，除了游戏之外，在量化交易、无人机控制、国防、化工、水务、出行、运筹优化、医药等行业都有相关的研究工作，所以强化学习称得上是各行各业都可以使用的技术。

2024-02-18 15:06:56 846

原创分层强化学习

2 分层强化学习算法1 分层强化学习简介分层强化算是强化学习领域比较流行的研究方向。当环境较为复杂或者任务较为困难时，智能体的状态和动作空间过大，会导致强化学习难以取得理想的效果。应对这种状况，分层强化学习应运而生，主要解决稀疏reward以及状态动作空间过大导致难以训练的问题。人类在解决一个复杂问题时，往往会将其分解为若干个容易解决的子问题，分而治之，分层的思想正是来源于此。

2024-02-08 15:20:35 1336 2

原创 Value-based RL和Policy-based RL介绍和区别

根据上面的内容，Value-based和Policy-based的概率应该大体有些了解了，另外对于不确定性和确定性策略应该也能区分了，这几个概念是刚学习强化学习绕不过去的。

2024-02-05 15:48:21 469

原创如何快速修改多篇文档合并后的标题格式

在word中进行两篇文档合并，遇到两篇文章的标题合并起来之后各有各的格式。

2023-12-15 13:45:10 55

原创 OfflineRL的重要环节-离线策略评估介绍

离线策略评估是强化学习中一种重要的技术，用于评估一个策略在某个环境中的性能，而不需要与环境进行实际交互。离线策略评估主要用于以下场景：当前策略不适用于实际环境中的交互，但希望评估其性能。通过已有一些历史数据，利用这些数据来评估策略的性能。

2023-11-10 18:30:22 230

原创模仿学习入门

为了达到模仿学习的目的，目前主要有2种方法，一是Behavior cloning，即行为克隆方法；二是Inverse Reinforcement Learning（IRL），即逆向强化学习方法。

2023-11-10 18:08:25 165

原创迁移学习入门

迁移学习按学习方法分类，可以分为四个大类：基于样本的迁移学习方法、基于特征的迁移学习方法、基于模型的迁移学习方法、基于关系的迁移学习方法。

2023-11-10 17:45:02 345

原创 MARL三种架构

在 MARL 中，智能体之间会相互影响，而本节中的“去中心化训练”把智能体视为独立个体，忽视它们之间的关联，直接用 SARL 方法独立训练每个智能体。所有agent都把信息传到中央控制器，中央控制器知道所有agent的观测、动作以及奖励，agent上没有策略网络，自己不做决策，只执行指令。智能体负责与环境交互，执行中央控制器的决策，并把观测到的o汇报给中央控制器。训练结束之后，不再需要中央控制器，每个智能体独立根据本地观测o做决策。在完成训练之后，智能体不再做通信，智能体用本地部署的策略网络做决策。

2023-11-10 17:38:00 70

原创图谱入门学习

知识图谱以结构化的形式描述客观世界中概念、实体及其关系，将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好地组织、管理和理解互联网海量信息的能力。其本质上是一种语义网络，其中节点代表实体或者概念，边代表实体/概念之间的各种语义关系。知识图谱可分为模式层与数据层，模式层存储的是经过提炼的知识，通常采用本体库来管理知识图谱的模式层，借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。数据层主要是由一系列的事实组成，知识以事实为单位存储在图数据库。

2023-11-10 17:27:18 56

原创 docker-镜像：使用GPU训练的简易教程以及一些常用命令

下载基础镜像查看镜像运行容器查看正运行容器docker ps输入命令会进到容器中，如上图.在容器中写测试是否可以使用GPU的脚本执行脚本退出容器exit删除容器。

2023-10-22 19:03:42 669 1

原创 docker: Error response from daemon: could not select device driver with capabilities: [[gpu]]问题记录解决

如果显示的是WARNING：No swap limit support或者什么都没显示，就说明是nvidia驱动程序没有被docker daemon使用，这个时候有点麻烦，可能是因为/etc/docker/daemon.json配置文件没配置对，也可能是docker没安装好。如果显示"nvidia:yes"或者有其他正常显示,就说明docker daemon正在使用nvidia驱动程序，这个时候使用--gpus=all选项是不会报错的。检查docker是否正确安装，用下面命令。在当前目录位置创建一个脚本。

2023-10-21 20:40:09 3495 1

原创 ubuntu服务器构建docker环境操作流程（docker新版：docker19之后版本）

新版docker搭建教程，简明易懂，与老版本的docker操作方式完全不一样，大家注意搭建docker环境的时候要注意。

2023-10-21 20:04:41 92 1

原创强化学习在流程工业应用思考

难点：长迟滞导致当前的决策影响后几分钟的数据变化，但是这个时间也就是“停留时间”在反应的前中后期也不一样。另外反应过程中反应程度你是不可控的，导致几分钟后的数据是因为当前的这个决策所影响的判断较难下定量的结论。奖励：上述的奖励设定感觉还是短迟滞反应的奖励设定，长迟滞反应的奖励你该怎么设定，这个还需要考虑，如果想做一个较通用化的软件来训练RL的模型，也逃避不了奖励的设定、态势的选取。如果奖励考虑优化，那么就会加入能耗这个指标，定奖励时，控稳的权重要远大于能耗的权重，这样效果会更好。

2023-10-21 18:41:21 66 1

原创 self_play简介

联盟对抗：基于智能体的自博弈，将己方和对手智能体训练得到的具有一定胜率的策略放进己方和对手的策略池中，将策略池的策略通过概率选择器进行选择其中之一，让己方和对手智能体进行对抗。而这种方式让红蓝双方有来有回的进行策略迭代，让行为模型往更优的地方发展。自博弈介绍：首先通过策略训练得到一个智能体，然后训练到一定程度，换对手为智能体进行训练博弈，然后等待对手智能体训练到一定的程度，再换己方智能体训练，循环往复。主智能体（Main Agent）: 为正在训练的智能体，用于训练鲁棒性最强的策略，也是最后部署的策略。

2023-10-16 22:44:29 79 1

civiljiao的博客

原创强化学习并行算法：决策速度提升

原创强化学习平台：智能决策产品的通用范式

原创强化学习的实际应用及思考

原创分层强化学习

原创 Value-based RL和Policy-based RL介绍和区别

原创如何快速修改多篇文档合并后的标题格式

原创 OfflineRL的重要环节-离线策略评估介绍

原创模仿学习入门

原创迁移学习入门

原创 MARL三种架构

原创图谱入门学习

原创 docker-镜像：使用GPU训练的简易教程以及一些常用命令

原创 docker: Error response from daemon: could not select device driver with capabilities: [[gpu]]问题记录解决

原创 ubuntu服务器构建docker环境操作流程（docker新版：docker19之后版本）

原创强化学习在流程工业应用思考

原创 self_play简介

原创 vim学习-应付工作最简化版本

原创 10个提升你10倍效率的搜索引擎小技能

原创 git使用够用指南

原创 linux（centos7）搭建共享文件夹 #samba (亲测有用)

原创虚拟机安装Linux系统Centos7 的网络配置（亲测有用）

原创 Failed to convert a array to a Tensor

原创 jupyter notebook切换环境 , bad file descriptor问题

原创 github国内网速慢的问题解决（win+linux）

原创杭州的互联网公司总结

迁移学习代码（python+tf2.1.0）+猫狗识别的数据集

温度预测数据集+简单全连接代码实现

基于模板匹配的车牌识别

空空如也