- 博客(17)
- 收藏
- 关注
原创 多智能体强化学习-MADDPG
【多智能体强化学习】MADDPG:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments.
2022-11-01 10:38:42 3064
原创 Kalman Fuzzy Actor-Critic Learning Automaton Algorithm for the Pursuit-Evasion Differential Game
论文地址:Kalman Fuzzy Actor-Critic Learning Automaton Algorithm for the Pursuit-Evasion Differential Game摘要使用模糊actor-critic和卡尔曼滤波技术解决追击(PE)问题,两个或两个以上的追捕者追击一个逃跑者。actor和critic都是模糊推理系统(FIS),卡尔曼滤波被用来估计逃跑者的下一个位置,追捕者根据这个估计找到逃跑者的运动方向,以避免他们之间的碰撞,减少捕获时间。假设每个追捕者只知道逃跑
2022-01-06 09:20:13 2418
原创 论文阅读—《Fuzzy Reinforcement Learning Algorithm for the Pursuit-Evasion Differential Games 》
论文链接:Fuzzy Reinforcement Learning Algorithm for the Pursuit-Evasion DifferentialGames with Superior Evader摘要本文提出了一种模糊强化学习技术,该技术使追逃(PE)差分游戏中的追捕者群体能够学习如何以分散的方式捕获单个优秀的逃跑者。逃跑者的优势在于它的最大速度,超过游戏中最快追捕者的速度。文章使用了fuzzy actor-critic learnong Automaton (FACLA)算法以及Ap
2021-12-30 20:10:15 1824
原创 论文阅读:MAPEL: Multi-Agent Pursuer-Evader Learning using Situation Report
MAPEL: Multi-Agent Pursuer-Evader Learning using Situation Report论文:MAPEL: Multi-Agent Pursuer-Evader Learning using Situation Report项目地址:MAPEL: Multi-Agent Pursuer-Evader Learning using Situation Report摘要在疆土防御游戏中,包括追捕者,逃跑者以及守卫目标。追捕者的任务是在逃跑者到达目标之前抓住逃跑者
2021-12-29 16:49:51 491 1
原创 MADDPG-建立自己的游戏环境(simple_world_comm场景)
simple_world_comm场景simple_world_comm环境下,包含三种类型的实体(森林(forests),食物(food),地标(landmark)),1个地标(landma,黑色),2个森林(forests,大的绿色),2个食物(food,蓝色);6个智能体,4个捕食者(adversaries,粉红色),2个猎物(good_agent,小的绿色)。...
2021-12-24 08:49:58 3518 1
原创 MADDPG论文学习
摘要传统算法用于多智能体环境下的困难:Q-learning受到环境不稳定性的挑战策略梯度的方法随着智能体数量增加,方差变大。本文的贡献:提出了一种actor-critic方法的变种:在考虑其他智能体action-policy的同时,能够学习到需要多智能体的协同policy;引入了一种训练方式,集成了各智能体的policy,来形成一个更加鲁棒的多智能体policy。在既合作又竞争的场景下进行测试,验证在这种场景下,智能体集群能够学习到物理和信息层面的合作策略。...
2021-12-20 20:52:09 1618
原创 MADDPG—建立自己的游戏环境(二)
MADDPG代码中的命令行选项环境选项--scenario: 选择你需要使用MPE中的哪个环境(默认值: "simple")--max-episode-len 每一局游戏的步长 (默认值: 25)--num-episodes 要训练多少局游戏(默认值: 60000)--num-adversaries: 环境中的对手智能体数量 (默认值: 0)--good-policy:环境中 正方智能体使用的算法(默认: "maddpg"; 可选项: {"maddpg", "ddpg"})
2021-12-18 15:40:19 1925 1
原创 MADDPG—建立自己的游戏环境(一)
MADDPG安装上一篇我们已经成功安装了MPE环境,可以查看我的上一篇 MPE环境安装-强化学习的小demoMADDPG的实验环境是MPE,因此,上边这一步是必须的。接下来,就可以安装MADDPG了。准备工作这一切都可以在你已经创建好的MPE的conda虚拟环境中安装。(conda管理环境真的很方便)MPE安装TensorFlow==1.14,可以使用镜像源快速安装:pip install tensorflow -i https://pypi.douban.com/simple准备安装下
2021-12-16 14:41:41 5211
原创 MPE环境介绍
MPE的环境介绍原文中给出的解释环境名称是否能够Communication是否进行Competitive场景说明simple,pyNN单智能体看到地标位置,并根据距离地标位置的远近获得奖励。这只是一个示例demo,用来测试。simple_adversary.py(欺骗行为)NY1 个反方智能体(红色),N 个正方智能体(绿色),N 个地标(通常 N=2)。 所有智能体都会观察地标和其他智能体的位置。 一个地标是“目标地标”(绿色)。 正方智能体的奖励来自于它们中
2021-12-15 20:34:00 4173
原创 MPE环境安装-强化学习的小demo
这里写自定义目录标题MPE的前世今生MPE安装准备工作环境配置开始安装测试关于如何将你的虚拟环境和pycharm统一MPE的前世今生MPE(Multi-Agent Particle Environment)是由 OpenAI 开源的一款多智能体强化学习实验平台,以 OpenAI 的 gym 为基础,使用 Python 编写而成。它创造了一个简单的多智能体粒子世界,粒子们可以进行连续的观察和离散的动作。MPE安装准备工作在GitHub网站下载MPE的安装包:https://github.com/o
2021-12-15 17:40:15 4777 3
原创 Large-Scale Order Dispatch in On-Demand Ride-Hailing Platforms: A Learning and Planning Approach
[Large-Scale Order Dispatch in On-Demand Ride-HailingPlatforms: A Learning and Planning Approach]《Large-Scale Order Dispatch in On-Demand Ride-HailingPlatforms: A Learning and Planning Approach》论文Abstract我们在大型按需叫车平台中提出了一种新颖的订单调度算法。虽然传统的订单调度方法通常侧重于即时的客
2021-07-12 20:03:29 1356
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人