自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 资源 (7)
  • 收藏
  • 关注

原创 Exception: Please add mujoco library to your PATH:set PATH=C:\User\*\ .mujoco\mujoco200\bin;%PAT

mujoco200Exception: Please add mujoco library to your PATH:set PATH=C:\User\*\ .mujoco\mujoco200\bin;%PATH%

2022-06-02 16:08:25 2773 1

转载 强化学习技巧——状态动作奖励算法训练等设计技巧

读到很好的文章,记录一下深度强化学习落地方法论

2021-12-30 11:16:54 882

转载 Learning Invariant Representations for Reinforcement Learning without Reconstruction

链接:https://www.bilibili.com/video/av887550848/https://zhuanlan.zhihu.com/p/157534599

2021-09-06 11:19:01 610

原创 Encoding Human Domain Knowledge to Warm Start Reinforcement Learning

Encoding Human Domain Knowledge to Warm Start Reinforcement Learning1.研究动机是什么2.主要解决了什么问题3.所提方法是什么3.1总体流程3.2PROLONET决策树网络3.2.1PROLONET初始化3.2.2PROLONET推理3.2.3PROLONET动态增长4.关键结果及结论是什么4.1实验环境及对比算法4.1.1 Cart Pole4.1.2 Lunar Lander4.1.3 FindAndDefeatZerglings4.1

2021-07-26 22:21:32 678 1

原创 不能删除

Encoding Human Domain Knowledge to Warm Start Reinforcement Learning1.研究动机是什么2.主要解决了什么问题3.所提方法是什么3.1总体流程3.2初始化决策树网络4.关键结果及结论是什么4.1实验环境4.1实验结果5.创新点在哪里6.有值得阅读的相关文献吗7.综合评价又如何?参考链接相关资料论文链接:Encoding Human Domain Knowledge to Warm Start Reinforcement Learning

2021-07-25 22:48:45 336

转载 超图学习(Hypergraph Learning)

https://blog.csdn.net/qq_32797059/article/details/93031052

2021-07-16 11:11:28 240

转载 Multi-agent Particle Environment - MPE多智能体强化学习运行环境的任务简介

MPE环境是一个时间离散、空间连续的二维环境,UI的界面风格如图所示,它通过控制在二维空间中代表不同含义的粒子,实现对于各类MARL算法的验证。MPE被人们广泛所知是借助于那篇NiPS2017的著名多智能体强化学习算法MADDPG的实验环境,可以直接在arxiv中搜索到。MPE的使用方法与gym的使用方法基本一致,即每一个step通过输入agent的动作状态等信息来换取MPE的环境感知。MPE和gym一样,也是由openai组织进行开发的,其主要有以下几个任务构成。——————————————

2021-06-30 19:28:35 2358 3

原创 Python 射线法判断一个点坐标是否在一个坐标区域内

Python 射线法判断一个点坐标是否在一个坐标区域内class Point: lng = '' lat = '' def __init__(self, lng, lat): self.lng = lng self.lat = lat # 求外包矩形def get_polygon_bounds(points): length = len(points) top = down = left = right = poin

2021-05-11 21:21:46 1175

转载 拓扑排序(Topology_Sort)

基本思想对一个有向无环图(Directed Acyclic Graph简称DAG)G进行拓扑排序,是将G中所有顶点排成一个线性序列,使得图中任意一对顶点u和v,若边(u,v)∈E(G),则u在线性序列中出现在v之前。通常,这样的线性序列称为满足拓扑次序(Topological Order)的序列,简称拓扑序列。简单的说,由某个集合上的一个偏序得到该集合上的一个全序,这个操作称之为拓扑排序。算法原理在图论中,拓扑排序(Topological Sorting)是一个有向无环图(DAG, Direct

2021-04-16 18:46:44 1290

原创 A2C和REINFORCE的区别

2021-04-08 11:17:48 271

原创 HSD算法

MADDPG1.研究动机是什么2.主要解决了什么问题3.所提方法是什么3.1描述4.关键结果及结论是什么4.1实验环境4.1实验结果5.创新点在哪里6.有值得阅读的相关文献吗7.综合评价又如何新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导

2021-04-02 16:06:29 310

原创 MADDPG:Multi-Agent Actor-Critic for Mixed Cooperative & MPE:Multi-Agent Particle Environment

MAPPO论文代码1.研究动机是什么2.主要解决了什么问题3.所提方法是什么MAPPO算法细节提升PPO性能的5个关键4.关键结果及结论是什么主要结论MPE实验SMAC实验Hanabi实验消融实验值归一化Agent-Specific Global StateTraining Data UsageAction MaskingDeath Masking5.创新点在哪里6.有值得阅读的相关文献吗7.综合评价又如何新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代

2021-03-17 15:24:13 479

原创 MAPPO:The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games

MAPPO1.研究动机是什么2.主要解决了什么问题3.所提方法是什么4.关键结果及结论是什么5.创新点在哪里6.有值得阅读的相关文献吗7.综合评价又如何新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入参考链接[Paper|

2021-03-16 20:37:38 7198 22

转载 强化学习 解方程 鸡兔同笼

打破线性方程求解速度极限,华人学者新算法获顶会最佳论文奖https://www.163.com/dy/article/G4LC98FF0511DSSR.html 求解方程的全新的思路,靠“猜”,这种方法就是:猜测每个未知数的值,把它们代入方程后,查看结果与实际值相差有多大。然后,修正未知数的值,再猜一次。这种方法,在计算机方向上被称为迭代法。彭泱的这种迭代算法,在方程的数量变得极多、且每个方程涉及的未知数较少时,显示出了巨大的优势。也就是说,如果在一个系数矩阵属于“稀疏矩阵”——矩阵本身特...

2021-03-16 10:35:23 415

原创 量化投资 强化学习 环境 框架 算法

https://mp.weixin.qq.com/s/limLRKIYXp6zpaZIdRittAhttps://www.zhihu.com/column/intro-to-quant

2021-03-15 10:18:04 177

原创 多智能体强化学习资料MARL

多智能体强化学习资料MARL框架https://github.com/oxwhirl/pymarlhttps://github.com/starry-sky6688/StarCrafthttps://github.com/openai/multiagent-particle-envs环境算法https://github.com/LantaoYu/MARL-Papershttps://www.bilibili.com/video/BV18z411q7Kchttps://www.youtube

2021-03-12 21:48:12 409 4

原创 PopArt

PopArthttps://www.leiphone.com/news/201809/kvmsqopha3xh984s.html

2021-03-12 21:46:38 615

原创 进化——QPEX

南京大学俞扬研究动机是什么 主要解决了什么问题 所提方法是什么 关键结果及结论是什么 创新点在哪里 有值得阅读的相关文献吗 综合评价如何伪代码

2021-03-12 21:44:43 82

原创 FPEM

FPEM

2021-03-12 21:38:41 495

转载 多智能体强化学习仿真环境

https://www.zhihu.com/question/332942236/answer/1246151999

2021-03-01 19:54:14 1127

原创 多智能体强化学习算法综述

https://blog.csdn.net/keypig_zz/article/details/92816033

2021-03-01 19:50:52 487

转载 Bootstrapping的数学定义

Bootstrapping的数学定义https://zhuanlan.zhihu.com/p/54201828这篇文章讲的还行

2021-02-22 14:39:53 86 1

转载 强化学习的一些基本问题和总结

强化学习的一些基本问题和总结https://zhuanlan.zhihu.com/p/45894158内容:model-based和model-free的概念off-policy和on-policy的概念基于值函数和基于策略梯度的RL和SL的一些碎碎念(慎读)RL中的分类RL过程中predict和control的概念...

2021-02-20 14:21:19 231

转载 Win10下安装mujuco

https://blog.csdn.net/weixin_43897187/article/details/109526220

2021-02-02 16:42:12 122

原创 VMWare虚拟机安装Ubuntu

资源VMWare15.5:https://download3.vmware.com/software/wkst/file/VMware-workstation-full-15.5.6-16341506.exe Ubuntu20.04:https://mirrors.163.com/ubuntu-releases/操作VMWare15.5安装:https://www.bilibili.com/video/av10137705/?p=1&share_source=qq&share_m

2020-09-16 10:51:03 131

转载 PyTorch学习率调整策略

https://blog.csdn.net/shanglianlm/article/details/85143614

2020-08-05 22:27:33 99

转载 Pytorch模型保存与加载,并在加载的模型基础上继续训练

https://www.jianshu.com/p/1cd6333128a1

2020-08-03 15:28:31 553

转载 准确率、精确率、召回率、F1值、ROC/AUC整理笔记

https://blog.csdn.net/u013063099/article/details/80964865

2020-07-31 12:41:17 143

转载 深度强化学习-Actor-Critic算法原理和实现

https://blog.csdn.net/WASEFADG/article/details/80905094?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.ch

2020-07-28 09:56:55 305

转载 深度学习优化算法解析(Momentum, RMSProp, Adam)

https://blog.csdn.net/willduan1/article/details/78070086

2020-07-28 09:53:34 103

原创 pygame如何在没有屏幕的情况下训练

Pygame无GUI运行pygame的一些训练环境都是需要显示画面的。但是大型服务器一般都没有屏幕,此时运行程序会报错。我们需要使程序能在没有屏幕的情况下运行。解决方案:step1:将屏幕设置为'dummy'。import osos.environ["SDL_VIDEODRIVER"] = "dummy"step2:修改gym的play文件的play函数,注释掉“pygame.display.flip()”,该函数作用为更新整个待显示的Surface 对象到屏幕上。源代码:

2020-06-25 14:48:18 1052 1

原创 多文档合并成一个PDF文件

1.下载安装万兴PDF阅读器。支持Win和mac版本,下载链接见文章最后。2.打开万兴PDF阅读器,选择PDF合并,如下图3.点击添加,选择你需要合并的PDF文件,并点击下一个。4.显示合并中,等待一会就能看到你合成的文件了。5.万兴pdf专家还可以实现多种转换格式、编辑PDF文档、加水印让你文档更安全等功能。小编也是买来的,希望能挣点辛苦钱,扫下面二维码,备注您的邮箱地址,会给您发送至邮箱。您也可以去官网或者淘宝购买,不过需要更多费用,您可以比较后再做选择。...

2020-05-24 22:32:58 500

转载 python生成requirements.txt的两种方法

https://blog.csdn.net/hpulfc/article/details/80018854

2020-04-29 18:55:12 189

原创 Adobe Reader XI打开大约十几秒就自动退

1.打开我的电脑,按地址C:\Windows\System32\drivers\etc,找到“hosts”文件,双击选择“记事本”打开。2.将网站域名 127.0.0.1 acroipm.adobe.com 复制到文档底部并保存。PS:若想取消解析域名,在IP前加“#”即可。参考:https://jingyan.baidu.com/article/3aed632effa...

2020-04-21 15:09:49 1513

转载 大道至简——人工智能——从脑波到文本,只需要一个机器翻译模型

加州大学旧金山分校的Joseph Makin 等人在 Nature Neuroscience上发表了一篇论文,标题为Machine translation of cortical activity to text with an encoder–decoder framework。这篇论文的工作思路异常简单。他们将脑波到文本的转换视为机器翻译的过程,脑波为输入序列,文本为输出序列。通过让受...

2020-03-31 22:18:45 390

原创 人工智能引发的人类未来畅想

人工智能:造人量子:造物人类当造物主大彻大悟

2020-03-10 12:48:55 140

转载 win10 下安装 gym

https://blog.csdn.net/itnerd/article/details/88928381

2020-03-01 17:21:09 377

原创 强化学习——数据量

前几天,毕业论文答辩,老师问你的数据量有多大,解释半天老师没懂,最后笑笑讽刺的说你这也不是大数据啊。跟不懂的人没必要瞎比比,即使是我的答辩评审老师。人工智能领域,不知道从什么时候开始流行大数据了,只要数据量不大,通通认为不严谨,没有说服力。只有大数据训练出的模型才算好吗?反正这一观点,放在强化学习领域是不对的。用最少的数据,能训练出最好的结果才是好模型。如果一味追求数据量大,统计专业都没有...

2019-12-26 15:14:35 1363

转载 强化学习——探索与利用基本方法

探索和利用的困局(exploration exploitationdilemma):利用是做出当前信息下的最佳决定, 探索则是尝试不同的行为继而收集更多的信息。最好的长期战略通常包含一些牺牲短期利益举措。通过搜集更多或者说足够多的信息使得个体能够达到宏观上的最佳策略。几个基本的策略朴素探索(Naive Exploration): 在贪婪搜索的基础上增加一个Ɛ以实现朴素探索; 乐观初...

2019-12-25 13:43:45 2062

转载 人工智能入门(简述、理论基础、历史和发展现状)

https://blog.csdn.net/CSDNTianJi/article/details/89607425

2019-12-17 21:36:07 660

iangopklojclohjcbiobemaknapklaeg.zip

飞书 Markdown 导出工具-crx插件

2021-07-25

SMAC_Maps.zip

SMAC_Maps.zip

2021-03-22

IObit Uninstaller vs完全删除

IObit Uninstaller vs完全删除,亲测有效,可以结合我的博客看看

2019-04-03

msmpisetup.exe和msmpisdk.msi

MS-MPI Downloads The following are current downloads for MS-MPI: MS-MPI v10.0 (new!) - see Release notes

2019-03-30

gym-0.12.0所有环境

gym-0.12.0所有环境,800多个,比想象中的多。python-gym-0.12.0

2019-03-29

数据分析与EVIEWS应用 易丹辉

易丹辉:数据分析与EVIEWS应用,适合数据分析初学者使用

2019-03-15

主从递阶决策论Stackelberg问题

主从递阶决策论Stackelberg高清pdf,适合博弈强化学习

2019-03-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除