有点可爱的小学僧-CSDN博客

原创人工智能时代配环境

本文统一汇总记录所有配环境所学到的知识conda 环境迁移conda 环境管理的文章有很多，如怎么创建怎么删除，链接很多，比如link今天学到了一个环境迁移的命令导出环境为yml：conda env export > environment.yml根据yml创建环境：conda env create -f environment.yml根据yml更新现有环境：conda env update -f environment.yml只是有时候如果env.yml中没有pip路径的话，那可能ym

2021-02-03 11:34:13 665

转载机器学习与组合优化

这是我最近阅读的一篇文章，感觉写得非常好，主要是以旅行商问题为代表，介绍机器学习方法在这种组合优化问题上的应用，读完此文，对于组合优化，机器学习跨领域交叉等方面都有了深度的认识。但是由于CSDN转载的时候原文好多公式的样式被破坏了，改起来太麻烦，所以就在这里贴一个前言背景好了，大家需要的话可以从原文仔细看。背景如今机器学习在视觉、自然语言处理、语音、推荐等领域的应用已非常广泛，相关的讨论也非常多。与这些热门领域相比，关于机器学习在组合优化中的应用相对还没那么泛滥。今天我们就来聊一下这个有意思的话题。值得

2021-01-13 11:22:19 1655

原创阅读Qatten：A General Framework for Cooperative Multiagent Reinforcement Learning

写在前面：还是那句话，不要怕理论，一个知识点一个知识点地理解。胡适说：“怕什么真理无穷，进一步有一步的欢喜”。目录题目作者摘要方法理论证明实际方法实验写在后面题目作者2020.06，arXiv，v2。天津大学Jianye Hao老师组的工作，一作的Yaodong Yang也很厉害,可以重点关注郝老师他们组里的工作。摘要这篇同样是值分解路线下的一篇工作，作者认为之前的VDN,QMIX将Qtot,QiQ_{tot},Q_iQtot,Qi之间的关系做了假设限制（加性、单调），且缺少理论分析，而Q

2020-10-13 11:14:09 1398

原创阅读QTRAN:Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement Learning

写在前面：这篇文章我也是前前后后看了几遍，还在网上找了一些资料，但是感觉始终也没太看明白，就先把目前的理解写在这里，等以后有了新的理解再更新。要强调一点的是，这篇文章我刚读的时候是真的超级懵，但是不放弃偶尔就读偶尔就读，再结合别人的理解确实还是会有逐渐深入的理解的，所以以后遇到难的文章也不要丧气，平常心慢慢来（当然主要可能还是我的水平不行，读起来才这么难，hh）目录题目作者摘要相关工作介绍方法写在后面题目作者作者的单位是KAIST，韩国科学技术院，韩国比较好的一个大学，这个组在多智能体强化学习上也

2020-10-12 22:10:27 1716 2

原创阅读QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

接上文VDN，本来我觉得QMIX全文会很难读，后来发现不是，哈哈，又畏难了，希望我挑战QTRAN和Qatten的时候也能这样。QMIX题目作者摘要方法实验和结果其他题目作者ICML18，作者是COMA那个团队，老师应该就是 Shimon Whiteson，好像是Peter Stone的学生，后者是做多智能体的大佬。摘要这篇文章是接着VDN做的，也就是对于基于team reward的多智能体合作问题，采用强化学习，使用集中式训练分布式执行（CTDE）中的值分解的方法，来训练智能体。之前我们也提到了

2020-09-29 20:02:15 1524

原创阅读VDN:Value-Decomposition Networks For Cooperative Multi-Agent Learning Based On Team Reward

哇我先说一下，还真是技术/paper/理论像弹簧，我弱它就强，我一开始非常恐惧看这些啥啥分解的论文，最近看了VDN,QMIX，感觉真的就没我想得那么复杂，哎，惭愧惭愧，下一次会更勇敢一点的。我先放到这里，明天参加完活动顺利的话明天上午更一下，顺便把QMIX也更新一下，嘻嘻。...

2020-09-29 17:29:00 3219 6

原创稍微记录一下我配环境的辛酸历程

文章目录在Linux上配置tensorflow在Windows上配置tensorflow安装Multiagent Particle Environment安装星际微操环境在Linux上配置tensorflow在Windows上配置tensorflow安装Multiagent Particle Environment安装星际微操环境

2020-09-24 21:35:10 686 3

原创阅读COMA:Counterfactual Multi-Agent Policy Gradients

COMA题目作者摘要主要方法环境代码其他题目Counterfactual Multi-Agent Policy Gradients，AAAI2018作者牛津做多智能体强化学习的大佬组，后续多智能体强化学习的很多工作比如MAVEN也还是这个组做的，这里的Jakob N. Foerster很厉害，现在在FaceBook AI，他通信、多智能体竞争、合作都在研究。摘要单纯的强化学习用到多智能体环境下效果并不是很好，如果完全集中式学习，那么可能联合动作空间太大，学不了；或者说有些环境下要求执行的时候就

2020-09-23 22:06:43 1140

原创阅读MADDPG: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

MADDPG题目作者摘要题目Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments作者UCB和OpenAI联系比较紧密，这里面吴翼，Pieter Abbeel, Igor Mordatch都是大佬。摘要本文主要是研究如何利用强化学习来解决多智能体环境下智能体之间的合作与竞争问题，作者认为直接将单智能体的基于值或者策略的方法推广到多智能体都会有问题，如基于值的方法的非平稳性，智能体在同时学习，过去的经验也不

2020-09-22 22:28:50 618

原创 ICML2020-CURL（自监督学习+强化学习文章）阅读

阅读ICML2020-CURL-自监督+强化学习相关论文文章目录阅读ICML2020-CURL-自监督+强化学习相关论文摘要方法补充今天阅读了ICML2020的一篇文章，题目信息：作者是UCB的。摘要强化学习如果直接从高维数据开始学习，例如从pixel开始学习，需要大量的样本，样本利用效率比较低，因此CURL希望通过自监督学习中的对比学习（contrastive learning）自动从raw pixel中学习到比较高层的抽象特征，并在此基础上进行强化学习。CURL算法在经典的连续和离散控制环境

2020-09-07 22:32:19 1128 2

原创经典的深度强化学习劝退文读后感

目录阅读经典的深度强化学习劝退文新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入阅读经典的深度强化学习劝退文今天是来实验室的第一天，我准备重新阅读一下深度强化学习劝退文，以此开始我的科研生活，哈哈，在这里大致写一下相关内

2020-08-31 09:57:05 329

养羊的博客