邵政道-CSDN博客

原创离线强化学习（IQL/CQL）

ORL具有广泛的应用前景，尤其是在那些难以进行在线交互或存在安全限制的场景中。例如，在医疗领域，ORL可以利用历史病例数据来学习最佳治疗方案，而不需要对患者进行随机试验；在金融领域，ORL可以利用历史交易数据来学习最优投资策略，而不需要实时参与市场；在推荐系统领域，ORL可以利用历史用户行为数据来学习最优推荐策略，而不需要实时收集用户反馈。尽管ORL已经取得了一些进展，但仍然存在一些待解决的问题和挑战。如何解决这些挑战将是未来的研究方向。

2023-04-06 16:23:46 2716 1

原创【算法】用python代码解决“鬼谷问徒”问题

一天，鬼谷子随意从2-99中选取了两个数。他把这两个数的和告诉了庞涓，把这两个数的乘积告诉了孙膑，但孙膑和庞涓彼此不知到对方得到的数。第二天，庞涓很有自信的对孙膑说：虽然我不知到这两个数是什麽，但我知道你一定也不知道。随后，孙膑说：那我知道了。过一会儿，庞涓说：那我也知道了。

2023-02-20 21:42:44 1150

原创【学习笔记】远程服务器常用指令

汇总最近学到的远程服务器使用指令。

2023-01-10 16:01:36 1736

原创【面试】微软亚研院-离线强化学习实习岗面试总结

微软亚研院，强化学习实习岗位面试总结。

2022-10-17 20:44:14 748 6

原创【面试】商汤研究院-游戏AI见习算法研究员面试总结

商汤研究院，面游戏AI算法岗，二面过后一个多月了，杳无音信。我默认流程结束了，就把面经发出来了。

2022-09-27 18:36:01 1754 5

原创【论文笔记】Population Based Training of Neural Networks（PBT）+ Real World Games Look Like Spinning Tops

谷歌DeepMind团队在2017年文章《Population Based Training of Neural Networks》中提出的PBT算法，看似比较简单和朴素，但是在实际应用中结果表现良好。

2022-08-30 17:23:19 1600

原创【踩坑记录】Linux系统下运行bash脚本提示/usr/bin/env: ‘bash\r’: No such file or directory

在linux远程服务器上，git clone一个项目，在环境配置阶段，需要运行`install.sh`。使用指令`./install.sh`后出现报错：

2022-08-30 14:21:48 632 2

原创【论文笔记】Neural Auto-Curricula (NAC)

论文发表于NeurIPS 2021，属于多智能体强化学习领域。目前我还没有找到介绍这篇paper的相关博客。写一点自己的心得就当作是抛砖引玉了。在多智能体强化学习训练过程中，常常会创建agent的种群，通过对“对手种群策略”的best response（BR）来更新迭代自身策略，如NFSP、Double Oracal等。在这种算法框架下，“与谁竞争”和“如何学习BR”就成了绕不过去的点。............

2022-08-25 19:50:36 507

原创【论文笔记】XDO: A Double Oracle Algorithm for Extensive-Form Games

论文发表于NeurIPS 2021，属于多智能体强化学习领域。目前我还没有找到介绍这篇paper的相关博客。写一点自己的心得就当作是抛砖引玉了。

2022-08-23 16:35:02 2494

原创【论文笔记】policy-space response oracles (PSRO)

这是一篇2017年发表的论文，属于多智能体强化学习领域和博弈论的交叉。在了解这篇文章之前，需要先弄清楚NFSP这类自博弈的概念。之前读这篇论文一直感觉有些看不懂，误以为PSRO和NFSP那一系列非常不一样，是自己不太能学会的新方向。在自己用类似RL+三脚猫self-play做了一个扑克AI算法后，再来重读文章就发现，其实很多地方的思想都是很朴素的，理解起来障碍也少了很多。吐槽一句，InRL会对对手的策略过拟合，自己动手做了才深有感触。...

2022-08-18 15:45:22 2287 3

原创【代码开发】docker查看并解除CPU数量限制

参数根据自己需要调整。

2022-07-21 15:16:17 3465 1

原创【代码开发】python一个终端运行多个进程

验证算法鲁棒性的时候，需要使用不同的10个随机种子，训练10个agent。如果串行运行的话，会导致程序运行时间变为原来的10倍。如果同时启用十个终端运行的话，手动操作起来会非常麻烦。使用python的库，在一个终端中运行多个进程。...

2022-07-21 14:57:51 714 2

原创【踩坑记录】docker内存被占满导致无法连接

在使用docker一段时间后突然出现某个容器进程挂掉，然后再去重新启动都会失败，这是可能需要看看是不是docker把磁盘占满了。下面详细介绍一下我遇到docker占满磁盘的一次经历。

2022-07-14 12:08:41 843

原创【课程总结】2022中科大-数字图像分析-期末考试试卷回忆版及汇总

USTC-DIA-2022

2022-06-30 14:04:46 3218 8

原创【课程总结】2022中科大-组合数学-期末考试试题

2022中科大组合数学期末考试

2022-06-18 16:26:56 2930 12

原创【代码开发】RLCard平台强化学习模型训练入门

最近科研需要一个合适的牌类环境，经过调研RLCard最适合自己上手，更容易进行环境接口的改动。写一篇自己最近对RLCard平台开发过程中的一些“经验”吧。文章目录平台介绍安装代码结构平台介绍RLCard: A Toolkit for Reinforcement Learning in Card GamesRLCard is a toolkit for Reinforcement Learning (RL) in card games. It supports multiple card envir

2022-05-25 18:08:14 2144 1

原创【课程总结】数据网络协议基础-第六章流量和拥塞控制

整理自中国科大李辉老师《数据网络理论基础》课程相关材料。只有部分要点摘录。方便复习回顾。文章目录流量分析拥塞控制理论拥塞问题的产生拥塞控制与流量控制的区别控制方式实现方法窗口式流量和拥塞控制统一窗口拥塞控制漏斗式速率控制算法漏斗算法主动队列管理丢包主动队列管理（AQN）Random Early Detection (RED) 算法流量分析ON-OFF 源可以由最简单的生灭过程来实现，其计数值只能为 0和 1。不同状态下的生灭速率分别为根据该系统的全局平衡方程λP0 = µP1以及 P0

2022-05-12 20:24:11 762 4

原创【代码开发】neuron_poker安装及简单使用

文章目录引子安装Anaconda安装环境及相关依赖运行代码引子最近调研了蛮多能跑德州扑克的平台，但有些代码太老，有些太过复杂，很难找到开源的、方便的代码供研究。最近发现neuron_poker，考虑安装的复杂程度、代码阅读难度、运行效率等因素，综合来看算是不错，而且还带有GUI界面，唯一的遗憾就是里面Keras和torch.keras混用，而我pytorch用的比较多，所以没有深入研究。本文简单介绍一下neuron_poker的安装及使用。这是一个用于强化学习研究德州扑克的环境，主要用于学术研究。gi

2022-05-05 14:34:14 702 1

原创【论文笔记】DRL safety专题经典论文6篇

文章目录引子AI safety in RL高维约束策略优化（CPO）DDPG+SafeLayer人为干预降低专家信息的质量来节约成本自动重置+及时早停总结引子论文来自spinning up Key Papers in Deep RL的safety专题，也就是深度强化学习的安全方面。论文主要是讨论AI Safety这个话题的。这里的Safety倒不是科幻电影里的那种大危机，读过下面的第一篇文章就会明白，这里的safety更像是让agent在具有极度“风险厌恶”情况下进行决策。本文只做简单概述，并且文章顺

2022-05-04 20:08:21 1429

原创【代码开发】选择一维数组中最大的k个

现在回顾本文，其实就是一个因为不熟悉库函数而自己去实现的愚蠢故事。记住，下次自己想实现一些基础功能的时候，一定要先去看看能用上哪些库函数。文章目录目标函数实现优化改进优化后函数总结目标在自己写代码的时候，碰到一个蛮有意思的函数。有点像算法题，目标是用torch和numpy的库函数实现。先介绍一下函数的目标，就是从一个n行m列的数组中，选出每m个中最大的k个，返回一个n*k的数组，每个元素是对应k个元素的下标。返回下标可以乱序。def select_maxk(arr, pick_num=1)ar

2022-04-27 09:38:53 2015

原创【课程总结】数据网络协议基础-第五章路由算法

整理自中国科大李辉老师《数据网络理论基础》课程相关材料。只有部分要点摘录。方便复习回顾。文章目录通信网络的拓扑结构图论基础路由算法概论Floyed-Warshall 算法例题网络最大流、最小费用最大流算法用标号法求最大流算法步骤用标号法求最大流例题Ford-Fulkerson 方法的缺点通信网络的拓扑结构网络拓扑的本质就是利用图论技术将网络抽象化，并且使其表现形式更形象化。实际网络中的终端设备、交换设备和工作站都被抽象为拓扑图中的节点；网络设备间的物理连接线被抽象为拓扑图中的边。常见的网

2022-04-18 20:27:18 2191

原创【论文笔记】多智能体强化学习值分解基础论文5篇

IQL、COMA、VDN、QMIX、QTRAN算法大致思路梳理

2022-04-14 20:17:17 3926

原创【多智能体强化学习环境】SMAC环境配置安装

文章目录引子开始安装github上拉取文件修改install_sc2.sh文件安装SMAC手动安装SMAC地图包引子本文主要介绍多智能体强化学习环境：星际争霸二（SMAC）在linux环境docker上得安装。这里安装的环境来自这个链接：https://github.com/oxwhirl/pymarl因为我们在服务器上一般只有一个属于自己的docker，而且碍于网络问题，直接按照github上的教程安装是行不通的。这里我给出我自己安装的方法，以供参考。首先确保Linux系统中有git等基本的第三方

2022-04-13 20:15:03 3364

原创【论文笔记】RODE：为agent分配角色

文章目录引子模型结构介绍(a) 学习动作编码方式(b) 角色选择器表征(c ) 角色策略训练(d) 整体架构实验及消融实验总结引子论文标题：RODE: LEARNING ROLES TO DECOMPOSE MULTI-AGENT TASKS，ICLR2021。RODE的名字取自role的ro和decompose的de。论文链接：(ICLR 2021, https://arxiv.org/abs/2010.01523).代码链接：https://github.com/TonghanWang/RODE

2022-04-12 16:07:46 1270

原创【唠嗑】恰好读到一本好书，记录一下

文章目录引子初读此书第一印象再读一章试试读读自序读后感恰好在一个合适的时间，读到一本合适的书，有这么大的触动，真是一件幸运的事情。引子我是一个比较喜欢偷懒（走捷径）的人，包括学习上。大概半年前，我突发奇想，问一个同学有没有什么学习的诀窍。没想到他真的回复我了，他跟我推荐了一个app，他说上面的课程不错（避免广告嫌疑我就不说app名字了）。我抱着试一试的心态在上面注册了一个会员，可以听书。很多高手总结一本书的精华，然后半小时不到的时间内把精华说出来，听后自我感觉收获满满。之后一发不可收拾，每天一个人走

2022-04-07 19:41:47 541

原创【论文笔记】MOBA类游戏中的强化学习论文5篇

文章目录引子论文列表用AI打星际争霸（RTS）：Grandmaster level in StarCraft II using multi-agent reinforcement learning整体结构训练模型结构用AI打dota：Dota 2 with Large Scale Deep Reinforcement Learning, 2019整体模型网络结构值得一提的Surgery技术用AI打王者荣耀：Hierarchical Macro Strategy Model for MOBA Game AI，

2022-04-01 15:57:40 5892 3

原创【论文笔记】AP聚类算法解读

简单介绍理解成本较高却异常好用的聚类算法。

2022-04-01 10:28:01 2105

原创【课程总结】数据网络协议基础-第三章网络的时延模型

整理自中国科大李辉老师《数据网络理论基础》课程相关材料。只有部分摘录。文章目录排队论的基本概念Little定理M/M/1 系统的性能分析M/M/m 系统M/G/1 排队系统 (非 Markov 型)排队论的基本概念Little定理Little 定理将排队系统中的三个稳态平均值 N, λ, T 联系起来，N = λT若离开用户平均在系统中的延迟为 T，用户到达率为 λ，那么当该用户离开时，系统中的用户数应该是该用户的延迟 T 内到达的用户数 = λT。定义系统利用率：M/M/1

2022-03-29 18:38:17 3688

原创【课程总结】数据网络协议基础-第二章信息网络建模理论

整理自中国科大李辉老师《数据网络理论基础》课程相关材料。只有部分摘录。文章目录信息网络业务种类和业务量特性信息网络建模的基本准则通信业务源的概率模型化拉氏变换与概率母函数常见的概率分布连续型随机变量的概率分布通信网性能分析中常见的点过程教材：Bertsekas D, Gallager R. Data Network, Prentice-Hall International, Inc. 1992中文版：《数据网络》，人民邮电出版社李建东，《信息网络理论基础》，西安电子科技大学出版社，2001信息网

2022-03-29 16:51:37 3038 1

原创【论文笔记】非完美信息多智能体博弈棋牌类AI论文五篇

文章目录引子OpenHoldem: A Benchmark for Large-Scale Imperfect-Information Game Research，arxiv2020SuphX: Mastering Mahjong with deep einforcement learning. 2020RLCard: A Toolkit for Reinforcement Learning in Card GamesDouZero: Mastering DouDizhu with Self-Play De

2022-03-25 10:24:06 5895

原创【论文笔记】AAAI2022论文精读-AlphaHoldem

修改自我组会报告，具体细节请读原文。文章目录引子背景介绍德州扑克规则论文贡献信息编码方式网络结构自博弈算法性能比较引子论文标题是：AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Texas Hold’em from End-to-End Reinforcement Learning在写这篇文章的时候，论文还没有正式发布，我这里读的是预发布版本。我邮件联系了论文作者之一的兴军亮老师，他的回复是:

2022-03-23 17:08:06 3714 2

原创【论文笔记】AAAI2022多智能体强化学习论文五篇

修改自我的组会报告ppt。文章目录引子Anytime Multi-Agent Path Finding via Machine Learning-Guided Large Neighborhood SearchMAPF-LNS2: Fast Repairing for Multi-Agent Path Finding via Large Neighborhood SearchScenic4RL: Programmatic Modeling and Generation of Real-time Strat

2022-03-17 14:36:04 5466

原创【知识笔记】博弈论之关联性均衡

考虑胆小鬼博弈的收益矩阵：当双方选择胆小（C）时总体收益达到最大。对于纳什均衡可以求出（设智能体1选择C的概率为p）：当两个智能体选择“ C”的概率均为 0.75，并且选择"D" 的概率为 0.25 时，两个智能体达到了混合策略纳什均衡，其中每个智能体获得的期望效益价值为 4.5。两个智能体总效益之和为 9，小于所有两个智能体总效益之和的最大可能值 10。关联性均衡的目的就是通过设定某种规则，使得最后双方的策略接近于A点的策略。当两个智能体相关联并且设定每种情况的可能性为 v = [1/

2022-03-15 15:52:50 1084

原创【论文笔记】ICLR2022 Oral Presentations 强化学习论文5篇

来自我的组会报告ppt。文章目录引子Provably Filtering Exogenous Distractors using Multistep Inverse DynamicsThe Information Geometry of Unsupervised Reinforcement LearningVision-Based Manipulators Need to Also See from Their HandsTransform2Act: Learning a Transform-and-Co

2022-03-11 14:22:08 4186

原创【论文笔记】强化学习论文阅读-Model-Based RL 9篇

来自我的组会报告ppt文章目录引子a. Model is learnedImagination-Augmented Agents for Deep Reinforcement Learning, Weber et al, 2017. Algorithm: I2A.（deepmind）Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning, Nagabandi et al,

2022-03-09 20:50:20 3919 1

编译原理_TinyC_说明及初始代码.zip

exp2_Tree.rar

四种排序算法时间记录（C语言实现快排归并插入大顶堆）

空空如也