DKwtno-CSDN博客

原创 ns3使用cppyy load_library报错

外网搜到一些原因，说是cppyy 2.4.2和gcc的flag有问题。然而使用cppyy 3.0.0又有另一个Bug（ns.core.Seconds会返回空指针），所以投机取巧了。

2024-03-24 12:10:42 115

原创 ns3-dev报错：fatal error: numbers: No such file or directory

【代码】ns3-dev报错：fatal error: numbers: No such file or directory。

2024-03-23 20:41:44 227

原创【MADRL】MADDPG运行MPE

MADDPG，MADRL，MPE，pytorch

2022-04-25 18:34:06 1198 2

原创 latex生成论文第一页空缺

写IEEE journal的时候遇到的问题……用latex写了\thanks，编译的论文第一页是空的，这是因为\thanks要在\author内部，然后再用\maketitle，即\author{… \thanks{}}。这样的话详细信息就会出现在论文首页的左下角另外，\thanks{}每引用一个就是全新的一段，不用换行+空格...

2021-12-17 11:04:55 1270

原创 tensorflow object detection api model_builder_tf1_test.py没有输出以及 anaconda下版本依赖（全）

这里写自定义目录标题tensorflow object detection api model_builder_tf1_test.py没有输出以及 anaconda下版本依赖（全）tensorflow object detection api model_builder_tf1_test.py没有输出以及 anaconda下版本依赖（全）由于自身电脑GPU不支持cuda11以上的版本，我装的是tensorflow object detection api 1，tensorflow是1.15。没有输出

2021-07-13 10:45:00 288 1

原创可转移效用（TU - transferable utility）和不可转移效用（NTU - nontransferable utility）

定义TU：在合作博弈（或联盟博弈）中，对各个coalition的value都可以用一个实数表示，并且coalition获得的utility是可以分给联盟内部不同player的（通过fairnss rule），这样的特征函数称为可转移效用（TU）的。NTU：对任意coalition的value，如果不能用实数表示，或者utility的分布有很严格的约束，这样的特征函数称之为不可转移效用（NTU）的。在NTU的博弈中，联盟中的每个player获取的utility与联盟采取的joint action无关，因

2020-10-13 16:43:24 2922

原创合作博弈（coalitional game）——核仁（Nucleolus）初解

来源Coalitional Game Theory for Communication Networks前置知识由于详细解释需要一些博弈论的知识，如TU、core等，所以这里只作初解，大致解释下什么叫做Nucleolus方法。这里我们讨论的是TU canonical games，不理解也没关系，当成最普通的博弈情景就行了。理解Nucleolus，本质就是最小化合作博弈中联盟（coalition）的最大不满意程度的一种分配方法。本质是min-max。概念合作博弈：字面上理解。联盟 coal

2020-10-09 10:33:36 10599 8

原创 functions of vectors not vectors of functions

向量的函数而非函数的向量这句话有点难以理解，意思是说对向量进行操作，所以会导致雅可比矩阵很多非对角线元素为0吗？

2020-09-26 16:18:13 85

原创证明[0,1]与(0,1)等势

创建集合A1={12,13,14,...}A_1=\{ \frac{1}{2},\frac{1}{3},\frac{1}{4},...\}A1={21,31,41,...}A2={0,1,12,13,14,...}A_2=\{0,1,\frac{1}{2},\frac{1}{3},\frac{1}{4},...\}A2={0,1,21,31,41,...}有：(0,1)=A1⋃B(0,1)=A_1 \bigcup B(0,1)=A1⋃B[0,1]=A2⋃B[0,1]=A_2 \b

2020-09-24 15:03:13 4947

原创证明：dim(Null(A))+rank(A)=0

假设A为nxn方阵。当r(A)=n时，Ax=0的解集是{0}。由定义可知，dim({0})={0}的基的个数=0，所以0+n=n。当r(A)=0时，Ax必然等于0，用X表示x的解空间，则由dim(X)=n，所以n+0=n。当r(A)=r时，A必定由r个非零行，不妨假设前r行为非零行，利用高斯消元法可将后n-r行化成0，因此方程组必有n-r个自由未知数，即基础解系中包含n-r个解向量，所以dim(X)=n-r，故r+n-r=0综上，dim(Null(A))+rank(A)=0。...

2020-09-23 20:59:03 1864 2

原创论文阅读——Vehicular Fog Computing - A Viewpoint of Vehicles as the Infrastructures

来源Vehicular Fog Computing - A Viewpoint of Vehicles as the Infrastructures思维导图总结利用车辆形成cloud，协助计算，提出VFC，同时也提出了很多需要关注的点，诸如资源管理、激励机制、机动性、安全性等等。...

2020-09-08 12:25:54 275

原创 chi2test，matlab里的卡方检验

代码来源是https://ww2.mathworks.cn/matlabcentral/fileexchange，完整代码如下：function [p, Q]= chi2test(x) % Usage: [p, Q]= chi2test(x)% % The chi-squared test. % % Given a number of samples this function tests the hypothesis that the samples are % independent.

2020-08-23 21:24:52 20394 2

原创 3.论文学习——移动边缘网络中的任务卸载机制

来源QoE-Based Cooperative Task Offloading with Deep Reinforcement Learning in Mobile Edge Networks简介是论文中的一块，原文proposed task offloading mechansim for MENs(mobile edge networks)。由于与VFC有挺多的相通之处，特此学习。正文该机制分为三步：任务优先级设立重复任务删除任务安排Task Priority Assignment

2020-08-09 20:34:09 1888

原创 2.论文学习——基于无人驾驶合作感知的一种新VFC架构

原文A New Vehicular Fog Computing Architecture for Cooperative Sensing of Autonomous Driving摘要无人驾驶的感知范围是十分重要的标准，但是现有单车的感知覆盖比较低下，往往出现死区（ dead zone）和精度不足，因此考虑多车附近合作感知，利用贪婪算法和SVM算法来增强感知范围和精确度，用Li-GRU神经网络算法预测车辆的策略选择，构建出一种新的VFC架构。正文为了解决旧有VFC架构单车感知的缺点，本文将一排车

2020-08-09 14:26:01 400

原创 1.Vehicular Fog Computing（VFC）简介

简介雾计算，即更加底层的云计算。云在天上是云，到了地上冷凝变成雾。雾计算，就是在较边缘的设备上进行计算再传送数据给终端，而不是像云计算那样传送到核心计算机。随着车载网络等技术的发展成熟，车辆雾计算也成了一个研究热门。利用车辆进行计算和相互沟通传达数据，可以发现哪里堵车、哪里路况不好，然后传递给整个车辆网络。车辆雾计算主要解决的问题是车辆间的实时交流和计算容量问题。名词解释RSU：roadside unit，路测单元，有监视车辆、识别车速等功能。cellular network：蜂窝网络、移动网

2020-08-09 09:46:37 3752

原创 8.Actor-Critic+A2C+A3C

目录深度强化学习目录简介之前讲了Policy-based方法，讲了Value-based方法，现在来讲一下结合两种方法的Actor-Critic。符号rtr_trt：t时刻的即时奖赏。RθR_\thetaRθ：使用参数θ\thetaθ时，某轮游戏的累积奖赏。GtG_tGt：时间从t到结束的累积奖赏，由于t时刻的奖励是采取行动后t+1时刻才拥有的，所以GtG_tGt满足：Gt=rt+1+rt+2+…G_t={r_{t+1}+r_{t+2}+\ldots}Gt=rt+1+rt+2+

2020-07-16 11:42:01 330

原创 7.连续空间上的Q-learning

目录深度强化学习目录简介Q-learning的实现是比较简单的，但只能用在离散行为空间的情况下。在连续空间中该怎么操作？比较常见的方法是将连续空间离散化，从AAA中采样，然后再用传统的方法运算。但这种方法是有限的，且效果一般。还有一种方法是gradient ascent。我们知道采取的行为a满足：a=argmax⁡a∈AQ(s,a)a=arg\max_{a\in A}Q(s,a)a=arga∈AmaxQ(s,a)我们把a当做参数，利用梯度上升的方法最大化Q值，一样可以做。但是问题在于运算量过大，且

2020-07-15 18:56:59 934

原创 6.DQN(Deep Q-Network)+Double DQN+Dueling DQN

目录深度强化学习目录简介DQN(Deep Q-Network)，顾名思义，就是将Q-learning与深度学习相结合。具体点讲，就是把Q-learning中估算Q值函数的模型应用为神经网络，一般我们用的是三层CNN结构。DQN在实际操作中会遇到一个问题，就是过度高估（over-estimate）Q值函数。于是我们使用Double DQN来缓解这个问题。Double DQN什么叫过度高估Q值函数？举个例子，我们用DQN玩游戏，在状态s的时候训练得到的Q值是100，而实际玩了一盘下来发现远不到100

2020-07-15 10:55:00 1744

原创 5.Q-learning

目录深度强化学习目录简介上篇文章里讲了MC算法和TD算法，不过用的是V值函数，这回我们学习Q函数。在贝尔曼方程那一篇文章里我们说过，Q函数可以表示成最优Bellman等式的形式，且最优的Q等价于最优的策略π⋆\pi^\starπ⋆，又策略π\piπ一定可以收敛到最优策略π′\pi'π′，Q-learning就是基于这些思想来实现的。实现运用到的技术前面讲到了，Q-learning实际上就是对Q值函数使用TD算法（至于为什么不用MC算法，我也不清楚，可能是因为方差太大了吧）。TD算法的核心只有一个公

2020-07-13 21:05:04 530

原创 4.蒙特卡洛（Monte-Carlo, MC）+时序差分（Temporal Difference, TD）

目录深度强化学习目录简介之前讲的PG算法和PPO算法，都是Policy-based的方法，接下来我们要讲Value-based的方法。之前说过了，P-B方法和V-B方法的区别在于前者训练的是策略本身（actor），而后者训练的是一种评判标准（critic）。critic能根据你输入的状态/动作，凭借策略π\piπ来输出对应的值函数。值函数有两种，一种是V（状态-值函数），一种是Q（状态-动作值函数），我们要讲的MC算法和TD算法是用来估计V值函数的。符号τ\tauτ：一轮游戏中的具体过程（tra

2020-07-13 09:17:19 1210

原创 3.Proximal Policy Optimization(PPO)+on/off policy

目录深度强化学习目录简介策略梯度（Policy Gradient）的缺点在于采样量大，且每一次更新参数都需要采样n轮，更新完又要去采样……换言之，对游戏数据的利用率很低，太慢了。这种采样-学习-采样的过程，是一种on-policy策略，接下来我们要将的PPO则不同，是一种off-policy的策略。On/Off PolicyOn Policy：训练同一个agent，同时还要求他去对环境进行交互。Off Policy：训练的是一个agent，实际和环境交互的是另一个agent。举个下棋的

2020-07-12 18:03:10 974 3

原创 2.策略梯度（Policy Gradient）+Gradient Ascent

目录深度强化学习目录简介策略梯度，顾名思义，就是优化策略的梯度。我们之前讲了Policy-based和Value-based，而Policy-based方法就是直接训练策略的一组参数。如何训练？策略梯度就是一种方法。基本思路要训练一个Policy-based的方法，其实只需要三步。第一步，用一个神经网络作为策略自身，神经网络的参数为θ\thetaθ。第二步，设置一个Loss function，告诉神经网络什么样的策略是好的。第三步，得到最佳策略。符号τ\tauτ：一轮游戏中的具体过

2020-07-12 11:45:16 1654

原创 1.贝尔曼方程（Bellman equation）

目录深度强化学习目录简介贝尔曼方程，又叫动态规划方程，是以Richard Bellman命名的，表示动态规划问题中相邻状态关系的方程。某些决策问题可以按照时间或空间分成多个阶段，每个阶段做出决策从而使整个过程取得效果最优的多阶段决策问题，可以用动态规划方法求解。某一阶段最优决策的问题，通过贝尔曼方程转化为下一阶段最优决策的子问题，从而初始状态的最优决策可以由终状态的最优决策(一般易解)问题逐步迭代求解。存在某种形式的贝尔曼方程，是动态规划方法能得到最优解的必要条件。绝大多数可以用最优控制理论解决的问

2020-07-11 21:04:47 28396 4

qq_39160779的博客