自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 ns3使用cppyy load_library报错

外网搜到一些原因,说是cppyy 2.4.2和gcc的flag有问题。然而使用cppyy 3.0.0又有另一个Bug(ns.core.Seconds会返回空指针),所以投机取巧了。

2024-03-24 12:10:42 115

原创 ns3-dev报错:fatal error: numbers: No such file or directory

【代码】ns3-dev报错:fatal error: numbers: No such file or directory。

2024-03-23 20:41:44 227

原创 【MADRL】MADDPG运行MPE

MADDPG,MADRL,MPE,pytorch

2022-04-25 18:34:06 1198 2

原创 latex生成论文第一页空缺

写IEEE journal的时候遇到的问题……用latex写了\thanks,编译的论文第一页是空的,这是因为\thanks要在\author内部,然后再用\maketitle,即\author{… \thanks{}}。这样的话详细信息就会出现在论文首页的左下角另外,\thanks{}每引用一个就是全新的一段,不用换行+空格...

2021-12-17 11:04:55 1270

原创 tensorflow object detection api model_builder_tf1_test.py没有输出 以及 anaconda下版本依赖(全)

这里写自定义目录标题tensorflow object detection api model_builder_tf1_test.py没有输出 以及 anaconda下版本依赖(全)tensorflow object detection api model_builder_tf1_test.py没有输出 以及 anaconda下版本依赖(全)由于自身电脑GPU不支持cuda11以上的版本,我装的是tensorflow object detection api 1,tensorflow是1.15。没有输出

2021-07-13 10:45:00 288 1

原创 可转移效用(TU - transferable utility)和不可转移效用(NTU - nontransferable utility)

定义TU:在合作博弈(或联盟博弈)中,对各个coalition的value都可以用一个实数表示,并且coalition获得的utility是可以分给联盟内部不同player的(通过fairnss rule),这样的特征函数称为可转移效用(TU)的。NTU:对任意coalition的value,如果不能用实数表示,或者utility的分布有很严格的约束,这样的特征函数称之为不可转移效用(NTU)的。在NTU的博弈中,联盟中的每个player获取的utility与联盟采取的joint action无关,因

2020-10-13 16:43:24 2922

原创 合作博弈(coalitional game)——核仁(Nucleolus)初解

来源Coalitional Game Theory for Communication Networks前置知识由于详细解释需要一些博弈论的知识,如TU、core等,所以这里只作初解,大致解释下什么叫做Nucleolus方法。这里我们讨论的是TU canonical games,不理解也没关系,当成最普通的博弈情景就行了。理解Nucleolus,本质就是最小化合作博弈中联盟(coalition)的最大不满意程度的一种分配方法。本质是min-max。概念合作博弈:字面上理解。联盟 coal

2020-10-09 10:33:36 10599 8

原创 functions of vectors not vectors of functions

向量的函数而非函数的向量这句话有点难以理解,意思是说对向量进行操作,所以会导致雅可比矩阵很多非对角线元素为0吗?

2020-09-26 16:18:13 85

原创 证明[0,1]与(0,1)等势

创建集合A1={12,13,14,...}A_1=\{ \frac{1}{2},\frac{1}{3},\frac{1}{4},...\}A1​={21​,31​,41​,...}A2={0,1,12,13,14,...}A_2=\{0,1,\frac{1}{2},\frac{1}{3},\frac{1}{4},...\}A2​={0,1,21​,31​,41​,...}有:(0,1)=A1⋃B(0,1)=A_1 \bigcup B(0,1)=A1​⋃B[0,1]=A2⋃B[0,1]=A_2 \b

2020-09-24 15:03:13 4947

原创 证明:dim(Null(A))+rank(A)=0

假设A为nxn方阵。当r(A)=n时,Ax=0的解集是{0}。由定义可知,dim({0})={0}的基的个数=0,所以0+n=n。当r(A)=0时,Ax必然等于0,用X表示x的解空间,则由dim(X)=n,所以n+0=n。当r(A)=r时,A必定由r个非零行,不妨假设前r行为非零行,利用高斯消元法可将后n-r行化成0,因此方程组必有n-r个自由未知数,即基础解系中包含n-r个解向量,所以dim(X)=n-r,故r+n-r=0综上,dim(Null(A))+rank(A)=0。...

2020-09-23 20:59:03 1864 2

原创 论文阅读——Vehicular Fog Computing - A Viewpoint of Vehicles as the Infrastructures

来源Vehicular Fog Computing - A Viewpoint of Vehicles as the Infrastructures思维导图总结利用车辆形成cloud,协助计算,提出VFC,同时也提出了很多需要关注的点,诸如资源管理、激励机制、机动性、安全性等等。...

2020-09-08 12:25:54 275

原创 chi2test,matlab里的卡方检验

代码来源是https://ww2.mathworks.cn/matlabcentral/fileexchange,完整代码如下:function [p, Q]= chi2test(x) % Usage: [p, Q]= chi2test(x)% % The chi-squared test. % % Given a number of samples this function tests the hypothesis that the samples are % independent.

2020-08-23 21:24:52 20394 2

原创 3.论文学习——移动边缘网络中的任务卸载机制

来源QoE-Based Cooperative Task Offloading with Deep Reinforcement Learning in Mobile Edge Networks简介是论文中的一块,原文proposed task offloading mechansim for MENs(mobile edge networks)。由于与VFC有挺多的相通之处,特此学习。正文该机制分为三步:任务优先级设立重复任务删除任务安排Task Priority Assignment

2020-08-09 20:34:09 1888

原创 2.论文学习——基于无人驾驶合作感知的一种新VFC架构

原文A New Vehicular Fog Computing Architecture for Cooperative Sensing of Autonomous Driving摘要无人驾驶的感知范围是十分重要的标准,但是现有单车的感知覆盖比较低下,往往出现死区( dead zone)和精度不足,因此考虑多车附近合作感知,利用贪婪算法和SVM算法来增强感知范围和精确度,用Li-GRU神经网络算法预测车辆的策略选择,构建出一种新的VFC架构。正文为了解决旧有VFC架构单车感知的缺点,本文将一排车

2020-08-09 14:26:01 400

原创 1.Vehicular Fog Computing(VFC)简介

简介雾计算,即更加底层的云计算。云在天上是云,到了地上冷凝变成雾。雾计算,就是在较边缘的设备上进行计算再传送数据给终端,而不是像云计算那样传送到核心计算机。随着车载网络等技术的发展成熟,车辆雾计算也成了一个研究热门。利用车辆进行计算和相互沟通传达数据,可以发现哪里堵车、哪里路况不好,然后传递给整个车辆网络。车辆雾计算主要解决的问题是车辆间的实时交流和计算容量问题。名词解释RSU:roadside unit,路测单元,有监视车辆、识别车速等功能。cellular network:蜂窝网络、移动网

2020-08-09 09:46:37 3752

原创 8.Actor-Critic+A2C+A3C

目录深度强化学习目录简介之前讲了Policy-based方法,讲了Value-based方法,现在来讲一下结合两种方法的Actor-Critic。符号rtr_trt​:t时刻的即时奖赏。RθR_\thetaRθ​:使用参数θ\thetaθ时,某轮游戏的累积奖赏。GtG_tGt​:时间从t到结束的累积奖赏,由于t时刻的奖励是采取行动后t+1时刻才拥有的,所以GtG_tGt​满足:Gt=rt+1+rt+2+…G_t={r_{t+1}+r_{t+2}+\ldots}Gt​=rt+1​+rt+2​+

2020-07-16 11:42:01 330

原创 7.连续空间上的Q-learning

目录深度强化学习目录简介Q-learning的实现是比较简单的,但只能用在离散行为空间的情况下。在连续空间中该怎么操作?比较常见的方法是将连续空间离散化,从AAA中采样,然后再用传统的方法运算。但这种方法是有限的,且效果一般。还有一种方法是gradient ascent。我们知道采取的行为a满足:a=argmax⁡a∈AQ(s,a)a=arg\max_{a\in A}Q(s,a)a=arga∈Amax​Q(s,a)我们把a当做参数,利用梯度上升的方法最大化Q值,一样可以做。但是问题在于运算量过大,且

2020-07-15 18:56:59 934

原创 6.DQN(Deep Q-Network)+Double DQN+Dueling DQN

目录深度强化学习目录简介DQN(Deep Q-Network),顾名思义,就是将Q-learning与深度学习相结合。具体点讲,就是把Q-learning中估算Q值函数的模型应用为神经网络,一般我们用的是三层CNN结构。DQN在实际操作中会遇到一个问题,就是过度高估(over-estimate)Q值函数。于是我们使用Double DQN来缓解这个问题。Double DQN什么叫过度高估Q值函数?举个例子,我们用DQN玩游戏,在状态s的时候训练得到的Q值是100,而实际玩了一盘下来发现远不到100

2020-07-15 10:55:00 1744

原创 5.Q-learning

目录深度强化学习目录简介上篇文章里讲了MC算法和TD算法,不过用的是V值函数,这回我们学习Q函数。在贝尔曼方程那一篇文章里我们说过,Q函数可以表示成最优Bellman等式的形式,且最优的Q等价于最优的策略π⋆\pi^\starπ⋆,又策略π\piπ一定可以收敛到最优策略π′\pi'π′,Q-learning就是基于这些思想来实现的。实现运用到的技术前面讲到了,Q-learning实际上就是对Q值函数使用TD算法(至于为什么不用MC算法,我也不清楚,可能是因为方差太大了吧)。TD算法的核心只有一个公

2020-07-13 21:05:04 530

原创 4.蒙特卡洛(Monte-Carlo, MC)+时序差分(Temporal Difference, TD)

目录深度强化学习目录简介之前讲的PG算法和PPO算法,都是Policy-based的方法,接下来我们要讲Value-based的方法。之前说过了,P-B方法和V-B方法的区别在于前者训练的是策略本身(actor),而后者训练的是一种评判标准(critic)。critic能根据你输入的状态/动作,凭借策略π\piπ来输出对应的值函数。值函数有两种,一种是V(状态-值函数),一种是Q(状态-动作值函数),我们要讲的MC算法和TD算法是用来估计V值函数的。符号τ\tauτ:一轮游戏中的具体过程(tra

2020-07-13 09:17:19 1210

原创 3.Proximal Policy Optimization(PPO)+on/off policy

目录深度强化学习目录简介策略梯度(Policy Gradient)的缺点在于采样量大,且每一次更新参数都需要采样n轮,更新完又要去采样……换言之,对游戏数据的利用率很低,太慢了。这种采样-学习-采样的过程,是一种on-policy策略,接下来我们要将的PPO则不同,是一种off-policy的策略。On/Off PolicyOn Policy:训练同一个agent,同时还要求他去对环境进行交互。Off Policy:训练的是一个agent,实际和环境交互的是另一个agent。举个下棋的

2020-07-12 18:03:10 974 3

原创 2.策略梯度(Policy Gradient)+Gradient Ascent

目录深度强化学习目录简介策略梯度,顾名思义,就是优化策略的梯度。我们之前讲了Policy-based和Value-based,而Policy-based方法就是直接训练策略的一组参数。如何训练?策略梯度就是一种方法。基本思路要训练一个Policy-based的方法,其实只需要三步。第一步,用一个神经网络作为策略自身,神经网络的参数为θ\thetaθ。第二步,设置一个Loss function,告诉神经网络什么样的策略是好的。第三步,得到最佳策略。符号τ\tauτ:一轮游戏中的具体过

2020-07-12 11:45:16 1654

原创 1.贝尔曼方程(Bellman equation)

目录深度强化学习目录简介贝尔曼方程,又叫动态规划方程,是以Richard Bellman命名的,表示动态规划问题中相邻状态关系的方程。某些决策问题可以按照时间或空间分成多个阶段,每个阶段做出决策从而使整个过程取得效果最优的多阶段决策问题,可以用动态规划方法求解。某一阶段最优决策的问题,通过贝尔曼方程转化为下一阶段最优决策的子问题,从而初始状态的最优决策可以由终状态的最优决策(一般易解)问题逐步迭代求解。存在某种形式的贝尔曼方程,是动态规划方法能得到最优解的必要条件。绝大多数可以用最优控制理论解决的问

2020-07-11 21:04:47 28396 4

原创 0.强化学习概述+policy based+value based

目录深度强化学习目录简述深度强化学习(Deep Reinforcement Learning)分为深度和强化两个部分。深度学习的好处是更深,更抽象的学习;而强化学习则是通过与环境产生互动来采取行动。下面主要对强化学习作出概述。强化学习强化学习主要由两个主体、四个部分组成。两个主体Agent:代理人,即采取行动的个体,如玩家。Environment:环境,能对行动产生反馈,如游戏规则。四个部分<A, S, R, P>Action space : A State spac

2020-07-11 15:03:57 5371

原创 深度强化学习目录

目录

2020-07-11 10:40:46 911

原创 AI玩游戏(2)——Pendulum

一点话Pendulum是一个结点下连着一根棒子,通过移动结点来使棒子竖立(夹角=0,角速度=0)。本来确定的目标是Acrobot,即两根棒子通过一个结点连接,但是太难了,所以先玩Pendulum-v0。而对于Pendulum,本来是想用DDPG的,结果电脑只有CPU,跑得贼慢,又懒得换系统搞CUDA,所以依旧是Q-learning算法。对于算法有疑问的可以找上一回环境win10,python3.7,numpy,gym来源深度强化学习(六):连续动作空间的问题,这篇用DDPG完成的文章写得还行,另

2020-06-27 11:01:49 968 1

原创 AI玩游戏(1)——CartPole

引言早就想试试用AI玩游戏,尤其是塔防游戏。现在从零开始,一点点前进,最终目标是搞定塔防。环境windows 10,Python 3.6, 用pip安装的gym,numpy具体实现来源所谓天下代码一大抄,看你会抄不会抄。本次项目的代码思想来自https://blog.csdn.net/gg_18826075157/article/details/78163386?utm_source=blogkpcl12,我主要对代码中的部分内容进行解释,并且进行一定改进。解释离散化处理。原文预先对小车的

2020-06-22 12:52:49 524

原创 Mysql 每天凌晨对数据库中过期的旅行团设置

Mysql事件调度器show variables like '%event_scheduler%';set global event_scheduler=1;/*每天凌晨1点对数据库group表内数据项进行检查,若start_time小于当天日期,则置状态为0,表示旅游团已关闭*/CREATE EVENT IF NOT EXISTS update_group_activated ...

2018-12-15 14:00:25 271

原创 [绝对能看懂!]Deciphering Password(积性函数+线性筛+素数分解)

描述Xiaoming has just come up with a new way for encryption, by calculating the key from a publicly viewable number in the following way:Let the public key N = A^B, where 1 &amp;amp;amp;amp;lt;= A, B &amp;amp;amp;amp;lt;= 1000000, a...

2018-12-08 20:40:58 245

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除