- 博客(43)
- 资源 (5)
- 收藏
- 关注
原创 多臂老虎机理论系列
的内容来源于Russo和Van Roy (2014),他们改进了该方法以获得更好的上界,这些上界适用于特定类别的先验分布,包括线性和“广义线性”的平均回报向量,以及由高斯过程给出的先验。首先,定理基于之前定义的置信区间的属性(公式 3.14 和 3.15)以及置信半径(引用自公式 3.13),这些都符合引理 3.10 的条件,即这些条件对任何特定的先验分布都成立,只要这些分布拥有良好的置信界。这表明,随着时间的推移,汤普森采样方法能够在保持探索和利用之间的平衡的同时,有效地接近最优动作选择。
2024-03-05 23:33:21 826
原创 多臂老虎机理论系列
Bayesian Bandits and Thompson Sampling3.1 Bayesian update in Bayesian bandits3.1.1 Terminology and notation3.1.2 Posterior does not depend on the algorithm3.1.3 Posterior as a new prior3.1.4 Independent priors3.2 Algorithm specification and implementationB
2024-02-27 16:24:01 819
原创 电波传播
电波传播1.大气层对电波传播的影响1.1、传输损耗1.2、大气衰落 目标信息的获取是通过无线电波(发射天线所发射的无线电波,通过自然条件下的媒介到达接收天线的过程)的传播来实现的 媒介的电特性对不同频段的无线电波的传播有着不同的影响。根据不同频段的点播在媒介中传播的物理过程,可将电波传播方式分为地波传播、对流层电波传播、波导传播、电离层电波传播、外大气层及行星际空间电波传播等。地面(海面...
2020-03-03 12:03:47 2241
原创 天线的工作频带宽度
天线的工作频带宽度1.方向图带宽2.方向系数带宽3.输入阻抗带宽 天线的所有电参数都是频率的函数。频率变化,电参数跟着变化,这就是天线的频率特性,可用工作频带或带宽表示。天线的带宽是天线的某个或某些性能参数符合要求时的工作频率范围。天线带宽取决于天线的频率特性和对天线提出的参数要求,不同的电参数,频率特性不同。 相对带宽是绝对带宽与工作频带的中心频率之比。对于频率特性对称的电参数,可用2△...
2020-03-02 12:22:49 6801
原创 强化学习井字棋游戏
强化学习井字棋游戏实现 这是一个简单的强化学习例子Tic-Tac-Toe。在一个3×3的九宫格里,两个人人论留下,直到有个人的棋子满足三个一横一竖或者一斜,赢得比赛游戏结束,或者九宫格填满也没有人赢,则和棋。 程序实现用两个电脑选手训练模型,然后可以让任何机器对战。 下面进行对代码介绍:import numpy as npimport pickleBOARD_ROWS = 3...
2020-01-14 17:09:46 2617 1
原创 Fast deep reinforcement learning using online adjustments from the past
Fast deep reinforcement learning using online adjustments from the past1、介绍摘要: 我们提出了短暂价值调整(EVA):是一种允许深度强化学习的agent快速适应其回放缓冲经验的方法。EVA从接近当前状态的replay buffer中用一个通过规划经验元祖得到的值函数估计值的神经网络来转移预测的值。EVA结合了一些最近的想法...
2019-10-17 22:18:04 440
原创 强化学习——蛇棋游戏策略迭代实现
强化学习——蛇棋游戏策略迭代实现1"表格式"Agent2、对游戏的评估3、策略迭代3.1、策略评估3.2、策略改善1"表格式"Agent 在之前的文章的基础之上,本文对搭建的蛇棋游戏采用策略迭代的方法实现。策略迭代时,环境的状态转移概率需要对Agent公开,这样Agent就能利用这些信息做出更好的决策。对于蛇棋来说,如果知道骰子的每一面朝上的概率是均匀的,以及棋盘上的每一个梯子都是可见的,就...
2019-10-05 18:16:11 1013
原创 强化学习——蛇棋游戏gym环境搭建
强化学习——蛇棋游戏gym环境搭建 学习强化学习精要核心算法与Tensorflow实现这本书中,关于蛇棋游戏利用gym搭建。游戏的规则非常简单,详细请参考冯超的书<<强化学习精要核心算法与Tensorflow实现>>。下面是游戏的具体实现:import numpy as npimport gymfrom gym.spaces import Discrete...
2019-10-05 13:13:28 2337
原创 矩阵论
线性空间1、线性空间的定义以及性质1.1、集合与映射(预备知识)1.2、线性空间的定义1、线性空间的定义以及性质1.1、集合与映射(预备知识)集合: 笼统的说是指一些事物(或者对象)组成的整体。数集: 由数(有限个,无限个)组成的集合。解集合: 一个线性方程组解的全体组成的集合。点集合: 一个已知半径和圆心的开圆内的所有点组成的一个集合。集合的运算: 并(∪\cup∪),交(∩\ca...
2019-10-03 17:39:41 1878 1
原创 基于值函数逼近的强化学习方法
基于值函数逼近的强化学习方法1.1、表格型强化学习方法1.2、值函数逼近方法理论1.2.1 值函数逼近方法的分类1.2.2、值函数逼近和表格型强化学习方法的比较1.3、参数化逼近1.4、增量式学习方法1.4.1、基于蒙特卡罗方法的函数逼近1.4.2、基于时间差分法的值函数逼近1.4.3、值函数逼近的形式1.5、批量式方法1.1、表格型强化学习方法 状态值函数可以利用动态规划法,MC或者TD的...
2019-09-29 17:43:32 1321
翻译 李弘毅机器学习笔记:第十六章—无监督学习
李弘毅机器学习笔记:第十六章—无监督学习1-of-N Encoding词嵌入基于计数的词嵌入基于预测的词嵌入具体步骤共享参数训练Various Architectures多语言嵌入多域嵌入文档嵌入语义嵌入Beyond Bag of Word1-of-N Encodingword embedding是dimension reduction的一个广为人知的应用。如果今天要你用一个vector来表...
2019-09-29 10:07:34 986
翻译 李弘毅机器学习笔记:第十六章—无监督学习
李弘毅机器学习笔记:第十六章—无监督学习聚类K-means层次聚类Distributed Representation降维降维样例特征选择主成分分析数学推导主成分分析的另一个角度奇异值分解主成分分析和神经网络缺点应用实例矩阵分解FM推荐系统中的应用MF主题分析的应用未引入的其他相关方法我把dimension reduction分为两种,一种做的事情叫做“化繁为简”,它可以分为两种:一种是clu...
2019-09-28 23:12:46 518
原创 统计学习方法第一章
统计学习方法第一章1.11.21.1统计学习方法三要数:模型,策略,算法。模型:伯努利模型,即定义在取值为0与1的随机变量上的概率分布。策略:极大似然估计和贝叶斯估计的策略都是对数损失函数,只不过贝叶斯估计使用的是结构风险最小化。算法:极大似然估计使用的算法是求取经验函数风险函数的最小值,贝叶斯估计所使用的算法是求取参数的后验分布,然后计算其期望。定义B为取值为0或1的随机变量,并设B...
2019-09-28 17:03:02 138
翻译 李弘毅机器学习笔记:第十五章—半监督学习
李弘毅机器学习笔记:第十五章—半监督学习监督学习和半监督学习半监督学习的好处监督生成模型和半监督生成模型监督生成模型半监督生成模型假设一:Low-density SeparationSelf-training基于熵的正则化半监督SVM假设二:Smoothness Assumption聚类和标记基于图的方法Better Representation监督学习和半监督学习在supervised里面...
2019-09-25 09:24:28 986
翻译 李弘毅机器学习笔记:第十四章—Why deep?
李弘毅机器学习笔记:第十四章—Why deep?问题1:越深越好?问题2:矮胖结构 v.s. 高瘦结构引入模块化深度学习使用语音识别举例语音辨识:传统的实现方法:HMM-GMM深度学习的实现方法 DNN两种方法的对比 GMM v.s. DNN普遍性定理举例使用逻辑电路举例使用剪窗花举例使用二位坐标举例端到端的学习语音识别图像识别更复杂的任务问题1:越深越好?learning从一层到七层,er...
2019-09-24 13:13:23 377
翻译 李弘毅机器学习笔记:第十三章—CNN
李弘毅机器学习笔记:第十二章—CNN为什么用CNNSmall regionSame PatternsSubsamplingCNN架构ConvolutionPropetry1Propetry2convolution和fully connected之间的关系Max poolingFlattenCNN in KerasCNN学到了什么?分析全连接层让图更像数字Deep DreamDeep styleCN...
2019-09-23 22:12:13 426
翻译 李弘毅机器学习笔记:第十二章—Recipe of Deep Learning
李弘毅机器学习笔记:第十二章—Recipe of Deep Learning神经网络的表现如何改进神经网络?新的激活函数梯度消失怎么样去解决梯度消失?Adaptive Learning RateEarly StoppingRegularizationDropout当你的模型表现不好,应该怎么处理?如上图建立deep learning的三个步骤• define a set function...
2019-09-22 21:30:20 658
翻译 李弘毅机器学习笔记:第十一章—Keras Demo
李弘毅机器学习笔记:第十一章—Keras Demo创建网络配置选择最好的方程使用模型创建网络假设我们要做的事情是手写数字辨识,那我们要建一个Network scratch,input是28∗2828\ast 2828∗28的dimension,其实就是说这是一张image,image的解析度是28∗2828\ast2828∗28,我们把它拉成长度是28∗2828\ast 2828∗28维的向量...
2019-09-22 13:37:38 177
翻译 李弘毅机器学习笔记:第十章:Keras2.0
李弘毅机器学习笔记:第十章:Keras2.0创建网络配置选择最好的方程使用模型创建网络假设我们要做的事情是手写数字辨识,那我们要建一个Network scratch,input是28∗2828\ast 2828∗28的dimension,其实就是说这是一张image,image的解析度是28∗2828\ast2828∗28,我们把它拉成长度是28∗2828\ast 2828∗28维的向量。ou...
2019-09-21 19:58:56 232
翻译 李弘毅机器学习笔记:第九章—"Hello world" of dee
李弘毅机器学习笔记:第九章—"Hello world" of deekeras 是什么示例步骤1:定义模型步骤2:模型评估步骤3:最佳模型3.1 Configuration3.2 寻找最优网络参数mini-batch 的原理详解使用mini-batch的原因:Speed模型保存和使用keras 是什么Keras 是一个用 Python 编写的高级神经网络 API,它能够以 TensorFlow...
2019-09-21 18:51:39 211
翻译 李弘毅机器学习笔记:第八章—Backprogation
李弘毅机器学习笔记:第七章—Backprogation背景梯度下降链式法则反向传播取出一个Neuron进行分析Forward PassBackward Passcase 1 : Output layercase 2 : Not Output Layer总结背景梯度下降给到 θ\thetaθ (weight and bias)先选择一个初始的 θ0\theta^0θ0,计算 θ0\the...
2019-09-19 09:15:02 255
翻译 李弘毅机器学习笔记:第七章—深度学习的发展趋势
李弘毅机器学习笔记:第七章—深度学习的发展趋势回顾一下deep learning的历史:1958: Perceptron (linear model)1969: Perceptron has limitation1980s: Multi-layer perceptronDo not have significant difference from DNN today1986: ...
2019-09-18 18:48:31 678
翻译 李弘毅机器学习笔记:第六章—Logistic Regression
李弘毅机器学习笔记:第六章—Logistic Regressionlogistic回归Step1 逻辑回归的函数集Step2 定义损失函数Step3 寻找最好的函数损失函数:为什么不学线性回归用平方误差?判别模型v.s. 生成模型一个好玩的例子判别方法不一定比生成方法好多类别分类Softmax为什么Softmax的输出可以用来估计后验概率?定义target逻辑回归的限制特征转换级联逻辑回归模型l...
2019-09-18 16:57:02 216
翻译 李弘毅机器学习笔记:第五章—分类
例子(神奇宝贝属性预测)分类概念分类要找一个 functionfunctionfunction 函数,输入对象 xxx 特征, 输出是该对象属于 nnn 个类别中是属于哪一个。例子1:比如信用评分【二分类问题】输入:收入,储蓄,行业,年龄,金融史…输出:是否拒绝拒绝贷款例子2:比如医疗诊断【多分类问题】输入:当前症状,年龄,性别,医疗史…输出:患了哪种疾病例子3:...
2019-09-18 10:55:48 397 1
翻译 李弘毅机器学习:第四章—梯度下降法
李弘毅机器学习:第四章—梯度下降法什么是梯度下降法?Review: 梯度下降法Tip1:调整学习速率小心翼翼地调整学习率自适应学习率Adagrad 算法Adagrad 是什么?Adagrad举例Adagrad 存在的矛盾?多参数下结论不一定成立Adagrad 进一步的解释Tip2:随机梯度下降法Tip3:特征缩放为什么要这样做?怎么做缩放?梯度下降的理论基础问题数学理论泰勒展开式定义多变量泰勒展开...
2019-09-17 21:43:34 274
翻译 李弘毅机器学习笔记:第三章—Error的来源
李弘毅机器学习笔记:第三章—Error的来源从上节课测试集数据来看,Average ErrorAverage\ ErrorAverage Error 随着模型复杂增加呈指数上升趋势。更复杂的模型并不能给测试集带来更好的效果,而这些 ErrorErrorError 的主要有两个来源,分别是 biasbiasbias 和 variancevariancevariance 。然...
2019-09-17 15:57:57 237
翻译 李弘毅机器学习笔记:回归演示
李弘毅机器学习笔记:回归演示现在假设有10个x_data和y_data,x和y之间的关系是y_data=b+w*x_data。b,w都是参数,是需要学习出来的。现在我们来练习用梯度下降找到b和w。x_data = [338., 333., 328., 207., 226., 25., 179., 60., 208., 606.]y_data = [640., 633., 619., 393....
2019-09-17 15:35:14 219
翻译 李弘毅机器学习笔记:第二章
李弘毅机器学习笔记:第二章回归定义和应用例子回归定义应用举例模型步骤Step 1:模型假设 - 线性模型一元线性模型(单个特征)多元线性模型(多个特征)Step 2:模型评估 - 损失函数收集和查看训练数据如何判断众多模型的好坏Step 3:最佳模型 - 梯度下降如何筛选最优的模型(参数w,b)梯度下降推演最优模型的过程梯度下降算法在现实世界中面临的挑战w和b偏微分的计算方法如何验证训练好的模型的...
2019-09-17 14:34:34 328
翻译 李弘毅机器学习笔记:第一章
李弘毅机器学习笔记:第一章机器学习介绍机器学习相关的技术监督学习半监督学习迁移学习无监督学习监督学习中的结构化学习强化学习小贴士机器学习介绍这门课,我们预期可以学到什么呢?我想多数同学的心理预期就是你可以学到一个很潮的人工智慧。我们知道,从今年开始,人工智慧这个词突然变得非常非常非常的热门,讲大家、政府通都在讲人工智慧这个词。但人工智慧是什么呢?人工智慧其实一点都不是新的词,人工智慧这个词、...
2019-09-16 22:11:18 930
原创 强化学习:基于模型的动态规划
强化学习:基于模型的动态规划方法1、最优价值函数2、动态规划方法2.1、策略迭代2.2、值迭代1、最优价值函数最优状态价值函数: 考虑到这个状态下,可能发生的所有后续动作,并且都挑最好的动作来执行的情况下,这个状态的价值。最优状态动作值函数: 在这个状态下执行了一个特定的动作,然后考虑到执行这个动作后有可能处于的后续状态并且在这些状态下总是选取最好的动作来执行所得到的长期价值。Bell...
2019-09-12 15:43:54 677
原创 滑动平均模型
滑动平均模型 滑动平均模型可以使模型在测试数据上更健壮。在采用随机梯度下降算法训练神经网络时,使用滑动平均模型在很多应用中都可以在一定程度提高最终在测试数据上的表现。 在Tensorflow中提供了tf.train.ExponentialMovingAverage来实现滑动平均模型。在初始化ExponentialMovingAverage时,需要提供一个衰减率(decay)。这个衰减率将用...
2019-09-10 15:29:06 344
原创 Tensorflow中的学习率
Tensorflow中的学习率学习率(learning_rate): 表示了每次参数更新的幅度大小。学习率过大,会导致待优化的参数在最小值附近波动,不收敛;学习率过小,会导致待优化的参数收敛缓慢。在训练过程中,参数的更新向着损失函数梯度下降的方向。参数的更新公式为:wn+1=wn−learning_rate∇{w_{n + 1}} = {w_n} - learning\_rate\nablaw...
2019-09-08 07:39:29 2630 1
原创 Tensorflow变量
Tensorflow变量1、变量和张量的关系 在Tensorflow的计算之前,需要将所有用到的变量初始化。也就是说,虽然在变量定义时给出了变量初始化的方法,但这个方法并没有被真正的运行。所以在计算之前,需要通过运行initializer方法来给变量赋值。虽然直接调用每个变量的初始化过程是一个可行的方案,但是当变量数目增多,或者变量之间存在依赖关系时,单个调用方案就比较麻烦,可以通过tf.gl...
2019-09-06 11:15:39 168
原创 Tensorflow运行模型——会话
Tensorflow运行模型——会话 这一部分介绍如何使用Tensorflow中的会话(session)来执行定义好的运算。会话拥有并管理Tensorflow程序运行时的所有资源。所有计算完成之后需要关闭会话来帮助系统回收资源,否则就可能出现资源泄露的问题。Tensorflow中使用会话的模式一般有两种,第一种模式需要明确调用会话生成函数和关闭会话函数,这种模式的代码如下:import te...
2019-09-05 00:10:19 659
原创 Tensorflow原理
深度学习—Tensorflow内部原理1、创建变量的scope对于神经网络的初学者,一般都停留在tensorflow的使用阶段,而对于其内部原理不是特别清楚,针对这一现状,我通过查询相关资料,学习tensirflow的内部原理。Tensorflow是一个基于计算图的运算框架,它的核心操作分为三步:(1)构建计算图。(2)分发计算任务。(3)执行计算任务。1、创建变量的scope t...
2019-09-04 11:45:14 1359
原创 神经网络优化(一)
深度学习—神经网络优化(一)神经元模型: 用数学公式表示为:f(∑ixiwi+b)f(\sum\limits_i {{x_i}{w_i} + b} )f(i∑xiwi+b),f为激活函数。神经网络是以神经元为基本单元构成的。激活函数: 引入非线性激活因素,提高模型的表达力。常用的激活函数有relu、sigmoid、tanh等。①激活函数relu:在tensorflow中,用tf.nn....
2019-09-01 23:10:02 694
原创 强化学习:机器人找金币MDP仿真环境搭建
强化学习原理入门-Day2:机器人找金币以机器人找金币为例子,构建其MDP框架。如图所示,网格世界中一共有8个状态,状态6和状态8是死亡区域,状态7是金币区域。机器人的初始位置为网格世界中的任意一个状态,机器人从初始状态出发寻找金币,机器人每探索一次,进入死亡区域或者找到金币,本次探索完毕。...
2019-08-29 16:53:00 1407 7
原创 深度学习——神经网络
深度学习—搭建神经网络1、基本概念2、特点3、马尔科夫决策过程3.1、马尔科夫性3.2、马尔科夫过程3.3、马尔科夫决策过程1、基本概念基于Tensorflow的NN: 用张量表示数据,用计算图搭建神经网络,用会话执行计算图,优化线上的权重(参数),得到模型。张量: 张量就是多维数组(列表),用“阶”表示张量的维度。0阶张量称为标量,表示一个单独的数:S=1;1阶张量称为向量,表示一个一...
2019-08-29 14:36:42 185
opencv_python-4.1.0-cp38-cp38m-win_amd64.whl
2019-06-27
像计算机科学家一样思考.rar
2019-06-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人