路漫求索_CUMT-CSDN博客

上一节我们说了马尔可夫决策过程，它是对完全可观测的环境进行描述的，也就是观测到的内容完整决定了决策所需要的特征。马尔可夫决策过程可以用方程组求解简单问题，但是对于复杂一点的问题，一般通过迭代的思想对其进行求解。动态规划是非常有效的求解马尔可夫决策过程的方法。动态规划初步理解动态规划求解的大体思想可分为两种：1. 在已知模型的基础之上判断策略的价值函数，并在此基础上寻找最优的策略和最优的价值函数。这种方法我们通常称其为值迭代；2. 或者直接寻找最优策略和最优价值函数，这种方法称为策略迭代。

2021-01-11 14:25:06 3857

原创非线性控制1.2——输入输出稳定

一、输入-输出稳定的概念二、几种稳定性的关系（1）Lyapunov稳定的含义：对于有界或无界的状态初始条件，状态总是有界的。 (2) Lyapunov渐近稳定的含义：对于有界或无界的状态初始条件，状态变量总是有界的，而且系统总是有能力恢复到平衡点。 (3) BIBO稳定的含义：对于任意有界的外部输入，其系统响应输出总是有界的。 (4） Lyapunov稳定/渐近稳定即所...

2021-01-09 10:18:55 3561

转载强化学习11——为什么ADP需要持续激励条件？

以下来自知乎的解释： ...

2021-01-06 10:13:28 2369 2

原创强化学习10——迭代学习

一、基本概念迭代学习控制（Iterative Learning Control，ILC）的思想最初由日本学者Uchiyama于1978年提出，于1984年由Arimoto等人做出了开创性的研究。这些学者借鉴人们在重复过程中追求满意指标达到期望行为的简单原理，成功地使具有强耦合非线性多变量的工业机器人快速高精度地执行轨迹跟踪任务。其基本做法是：对于一个在有限时间区间内执行轨迹跟踪任务的机器人，利用前一次或前几次操作时测得的误差信息修正控制输入，使得该重复任务在下一次操作过程中做得更好。如此不断重复，直至在

2020-10-26 19:27:09 5701 1

原创非线性控制6——微分包含（LDI）及神经网络微分包含（NN-LDI）

一、微分包含（LDI）1. 基本概念首先利用泰勒级数对系统线性化，通过对每个偏导数分别取最大和最小的方法构造多面体描述不确定系统包裹原非线性系统2. 优势（1）一个非线性能够用多面体描述系统包含，有助于降低计算的复杂程度。二、神经网络微分包含（NN-LDI）...

2020-10-13 21:48:26 1422

原创强化学习9——贝尔曼方程

一、基本概念贝尔曼方程（Bellman Equation）也被称作动态规划方程（Dynamic Programming Equation），由理查·贝尔曼（Richard Bellman）发现。贝尔曼方程是动态规划（Dynamic Programming）这些数学最佳化方法能够达到最佳化的必要条件。此方程把“决策问题在特定时间怎么的值”以“来自初始选择的报酬比从初始选择衍生的决策问题的值”的形式表示。借此这个方式把动态最佳化问题变成简单的子问题，而这些子问题遵守从贝尔曼所提出来的“最佳化还原理”。

2020-09-16 15:03:21 1605

原创强化学习8——动态规划

一、基本概念自适应动态规划（Adaptive Dynamic Programming, ADP）由美国学者Paul J. Werbos在1977年首次提出，是机器学习的重要分支 – 强化学习算法的理论基石。该方法以最优性原理为基础，融合人工智能的先进方法，模拟人通过环境反馈进行学习的思路，有效地解决了动态规划“维数灾”的问题。近年来，自适应动态规划被认为是一种非常接近人脑智能的自学习最优控制方法，并得到了广泛的关注。二、经典书籍 ...

2020-09-16 11:37:12 1372

转载强化学习7——梯度及梯度下降法

注：本文转载自https://www.cnblogs.com/pinard/p/5970503.html在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1. 梯度　　　　在微积分里面，对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数f(x,y), 分别对x,y求偏导数，求得的梯度向量就是(∂f/∂x,∂f/∂y)T,简..

2020-08-15 11:09:09 2501

转载国内与国际控制学科知名会议

好用的会议检索工具：http://www.guide2research.com/自动控制【ICACC】全称：The International Conference on Advanced Computer Control网络评价：会议主题包括人机系统、数据库系统、混合动力系统、机器人与自动化、多媒体通信系统等【CCDC】全称：Chinese Control and Decision Conference网络评价：全国性大型学术会议，每年一届【IEEE ICCA】全称：.

2020-08-11 15:08:52 5736

原创强化学习6——神经网络基础知识

一、概念及性质1.1 概念人工神经网络（简称神经网络，Neural Network）是模拟人脑思维方式的数学模型。神经网络控制是将神经网络与控制理论相结合而发展起来的智能控制方法。它已成为智能控制的一个新的分支，为解决复杂的非线性、不确定、不确知系统的控制问题开辟了新途径。典型神经网络有如下三种： (a)前向网络 (b)反馈网络 ...

2020-08-07 11:14:46 5483 2

原创强化学习5——贝尔曼方程（Bellman Equation）与动态规划（Dynamic Programming）

一、基本概念1.1贝尔曼方程（Bellman Equation）贝尔曼方程是动态规划（Dynamic Programming）这些数学最佳化方法能够达到最佳化的必要条件。此方程把“决策问题在特定时间怎么的值”以“来自初始选择的报酬比从初始选择衍生的决策问题的值”的形式表示。借此这个方式把动态最佳化问题变成简单的子问题，而这些子问题遵守从贝尔曼所提出来的“最佳化还原理”。1.2动态规划（Dynamic Programming）动态规划算法是通过拆分问题，定义问题状态和状态之间的关系，...

2020-08-04 11:55:43 3621

翻译强化学习4——基于Actor-Critic的自适应PID控制器设计

注释：本博文内容来源于文献：Wang X, Cheng Y, Sun W, et al. A Proposal of Adaptive PID Controller Based on Reinforcement Learning[J]. Journal of China University of Mining and Technology, 2007, 17(1): 40-44.一、控制器结构框图 ...

2020-08-01 10:24:06 7539 10

原创强化学习3——基于强化学习的四足机器人运动控制

一、问题描述传统的机器人行走控制如图1所示。图1 传统机器人运动控制框图包括三个环：平衡控制、运动轨迹控制、电机控制。传统的控制需要利用外部的视觉信号以及机器人的传感器获取环境及自身的状态信息，然后进行特征提取，从这些信息中获取有价值的信息，最后控制器根据机器人的外部及内部状态信息，由控制器...

2020-07-30 11:06:30 10256 6

原创非线性控制5——扰动观测器

一、基本原理扰动观测器的基本思想是将外部干扰及模型参数变化造成的实际模型与理想模型输出的差异统统等效为控制输入，即观测出等效干扰，在控制中引入等量的补偿，实现对干扰完全抑制。干扰观测器的基本思想如图1所示。图1 干扰观...

2020-07-02 08:34:20 25613 19

原创输出调节5.0——线性内模与非线性内模

一、线性内模二、非线性内模3.1 非线性内模的作用一个好的内模可复现输出调节方程的解，而输出调节方程的解为系统状态及控制器书出的稳定，即稳定流行。因此，内模的作用就是重构系统状态和控制器输出量的稳定。这样做的优势在于，原来的输出调节方程方程的解依赖于系统系数，不具有鲁棒性，构造系统内模，通过重构系统稳态，控制器的输出跟踪内模产生的稳态，这样转换后，控制器就不会受到系统参数扰动的影响，使得控制器具有一定的鲁棒性。3.2 非线性内模构造方法步骤1：根据输出调节方程的解，寻找合...

2020-06-23 17:19:07 785

转载输出调节基本概念1.5——中心流行、零动态算法

一、中心流行1.1 基本概念二、零动态算法2.1 基本概念

2020-06-19 09:20:24 572

原创非线性控制1.4——图论及拉普拉斯矩阵

一、图论相关概念图的概念：图用点代表各个事物,用边代表各个事物间的二元关系。所以，图是研究集合上的二元关系的工具，是建立数学模型的一个重要手段。1.1 无向图概念实例：给定无向图G＝<V,E>，其中 ...

2020-06-17 10:49:09 3096 2

原创强化学习2——Q算法、TD算法、Sarsa算法

一、常用算法1.1 蒙特卡洛法（Monta Carlo）一种无模型（model-free）的学习方法，不需要系统模型-状态转移函数和报酬函数，只需要通过与环境的交互获得的实际或模拟样本数据（状态、动作、报酬）序列，从而发现最优策略。MC 方法是基于平均化取样回报值来求解强化学习问题。1.2 Q-学习算法1.3TD 学习算法1.4Sarsa学习算法Remark：上述三种算法共同特点：仅对值函数进行估计，动作选择策略则由值函数的估计完全确定。...

2020-06-16 15:03:03 2001

原创非线性控制3.1——常用镇定算法之输入-状态镇定法

一、输入-状态镇定法概念 1.1 类函数及函数定义类函数及函数定义：连续函数称为类函数，如果它是连续、严格递增的，且。特别的，如果它进一步满足和，则函数称为类函数。KL类函数定义：连续函数称为类函数，如果对于每个固定的，函数是类函数，对于每个固定的，函数是递减的，并且。代表分段函数范数有界，即有 1.2 输入-状态稳态输入-状态稳定定义：系统方程为，若存在一...

2020-06-15 10:08:12 1102

原创非线性控制3.0——常用镇定算法之Lyapunov 直接法与间接法

一、常用的非线性系统镇定方法1. Lyapunov 直接法Lyapunov李雅普诺夫直接法与间接法的区别：李雅普诺夫线性化方法，也叫做李雅普诺夫第一方法，也叫做李雅普诺夫间接法。为什么叫李雅普诺夫间接法呢？它是相对于李雅普诺夫直接法而言的。因为李雅普诺夫直接法(李雅普诺夫第二方法)是通过直接分析非线性系统，而间接法是通过把非线性系统进行线性化，间接地来分析系统的稳定性。Lyapunov线性化方法和直接法，构成了李雅普诺夫稳定性理论）。2. 输入-状态镇定法 2.1 重要定义类函...

2020-06-15 09:55:30 3767 1

原创非线性控制1.2——LaSalle不变集原理

一、LaSalle不变集原理与渐近稳定1. 不变集的定义(1)如果系统从点x出发，那么系统未来的状态位置一直保持不变，一直待在出发点x，那么出发点x就叫做系统的不变点。(2)如果系统从某个区域内或者曲线出发上，例如以0为原点的半径为r的圆的区域或者有限环，系统的未来状态位置会一直待在该区域内(半径为r的圆内)或者曲线上，那么这个区域就叫做不变区。(3)所有这些不变点或者不变区域组成的集合，就叫做该系统的不变集。2. LaSalle不变集原理拉萨尔不变集原理(Local Invaria

2020-06-15 09:44:45 9160 3

原创非线性控制1.0——控制理论生态及结构

一、控制理论地图二、控制理论发展及结构上图应用于：https://www.zhihu.com/people/xiang-yi-55-49/answers

2020-06-15 09:22:11 561

原创非线性控制3.0——自适应模糊控制

一、基本原理自适应模糊控制是指具有自适应学习算法的模糊逻辑系统，算法是依靠数据信息调整模糊逻辑系统的参数，且可以保证控制系统稳定性。与传统的自适应控制相比，自适应模糊控制的优越性在于它可以利用操作人员提供的语言性模糊信息，而传统的自适应控制则不能。这一点对具有高度不确定因素的系统尤其重要。自适应模糊控制有两种不同形式：一种是直接自适应模糊控制，即根据实际系统性能与理想性能之间的偏差直接设计模糊控制器；另一种是间接自适应模糊控制，即通过在线模糊逼近获得对象的模型，然后根据所得模型在线设计控制器。

2020-05-16 11:24:58 2710 2

原创非线性控制2.0——模糊逼近

一、逼近器的种类及由来1. 常用逼近器（1）多项式逼近器；（2）神经网络逼近器；（3）模糊逼近器。2. 研究意义对于参数不确定系统，可以利用自适应控制或者鲁棒控制解决，通过李亚普洛夫法构造自适应率，或者参数变化范围有界时，可以利用鲁棒控制的思维使得系统对于该参数不敏感；而对于模型不确定（难以确定模型或者其部分准确表达式），模糊逼近（万能逼近）或者神经网络逼近则可解决这类问题。对于模型不确定，实际应用中比较普遍，实用性大。与输出调节或则自适应控制都可以结合起来，解决含有模型未知的输出调

2020-05-16 10:54:29 3343 3

原创非线性控制1.0——模糊控制理论基础

一、模糊控制基本概念

2020-05-14 10:43:43 4811

原创强化学习1——基本概念及研究现状

一、强化学习基本概念强化学习(Reinforcement Leraning，又称再励学习，评价学习)是一种重要的机器学习算法。

2020-05-14 10:42:11 2152

原创输出调节5.2——基于输出反馈的非线性输出调节（外系统为常数）

一、基于输出反馈的非线性输出调节概念二、基于输出反馈的输出调节控制器设计三、实例与仿真Remark1：《Nonlinear output regulation_Theory and Application 》第三章example3.14为例。3.1 系统模型非线性系统的系统模型如下所示： ...

2020-05-01 09:33:12 911 1

原创输出调节5.1——基于状态反馈的非线性输出调节（外系统为常数）

一、非线性输出调节概念二、输出调节控制器设计三、实例与仿真Remark：《Nonlinear output regulation_Theory and Application 》第三章example3.14为例。3.1 系统模型非线性系统的系统模型如下所示： ...

2020-05-01 09:28:25 983

原创输出调节2.1——基于内模原理的无静差跟踪控制

1. 渐近跟踪问题和扰动抑制问题对于线性时不变系统而言，实现渐近跟踪和扰动抑制，必须在控制器中“植入”参考信号和扰动信号的模型。因此，对参考信号和扰动信号建立相应的模型是求解渐近跟踪问题和扰动抑制问题的前提。2. 无静差跟踪控制系统设计2.1 系统结构 ...

2020-04-14 17:32:30 5983 4

原创非线性控制2.1——渐近跟踪问题

1. 渐近跟踪基本概念对于给定的某一连续信号，控制输出满足下述条件：称上述问题为渐近跟踪问题。跟踪问题与镇定问题的区别：跟踪问题相比于镇定问题要求更为严格，镇定问题只需确保系统状态稳定在某个区域或者某个点，而跟踪问题在稳定的前提下，还需要系统的实...

2020-04-13 17:23:43 2285 2

转载输出调节基本概念1.4——拉普拉斯矩阵

在机器学习、多维信号处理等领域，凡涉及到图论的地方，相信小伙伴们总能遇到和拉普拉斯矩阵和其特征值有关的大怪兽。哪怕过了这一关，回想起来也常常一脸懵逼，拉普拉斯矩阵为啥被定义成？这玩意为什么冠以拉普拉斯之名？为什么和图论有关的算法如此喜欢用拉普拉斯矩阵和它的特征值？要讲拉普拉斯矩阵，就要从拉普拉斯算子讲起，要讲拉普拉斯算子，就要从散度讲起～一、通量与散度二、拉普拉斯算子...

2020-04-08 08:17:12 348

原创非线性控制2.0——鲁棒控制之H无穷控制器设计

一、基本概念对于图1所示系统，u为控制输入，y为测量输出，z为被调输出，w为干扰输入，由输入u，w到输出y，z的传递函数G成为增广被控对象，控制器为k。二、H无穷控制器设计方法1. 基于Riccati方程的H∞控制设计2.基于LMI的H∞控制...

2020-03-20 20:43:03 71232 1

原创输出调节4.0——线性鲁棒输出调节

一、基本概念

2020-03-20 17:12:10 1367 4

原创输出调节3.0——线性输出调节

一、线性输出调节问题1. 问题描述2. 线性输出调节解决思路通常是将其转化为增广系统系统的稳定性问题。线性输出调节调节的思路如下：(1) 将输出调节问题转化为增广矩阵的镇定问题；(2) 根据(A+BKx)满足Hurwitz theorem，确定反馈增益系数Kx；(3) 根据Sylvester equation，求解反馈增益系数Kv。因此，输出调节的难点就在于：(1...

2020-03-19 17:39:40 3578 8

原创输出调节基本概念1.2——西尔维斯特方程

一、西尔维斯特方程1.基本概念西尔维斯特方程（Sylvester equation）是控制理论中的矩阵方程，形式如下：其中A、B及C是已知的矩阵，问题是要找出符合条件的X。其中所有矩阵的系数都是复数。为了要使方程成...

2020-03-19 17:16:18 1892 1

原创输出调节基本概念1.3——系统浸入

一、系统浸入1. 基本概念考虑具有输出的一对光滑自治系统（1）和 ...

2020-03-19 17:04:37 506

原创无约束多维极值求解思路

一、问题描述无约束的多维极值问题一般描述如下公式：其中x为向量，而f（x）为标量函数，多维极值的问题就是要求得全局最小值。但是大多数的算法都存在着搜索范围问题，无法求得全局最小值，只能计算出一些局部最优值。对于实际问题来说，这是不矛盾的，因为实际问题都存在一定的应用背景和使用条件，局部最优点并不多，甚至有时局部最优点就是全局最优点，所以实际问题可以根据实

2020-03-05 11:11:51 1069

原创多目标优化的优缺点

传统的多目标优化方法往往将其转化为各目标之加权和，然后采用单目标的优化技术。但是，这样做存在几大缺点：①不同性质的目标之间单位不一致，不易作比较；②各目标加权值的分配带有较大的主观性；③优化目标仅为各目标的加权和，优化过程中各目标的优度进展不可操作；④各目标之间通过决策变量相互制约，往往存在相互矛盾的目标，致使加权目标函数的拓扑结构十分复杂。

2020-03-05 11:11:01 17929

转载粒子群与蚁群算法的区别

作者：莫石链接：http://www.zhihu.com/question/30326374/answer/59884351来源：知乎著作权归作者所有，转载请联系作者获得授权。群体智能算法家族的两个重要成员就是粒子群算法与蚁群算法。基本思想都是模拟自然界生物群体行为来构造随机优化算法的，不同的是粒子群算法模拟鸟类群体行为，而蚁群算法模拟蚂蚁觅食原理。1.相同点（1）都是

2020-03-05 11:10:33 2407