晴晴_Amanda-CSDN博客

原创 RL策略梯度方法之(十八): Importance Weighted Actor-Learner Architecture (IMPALA)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-07 23:52:45 1082

原创 RL策略梯度方法之(十七): Stein Variational Policy Gradient (SVPG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-07 23:49:38 933

原创 RL策略梯度方法之(十六):Twin Delayed Deep Deterministic(TD3)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-07 23:15:07 1162

原创 RL策略梯度方法之(十五):SAC with Automatically Adjusted Temperature

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-07 18:43:10 468

原创 RL策略梯度方法之(十四):Soft Actor-Critic (SAC)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-07 18:11:42 3926

原创 RL策略梯度方法之(十三): actor-critic using Kronecker-factored trust region(ACKTR)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-07 00:57:53 507

原创 RL策略梯度方法之(十二): actor-critic with experience replay(ACER)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-07 00:51:13 1222

原创 RL策略梯度方法之(十一):proximal policy optimization (PPO)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-06 23:12:24 2133 4

原创 RL策略梯度方法之(十): Trust region policy optimization (TRPO)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-06 13:58:19 464

原创 RL策略梯度方法之(九):Multi-agent DDPG (MADDPG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-05 23:21:31 2995 1

原创 RL策略梯度方法之(八): Distributed Distributional DDPG (D4PG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-05 23:06:54 2225 2

原创 RL策略梯度方法之(七): Deep Deterministic Policy Gradient(DDPG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-05 22:24:08 1853

原创 RL策略梯度方法之(六): Deterministic policy gradient(DPG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-05 17:09:22 886

原创 RL策略梯度方法之(五): Advantage Actor-Critic(A2C)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析原理解析

2020-10-05 00:38:41 3049

原创 RL策略梯度方法之(四): Asynchronous Advantage Actor-Critic（A3C）

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现A3C\color{red}A3CA3C ：[ paper | code ]原理解析在A3C中，critic 学习值函数，同时多个 actor 并行训练，并不时地与全局参数同步。因此，A3C可以很好地用于并行训练。服务器的每个核都是一个线程，也就是一个平行世界

2020-10-04 15:10:32 598

原创 RL策略梯度方法之(三): Off-Policy Policy Gradient算法

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现算法流程代码实现原理解析算法实现算法流程代码实现

2020-10-04 14:06:36 1453 1

原创 RL策略梯度方法之(二): Actor-Critic算法

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析策略梯度的直观解释Actor-Critic框架引出GAE算法实现算法流程代码实现原理解析AC算法框架被广泛应用于实际强化学习算法中，该框架集成了值函数估计算法和策略搜索算法，是解决实际问题时最常考虑的框架。AC算法起源于策略梯度算法，因此在介绍AC算法时，我们先从策略梯度入手。（其实上篇已经介绍

2020-09-22 22:20:17 1913

原创 RL策略梯度方法之(一): REINFORCE算法

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析基于值的RL的缺陷策略梯度蒙特卡罗策略梯度REINFORCE算法REINFORCE简单的扩展：REINFORCE with baseline算法实现总体流程代码实现原理解析基于值的RL的缺陷基于价值的深度强化学习方法有它自身的缺点，主要有以下三点：基于价值的强化学习无法很好的处理连续空间

2020-09-22 14:58:55 13702 1

原创张海峰-从博弈论到多智能体强化学习

文章目录内容摘要群体决策智能研究背景博弈论多智能体强化学习研究展望内容摘要·随着以图像识别为代表的“感知智能”日趋成熟，越来越多的人工智能研究者开始关注以AlphaGo为代表的“决策智能”。在即将来临的物联网时代，群体决策智能将成为一个研究重点。·传统上，博弈论研究的是多个智能体的理性决策问题。它定义了动作、收益等博弈基本概念，侧重分析理性智能体的博弈结果，即均衡。然而，在很多现实问题中，博弈的状态空间和动作空间都很大，智能体的绝对理性是很难实现的.智能体往往处在不断的策略学习过程中。因此，近年来兴

2020-09-21 14:46:32 3448 4

原创 IMPALA 分布式框架学习笔记

以下总结来源于：https://blog.csdn.net/yH0VLDe8VG8ep9VGe/article/details/79292530IMPALA的灵感来自于热门的A3C架构，后者使用多个分布式actor来学习agent的参数。在类似这样的模型中，每个actor都使用策略参数的一个副本，在环境中操作。actor会周期性地暂停探索，将它们已经计算得出的梯度信息分享至中央参数服务器，而后者会对此进行更新。与此不同，IMPALA中的actor不会被用来计算梯度信息。它们只是收集经验，并将这些经.

2020-09-15 22:53:43 603

原创论文阅读：A Survey on Why-Type Question Answering Systems

“WHY”类型问答系统的研究文章目录“WHY”类型问答系统的研究0. 摘要1. 介绍2. 数字助手 VS 问答系统3. 重要的定义4. QA系统的通用框架5. WHY型问答系统的技术模块5.1 数据准备5.2 问题分析和处理模块5.2.1 问题分类5.2.2 问题重构5.3 文档检索5.4 候选答案提取5.4.1 词法-句法分析5.4.2 因果关系5.4.3 语义和上下文分析5.5 答案重排序5.5.1 词袋模型有关的特征5.5.2 形态句法分析5.5.3 语义词类5.5.4 情感分析5.5.5 内容

2020-09-07 21:16:08 1064

原创论文阅读：Text-based Question Answering from Information Retrieval and Deep Neural Network Perspectives

从信息检索和深度神经网络视角的基于文本的问答：调研文章目录从信息检索和深度神经网络视角的基于文本的问答：调研0. 摘要1. 介绍2. 基于文本的问答的主要框架3. 来自信息检索的问答相似性4. 深度学习视角下的问答相似性4.1 表示模型4.2 交互模型4.3 混合模型0. 摘要基于文本的问题回答(QA)是一项具有挑战性的任务，旨在为用户的问题找到简短而具体的答案。这一领域的研究已使用信息检索技术进行广泛研究，并在近年来考虑的深度神经网络方法中已得到越来越多的关注。深度学习方法是本文的重点，它提

2020-09-07 21:15:59 700

原创论文阅读：A Survey of Question Answering over Knowledge Base

KBQA 调研文章目录KBQA 调研0. 摘要1. 介绍2. KBQA 的方法2.1 语义解析2.2 信息检索0. 摘要基于知识库的问题回答(KBQA)是一种在知识库中准确、简洁地回答自然语言问题的问题。KBQA的核心任务是理解自然语言问题的真实语义，并将其提取出来，在知识库的整个语义中进行匹配。然而，在现实世界中，自然语言问题的语义是可变的，这是一个很大的挑战。最近，在许多应用中出现了越来越多的现成的KBQA方法。比较和分析它们，以便用户进行更好的选择，这变得很有趣。本文将KBQA方法分为两类，对其

2020-09-07 21:15:50 2031 3

原创论文阅读：Core techniques of question answering systems over knowledge bases: a survey

文章目录@[TOC]KBQA 的核心技术综述0. 摘要1. 介绍2.3.KBQA 的核心技术综述0. 摘要语义网中包含大量的信息，以知识库的形式存储。KBQA系统可以帮助人们获取这些信息。构建KBQA系统时，面临许多挑战，通常需要结合自然语言处理、信息检索、机器学习和语义网络等多种技术。本文综述了目前基于流行的测评基准QALD（Question Answering over Linked Data）的各个KBQA系统所使用的技术。本文将KBQA分成多个阶段，综述每个阶段的技术，同时探讨各项技术的优缺点

2020-09-07 21:15:43 821 1

原创论文综述：问答系统综述

PS:这是我的文献阅读大作业~文章目录问答系统综述报告1. 摘要2. 引言3. 基于文本的问答3.1 数据集与评价指标3.1.1 数据集3.1.2 评价指标3.2 基于文本的问答的主要框架3.4 从深度学习角度的代表工作3.5 基于文本的问答小结4. 基于知识库的问答4.1 数据集4.2 基于知识库问答的基本框架4.3 基于语义解析的代表工作4.4 基于信息检索的代表工作4.5 基于知识库的问答小结5. 总结参考文献问答系统综述报告1. 摘要在科技发达和信息爆炸的现代社会中，如何从大规模的信息中

2020-09-07 21:15:33 7068

原创 Tensorflow 打印 Tensor 的值

话不多说，直接上例子：import tensorflow as tfsess = tf.InteractiveSession()all_act_prob= [0.4, 0.6]n_actions = 2tf_acts = [0,1]print(tf.one_hot(tf_acts, n_actions).eval())print(tf.log(all_act_prob).eval())print((-tf.log(all_act_prob)*tf.one_hot(tf_acts, n_a

2020-09-01 10:55:46 497

原创晴晴晴讲 DQN 的发展史【入门级】

文章目录Q-learningSarsaSarsa(λ)Deep Q NetworkDouble DQNPrioritized Experience Replay (DQN)Dueling DQNQ-learningSarsaSarsa(λ)Deep Q Network当状态空间比较小的情况下用 q learning 还是可以的，但是在复杂的情况下，例如一个视频游戏，它的状态空间非常大，如果迭代地计算每一个 q 值是非常耗费时间耗费资源的。这个时候我们就想不是直接的用迭代的方式去计

2020-08-29 23:12:02 653

原创强化学习汇总 - Mofan教程

文章目录1. 什么是强化学习RL算法2. 强化学习方法汇总model-free 和 model-based基于概率和基于价值回合更新和单步更新在线学习和离线学习3. Q-learningQLearning 决策QLearning 更新Q Learning 整体算法Q Learning 中的 Gamma小例子Q-learning 算法更新与 Q-learning 思维决策代码部分4. Sarsa [state-action-reward-state-action]Sarsa 更新行为准则

2020-08-28 20:35:00 963

原创第三篇直接策略搜索——基于确定性策略搜索的强化学习方法

本分类专栏博客系列是学习《深入浅出强化学习原理入门》的学习总结。书籍链接：链接：https://pan.baidu.com/s/1p0qQ68pzTb7_GK4Brcm4sw 提取码：opjy文章目录基于确定性策略搜索的强化学习方法一、基于确定性策略搜索的强化学习方法一、...

2020-08-25 23:13:41 273

原创第三篇直接策略搜索——基于置信域策略优化的强化学习方法

本分类专栏博客系列是学习《深入浅出强化学习原理入门》的学习总结。书籍链接：链接：https://pan.baidu.com/s/1p0qQ68pzTb7_GK4Brcm4sw 提取码：opjy文章目录基于置信域策略优化的强化学习方法一、基于置信域策略优化的强化学习方法一、...

2020-08-25 23:08:49 751

原创 CNN的Python实现——第六章：梯度反向传播算法

文章目录第6章梯度反向传播算法6.1 基本函数的梯度6.2 链式法则6.3 深度网络的误差反向传播算法6.4 矩阵化6.5 softmax损失函数梯度计算6.6 全连接层梯度反向传播6.7 激活层梯度反向传播6.8 卷积层梯度反向传播6.9 最大值池化层梯度反向传播第6章梯度反向传播算法6.1 基本函数的梯度6.2 链式法则6.3 深度网络的误差反向传播算法6.4 矩阵化6.5 softmax损失函数梯度计算6.6 全连接层梯度反向传播6.7 激活层梯度反向传播6.8 卷积层梯度反向传

2020-07-23 15:48:24 1496

原创 CNN的Python实现——第五章：梯度下降法的最优化方法

文章目录第5章基于梯度下降法的最优化方法5.1 随机梯度下降法SGD5.2 基本动量法5.3 Nesterov动量法5.4 AdaGrad5.5 RMSProp5.6 Adam5.7 AmsGrad5.8 学习率退火5.9 参数初始化5.10 超参数调优第5章基于梯度下降法的最优化方法5.1 随机梯度下降法SGD5.2 基本动量法5.3 Nesterov动量法5.4 AdaGrad5.5 RMSProp5.6 Adam5.7 AmsGrad5.8 学习率退火5.9 参数初始化5.1

2020-07-22 22:57:12 1326

原创 win10下的 Neo4j 多库切换

文章目录Neo4j 多库切换首次修改再次修改吐槽：难受，刚回实验室，就要做项目，关键是自己的方向还没定，听老板的意思是做什么博弈进化认知智能啥的。。在雁栖湖打了一年的NLP基础，难道要付诸东流了吗？难受极了……Neo4j 多库切换因为Neo4j的import导入时，只能导入一个不存的db，这就在想创建多个库时，需要去切换，Neo4j默认的库是graph.db。在这里，我强推建立graph.db的软连接！！！（以下代码的前提是：你配置好了win10下 Neo4j3.4 的安装路径以及化境变量哦

2020-07-16 15:54:58 572 2

原创大公司面试机器学习相关！

文章目录在文本分类中使用RNN和CNN的区别？交叉熵函数是怎么计算的？你来讲一下SVM在文本分类中使用RNN和CNN的区别？交叉熵函数是怎么计算的？你来讲一下SVM...

2020-07-16 14:33:39 452

原创小总结：TC + QA + NER

文章目录Word2Vec 原理fastText 模型textCNN 模型DPCNN 模型textRNN 模型HAN：Hierarchical Attention NetworkTransformer(1). Transformer文本分类BERT基于医疗知识图谱的问答系统中文命名实体识别：bi-LSTM+CRFWord2Vec 原理（无监督训练）Word2vec 使用的词向量不是我们上述提到的One-hot Representation那种词向量，而是 Distributed representat

2020-07-14 14:58:29 803

原创 7. 文本分类——DPCNN模型

文章目录一、简介二、模型结构2.1 区域嵌入2.2 等长卷积2.3 下采样（1/2池化）三、总结一、简介ACL2017 年中，腾讯 AI-lab 提出了Deep Pyramid Convolutional Neural Networks for Text Categorization(DPCNN)。论文中提出了一种基于 word-level 级别的网络-DPCNN，由于 TextCNN 不能通过卷积获得文本的长距离依赖关系，而论文中 DPCNN 通过不断加深网络，可以抽取长距离的文本依赖关系。

2020-07-12 23:39:34 1458

原创大公司面试常问算法题目汇总！！！

文章目录1. 最长上升子序列（Longest Increasing Subsequence，LIS）1. 最长上升子序列（Longest Increasing Subsequence，LIS）定义：最长上升子序列，最长非降序子序列（允许有相等的数）比如，对于序列 (1,7,3,5,9,4,8)(1, 7, 3, 5, 9, 4, 8)(1,7,3,5,9,4,8)，我们就会得到一些上升的子序列，如(1,7,9),(3,4,8),(1,3,5,8)(1, 7, 9), (3, 4, 8), (1,

2020-07-12 10:50:48 945

原创 CNN的Python实现——第四章：卷积神经网络的结构

文章目录第4章卷积神经网络的结构4.1 概述4.1.1 局部连接4.1.2 参数共享4.1.3 3D特征图4.2 卷积层4.2.1 卷积运算及代码实现4.2.2 卷积层及代码初级实现4.2.3 卷积层参数总结4.2.4 用连接的观点看卷积层4.2.5 使用矩阵乘法实现卷积层运算4.2.6 批量数据的卷积层矩阵乘法的代码实现4.3 池化层4.3.1 概述4.3.2 池化层代码实现4.4 全连接层4.4.1 全连接层转化成卷积层4.4.2 全连接层代码实现4.5 卷积网络的结构4.5.1 层的组合模式4.5.

2020-07-08 21:32:30 2880

原创 CNN的Python实现——第三章：神经网络

文章目录第三章：神经网络3.1 数学模型3.2 激活函数3.3 代码实现3.4 学习容量和正则化3.5 生物神经科学基础第三章：神经网络神经网络是对线性模型的升级，使之能对线性不可分的训练集达到好的分类效果，同时也是理解卷积神经网络的基础，其核心是引入非线性激活函数和多层结构。3.1 数学模型线性模型只能对线性可分的训练集达到较好的分类效果，那么怎么对其升级，使之能对线性不可分的训练集也达到好的分类效果呢？如果对线性模型的计算过程进行抽象，设输入行向量为 xxx，参数矩阵为 WWW，分值向量为 y

2020-07-07 20:52:02 1220

原创 CNN的Python实现——第二章：线性分类器

文章目录第二章：线行分类器2.1 线性模型2.1.1 线性分类器2.1.2 理解线性分类器2.1.3 代码实现2.2 softmax损失函数2.2.1 损失函数的定义2.2.2 概率解释2.2.3 代码实现2.3 优化2.4 梯度下降法2.4.1 梯度的解析意义2.4.2 梯度的几何意义2.4.3 梯度的物理意义2.4.4 梯度下降法代码实现2.5 牛顿法2.6 机器学习模型统一结构2.7 正则化2.7.1 范数正则化2.7.2 提前终止训练2.7.3 概率的进一步解释第二章：线行分类器2.1 线性模

2020-07-07 00:34:14 1843

空空如也

空空如也