自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(257)
  • 资源 (3)
  • 收藏
  • 关注

转载 NormFace精简版

NormFace

2022-04-27 15:09:09 260

原创 python 23种常用模式设计总结

python 23种常用模式设计总结

2022-03-28 10:14:48 912

原创 Mosaicking to Distill Knowledge Distillation from Out-of-Domain Data

Mosaicking to Distill: Knowledge Distillation from Out-of-Domain Data在本文中,我们试图解决一项雄心勃勃的任务,即域外知识蒸馏(OOD-KD),它允许我们只使用可以以非常低的成本轻易获得的OOD数据来进行KD。诚然,由于不可知的领域差距,OOD-KD本质上是一项极具挑战性的任务。为此,我们介绍了一种方便而又令人惊讶的有效方法,被称为MosaicKD。MosaicKD背后的关键在于,来自不同领域的样本有共同的局部模式(local patt

2021-12-25 18:15:13 2490

原创 An Analysis of Temporal-Difference Learning with Function Approximation

An Analysis of Temporal-Difference Learning with Function ApproximationII. DEFINITION OF TEMPORAL-DIFFERENCE LEARNING在这一节中,我们精确地定义了时间差分学习的性质,并将其应用于infinite-horizon discounted马尔科夫链的成本–目标函数的近似。虽然该方法以及我们随后的结果适用于具有相当普遍的状态空间的马尔科夫链,但我们将注意力限制在状态空间是可数的情况下。这使我们能够

2021-12-20 19:50:40 370

原创 RandAugment

RandAugmenthttps://arxiv.org/pdf/1909.13719.pdf最近的工作表明,数据增强有可能显著提高深度学习模型的泛化能力。最近,自动增强策略导致了图像分类和物体检测的最先进结果。虽然这些策略是为了提高验证精度而优化的,但它们也导致了半监督学习的最先进结果,并提高了对图像常见损坏的鲁棒性。大规模采用这些方法的一个障碍是单独的搜索阶段,这增加了训练的复杂性并可能大大增加计算成本。此外,由于单独的搜索阶段,这些方法无法根据模型或数据集的大小来调整正则化强度。自动增强策略通常

2021-12-13 20:38:08 2860

原创 EfficientNetV2 Smaller Models and Faster Training

EfficientNetV2: Smaller Models and Faster Traininghttps://arxiv.org/pdf/2104.00298.pdf本文介绍了一种新的卷积网络族EfficientNetV2,它具有比以往的模型更快的训练速度和更好的参数效率。为了开发这些模型,我们结合使用training-aware神经结构搜索和缩放,共同优化训练速度和参数效率。该模型在搜索空间中加入了新的操作,如fusion - mbconv。我们的实验表明,effecentnetv2模型的训练速

2021-12-13 16:18:46 2209

原创 EfficientNet Rethinking Model Scaling for Convolutional Neural Networks

EfficientNet: Rethinking Model Scaling for Convolutional Neural Networkshttps://arxiv.org/pdf/1905.11946.pdf在本文中,我们系统地研究了模型的缩放,并发现仔细平衡网络深度、宽度和分辨率可以获得更好的性能。在此基础上,我们提出了一种新的缩放方法,该方法使用一个简单而高效的复合系数来统一缩放深度/宽度/分辨率的所有维度。我们证明了这种方法在扩展MobileNets和ResNet的有效性。为了更进一步,

2021-12-13 11:27:35 2455

原创 # Chapter 5

Chapter 5Gradient Temporal-Difference Learning with Linear Function Approximation本章提供了线性函数近似情况下梯度-TD算法的核心思想和理论结果。在这里,我们在Baird(1995;1999)的工作基础上,探讨了用于线性函数逼近的时差学习的真正随机梯度下降算法的发展。特别是,我们引入了三种新的TD算法,与线性函数逼近和off-policy训练兼容,其复杂度仅以函数逼近器的大小为线性扩展。第一种算法,GTD,估计TD(0)算

2021-12-13 00:05:04 1166

原创 Chapter 4

Chapter 4Off-Policy Formulation of Temporal-Difference LearningTD学习的关键特征之一是它能够从不完整的序列中学习而不需要等待结果。这个关键特征,使TD方法能够single state-state transitions中学习(最小的经验片段)。事实证明,我们可以利用这个独特的属性来做off-policy学习。在本章中,我们为时差学习提供了一个off-policy表述,该表述基于从根据agent的行为策略产生的数据中进行的子采样1,即从轨迹

2021-12-12 22:00:42 195

原创 Chapter 3

Chapter 3Objective Function for Temporal-Difference Learning一个目标函数是一个可修改参数θ的函数,我们通过更新θ来求其最小值。在(随机)梯度下降中,对θ的更新与目标函数相对于θ的负(样本)梯度成正比。在标准RL中,目标是找到满足Bellman方程的解。然而,在函数逼近的情况下,如何将Bellman方程与值函数逼近相结合尚不清楚。在本章中,我们寻求一个目标函数(针对政策评估的情况),其最小值提供了近似值函数的合理解。我们提出了一个Bellman

2021-12-12 00:45:59 266

原创 # Gradient Temporal-Difference Learning Algorithms

Gradient Temporal-Difference Learning AlgorithmsChapter 22.3 Temporal-difference learningTD学习是预测的一个关键思想,在强化学习中起着核心作用(Sutton, 1988; Sutton and Barto, 1998)。它使用动态编程开发的bootstrapping 思想以及蒙特卡洛思想。经典的TD方法,如TD(λ)、Sarsa和Q-learning是简单的、sample-based、online和increme

2021-12-11 23:52:28 556

原创 GQ(λ)

GQ(λ): A general gradient algorithm for temporal-difference prediction learning with eligibility tracesThe GQ(λ) algorithm在本节中,我们将介绍GQ(λ)算法, for off-policy learning about the outcomes and transients of options,换句话说,intra-option GQ(λ)用于学习从广泛的(可能是普遍的option

2021-12-09 10:44:05 370

原创 资格迹-Eligibility Traces

资格迹-Eligibility Traces

2021-12-09 10:33:36 249

原创 Horde: A Scalable Real-time Architecture for Learning Knowledge

Horde: A Scalable Real-time Architecture for Learning Knowledge from Unsupervised Sensorimotor Interaction论文如何学习、表示和使用一般意义上的世界知识,仍然是人工智能(AI)的一个关键的开放性问题。有一些基于first-order predicate logic和贝叶斯网络的高级表示语言,具有很强的表现力,但在这些语言中,知识很难学习,而且使用起来计算成本很高。还有一些低级别的语言,如微分方程和状态

2021-12-08 20:13:23 779

原创 gradient-TD

A Convergent O(n) Algorithm for Off-policy Temporal-difference Learning with Linear Function Approximation我们介绍了第一个时间差分学习算法,对于任何有限马尔科夫决策过程、行为策略和目标策略,该算法在线性函数近似和Off-policy训练下是稳定的,其复杂度在参数数量上呈线性扩展。我们考虑的是一个即定的策略评价环境,其中的数据不需要来自on-policy的经验。梯度时差(GTD)算法估计了TD(0)算法

2021-12-07 17:25:40 415

原创 Fast Gradient-Descent Methods for Temporal-Difference Learning with Linear Function Approximation

Fast Gradient-Descent Methods for Temporal-Difference Learning with Linear Function Approximation论文Sutton, Szepesvari和Maei(2009)最近推出了第一个compatible with both linear function approximation and off-policy training,其复杂度仅与函数逼近器的大小成线性比例。尽管他们的gradient temporal

2021-12-07 10:46:51 640

原创 Deterministic Policy Gradient Algorithms

Deterministic Policy Gradient Algorithms在本文中,我们考虑了具有连续行动的强化学习的确定性策略梯度算法。确定性策略梯度有一个特别吸引人的形式:它是action-value函数的预期梯度。这种简单的形式意味着确定性策略梯度的估计比通常的随机策略梯度要有效得多。为了确保充分的探索,我们引入了一个off-policy actor-critic算法,从exploratory behaviour policy中学习一个确定性的目标策略。我们证明,在高维行动空间中,确定性的策略

2021-12-03 17:55:36 217

原创 CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING我们将Deep Q-Learning成功的基础思想调整到连续行动领域。我们提出了一种基于确定性策略梯度(deterministic policy gradient)的actor-critic、model-free的算法,可以在连续行动空间上运行。使用相同的学习算法、网络结构和超参数,我们的算法稳健地解决了20多个模拟物理任务,包括经典问题,如车杆摆动、灵巧的操纵、腿部运动和汽车驾驶。我们的算法能够找到一

2021-12-03 17:40:01 837

原创 Playing Atari with Deep Reinforcement Learning

Playing Atari with Deep Reinforcement Learning我们提出了第一个利用强化学习直接从高维感官输入成功学习控制策略的深度学习模型。该模型是一个卷积神经网络,用Q-learning的一个变种进行训练,其输入是原始像素,其输出是一个估计未来奖励的价值函数。我们将我们的方法应用于街机学习环境中的七个Atari 2600游戏,没有调整结构或学习算法。我们发现,它在其中6个游戏上的表现超过了以前所有的方法,在其中3个游戏上超过了人类专家。1 Introduction学习直

2021-12-03 15:46:03 503

原创 CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING我们将Deep Q-Learning成功的基础思想调整到连续行动领域。我们提出了一种基于确定性策略梯度(deterministic policy gradient)的actor-critic、model-free的算法,可以在连续行动空间上运行。使用相同的学习算法、网络结构和超参数,我们的算法稳健地解决了20多个模拟物理任务,包括经典问题,如车杆摆动、灵巧的操纵、腿部运动和汽车驾驶。我们的算法能够找到一

2021-12-03 11:59:16 151

原创 强化学习AC、A2C、A3C算法

强化学习AC、A2C、A3C算法

2021-12-02 17:30:36 521

原创 Deep Reinforcement Learning for Automated Stock Trading An Ensemble Strategy

Deep Reinforcement Learning for Automated Stock Trading An Ensemble Strategy股票交易策略在投资中起着关键作用。然而,在复杂多变的股票市场上设计一个有利可图的策略是很有挑战性的。在本文中,我们提出了一种采用深度强化方案的集合策略,通过最大化投资收益来学习股票交易策略。我们训练了一个深度强化学习代理,并使用三种actor-critic based算法获得了一个集合交易策略。近端策略优化(PPO)、Advantage Actor Cri

2021-11-24 01:11:51 999

原创 [笔记:GPVAR] 对多目标变量的时间序列用神经网络预测联合分布

[笔记:GPVAR] 对多目标变量的时间序列用神经网络预测联合分布

2021-11-17 00:33:04 664

原创 [笔记:GPVAR] 对多目标变量的时间序列用神经网络预测联合分布

[笔记:GPVAR] 对多目标变量的时间序列用神经网络预测联合分布

2021-11-16 17:20:18 1331

原创 # Representation Learning with Contrastive Predictive Coding

Representation Learning with Contrastive Predictive Coding尽管监督学习在许多应用中取得了巨大进展,但无监督学习尚未得到如此广泛的采用,仍然是人工智能的重要和具有挑战性的努力。在这项工作中,我们提出了一种通用的无监督学习方法来从高维数据中提取有用的表示,我们称之为对比预测编码。我们模型的关键见解是通过使用强大的自回归模型在潜空间中预测未来来学习这种表征。我们使用一个probabilistic contrastive loss ,诱导latent s

2021-11-15 12:04:21 3136

原创 Policy Gradient Methods for Reinforcement Learning with Function Approximation

Policy Gradient Methods for Reinforcement Learning with Function Approximation1 Policy Gradient Theorem在时间t∈{0,1,2,...}t\in\{0,1,2,...\}t∈{0,1,2,...}的state, action, reword表示为st∈S,at∈A,rt∈Rs_t\in \mathcal S,a_t\in \mathcal A,r_t\in \mathcal Rst​∈S,at​∈A,r

2021-11-08 01:57:39 398

原创 Orthogonal Regularization

正交性在ConvNet过滤器中是一种理想的品质,部分原因是与正交矩阵相乘会使原始矩阵的norm保持不变。这一特性在深度或循环网络中很有价值,因为重复的矩阵乘法会导致信号消失或爆炸。我们注意到用正交矩阵初始化权重的成功(Saxe等人,2014),并认为在整个训练中保持正交性也是可取的。为此,我们提出了一种简单的权重正则化技术,即正交正则化,通过将权重推向最近的正交流形来鼓励权重的正交。(we propose a simple weight regularization technique, Orthogona

2021-09-08 11:28:31 591

原创 Attention Is All You Need

Attention Is All You Need主要的序列转导模型是基于复杂的递归或卷积神经网络,其中包括编码器和解码器。性能最好的模型还通过注意机制连接编码器和解码器。我们提出了一种新的简单的网络架构,Transformer,它完全基于注意机制,完全免除了recurrence和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更胜一筹,同时更容易并行化,所需的训练时间也大大减少。我们的模型在WMT 2014英德翻译任务中达到了28.4 BLEU,比现有的最佳结果(包括合集)提高了2 BLEU以上

2021-09-02 18:00:05 149

转载 SNGAN

【GAN优化】详解SNGAN(频谱归一化GAN)https://arxiv.org/pdf/1802.05957.pdf

2021-09-01 16:13:35 178

原创 BigGAN

BigGAN尽管生成图像建模最近取得了进展,但从像ImageNet这样的复杂数据集成功生成高分辨率、多样化的样本仍然是一个难以实现的目标。为此,我们在迄今为止尝试的最大规模上训练生成式对抗网络,并研究特定于这种规模的不稳定性。我们发现,对生成器应用正交正则化使其服从于一个简单的“截断技巧”,允许通过减少生成器输入的方差来精细控制样本保真度和多样性之间的权衡。我们的修改导致了模型在类别条件下的图像合成方面达到了新的水平。当在128×128分辨率的ImageNet上进行训练时,我们的模型(BigGANs)达

2021-08-20 17:14:22 605

原创 A LEARNED REPRESENTATION FOR ARTISTIC STYLE

A LEARNED REPRESENTATION FOR ARTISTIC STYLE绘画风格的多样性为形象的建构提供了丰富的视觉语汇。一个人学习和捕捉这种视觉词汇的程度衡量了我们对绘画更高层次特征的理解,如果不是对一般图像的理解的话。在这项工作中,我们研究了一个单一的、可扩展的深度网络的构建,它可以节省地捕捉多种绘画的艺术风格。我们展示了这样一个网络,通过将一幅画缩减到嵌入空间中的一个点来概括各种艺术风格。重要的是,这个模型允许用户通过任意组合从单个绘画中学习到的风格来探索新的绘画风格。我们希望这项工

2021-08-20 11:39:03 502

原创 Conditional image synthesis with auxiliary classifier GANs

Conditional image synthesis with auxiliary classifier GANs本文介绍了一种新的图像合成生成对抗网络(gan)改进训练方法。我们使用标签条件作用构建了GANs的一个变体,结果在128 × 128分辨率的图像样本中显示出全局一致性。我们扩展了以往的图像质量评估工作,提供了两种新的分析方法来评估分类条件图像合成模型中的样本的可辨别性和多样性。这些分析表明,高分辨率样本提供了低分辨率样本中不存在的类信息。在1000个ImageNet类中,128 × 128

2021-08-20 10:56:34 688

原创 Freeze the Discriminator a Simple Baseline for Fine-Tuning GANs

Freeze the Discriminator: a Simple Baseline for Fine-Tuning GANs生成式对抗网络(GANs)在计算机视觉、图形学和机器学习等领域表现出了出色的性能,但通常需要大量的训练数据和大量的计算资源。为了解决这一问题,几种方法将迁移学习技术引入GAN训练中。然而,他们要么倾向于过度拟合,要么局限于学习小的分布变化。在本文中,我们证明了简单的微调gan具有冻结的低层鉴别器表现惊人的好。这个简单的基线,即FreezeD,显著优于以前在无条件和条件gan中使用

2021-08-19 16:59:41 503

原创 Differentiable Augmentation for Data-Efficient GAN Training

Differentiable Augmentation for Data-Efficient GAN Training在训练数据量有限的情况下,生成式对抗网络(GANs)的性能会严重恶化。这主要是因为判别器正在记忆准确的训练集。为了解决这个问题,我们提出了可微分增强(DiffAugment),这是一个简单的方法,通过对真实和虚假样本施加各种类型的可微分增强来提高GANs的数据效率。以前直接augment训练数据的尝试操纵真实图像的分布,收效甚微;DiffAugment使我们对生成的样本采用可微增广,有效地

2021-08-18 20:29:27 2142

原创 Training Generative Adversarial Networks with Limited Data

Training Generative Adversarial Networks with Limited Data

2021-08-18 16:18:06 107

原创 Image Augmentations for GAN Training

Image Augmentations for GAN Training为了提高分类器的准确性和鲁棒性,数据增强已经被广泛研究。然而,在以前的研究中,图像增强在改善图像合成的GAN模型方面的潜力还没有被彻底研究。在这项工作中,我们系统地研究了现有的各种增强技术在各种环境下对GAN训练的有效性。我们提供了关于如何为vanilla GANs和具有正则化的GANs增强图像的见解和指南,大大改善了生成图像的保真度。令人惊讶的是,我们发现,如果我们在真实图像和生成的图像上使用增强技术,vanilla GAN的生成

2021-08-18 12:05:45 460

原创 Improved Consistency Regularization for GANs

Improved Consistency Regularization for GANs最近的工作(Zhang et al. 2020)通过在鉴别器上强制一致性代价,提高了生成对抗网络(gan)的性能。我们在几个方面改进了这项技术。我们首先说明一致性正则化可以将工件引入GAN样本,并解释如何修复这个问题。然后,我们提出了几个修改一致性正则化程序的设计,以提高其性能。我们进行了广泛的实验,量化了我们的改进带来的好处。对于CIFAR-10和CelebA上的无条件图像合成,我们的修改在各种GAN架构上产生了最

2021-08-18 11:15:09 685 1

原创 CONSISTENCY REGULARIZATION FOR GENERATIVE ADVERSARIAL NETWORKS

CONSISTENCY REGULARIZATION FOR GENERATIVE ADVERSARIAL NETWORKS众所周知,生成对抗网络(gan)很难训练,尽管有相当多的研究努力。已经提出了几种用于稳定训练的正则化技术,但是它们引入了大量的计算开销,并且与现有的技术(如光谱归一化)相互作用很差。在这项工作中,我们提出了一种简单有效的训练稳定器,基于一致性正则化的概念——半监督学习文献中流行的技术。特别是,我们增强了传入GAN判别器的数据,并惩罚了判别器对这些增强的敏感性。我们进行了一系列的实验

2021-08-17 20:21:44 428

原创 Training Generative Adversarial Networks in One Stage

Training Generative Adversarial Networks in One Stage生成对抗网络(GANs)在各种图像生成任务中表现出前所未有的成功。然而,这些令人鼓舞的结果是以繁琐的训练过程为代价的,在这个过程中,生成器和鉴别器要在两个阶段交替更新。在本文中,我们研究了一种通用的训练方案,该方案只需在一个阶段就能有效地训练GANs。基于生成器和判别器的对抗性损失,我们将GANs分为两类,即对称GANs和非对称GANs,并引入一种新的梯度分解方法来统一这两类,使我们能够在一个阶段内训

2021-08-04 10:40:34 461

原创 Contrastive Model Inversion for Data-Free Knowledge Distillation

Contrastive Model Inversion for Data-Free Knowledge DistillationModel inversion,其目标是从预训练的模型中恢复训练数据,最近被证明是可行的。然而,现有的inversion方法通常存在模式崩溃问题,即合成的样本彼此高度相似,因此对下游任务(如知识蒸馏)的有效性有限。在本文中,我们提出了 Contrastive Model Inversion (CMI),其中数据多样性被明确地建模为一个可优化的目标,以缓解模式崩溃问题。我们主要观

2021-08-03 18:31:28 669

反向传播aaaaaaaaaaaaaaa.rar

反向传播

2021-01-22

神经网络asdfasdfsafas.rar

神经网络asdfasdfsafas.rar

2021-01-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除