自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

DeepRoad

信息检索 推荐系统 表示学习

  • 博客(12)
  • 收藏
  • 关注

原创 贷款违约预测赛题理解

贷款违约预测赛题理解本次的比赛的任务是二分类,即预测用户贷款是否会违约。数据为结构化数据,一共有 47 个特征,因此对特征如何筛选、优化、组合应该会对结果产生很大影响,后续的特征工程需要仔细开展。数据量上,train 有 80 万,testA 和 testB 各 20 万,数据量不算大,可以先用传统机器学习模型,后续再上深度学习模型,然后考虑模型融合。比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction指标这

2020-09-15 16:48:36 1386

原创 关于相对熵的推导证明和推论

相对熵可以衡量两个分布之间的不相似性,即 P 和 Q 两个分布越相似,相对熵越小,否则越大。相对熵的公式是DKL(P∣∣Q)=∑ipilog⁡piqiD_{KL}(\mathrm{P} || \mathrm{Q}) = \sum_{i} p_i \log{\frac{p_i}{q_i}}DKL​(P∣∣Q)=i∑​pi​logqi​pi​​显然,当 P 和 Q 的分布完全相同时,log 里就...

2020-03-11 15:13:40 2667 2

翻译 Pytorch官方教程——迁移学习

这篇文章翻译自 Pytorch 官方教程 Transfer Learning Tutorial原作者:Sasank ChilamkurthyNote: 点击这里下载完整示例代码在这篇教程中,你将会学到如何利用迁移学习来训练你的网络。你可以通过 cs231n notes 了解更多关于迁移学习的信息。引用 cs231n notes 中的一段话在实践中,很少有人会从头开始训练一个卷积...

2020-03-11 15:03:38 587

原创 图自编码器的起源和应用

此文章同步发布于 paperweekly图自编码器的起源和应用0. 介绍Kipf 与 Welling 16 年发表的「Variational Graph Auto-Encoders」提出了基于图的(变分)自编码器 Variational Graph Auto-Encoder(VGAE),自此开始,图自编码器凭借其简洁的 encoder-decoder 结构和高效的 encode 能力,在很多...

2020-03-10 15:33:34 2111

原创 LSTM 详细公式与图解

Gated Recurrent UnitGRU 和 LSTM 都可以很好的解决 RNN 中的梯度消失问题,而 GRU 与 LSTM 在某些方面很相似,为了阐述 LSTM,先阐述 GRU。下图所示是普通 RNN 单元GRU 的 RNN 单元与其类似,但有所不同,其中对于 a 的计算分为三部:计算 a~⟨t⟩=tanh(wa[a⟨t−1⟩,x⟨t⟩]+ba)\tilde{a}^{\lan...

2020-03-09 01:50:17 5495

原创 一些经典 CNN

在计算机视觉的发展过程中,出现了很多经典的卷积神经网络模型,它们对后来的研究有很大影响,这篇文章简要谈谈 LeNet-5、AlexNet 和 VGGNet.LeNet-5LeNet-5 是由 LeCun 在 1998 年的一篇论文中提出的,与今天的一些神经网络相比,LeNet-5 是一个小型神经网络,它只有大约 60000 个参数,而今天经常会有包含千万到亿量级参数的神经网络,我们先来看一...

2020-03-09 01:44:22 332

原创 学习率衰减

学习率衰减(learning rate decay)同样也可以让我们的学习算法运行地更快,它能保证损失函数最终摆动时处在离最优值很近的范围内。为什么需要学习率衰减前面我们讲过,mini-batch 梯度下降算法可以提高更新权重的速度,让我们及时看到损失函数的情况,但是每个损失函数并不会一直下降,而是在保证整体趋势减小的情况下略微波动,如果用一个等高线图来表示就是这样的:上图的中心点为最...

2020-03-09 01:38:57 2225

原创 Adam 优化算法

在深度学习的发展过程中出现过很多优化算法,但是有些优化算法并不能被非常广泛地使用,因此出现了一些质疑优化算法的声音。但是当有人尝试将动量梯度下降和 RMSprop 结合起来后,人们发现这种新的优化算法效果非常好而且在很多问题上的表现都不错,后来便广泛地使用了起来。Adam 算法本质上是将动量梯度下降算法和 RMSprop 结合了起来。如果读过前几篇文章,那么对下面的算法描述一定不陌生:...

2020-03-09 01:38:01 537

原创 RMSprop

RMSprop 翻译成中文是“均方根传递”,它也能加速算法学习的速度。仍然使用上篇文章中的图:在此,我们假设 W 为水平方向的参数,b 为竖直方向的参数。从上图可以看出,更新 W 时的步伐过小,而更新 b 的步伐过大,这是 dW 过小和 db 过大造成的,如果我们可以增大 dW 和减小 db,就可以使上图蓝线更快地向右行进,而减少上下振动。下面就来实现这个目的。回忆一下,在动量梯度下降...

2020-03-09 01:37:02 1235

原创 动量梯度下降算法

上篇文章介绍了指数加权平均,这篇文章介绍在此基础上介绍一下动量梯度下降算法。所谓动量梯度下降算法,简言之就计算梯度的指数加权平均,然后使用这个梯度来更新权重,下面我们来详细解释这句话。我们在使用梯度下降算法更新权重时,希望损失函数能减小直到最优值。我们可以在一副等高线图中,画出损失函数随着迭代次数增加而减小的路径,即如下图所示:图中红点为最优点,蓝线为损失函数的减小路径,从图中左侧出发...

2020-03-09 01:35:03 2772

原创 指数加权平均

有一些算法比梯度下降算法更有效,为了学习这些算法,我们需要先了解一个概念——指数加权平均(Exponentially weighted averages)我会先讲指数加权平均的具体做法,然后再讲这么做的原因。指数加权平均假设我们收集了一个在北半球的地区一年中每天的温度,像这样:t(1) = 4°Ct(2) = 9°Ct(3) = 6°C…t(180) = 15°C…将这...

2020-03-09 01:33:16 2689 2

原创 Mini-Batch 梯度下降

这篇文章简要介绍什么是 mini-batch 梯度下降算法及其特点在训练网络时,如果训练数据非常庞大,那么把所有训练数据都输入一次神经网络需要非常长的时间,另外,这些数据可能根本无法一次性装入内存。人们在实践中发现并证明了另外一种方法,这种方法可以解决这些问题,更快地完成训练。假如我们有 m = 500000 对训练数据 X Y,把这些数据按照每组 1000 对分成 500 组,即 X 被...

2020-03-09 01:25:38 1101 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除