捡起一束光-CSDN博客

原创【知识蒸馏论文解读】Dataset Distillation 创新性十足的数据集蒸馏

模型蒸馏（model层面）的目标是从一个复杂的模型中蒸馏知识到小的模型上。本文考虑的是数据集上的蒸馏（**dataset层面**），具体来说，我们会固定住模型，然后尝试从较大的训练数据集中蒸馏知识到小的数据集上。核心目的是将原始的大数据集压缩成一个小的数据集（不需要来自训练集的分布），并且在这个小数据集上训练模型的效果和原始较大数据集上的训练效果是接近的。......

2022-01-21 21:40:22 5045 1

原创【CVPR 2021联邦学习论文解读】Model-Contrastive Federated Learning (MOON) 联邦学习撞上对比学习

- 传统的对比学习是data-level的，本文改进了FedAvg的本地模型训练阶段，提出了model-level的联邦对比学习（Model-Contrastive Federated Learning）- 作者从NT-Xent loss中获得灵感，提出了model-contrastive loss。model-contrastive loss可以从两方面影响本地模型 1. 本地模型能够学到接近于全局模型的representation 2. 本地模型可以学到比上一轮本地模型更好的representatio

2022-01-19 23:47:29 8297 9

原创 Meta Learning：元学习模型MAML和Reptile详解

元学习常见模型MAML要做的事情是学习一个“好”的初始化参数。以前我们是训练一个模型，然后让这个模型的参数\thetaθ最优，而现在我们训练MAML是希望初始化参数\phi最优，这样就可以实现“快速学习”（使用来自新任务的少量数据就能解决学习任务，而且只需要几步梯度下降就能得到好的泛化效果......

2022-01-16 13:46:09 5198 1

原创【NIPS 2016图神经网络论文解读】Variational Graph Auto-Encoders (VGAE) 基于VAE的图变分自编码器

Thomas N. Kipf大佬不仅是这篇VGAE的作者，而且还是大名鼎鼎GCN模型的作者。VGAE是GCN在Variational Graph Auto-Encoders (VAE)的应用。

2021-12-25 10:26:54 5386

原创【ICML 2015迁移学习论文阅读】Unsupervised Domain Adaptation by Backpropagation (DANN) 无监督领域自适应

Unsupervised domain Adaptation by Backpropagation 这篇论文发表于2015 ICML，目前引用量已经3000+，这篇文章讲得非常好，把对抗训练的思想应用到分布迁移上面。具体来说在原来feature mapping的基础上外接一个domain classifier（之前那个叫做label classifier），这个domain classifier的作用是判别当前样本是属于哪个domain的，如果你的数据集只有两个分布，那么这个classifier就是一个二分

2021-11-08 21:49:17 4599 1

原创手把手教你用Pytorch代码实现Transformer模型（超详细的代码解读）

本文整理了非常清楚的Transformer模型结构图，建议大家在看代码的时候能结合这个结构图来理解，这样理解起来会比较容易！用Pytorch实现Transformer的完整代码

2021-09-20 18:51:48 58795 66

原创【ICML 2020联邦学习论文解读】SCAFFOLD: Stochastic Controlled Averaging for Federated Learning

FedAvg的收敛速度受限于数据集的分布，在Non-IID数据集中FedAvg的收敛速度缓慢。本文提出了一种叫做SCAFFOLD的算法，通过增加一个额外的参数control variate来修正FedAvg出现的client-drift，以此来加快收敛速度，从而减少通信次数............

2020-11-30 22:23:05 4969 8

原创 2023届算法岗面经题：训练深度学习模型时loss除以10和学习率除以10真的等价吗

软件：唧唧Down官网：http://client.jijidown.com/下载完成后，运行软件只要把你想下载的b站视频网址复制到该软件就可以下载视频清晰度可选1080p，还可以设置是否下载弹幕用这款软件再配合potplayer，可以尽情享用b站任何视频...

2019-10-12 10:09:14 113937 5

原创算法岗常考面试题：transformer中的attention为什么要除以根号d_k

我们知道attention其实有很多种形式，而transformer论文中的attention是Scaled Dot-Porduct Attention，如下图所示：那么问题来了，这里的attention为什么要做除以根号d_k呢？一句话概括就是：如果不对softmax的输入做缩放，那么万一输入的数量级很大，softmax的梯度就会趋向于0，导致梯度消失。

2023-12-29 22:56:41 1143

原创 TensorFlow1.x 代码实战系列：MNIST手写数字识别

TensorFlow1.x代码实战系列

2023-02-10 11:48:08 1235 1

原创 OpenAI打破文本和图像次元壁，提出基于对比学习的多模态预训练模型CLIP

OpenAI打破了自然语言与视觉的次元壁，推出了一个连接文本与图像的神经网络模型CLIP。CLIP彻底摆脱了categorical label的限制，也就是在训练和预测时，我都不需要有提取定好的类别列表（如CIFAR10的10个类别标签）。任何给一张图片，如奥特曼，我只要在Prompt文本里去加入一些自己想的类别（如三轮车、奥特曼、马铃薯），然后模型就能预测这种图片是不是我感兴趣的物品。

2022-11-02 10:42:33 1957

原创你必须要知道CNN模型：ResNet残差网络

引入ResNet后，因为加入了跳转或者说高速公路，所以在算梯度的时候，底层W的梯度可以直接让loss从高速公路反传过来，就不需要一定把中间很多卷积层走完。所以说在一开始的时候，我最下面的层也会拿到比较大的梯度，就是因为我加入了高速公路。因此无论你模型有多深，我下面的层都能做参数的更新。ResNet在PyTorch的官方代码中共有5种不同深度的结构，深度分别为18、34、50、101、152（各种网络的深度指的是“ResNet-18，ResNet-34，ResNet-50都可以用做CV中的图片特征提取器。

2022-11-02 10:07:06 1641

原创推荐系统：Swing召回模型Python代码实现

Swing和ItemCF非常像，唯一的区别是计算物品相似度的公式不一样。- ItemCF：如果同时喜欢两个物品的用户越多，那么这两个物品的相似度越高。- Swing：如果同时喜欢两个物品的用户越多，**且这些用户的重合度越低**，那么这两个物品的相似度越高。

2022-10-16 23:34:14 1450 1

原创浅谈NLP新范式：Prompt Learning模板学习

为了解决上下游任务不一致的问题，研究者就想尽了各种办法。假定我们在不能改变预训练模型的情况下，上游任务有MASK token，上游任务又不能变（因为重新训练大规模模型代价太大），那我们在下游任务中添加MASK token不就好了嘛，这就是Prompt的一种用法。

2022-10-09 10:31:21 895

原创【ICML 2020对比学习论文解读】SimCLR: A Simple Framework for Contrastive Learning of Visual Representations

对比学习是一种自监督学习方法，在无标签数据集上仍可以学习到较好的表征。对比学习的主要思想就是相似的样本的向量距离要近，不相似的要远，以此获得数据的高阶信息。

2022-10-09 10:16:34 1153

原创【NAACL 2019预训练论文解读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

简介：Transformer主要用在机器翻译这个小的领域上。BERT可以针对一般的语言理解任务。之前CV里面有预训练的CNN模型，那BERT出现后使得NLP也有了预训练模型。

2022-10-09 10:11:47 534

原创 RS笔记：深度推荐模型之Wide&Deep [2016.6 谷歌]

Memorization 和 Generalization：在Wide&Deep 论文中，通篇都是这两个词，必须搞懂是怎么回事！这个是从人类的认知学习过程中演化来的。人类的大脑很复杂，它可以记忆 (memorize) 下每天发生的事情（麻雀可以飞，鸽子可以飞）然后泛化 (generalize) 这些知识到之前没有看到过的东西（有翅膀的动物都能飞）。但是泛化的规则有时候不是特别的准，有时候会出错（有翅膀的动物都能飞吗）。那怎么办那，没关系，记忆 (memorization) 可以修正泛化...

2022-09-01 17:21:16 511

原创 RS笔记：深度推荐模型之SIM长短期兴趣网络（基于搜索的超长行为序列上的用户长期兴趣建模）[CIKM 2020, 阿里妈妈广告团队]

数据让电商给用户带来了完全不同的体验，淘宝拥有用户从初入淘宝开始 life-long 的行为数据。通过这些数据，推荐系统可以推测用户的兴趣，给每个用户个性化的体验，给用户展现其可能感兴趣的商品，极大的增加了用户在逛淘宝过程中的信息获取效率。如图一所示，我们引入更丰富的用户数据，对于用户点击行为预估将会更为准确。...

2022-09-01 17:19:58 496

原创 RS笔记：深度推荐模型之多任务学习PLE模型 [RecSys 2020 最佳论文腾讯]

PLE(Progressive Layered Extraction)模型由腾讯PCG团队在2020年提出，发表在RecSys 2020上，这篇paper获得了recsys’20的best paper award，也算为腾讯脱离技术贫民的大业添砖加瓦了。这篇文章号称极大的缓解了多任务学习中存在的两大顽疾：**负迁移**（negative transfer）现象和**跷跷板**（seesaw phenomenon），由此带来了相比较其他MTL模型比较大的性能提升。...

2022-09-01 17:18:19 537

原创面试题：GBDT每一轮是在拟合负梯度，那XGBoost每一轮又在拟合什么？

最近面试被问到了GBDT和XGBoost的细节，没回答好，于是好好整理了下相关的内容。GBDT是通过拟合负梯度表来训练第m棵树（弱分类器），XGBoost是用另一种方式训练第m棵树（弱分类器），使得目标函数（复杂）最小；训练方式：GBDT限定使用CART回归树，仍用CART回归树的构造方式训练。而XGBoost考虑了正则项，所以自己定义了一套构造方式，即新的分裂收益计算公式......

2022-08-28 11:03:24 325

原创 RS笔记：工业界推荐系统YouTubeDNN模型（召回层+排序层）[2016 YouTube]

一、背景知识召回的目的是根据用户部分特征，从海量物品库，快速找到小部分用户潜在感兴趣的物品。粗排的目的是用少量用户和物品特征，对召回结果再进行一波筛选精排主要是融入更多特征，使用复杂模型，来做个性化推荐，强调准重排主要是结合精排的结果，再加上各种...

2022-07-17 21:59:30 532

原创算法岗面经：2023届腾讯算法岗暑期实习一面面经

腾讯面试官真的顶，上来说先做2个算法题，给40分钟时间，然后他就自己去忙了，做完后面试官开始问各种项目、机器学习基础...

2022-07-17 08:16:35 1230

原创问题解决：tensorflow训练模型时进度条保存到log日志格式混乱

一、问题描述在用tensorflow或keras跑模型的时候，经常会以进度条的形式给用户展示目前模型训练的进度以及当前模型的loss、accuracy等评价指标。这个功能当然非常好用，但是有的时候我想把py程序运行的结果保存到log日志时，通常会遇到文件中进度条格式混乱的问题，打开保存的log日志，显示所示：这个鬼样子，根本不是人看的。二、解决方法假设你在服务器上跑模型时将print打印出来的内容保存到了experiment.log日志。sh run.sh >> experime

2022-05-15 14:01:49 1123 1

原创 RS笔记：传统推荐模型之FFM （引入特征域的概念） [2015 Criteo]

FFM一、背景知识1.1 什么是特征域学习资料paper: Field-aware Factorization Machines for CTR Prediction⭐⭐⭐ [blog] FFM算法介绍一、背景知识1.1 什么是特征域

2022-05-05 12:46:02 2461 1

原创 C++高频面试题：虚函数和纯虚函数（C++的三大特性：封装、继承、多态）

C++高频题学习资料一、虚函数虚函数原理（手写笔记）虚函数代码示例二、纯虚函数纯虚函数原理纯虚函数代码示例C++纯虚函数类似Python中的@abstractmethod装饰器三、相关面试题问题1：请说说虚函数和纯虚函数区别学习资料c++虚函数的作用是什么？ - 心试的回答 - 知乎我们知道C++的三大特性就是封装、继承和多态。虚函数这个概念是在继承部分出现，主要就是为了实现多态机制。多态是可以用父类的指针指向子类的实例，可以直接调用子类的成员函数。这样父类就实现了多态。多态就是一个.

2022-04-28 09:16:10 1014

原创 XGBoost如何画出树分裂图，用代码绘制多棵CART回归树

XGBoost解决二分类问题代码（绘制CART回归树）GBDT是能进行二分类的，因为我们要明确一点就是GBDT 每轮的训练是在上一轮的训练的残差基础之上进行训练的，而这里的残差指的就是当前模型的负梯度值，这个就要求每轮迭代的时候，弱分类器的输出的结果相减是有意义的，而GBDT无论用于分类还是回归一直都是使用的CART 回归树，至于具体怎么做分类任务，可以看这两个回答：1，2XGBoost解决二分类问题的代码并画出CART回归决策树运行下面代码需要安装 graphvizimport xgboo.

2022-03-25 23:15:38 2687

原创【VAE论文解读系列】FactorVAE: Disentangling by Factorising（ICML 2018）

β-VAE直接对两项一起惩罚，会导致disentanglement效果好，而重构效果就会下降，所以FactorVAE希望将其分开。FactorVAE的思路是在原始VAE的lower bound后面加上一个TC项来促进表征$z$的每个维度之间尽可能独立，提高的解耦能力。

2022-02-11 17:27:35 1943

原创重温机器学习概念：偏差(Bias)、方差(Variance)、欠拟合(Underfitting)、过拟合(Overfitting)

最近放寒假了，除了看论文，我还打算抽空复习一些机器学习的基础知识。今天主要复习了机器学习中偏差和方差这两个概念，能不能讲清楚偏差方差，经常被用来考察面试者的理论基础，我之前对有些地方是一知半解的，比如那个射靶图是什么意思，如今查阅了一些资料后终于恍然大悟。......

2022-01-24 17:04:03 1927 1

原创 3000字详解：终于理解机器学习中极大似然估计MLE和最大后验估计MAP的原理

在统计中最大似然估计（Maximum likelihood estimation, 简称MLE）和最大后验概率估计（Maximum a posteriori estimation, 简称MAP）是很常用的两种参数估计方法（根据观测到的数据去推测模型和参数），但很多人并不理解这两种方法的思路，本文将详细介绍他们的区别。...

2021-12-29 12:13:39 1381

原创透彻理解机器学习中极大似然估计MLE的原理（附3D可视化代码)

在机器学习中，我们经常会遇到极大似然估计(Maximum Likelihood Estimation, MLE)，本文将带你好好理解这个概念。极大似然估计的依据：概率最大的事件最有可能发生，或者说真实发生的事情总是概率最大的...

2021-12-27 18:27:31 2704

原创【ICLR 2017图神经网络论文解读】Semi-Supervised Classification with Graph Convolutional Networks (GCN) 图卷积网络

GCN是图神经网络领域最经典的论文，值得我们好好阅读！

2021-12-25 14:35:50 1019

原创 NLP漫谈系列：BERT预训练模型的原理真的很难理解吗

BERT的目的是预训练Transformer模型的Encoder网络，从而大幅提高准确率。经过BERT预训练后的Encoder网络相当于有了一组比较好的初始化参数，已经能体现出单词之间的相关性了。

2021-12-19 11:33:06 1747

原创深入理解NLP中LayerNorm的原理以及LN的代码详解

在NLP中，大多数情况下大家都是用LN（LayerNorm）而不是BN（BatchNorm）。最直接的原因是BN在NLP中效果很差，所以一般不用。LN是把**normalized_shape这几个轴的元素**都放在一起，取平均值和方差的，然后对每个元素进行归一化，最后再乘以对应的$\gamma$和$\beta$（**每个元素不同**）。**LN共有N1*N2个mean和var**（假设输入数据的维度为(N1,N2,normalized_shape），normalized_shape表示多个维度）......

2021-12-11 22:48:33 39834 19

原创深入理解BatchNorm的原理、代码实现以及BN在CNN中的应用

BatchNorm是算法岗面试中几乎必考题，本文将带你理解BatchNorm的原理和代码实现，以及详细介绍BatchNorm在CNN中的应用。

2021-12-11 11:42:55 8427 2

原创终于明白PCA降维的数学原理了

PCA（Principal Component Analysis）作为降维中最经典的方法，至今已有100多年的历史，它属于一种线性、非监督、全局的降维算法，是在面试中经常被问到的问题。机器学习中经常要处理成千上万甚至几十万维的数据在这种情况下，机器学习的资源消耗是不可接受的，因此我们必须对数据进行降维。但是降维必然意味着信息的丢失，不过鉴于实际数据本身常常存在的相关性，我们可以想办法在降维的同时将信息的损失尽量降低。

2021-12-05 22:58:30 2903

原创监督学习中判别式模型和生成式模型的区别 | 无监督学习的生成模型GAN、VAE（生成样本）

文章目录一、监督学习中的判别式模型和生成式模型1.1 判别式模型（线性回归、SVM、NN）1.2 生成式模型（朴素贝叶斯、HMM）二、无监督学习中的生成式模型参考资料一、监督学习中的判别式模型和生成式模型有监督学习可以分为两类：判别模型和生成模型，我们所熟悉的神经网络，支持向量机和logistic regression，决策树等都是判别模型。而朴素贝叶斯和隐马尔可夫模型则属于生成式模型1.1 判别式模型（线性回归、SVM、NN）判别式模型由数据直接学习P(y∣x)P(y|x)P(y∣x)来预测yy

2021-11-30 13:11:25 3034

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

LeetCode题解 带标签 代码高亮 超清.pdf

概率论与数理统计第二版 高清版 茆诗松 华师大

数学分析学习指导书下册册(华东师范大学，吴良森 毛羽辉 韩士安 吴 畏) 超清 非扫描版

数学分析学习指导书上册(华东师范大学，吴良森 毛羽辉 韩士安 吴 畏) 超清 非扫描版

华东师范大学数学分析 教材 第四版 上下册 答案 超清 考研数学专业的朋友必看书籍

高代代数北大丘维声 上册 超清 非扫描版 数学专业必备书籍

挑战程序设计第二版 高清

高代代数北大第三版 高清版 考研数学专业专用

c++编程常见错误

让你不再害怕指针

王道机试指南PDF 高清版

空空如也

LeetCode题解带标签代码高亮超清.pdf

概率论与数理统计第二版高清版茆诗松华师大

数学分析学习指导书下册册(华东师范大学，吴良森毛羽辉韩士安吴畏) 超清非扫描版

数学分析学习指导书上册(华东师范大学，吴良森毛羽辉韩士安吴畏) 超清非扫描版

华东师范大学数学分析教材第四版上下册答案超清考研数学专业的朋友必看书籍

高代代数北大丘维声上册超清非扫描版数学专业必备书籍

挑战程序设计第二版高清

高代代数北大第三版高清版考研数学专业专用