- 博客(68)
- 资源 (4)
- 收藏
- 关注
原创 InfoNCE Loss公式及源码理解
−1N∑i1Nlogexpqi⋅kiτ∑j1Nexpqi⋅kj−τ−N1i1∑Nlog∑j1Nexpτqi⋅kj−expτqi⋅kiNNN是样本的数量qiq_iqi是查询样本iii的编码向量kik_{i+}ki是与查询样本iii相对应的正样本的编码向量ki−k_{i-}ki−是与查询样本i。
2023-11-21 21:58:46 3172 2
原创 【代码实现】DETR原文解读及代码实现细节
宏观上来说,DETR主要包含三部分:以卷积神经网络为主的骨干网(CNN Backbone)、以TRM(Transformer)为主的特征抽取及交互器以及以FFN为主的分类和回归头,如DETR中build()函数所示。DETR最出彩的地方在于,它摒弃了非端到端的处理过程,如NMS、anchor generation等,以来端到端建模目标检测过程,并且将Transformer引入到目标检测中,打开新领域的大门)。
2023-09-04 21:12:47 1291 1
原创 【多模态论文解读】Align before Fuse: Vision and Language Representation Learning with Momentum Distillation
本文介绍了一种名为ALBEF的高效视觉语言模型,采用了对比学习预训练的方式,能够学习到图像和文本之间的丰富关系,为视觉问答、图像分类、图像生成等下游任务提供更好的表征。ALBEF主要由三部分组成:image encoder、text encoder&multimodal encoder、momentum model。它的预训练目标主要包括对比损失、掩码语言重建任务和图像文本匹配任务的损失函数。此外,作者还提出了一种Momentum Distillation的方法,用于从动量模型生成的伪目标中学习,以便有效学
2023-04-13 21:22:53 2049 1
原创 【备忘录】torch171+cu110配置apex
基于torch171+cu110、torchvision082+cu110和torchaudio072的apex安装教程
2023-03-14 09:41:13 1186
原创 【NLP Learning】Transformer Encoder续集之网络结构源码解读
这篇文章我们主要从Transformer的Encoder源码入手,读懂Encoder的结构
2022-11-17 09:20:17 386
原创 【PytorchLearning】NLP入门笔记之手写Transformer Encoder内部机制
本文主要从Transformer Encoder中Word embedding生成、Position embedding机制和self-attention中的mask机制三个方面的源码及原理进行解读
2022-11-01 20:16:34 486
原创 【注意力机制集锦】Channel Attention通道注意力网络结构、源码解读系列一
本文从原文、网络结构、代码实现三个方面系统总结了SENet、SKNET、CBAM三种注意力机制
2022-05-08 22:37:14 9649 1
原创 【视觉注意力机制集锦】引言
视觉注意力机制集锦之引言1 注意力机制1.1 注意力机制简介卷积神经网络具有很强的拟合数据的能力,但是由于优化算法和计算能力的限制,在实践中,卷积网络很难达到通用近似的能力。特别是在处理规模较大的输入数据,实现复杂任务时,计算能力仍可能成为模型的瓶颈。卷积网络中的局部连接的卷积结构、池化层等设计本身可以用来简化网络结构、缓解模型复杂度和表达能力的矛盾。针对网络模型的任务,我们需要进行进一步的操作,可以在不过多增加模型复杂度的同时提高模型的表达能力。神经网络中,可以存储的信息量称为网络容量,显然,网络
2022-05-05 09:18:36 795
原创 【Transformer开山之作】Attention is all you need原文解读
Attention Is All You NeedTransformer原文解读与细节复现在Transformer出现以前,深度学习的基础主流模型可分为卷积神经网络CNN、循环神经网络RNN、图对抗神经网络GAN。而Transformer的横空出世,吸引了越来越多的研究者的关注:Transformer不仅在NLP领域取得了耀眼的成绩,近年来甚至一度屠榜CV领域的各大比赛,热度超前。所以,基于之前对Transformer的研究与理解,更基于对新技术的好奇与渴求,接下来的几篇文章我会从最经典的Tra
2022-05-01 15:49:49 14803
原创 YOLOv5的Backbone详解
本文从yolov5s入手,细致分析了yolov5s的网络配置文件参数、backbone部分、neck部分和最终的head部分,并结合网络结构图和源码对各模块进行了详细介绍
2022-03-20 20:07:26 44430 32
原创 基于 LeNet5 的 MNIST 数据集识别
LeNet与LeNet5基于MNIST实现1 数据集概况1.1 数据组成MINIST 数据集总共包含 7 万张手写数字图片,按照 6:1 的比例划分为训练集与测试集。 图片的大小为 28x28,通道数为1,每张图片都是黑底白字,黑底在张量中用 0 表示,白字用0-1 之间的浮点数表示。具体的数据集及对应标签如表 1 所示。1.2 数据可视化使用 showdata.py 查看每一批 batch 中的图片及标签,如图 1。showdata.py代码:import torchfrom
2021-12-23 20:23:18 3934
Human Pose Estimation Overview.pptx
2020-07-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人