自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 狗都能看懂的DDIM论文详解

DDIM可以看作是DDPM的更通用的形式,或者说DDIM是DDPM的一种子集,它不利用上一个step的信息就可以求出任意一个step的结果,可以做到跳步生成,从而实现采样的加速过程。由于DDIM的改进主要是在采样阶段,所以可以直接将DDPM训好的模型用DDIM采样,所以大家普遍都会认为DDIM是个采样算法,实际上它的推导的意义更加重大。当然这样的跳步生成也是有代价的,会有一些损失,从论文结果上看,DDIM可以用非常少量的精度损失作为代价,换取10倍至50倍的速度提升。这个对实际体验和落地有很大帮助。

2024-04-17 17:08:29 760

原创 狗都能看懂的Deblurring via Stochastic Refinement论文详解

把Diffusion Model迁移到了去模糊任务上,而且提出了Predict and Refine的思路,有效降低了参数量和计算量,对扩散模型的落地和部署有比较大的意义。

2024-04-11 11:28:31 752

原创 狗都能看懂的SR3(Image Super-Resolution via Iterative Refinement)论文详解

第一篇利用Diffusion Model做超分辨率重建的论文,非常新颖的思路

2024-04-10 11:06:09 703

原创 狗都能看懂的DDPM论文详解

DDPM的推导笔记,更深刻理解stable diffusion,从不同角度去学习去噪网络

2024-04-07 11:49:03 377 2

原创 狗都能看懂的C++二级指针/悬挂指针的原理和应用

C++二级指针的应用,避免悬挂指针的问题。

2024-04-02 15:53:44 703

原创 狗都能看懂的VAE笔记

终于把VAE搞懂了

2023-03-24 15:47:10 557 1

原创 狗都会用的余弦退火(CosineAnnealingLR)学习率调节算法讲解

Loss NaN?分类准确率不高?目标检测Map低?语义分割Miou低?快来试试CosineAnnealingLR吧

2022-11-09 11:41:35 20095 7

原创 狗都能看懂的Meta-SGD原理讲解和代码实现

Meta-SGD:元学习上的又一好文

2022-10-09 16:02:46 2365 9

原创 狗都能看懂的Pytorch MAML代码详解

maml:一种神奇的元学习训练方式

2022-08-02 18:23:12 9778 48

原创 狗都能看懂的CenterNet讲解及代码复现

狗都能看懂的CenterNet讲解及代码复现

2022-06-23 09:38:47 7690 11

原创 狗都能看懂的Vision Transformer的讲解和代码实现

狗都能看懂的Vision Transformer和代码复现

2022-01-24 14:46:33 34544 35

原创 狗都能看懂的Self-Attention讲解

一文看懂self-attention

2022-01-13 17:31:25 11001 23

原创 狗都能看懂的变化检测网络Siam-NestedUNet讲解——解决工业检测的痛点

1、问题介绍工业检测如今深度学习的发展如火如荼,各类神奇的技术如人脸识别、换脸技术啥的,似乎什么问题都只需要Deep Learning一下就可以解决了。但这都是属于民用级别的技术,而真正想要在实际业务中落地,更多的是要渗透到工业中去。常见的工业检测有如下特点:良品多,次品少。如果一个工厂生产的大部分都是坏品,那这个工厂就离倒闭不远了。而恰恰深度学习则需要大量的坏品数据。产品换批次,产线更新。经常一换产品,之前优化过的模型就没办法再用了。就针对这两个问题,目前学术界较为成熟的目标检测、图像分割

2021-11-26 12:04:46 12163 58

原创 U-Net详解:为什么它适合做医学图像分割?(基于tf-Kersa复现代码)

1、U-netU-Net是一篇基本结构非常好的论文,主要是针对生物医学图片的分割。这种“对称”的结构也是神经网络中比较少见的,但如果把整个网络拉直,这样就和其他语义分割网络类似了。2、特点介绍首先,我们先来看一下U-Net的整体结构,可以看到,它并不是完全对称的。UNet原文中提到,输入图像是512x512大小的,那为什么图中第一层的宽高却是572呢?这样做有什么好处?Over-tile策略Unet使用一种称为overlap-tile的的策略,使得任意大小输入的图片都可以获得一个无缝分割。ove

2021-08-15 12:12:05 4296

原创 SegNet——论文笔记

1、什么是语义分割(semantic segmentation)?图像语义分割,简而言之就是对一张图片上的所有像素点进行分类,将所有属于同一类的物体标记为同一像素点。SegNet基于FCN,修改VGG-16网络得到的语义分割网络。2、SegNet(A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation)SegNet 有一个编码器网络和一个相应的解码器网络,然后是最终的逐像素分类层。编码器在编码器处,执

2021-07-04 11:23:07 2304

原创 FCN——语义分割的开山鼻祖(基于tf-Kersa复现代码)

1、什么是语义分割(semantic segmentation)?图像语义分割,简而言之就是对一张图片上的所有像素点进行分类,将所有属于同一类的物体标记为同一像素点。而今天要来介绍的则是第一个用卷积神经网络来做语义分割的方法——FCN。2、FCN(Fully Convolutional Networks for Semantic Segmentation)常见的卷积神经网络在多次卷积之后会接上若几个全连接层,将卷积和下采样产生的feature map映射成为一个固定长度的特征向量。一般的CNN结构

2021-06-27 11:21:06 2827 2

原创 YOLOv3详解:从零开始搭建YOLOv3网络

因为YOLO系列有不同版本,分为v1,v2,v3,v4四个版本,从论文上分析需要从头开始,本文从实战入手,分析YOLOv3的原理。代码地址:https://github.com/Runist/YOLOv31、YOLOv3网络结构骨干网络(backbone)——特征提取YOLOv2的backbone采用的是DarkNet19 ,而YOLOv3采用的是DarkNet53。DarkNet53中无池化层,全连接层,特征图的缩小是通过增加卷积核的步长实现的。DarkNet53的每一个卷积部分使用了特有

2021-02-15 14:31:02 12816 1

原创 EfficientNet解读:神经网络的复合缩放方法(基于tf-Kersa复现代码)

论文:https://arxiv.org/pdf/1905.11946.pdf代码:https://github.com/qubvel/efficientnet1、介绍EfficientNet这篇论文在发布之初就引起了广泛关注,原因是因为它展示出的结果将现有的网络全部秒杀了,并且在准确率高出一截的情况下,参数量还少,在ImageNet上屠榜。看到这让人叹为观止的结果,很多人会认为这篇论文应该是提出了全新的结构,才能做到又快又好。其实并不是这样,作者独辟蹊径,从一个之前完全没有人注意的角度:量化三个

2021-02-10 21:04:42 2895

原创 DropBlock: 卷积层的正则化方法及复现代码

论文:https://arxiv.org/pdf/1810.12890.pdf1、什么是Dropout?我相信各位一定了解过Dropout,所谓Dropout就是提高神经网络泛化性一种方法,可以有效减轻过拟合。为什么它有效呢?从下图分析:一个标准的神经网络如图(a)所示,由于训练数据(假设为人脸数据)的局限性,使得神经网络很依赖于某一个神经元,而其他神经元相当于没有起作用,网络每次都只通过眼睛来判断是不是个人。如果此时直接拿一个全新的测试数据集让这个网络进行识别,很可能因为图片中眼睛被遮挡而得出错误

2021-02-09 12:27:13 2860 2

原创 DenseNet详解及Keras复现代码

代码地址:https://github.com/liuzhuang13/DenseNet论文地址:https://arxiv.org/pdf/1608.06993.pdf1、DenseNet随着卷积神经网络变得越来越深,一个新的问题出现了:当输入或梯度信息在经过很多层的传递之后,在到达网络的最后(或开始)可能会消失或者“被冲刷掉”(wash out)。DenseNet(Dense Convolutional Network)主要还是和ResNet及Inception网络做对比,思想上有借鉴,但却是不一

2021-02-08 12:10:29 3303 6

原创 ResNet详解:ResNet到底在解决什么问题?

计算机视觉的圣经ResNet!

2021-02-07 11:27:07 7873 2

原创 SENet详解及Keras复现代码

SENet详解论文地址:https://arxiv.org/pdf/1709.01507.pdf代码地址:https://github.com/hujie-frank/SENet1、通道间的特征关系近些年来,卷积神经网络在很多领域上都取得了巨大的突破。而卷积核作为卷积神经网络的核心,通常被看做是在局部感受野上,将空间上(spatial)的信息和特征维度上(channel-wise)的信息进行聚合的信息聚合体。卷积神经网络由一系列卷积层、非线性层和下采样层构成,这样它们能够从全局感受野上去捕获图像的特

2021-02-02 10:18:16 7749 16

原创 目标检测中的IoU、GIoU、DIoU与CIoU

什么是IOU?简单来说IOU就是用来度量目标检测中预测框与真实框的重叠程度。在图像分类中,有一个明确的指标准确率来衡量模型分类模型的好坏。其公式为:acc=PtrueNN=全部样本的数量,Ptrue=预测正确的样本数量acc = \frac{P_{true}}{N} {\quad}{\quad}{\quad}{\quad}{\quad}{\quad}{\quad}N=全部样本的数量,P_{true}=预测正确的样本数量acc=NPtrue​​N=全部样本的数量,Ptrue​=预测正确的样本数量这个

2020-12-14 10:55:32 32773 9

原创 目标检测中的先验框(Anchor)

什么是先验框?了解过目标检测算法的朋友们肯定知道先验框(Anchor)的概念,那么什么是先验框,为什么要有先验框?若要解释这个问题,首先我们需要了解边界框回归原理。bounding box regression如图所示,图中的狗子是我们要检测的目标,也即是红框(Ground Truth)圈住的物体。在通常情况下模型预测到的框是绿色框。但是由于绿色框不准,相当于没有正确的检测出狗子。所以我们希望有一个方法对绿色框进行调整,使得绿色框更接近红色框。对于预测框我们一般使用(x,y,w,h)(x,y,w,

2020-12-10 12:11:45 17750 24

原创 Faster RCNN原理及复现代码

原理Faster RCNN主要可以分为四个内容:Conv layers。作为一种CNN网络目标检测方法,Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。Region Proposal Networks。RPN网络用于生成区域建议框。该层通过softmax判断anchors属于前景或者背景,再利用预测框回归修正anchors获得精确的建议框。Roi Pooling。该层

2020-12-09 11:23:14 2935 5

原创 狗都能看懂的MAML原理讲解和代码实现

meta-leaning指的是元学习,元学习是深度学习的一个分支,一个好的元模型(meta-learner)应该具备对新的、少量的数据做出快速而准确的学习。通俗的来讲, 对于人来说,给几张橘猫的图片让看一下,再给你几张没见过的英短猫图片,你一定能很快识别出来都是猫。但是对于神经网络来说,并非如此。如果让一个小汽车分类网络去识别不同的大货车,那效果肯定很差。而传统的CNN网络都是输入大量的数据,然后进行分类的学习。但是这样做的问题就是,神经网络的通用性太差了,根本达不到“智能”的标准。而人类的认知系统,可以通

2020-11-21 10:44:59 45422 130

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除