CV大白菜-CSDN博客

原创 Gradient Harmonized Single-stage Detector

AAAI 2019Gradient Harmonized Single-stage Detector本篇论文用于解决检测中正负样本不均衡的问题，其实这里可以拓展到很多类似的问题中。论文提出了 gradient harmonizing mechanism(GHM) 的思想，这种思想既可以用于分类，也可以用于检测框的回归。之前的Focal loss使得梯度集中于分类概率小的难样本，所以梯度分布就...

2019-09-05 17:26:47 340

原创 Robust Classification with Convolutional Prototype Learning

2018 CVPRURL：http://openaccess.thecvf.com/content_cvpr_2018/papers/Yang_Robust_Classification_With_CVPR_2018_paper.pdf在图像分类方面，虽然现在正确率很高，CNN也会被很相似的图片欺骗，所以说明网络的鲁棒性还不够。这篇文章讨论了由于softmax层所以缺乏了鲁棒性。为了提高鲁棒性...

2019-09-02 18:18:32 2252 1

原创 Towards Faster Training of Global Covariance Pooling Networks by Iterative Matrix Square Root Normal

Towards Faster Training of Global Covariance Pooling Networks by IterativeMatrix Square Root NormalizationgithubICCV2017Is Second-order Information Helpful for Large-scale Visual Recognition的进阶版。在1...

2019-08-13 20:32:50 1179

原创 Is Second-order Information Helpful for Large-scale Visual Recognition?

Is Second-order Information Helpful for Large-scale Visual Recognition?这篇文章指出，目前state of art都在探寻又深又宽的网络结构，鲜少探究feature分布的信息，对feature做pooling等等只是对于一阶信息的处理，它往往快速有效，但对于所有情况并不适用。比如我们的有些选择需要方差小的样本，但是一阶信息并不...

2019-08-13 15:47:58 1470

原创 Pairwise Confusion for Fine-Grained Visual Classification

今年秋招CV坑位很少的样子，哭哭又是篇细粒度啦上链接：Pairwise Confusion for Fine-Grained Visual Classification这篇论文的核心在于，降低对于细粒度的过拟合，添加了confuse loss（emmm。。。其实就是L2）...

2019-08-01 16:41:45 1214 2

原创 centor loss

centor loss详解以及梯度更新方式，我自己写的也不如大佬们的总结，就不开贴来，直接放链接知乎专栏csdn

2019-07-22 11:28:29 210

原创几个reid的链接

一个强力的ReID basemodel一个更加强力的ReID Baseline此外，欢迎关注旷视VIDEO组知乎专栏

2019-07-15 19:14:31 261

原创 Looking for the Devil in the Details: Learning Trilinear Attention Sampling Network for Fine-grained

细粒度又要开张啦url:https://arxiv.org/pdf/1903.06150.pdf首先个人拙见，评估一下这篇论文。这篇论文将模型分成了三个部分，第一部分为三线性attention，旨在self attention，定位细节，第二部分为attention sample，这里根据attention对input进行采样，可以放大attention权重高的部分，提取细节。第三部分是di...

2019-07-15 12:44:13 3453 3

原创 Multi-Attention Multi-Class Constraint for Fine-grained Image Recognition

又回到了细粒度分类的工作，这一类工作的重点都在于attention。菜是真的菜，同事们说话都瑟瑟发抖不敢发言，菜就是原罪，哭唧唧。论文链接搜了一圈好像没有代码，主要他的损失函数复现起来比较麻烦，自己写的话有点费劲他的另一大贡献是提供了dog in wild数据，他的质量和标注都非常优秀。主体部分18年的ECCV，之前的细粒度都是多阶段或者多尺度，不是end to end，这篇文章提出了...

2019-07-10 17:38:12 1614

原创 Knowledge Transfer via Distillation of Activation Boundaries Formed by Hidden Neurons

论文链接这篇论文的核心思想非常简单，他认为不能只是用神经元的激活值来做蒸馏约束，而应该使用神经元的激活区域做约束，故在网络最后输出的feature map上做了一个约束的损失函数，这里的损失函数比较复杂，详情可以看论文，但是可以尝试用L2 loss替换，如果feature map size对不上的话，可以使用conv 1x1来对齐，但我认为如果feature map size相差较大的话，其实对...

2019-07-10 14:48:54 1108

原创 Snapshot Distillation: Teacher-Student Optimization in One Generation

又来营业啦，这段时间应该更新的都是蒸馏论文链接他提出了快照蒸馏（snapshot distillation）。我们从早期样本遍历后的模型 (教师模型) 提取有用信息对后期遍历中的模型 (学生模型) 进行监督训练。与此同时，该方法保证教师和学生模型的神经网络差异性，来防止欠拟合问题的发生。在实际训练中，我们用余弦函数学习率，用每一轮最后的快照作为teacher，来训练下一轮的student，这样...

2019-07-02 16:32:58 1151

原创如果解决长尾数据（样本不均衡）

最近突然高产，苦逼的秋招开始了，哭哭有几种已经常用的方法：过采样和重采样每个Batch对每类样本设置比例，保证在一个Batch里是相对均衡的以上这些的缺点很明显：对于大样本采样过少，会导致某张图片只训练了一次，这样使得大样本训练不好，导致整体的正确率都会下降，并且小样本会过拟合。focal loss（多用于检测中二分类，不是严格意义上的长尾数据）这里介绍一下focal loss，...

2019-06-26 20:20:14 16105 2

原创激活函数总结：Relu及其变体

Relu会导致神经元死亡，输出值具有偏移现象（输出均值恒大于零），偏移现象和神经元死亡会影响网络的收敛性。他的另一个性质的提供神经网络的稀疏表达能力。PRelu：其负半轴斜率可被学习，原文献建议初始化alphaalphaalpha为0.25，不采用正则，但是这要根据具体数据和网络，通常情况下使用正则可以带来性能提升。与Relu比起来，PRelu收敛速度更快，因为其输出均值更接近0，使SGD...

2019-06-26 11:47:08 1342

原创为什么神经网络中的参数不能设为一样的，那要怎么设置呢

话不多说了直接放链接吧，我自己也没有链接说得好。为什么参数不能设为一样的：因为每次更新，每层的参数都会是一样的参数设置实验参数如何设置：加了BN层之后其实对输入分布有了约束，大大减少了参数初始化造成的影响，所以一般取均值为0，标准差为0.01的随机初始化方式或者，小方差的高斯分布。...

2019-06-25 18:33:53 774

原创 Stacked Hourglass Networks

终于跳进人体姿态估计的坑了，本篇文章来源于ECCV2016。论文链接它的亮点是通过反复上采样和下采样，不断地融合空间信息，这样就可以把各个关键点的信息连贯地融合到一起，最后输出基于像素点的预测，它是一个singel pipeline，其中feature map最小的是4 * 4。它的设计如图3：经由卷积层和max pooling层将feature map降至较低的分辨率，在Max pool...

2019-06-12 19:30:12 983

原创 SGE——Spatial Group-wise Enhance: Improving Semantic Feature Learning in Convolutional Networks

这篇文章借鉴了SEnet，然后做了结构的改动。作者提到，一个完整的feature是由许多sub feature组成的，并且这些sub feature会以group的形式分布在每一层的feature里，但是这些子特征会经由相同方式处理，且都会有背景噪声影响。这样会导致错误的识别和定位结果。所以作者提出了SGE模块，它通过在在每个group里生成attention factor，这样就能得到每个su...

2019-06-07 19:06:14 3411 5

原创 Retinanet

这个论文的核心就是解决了样本不平衡问题，是focal loss的变体放上一个大佬的博客：CSDN首先我们来说说为什么one stage的检测效果差于two stage。首先two stage对于bbox有个筛选过程，这个筛选会筛除大部分的背景bbox，剩下的bbox会进行regression对于这些筛出来的bbox会进行二次regression由第一条就可以看出，two stage在...

2019-06-04 14:53:26 184

原创 Non-local Neural Networks

论文链接：论文一位大佬的博客：博客一般深度学习的各种操作都是local的，比如CNN，conv都是局部感受野，但其实全局的信息对于图像的任务更有价值，比如短视频分类任务等等，目前全局信息的使用就是FC，但是这会带来大量的参数。这篇文章提出了一个nonlocal的操作，他把position当成了一个权重，这里的position可以指空间，时间，或者时空关系，计算全局的关联性。eg视频中第一帧的A...

2019-05-23 15:54:56 5281

原创 SKNET

之前有聊过SENet，这里附上论文链接这里附上一个知乎链接，说的非常棒：SKnet他可以很方便的嵌入到现在的网络结构中去，实现精度的提升。首选介绍一下他的思想。在神经网络中，每一层的感受野都是一样大小的，但是在人的视觉中，物体大小不同，感受野的大小会变化。那我们提出一个动态选择机制也可以认为是Soft attention，在CNNs中，允许每一个神经元根据输入信息的多尺度自适应调整其接受域...

2019-05-12 18:02:26 1881

原创 Mobilenet-v2

接上一篇Mobilenet-v1，这篇论文写的比较晦涩，直接读比较费劲。这里链接一篇比较好的博客，本篇中也涉及篇幅比较多的引用。Preliminaries, discussion and intuitionDepthwise Separable Convolutions见Mobilenet-v1描述Linear Bottlenecks这里Relu用的Relu6，ReLU6 就是普通的R...

2019-05-12 17:01:06 246

原创 mobilenet-v1

论文地址：MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications这是第一版的mobilenet，它是一个轻量级的网络，既可以保证accurate掉点不严重，又可以保证高速，是可以在CPU上或者其他嵌入式设备上实施运行的模型。这篇论文引入了两个全局超参数来权衡时延和accurate。常规...

2019-05-12 14:55:17 339

原创 SENet

论文地址：SENetsenet：它学习了channel之间的相关性，筛选出了哪些channel的feature作用更大，哪些channel的feature作用更小。它稍稍增加了模型的计算量，但是提点明显。它首先对图片进行卷积运算，然后对于feature map进行global average pooling（squeeze），把它变成11C的向量，然后通过两层FC（excitation），乘...

2019-04-22 11:41:17 3834

原创目标追踪（一）：siamese-fc

这是2016CVPR收录的在此之前，目标追踪一般都是online的，在这里引入了深度学习offline的训练，他提出了一种思想：similarity learning他有三大contribution：首先在速度上可以实现实时检测通过一个范本来定位想要的被追踪物体（detection物体为卷积核，卷积下一帧的feature map）使用了全卷积网络他的缺点：如果物体size变化...

2019-04-15 20:34:26 1920

原创 AI City challenge2018冠军论文阅读

原文：论文代码：github这个队伍的想法很创新，首先他对于SCT，没有采用深度学习提取特征的这种方法，而是偏向使用图像图形学的知识，而且对于mtmc的处理，大部分论文使用了聚类的办法，但是它采用了计算非训练的方法，经由reid之后，去一一匹配。下面说一下他的创新点：首先进行相机校准。为什么要进行相机校准呢：在多镜头多目标的追踪下，需要利用不同镜头下的物体视觉信息，减少被遮挡区域，并且提供...

2019-04-15 11:28:31 1009 5

原创高斯回归过程

最近在整目标跟踪，AI city challenge有关于冠军的论文，他的思路：相机校准+自底而上的聚类，聚类可以把一个个目标检测到的tracklet连成一个长轨迹。聚类使用loss是众多loss的和：轨道平滑+速度改变+相邻tracklet的时间间隔+appearance改变附上论文连接：AI City challenge2018冠军论文其中轨道平滑采取的是高斯回归，已知上一帧检测物体的坐标...

2019-04-10 18:59:00 329

原创图像分类任务的trick总结

针对图像分类，提升准确率的方法有两个：1.修改模型；2.各种数据处理和训练的技巧图像分类中的技巧对于目标检测，图像分割也有很好的作用Warmupwarm up是resnet论文中提到的一种学习率预热的方法。由于刚开始训练模型的权重是随机初始化的，这里权重不能全部置为零，置为零的话，网络中的每个神经元都计算相同的输出，那么它们在反向传播时也会计算相同的梯度，并经历完全相同的参数更新。如果随机初...

2019-04-01 22:16:55 2616

原创 S3FD

SSD也可用于目标检测，但是对于小物体检测存在局限性，愿意在于feature map提取的语义没有深层语义。他有6个采样层：conv4_3,conv7_2,conv8_2,conv9_2,conv10_2,conv11_2(1 * 1 * 1024+3 * 3 * channel-stride降采样)最后SSD300一共可以预测38×38×4+19×19×6+10×10×6+5×5×6+3×3×4...

2019-03-18 23:02:44 429

原创 FPN总结

经典的two stage检测网络有：faster RCNN和SSD，它们用于做bbox regression的模型各有不同，faster RCNN是VGG，feature map经过不断地下采样，最后的feature map送入RPN层，这样不断地下采样使得小检测框的像素非常小，无法进行训练的到，得到很好的结果。而SSD则是分别对不同尺寸的feature map进行bbox regression，...

2019-03-07 17:32:36 1293

原创我的CV实习工作总结

两个月不到的实习，总结一下。洗数据的大路走到了黑我负责的模块是人脸检测，人脸检测的最终目的，是可以实现视频中人脸实时的关键点检测。对于检测的recall，precision，检测框是否切脸，检测速度都有要求。需要解决的问题是：无法检测出靠近镜头的大脸图片，易对背景产生误检解决办法：最好的解决办法就是给高质量的数据集（很无奈哦）然后开始洗数据方法：首先调用了百度API，这里写了一个调...

2019-02-27 15:21:24 912

原创 Rethinking ImageNet Pre-training 论文解读

随机初始化参数的模型其训练结果不比预训练模型差（使用了合适的normalization），唯一的不同是增加了训练迭代次数。随机初始化训练具有很好的鲁棒性，甚至在以下情况仍然成立：仅适用10%训练数据用于更深和更宽的模型用于多任务和多指标结论随机初始化的模型在训练一段时间后就要赶上预训练模型，其时间=预训练模型训练时间+微调时间。预训练模型不能提供更好的正则化，当训练数据较少时，发现...

2019-01-15 22:14:53 254

原创 L1和L2正则化

L1使矩阵更稀疏，L2使矩阵忽略对结果影响较小的特征值L1L1 regularization 时，只要 regularization 项的系数 C 大于原先费用函数在 0 点处的导数的绝对值，x = 0 就会变成一个极小值点。原因是我们可以对0两边进行求导分别得到f’(0) - C和f‘(0) + C，如果C > f’(0)，那么左右两边就会异号，这样的话，0就成了极小值点了。L2...

2018-12-29 15:51:24 383

原创 CNN基础知识

字节跳动的面试题就涉及了这方面内容，突然发现这些方面其实自己很欠缺CNN在图像分类上有什么优势对于比较相似的图片来说，分类的特征不能很好地提高。所以瓶颈在于特征的选择上。CNN可以自动提取特征，减少计算量。为什么使用卷积层在生物上说，人的视觉系统的信息处理是分级的。从低级的V1去提取边缘特征，V2区提取形状或者目标，再到更高层，整个目标，目标的行为，也就是说高层的特征是底层特征的组合，从底...

2018-12-19 15:46:11 1145 1

原创 SSD简述

SSD也是one stage的检测。one stage的特点是：均匀的在图片的不同位置进行密集抽样，抽样采用不同的尺寸和长宽比，然后利用CNN提取特征之后，直接进行回归和分类。整个过程只有一步。它的优势是速度快，但是密集采样会导致正负样本（前景和背景）及其不均衡，使得模型准确度较低。下面来看看two stage和one stage在mAP和speed上的差异。SSD采用CNN直接进行检测。不像...

2018-12-10 17:10:54 1223

原创 faster rcnn中的一些细节问题

RPN网络首先经过一个3 ∗*∗ 3的卷积层，然后兵分两路：foreground anchorsbounding box regression偏移量可以看到RPN网络实际分为2条线，上面一条通过softmax分类anchors获得foreground和background（检测目标是foreground），下面一条用于计算对于anchors的bounding box regressio...

2018-12-09 21:50:41 1791 1

原创 YOLOv3训练

训练教程官网：YOLO官网一通操作之后，发现没有loss和IOU的可视化，非常不方便，所以又找到了可视化的教程：loss等可视化在这里说一下cfg中一些参数的意义:mask的意义：每一层都要知道所有的anchor boxes，但是每一层的预测是其中的子集，这里的mask是告诉每一层他们负责预测的anchor box是哪些。在这张截图里，它负责预测的是最大的三个anchor box。如果没...

2018-12-05 17:15:32 353

原创 LeetCode 507. Perfect Number

We define the Perfect Number is a positive integer that is equal to the sum of all its positive divisors except itself.Now, given an integer n, write a function that returns true when it is a perfect...

2018-12-05 10:38:07 110

原创 LeetCode 504. Base 7

Given an integer, return its base 7 string representation.（七进制）Example 1:Input: 100Output: “202”Example 2:Input: -7Output: “-10”class Solution {public: string convertToBase7(int num) { ...

2018-12-04 20:36:42 103

原创 yolov3

首先品一品yolov3的速度yolov3做了哪些改进呢，我们首先来看论文。Bounding Box Prediction在yolov2里，使用1−IOU1-IOU1−IOU聚类的方式来预测anchor的边界框。每个bbox有四个预测量（tx,ty,tw,th）每个cell左上角的坐标为(cx,cy)，每个bbox的宽度和高度为(pw,ph)。预测值和它们的关系为：在训练时，（tx,...

2018-12-04 20:00:44 290

原创堆排序

堆和优先队列什么是优先队列普通队列：先进先出，后进后出优先队列：出队顺序和入队顺序无关，和优先级相关优先队列的主要操作入队出队（取出优先级最高的元素）堆的基本实现堆中某个节点的值总是不大于其父节点的值（最大堆）总是一颗完全二叉树（允许最后一层可以不完全，但是必须全都集中在左侧）0节点为空parent(i)=i/2parent(i)=i/2parent(i)=i/2...

2018-12-03 18:05:25 128

原创快速排序

//arr[l...r]部分进行partition操作//返回p，使得arr[l...p-1]&lt;arr[p];arr[p+1...r]&gt;arr[p]template&lt;typename T&gt;int _partition(T arr[], int l, int r) { T v = arr[l]; //arr[l+1...j]&lt;v;arr[j+1......

2018-12-03 11:46:59 102

扫雷C++文件

空空如也