DeepWWJ-CSDN博客

原创 Segment Anything（SAM）计算过程

I∈R3×H×WM∈R1×H×WP∈RN×2NB∈R4TIfIVITIfI∈Rc×h×wchwfD∈Rc×h×wMfS∈RK×cPfP∈RN×ccfPBfB∈R2×cfPfBKN∣K2∣KN2fkeyfIfDfkey∈Rc×h×wfiou∈R1×cfmask∈R4×cfqueryCat。

2023-08-09 21:54:18 351

图-文任务是指需要同时处理图像和文本数据的任务，如图像描述、图像检索（image retrieval）、视觉问答（visual question answering）等。例如，图像描述（image captioning）就是一种典型的多模态任务，它需要根据给定的图像生成相应的文本描述。既不是单塔模型（擅长图文推理），也不是双塔模型（擅长图文检索），而是使用共享参数提取图像文本特征，然后训练几个专家，这样选择不同的专家就能解决不同的任务,专家就是网络中的不同Feed Forward。（ALBEF的后续）

2023-04-11 22:36:59 2483

原创图解Transformer系列

学习学习Transformer

2022-06-16 13:06:30 629

原创跨域小样本---cross domain few shot---第二弹

简单来说就是在Few-shot Learning问题中加入了跨域问题，具体表现在：在一个数据集上进行Few-shot训练，完成后在另一个数据集Few-shot测试，两个数据集中没有相同的类别。Universal Representation Learning from Multiple Domains for Few-shot Classification (ICCV2021)问题：现有解决方案首先会在多个数据集分别训练特征提取器，随后在测试阶段筛选或者融合来自不同提取器的特征，如下图（a）所示，但是

2022-05-19 19:18:28 4989

原创 Vision Transformer预训练模型

2021 vision transformer预训练模型

2021-12-06 14:52:19 6402

原创跨域小样本---cross domain few shot---第一弹

cross domain Few-shot 存在问题域间类别不重合目标域时标签数据少存在域偏差A Broader Study of Cross-Domain Few-Shot Learning（ECCV 2020 link）提出了cross domain few-shot learning的标准，在miniImageNetminiImageNetminiImageNet上训练模型，随后采用N−way，K−shotN-way，K-shotN−way，K−shot的方式，迁移到目标数据集上。#.

2021-09-06 09:04:45 4439

原创小样本语义分割

小样本学习旨在通过极少的样本来完成新类的识别，在深度学习中，如果类别有充足的标注样本，深度模型可以从海量的数据分布中抽取到准确的类别表达，随着标注数据量的减少，数据将不能涵盖类别的完整分布，深度模型的表达将逐渐下降。所以对于小样本学习而言，通过模型拟合数据的完整分布来达到识别是不切实际的，由此引出小样本学习的新范式----元学习、度量学习。所谓元学习就是需要模型具有“learning to learning”的能力，也可以理解为需要模型具有很强的迁移能力，只需要少量的样本就可以完成新类别的识别。而度量学习

2021-04-23 14:54:03 5289 2

原创小样本中的自监督

When Does Self-supervision Improve Few-shot Learning?关键点：通过自监督构建多任务学习，能够提高模型提取语义特征的能力，有助于在新类上的识别。只有当无标签的数据与有标签的数据属于同一个域时，进行自监督才有效果，否则反而有害。基于此，设计了一个域选择分类器来对无标签的数据进行筛选使用了额外的无标签数据通过自监督构建辅助任务，将原先的单任务转化为多任务，通过几个损失共同反馈网络。Improving Few-Shot Learning with

2021-03-08 20:21:54 3685 3

原创图释——无监督

KmeansDBSCAN层次聚类潜在语义分析（LSA）PCA（主成分分析）主题模型

2021-01-07 10:23:40 123 1

原创图释——集成学习

Bagging and Boosting随机森林AdaBoost梯度提升

2021-01-07 10:23:28 97

原创图释——监督学习

线性回归、逻辑回归决策树SVM高斯概率密度估计高斯混合模型朴素贝叶斯

2021-01-07 10:23:11 115

原创小样本中的图神经网络

FEW-SHOT LEARNING WITH GRAPH NEURAL NETWORKS初始化节点特征将图片的视觉特征与类别标签拼接，对于查询集，类别标签初始化为零使用领接矩阵，建立节点联系完成GNN传递图传递完成后，使用Prototypical Networks完成分类...

2020-12-18 21:01:24 2622 3

原创多模态小样本

Large-Scale Few-Shot Learning via Multi-Modal Knowledge Discovery（解决大类别下的小样本学习）关键点：视觉特征分块；语义弱监督的引入在视觉空间中，将图片分为三种，原始图片+前景图片+背景图片。其中前景背景是通过显著性检测得到。分别正对原始图片，前景图片，背景图片输入到对应网络中提取特征，将三个得到的特征拼接为一个视觉特征。构建每个类的语义弱监督。计算novel类与base类的相似性，选取最大的几个。损失函数：（1）$L

2020-12-18 19:31:39 3109 2

原创小样本物体检测

Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector关键：提出了一个小样本数据集：数据集步骤：提取support img为一过滤特征使用support img的特征来过滤query img，最后将过滤后的特征输入RPN网络中RPN网络层的输出，会进行多头判断，使用全局信息检测，使用局部信息检测，一对多检测Attention-Based Region Proposal NetworkIncreme

2020-11-04 15:16:17 4283

原创 Meta Learning总结

人类在学习过程中会不断总结经验，在完成许多任务的学习后，当面对新任务时可以使用积累的经验迅速适应新的任务。对比元学习，人类学习不同任务的过程就是元学习训练的过程，而最后人类所积累到的经验就是元学习所得到的knowledge，即对于机器模型而言的经验。所以元学习的重点就是使模型学习好多好多的任务，即Task。这些Task可以是相同的任务，也可以是不同的任务，可以都是分类问题，也可以分类中参杂着回归等等。只要模型在解决这些Task时，能够学习到我们期望它所需的知识，这些Task可以是任何配置。元学习最后得到

2020-08-22 17:12:32 559

原创零样本语义分割总结（Zero shot semantic segmentation）

Context-aware Feature Generation for Zero-shot Semantic Segmentation关键点：生成网络不使用随机噪声，而是CM模块生成的上下文相关编码E网络提取特征，并且诶使用CM模块提取图片的上下文编码将图片的class embedding 和 CM 模块的编码输入到生成网络中，生成fake sampleD用来判断real sample和fake sample，C对生成的fake sample 完成分类，最后达到的效果是G可以根据输入的clas

2020-08-22 16:57:40 3870

原创 zero-shot：基于对抗生成网络的零样本学习

视觉空间与语义空间相互生成并利用循环一致损失Generative Dual Adversarial Network for Generalized Zero-shot LearningGenerative Model with Semantic Embedding and Integrated Classifier for Generalized Zero-Shot Learning...

2020-07-08 09:29:52 2057 7

原创最近Few-Shot Learning总结

看了几篇论文，感觉还是懵懵懂懂的。实在看不下去了，今晚就写一点东西，做个总结。以后翻出来看看～～觉得自己当初也是挺猛的！！Few-Shot Learning with Global Class Representations在文章中，作者将base和novel类放到一块进行训练提取特征。作者认为这样可以很好的拟合两种分布。同时在训练过程中对于novel类做了数据增强。模型的出发点在与使用所有...

2020-07-08 09:29:05 802

原创 Zero-Shot 物体检测

有关零样本学习（zero-shot learning）的研究，已经在图像物体分类领域取得了一定成果。相比于分类任务而言，物体检测任务不仅需要识别物体，还需要对物体做出定位，问题更加复杂，但是有关物体检测的零样本学习研究却相对较少。这里记录两篇有关物体检测的零样本学习研究，如有错误请更正。

2020-07-08 09:28:52 3367 1

原创 Finding Task-Relevant Features for Few-Shot Learning by Category Traversal

动机当前的few-shot learning在学习过程中，并没有关注support set中类与类之间的关系。作者认为在一个support set中，如果能横穿整个support set观察所有特征，这对于最后结果的调整是很有帮助的，两个例子：对于上图来说，这是一个分类任务。具体步骤还是和metric learning一样，计算query 与support中每一个的距离，最后得到结果。（...

2019-12-21 20:29:42 1797 2

原创 Few-shot Object Detection via Feature Reweighting

Few-shot Object Detection via Feature Reweighting模型组成Feature ExtractorPrediction Layer训练策略摘要：这是ICCV2019的一片文章，主要是将Few-Shot Learning用于物体检测上面。其核心思是使用具有大量标签的base类训练一个特征调整模块，通过这个模块可以使用许多类的底层特征对需要检测图片的特征进行...

2019-12-21 16:01:53 3862 4

原创 RefineDet + Dynamic Anchor Feature Selection for Single-Shot Object Detection

Single-Shot Refinement Neural Network for Object Detection+Dynamic Anchor Feature Selection for Single-Shot Object Detection两个文章都是关于物体检测的，第二篇文章在第一篇文章的基础上进行的。Single-Shot Refinement Neural Network fo...

2019-10-29 21:59:54 1179 4

原创 Faster RCNN

直接切入主题。对于Fast RCNN等一系列算法来说，Selective Search已经成了模型检测速率的一个瓶颈。物体检测算法主要是在GPU上进行的，而Selective Search主要在CPU上进行，这极大的限制了模型的运行速率，所以本文直接弃用了Selective Search，改用RPN网络来产生“候选框”，这样RPN网络可以和物体检测网络一块进行训练，并且可以共享基层的Feature...

2019-09-14 16:44:09 90

原创 Feature Selective Anchor-Free Module for Single-Shot Object Detection

本文提出了一种anchor-free的物体检测策略，其在设计思路上和FCOS网络很相似，只是在实现细节上有所不同，阅读论文的时候就能感觉出来。此外，论文中还介绍了自动选择特征模块，其实就是对比不同level下预测得到的损失，选择损失最小的level进行优化，这样每次在优化的过程中都是优化的“底线”，实验证明文章中提出的anchor-free策略具有不错的预测效果。如何为网络创建anchor-...

2019-09-12 15:32:59 138

原创 FCOS: Fully Convolutional One-Stage Object Detection

关键点：（1）semantic segmentation：语义上的物体检测（2）One-Stage：像YOLO，SSD等one-stage模型一样，直接使用feature map上的区域预测回归框和类别，这会保证模型的速率。（3）Anchor Free：对比Yolov3，SSD和Faster RCNN系列使用固定的anchor预测，本论文提出一种不使用anchor的直接检测方法，论文中也建议...

2019-09-11 20:12:07 195

原创 mask-rcnn

用于实例分割的mask rcnn。Mask RCNN在Faster RCNN的基础上添加了一个与box recognition并行的mask branch。ROI AlignFaster RCNN在进行目标检测的时候存在非线性操作，也就是四舍五入的操作。主要体现在两个方面：（1）在Feature Map上根据RPN的输出提取特征（2）使用ROI Pool进行区域对齐。这两个步骤都会使用非线...

2019-09-11 10:37:32 142

原创 yolov3

所有“蒙蔽”都来自于不知道yolov3训练的时候，数据是长什么样子，所以在这主要记录的是对于一张图片，如何生成yolov3的label数据，并不是主要分析网络结构，想看网络结构的要失望了~~~keras yolov3源代码论文数据打标# box_data: (batch, 416, 416, 3)image_data = np.array(image_data)# box_data:...

2019-08-21 20:44:25 173

原创 attention is all your need 之 scaled_dot_product_attention

“scaled_dot_product_attention”是“multihead_attention”用来计算注意力的，原文中“multihead_attention”中将初始的Q，K，V，分为8个Q_，8个K_和8个V_来传入“scaled_dot_product_attention”中进行计算。在“scaled_dot_product_attention”主要就是进行attention的...

2019-08-09 20:37:32 7246

原创 attention is all your need 之 multihead_attention

多头注意力使得模型能够从不同的子空间获取特征，首先结构如下：

2019-08-09 20:37:14 234

原创 Attention is all your need

网络输入为 “input_” ，是对一个batch的句子进行单词的ID映射后的整型二维数据，shape是（10，100），表示一个batch是10句话，每句话长100个字（超出截取，不足补齐）。Encoder然后Tensor进入“encoder”中进行编码，“encoder”如下所示：“embedding_lookup”通过使用（32000，512）的矩阵将输入数据（10，100）映射为...

2019-08-09 20:36:56 234

原创多任务：End-to-End Multi-Task Learning with Attention

论文摘要：We propose a novel multi-task learning architecture,which allows learning of task-specific feature-level attention. Our design, the Multi-Task Attention Network (MTAN), consists of a single shar...

2019-08-09 20:33:03 5127 7

原创多任务：分层特征融合网络 NDDR-CNN

论文链接：NDDR-CNN论文摘要：In this paper, we propose a novel Convolutional Neural Network (CNN) structure for general-purpose multi-task learning (MTL), which enables automatic feature fusing at every layer ...

2019-08-09 14:51:26 6315

原创 tensorflow中RNN的输出以及使用

在使用tensorflow进行rnn运算的时候，总是搞不清楚rnn的输入，输出到底是什么，所以乘此机会集中精力把这部分知识进行加深巩固。BasicRNNCell这是最基本的RNN单元，输入是样本在某个时间步的数据以及上一个时间步的隐层输出。某个时间步骤步数据：（batch_size, data_szie），例：[[at1, at2, at3], [bt1, bt2, bt3]],这表示在时间...

2018-11-23 19:08:26 4348

原创 tensorflw数据写入为tfrecord，使用DataSet读取

#写入tfrecorddef create_tf_record(inputs, labels， tfrecords_filename): writer = tf.python_io.TFRecordWriter(tfrecords_filename) for input, in label in zip(inputs, labels): # 开始存入一个数据 ...

2018-10-27 11:54:40 245

原创 tensorflow存取模型

import tensorflow as tffrom tensorflow.python import pywrap_tensorflowdef create_model(): with tf.variable_scope("wwj"): input_data = tf.get_variable(name="input_data", shape=(3, 24, 2...

2018-09-26 10:42:36 133

原创基于CNN的狗叫，猫叫语音分类

基于CNN的狗叫，猫叫语音分类最近开始北漂的实习生活，第一家实习单位还是挺不错的。说句题外话，北京的生活没有想象中的那么恐怖，没有想象中的那么累，反而挺有人情味的。公司里的主要业务是做“声纹识别”的，现在项目组好像主要分为传统的机器学习以及深度学习两个模块在做。刚接触到是一个唤醒的智能AI产品，为了尽快的熟悉这一模块的知识，所以找了个练手的项目。这个分类很简单，...

2018-08-27 23:52:30 6450 6

原创中文情感分类（基于CNN）

中文情感分类（基于CNN）先来看看基于CNN的文本分类的原理好多地方都用这个图，所以也用这个来絮叨絮叨。深度学习的长处就是善于处理“密集”， “相关”的数据，无论是图像数据还是文本数据，都存在很强的依赖性，但是也存在较强的冗余，我们“扣掉”图像中的一小块或者文字中某个文字，对我们理解图像和文本并没有太大的影响。所以我们可以通过CNN中的卷积来提取，压缩图像的特征，通过RNN...

2018-08-11 12:31:28 6212 3

原创中文情感分类（基于LSTM）

中文情感分类（基于LSTM）基于LSTM实现中文情感分类，框架在开始的时候使用的是tensorflow，但是不知到为什么，最后网络总是收敛不了，损失几乎不降。但是同样的想法思路使用keras后，训练就十分顺畅。话不多说，总流程如下：准备数据集将数据集中的所有字映射为字典，即每个字都有唯一的标号对应，这里使用tensorflow中的模块很容易就实现了。if os.path.exist...

2018-08-11 11:42:06 6828 2

vision transformer预训练

如何将一个二值的mask（1前景，0背景）编码为一个向量输入网络？或者有没有这方面文章推荐？