有为少年-CSDN博客

原创 VisionTransformer之简单总结

VisionTransformer之简单总结最近做了一个汇报，这里放一些重要内容。内容主要来自于我自己的阅读总结和综述文章：Transformers in Vision: A Survey.

2021-01-29 10:56:19 1752 13

Ubuntu上使用Docker的简易教程文章目录Ubuntu上使用Docker的简易教程说在开头Docker是什么、有什么优点什么是镜像（image）和容器（container）如何获取镜像从网络`docker pull``docker run`从他人处`docker load`如何使用镜像如何使用容器创建容器进入容器已退出的容器后台分离模式运行的容器进入启动的容器退出容器删除容器停止正在运行的容器从本机与容器中互相拷贝数据如何生成镜像`docker build``docker commit`如何分享镜像

2020-08-03 16:53:59 9610 4

原创 CVPR 2024 - Rethinking the Evaluation Protocol of Domain Generalization

这篇文章主要讨论了领域泛化评估协议的重新思考，特别是如何处理可能存在的测试数据信息泄露风险。作者首先指出，当前的领域泛化评估协议可能存在问题，可能导致测试数据信息泄露，进而影响评估的公平性和准确性。作者还根据这些建议重新评估了十个代表性的领域泛化算法，并提供了三个新的测试leaderboard。这些更改和新的测试leaderboard的板将鼓励未来的研究，并促进领域泛化的更准确评估。

2024-04-14 12:45:08 162

原创 CVPR 2024 | Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator

本文提出了高效的 DCNv4，这是一个专为视觉应用设计的高效有效的运算符。将 DCNv4 集成到其他现代骨干架构中，包括 ConvNeXt 和 ViT，替换深度可分离卷积和密集自注意力层。值得注意的是，在没有进行任何超参数调整的情况下，这些经过精心设计的网络在使用 DCNv4 时表现得相当出色，同时速度快得多，显示了动态、稀疏的 DCNv4 的有效性和效率。这些改进使得 DCNv4 与 DCNv3 相比显示出显著更快的收敛速度，并且处理速度大大提高，DCNv4 的速度提高了三倍以上。

2024-04-14 12:42:24 249

原创 CVPR 2024 | Retrieval-Augmented Open-Vocabulary Object Detection

RALF 通过从大型词汇库中检索词汇并增强损失函数和视觉特征来提高检测器对新类别的泛化能力。通过实验，作者证明了 RALF 在 COCO 和 LVIS 基准数据集上的有效性。特别是在 COCO 数据集的新类别上，APN50 提高了 3.4%，在 LVIS 数据集的新类别上，mask APr 提高了 3.6%。

2024-04-12 13:35:32 274

原创 CVPR 2024 | SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation

这篇文章提出了一种名为 SED 的简单编码器解码器，用于结合 CLIP 的 open-vocabulary 能力实现了开放词汇语义分割。在多个语义分割数据集上的实验证明了 SED 在开放词汇准确性和效率方面的优势。当使用 ConvNeXt-B 时，SED 在 ADE20K 上的 mIoU 得分为 31.6%，并且在单个 A6000 上每张图像只需 82 毫秒。

2024-04-12 13:32:07 787

原创 CVPR 2024 | Rethinking Interactive Image Segmentationwith Low Latency, High Quality, and Diverse Pro

现有的专家模型和通用模型在实现低延迟、高质量的交互式分割以及支持多种提示方面存在困难。研究人员提出了一种名为 SegNext 的方法，它重新引入了专家模型中常用的密集视觉提示的表示和融合方式，以促进高质量的分割。是实现高质量分割的关键设计选择。与现有的专家模型相比，该方法能够在保持低延迟的同时实现更好的分割效果。相比之下，本文提出的方法通过引入密集的视觉提示和优化模型结构，实现了低延时和高性能的图像分割效果。这篇文章主要研究了如何在保持低延迟的同时提高交互式图像分割的质量，并实现多种提示的兼容性。

2024-04-11 13:02:15 260

原创 CVPR 2024 | Open-Vocabulary Video Anomaly Detection

这篇文章主要研究了开放词汇视频异常检测（openvocabulary video anomaly detection，OVVAD）的问题，这是一个具有挑战性但实际重要的问题。实验结果表明，该模型在三个公开基准 UBnormal，UCF-Crime，XD-Violence 上优于现有方法，特别是在处理新类别时表现出明显的优势。利用语言图像预训练模型，如 CLIP 作为基础，得益于其强大的零样本泛化能力。，以更好地处理开放词汇视频异常检测问题。并引入了几个专用模块来促进对基线和新异常的检测。

2024-04-11 12:59:57 855

原创 CVPR 2024 | OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual

在整合视觉语言模型 CLIP 的基础上，为了处理食物配料视觉表征中大的类内方差，该方法集成了两个创新模块，即图像到文本学习器 FoodLearner 和图像感知的文本编码器 Image-Informed Text Encoder，丰富了文本嵌入与图像特定的信息，从而有效地将知识从已知的食材转移到新的食材。通过在大规模食品相关图像文本对数据集上预训练 FoodLearner，OVFoodSeg 成功地将视觉信息与文本表示紧密地联系起来，从而有效地解决了食材图像分割中的大类内变化问题。

2024-04-11 12:56:53 561

原创 Arixv 2403 | Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey

在当前以大型模型和大型数据集为主导的时代，PEFT 作为一种非常有吸引力的方法脱颖而出，可以有效地使模型适应下游任务。该技术通过解决传统全模型微调带来的重大挑战而获得吸引力，传统全模型微调通常对普通用户提出难以满足的计算和数据需求。PEFT 的有效性通常对其超参数敏感，例如适配器瓶颈尺寸、LoRA 秩以及不同附加性 PEFT 层的放置。手动调整这些超参数将花费大量精力。因此，未来的努力可以集中在开发更少依赖手动调整这些参数的方法，或者自动找到最佳的超参数设置。

2024-04-02 17:09:00 274

原创 Arxiv 2403 | DenseNets Reloaded Paradigm Shift Beyond ResNets and ViTs

ResNet 中引入了加法连接实现的残差学习。这改变了游戏规则，通过确保输入梯度始终保持为恒等映射导数来减少梯度消失问题。这主导了近些年神经网络架构设计的发展，包括卷积神经网络和最近的 Vision Transformer。在残差学习主导的这一时期的早期阶段，DenseNet 引入了一种新颖的方法：通过特征拼接而不是使用加法连接。这引入了特征重用的概念，允许更紧凑的模型，并通过显式监督传播到早期的层来减少过拟合。

2024-03-30 12:57:09 683

原创 ICLR 2024 | FeatUp: A Model-Agnostic Framework for Features at Any Resolution

与 NeRF 通过在场景的许多 2D 照片之间强制一致性来构建 3D 场景的隐式表示一样，FeatUp 通过在许多低分辨率特征图之间强制一致性来构建上采样器，即认为低分辨率信号的多视图一致性可以监督高分辨率信号的构建。文中的实验表明，FeatUp 在类激活图生成、分割和深度预测的迁移学习以及语义分割的端到端训练方面显着优于其他特征上采样和图像超分辨率方法。在这两种上采样架构的特征可以在下游应用中直接替换使用，因为所提方法不会转换底层特征的语义，即使无需重新训练也能获得分辨率和性能提升。

2024-03-29 17:05:55 1122

原创 ECCV 2022 | Learning Implicit Feature Alignment Function for Semantic Segmentation概述与代码分析

基于隐神经表示设计了一种隐式特征对齐函数，来替换现有的基于插值的不同分辨率特征对齐方案。可以更加方便和高效的对齐多个不同分辨率的特征。

2023-07-27 09:00:00 611

原创 CVPR 2023 | ODISE: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

训练在大规模互联网数据的基于扩散的生成模型在视觉表征上优势明显。本文基于预训练Stable Diffusion和CLIP一同构建了开放词汇的全景分割模型。

2023-07-26 14:54:15 1196

原创 Arxiv 2307 | Retentive Network: A Successor to Transformer for Large Language Models

本文从序列建模的角度，构建了一种类似Transformer且更加高效的结构。在语言任务上展现出了良好的效率和性能。

2023-07-19 19:20:08 1680

原创 CVPR 2023 | OVSeg: Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP

预训练的 CLIP 无法对 masked image 执行令人满意的分类，这是两阶段开放词汇分割模型的性能瓶颈。本文认为这是由于蒙面图像和 CLIP 的训练图像之间的显著域差距造成的。所以需要对 CLIP 进行微调

2023-07-12 17:20:00 1234

原创 Arxiv 2305 | Refocusing Is Key to Transfer Learning

本文提出的TOAST强调的是在预训练模型迁移过程中进一步强化目标任务相关的注意力信息是很重要的。Transformer 模型通常是自下而上的，即其注意力仅取决于输入，因此，它通常突出输入信号中的所有显着特征。与自底而上的注意力相反，由顶而下的注意力赋予了根据高级目标或任务调整注意力的能力，即它只关注与任务相关的特征而忽略其他特征。

2023-07-10 18:59:38 580

原创 CVPR 2023 | SAN: Side Adapter Network for Open-Vocabulary Semantic Segmentation

基于CLIP构建开放词汇语义分割模型。

2023-06-30 11:37:15 1725

原创 CVPR 2023 | Making Vision Transformers Efficient from A Token Sparsification View

CVPR 2023，基于token稀疏化的transformer高效模型。

2023-06-15 14:02:23 1303

原创 CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation

基于图像文本匹配的cost volume细化与预测分割。

2023-06-07 11:04:21 1708

原创 CVPR 2023 | EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention

EfficientViT，推理更快的ViT。

2023-05-15 17:11:23 7497 1

原创 CVPR 2023 | Reliability in Semantic Segmentation: Are We on the Right Track?

最近计算机视觉由于Transformer获得了急速的发展，虽然域内性能有着上升趋势，但对鲁棒性或不确定性估计等特性的探索较少，这使人们对模型可靠性方面的进步水平产生了怀疑。现有一些工作虽然对此有所探索，但是主要集中在分类模型。这份工作在语义分割中开展了相关的探究，横跨了较旧的基于ResNet的架构到较新的Transformer架构：发现了尽管最近的模型更加鲁棒，但在不确定性估计上总体并未更可靠；探索了可以挽救的方法，并表明提升calibration也可以帮助其他不确定性指标，如misclassificati

2023-04-25 16:50:00 1409

原创 CVPR 2022 | Image Segmentation Using Text and Image Prompts

本文基于CLIP强大的零样本的文本编码和图像编码能力, 设计了一个新的系统, 基于测试时任意的Prompt信息(任意的文本或者图像提示), 来生成图像分割, 整体的形式非常类似于Few-shot的Segmentation形式.

2023-04-21 23:15:37 2459 2

原创 CVPR 2023 | Texture-guided Saliency Distilling for Unsupervised Salient Object Detection

无监督显著性目标检测任务的常用策略是伪标签手段. 伪标签中会存在大量的噪声. 如何处理带噪标签是无监督显著性目标检测任务工作的一大重点. 现有方法专注利用有着更加可靠标签的容易样本, 但是忽略了难样本中有价值的知识. 这篇文章中关注与同时挖掘难易样本中的显著性知识.

2023-04-20 16:07:33 2073 5

原创 CVPR 2023 | FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation

Open Vocabulary 学习范式将分割系统推广到更通用的应用场景. 现有的定制化的设计范式导致各种分割任务之间的碎片化, 从而阻碍了分割模型的统一性.所以本文基于one-shot训练的形式, 提出了一种统一参数和结构的通用模型用于处理 Open Vocabulary 分割任务.并引入了prompt来统一不同的任务和类别概念, 以适应不同的任务和场景.

2023-04-14 17:18:30 2102 2

原创 ECCV 2022 | MaskCLIP: Extract Free Dense Labels from CLIP

以往的研究主要是利用CLIP特征作为一种全局图像表示，本文主要探索预训练的CLIP模型对于像素级预测任务的潜在优势。

2023-04-14 16:55:07 1794

原创 CVPR | Generative Semantic Segmentation

使用生成方法建立的图像分割模型

2023-04-06 14:33:21 1920 3

原创 windows 上编译 cpu 版本的 ncnn

windows ncnn cpu

2023-02-09 17:15:45 1704

原创 Opencv DNN C++ CPU 平台编译配置过程

以下内容基于 windows 平台，实际上不同平台在基础工具齐全的情况下，编译过程差异并不大。opencv 随着版本的更新，对于不同算子的支持也会逐步完善，所以尽量使用新的版本。

2023-02-04 15:39:05 2753

原创 BN、CBN、CmBN 的对比与总结

对BN、CBN和CmBN的一个简单记录。

2022-11-24 20:37:40 3994 4

原创编码与数学之循环

编写代码过程中，经常会遇到一些奇奇怪怪的需求，有一些问题一眼看上去很复杂，但是实际上通过特定的数学运算过程就可以很方便的实现。这里记录几种比较典型的案例。

2022-11-14 10:20:50 1290

原创各种 Dice Loss 变体

Dice Loss也是图像分割任务中非常常见的一个损失函数。本文基于 [Generalised Wasserstein Dice Score for Imbalanced Multi-class Segmentation using Holistic Convolutional Networks](https://arxiv.org/abs/1707.00478) 中的内容进行了整理。

2022-10-29 11:49:41 2207

原创 PyTorch 中的转置卷积 ConvTranspose2d

现有的关于转置卷积的介绍大多流于表面，并未详细的说明这一操作内部具体的操作流程。由于转置卷积的设计主要是为了对标标准卷积，所以其实现流程与标准卷积基本相反，所以内部的操作逻辑并不直观。其按照卷积的相反逻辑的参数设置方式，这种反逻辑的形式使得我们很难直接从参数的角度去理解。and thepaper.这里面涉及到了多个参数，包括这样的一看就可以理解对的参数，也有一些实际情况和我们想的并不一致的参数。

2022-10-26 15:01:27 4431 1

原创各种 IoU 损失变体

IoU损失及其各种变体已经在密集预测任务中展现出了优异的效果。这里做一个简单的罗列与梳理。

2022-10-24 21:35:01 2506

原创向日葵远控无法启动——[rpcclient]rpcclient_default::connect is error

解决linux桌面上向日葵启动失败的问题。即`[rpcclient]rpcclient_default::connect is error (sunloginclient:4212): Gtk-CRITICAL **:10:31:18.209: gtk_nain_quit: assertion 'nain_loops != NULL' failed`

2022-10-20 11:07:22 4585

原创 PyTorch之F.pad的使用与报错记录

这一函数用于实现对高维tensor的形状补齐操作。模式中，padding的数量不得超出原始tensor对应维度的大小。常见的错误主要是因为padding的数量超过了对应模式的要求。模式中，padding的数量必须小于对应维度的大小。对于padding并没有限制。

2022-10-18 16:04:13 4977 8

原创 ECCV 2022 | RGB图像引导下的基于轻量ToF传感器的深度估计

文章提出了一种深度估计任务。其主要针对轻量级ToF传感器采集的深度分布数据，在RGB图像的引导下，获得准确的高分辨率深度图，并为此提供了一个数据集。提出的模型获得了更加准确的深度补全和深度超分辨的效果。并实现了与商用级别的RGB-D传感器相当的性能。

2022-10-02 22:02:37 3169

原创 CVPR 2022 | NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation

这篇文章将全局全连接CRF使用Attention进行了改造，并使用了基于窗偏移的计算过程实现了更低的计算量。提出的结构被用于单目深度估计任务模型的构建中。

2022-09-30 17:56:26 3533 9

原创 ICCV 2021 Oral | CoaT: Co-Scale Conv-Attentional Image Transformers

设计了一种简化的线性注意力机制，并引入了卷积相对位置编码。基于这些构建了一个包含多尺度特征交互的架构。

2022-09-24 12:46:28 1430

原创 CVPR2022 | MPViT: Multi-Path Vision Transformer for Dense Prediction

本文重点探究Transformer中的multi-scale patch embedding和multi-path structure scheme的设计。

2022-09-22 12:53:12 2008

可以用来写汇编-64位安装debug

直接window键+r,输入cmd,在dos命令输入debug,无法debug.如下图：百度之后找到原因：win8 64位不支持16位。

2017-09-06

Arduino与LabVIEW互动设计

修金鹏编著的《arduino与labview互动设计(附光盘)》通过大量的案例，介绍了使用labview进行arduino编程的方法以及进行互动项目设计的过程。本书共分5章。第1章为arduino入门，介绍了arduino的硬件资源及软件编程方法：第2章为arduino简单互动设计，介绍了使用labview interface for ar..

2017-09-03