- 博客(273)
- 收藏
- 关注
原创 VisionTransformer之简单总结
VisionTransformer之简单总结最近做了一个汇报,这里放一些重要内容。内容主要来自于我自己的阅读总结和综述文章:Transformers in Vision: A Survey.
2021-01-29 10:56:19 1746 13
原创 Ubuntu上学习使用Docker的详细入门教程
Ubuntu上使用Docker的简易教程文章目录Ubuntu上使用Docker的简易教程说在开头Docker是什么、有什么优点什么是镜像(image)和容器(container)如何获取镜像从网络`docker pull``docker run`从他人处`docker load`如何使用镜像如何使用容器创建容器进入容器已退出的容器后台分离模式运行的容器进入启动的容器退出容器删除容器停止正在运行的容器从本机与容器中互相拷贝数据如何生成镜像`docker build``docker commit`如何分享镜像
2020-08-03 16:53:59 9292 4
原创 ICLR 2024 | FeatUp: A Model-Agnostic Framework for Features at Any Resolution
与 NeRF 通过在场景的许多 2D 照片之间强制一致性来构建 3D 场景的隐式表示一样,FeatUp 通过在许多低分辨率特征图之间强制一致性来构建上采样器,即认为低分辨率信号的多视图一致性可以监督高分辨率信号的构建。文中的实验表明,FeatUp 在类激活图生成、分割和深度预测的迁移学习以及语义分割的端到端训练方面显着优于其他特征上采样和图像超分辨率方法。在这两种上采样架构的特征可以在下游应用中直接替换使用,因为所提方法不会转换底层特征的语义,即使无需重新训练也能获得分辨率和性能提升。
2024-03-29 17:05:55 288
原创 ECCV 2022 | Learning Implicit Feature Alignment Function for Semantic Segmentation概述与代码分析
基于隐神经表示设计了一种隐式特征对齐函数,来替换现有的基于插值的不同分辨率特征对齐方案。可以更加方便和高效的对齐多个不同分辨率的特征。
2023-07-27 09:00:00 581
原创 CVPR 2023 | ODISE: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models
训练在大规模互联网数据的基于扩散的生成模型在视觉表征上优势明显。本文基于预训练Stable Diffusion和CLIP一同构建了开放词汇的全景分割模型。
2023-07-26 14:54:15 1128
原创 Arxiv 2307 | Retentive Network: A Successor to Transformer for Large Language Models
本文从序列建模的角度,构建了一种类似Transformer且更加高效的结构。在语言任务上展现出了良好的效率和性能。
2023-07-19 19:20:08 1630
原创 CVPR 2023 | OVSeg: Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP
预训练的 CLIP 无法对 masked image 执行令人满意的分类,这是两阶段开放词汇分割模型的性能瓶颈。本文认为这是由于蒙面图像和 CLIP 的训练图像之间的显著域差距造成的。所以需要对 CLIP 进行微调
2023-07-12 17:20:00 1192
原创 Arxiv 2305 | Refocusing Is Key to Transfer Learning
本文提出的TOAST强调的是在预训练模型迁移过程中进一步强化目标任务相关的注意力信息是很重要的。Transformer 模型通常是自下而上的,即其注意力仅取决于输入,因此,它通常突出输入信号中的所有显着特征。与自底而上的注意力相反,由顶而下的注意力赋予了根据高级目标或任务调整注意力的能力,即它只关注与任务相关的特征而忽略其他特征。
2023-07-10 18:59:38 553
原创 CVPR 2023 | SAN: Side Adapter Network for Open-Vocabulary Semantic Segmentation
基于CLIP构建开放词汇语义分割模型。
2023-06-30 11:37:15 1607
原创 CVPR 2023 | Making Vision Transformers Efficient from A Token Sparsification View
CVPR 2023,基于token稀疏化的transformer高效模型。
2023-06-15 14:02:23 1250
原创 CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation
基于图像文本匹配的cost volume细化与预测分割。
2023-06-07 11:04:21 1636
原创 CVPR 2023 | EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention
EfficientViT,推理更快的ViT。
2023-05-15 17:11:23 7087 1
原创 CVPR 2023 | Reliability in Semantic Segmentation: Are We on the Right Track?
最近计算机视觉由于Transformer获得了急速的发展,虽然域内性能有着上升趋势,但对鲁棒性或不确定性估计等特性的探索较少,这使人们对模型可靠性方面的进步水平产生了怀疑。现有一些工作虽然对此有所探索,但是主要集中在分类模型。这份工作在语义分割中开展了相关的探究,横跨了较旧的基于ResNet的架构到较新的Transformer架构:发现了尽管最近的模型更加鲁棒,但在不确定性估计上总体并未更可靠;探索了可以挽救的方法,并表明提升calibration也可以帮助其他不确定性指标,如misclassificati
2023-04-25 16:50:00 1378
原创 CVPR 2022 | Segment Everything Everywhere All at Once
本文基于CLIP强大的零样本的文本编码和图像编码能力, 设计了一个新的系统, 基于测试时任意的Prompt信息(任意的文本或者图像提示), 来生成图像分割, 整体的形式非常类似于Few-shot的Segmentation形式.
2023-04-21 23:15:37 2403
原创 CVPR 2023 | Texture-guided Saliency Distilling for Unsupervised Salient Object Detection
无监督显著性目标检测任务的常用策略是伪标签手段. 伪标签中会存在大量的噪声. 如何处理带噪标签是无监督显著性目标检测任务工作的一大重点. 现有方法专注利用有着更加可靠标签的容易样本, 但是忽略了难样本中有价值的知识. 这篇文章中关注与同时挖掘难易样本中的显著性知识.
2023-04-20 16:07:33 1996 5
原创 CVPR 2023 | FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation
Open Vocabulary 学习范式将分割系统推广到更通用的应用场景. 现有的定制化的设计范式导致各种分割任务之间的碎片化, 从而阻碍了分割模型的统一性.所以本文基于one-shot训练的形式, 提出了一种统一参数和结构的通用模型用于处理 Open Vocabulary 分割任务.并引入了prompt来统一不同的任务和类别概念, 以适应不同的任务和场景.
2023-04-14 17:18:30 2030 2
原创 ECCV 2022 | MaskCLIP: Extract Free Dense Labels from CLIP
以往的研究主要是利用CLIP特征作为一种全局图像表示,本文主要探索预训练的CLIP模型对于像素级预测任务的潜在优势。
2023-04-14 16:55:07 1738
原创 Opencv DNN C++ CPU 平台编译配置过程
以下内容基于 windows 平台,实际上不同平台在基础工具齐全的情况下,编译过程差异并不大。opencv 随着版本的更新,对于不同算子的支持也会逐步完善,所以尽量使用新的版本。
2023-02-04 15:39:05 2699
原创 编码与数学之循环
编写代码过程中,经常会遇到一些奇奇怪怪的需求,有一些问题一眼看上去很复杂,但是实际上通过特定的数学运算过程就可以很方便的实现。这里记录几种比较典型的案例。
2022-11-14 10:20:50 1281
原创 各种 Dice Loss 变体
Dice Loss也是图像分割任务中非常常见的一个损失函数。本文基于 [Generalised Wasserstein Dice Score for Imbalanced Multi-class Segmentation using Holistic Convolutional Networks](https://arxiv.org/abs/1707.00478) 中的内容进行了整理。
2022-10-29 11:49:41 2177
原创 PyTorch 中的转置卷积 ConvTranspose2d
现有的关于转置卷积的介绍大多流于表面,并未详细的说明这一操作内部具体的操作流程。由于转置卷积的设计主要是为了对标标准卷积,所以其实现流程与标准卷积基本相反,所以内部的操作逻辑并不直观。其按照卷积的相反逻辑的参数设置方式,这种反逻辑的形式使得我们很难直接从参数的角度去理解。and thepaper.这里面涉及到了多个参数,包括这样的一看就可以理解对的参数,也有一些实际情况和我们想的并不一致的参数。
2022-10-26 15:01:27 4389 1
原创 向日葵远控无法启动——[rpcclient]rpcclient_default::connect is error
解决linux桌面上向日葵启动失败的问题。即`[rpcclient]rpcclient_default::connect is error (sunloginclient:4212): Gtk-CRITICAL **:10:31:18.209: gtk_nain_quit: assertion 'nain_loops != NULL' failed`
2022-10-20 11:07:22 4507
原创 PyTorch之F.pad的使用与报错记录
这一函数用于实现对高维tensor的形状补齐操作。模式中,padding的数量不得超出原始tensor对应维度的大小。常见的错误主要是因为padding的数量超过了对应模式的要求。模式中,padding的数量必须小于对应维度的大小。对于padding并没有限制。
2022-10-18 16:04:13 4845 8
原创 ECCV 2022 | RGB图像引导下的基于轻量ToF传感器的深度估计
文章提出了一种深度估计任务。其主要针对轻量级ToF传感器采集的深度分布数据,在RGB图像的引导下,获得准确的高分辨率深度图,并为此提供了一个数据集。提出的模型获得了更加准确的深度补全和深度超分辨的效果。并实现了与商用级别的RGB-D传感器相当的性能。
2022-10-02 22:02:37 3131
原创 CVPR 2022 | NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation
这篇文章将全局全连接CRF使用Attention进行了改造,并使用了基于窗偏移的计算过程实现了更低的计算量。提出的结构被用于单目深度估计任务模型的构建中。
2022-09-30 17:56:26 3453 8
原创 ICCV 2021 Oral | CoaT: Co-Scale Conv-Attentional Image Transformers
设计了一种简化的线性注意力机制,并引入了卷积相对位置编码。基于这些构建了一个包含多尺度特征交互的架构。
2022-09-24 12:46:28 1424
原创 CVPR2022 | MPViT: Multi-Path Vision Transformer for Dense Prediction
本文重点探究Transformer中的multi-scale patch embedding和multi-path structure scheme的设计。
2022-09-22 12:53:12 1993
原创 OpenCV DNN模块常用操作
在实际利用opencv提供的dnn模块部署onnx格式的模型的时候,一些python端利用numpy可以简单轻易实现的操作,在C++端就得仔细考虑下实现的策略了。因为大多数并没有非常简单方便地使用形式,甚至可能需要自己去实现。这里做一个记录。
2022-09-20 22:07:17 3228
原创 CVPR 2022 Oral | MAXIM: Multi-Axis MLP for Image Processing
这是一篇在底层视觉任务上构建更有效的局部+全局交互策略的文章,再多个任务上实现了良好的效果。
2022-09-19 12:58:18 2453 1
原创 ECCV 2022 | MaxViT: Multi-Axis Vision Transformer
本文是针对Attention操作的一种改进。思路上来说之前的卷积方法中已经使用过类似的策略,但是作者们将这种思路用在Attention中,也展现出了良好的效果。提出的结构Multi-Axis Attention有效改善了原始Attention在实际应用中所欠缺的可放缩性,能够更有效的处理高分辨率特征。具体而言,就是通过完全借助局部注意力实现了局部交互和全局交互的形式(全局交互的实现思想其实值得借鉴),在有效降低计算复杂度的情况下,仍然获得了良好的表现。
2022-09-17 12:25:32 2834
原创 Arxiv 2209 | Switchable Self-attention Module
这篇文章设计了一种可切换式的注意力模块(题目中是self-attention,但是实际模块设计用的还是原始的通道注意力)。在本文中,实验性的发现对于不同的网络层和不同的场景中,对于注意力模块而言,选择使用合适的激励操作是更有必要的。
2022-09-16 19:41:14 1734 8
原创 ECCV 2022 | Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval
本文主要讨论了文本检索视频任务中的特征融合问题。提出了一种基于轻量但是有效的特征融合模块LAFF构建的跨模态双端融合架构。
2022-09-15 20:02:26 2045 8
原创 Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions
这篇文章旨在使用卷积结构设计一种更加有效的空间交互模块。作者们通过递归门控策略设计了递归门控卷积操作,从而在特征内部构建了更高阶的空间交互过程。这种结构可以作者为一种即插即用的模块来提升视觉Transformer或者卷积模型。除了构建backbone,也可以用于解码器来提升密集预测任务的性能。...
2022-08-19 00:31:41 750
Arduino与LabVIEW互动设计
2017-09-03
《Arduino与LabVIEW开发实战》配套代码
2017-09-03
我和LabVIEW 一个NI工程师的十年编程经验
2017-09-03
关于manjaro的谷歌拼音的问题
2018-05-18
关于vim插件管理的问题
2018-01-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人