AiCharm-CSDN博客

原创 CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络

我们提出了一种用于 3D 点云分析的非参数网络 Point-NN，它由纯不可学习的组件组成：最远点采样 (FPS)、k 最近邻 (k-NN) 和池化操作，具有三角函数.令人惊讶的是，它在各种 3D 任务上表现良好，不需要参数或训练，甚至超过了现有的完全训练模型。如图5所示，在Point-NN的顶部，我们首先替使用一个传统的可学习的分类头替代点存储库（上图A位置），这个轻量级的版本在ModelNet40上就实现了90.3%的分类准确率，只有0.3M的参数。通过标记，可以将视为3D训练集的编码类别知识。

2023-04-06 10:56:36 2694

原创深度学习实战（二）：AlexNet实现花图像分类

深度学习实战（二）：AlexNet实现花分类1. 数据集介绍2. AlexNet网络介绍3. model.py实现4. train.py实现4.1 相关包的加载4.2 数据预处理4.3 加载训练集4.4 加载验证集4.5 训练网络与验证网络4.6 完整代码4. Bug解决5. predict.py实现AlexNet在我之前的博客中已经做过详解，详情见：https://blog.csdn.net/muye_IT/article/details/123602605?spm=1001.2014.3001.5

2022-04-02 09:00:00 8123 9

原创每日学术速递2024.03.14

我们设计了一个改进的 Transformer，而不是将人类编写的程序编译成 Transformers，它可以使用基于梯度的优化进行训练，然后自动转换为离散的、人类可读的程序。然而，由于迭代去噪，它们的性能通常会受到缓慢生成的影响。上下文学习 – 使用不同提示配置模型行为的能力 – 已经彻底改变了自然语言处理领域，减轻了对特定任务模型的需求，并为能够协助任何查询的通才模型铺平了道路.相比之下，计算机视觉在很大程度上停留在前一种状态：通常需要专门的解码器和微调协议来执行语义分割和深度估计等密集任务。

2024-03-14 16:11:04 602

原创每日学术速递6.14

本文的目标是开放词汇对象检测（OVOD） – 建立一个模型，该模型可以检测超出训练中所见类别集的对象，从而使用户能够在推理时指定感兴趣的类别，而无需重新训练模型.我们采用标准的两阶段对象检测器架构，并探索三种指定新类别的方法：通过语言描述、通过图像示例或通过两者的组合。(ii) 我们基于视觉的分类器在之前的工作中表现与基于文本的分类器一样好；我们的目标是通过联合解决方案减轻来自各种来源的这些缺陷：我们利用生成对抗网络 (GAN) 的能力来生成逼真的图像，并使用它们来增强 NeRF 3D 场景重建的真实感。

2023-06-20 16:45:26 728 1

原创每日学术速递6.13

我们对树高的预测显示出 2.9 m 的平均误差，并且在加利福尼亚州存在的整个树高范围内显示出相对较低的系统偏差。我们的模型成功地估计了高达 50 m 的冠层高度而没有饱和，优于全球模型中现有的冠层高度产品。我们使用的方法允许重建从天底光学机载图像观察到的单个树木的三维结构，这表明即使在存在图像失真的情况下也具有相对稳健的估计和映射能力。然后，我们为标准的、未操纵的网络中发生的类似现象提供证据：特征可视化的处理方式与标准输入的处理方式截然不同，这让人怀疑它们“解释”神经网络如何处理自然图像的能力。

2023-06-20 16:43:55 810

原创每日学术速递6.12

在本文中，我们提出了一种在叙述的操作视频中本地化程序活动步骤的方法。在没有任何形式的人工监督的情况下，我们的模型通过匹配三种模式：框架、旁白和步骤描述，学会在时间上将程序文章的步骤置于操作视频中。我们的系统保留了先前方法在建模复杂场景和视图相关效果方面的优势，而且还能够从具有复杂场景动态和不受约束的相机轨迹的长视频中合成照片般逼真的新颖视图。我们展示了对动态场景数据集的最先进方法的显着改进，并将我们的方法应用于具有挑战性相机和物体运动的野外视频，在这些视频中，先前的方法无法产生高质量的渲染。

2023-06-20 16:11:22 826

原创每日学术速递6.11

然而，在弱监督学习中，大部分数据都是通过弱噪声源标记的，因此设计有效的增强方法仍然很重要。源内提升将局部性引入基学习器，并通过在粒度变化的错误区域上训练新的基学习器，使每个基学习器能够专注于特定的特征机制。在没有对特定任务数据或注释进行任何额外的微调或监督的情况下，DIFT 能够在识别语义、几何和时间对应方面优于弱监督方法和有竞争力的现成特征。我们引入了一个包含 100,000 个视频指令对的新数据集，用于训练通过手动和半自动管道获取的 Video-ChatGPT，该数据集易于扩展且对标签噪声具有鲁棒性。

2023-06-20 15:44:09 898

原创每日学术速递6.10

与之前专注于静态图像理解的视觉 LLM（如 MiniGPT-4 和 LLaVA）不同，Video-LLaMA 主要解决视频理解中的两个挑战：（1）捕捉视觉场景中的时间变化，（2）整合视听信号。在这里，我们介绍了反事实世界建模 (CWM)，这是一个构建视觉基础模型的框架：一个统一的、无监督的网络，可以提示执行各种视觉计算。综上所述，我们的结果表明，CWM 是在概念上简单的基础上统一机器视觉的多方面分支的有前途的途径。我们使用以完全无监督的方式生成的离散语音单元，因此我们的框架可用于非书面语言。

2023-06-20 15:41:16 1279

原创每日学术速递6.9

尽管接受了 11 亿个掩码的训练，但 SAM 的掩码预测质量在许多情况下仍不尽如人意，尤其是在处理具有复杂结构的物体时。在本文中，我们使用细粒度的人类反馈（例如，哪个句子是错误的，哪个子句子是不相关的）作为显式训练信号。我们介绍了细粒度 RLHF，这是一个框架，可以从两个方面细粒度的奖励函数中进行训练和学习：（1）密度，在生成每个片段（例如句子）后提供奖励；此外，我们引入了引导密码生成的概念，我们利用 PassGPT 采样过程来生成匹配任意约束的密码，这是当前基于 GAN 的策略所缺乏的壮举。

2023-06-20 15:38:20 1375

原创每日学术速递6.7

我们提出了一种称为 NeRO 的基于神经渲染的方法，用于从在未知环境中捕获的多视图图像重建反射物体的几何形状和 BRDF。大量实验表明，我们的方法能够在不知道环境光和物体遮罩的情况下，仅从摆好的 RGB 图像中准确地重建反射物体的几何形状和 BRDF。我们的结果证明了多感官感知的重要性，并揭示了视觉、听觉和触觉在不同的以对象为中心的学习任务中的各自作用。仅使用合成图像，StableRep 学习的表示在大规模数据集上超过了 SimCLR 和 CLIP 使用同一组文本提示和相应的真实图像学习的表示的性能。

2023-06-20 15:34:05 1525

原创每日学术速递6.8

我们表明，如果 StyleGAN 从潜在的 w 中生成 G(w) ，那么对于每种类型的固有图像，都有一个固定的偏移量 dc ，因此 G(w+dc) 是 G(w) 的那种类型的固有图像。我们的实验表明，确实可以跨模态转移上下文学习能力：我们的模型大大提高了 VL 任务的上下文学习能力，甚至可以显着补偿模型的大小。我们的方法适用于任意刚性物体，即使在视觉纹理基本不存在的情况下也是如此。我们方法的关键是神经对象场，它与姿势图优化过程同时学习，以便将信息稳健地积累到一致的 3D 表示中，同时捕获几何和外观。

2023-06-20 15:33:46 1493

原创每日学术速递6.5

在这项工作中，我们提出了一种内存高效的零阶优化器 (MeZO)，采用经典的 ZO-SGD 方法进行就地操作，从而微调 LM，使其具有与推理相同的内存占用。我们用理论见解支持我们的经验发现，强调充分的预训练和任务提示如何使 MeZO 能够微调大型模型，尽管经典的 ZO 分析表明并非如此。在我们方法的核心，我们提出了一个完全“变形”的网络版本，用于人类网格恢复。这个网络，HMR 2.0，推进了最先进的技术，并展示了分析过去难以从单个图像重建的异常姿势的能力。标题：4D 中的人类：用变形金刚重建和跟踪人类。

2023-06-20 15:25:41 577

原创每日学术速递6.3

我们引入了一种名为 RAPHAEL 的文本条件图像扩散模型，以生成高度艺术化的图像，这些图像准确地描绘了文本提示，包含多个名词、形容词和动词。为了在图像生成方面实现强大的性能，我们提出了一个高效的映射网络，将 LLM 建立在现成的文本到图像生成模型上。除了新颖的图像生成，我们的模型还能够从预先指定的数据集中检索图像，并在推理时决定是检索还是生成。它可以处理图像和文本输入，并生成检索到的图像、生成的图像和生成的文本——在多个测量上下文依赖性的文本到图像任务中，它的性能优于基于非 LLM 的生成模型。

2023-06-04 12:42:17 847 1

原创每日学术速递6.2

标题：BiomedGPT：用于视觉、语言和多模态任务的统一通用生物医学生成预训练转换器作者：Kai Zhang, Jun Yu, Zhiling Yan, Yixin Liu, Eashan Adhikarla, Sunyang Fu, Xun Chen, Chen Chen, Yuyin Zhou, Xiang Li, Lifang He, Brian D. Davison, Quanzheng Li, Yong Chen, Hongfang Liu, Lichao Sun。

2023-06-04 12:38:17 789

原创每日学术速递6.1

当与下游图像生成模型相结合时，LayoutGPT 的性能优于文本到图像模型/系统 20-40%，并且在设计视觉布局的数字和空间正确性方面实现了与人类用户相当的性能。虽然语言和视觉依赖于相似的概念表示，但当前的编码模型通常是根据大脑对每种模式的独立反应进行训练和测试的。我们发现，根据大脑对一种模式的反应训练的编码模型可以成功预测大脑对另一种模式的反应，特别是在代表概念意义的皮层区域。比较使用来自多模态和单模态变换器的表示训练的编码模型，我们发现多模态变换器在语言和视觉中学习更多一致的概念表示。

2023-06-04 12:36:40 430

原创每日学术速递5.31

视我们介绍 Voyager，它是 Minecraft 中第一个由 LLM 驱动的具身终身学习代理，它可以在没有人为干预的情况下不断探索世界，获得多样化的技能，并做出新的发现。Voyager 由三个关键组件组成：1) 一个最大化探索的自动课程，2) 一个不断增长的可执行代码技能库，用于存储和检索复杂的行为，以及 3) 一个新的迭代提示机制，它结合了环境反馈、执行错误，和程序改进的自我验证。Voyager 开发的技能在时间上是可扩展的、可解释的和组合的，这可以迅速复合智能体的能力并减轻灾难性遗忘。

2023-06-04 12:34:46 726

原创每日学术速递5.30

在本文中，我们提出了一种有效且高效的两阶段框架，通过利用 Transformer 注意力和基于梯度下降的优化之间的双重形式来提升 LLM 中的 ICL。在本文中，我们对模仿 TAMP 所需的设计决策进行了全面研究，并证明 OPTIMUS 可以解决各种具有挑战性的基于视觉的操作任务，其中包含 70 多种不同的对象，包括远距离拾取和放置任务, 对货架和铰接物体的操纵，达到 70% 到 80% 的成功率。总的来说，我们的方法在映射方面比最先进的场景坐标回归快 300 倍，同时保持相同的精度。

2023-06-04 12:33:40 739

原创每日学术速递5.29

D 代表扩散），这是一种 LM 引导的扩散模型，它可以生成最先进质量的音乐音频，同时减少 95.7% 或 99.6% 的前向传递MusicLM，分别用于采样 10 秒或 30 秒的音乐。为了生成这样的图像，这些模型必须理解它们被要求生成的对象的语义。通过这样做，我们在 PF-Willow 数据集上获得了与最先进的强监督技术相当的结果，并且显着优于（相对于 SPair-71k 数据集的 20.9%）PF-Willow、CUB-200 上任何现有的弱监督或无监督方法和 SPair-71k 数据集。

2023-06-04 12:32:01 797

转载微软AI宇宙日益完善！ChatGPT默认用必应搜索，Windows Copilot登场！

此外，Bing 还在扩展其所谓的 Bing 插件，使用 OpenAI 接受的标准，使企业能够更轻松地在其搜索引擎中与消费者互动。”在即将推出的下月预览版中，Windows用户将获得新的侧边栏，不仅可以在其中复制粘贴，还可以要求Windows Copilot重写、总结或解释用户提供的内容。这款新的Windows Copilot将出现在Windows 11的任务栏中，将帮助Windows用户轻松查找并更改设置，无需受到繁琐选项和操作流程的束缚（比如要求机器人“调整一下设置，帮我集中注意力”）。

2023-05-28 13:13:28 358

原创每日学术速递5.28

我们生成的模型，Aligned Language Model with Synthetic Training dataset (ALMoST)，优于开源模型，包括 Alpaca、Dolly 和 OpenAssistant，这些模型是根据 InstructGPT 或人工注释指令的输出进行训练的。在本文中，我们提出了一种改进语言响应的补充方法，其中多个语言模型实例在多轮中提出并辩论其各自的响应和推理过程，以得出共同的最终答案。我们的方法可以直接应用于现有的黑盒模型，并对我们调查的所有任务使用相同的程序和提示。

2023-05-28 13:09:12 1395

原创每日学术速递5.27

我们最好的模型系列，我们命名为 Guanaco，在 Vicuna 基准测试中优于所有以前公开发布的模型，达到 ChatGPT 性能水平的 99.3%，同时只需要在单个 GPU 上进行 24 小时的微调。QLoRA 引入了多项创新，以在不牺牲性能的情况下节省内存：(a) 4 位 NormalFloat (NF4)，一种新的数据类型，理论上是正态分布权重的最佳信息 (b) 双量化，通过量化减少平均内存占用量化常数，以及 (c) 分页优化器来管理内存峰值。标题：QLoRA：量化 LLM 的高效微调。

2023-05-28 13:07:30 1032

原创每日学术速递5.26

然而，在计算机视觉领域，尽管有众多强大的视觉基础模型（VFM）可用，但它们仍然局限于预定义形式的任务，难以匹配 LLM 的开放式任务能力。大量实验表明，所提出的 VisionLLM 可以通过语言指令实现不同级别的任务定制，从细粒度的对象级到粗粒度的任务级定制，都取得了良好的效果。值得注意的是，使用基于通用 LLM 的框架，我们的模型可以在 COCO 上实现超过 60% 的 mAP，与检测特定模型相当。然而，现有的文本到 3D 生成方法仅限于生成具有简单几何形状和缺乏真实感的梦幻风格的 3D 对象。

2023-05-28 13:07:11 1766

原创每日学术速递5.25

我们提出了可组合扩散 (CoDi)，这是一种新颖的生成模型，能够从输入模态的任意组合生成输出模态的任意组合，例如语言、图像、视频或音频。CoDi 采用了一种新颖的可组合生成策略，该策略涉及通过在扩散过程中桥接对齐来构建共享的多模态空间，从而能够同步生成相互交织的模态，例如时间对齐的视频和音频。具体来说，我们首先使用姿势条件扩散模型同时为穿着衣服的人的正面和背面生成逼真的法线贴图，称为双法线贴图。与现有的图像合成方法不同，我们的工作解决了同时合成与输入场景结构和提示对齐的几何和纹理的挑战。

2023-05-28 13:04:31 1565

原创每日学术速递5.24

在本文中，我们提出了使用极小极大优化 (DoReMi) 进行域重加权，它首先使用域上的组分布鲁棒优化 (Group DRO) 训练一个小型代理模型，以在不知道下游任务的情况下生成域权重（混合比例）。与使用 The Pile 的默认域权重训练的基线模型相比，DoReMi 将平均少镜头下游准确度提高了 6.5%，并以减少 2.6 倍的训练步骤达到基线准确度。我们证明 BIMT 为许多简单任务发现了有用的模块化神经网络，揭示了符号公式中的组成结构、可解释的决策边界和分类特征，以及算法数据集中的数学结构。

2023-05-28 13:02:44 895

原创每日学术速递5.23

更多Ai资讯：公主号AiCharm。

2023-05-28 13:02:32 1755

原创每日学术速递5.22

标题：拖动你的 GAN：生成图像流形上基于点的交互式操作作者：Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, Christian Theobalt文章链接：https://arxiv.org/abs/2305.10973项目代码：https://vcai.mpi-inf.mpg.de/projects/DragGAN/摘要：合成满足用户需求的视觉内容往往需要对生成对象的姿势、形状、表情和布局

2023-05-22 22:57:15 546

原创每日学术速递5.21

Subjects:cs.CV标题：通过开放式词汇部分分割变得更密集作者：Peize Sun, Shoufa Chen, Chenchen Zhu, Fanyi Xiao, Ping Luo, Saining Xie, Zhicheng Yan文章链接：https://rl-at-scale.github.io/assets/rl_at_scale.pdf项目代码：https://rl-at-scale.github.io/摘要：对象检测已经从有限的类别扩展到开放的词汇。

2023-05-22 22:55:39 493

原创每日学术速递5.20

标题：改进视觉语言预训练的基线作者：Enrico Fini, Pietro Astolfi, Adriana Romero-Soriano, Jakob Verbeek, Michal Drozdzal文章链接：https://arxiv.org/abs/2305.08675摘要：对比学习已成为学习多模态表示的有效框架。CLIP 是该领域的一项开创性工作，通过使用对比损失对成对的图像文本数据进行训练，取得了令人瞩目的成果。最近的工作声称使用受自监督学习启发的额外非对比损失对 CLIP 进行了

2023-05-20 12:17:51 1208

原创每日学术速递5.19

标题：论大型多模态模型中 OCR 的隐藏奥秘作者：Yuliang Liu, Zhang Li, Hongliang Li, Wenwen Yu, Mingxin Huang, Dezhi Peng, Mingyu Liu, Mingrui Chen, Chunyuan Li, Lianwen Jin, Xiang Bai文章链接：https://arxiv.org/abs/2305.07895项目代码：https://github.com/Yuliang-Liu/MultimodalOCR摘要：

2023-05-20 12:17:13 1026

原创每日学术速递5.18

标题：Make-A-Protagonist：与专家合奏的通用视频编辑作者：Yuyang Zhao, Enze Xie, Lanqing Hong, Zhenguo Li, Gim Hee Lee文章链接：https://arxiv.org/abs/2305.08850项目代码：https://make-a-protagonist.github.io/摘要：文本驱动的图像和视频传播模型在生成逼真多样的内容方面取得了前所未有的成功。最近，基于扩散的生成模型中现有图像和视频的编辑和变化引起了广泛关

2023-05-20 12:12:31 789

原创由浅入深了解深度神经网络优化算法

在这篇文章中，我们提供了深度学习中使用的不同优化算法的完整概述。我们从梯度下降的 3 种主要变体开始，继续介绍多年来提出的不同方法，最后以二阶优化结束。不过我们只是粗略地了解了每种方法的数学知识，每种方法还有更多需要学习的地方。如果你想了解更多信息，我建议您查看原始论文以获取更多详细信息。

2023-05-20 12:12:09 972

原创每日学术速递5.17

标题：HACK：学习用于高保真动画的参数化头颈模型作者：Longwen Zhang, Zijun Zhao, Xinzhou Cong, Qixuan Zhang, Shuqi Gu, Yuchong Gao, Rui Zheng, Wei Yang, Lan Xu, Jingyi Yu文章链接：https://arxiv.org/abs/2305.04469项目代码：https://github.com/ZoneLikeWonderland/HACK-Model摘要：在为数字人类开发参数化

2023-05-20 12:05:34 855

原创每日学术速递5.16

标题：用于可控 3D 形状生成的局部注意 SDF 扩散作者：Xin-Yang Zheng, Hao Pan, Peng-Shuai Wang, Xin Tong, Yang Liu, Heung-Yeung Shum文章链接：https://arxiv.org/abs/2305.04461项目代码：https://zhengxinyang.github.io/projects/LAS-Diffusion.html摘要：虽然最近 3D 生成神经网络的快速发展大大提高了 3D 形状的生成，但普通

2023-05-16 11:04:34 587

原创每日学术速递5.15

标题：并非所有语言在 LLM 中都是平等的：通过跨语言思维提示提高多语言能力作者：Haoyang Huang, Tianyi Tang, Dongdong Zhang, Wayne Xin Zhao, Ting Song, Yan Xia, Furu Wei文章链接：https://arxiv.org/abs/2305.07004摘要：大型语言模型 (LLM) 展示了令人印象深刻的多语言能力，但它们的性能在不同语言之间差异很大。在这项工作中，我们介绍了一种简单而有效的方法，称为跨语言思维提示

2023-05-16 11:00:27 630

原创每日学术速递5.14

标题：CLIP 训练的逆比例定律作者：Xianhang Li, Zeyu Wang, Cihang Xie文章链接：https://arxiv.org/abs/2305.07017项目代码：https://github.com/UCSC-VLAA/CLIPA摘要： CLIP 是第一个连接图像和文本的基础模型，最近在计算机视觉领域取得了许多突破。然而，其相关的培训成本高得令人望而却步，对其广泛探索构成了重大障碍。在本文中，我们提出了一个令人惊讶的发现，即 CLIP 训练存在逆比例定律，即使用的图

2023-05-16 10:58:33 540

原创每日学术速递5.13

标题：VideoChat：以聊天为中心的视频理解作者：KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, Yu Qiao文章链接：https://arxiv.org/abs/2305.06355项目代码：https://rl-at-scale.github.io/摘要：我们在这项研究中，我们通过引入以端到端聊天为中心的视频理解系统 VideoChat，开始对视频理解的

2023-05-16 10:57:10 642

原创每日学术速递5.12

标题：ImageBind：跨六种模式的整体人工智能学习作者：Mengyuan Yan Jessica Lin Montserrat Gonzalez Arenas Ted Xiao Daniel Kappler Daniel Ho文章链接：https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf项目代码：https://github.com/facebookresearch/ImageBind摘要：当人类从世界吸收信息时，我们天

2023-05-13 14:47:04 990

原创每日学术速递5.11

标题：扩散解释器：文本到图像稳定扩散的视觉解释作者：Seongmin Lee, Benjamin Hoover, Hendrik Strobelt, Zijie J. Wang, ShengYun Peng文章链接：https://arxiv.org/abs/2305.03509项目代码：https://huggingface.co/papers/2305.03509摘要：基于扩散的生成模型创建令人信服的图像的令人印象深刻的能力已经引起了全球的关注。然而，它们复杂的内部结构和操作往往使非专家

2023-05-13 14:45:33 716

原创每日学术速递5.10

标题：压缩它！无需训练即可合并来自不同任务的模型作者：George Stoica, Daniel Bolya, Jakob Bjorner, Taylor Hearn, Judy Hoffman文章链接：https://arxiv.org/abs/2305.03053摘要：典型的深度视觉识别模型能够执行他们接受过训练的一项任务。在这篇论文中，我们解决了一个极其困难的问题，即在没有任何额外训练的情况下，将具有不同初始化的完全不同的模型组合成一个多任务模型，每个模型解决一个单独的任务。模型合并的

2023-05-13 14:43:55 870

原创每日学术速递5.9

此外，为了提供全面的评估，我们构建了一个具有挑战性的夜间跟踪基准，即 DarkTrack2021，它包含 110 个具有挑战性的序列，总共超过 100 K 帧。对公共 UAVDark135 基准测试和新建的 DarkTrack2021 基准测试的评估表明，与其他排名靠前的低光增强器相比，受任务启发的设计使 SCT 在夜间无人机跟踪方面具有显着的性能提升。在 KITTI 数据集上进行的实验表明，我们的方法比我们之前的工作 DL-SLOT 和其他 SLAM 和多目标跟踪基线方法实现了更好的姿势和跟踪精度。

2023-05-13 14:41:10 985

ML Visuals 11.11深度学习框架画图模板

空空如也