杀生丸学AI-CSDN博客

原创【三维重建工具】NeRFStudio、3D GaussianSplatting、Colmap安装与使用指南（更新中）

Nerfstudio，一个用于NeRF开发的模块化PyTorch框架。框架中用于实现基于NeRF的方法的组件即插即用，使得研究人员和相关从业者可以轻松地将NeRF集成到自己的项目中。框架的模块化设计支持实时可视化工具，导入用户真实世界捕获的数据集外（in-the-wild）数据，以及导出为视频，点云和网格表示的工具。近期，还导入了InstantNGP、3D Gaussian Splatting等最新重建算法。

2024-04-08 23:05:42 1290 4

原创【动态三维重建】4D Gaussian Splatting 用于动态场景重建（CVPR 2024）

4D-GS 参考 D-NeRF（或 Nerfies）中的 deformation，在 3D-GS 的基础上引入变形场来建模三维动态场景。变形场在每个时间戳将 Gaussians 变换到一个新位置，来模拟场景内元素的运动和形变

2024-03-21 15:34:24 866

原创【动态三维重建】Deformable 3D Gaussians 可变形3D GS用于单目动态场景重建（CVPR 2024）

隐式神经表示为动态场景重建和渲染的新方法铺平了道路。尽管如此，先进的动态神经渲染方法很大程度依赖这些隐式表示，经常难以捕捉场景中物体的复杂细节。此外，隐式方法在一般动态场景中实现实时渲染，限制了它们在各种任务中的使用。为了解决这一问题，我们提出了一种可变形的三维高斯分布的splatting 方法，该方法使用三维高斯分布来重建场景，并在具有变形场的规范空间中学习它们，以建模单目动态场景。我们还引入了一种没有额外开销的退火平滑训练机制，它可以减轻不准确的姿态对真实世界数据集中时间插值任务的平滑性的影响。

2024-03-20 12:05:43 1335

原创【三维重建】VastGaussian:用于大场景重建的大3D Gaussian(CVPR 2024)

VastGaussian：基于3D GS的分块优化重建：引入了渐进式数据划分策略，允许独立的单元优化和无缝合并，获得具有足够三维高斯分布的完整场景。解耦外观建模消除了训练图像中的外观变化，实现了不同视图之间的一致渲染

2024-03-04 18:35:58 2392 11

原创【三维重建】【SLAM】SplaTAM：基于3D高斯的密集RGB-D SLAM(CVPR 2024)

SplaTAM，一个新的SLAM系统，利用3D Gaussian Splatting作为底层map表示，渲染和优化更快，明确的地图空间范围，和流线型的地图稠密化。可以同时优化pose估计、场景重建和新视图合成

2024-02-29 18:37:09 1992

原创【分块三维重建】【slam】LocalRF：逐步优化的局部辐射场鲁棒视图合成（CVPR 2023）

LocalRF：从一个随意捕获的视频，重建一个大规模的场景。为了处理未知pose，联合估计具有辐射场的相机pose，并逐步优化，显著提高重建的鲁棒性。为了处理大型的无界场景，我们在临时窗口内，动态分配局部辐射场（逐帧训练）

2024-02-28 15:38:56 1344

原创【扩散模型】【网络结构搜索】神经网络扩散：Neural Network Diffusion（论文解读）

扩散模型在图像和视频生成方面取得了显著的成功。这项工作证明了，扩散模型也可以生成高性能的神经网络参数利用一个自动编码器和一个标准的潜在扩散模型。自动编码器提取训练后的网络参数子集的潜在表示。然后训练一个扩散模型，从随机噪声中合成这些潜在的参数表示。然后，它生成新的表示，通过自动编码器的解码器，其输出准备用作网络参数的新子集。在不同的架构和数据集上，我们的扩散过程始终以最小的额外成本生成与训练网络相比的性能相当或改进的模型。值得注意的是，我们根据经验发现，生成的模型与训练后的网络表现不同。

2024-02-23 10:42:10 1721 5

原创【三维重建】SMERF：内存高效的辐射场--实时大场景重建(论文解读)

最近的实时视图合成技术在保真度和速度方面取得了迅速的进展。对比两种方法：易于栅格化的显式场景表示和建立在射线行进上的神经场之间出现了紧张关系，后者在质量上表现好，却难以实时。SMERF是一种视图合成方法，在3.5 mm3的实时大场景中实现了最先进的精度。主要有两个贡献：层次模型划分方案，它在限制计算和内存消耗的同时增加了模型容量，以及蒸馏训练策略，同时产生高保真度和内部一致性。SMERF可以在网络浏览器中实现完全6个自由度（6个自由度）的导航，并在普通智能手机和笔记本电脑上进行实时渲染。

2024-02-21 15:46:26 1043

原创【3D分割】GARField: 辐射场的物体分组

分组(或者分割)本身是模糊的，因为在不同粒度级别上，场景的分割标准不同——挖掘机的车轮应该被认为是独立的还是整体的一部分？本文提出辐射场分组 GARField，一种将三维场景，从带pose图像的输入分解为语义组的方法。方法通过物理尺度来接受群体的模糊性：通过优化一个按尺度划分的3D密切特征场，从SAM模型提供的二维mask来优化，以从粗到细的层次结构，通过自动树构造或用户交互推导出可能分组的层次结构。GARField能够实现对象的集体对象和各种子部分。

2024-02-02 13:54:20 1198

原创【三维重建】CamP:针对NeRF的摄像机预处理

优化后的NeRF（神经辐射场）可以实现物体和大规模场景的高保真三维场景重建，却需要准确的相机参数作为输入（不准确的相机参数会导致模糊的渲染）。相机参数通常估计使用SfM（运动结构）作为预处理步骤（总是存在估计偏差）。先前的工作提出了与NeRF共同优化摄像机参数，但这些方法在具有挑战性的设置中容易出现局部最小值。在这项工作中，我们分析了不同的相机参数如何影响这个联合优化问题，并观察到标准参数对于小扰动表现出很大的幅度差异，这可能导致病态优化问题。我们建议。

2024-02-02 13:53:12 1014

原创【AIGC】2023年生成式AI发展综述

2023年AIGC发展综述，涵盖图片、视频、3D生成，数字人等方向

2024-01-09 10:50:36 1113

原创【三维分割】SAGA:Segment Any 3D Gaussians

交互式三维分割技术在三维场景理解和操作中具有重要意义，是一项值得关注的任务。然而，现有的方法在实现细粒度、多粒度分割或争夺大量计算开销方面面临挑战，抑制了实时交互。在本文中，我们引入了分段任意三维gasssin（SAGA），一种新的三维交互分割方法，无缝地将二维分割模型与三维高斯Splatting（3DGS）相结合。SAGA通过设计良好的对比训练，有效地将分割模型生成的多粒度二维分割结果嵌入到三维高斯点特征中。实验评估展现了竞争力的性能。

2024-01-04 21:28:06 1932

原创【三维目标检测/自动驾驶】IA-BEV：基于结构先验和自增强学习的实例感知三维目标检测（AAAI 2024）

多相机三维目标检测是自动驾驶领域的一个重要研究方向，常用方法是将多视图图像特征转换到统一的鸟瞰图（BEV）空间进行感知。我们提出了一种实例感知的鸟瞰图检测器（IA-BEV），它在深度估计过程中引入了图像平面上的实例感知信息。在nuScenes数据集上，方法在使用两个关键帧的情况下达到了最先进的结果近年来，多相机三维目标检测在自动驾驶领域受到了广泛的关注。与激光雷达相比，其摄像头能够更好地捕获物体的语义信息，并且具有更低的成本优势。这个领域的最新趋势是将多视图图像特征转换到统一的BEV空间进行后续的感知任务。

2023-12-26 20:45:29 1256

原创【三维生成】稀疏重建、Image-to-3D方法（汇总）

总结近几年流行的三维生成方法，包括稀疏重建、文本到3D、图像到3D等。

2023-12-26 16:40:22 1199 1

原创【3D生成与重建】SSDNeRF：单阶段Diffusion NeRF的三维生成和重建

3D-aware image synthesis任务，包括场景生成和 image-based 的新视图合成。本文提出了SSDNeRF，使用扩散模型从不同对象的多视图图像中学习神经辐射场（NeRF）的可推广先验。先前的研究使用两阶段方法，依赖于Pretrained NeRF作为真实数据来训练扩散模型。相比之下，SSDNeRF作为单阶段、端到端的训练范式，联合优化NeRF的自动decode 和 latent Diffusion模型，实现同时三维重建和先验学习（甚至包括稀疏视图）。测试时，

2023-12-22 19:04:34 2034 2

原创【三维生成与重建】ZeroRF：Zero Pretraining的快速稀疏视图360°重建

ZeroRF，一种新的逐场景优化方法，用于在神经场中360°重建稀疏视图。当前，NeRF（神经辐射场）已经证明了高保真的图像合成，但难以使用稀疏的输入视图，且在数据依赖性、计算成本和跨不同场景的泛化方面都面临着限制。为了克服这些挑战，ZeroRF的关键是将一个tailored（裁剪的）深度图像优先集成到一个因子分解的NeRF表示中。与传统方法不同的是，ZeroRF使用神经网络生成器参数化特征网格，能够在没有任何预训练或额外的正则化的情况下实现高效的稀疏视图360°重建。

2023-12-22 19:03:41 1279

原创【Backbone】TransNeXt:最新ViT模型（原理+常用神经网络汇总）

基于生物模仿视杆细胞视觉设计的Token混合器聚合注意力和一种具有门控通道注意力的通道混合器卷积GLU。作者将它们结合起来，提出一种强大的高度鲁棒的视觉模型TransNeXt，它在各种视觉任务如分类、检测和分割等方面都实现了最先进的性能。TransNeXt在多尺度推理的出色性能突显了它在解决深度衰减问题方面优于大型核策略的优势。此外，作者还提供了一个CUDA实现，在训练中实现了高达103.4%的加速，在推理中实现了60.5%的加速。

2023-12-05 17:32:26 2358 9

原创【目标检测】Co-DETR：ATSS+Faster RCNN+DETR协作的先进检测器（ICCV 2023）

DETR将过少的 Query 分配为正样本，采用一对一的集合匹配，会导致对编码器输出的监督稀疏，严重损害编码器的区分特征学习。本文提出了一种新颖的协同混合分配训练方案，名为Co-DETR，以从多样的标签分配方式中学习更高效、更有效的基于DETR的检测器。这种新的训练方案可以通过训练多个并行辅助 Head ，以一对多的标签分配方式（如ATSS和Faster RCNN）进行监督，轻松增强端到端检测器中编码器的学习能力。

2023-10-21 00:09:28 2353

原创【三维重建】MobileR2L：轻量化移动端三维重建（CVPR2023）

问题由于体积渲染的过程，NeRF的推理速度非常慢，这限制了在资源受限的硬件上（如移动设备）利用NeRF的应用场景。许多研究已经开展，以减少运行NeRF模型的延迟。然而，其中大多数仍需要高端GPU进行加速或额外的存储内存，这在移动设备上都不可用。方向另一个新兴方向利用神经光场（NeLF）进行加速，因为只需在射线上执行一次正向传递来预测像素颜色。然而，要达到与NeRF类似的渲染质量，NeLF中的网络设计需要进行大量计算，这对移动设备来说并不友好。工作在这项工作中，我们提出了一种在移动设备上。

2023-10-20 10:59:20 685

原创【三维重建】DreamGaussian：高斯splatting的单视图3D内容生成（原理+代码）

常用的3D内容创建方式，主要是利用基于优化的通过分数蒸馏采样（SDS）进行的3D生成。该方法每个样本优化较慢，很难实际应用。本文提出了DreamGaussian，兼顾效率和质量：设计一个生成的三维高斯splitting 模型，并在 uv 空间中配合网格提取和纹理细化。与NeRF中使用的 occupancy pruning 相比，三维高斯分布的渐进致密化收敛速度明显更快。为了进一步提高纹理质量，促进下游应用，我们引入了一种高效的算法，将三维高斯矩阵转换为纹理网格并应用一个微调阶段来细化细节。

2023-10-19 18:33:07 6604 18

原创【多模态】平衡多模态学习（讨论与文章汇总）

随着硬件升级和大模型容量的不断提升，多模态学习越来越成为当前机器学习的主流学习方式。这里探讨了多模态学习过程中存在的问题，以及一些解决方法、未来展望。

2023-10-09 23:17:30 1137 2

原创【图像分割】大模型SegmentAnything、FastSAM与MobileSAM对比

sam作为首个分割一切的zero shot 图像分割模型，展现出了强大性能。紧随其后，今年陆续出了FastSAM 与 MobileSAM两个加速版本。博主已经安装，亲测效果很棒

2023-10-09 21:35:46 1397

原创【三维重建】3D Gaussian Splatting：实时的神经场渲染

Gaussian Splatting引入了三个关键元素，在保持有竞争力的训练时间的同时实现最先进的视觉质量，重要的是允许在1080p分辨率下实现高质量的实时（≥30 fps）的新视图合成。

2023-09-16 13:18:24 22528 7

原创【AIGC】【AI绘画】controlNet介绍（原理+使用）

ControlNet是一种用于生成图片的神经网络模型，近年来在生成图片领域非常热门。其主要思想是通过引入控制向量（control vector）来指导生成过程，以实现对生成图像的精细控制。这个控制向量通常包含一些语义信息，比如图像的风格、表情、姿态等。通过调整控制向量的数值，可以在不改变其他图像特征的情况下，对生成的图像进行精细的编辑和控制。

2023-09-05 11:56:56 3036

原创【单视重建】RealFusion：单张图像到任何对象的360°重建

采用一个基于扩散模型的条件图像生成器，并设计一个提示，鼓励它“想出”物体的新视图，从单一图像重建一个完整的360◦模型，使用最近的 DreamFusion 方法，我们将给定的输入视图、条件先验和其他正则化器融合到一个最终的、一致的重建中。重建提供了输入视图的忠实匹配，以及对其外观和三维形状的合理预测，包括物体不可见的一面。挑战在于，单个图像不包含足够的信息来进行三维重建。但可以通过利用人类对自然世界和其中所包含的物体的丰富知识来做到这一点，以弥补图像中缺失的信息。为了解决问题，必须将视觉几何。

2023-09-01 10:45:13 855 2

原创【三维重建】Factor Fields: 超越神经场的统一框架

将信号分解为Factor 的乘积，每个Factor 由经典场或神经场表示，它对转换后的输入坐标进行操作。这种分解产生了一个统一的框架，该框架容纳了几种最近的信号表示，包括NeRF、Plenoxels、EG3D、Instant-NGP和TensoRF。此外，模型允许创建强大的新信号表示，如“字典场”（DiF）。快速重建方法中，DiF方法提高了近似(approximation)质量、紧凑性和训练时间。实验表明，Factor Fields在二维图像回归任务上获得了更好的图像逼近质量。

2023-08-20 23:37:00 536

原创【图像融合】融合算法综述（持续更新）

按时间顺序，综述近5年的融合算法。重点分析了最近两年的work，欢迎留言探讨

2023-08-15 23:56:33 7728 13

原创【多视重建】从Zero-123到One-2-3-45：单张图到3D

Zero-1-3：只给定一张RGB图像（为了在这种欠约束的设置下进行新的视图合成），利用大规模扩散模型，学习关于自然图像的几何先验。One-2-3-45则是在 Zero-123的基础上，进一步将不太一致的多视图像，提升到三维空间（mesh 或 sdf 形式）

2023-08-14 14:51:42 3044 11

原创【三维编辑】Seal-3D：基于NeRF的交互式像素级编辑

，为了能够直接响应编辑指令并立即更新。提出的Seal-3D 它允许用户以像素级和自由的方式使用各种NeRF类主干来编辑NeRF模型，并立即预览编辑效果。为了实现这些效果，我们提出的代理函数将编辑指令映射到NeRF模型的原始空间，以及采用局部预训练和全局微调的师生训练策略，解决了这些挑战。

2023-08-09 11:37:59 1198

原创【三维编辑】SPIn-NeRF：多视图分割与感知修复（CVPR 2023）

编辑任务：从3D场景中移除不需要的对象NeRF已经成为一种流行的新视角合成方法。然而，编辑和操作NeRF场景仍然是一个挑战。其中一个重要的编辑任务是从3D场景中移除不需要的对象，并对其进行修复，使得替换区域在视觉上是合理的并与其上下文一致。本文方法：给定一组带姿态图像和单个输入图像的稀疏注释，首先获取目标对象的3D分割掩码。然后，我们引入了一种基于感知优化的方法，利用学习的2D图像inpainting 模型将其信息转化到3D空间中，并确保视角一致性。

2023-08-08 16:32:44 995 5

原创【3D点云】分割算法总结（二）

用于建筑物实例分割的大规模真实城市场景数据集UrbanBIS，UrbanBIS共包含6个真实场景，总面积高达10.78 km2，包含3370栋建筑，不仅提供城市场景的常见语义信息以及建筑物单体实例信息，同时提供细粒度的建筑物语义标注信息。是目前唯一一个可用于点云实例分割的大规模的3D真实城市场景数据集。

2023-07-31 09:02:11 446

原创【三维重建】SceneRF:基于NeRF的自监督单目三维场景重建

从二维图像的三维重建被广泛的研究，训练与深度监督。为了放松对昂贵获取的数据集的依赖，我们提出了SceneRF，一种自监督的单目场景重建方法，只使用姿态图像序列进行训练。我们通过显式的深度优化和一种新的概率采样策略来有效地处理大场景。在推理时，一个输入图像足以产生新的深度视图，将其融合在一起得到三维场景重建。实验表明，在室内BundleFusion 和室外Semantic kitti上，我们在新的深度视图合成和场景重建方面优于所有最近的基线提示：以下是本篇文章正文内容，下面案例可供参考。

2023-07-28 15:33:33 1186

原创【图像&三维编辑】DragGAN与Drag3D（原理＋代码）

合成满足用户需求的视觉内容通常需要对生成对象的姿态、形状、表达和布局的灵活和精确的可控性。“拖动”图像中的任何点，精确修改图像到目标点。它由两个主要组件组成1)一种基于特征的运动监督，驱动手柄点向目标位置移动；2)一种新的点跟踪方法，利用鉴别生成器特性来保持定位手柄点的位置。DragGAN可以使图像变形，精确控制像素的位置，从而操纵不同类别的姿态、形状、表达和布局，如动物、汽车、人、景观等。

2023-07-05 23:10:56 1745 1

原创【三维生成】Make-it-3D：diffusion+NeRF从单张图像生成高保真三维物体（上交&微软）

从一个真实或人工生成的单张图像中创建高保真度的3D内容。这将为艺术表达和创意开辟新的途径，例如为像Stable Diffusion这样的前沿2D生成模型创建的幻想图像带来3D效果。通过提供一种更易于访问和自动化的创建视觉上惊人的3D内容的方法，研究者希望吸引更广泛的受众加入到轻松的3D建模世界中来。本文探讨了仅使用单张图像创建高保真度3D内容的问题。这本质上是一项具有挑战性的任务，需要估计潜在的3D几何结构，并同时产生未见过的纹理。为了解决这个问题，

2023-06-30 17:01:28 2102 9

原创【三维编辑】Editing Conditional Radiance Fields 编辑条件NeRF（ICCV2021）

神经辐射场（NeRF）是一种支持高质量视图合成的场景模型，对每个场景进行优化。在本文中，我们探索了允许用户编辑一个类别级的NeRF-也被称为条件辐射场（在一个形状的类别上训练）。具体地说，我们介绍了一种将粗糙的二维用户涂鸦传播到三维空间的方法，以修改局部区域的颜色或形状。首先，我们提出了一个条件辐射场，它包含了新的模块化网络组件，包括一个跨实例共享的形状分支。接下来，我们提出了一种针对特定网络组件的混合网络更新策略，以平衡效率和准确性。在用户交互过程中，我们提出了一个。

2023-06-26 10:55:14 887

原创 VALSE2023-内容总结（正在更新）

2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE)于6月10日至12日在无锡太湖国际博览中心召开，由中国人工智能学会、中国图象图形学学会主办，江南大学、无锡国家高新技术产业开发区管理委员会承办。共呈现了3 个大会主旨报告、4个大会特邀报告、12个年度进展报告 (APR)报告、4场讲习班 (Tutorial)、20场研讨会 (Workshop)。另外，还有186篇顶会顶刊论文墙报展示交流活动

2023-06-16 10:18:50 1701 29

原创【三维编辑】Removing Objects From NeRF（论文+代码）

nerf正在成为一种常用的三维场景表示方法，允许新的视图合成。使用nerf进行三维重建时，需要删除个人信息或难看的对象。使用NeRF编辑框架并不容易实现这种删除，因此提出从RGBD序列创建的NeRF表示中删除对象。我们的NeRF绘制方法利用了最近在二维图像绘制中的工作，并由用户提供的mask指导。我们的算法是基于一个基于置信度的视图选择程序。它选择在创建NeRF中使用哪个单独的2D绘制图像，以便生成的绘制NeRF是3D一致的。我们表明，我们的NeRF编辑方法是有效的合成可信的内画在多观点一致的方式。

2023-06-05 22:54:18 1105

图像图形学报：2023年第一期：图像融合综述

空空如也