自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(372)
  • 资源 (1)
  • 收藏
  • 关注

原创 Linux下的ELF文件、链接、加载与库(含大量图文解析及例程)

Linux下的ELF文件、链接、加载与库链接是将将各种代码和数据片段收集并组合为一个单一文件的过程,这个文件可以被加载到内存并执行。链接可以执行与编译时,也就是在源代码被翻译成机器代码时;也可以执行于加载时,也就是被加载器加载到内存执行时;甚至执行于运行时,也就是由应用程序来执行。​ — CSAPP本文主要参考[原创] Linux环境下:程序的链接, 装载和库,[完结] 2020 南京大学

2021-10-06 23:14:49 8163 3

原创 Vision Transformer(ViT)PyTorch代码全解析(附图解)

Vision Transformer(ViT)代码全解析最近CV领域的Vision Transformer将在NLP领域的Transormer结果借鉴过来,屠杀了各大CV榜单。本文将根据最原始的Vision Transformer论文,及其PyTorch实现,将整个ViT的代码做一个全面的解析。对原Transformer还不熟悉的读者可以看一下Attention is All You Need原文,中文讲解推荐李宏毅老师的视频,个人觉得讲的很明白。话不多说,直接开始。下图是ViT的整体框架图,我们在

2021-07-14 17:56:46 52685 80

原创 PyTorch中的torch.nn.Parameter() 详解

PyTorch中的torch.nn.Parameter() 详解今天来聊一下PyTorch中的torch.nn.Parameter()这个函数,笔者第一次见的时候也是大概能理解函数的用途,但是具体实现原理细节也是云里雾里,在参考了几篇博文,做过几个实验之后算是清晰了,本文在记录的同时希望给后来人一个参考,欢迎留言讨论。分析先看其名,parameter,中文意为参数。我们知道,使用PyTorch训练神经网络时,本质上就是训练一个函数,这个函数输入一个数据(如CV中输入一张图像),输出一个预测(如输出这张

2021-07-14 16:21:09 70696 31

原创 如何魔改 diffusers 中的 pipelines

diffusers 的 api 设计非常友好,我们可以通过 pipeline callback 和 custom pipeline 等方式定制化实现自己想要的功能,其中前者不用动底层代码,简单优雅,后者则是功能强大,现在最新的 AIGC 相关的论文基本都是通过 custom diffusion 的方式公开自己的源码,非常方便。

2024-04-07 19:21:00 1156

原创 OMG Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models

想要在有交叠的情况下,精确地控制多个概念的属性特征,最近的几篇工作都是 ”垫图 + 区域分离重绘“ 的方案,OMG 这篇做的效果不错,分割图。不过笔者还有个问题:如果多个概念的基本语义类是一样的,比如两个 woman,这时候 zero-shot 分割模型怎么工作,怎么区分不同概念。最近的 ConsiStory 似乎也是受限于这个问题,对于相同语义类的多概念很难进行可控的个性化生成。期待有更好的解决方案。

2024-03-29 18:30:12 529

原创 DreamBooth Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

DreamBooth 是 subject-driven 可控生成方向的一篇重要工作,后面各种 LoRA 的训练基本都使用 DreamBooth 的训练方法。

2024-03-24 23:08:07 767

原创 An Image is Worth One Word Personalizing Text-to-Image Generation using Textual Inversion

Textual Inversion 应该可以说是扩散模型时代最早的定制化概念生成的方法,效果不错,而且训练成本和模型保存成本极低。是一片很有意义的工作。

2024-03-24 19:06:07 982

原创 ConsiStory Training-Free Consistent Text-to-Image Generation

ConsiStory 无需训练,在生图 batch 内共享 KV 实现 subject 一致的生成,为避免背景受到影响,仅在 attention mask 内共享。使用混合 query 特征和 attention dropout 削弱 KV 共享的影响,从而丰富布局和背景的多样性。通过 DIFT 特征找到对应的 patch 位置,使用 feature injection 进行细粒度的优化。

2024-03-24 10:50:42 1066 2

原创 InstantID Zero-shot Identity-Preserving Generation in Seconds

InstantID = IP-Adapter + (Face) ControlNet 看效果人脸的保真度还是不错的。但是仅能聚焦在人脸,可以试着搞搞人物全身特征的定制化。

2024-03-13 22:33:14 426

原创 IP-Adapter Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

IP-Adapter 通过解耦的、独立的一支交叉注意力层将图像 prompt 引入到文生图模型中,是比较基础的、简单有效的方法。不过说是解耦,但是最后看着还是加起来的呢,只是多过了一个 cross attention 层。当然,只要要结合到 UNet 中去,终归是要么拼接,要么相加的。

2024-03-13 21:47:26 358

原创 Mix-of-Show Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models

针对多 concept 定制化生成中的角色身份丢失、属性绑定错乱等问题,优化 LoRA 训练、融合,以及分区域采样的技术细节,达到了目前看比较好的效果。

2024-03-13 16:57:08 837

原创 Fuyu-8B A Multimodal Architecture for AI Agents

Fuyu Decoder-only 的结构看起来更自然,并且可以处理任意分辨率图像,在实际中,对文字图、表格、文档的理解更好。

2024-03-05 15:51:54 423

原创 Q-Align Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels

Q-Align 利用大模型对语言文本的理解能力,将图像质量打分工作转换为离散的质量等级词的生成,效果不错。大模型在图像质量评估方面的工作,可以关注一下 Q-Future,这个组一直深耕图像质量评估方向,在大模型时代,其发布的 Q-Bench、Q-Align 等工作都很不错。

2024-03-05 14:58:27 446

原创 Flamingo a Visual Language Model for Few-Shot Learning

Flamingo 的技术创新点很多,图文交错数据训练、multimodal few-shot / in-context learning、Perceiver Resampler、gated xattn dense 等。特别是图文交错数据实现了多模态的 few-shot / in-context learning。是很有价值的一篇多模态语言模型的工作。在 LLM 时代,也有很多多模态大模型会参考 resampler 的结构设计。

2024-03-04 18:26:00 1000

原创 LLaVA: Visual Instruction Tuning

2023 年上半年,从 GPT4 接口机造训练数据来训练自己的 LLM 已成为基本操作。而在没有 GPT4V 的时代,多模态的 instruction following 数据构造却一直是个难题。LLaVA 提出了一种结合图像的各种标注信息,使用 text-only 的 GPT4 来机造多模态 instruction following 数据的方法,并首次使用多模态的 instruction following 数据训练出了 LMM。

2024-02-27 20:57:29 1006

原创 DALL-E 系列 (1-3)

DALL-E 系列(1, 2, 3)看起来更像是一个产品编号,从技术上来看,并没有什么一致性。从 DALL-E 1 的 VQVAE,到 DALL-E 2 的 unCLIP,再到 DALL-E 3 的 LDM,从 DALL-E 系列核心技术的迭代中,反倒是可以看出业界主流图像生成技术的演进:从自回归生成,到 Diffusion 模型加 CLIP 文本引导,再到如今基本统一的 LDM。只是可惜从论文到技术报告再到单个技术点分享, OpenAI 似乎越来越不 “open”,很遗憾无法一窥 DALL-E 3 全貌。

2024-02-25 23:59:11 920

原创 DiT Scalable Diffusion Models with Transformers

DiT 的思路和做法都是比较直接的,就是用 Transformer 替换掉 UNet,并探索了其 scaling 能力和条件注入的结构。在 Diffusion 成功之后,以 DiT 为代表的,有很多用 Transformer 替换 UNet 的工作,但都没有受到很大的关注。究其原因,应该是 UNet 已经做的足够好,计算开销也低,使用 Transformer scaling 上去,虽然生成质量有所提升,但也没那么显著。

2024-02-19 14:39:57 1403

原创 LDM:High-Resolution Image Synthesis with Latent Diffusion Models

Stable Diffusion 的影响力不用多说,本文主要提了 LDM 技术上的两个关键点。其中 VAE 感知压缩要首先深刻理解一系列自编码压缩方法(之前的文章都有介绍),然后搞懂 KL-reg 和 VQ-reg 两种正则化方式实际上相当于什么方法,以及为什么要加正则。交叉注意力的条件生成机制也是目前比较常用的,理解好交叉注意力机制本身是如何操作的即可,别的就是如何将不同的条件形式进行高效编码。

2024-02-18 20:02:44 1013

原创 简单理解VQGAN

vqgan 利用 Transformer 和感知损失等技术,从生成质量和可控生成上对 vqvae 进行了很有意义的改进。vqvae、vqgan这一路压缩表征的方法在 LDM、MultiModal Transformer 中都有很多的应用。

2024-02-18 15:51:19 1065

原创 深入理解vqvae

vqvae 首次在 cv 领域提出使用 vector quantize 来构建一个离散的 codebook,与其后续的 vqgan 等工作,被认为是 ”图片的 tokenizer“。将图片编码为 token,就能与 NLP token 的形式统一起来,一起在多模态 transformer 模型中进行训练。另外,vqvae encoder 将真实图片压缩为低维特征图, decoder 将低维特征图解码为真实图片的能力,在 ldm 中也大有用武之地,可以极大地降低训练/推理成本,提升生成结果的质量。

2024-02-06 12:58:46 2181

原创 Qwen-VL A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

qwen-vl 相比于之前的 VLM 最大的亮点是加入了 grouding、OCR 这类更细粒度的、更有视觉特色的任务,而不只是简单的图片理解 VQA。并且 qwen-vl 很好地支持了图文交错的形式。笔者体验下来,目前来说,qwen-vl 是中文开源多模态大模型中最好的了。

2024-01-18 20:26:56 995

原创 De-Diffusion Makes Text a Strong Cross-Modal Interface

真是一篇有趣又有用的工作。利用自编码器的特点,将完整的图像语义提取到自然语言中,同时利用自然语言的灵活性,与多个前沿模型交互,出现很多有趣的应用。还有一个点,就是现有图文对数据中,文本描述通常比较简短,完全不够详尽。所谓“一图胜千言”,仅使用寥寥数语是很难完整地描述出图像的语义内容的。De-Diffusion 似乎提供了一个思路:利用自编码器需要重构原图的特点,强迫模型将图像语义特征压缩到自然语言文本中。

2024-01-15 16:53:47 954

原创 StableRep - Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners

这篇 StableRep 相当于是 SynCLR 的前身。首先提出了使用同一个 caption 生成的多张图片,作为对比学习中的多正例的方式。即 Multi-Positive Contrastive Learning。相比于 SynCLR,区别主要是 StableRep 的 caption 是现成的,从 CC3M 等数据集中直接拿的。而 SynCLR 的机造数据思想贯彻得更彻底,连 caption 也是使用 LLM 根据类别词表生成的。

2024-01-15 14:55:28 397

原创 Learning Vision from Models Rivals Learning Vision from Data

笔者最近一直在思考多模态的数据飞轮。图生文/文生图模型可以生成原始数据(可以加一些互联网真实数据),而 CLIP 又能过滤低质数据(可以加一些人工标注),高质量的数据又反过来可以用来训练图生文/文生图/CLIP模型,如此往复迭代,是否能实现数据质量和模型性能的共同提升呢?这篇文章在机造生成数据作出了一些探索。没有用任何真实数据,仅凭生成模型机造数据,就达到了视觉表征学习 SOTA 的性能。虽然最终训练的目标不是 CLIP 类的图文相关性模型,但是还是从机造数据训练模型的角度给了多模态数据飞轮的很多参考。

2024-01-15 00:06:14 1013

原创 Understanding Contrastive RepresentationLearning through Alignment and Uniformity on the Hypersphere

align-uniform 是对比学习表征空间理论分析的一篇比较知名的工作。提出的 alignment 和 uniformity 的两种属性符合我们的直观认识,同时也提出了定量计算这两种属性的方法。是一篇非常有价值的工作。

2024-01-12 18:17:39 424

原创 SDE in diffusion models

SDE in diffusion models参考:https://www.bilibili.com/video/BV19M411z7hS/论文:Score-Based Generative Modeling through Stochastic Differential Equations本文被认为是 diffusion models 方向中最重要的一篇的论文。作者通过将之前的两类 diffusion models(DDPM、NCSN)通过 SDE 在理论上统一在了一起。注意虽然统一了两种形式,

2024-01-11 23:52:40 831

原创 DDAE: Denoising Diffusion Autoencoders are Unified Self-supervised Learners

DDAE 尝试将 diffusion 模型看作一种去噪自编码器,来将其中间层激活值作为表征,处理分类任务。并进行了超参搜索和表征空间的研究。

2023-12-29 16:04:47 461

原创 score-based model介绍

同为扩散模型。score-based model 在很多地方与 DDPM 非常相近(yang song 后来的文章也通过 SDE 统一了这两种形式)。通过理解两个关键问题。score-based model 的许多做法似乎有更好的解释性。如何采样?通过加不同程度的高斯噪声来权衡 score 估计准确性和数据分布真实性。如何估计 score?估计加入的噪声就是估计 score。

2023-12-27 23:28:00 944

原创 DDIM详解

DDIM详解参考:https://www.bilibili.com/video/BV1VP411u71p/虽然 DDIM 现在主要用于加速采样,但他的实际意义远不止于此。本文将首先回顾 DDPM 的训练和采样过程,再讨论 DDPM 与 DDIM 的关系,然后推导 DDIM 的采样公式,最后给出几个不同的理解 DDIM 的角度。DDPM回顾DDPM 实际是建模两个分布:diffusion 过程的分布 q(xt∣x0)q(x_t|x_0)q(xt​∣x0​) 、q(xt∣xt−1)q(x_t|x_{

2023-12-25 22:53:37 901

原创 全面理解Stable Diffusion采样器

在生成图片时,Stable Diffusion 会先在隐层空间(latent space)中生成一张完全的噪声图。噪声预测器会预测图片的噪声,将预测出的噪声从图片中减去,就完成了一步。重复该过程,最终将会得到清晰的图片。由于 Stable Diffusion 在每一步都会产生一个新的图像样本,因此去噪的过程被也被称为采样。采样过程所使用的方法被称为采样方法或采样器。采样器负责执行去噪步采样只是 Stable Diffusion 模型中的一部分。

2023-12-24 14:33:56 2007

原创 DDPM详解

DDPM详解参考 https://www.bilibili.com/video/BV1pa411u7G3/ 系列DDPM 可以分为 Diffusion 和 Reverse 两个阶段。其中 Diffusion 阶段通过不断地对真实图片添加噪声,最终得到一张噪声图片。而 Reverse 阶段,模型需要学习预测出一张噪声图片中的噪声部分,然后减掉该噪声部分,即:去噪。随机采样一张完全噪声图片,通过不断地去噪,最终得到一张符合现实世界图片分布的真实图片。以下分别介绍两个阶段的具体原理与公式推导。Diffu

2023-12-21 00:20:18 1194

原创 LVM Sequential Modeling Enables Scalable Learning for Large Vision Models

LVM 是一篇很有价值的工作,找到一种方式统一了视觉数据,并进行预测下一个视觉 token 的自回归式训练。证明了不借助其他模态的数据(如文本),纯视觉视觉也有机会涌现出智能。

2023-12-20 23:53:39 963

原创 T2I-Adapter Learning Adapters to Digout More Controllable Ability for Text-to-Image Diffusion Models

T2I-Adapter 保持预训练 SD 的参数不动,通过为不同的空间结构条件图训练一个轻量的 adapter,实现了对生成结果的空间结构控制和空间色彩控制。

2023-12-16 13:11:29 126

原创 ControlNet Adding Conditional Control to Text-to-Image Diffusion Models

ControlNet 的影响力不言而喻,我们终于能对生成结果的空间位置有精确的控制,而不需要再一次次的碰运气。ICCV 2023 Best Paper 实至名归。

2023-12-15 23:10:26 221

原创 ControlNet on diffusers

参考:https://huggingface.co/docs/diffusers/using-diffusers/controlnet v0.24.0ControlNet 通过输入给 diffusion 模型一个额外的输入图作为条件,来控制生成图的结果。这个条件输入图可以是各种形式,如 canny 边缘、用户的手稿、人体姿态、深度图等。这无疑非常有用,我们终于能更好地控制生成图的结果了,而无需再去反复调一些文本 prompt 或去噪步数之类的参数来抽奖。

2023-12-15 00:01:04 284

原创 DeCap DECODING CLIP LATENTS FOR ZERO-SHOT CAPTIONING VIA TEXT-ONLY TRAINING

文章提出的 Projection Decoding 的方式来弥合 CLIP text/image embedding 之间的 modality gap 还是很有意思的。可能也能做图像的生成?现在 SD 都是拿 CLIP text encoder 来做文本引导,这篇看下来直接拿 image embedding 做应该是不行了,但可能拿 PD 做个映射,也能有结果?

2023-12-13 19:32:03 143

原创 Classifier Guidance 与 Classifier-Free Guidance

DDPM 终于把 diffusion 模型做 work 了,但无条件的生成在现实中应用场景不多,我们终归还是要可控的图像生成。本文简要介绍两篇关于 diffusion 模型可控生成的工作。其中 Classifier-Free Guidance 的方法还是现在多数条件生成 diffusion 模型的主流思路。

2023-12-13 15:28:58 1930 3

原创 RCG Self-conditioned Image Generation via Generating Representations

在计算机视觉领域,自监督表征学习(对比学习 / 图像掩码建模)基本已经摆脱了人工标注数据的束缚,迈入自监督学习的新时代。而在图像生成领域,还是需要大量的带标签(text/label)的图文对。本文尝试根据自监督表征,来进行自条件的图像生成,性能直逼有条件生成,可以说是接近弥合了这一 gap。从方法的角度来看,是很有意思的一篇工作,结合视觉自监督表征,实现了无标注、无文本条件的生成。唯一遗憾就是方法本身看起来不太简洁,不熟悉几篇前置工作的话,理解起来还是要稍微费点劲儿的。

2023-12-12 16:07:33 394 2

原创 using dapers on diffusers: Dreambooth, Texual Inversion, LoRA and IP-Adapter

参考自:https://huggingface.co/docs/diffusers/using-diffusers/loading_adapters如今,对于 diffusion 模型,有许多高效的训练技术来微调一个定制化的模型,能够生成指定的物体 (object) 或者指定的风格 (style)。每种不同的训练技术在训练结束后,会得到不同的 adapter 模型。

2023-12-10 20:10:09 657 2

原创 Textual Inversion on diffusers

参考自官方文档:https://huggingface.co/docs/diffusers/training/textual_inversion_inference、https://huggingface.co/docs/diffusers/training/text_inversion?

2023-12-09 22:01:57 369 2

auto_login.py

0积分 免费下载 东华大学校园网自动登录脚本(非selenium,可远程ssh操作),之前流传的东华大学校园网自动登录脚本都是使用自动化测试库selenium实现。虽然在图形界面可以完成自动登录的需求,但是当需要远程ssh操作链接时则无能为力了。本资源由实验室开发,通过requests库及重定向技术实现,单个py文件,预装python3即可使用。 有报错可联系博主

2021-08-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除