DeepGoAI-CSDN博客

原创 pix2pix-zero

首先，使用规范化的DDIM反转来得到一个反转的噪声映射，这是由BLIP图像字幕（caption）网络和CLIP文本嵌入模型自动生成的文本嵌入引导的。本文介绍了一种名为pix2pix-zero的图像到图像的翻译方法，它基于扩散模型，允许用户即时指定编辑方向（例如，将猫转换为狗），同时保持原始图像的结构。重要的是，这种方法不需要针对每种编辑类型和图像进行额外的训练，可以直接使用预训练的文本到图像的扩散模型。本文介绍了一种基于扩散的图像到图像的翻译方法，可以在不需要手动文本提示的情况下保持原始图像的内容。

2024-03-01 02:55:45 849

原创 Stable Diffusion 3来啦：AI画画大跃进，预览版等你体验！

各位创意达人，握紧你的画笔（咳咳，键盘），因为Stable Diffusion 3的预览版正在向我们招手！这不仅仅是一个更新，这是一次革命，带着更高级的多主题理解、更清晰的图像质量和更聪明的文字拼写能力，我们的AI小伙伴学会了更多花样。它的推出体现了我们的初衷：让每个人都能用上高大上的AI工具。当然，对于可能的审查和开放性问题，大家也有自己的看法。那些急不可待想要尝鲜的朋友，别急，Stability AI已经准备了自托管服务和开发者平台API，等正式版发布前你就可以先玩起来。当然也已经是非常大的进步了。

2024-02-24 00:19:17 339

原创花了钱的ChatGPT4.0在绘画方面的能力如何？Sora也能work吗

那ChatGPT4.0的AI绘图功能是否已经成熟到可以完成用户的所有需求了呢？花了钱的ChatGPT4.0在绘画方面的能力如何？还有一个比较致命的问题就是，文字都是乱的，有的纯属瞎写，不过最近新提出的。（PS：故事内容有分镜介绍，对话介绍，篇幅较长，不一一展示）（很有想法的ChatGPT4.0，下次别想了）AnyText: 多语言视觉文本生成与编辑。“愁眉苦脸的公主让愁眉苦脸的国王去和亲”AI图片生成的发展还需要经历漫长的过程。关注微信公众号 DeepGoAI。计算机杂谈及深度学习记录&分享。

2024-02-21 21:54:40 384

原创 AnyText: 多语言视觉文本生成与编辑

通过结合辅助潜在模块和文本嵌入模块，AnyText 能够在多种语言环境下生成清晰、准确的文本，并且可以轻松地集成到现有的扩散模型中，以提高文本的渲染和编辑质量。AnyText 通过一个包含辅助潜在模块和文本嵌入模块的扩散流程实现文本的生成或编辑，可以在图像中无缝整合文本，支持多种语言，是首个针对多语言视觉文本生成的工作。：结合潜在特征和文本嵌入，通过文本控制扩散管道生成或编辑图像中的文本，确保文本与图像背景的自然融合。这里展示了更多编辑的效果，在不规整的掩码下，依然可以做到毫无违和感的编辑效果。

2024-02-20 06:48:17 856

原创离谱！用ChatGPT进行审稿！

特别值得注意的是，这位教授99.9%确定这次评审完全是由ChatGPT完成的。因为在收到拒稿意见时，这位教授将整篇论文文本复制粘贴到ChatGPT中，并请求对论文进行一段摘要，得到的摘要与评审意见中的“论文贡献”部分几乎一致，只是在某些地方更换了一些单词。最近，一位教授的LinkedIn动态可谓是火了一把，他的论文被一个学术会议拒绝了，而原因竟然是……是的，那位审稿人可能在享受咖啡时，让AI来完成了“繁重”的工作！下次当你的论文被某个神秘的AI审稿人“青睐”时，别忘了，这可能只是一场由数字构成的梦幻泡影！

2024-02-18 22:43:33 610

原创 Mamba详解

此外，尽管这种改变使得模型不能使用高效的卷积计算，研究者设计了一种硬件感知的并行算法，以递归模式运行，使得Mamba在推理速度上比传统的Transformer快5倍，并且在序列长度上实现线性缩放。总的来说，这篇文章通过引入新的架构设计、硬件感知算法优化和输入依赖的动态，为提高结构化状态空间模型在序列数据处理和时间序列预测方面的性能和效率做出了贡献。但本介绍的工作的一个核心洞见是，LTI模型在模拟某些类型的数据时存在根本性限制，作者的技术贡献包括在克服效率瓶颈的同时移除LTI约束。）对所有时间步都是固定的。

2024-02-17 22:50:00 2780

原创 OpenAI又出王炸，Sora是否要开启视频AI新时代？

OpenAI又出王炸，Sora是否要开启视频AI新时代？关注微信公众号 DeepGoAI前几天我们还在讨论如何让ChatGPT3.5变得更聪明今天OpenAI就带着新王炸出现了如同ChatGPT一般在计算机领域掀起轩然大波开启真正视频AI新时代那就是Sora很多同学可能还不知道Sora它是由OpenAI公司推出的全新视频AI生成模型相较于其他现有的AI生成视频存在的问题Sora都提出了相应的优化升级首先让我们来看两个官网给出的视频片段给定提示内容：一位时尚女性走在充满温暖霓

2024-02-16 22:17:18 449

原创三分钟教你如何把不要钱的ChatGPT3.5用出花钱4.0的效果！

三分钟教你如何把不要钱的ChatGPT3.5用出花钱4.0的效果！

2024-02-14 00:43:05 468

原创三分钟教你如何把不要钱的ChatGPT3.5用出花钱4.0的效果！

里面提供了包含基础的“ChatGPT相关的学习工具和指导指南”，还有现在热门的“视频AI”、“会话AI”、“图像AI”、“写作AI”、“办公AI”等软件介绍，一条龙式满足你所有的学习和工作需求。三分钟教你如何把不要钱的ChatGPT3.5用出花钱4.0的效果！首先传授给大家一个教你如何使用提词器优化3.5的网址（4.0通用）如果说在提词器帮助前的ChatGPT是一个有天赋有能力的新人。那我们的提词器辅助就如同一位优秀的老师。计算机杂谈及深度学习记录&分享。所有的模型都是需要训练的。

2024-02-14 00:36:16 528

原创 GPT 3.5 真的比 4.0聪明吗？

ChatGPT4.0比3.5拥有更强大的理解能力和分析能力，如果你想要获取实时新闻、研究成果和热点信息，如果你需要根据你的文字需求生成创意的图片，如果你需要更深度的支持和更高级的分析，那ChatGPT4.0将是你的不二选择。然而如果在经济上有一定困难或者暂时不需要4.0的同学们，3.5的正确使用方法大家也要学会。比如如何正确灵活地使用提示词，如何更好地训练ChatGPT为自己所用。以后我们也会推出更多的推文，给大家提供支持和帮助！GPT 3.5 真的比 4.0聪明吗？如果我们用英文输入呢。

2024-02-13 02:13:36 888

原创论文介绍 VolumeDiffusion

鉴于扩散模型提供了良好的初始输出，作者在这一阶段整合了SDS（文献[37]中提出的方法），以优化结果，确保更好的图像质量和减少错误。作者的方法充分利用了现有的文本到图像模型来生成原始训练集中未覆盖的纹理，增强了纹理细节，并促进了生成图像的多样性。文章还强调了高维特征体积所带来的挑战，并提出了新的噪声计划和低频噪声，以改善扩散模型的训练。Objaverse主要由未经过滤的用户上传的3D模型组成，这些模型从网上爬取，包括许多几何形状、平面扫描和无纹理对象，以及基于图像的缺陷重建。

2024-02-13 02:12:43 849

原创论文介绍 One-step Diffusion 只需单步扩散生成！

通过最小化近似的KL散度和简单的回归损失，DMD能够在保持图像质量的同时实现极速的生成效率，即在现代硬件上以20 FPS的速度生成图像。尽管DMD在一步生成模型的效率和质量方面取得了显著进步，但作者也指出了其局限性，包括与更细致的扩散采样路径相比，仍有质量差距，以及性能受限于教师模型的能力。(b) 真实得分+假得分: 当考虑了真实和假分布的得分，但没有回归损失时，生成的假数据覆盖了更多的真实分布，但仍然完全错过了第二个模式，即没有捕捉到分布的全部特征。作者的推导使用扩散的均值预测形式来简化，但与。

2024-02-13 02:12:13 890

原创论文介绍 FreeControl: 无需额外训练实现文本到图像的空间操控！

上图提供了 FreeControl 方法的概述，展示了如何在无需额外训练的情况下，对任何预训练的文本到图像（T2I）扩散模型进行控制。该论文尝试解决的主要问题和挑战是如何在不需要额外训练的情况下，为预训练的文本到图像（T2I）扩散模型提供精细的空间控制。现有的方法，如ControlNet，虽然能够提供空间控制，但需要为每种空间条件、模型架构和模型文件训练额外的模块，这既耗时又费力，且难以适应不断演变的模型架构和个性化的模型。覆盖了多样的对象形状、姿态、外观以及图像构成和风格，对于语义基础的表达性至关重要。

2024-02-13 02:09:30 367

转载论文介绍 FreeControl: 无需额外训练实现文本到图像的空间操控！

分析阶段和合成阶段。分析阶段：通过对种子图像的扩散特征进行主成分分析（PCA），形成时间依赖的基BtB_tBt，作为语义结构表示。合成阶段：结构引导帮助在引导图像IgI_gIg的指导下构建输出图像III的结构模板，而外观引导从相同种子生成的兄弟图像Iˉ\bar{I}Iˉ中借用外观细节。FreeControl支持多种控制条件、模型架构和自定义模型文件，能够处理大多数现有无训练方法失败的挑战性输入条件，并且与基于训练的方法相比，实现了竞争性的合成质量。

2024-02-13 01:03:01 63

转载论文解读 One-step Diffusion with Distribution Matching Distillation

本文介绍了一种名为分布匹配蒸馏（DMD）的新技术，旨在加速扩散模型的图像生成过程，同时保持高质量的输出。DMD通过将扩散模型转化为一步生成模型，极大地提高了生成速度，达到了实时生成的目标。通过最小化真实与生成分布间的KL散度和引入回归损失，DMD能够在加速生成的同时，保证图像的多样性和质量。

2024-02-12 00:04:48 89

转载论文介绍 VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder

本文介绍了一种从文本提示高效且灵活生成3D对象的新方法。通过采用轻量级网络从多视图图像获取特征体积，证明了这种方法能够有效扩大扩散模型训练所需的训练数据规模。

2024-02-10 23:50:51 22

转载 ChatGPT4.0真的比3.5聪明吗？！

ChatGPT4.0比3.5拥有更强大的理解能力和分析能力，如果你想要获取实时新闻、研究成果和热点信息，如果你需要根据你的文字需求生成创意的图片，如果你需要更深度的支持和更高级的分析，那ChatGPT4.0将是你的不二选择。然而如果在经济上有一定困难或者暂时不需要4.0的同学们，3.5的正确使用方法大家也要学会。接下来为大家提供一些ChatGPT一本正经的胡说八道的搞笑画面（以下来源:一位科班出身的营养师 @小红书）我们可以明显发现，ChatGPT3.5的中文回答。因为两个人有复杂的“历史背景和人物关系”

2024-02-09 05:47:30 61

原创 raise AssertionError(“Torch not compiled with CUDA enabled“)

遇到的问题，就是 GPU driver 以及cuda都装完了，pytorch装完之后想试试代码。结果报错，raise AssertionError(“Torch not compiled with CUDA enabled”)。

2022-11-15 19:34:15 5735 1

原创 Pytorch只更新预训练模型的部分参数

假设有一个训练好的模型，并且我们只想微调部分参数。比如，这里我们只想更新最后一部分的参数：可以看到，这里的模块叫b4。我们可以直接通过获取模块的名字来进行更新：也就是说只要模块名字包含b4 就会让他跟新网络。对应的optimizer 的设置如下：然后直接训练就行。也可以直接把这些符合条件的 parameters 加入 list中，并传给 optimizer直接训练就行。##...

2022-06-25 01:34:29 2449

原创抗锯齿下采样（Anti-aliasing/down-sampling）-python-numpy 实现

抗锯齿下采样（Anti-aliasing/down-sampling）-python-numpy 实现这篇内容会涉及：卷积和抗锯齿下采样。代码请访问：https://github.com/LonglongaaaGo/ComputerVision问题描述如果直接对图片进行上采样，比如说用nearest 线性插值，我们能够发现上采样的图片会有很多锯齿，如上篇从Nearest插值到Bilinear插值的分析与python实现。其实如果直接进行下采样，也会出现这个问题，效果如图所示：上图，左边是原图（

2022-02-27 03:14:54 3697

原创从Nearest插值到Bilinear插值的分析与python实现

从Nearest插值到Bilinear插值的分析与python实现这篇主要是想分析一下Nearest差值和Bilinear差值的计算细节，然后附上对应的Python实现代码。自己实现的代码，希望对你有帮助：https://github.com/LonglongaaaGo/ComputerVision效果先给出实现效果：首先我们有一张小狗狗：然后用Nearest 上采样，能够得到：可以看到，有很多的锯齿，看起来不是很完美。然后试试这个实现的Bilinear 上采样：能够看到整体上柔和很

2022-02-04 11:44:43 4542

原创生成对抗网络 Generative Adversarial Nets(GAN)详解

生成对抗网络 Generative Adversarial Nets(GAN)详解近几年的很多算法创新，尤其是生成方面的task，很大一部分的文章都是结合GAN来完成的，比如，图像生成、图像修复、风格迁移等等。今天主要聊一聊GAN的原理和推导。github: http://www.github.com/goodfeli/adversarial论文： https://arxiv.org/abs/1406.2661背景介绍在GAN算法出来之前，关于生成的task表现一直都不太好，因为之前的方法由于在最

2022-01-30 21:54:36 2795

原创 ubuntu 中 screen的使用

ubuntu 中 screen的使用参考这两篇，亲测有效https://blog.csdn.net/euzmin/article/details/105090217https://www.cnblogs.com/quan-coder/p/9857883.html

2021-12-22 01:10:29 270

原创 Evolutionary algorithm （遗传算法）介绍

Evolutionary algorithm （遗传算法）介绍Evolutionary algorithm 遗传算法，实际上也是机器学习里面一个很重要的分支。为什么呢，因为他在之前几十年也是和深度学习一样非常火热流行。现在也有很多人在利用遗传算法做相关研究，还是比较流行的算法之一。Evolutionary algorithm 算法是受到自然界的一些启发，通过种群优化去解决一些相关的任务，比如做数独，解决一些实际的规划问题，组合优化问题。这里附上一个非常好玩的链接：小摩托车这个demo就是不断地

2021-12-10 09:56:48 2544

原创强化学习On-policy vs Off-policy

强化学习On-policy vs Off-policy这里我们讲讲强化学习中on-policy和off-policy的区别。实际上这个区别非常简单，就是说如果算法在更新它的policy的时候，它是依赖于前面的Q value function的话，那么它就是on-policy的。反之如果它是依赖于随机的一个输入或者人为的操控，那么它就是一个off policy的。具体来说就是由于在算法更新我们value fcuntion 的时候，实际上我们就是基于这个现有的policy去更新这个value的functi

2021-12-10 08:30:11 700

原创基于Monte Carlo 的策略评估

基于Monte Carlo 的策略评估在强化学习中，Monte Carlo 是一种被广泛用到的方法。这种方法主要是从经验 experience 中拟合数值，本质上就是从不同的采样中获得结果，然后将其平均。由于最后当采样的数量达到一定的数量级后，这种方法可以很好地拟合我们想要的函数。这里有一个很有意思的demo，展现的是Monte Carlo 如何应用在评估 π\piπ 的数值上。https://academo.org/demos/estimating-pi-monte-carlo/如上图所示，如果

2021-12-08 23:11:02 2687

原创 cv2 undefined symbol: g_date_copy (or qt.qpa.plugin: Could not load..)解决

cv2 undefined symbol: g_date_copyor qt.qpa.plugin: Could not load问题背景：这次就是想用Qt5 去做一个GUI，结果一运行就报这个：QObject::moveToThread: Current thread (0x7fc0f7435300) is not the object’s thread (0x7fc0f9f02cc0).Cannot move to target thread (0x7fc0f7435300)qt.qpa.

2021-09-06 23:35:55 491

原创 RuntimeError: Error building extension ‘fused‘&FAILED: fused_bias_act_kernel.cuda.o&ninja: build sto

RuntimeError: Error building extension ‘fused’&FAILED: fused_bias_act_kernel.cuda.o&ninja: build stopped: subcommand failed.问题如下：RuntimeError: Error building extension ‘fused’: [1/3] /usr/local/cuda/bin/nvcc -DTORCH_EXTENSION_NAME=fused -DTORCH_A

2021-08-17 17:47:52 10957 16

原创未运行任何程序，GPU使用率却很高（解决方案）

未运行任何程序，GPU使用率却很高背景，服务器的电脑什么程序也没跑，而且查看显存占用也是0.很奇怪的是，显卡的使用率却很高，如下图所示解决方法：执行命令：nvidia-smi -pm 1将驱动模式设置为常驻内存。问题解决，如下图所示：...

2021-07-31 09:06:21 13197

原创 ubuntu和win远程连接

ubuntu和win远程连接想要用win去连接ubuntu有用的链接如下：首先是安装，以及一些注意事项：https://www.cnblogs.com/xuliangxing/p/7560723.html然后是遇到一些错误如何解决：https://blog.csdn.net/u014447845/article/details/80291678后面发现连接之后，还是会灰屏，并且只有一个光标解决方案如下：https://www.cnblogs.com/wincai/p/5063023.htm

2021-07-17 12:42:10 98

原创 PIL,CV2,pytorch的图片维度顺序

PIL,CV2,pytorch的图片维度顺序PIL：img = Image.open(file).convert('RGB')w,h = img.sizeCV2：image = cv2.imread(filepath)image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)h, w, c = image.shapepytorch：batch,channel,h,w注意区分...

2021-05-15 08:56:19 1725 4

原创 Pytorch 多GPU TypeError: zip argument #1 must support iteration

碰到Pytorch 多GPU TypeError: zip argument #1 must support iteration这个问题时，考虑如下解决方式：1.尝试在模型forward的时候，不要输入list类型的数据，而是将其改成tensor的形式。实在不行就分开写。这样可能可以解决问题2.model 的forward 方法里，输出不能有常量，必须也是要求tensor的格式，先想办法改一下代码，输出常量在多GPU下是行不通的...

2021-05-01 10:45:38 2158

原创 Ubuntu 重启显卡驱动失败解决办法

Ubuntu 重启显卡驱动失败解决办法开机的时候发现显卡驱动失效了，直接导致循环登录其实问题就在于，自己装好显卡驱动之后，直接，因为内核的更新。导致计算机在开机的时候直接启动新的内核。然而新的内核和安装的驱动不匹配。NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and runn.

2021-04-03 14:44:15 1919 2

转载 Docker实现自动重启和容器自动重启

实现在服务器重启后自动启动docker服务以及容器（类似于守护进程服务）。重启启动docker服务systemctl enable docker.service重启启动docker容器启动时候使用 --restart=always参数。docker run -dit \--restart=always \ #配置为自动重启--name nginx \--network host \nginx已经启动了的容器可以更新启动配置。docker up...

2021-03-22 18:52:56 693

原创 Docker Error loading config file XXX.dockerconfig.json permission denied和 Docker Got permission 解决

Docker Error loading config file XXX.dockerconfig.json permission denied和 Docker Got permissiondenied 的解决1.如果是 ==》Error loading config file XXX.dockerconfig.json - stat /home/XXX/.docker/config.json: permission denied在使用Docker容器技术的过程中，执行完某条命令可能会出现如下提.

2021-03-19 09:10:59 1366

原创 Ubuntu 16 安装注意事项

Ubuntu 16 安装注意事项安装双系统可以参照https://blog.csdn.net/xrinosvip/article/details/804281331.首先需要确定系统是UEFI 启动模式，还是传统的 Legacy 启动，参考：https://blog.csdn.net/xrinosvip/article/details/804281333.3、制作启动U盘这一步很关键，若电脑是UEFI 启动模式，而不是传统的 Legacy 启动...

2021-03-13 10:47:27 144

原创证明p-norm是凸函数

证明p-norm是凸函数回顾一下 p-norm的定义，为：∣∣x∣∣p=(∑i=1n∣xi∣p)1/p||x||_p=(\sum_{i=1}^{n}|x_i|^p)^{1/p}∣∣x∣∣p=(∑i=1n∣xi∣p)1/p结论首先给出结论：当0<p<10<p<10<p<1时，Minkowski 不等式不成立，∣∣x∣∣p||\mathbf{x}||_p∣∣x∣∣p未滿足向量范数要求的三角不等式，故不能稱為范数(尽管我們仍可以計算它)。当1≤p<∞1

2021-02-24 09:50:02 5401

原创证明逻辑回归的目标函数是凸函数

证明逻辑回归的目标函数是凸函数参考：https://zhuanlan.zhihu.com/p/76639936本文写法有部分不同假设有训练数据D={(x1,y1),...,(xn,yn)}D=\{(\mathbf{x}_1,y_1),...,(\mathbf{x}_n,y_n)\}D={(x1,y1),...,(xn,yn)}, 其中(xi,yi)(\mathbf{x}_i,y_i)(xi,yi)为每一个样本，而且xi\mathbf{x}_ixi是样本的特征并且xi∈RD\mathbf{

2021-02-23 12:42:07 1231 10

转载 mathType符号变成框框

公式编辑器mathtype中一些符号显示方框，如何解决呢？出现这个问题的原因是这是因为windows中的mtextra.ttf（显示为MT Extra (TrueType)）字体文件不存在或版本太低，解决方法如下：1，查看windows文件夹下的fonts中是否有mtextra.ttf（显示为MT Extra (TrueType)）。找到后删除。2，在mathtype文件夹下MathType6.0\Fonts\TrueType中找到mtextra.ttf，复制到windows下的fonts文件夹内即

2021-01-08 16:55:58 5812

原创 Free-Form Image Inpainting with Gated Convolution

Free-Form Image Inpainting with Gated Convolutioncode&paper:https://github.com/JiahuiYu/generative_inpainting基于GAN的图像修复算法，效果非常好。主要贡献点：1.提出了新的Gated Convolution2.提出了新的SN-Parch GAN 效果稳定，且易训练3.新的CNN架构在以往的修复方法中，传统卷积对有效区域和无效区域都是以同样的对待方式，并对其进.

2020-09-14 16:40:50 1639

install_docker.sh

对数几率回归练习训练集和测试集

对数几率回归练习数据

空空如也