- 博客(623)
- 资源 (13)
- 收藏
- 关注
转载 PyTorch Cookbook(常用代码段整理合集)
本文代码基于PyTorch 1.0版本,需要用到以下包import collectionsimport osimport shutilimport tqdmimport numpy as npimport PIL.Imageimport torchimport torchvision1 基础配置1-1 检查PyTorch版本torch.__version__ ...
2019-04-27 15:58:29 2751 4
原创 Linux常见命令汇总(累积中。。。)
Linux下统计当前文件夹下的文件个数、目录个数统计当前文件夹下文件的个数,包括子文件夹里的ls -lR|grep "^-"|wc -l统计文件夹下目录的个数,包括子文件夹里的ls -lR|grep "^d"|wc -l统计当前文件夹下文件的个数ls -l |grep "^-&quot
2018-12-06 11:08:08 1546 11
原创 本博客目录及版权申明
【C++ Primer 学习笔记】系列:第一部分 基本语言第二部分 容器和算法 【C++ Primer 学习笔记】: 容器和算法之【顺序容器】 【C++ Primer 学习笔记】: 容器和算法之【关联容器】 【C++ Primer 学习笔记】: 容器和算法之【泛型算法】第三部分 类和数据抽象第四部分 面向对象编程与泛型算法第五部分 高级主题【Java: 23种设计模式】系列 Java: 23
2015-11-25 17:37:30 1421 1
原创 SAM-Lightening: Lightweight Segment Anything Model with Dilated Flash Attention
通过将自注意力操作符蒸馏成具有动态层次蒸馏的Dilated Flash Attention,SAM-Lightening在图像上完成推理平均每张仅需7ms,实现了比SAM-ViT-H快30.1倍的速度提升。
2024-03-18 11:41:56 415
原创 Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
Sora 是一项重大突破,类似于 ChatGPT 在 NLP 领域的影响。Sora 是第一个能够根据人类指令生成长达一分钟视频的模型,同时保持较高的视觉质量和引人注目的视觉连贯性,从第一帧到最后一帧都具有渐进感和视觉连贯性。
2024-03-14 14:08:37 690
原创 opencv编解码base64字符串
下载仓库,并将base64.h,Base64.cpp 加入代码中,将Mat对象编码为base64字符串。将base64解码为Mat对象。
2024-03-14 10:04:11 258
原创 EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM
作者在对各种蒸馏策略进行深入剖析后,证实了task-agnostic的编码器蒸馏难以完全吸收SAM所掌握的全部知识。鉴于此,EdgeSAM巧妙地循环运用bbox与point提示词,并同步对提示词编码器和Mak解码器进行蒸馏,以确保蒸馏模型能够精准地掌握提示词与Mask之间错综复杂的关联。EdgeSAM是首个能在iPhone 14上以超过30 FPS运行的SAM变体。在2080Ti上,相比原生SAM,EdgeSAM推理速度快40倍;
2024-03-13 16:25:16 535
原创 RepViT-SAM: Towards Real-Time Segmenting Anything
RepViT-SAM延续了MobileSAM的处理方式,引入RepViT-M2.3作为图像编码器提取图像特征,以及选用了SAM-ViT-H作为老师模型进行蒸馏。
2024-03-13 16:23:43 311
原创 EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything(EfficientSAM)
SAM 是一款具备显著实质意义的 Transformer 模型,它在庞大的 SA-1B 数据集上接受了深度训练,因此在零样本迁移与多功能性方面展现出了卓越的性能。尽管如此,由于其高昂的计算需求,SAM 的应用范围受到了一定的限制。SAMI 创新地采纳了 SAM 编码器 ViT-H 来生成特征嵌入,并通过训练轻量级编码器构建掩码图像模型。这一策略巧妙地绕过了传统的从图像补丁中重建特征的路径,转而直接从 SAM 的强大 ViT-H 中汲取特征。
2024-03-05 17:08:17 598
原创 深度学习论文: YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information及其PyTorch实现
首先,YOLOv9引入了革命性的可编程梯度信息(Programmable Gradient Information, PGI)技术,这一创新理念致力于解决深层神经网络中信息丢失的难题。传统的目标检测网络在传递深层信息时,经常丢失对最终预测至关重要的细节。然而,YOLOv9借助PGI技术,确保了网络在学习过程中能够维持完整的输入信息,从而获取更加可靠和精确的梯度信息,极大地提升了权重更新的准确性。这一独特的设计显著提高了目标检测的准确率,为实现实时、高精度的目标检测提供了强有力的支持。
2024-03-01 17:25:35 652
原创 ncnn之三(补充):window环境下vs2022安装ncnn+protobuf
启动VS2022 下面的 x64 Native Tools Command Prompt for VS2022。
2024-02-20 14:00:10 563
原创 std::vector<cv::Mat>和unsigned char** in_pixels 互相转换
转换为unsigned char** in_pixels,将std::vector。
2024-02-07 16:02:12 366
原创 PaddleOCR将自己训练的模型转换为openvino格式模型
inference 模型(paddle.jit.save保存的模型) 一般是模型训练,把模型结构和模型参数保存在文件中的固化模型,多用于预测部署场景。训练过程中保存的模型是checkpoints模型,保存的只有模型的参数,多用于恢复训练等。与checkpoints模型相比,inference 模型会额外保存模型的结构信息,在预测部署、加速推理上性能优越,灵活方便,适合于实际系统集成。模型,inference模型保存在。onnx转为ov模型。
2024-01-26 15:22:44 315
原创 Lama Cleaner安装以及使用
Lama Cleaner是一款完全免费开源,而且没有分辨率限制的图片去水印、修复工具。Lama Cleaner,内置了多种AI 模型构建,功能相当的齐全。可用于快速去除图像中各种水印、物品、人物、字体、等对象,并支持老照片修复、文本替换图像内容等。项目地址:https://github.com/Sanster/lama-cleaner。
2024-01-25 13:44:53 501
原创 在C#中调用C++函数并返回const char*类型的值
在C#中,使用DllImport特性将C++函数声明为外部函数。在Main方法中,调用generateProjectCode函数并将返回的指针转换为const char*类型的字符串。在C#中调用C++函数并返回const char*类型的值,可以使用Interop服务来实现。C++代码需要编译为动态链接库(DLL)。
2024-01-22 10:52:33 466
原创 深度学习论文: An End-to-End Trainable Neural Network for Image-based Sequence Recognition
CRNN将特征提取,序列模型和转录融合到一个统一的框架下。目前已经存在的算法的组件大多是分开训练和调整的,相比之下CRNN是可以进行端到端训练的。能够自然的处理任意长度文本,不涉及字符分割和水平尺度归一化不受限于任何预定义的词库,并且在使用词库和不使用词库的模式下都取得了较好的成过。使用高效且小的多的模型,在现实应用中更具实用性。
2023-11-17 16:25:19 123
原创 深度学习论文: PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network及其PyTorch实现
PGNet是一个单阶段文本spotter,,其中像素级字符分类图是通过提出的PG-CTC损失学习的,从而避免了字符级注释的使用。使用PG-CTC解码器,我们可以从二维空间中收集高级字符分类向量,并将其解码为文本符号,而无需进行NMS和RoI操作,从而确保了高效率。此外,根据每个字符及其相邻字符之间的关系,提出了一种图形细化模块(GRM),以优化粗略识别并提高端到端性能设计PGNet loss指导训练,不需要字符级别的标注不需要NMS和ROI相关操作,加速预测提出预测文本行内的阅读顺序模块;
2023-11-17 12:57:51 144 1
原创 深度学习论文: Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion
在 DBNet 中,在分割网络中直接对多尺度的特征图聚合来提高对不同尺度的鲁棒性,直接聚合缺少了对特征的选择性DBNet++ 中,作者提出了 Adaptive Scale Fusion (ASF) module,来动态聚合多尺度特征图联合优化分割网络的 DB 模块,能够获得更加鲁棒的结果并提升文本检测的效果在 infer 过程中,DB 模块可以被移除且对最终效果没有明显的影响,故在 infer 过程中不会带来额外的时间消耗ASF 模块能够给分割网络引入更鲁棒的特征。
2023-11-16 17:09:58 77
原创 深度学习论文: Real-time Scene Text Detection with Differentiable Binarization及其PyTorch实现
传统的文本检测算法流程是先通过网络输出文本分割的概率图,然后使用预先设定好的阈值将概率图转换为二值图,最后使用后处理操作将像素级的结果转换为检测结果。然而,这样就会使得算法性能很大程度上取决于二值化时阈值的选择。DBNet对这个流程进行了优化,对每个像素点进行自适应二值化,二值化的阈值由网络学习得到,彻底将二值化这一步骤加入到网络里一起训练,这样最终的输出图对于阈值就会非常鲁棒。
2023-11-16 15:42:08 53
原创 Paddle-OCR根据垂直类场景自定义数据微调PP-OCRv4模型
除上述单张图像为一行格式之外,PaddleOCR也支持对离线增广后的数据进行训练,为了防止相同样本在同一个batch中被多次采样,我们可以将相同标签对应的图片路径写在一行中,以列表的形式给出,在训练中,PaddleOCR会随机选择列表中的一张图片进行训练。需要提供一个自定义字典({word_dict_name}.txt),使模型在训练时,可以将所有出现的字符映射为字典的索引。,在训练的时候,对于该行标注,会随机选择其中的一张图片进行训练。字段下的路径和文件里记载的图片名构成了图片的绝对路径。
2023-11-15 16:43:12 1813
原创 c# 和 c++ 匿名互相传递参数
在上述示例中,我们在C#中定义了一个匿名函数CallbackDelegate,并在C++中定义了一个匿名函数CallbackDelegate。然后,在C#中通过DllImport特性声明了C++中的函数CallCppFunction,并在Main方法中调用了该函数,并传递了C#中的匿名函数作为参数。在C++中,我们通过extern “C” __declspec(dllexport)声明了CallCppFunction函数,并在该函数中调用了C#中的匿名函数,并传递了参数。
2023-11-13 16:09:38 244
原创 Towards Generic Anomaly Detection and Understanding: Large-scale Visual-linguistic Model (GPT-4V)
最近,大型多模态模型(LMM)迅猛发展。其中,OpenAI最近推出的GPT-4V (ision)表现最为出色,具有强大的多模态感知能力。它在场景理解、图片生成等多个任务中都取得了良好的表现。这为通用异常检测的研究提供了新的范式和机会。为了评估GPT-4V在通用异常检测中的性能,来自华中科技大学、密歇根大学和多伦多大学的研究者联合进行了一项研究。他们在涉及4个数据模态和9个异常检测任务的15个异常检测数据集上对GPT-4V进行了全面的测试。
2023-11-13 13:59:54 84
原创 python 在 __init__.py文件中修改某变量的值(非手动)
当一个包被导入时,Python会自动执行该包下的__init__.py文件。这意味着__init__.py文件中的代码会在导入包时立即执行。如果我们的应用程序需要在引入包的时候,对__init__.py文件的变量设置不同的值,但是不想每次手动修改时,则可以这样操作。python的__init__.py文件在Python包被导入或使用时开始执行。原来的__init__.py文件。
2023-11-10 17:16:34 197
原创 OpenVINO 2023.0 实战七:OpenVINO部署PaddleOCR v4模型
1>gflags_static.lib(gflags_completions.cc.obj) : error LNK2038: 检测到“RuntimeLibrary”的不匹配项: 值“MT_StaticRelease”不匹配值“MD_DynamicRelease”(ocr_cpu_ov.obj 中)error LNK2038: 检测到“RuntimeLibrary”的不匹配项: 值“MT_StaticRelease”不匹配值“MD_DynamicRelease”移动到 可执行文件目录。
2023-10-27 10:36:09 495
原创 Win10 环境下 VS2022 暴力编译PP-OCRv4
解决方法: 属性 ->C/C++ ->预处理器 ->预处理器定义:GOOGLE_GLOG_DLL_DECL=解决方法:项目属性 -》链接器-》输入-》附加依赖项-》加上shlwapi.lib。解决方法: 属性 -> C/C++ -> 代码生成 -> 运行库。属性 --> 链接器 --> 输入 --> 附加依赖项。属性 --> VC++ 目录 --> 包含目录。属性 --> VC++ 目录 --> 库目录。修改 main.cpp文件。
2023-10-13 17:31:53 464
原创 深度学习论文: PyramidFlow: High-Resolution Defect Contrastive Localization using Pyramid Normalizing Flow
最近的研究表明,在预训练特征的基础上,进一步使用归一化流来重塑特征空间的概率分布,可以使正常原型紧致化。然而,直接将现有的归一化流技术应用于高分辨率图像是不可行的,因为高分辨率图像具有很大的块方差(patch-variance)。为了解决这个问题,现有的方法结合了预训练特征,将块特征投射到低方差的高维空间中。相比低维空间,高维空间能更有效地利用归一化流来重塑概率分布。
2023-10-08 13:15:44 179
原创 深度学习论文: EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies及其PyTorch实现
EfficientAD使用一种学生-教师的方法来检测异常特征。即训练一个学生网络来预测正常的、即无异常的训练图像的提取特征。在测试时,通过学生无法预测异常特征来实现异常检测。同时提出了一种训练损失,限制了学生模仿教师特征提取器超出正常图像的范围。这使得EfficientAD能够大大降低学生-教师模型的计算成本,同时提高对异常特征的检测能力。此外,EfficientAD还解决了检测涉及无效的正常局部特征组合的具有挑战性的逻辑异常问题,例如对象的错误排序。
2023-10-08 09:44:06 1108
原创 深度学习论文: Student-Teacher Feature Pyramid Matching for Anomaly Detection及其PyTorch实现
STFPM遵循学生-教师框架的优点,但在准确性和效率方面进行了大幅扩展。具体而言,STFPM使用在图像分类上经过预训练的强大网络作为教师,将其知识融入到具有相同架构的单个学生网络中。在这种情况下,学生网络通过将无异常图像的特征与预训练网络的对应特征进行匹配来学习无异常图像的分布,这一步骤的转移尽可能地保留了关键信息。此外,为了增强尺度鲁棒性,STFPM将多尺度特征匹配嵌入到网络中,这种分层特征匹配策略使得学生网络能够在更强的监督下接收来自特征金字塔的多级知识混合,并能够检测各种大小的异常。
2023-09-26 16:04:29 292
原创 深度学习论文: FastFlow: Unsupervised Anomaly Detection and Localization via 2D Normalizing Flows及其PyTorch实
大多数现有的基于表示的方法使用深度卷积神经网络提取正常图像特征,并通过非参数分布估计方法对相应的分布进行表征。通过测量测试图像的特征与估计分布之间的距离来计算异常分数。然而,当前的方法不能有效地将图像特征映射到可处理的基础分布,并忽略了识别异常所必需的局部和全局特征之间的关系。为此,提出了使用2D正则化流实现的FastFlow,并将其用作概率分布估计器。提出的FastFlow解决了原始的一维归一化流模型破坏了二维图像固有的空间位置关系,限制了流模型的能力,同时推断的复杂性很高,限制了实用价值等问题。
2023-09-26 14:18:25 153
原创 深度学习论文: Gold-YOLO: Efficient Object Detector via Gather-and-Distribute Mechanism及其PyTorch实现
在过去的几年中,YOLO系列模型已经成为实时目标检测领域的领先方法。许多研究通过修改架构、增加数据和设计新的损失函数,将基线推向了更高的水平。然而以前的模型仍然存在信息融合问题,尽管特征金字塔网络(FPN)和路径聚合网络(PANet)已经在一定程度上缓解了这个问题。因此,本研究提出了一种先进的聚集和分发机制(GD机制),该机制通过卷积和自注意力操作实现。这种新设计的模型被称为Gold-YOLO,它提升了多尺度特征融合能力,在所有模型尺度上实现了延迟和准确性的理想平衡。
2023-09-22 11:32:28 2323
原创 深度学习论文: ISTDU-Net:Infrared Small-Target Detection U-Net及其PyTorch实现
深度学习论文: ISTDU-Net:Infrared Small-Target Detection U-Net及其PyTorch实现ISTDU-Net:Infrared Small-Target Detection U-NetPDF: https://doi.org/10.1109/LGRS.2022.3141584PyTorch代码: https://github.com/shanglianlm0525/CvPytorchPyTorch代码: https://github.com/shanglia
2023-09-20 17:01:13 696
原创 Anomalib实战之二:支持自定义模型
torch_model.py文件包含了继承自torch.nn.Module的torch模型实现,定义了模型的架构并执行基本的前向传播。将模型存储在一个独立的torch_model.py文件中的优势是,模型与anomalib的其他实现解耦,也可以在库之外使用。lightning_model.py模块包含了继承自AnomalModule的lightning模型实现,AnomalModule已经具有与anomalib相关的属性和方法。在anomalib/models中创建的一个新目录,用于存储与模型相关的文件。
2023-09-13 09:37:02 352 1
CUDA C编程权威指南
2019-05-02
CUDA并行程序设计 GPU编程指南
2019-05-02
linux下安装Anaconda3+pytorch+tensorboardX依赖包
2019-03-23
Quartz 示例代码
2017-05-02
Java反射机制代码
2017-05-01
java反射示例代码
2017-05-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人