自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

TigerZ*的博客

主要分享计算机视觉、大健康相关内容

  • 博客(107)
  • 资源 (7)
  • 收藏
  • 关注

原创 目标检测算法——YOLOV9——算法详解

本文主要介绍了YOLOV9 算法的原理,并结合官方git 源码和其他人员的一些issue,更深层的尝试去探讨论文具体实现时的一些疑问。

2024-04-16 19:45:36 621

原创 模型量化——NVIDIA——方案选择(PTQ、 partialPTQ、 QAT)

本文主要介绍NVIDIA 模型量化方案的选型思路(主要有三种:PTQ、 partialPTQ、 QAT)。并且对其中涉及的知识点进行了提炼总结。

2024-04-09 19:51:03 65 1

原创 大模型知识点汇总——分布式训练

本篇在宏观上介绍AIGC、LLM 训练过程中的模型加速相关概念和技术,不做数学推导和过于细节介绍,旨在快速有一个宏观认知,不拘泥在细节上。涉及:混合精度训练、数据并行、张量并行、流水线并行、模型并行、3D并行、混合并行、ZeRO 1、ZeRO 2、ZeRO 3、ZeRO-offload、Megatron、DeepSpeed、PFlash Attention、nvlink、nvswitch、Infiniband。

2024-03-25 19:54:33 161

原创 大模型知识点汇总——模型基础知识

本文主要介绍LLM面试中的模型方面的基础知识点,并且每个知识点做成了一级目录的形式,便于查阅,有任何建议和意见实时修改更新。

2024-03-18 19:54:25 161

原创 VM 系列——AIM——论文解读

是一个纯视觉的预训练模型(没有使用任何的文本标签),仿照LLM GPT的训练思路(解码器,但是是前缀自注意力),将一幅图像分块预测图像的下一块(像素值)。主要作为预训练权重,可以用于图像分类、检索等下游任务。在20亿张图像上预训练70亿参数在ImageNet 1k上使用冻结的主干实现了84.0%精度。发现并验证了和LLM相似的两个性质:(1)视觉特征的性能与模型容量和数据量成正比,(2)目标函数的值与模型在下游任务上的性能相关。

2024-03-05 11:45:25 80 3

原创 LLM 系列——BERT——论文解读

BERT是单模态“小”语言模型,是一个“Bidirectional Encoder Representations fromTransformers”的缩写,是一个语言预训练模型,通过随机掩盖一些词,然后预测这些被遮盖的词来训练双向语言模型(编码器结构)。可以用于句子分类、词性分类等下游任务,本身旨在提供一个预训练的基础权重。

2024-02-28 20:17:25 310 1

原创 VLM 系列——LLaVA-MoLE——论文解读

整体基于Llava1.5,主要变化在于LLM增加了moe+lora模块,进行了两阶段训练(冻结图像编码器、投射层、文本编码器,只训练Lora和moe)。具体结构包含:基于CLIP的视觉编码器,文本解码器(attention层添加Lora,FFN层添加Lora版的MOE),使用最简单的两层FC构成MLP映射视觉特征到文本长度。

2024-02-06 18:23:27 488

原创 VLM 系列——MoE-LLaVa——论文解读

一、概述一、概述1、是什么moe-Llava 是Llava1.5 的改进 全称《MoE-LLaVA: Mixture of Experts for Large Vision-Language Models》,是一个多模态视觉-文本大语言模型,可以完成:图像描述、视觉问答,潜在可以完成单个目标的视觉定位、名画名人等识别(问答、描述),未知是否能偶根据图片写代码(HTML、JS、CSS)。支持单幅图片输入(可以作为第一个或第二个输入),多轮文本对话。

2024-02-05 19:56:27 294

原创 VLM 系列——Llava1.6——论文解读

Llava1.6基于CLIP的视觉编码器,以及多个版本语言解码器,使用最简单的两层FC构成MLP映射视觉特征到文本长度,构建了一个大规模的多模态模型,并且将该模型在指令视觉-语言数据上进行了微调。最大的区别是仿照monkey这篇论文也将图片分割成几个部分然后拼接送入LLM,不同是他们有使用query这种降维方式。

2024-02-05 19:39:04 473

原创 VLM (MLLM)系列——论文解读总结

从数据、模型、训练三个角度概述VLM也就是MLLM模型的内容,该综述能够快速对比论文的创新点等,非常适合初学者、学生、在职人员。

2024-02-05 19:33:49 116

原创 VLM 系列——Qwen-VL 千问—— 论文解读

Qwen-VL表示多任务训练后的模型,Qwen-VL-chat是基于Qwen-VL的指令调优(第三阶段SFT——监督微调)后的视觉语言聊天机器人。

2024-01-28 16:25:12 1274

原创 VLM 系列——Llava1.5——论文解读

Llava1.5 ,是一个多模态视觉-文本大语言模型,可以完成:图像描述、视觉问答、根据图片写代码,潜在可以完成单个目标的视觉定位、名画名人等识别(问答、描述)。支持单幅图片输入(可以作为第一个或第二个输入),多轮文本对话。本文基于CLIP的视觉编码器,以及LLaMa语言解码器,使用最简单的两层FC构成MLP(llava是一层)映射视觉特征到文本长度,构建了一个大规模的多模态模型,并且将该模型在指令视觉-语言数据上进行了微调(数据集更丰富),并且通过增加特定指令来解决简单回答指令的跟随性。

2024-01-28 15:53:13 300

原创 VLM 系列——Llava——论文解读

Llava 全称《Visual Instruction Tuning》,是一个多模态视觉-文本大语言模型,可以完成:图像描述、视觉问答、根据图片写代码(HTML、JS、CSS),潜在可以完成单个目标的视觉定位、名画名人等识别(问答、描述)。支持单幅图片输入(可以作为第一个或第二个输入),多轮文本对话。 本文基于CLIP的视觉编码器,以及LLaMa语言解码器,构建了一个大规模的多模态模型(使用最简单的单层FC映射视觉特征到文本长度),并且将该模型在指令视觉-语言数据上进行了微调。

2024-01-28 15:35:51 403

原创 VLM 系列——Monkey——论文解读

Monkey,是一个多模态的视觉-文本模型,当前版本(20231130)为基于Qwen-vl 的三阶段微调(增加了Lora+visual adapter 支持更高的分辨率)可以完成对一幅图片进行描述(强项,更细节)、相关事物(文本)进行问答(强项,尤其文本),但是这个版本只支持一个图片(为且必为首次输入),几乎不支持写代码(目前测试是的),图中物体或指定输出检测框仍然保留的能力,但是弱了。提出使用Lora 微调已有Qwen-vl 视觉编码器(有多个,看下文的模型结构),加visual adapter 将多个

2024-01-28 15:09:58 489

原创 VLM 系列——BLIP——论文解读

BLIP是一个多模态视觉-文本大语言模型,隶属BLIP系列第一篇,可以完成:图像描述、视觉问答、图像检索。由于没有接入LLM,所以虽然可以做生成任务,但是没有很强的对话能力以及世界知识。主要是模型和数据两方面创新:模型方面:把模型设计成了一个unified 框架,可以同时满足:图文检索和图像描述任务。主要有三部分构成:视觉编码器、文本编码器和多模态编码器。数据方面:提出了一个Captioner和Filter 模块,Captioner对一张图生成描述(也就是图文对的文)、filter过滤噪声图文对。用这种数据

2024-01-28 09:52:46 100

原创 VLM 系列——COGVLM—— 论文解读

COGVLM是一个多模态的视觉-文本模型,当前CogVLM-17B(20231130)可以完成对一幅图片进行描述、图中物体或指定输出检测框、相关事物进行问答,但是这个版本只支持一个图片(为且必为首次输入),只支持英文,几乎不支持写代码(目前测试是的)。模型分四个部分:视觉编码器、MLP适应层(对齐视觉和文本特征)、文本解码器、视觉专家模块。在不损害NLP模型原本能力的情况下,通过“视觉专家”模块 + 两层的MLP adapter 替代浅层的对齐大幅提升了模型的图片描述、视觉问答和视觉定位能力。

2024-01-25 20:21:49 488

原创 VLM 系列——BLIP2——论文解读

BLIP2是一个多模态视觉-文本大语言模型,隶属BLIP系列第二篇,可以完成:图像描述、视觉问答、名画名人等识别(问答、描述)。支持单幅图片输入(作为第一个输入),多轮文本对话。使用冻结的图像编码器、LLM外加一个Q-former,分两阶段来pre-train模型,例图解决训练成本高和模型灾难遗忘的问题。在多个数据集上的zero-shot 和finetune取得很好的效果。

2024-01-25 19:54:19 203

原创 VLM 系列——中文CLIP——论文解读

CLIP 的中文版,训练使用2亿 图-文 对的分两阶段训练的对比学习(不是LLM的预测下一个token),是一个双塔模型(图像和文本各子拥有一个编码器)。由于对齐了图像和文本特征,可以用来做:图-图(文章中没有相关测试任务)、图-文、文-图、文-文(文章中没有相关测试任务)的检索,当然 图-文 和 文-图 检索 也可以转化为zero-shot 的分类。

2024-01-23 20:19:10 174

原创 VLM 系列——CLIP——论文解读

是使用图文对(将图像表征与语言联系起来)使用对比学习(有的文章称为自监督,有的文章称为无监督)训练的多模态模型。从互联网上大量文本的监督(自然语言监督)中学习,要比传统的分类数据要大得多。可以用来图片zero-shot 分类(其实就是图-文检索,但是不同于以往的ImageNet预测一组固定的预定对象类别),文-图检索,图-图检索(文章没有提及,也没有测试);还有后面的整个AIGC 都有他的影子,比如Stable diffusion 的图像编码器、BLIP系列的图像编码都是使用的CLIP系列的预训练权重。

2024-01-22 20:09:42 237

原创 VLM 系列——Instruct BLIP——论文解读

本文主要介绍Instruct BLIP,是一个多模态视觉-文本大语言模型,隶属BLIP系列第三篇,可以完成:图像描述、视觉问答、名画名人等识别(问答、描述)。支持单幅图片输入(作为第一个输入),多轮文本对话。(不支持图文交错输入、写代码、视觉定位、JSON mode等。)构造一个指令数据集,整体架构沿用BLIP2,在Q-former中多加入了文本prompt token来和图片进行交互。只训练q-former,在多个数据集上的zero-shot获得sota.

2024-01-22 19:53:07 210

原创 VLM 系列——Object Recognition as Next Token Prediction——论文解读

本文主要介绍《Object Recognition as Next Token Prediction》:结合了CLIP 的视觉编码器+语言模型Llama 的部分参数,将常见的图片描述任务转变为只输出属性,换言之将图片分类转变为预测下一个文本输出token。这样就能够生成图片的top K属性(英文),用于开放域的图片Tag 场景。

2024-01-08 19:55:03 1034

原创 AIGC(MLLM、VLM、LLM、SD)系列——论文解读目录

AIGC(MLLM、VLM、LLM、SD)系列,论文解读目录。快速找到你想要的论文。

2024-01-08 19:46:45 867 1

原创 AIGC系列——论文解读模板

这里主要介绍AIGC系列的行文结构,方便快速判断内容分布,合适大佬、客官们订阅AIGC专栏,节省大把时间,快速定位需要的部分,适合学生、入门AIGC和作为笔记检索使用。

2024-01-08 19:32:29 427

原创 VLM 系列——RAM++(recognize anything++)—— 论文详解

本文详细介绍了RAM++ 《Open-Set Image Tagging with Multi-Grained Text Supervision》涉及到的模型结构、数据清洗、训练细节以及对应的消融实验。

2023-11-27 18:42:11 836

原创 OpenAI 开发者大会2023 解读

本文主要介绍OpenAI 2023 开发者大会 的新技术,涉及GPT-4的升级点,GPTs的使用方法,相关工具如代码解释器、检索、函数调用的解读。

2023-11-16 18:16:20 489

原创 VLM 系列——RAM(recognize anything)—— 项目使用——调整阈值(获得置信度)

原始代码并不会输出得分,而是根据各个属性的阈值判别大于阈值(不同的子类不同)的为命中,输出对应的属性。本文详细介绍如何输出得分,并做可视化分析。

2023-11-07 14:52:27 267

原创 文生图——DALL-E 3 —论文解读——第一版

本文主要是DALL·E 3官方第一版技术报告(论文)的解读。 一句话省流版,数据方面,训练时使用95%模型(CoCa)合成详细描述caption + 5%原本人类 caption,测试时使用GPT-4v 扩写人类caption;模型方面使用T5xxl + vae encoder + diffusion latent + 自家decoder 取得最好效果。

2023-10-25 10:08:08 1387

原创 VLM 系列——RAM(recognize anything)—— 论文详解

详细介绍了RAM(recognize anything)的模型结构、数据集构成方式、数据清洗方式,以及创新点和使用方法。

2023-10-23 14:20:44 651

原创 TRT8系列—— 版本差异注意事项

TRT8 一个大版本,8.4-、 8.5、 8.6(包含预览功能)却有很多变动,主要涉及输入输出的绑定binding接口、dynamic shape性能调优、dynamic shape 和context的绑定。

2023-08-17 17:21:30 652

原创 yoloV5 教程——tensorboard使用

yolov5下tensorboard 的使用。

2023-02-02 20:01:43 3773 2

原创 目标检测算法——YOLOV8——算法详解

本文梳理Yolo v8 的改进点,并针对一些较难理解的点进行重点阐述,主要有如下几方面:backbone 使用C2f模块,检测头使用了anchor-free + Decoupled-head,损失函数使用了分类BCE、回归CIOU + VFL(新增项目)的组合,框匹配策略由静态匹配改为了Task-Aligned Assigner匹配方式、最后 10 个 epoch 关闭 Mosaic 的操作、训练总 epoch 数从 300 提升到了 500。

2023-01-31 19:15:00 57232 43

原创 YOLOV8——快速训练指南(上手教程、自定义数据训练)

本篇主要用于说明如何使用自己的训练数据,快速在YOLOV8 框架上进行训练。当前(20230116)官方文档和网上的资源主要都是在开源的数据集上进行测试,对于算法“小白”或者“老鸟”如何快速应用到自己的项目中,这个单纯看官方文档显得有点凌乱,因为YOLOV8 不再致力于做一个单纯算法,而是想要做一个一统(分类、检测、分割且多种模型)的框架。本文以检测为例。

2023-01-16 22:45:00 42474 28

原创 cv-cuda (cvcuda、nvcv)教程——Python安装

由于当前版本安装后,大家反应import nvcv cvcuda 失败,看官方文档,当前还不是很规范,特此记录当前版本的安装方法。

2023-01-11 17:07:42 3246 8

转载 YOLOv8 抢先解读

同一团队出品,YOLOv8和YOLOv5改进方向:Backbone、PAN-FPN、Decoupled-Head、Anchor-Free、损失函数、样本匹配。

2023-01-10 15:08:52 1581 2

原创 查看cuda cudnn 版本 & 一些常见疑问

linux 查看cuda、cudnn版本。以及推理变慢等原因的排查。

2022-12-13 16:20:54 6951 1

原创 TRT8系列—— pytorch 模型转 onnx

详细介绍 Torch 模型如何导出 onnx ,并且提供完整的代码支持如下几个特性:动态batch、单输入、多(两)输出 。同时罗列其中的注意事项。这是后续TRT等加速的基础步骤。

2022-10-12 17:06:04 996

原创 yolov5 优化——mosaic相关

Mosaic 利用了四张图片重新排布成一张图片,优点是丰富检测物体的背景、增加了很多小目标,让网络的鲁棒性更好。但是,如果我们的数据集本身就有很多的小目标,那么Mosaic数据增强会导致本来较小的目标变得更小,导致模型的泛化能力变差。如果我们的类目的关键信息是框的某个局部(某些场景你又不能标局部)那么裁切可能会将这个局部信息裁切没,导致模型无法拟合真正的信息。本文旨在如何修改mosaic来对特定场景进行调优。...

2022-08-17 19:52:29 4272 8

转载 GPU利用率低常见原因分析及优化方式

本文的 GPU 利用率主要指 GPU 在时间片上的利用率。GPU 任务会交替的使用 CPU 和 GPU 进行计算,当 CPU 计算成为瓶颈时,就会出现 GPU 等待的问题,GPU 空跑那利用率就低了。那么优化的方向就是缩短一切使用 CPU 计算环节的耗时。...

2022-08-17 10:35:13 10936

原创 backbone核心详解系列——RepVGG

设计了重参数化的模块,将训练和推理解耦,并且设计了两个系列的整体网络结构和相应的缩放方法,可以适应不同的精度性能需求,结果显示在GPU上推理速度高于renset系列。PS:这个网络主要考虑的是提升GPU(不是移动端)的计算密度(计算量除以计算时间),追求高速度、省内存,较少关注参数量和理论计算量。在低算力设备上,可能不如 MobileNet 和 ShuffleNet 系列适用。主要借鉴了ACNet、VGG和resnet的思想。核心模块。...

2022-08-04 11:18:58 1673

原创 目标检测算法——YOLOV6

yolov6 特性解读和完整的网络结构可视化。

2022-08-03 20:02:48 1057

目标检测 机器学习方法 静态场景 测试车辆检测

利用机器学习方法(分类)实现静态场景下的测试车辆检测  利用C语言或者Open_CV库,或者是MATLAB软件编写实现静态场景下的测视车辆检测。需使用机器学习方法。代码可以通过一个主函数直接运行出实验结果。  Data文件夹中包含train_34x94(训练集)和test(测试集)两个文件夹。其中,train_34x94文件夹中的数据用于训练模型,包含pos文件夹(内有550个正例样本)和neg文件夹(内有500个负例样本); Test文件夹中的数据用于测试。  在Test测试集中的总体检测性能的评价指标为Recall、Precision 和F-measure,写出对算法的性能评价和对实现中遇到问题的理解。

2017-02-14

高斯混合模型背景建模

利用Scene_Data文件夹中的视频帧序列实现基于GMM(高斯混合模型)的背景建模。  利用C语言或者Open_CV库,或者是MATLAB软件编写混合高斯模型算法的程序。实现给定图像帧序列的背景建模及跟踪。代码可以通过一个主函数直接运行出实验结果。  要求写出对算法即其实现遇到问题的理解和实时性问题,每秒能处理多少帧,录制代码运行时的视频拷屏

2017-02-14

基于均值漂移法的目标跟踪

利用Mean Shift(均值漂移)算法对Car_Data文件夹中的视频帧序列实现目标跟踪,待跟踪的目标为场景中的车辆,初始目标位置标定需手工标定,(该视频序列中目标尺度没有很大变化,故在实现算法中只考虑单一尺度即可,即首帧中的目标大小。)后续帧中的目标位置需通过均值漂移方法得到。

2017-02-14

模板匹配技术

更深入理解模板匹配技术,能够独立根据已知算法(相关匹配(Correlation Matching)、基于Hausdorff距离匹配方法 及考虑对场景图象距离变换(Distance Transform)的Hausdorff距离匹配方法)在MATLAB下编程实现相关的模板匹配技术,并通过结果,对比不同算法的优缺点。 1)利用①相关匹配(Correlation Matching)、②基于Hausdorff距离匹配方法 及③考虑对场景图象距离变换(Distance Transform)的Hausdorff距离匹配方法,实现模板目标在场景图象中的定位。 2)对于每个模板分别给出最后的目标定位位置坐标(左下角坐标为(0,0)),对于方法①与②,比较定位精度的偏差;对于方法②与③比较定位效率(时间)。

2017-02-14

利用聚类技术实现纹理图像分割

利用聚类技术实现纹理图像分割 a)针对合成纹理图像(共有4个合成纹理图像,见文件夹:data\Texture_mosaic)中每一个像素提取纹理特征向量(提取纹理特征的方法可以为课堂讲的,也可以自己查找资料); b)利用聚类技术(推荐用k-均值聚类,可以从网上查找原码)对特征向量空间中的点进行聚类,类别数可根据图像中的实际纹理类数确定。最后把类属标签映射成图像形式显示(如下图,其中b、d、f、h为相应的基准分割图像)。

2015-12-23

利用基于直方图的自适应阈值方法实现分割前景与背景

利用基于直方图的自适应阈值方法实现分割前景与背景 a)设定三个不同阈值,直接观察分割结果; b) 利用统计直方图,得到一个自适应的阈值,再观察实验结果; c) 以报告形式(word)阐述对所采用的基于直方图的自适应阈值法、实验结果以及对实验结果的分析。具体格式不限,但条理要清晰

2015-12-23

windows程序设计_第五版(中文完整版)

windows很全的入门,也很经典,大家可以下载看看

2014-01-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除