自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

知来者逆的博客

计算机视觉学习笔记

  • 博客(338)
  • 资源 (81)
  • 收藏
  • 关注

原创 情感识别——情感计算的模型和数据集调查

情感识别主要有三种类型:视觉情感识别(VER)、听觉/语音情感识别(AER/SEER)和生理情感识别(PER)。在机器学习方面,这些都是大量研究的主题。除此之外,混合现实(XR)技术(如 VR)被认为能够改善人们的主观情感体验,并已开展了多项相关研究。

2024-04-23 23:03:45 447

原创 探索ChatGPT在提高人脸识别与软性生物识准确性的表现与可解释性

本文通过一系列全面实验,深入评估了 ChatGPT 在人脸识别和特征估计等关键人脸生物识别任务中的表现。实验涉及多个不同的数据库,结果表明,在与专业训练模型的比较中,ChatGPT 展现了可观的准确性。尤其是在没有任何训练的情况下,ChatGPT 作为初始评估工具的潜力尤为突出。

2024-04-23 10:43:32 610

原创 计算机视觉——图像特征之FAST角点检测(OpenCV/Python)

FAST角点定义为:若某像素点与周围邻域足够多的像素点处于不同区域,则该像素可能为角点。考虑灰度图像,即若某像素点的灰度值比周围邻域足够多的像素点的灰度值大或小,则该点可能为角点。

2024-04-22 23:32:00 372

原创 探索大型语言模型(LLM)在人类性格个性评估(MBTI)中的前景与应用

本文介绍了让法学硕士评估人类个性的新思路,并描述了一篇论文,该论文提出了通过迈尔斯-布里格斯类型指标(MBTI)从法学硕士中评估人类定量个性的框架。

2024-04-22 15:15:13 827

原创 磁性呼吸传感技术与机器学习结合在COVID-19审断中的应用

本文结合磁性呼吸传感技术(MRST)和机器学习(ML)的优势,提出了一种对 COVID-19 及其变种进行实时监测和诊断的开创性方法。该研究强调了呼吸信号特征在区分 COVID-19 患者和健康人方面的有效性,为全球抗击该流行病做出了重要贡献。

2024-04-21 17:07:04 682

原创 多模态——PALO包含 10 种语言的多模态模型算法解析

本文开发了一种新的多语言大规模多模态模型 PALO。PALO 可将图像和文本查询作为输入,并能有效地与多种语言交互。它可以与多种语言进行交互。通过翻译 10 种语言的 150,000 条指令,并对每种语言进行 1,000 次人工标注对话,对模型进行了改进;通过在三种不同规模(1.7 亿、70 亿和 130 亿)的学习,PALO 提高了其在视觉和语言评估方面的整体性能、这证明了它的多功能性和可扩展性。

2024-04-21 09:35:01 739

原创 基于Google Gemini 探索大语言模型在医学领域应用评估和前景

研究结果证实了Gemini在理解多样医学主题方面的卓越能力,同时也指出了它在需要深层次专业知识的领域中的局限性。本文深入分析了Gemini及其他大规模语言模型在医疗领域的应用前景,并强调了它们的优势与面临的挑战,期望能为讨论人工智能技术在医疗领域未来发展提供有益的视角。

2024-04-20 20:39:41 1202 1

原创 LLMs——扩展数据受限的语言模型解决方案

单纯的参数数量增长并不一定能够带来性能上的提升,除非我们能够提供相应增长的、高质量的训练数据。这种现象可以通过“缩放规则”(Scaling Laws)来解释,它描述了模型规模和性能之间的关系。缩放规则指出,为了实现性能上的提升,我们需要按照特定的比例增加模型的参数数量和训练数据量。然而,这种增长模式在实际应用中可能会遇到瓶颈,因为可用的高质量数据是有限的,而且模型规模的增加也会带来计算资源和效率上的挑战。

2024-04-20 14:04:52 977

原创 Yolov8项目实践——基于yolov8与OpenCV实现目标物体运动热力图

物体运动热力图可以展示物体在一段时间内的运动轨迹和活动强度。这种图表通常通过颜色的变化来表示不同区域的运动热度,颜色的深浅代表了物体在该区域的运动频率或者速度的快慢。在物理学和计算机视觉领域,热力图可以用于分析和理解物体的运动模式,例如人流监控、交通流量分析或者运动员的运动轨迹分析。

2024-04-19 14:35:15 1929

原创 深度学习数据处理——对比标签文件与图像文件,把没有打标签的图像文件标记并删除

要对比目录下的jpg文件与json文件,并删除那些没有对应json文件的jpg文件,这个在深度学习或者机器学习时常会遇到。比如对一个数据集做处理时,往往会有些图像不用标注,那么这张图像是没有对应的标签文件的,这个时候又不想这些没有标注的图像文件占用了空间,所以则要删除掉没有标签对应的图像文件。

2024-04-19 10:10:08 318

原创 深度学习——常用激活函数解析与对比

在神经网络中,激活函数扮演着至关重要的角色。它们的主要目的是引入非线性因素,使得网络能够学习和表示更加复杂的函数映射。非线性激活函数是神经网络能够解决非线性问题的关键。如果没有非线性激活函数,无论神经网络有多少层,最终都相当于一个线性模型,这大大限制了网络的表达能力。非线性激活函数使得神经网络可以通过叠加多个非线性层来学习复杂的数据分布和模式。例如,ReLU(Rectified Linear Unit)激活函数通过将所有负值置为零,引入了非线性,同时保持了计算的简单性。

2024-04-18 13:03:19 1014 1

原创 数字人解决方案——EMAGE面部加肢体动画实现从音频生成数字人表情与动作

AI数字人面部与肢体的驱动算法是数字人研发中至关重要的一环,它能够有效降低VR Chat、虚拟直播和游戏NPC等应用场景中的成本。随着技术的发展,基于语音的面部、肢体和手部动作生成模型已经逐步成熟并得到广泛应用。然而,当尝试将这些独立模型生成的动画结果进行混合时,往往会导致整体动画效果的不协调。为了解决这一问题,研究人员开始探索采用统一的框架来同步生成面部表情和肢体动作,以期达到更自然、协调的动画效果。

2024-04-18 08:58:28 1275

原创 计算机视觉——OpenCV Python位运算与图像掩码

位运算与图像掩码的结合允许对图像的特定区域进行精确的操作。通过使用位运算(如AND、OR、XOR和NOT),可以基于掩码的选择性地修改图像数据。

2024-04-17 14:46:46 895

原创 ArtCoder——通过风格转换生成多元化艺术风格二维码

ArtCoder能够从原始图像(内容)、目标图像(风格)以及想要嵌入的信息中,生成具有艺术风格的二维码。这一过程类似于通常的图像风格转换,但特别针对二维码的特点进行了优化和调整。通过这种方法,不仅能够保持二维码的功能性和可读性,同时还能够使其具有独特的视觉效果和艺术表现力。这样的二维码不仅能够提供信息的快速识别和传递,还能够作为一种视觉元素,增强产品的吸引力和品牌的识别度。

2024-04-17 09:49:28 925

原创 计算机视觉——OpenCV Python基于颜色识别的目标检测

在HSV颜色模型中,色调的度量是以色轮为基础的,其中红色通常对应于0度(或360度,因为色轮是连续的),绿色对应于120度,蓝色对应于240度。色调的这种表示方式使得颜色的选择和调整变得直观,因为它与我们在日常生活中描述颜色的方式相一致。这种分离使得HSV颜色空间在处理光照变化时更为鲁棒,因为可以通过调整色调和饱和度的范围来检测特定颜色的物体,而不受亮度变化的影响。现在,检测的定义颜色范围。:在HSV颜色空间中,可以通过设置色调、饱和度和亮度的阈值来创建颜色掩码,从而过滤和检测特定颜色的物体。

2024-04-16 10:29:24 1338 1

原创 Git 基本操作——常用指令

Git 常用的是以下 6 个命令:**git clone**、**git push**、**git add** 、**git commit**、**git checkout**、**git pull**,的详细介绍。

2024-04-16 09:24:51 262

原创 Swin Unet——结合U-Net和Transformer的医学图像分割的网络解析

Swin-Unet的性能被与纯CNN和结合了CNN的Transformer方法进行了比较。实验结果表明,Swin-Unet在多器官分割任务上取得了优于其他方法的性能。这可能是因为Swin-Unet能够有效地结合局部和全局信息,从而更好地理解医学图像中的复杂结构。

2024-04-15 14:05:23 1259

原创 Rust数据类型与内存计算

Rust数据类型与内存计算。

2024-04-15 09:11:36 407 1

原创 计算机视觉——手机目标检测数据集

这是一个手机目标检测的数据集,数据集的标注工具是labelimg,数据格式是voc格式,要训练yolo模型的话,可以使用脚本改成txt格式,数据集标注了手机,标签名:telephone,数据集总共有1960张,有一部分是直实数据,有一部分是是真实数据。

2024-04-14 23:18:59 413

原创 计算机视觉——基于OpenCV和Python进行模板匹配

模板匹配的主要目标是在一幅大图像中定位一个或多个与模板图像相匹配的区域。这个过程就像是用一个“放大镜”在大图像上移动,不断比较模板图像与大图像中相应位置的相似度。通过计算模板图像和大图像中各个位置的像素差异,可以找到与模板图像最为相似的区域。

2024-04-14 16:01:03 1581 5

原创 深度学习体系结构——CNN, RNN, GAN, Transformers, Encoder-Decoder Architectures算法原理与应用

详细介绍深度学习架构卷积神经网络(CNN)、递归神经网络(RNN)、生成对抗网络(GAN)、变换器和编解码器架构。

2024-04-14 09:00:00 1266 1

原创 计算机视觉数据集——扑克识别数据集

这是一个检测扑克牌种类的数据集,检测种类目前只有6种。

2024-04-13 21:03:03 294

原创 多模态AnyGPT——整合图像、语音和文本多模态大规模语言模型算法原理与实践

AnyGPT的核心在于使用离散表示法,可以在不改变现有大规模语言模型的框架和训练方法的情况下毫不费力地纳入新的模态。AnyGPT 的核心在于使用离散表示法,可以在不改变现有大规模语言模型的框架和学习方法的情况下毫不费力地纳入新的模式。这就赋予了模型学习新语言的灵活性。

2024-04-13 14:04:25 1077 1

原创 计算机视觉——Mask R-CNN实例分割原理与算法应用

Mask R-CNN 适用于复杂任务,因为它既能进行像素级分割,又能进行物体定位。该方法可同时执行检测、分割和关键点估算,在各种应用中表现出色。在人工智能领域,它是对物体识别和分割的发展做出贡献的模型范例,在现实世界的计算机视觉任务中表现出色。

2024-04-13 09:38:34 811

原创 计算机视觉——DiffYOLO 改进YOLO与扩散模型的抗噪声目标检测

本文提出了一种新方法来提高物体检测的准确性。实验结果表明,利用从这一特定模型中学到的信息,可以获得比通常更好的性能。这样就可以利用在高质量图像上训练的模型,在噪声环境中准确检测出物体。不过,人们也注意到,当使用模型的计算资源不足或数据容易变化时,这种方法就会受到限制。

2024-04-12 17:02:51 1364 1

原创 计算机视觉动作识别——YOWO用于实时时空动作定位与识别的算法解析

YOWO能够并行处理来自连续视频帧的时空上下文信息,以便更好地理解和识别动作,同时它也能够从关键帧中提取细节丰富的空间信息,以解决动作定位问题。此外,YOWO采用了一种通道融合和注意力机制,有效地整合了来自不同网络分支的信息。与将行人检测和动作分类作为分开的步骤不同,YOWO将这两个过程整合在一起,使得整个网络可以通过一个统一的损失函数在端到端的框架中进行优化。

2024-04-12 10:32:27 816

原创 计算机视觉——实时语义分割ENet算法原理与模型训练

ENet所提出的这一创新神经网络架构,专为语义分割任务量身打造,其核心设计理念在于充分发挥嵌入式设备上有限资源的潜力。在这一目标的指引下,ENet的工作取得了显著的成效,不仅成功实现了与现有技术相比更为高效的计算性能,而且在某些情况下,还实现了与之相匹配甚至更优的结果,即便这些现有技术对计算能力和内存的需求远高于ENet的设计。

2024-04-11 13:40:41 998

原创 多模态 ——LLaVA 集成先进图像理解与自然语言交互GPT-4的大模型

提出了一种大型模型 LLaVA,它使用 GPT-4 生成多模态语言图像指令跟随数据,并利用该数据将视觉和语言理解融为一体。初步实验表明,LLaVA 展示了出色的多模态聊天能力,在合成多模态指令上的表现优于 GPT-4。在科学质量保证中进行微调时,LLaVA 和 GPT-4 的协同作用实现了新的一流准确性。

2024-04-11 09:31:51 898

原创 计算机视觉——图像特征提取D2D先描述后检测特征提取算法原理

局部特征提取是计算机视觉中的一个重要任务,它旨在从图像中提取出能够代表图像局部结构和外观信息的特征。这些特征通常用于图像匹配、物体识别、三维重建、跟踪和许多其他应用。

2024-04-10 17:04:04 1078

原创 计算机视觉——基于深度学习UNet实现的复杂背景文档二值化算法实现与模型训练

阈值分割可以被视为一个分类问题,通常涉及两个类别,这也是为什么阈值分割也被称为二值化。对于文档图像,我们期望阈值算法能够正确地将墨水分类为黑色,将纸张分类为白色,从而得到二值化图像。对于数字灰度图像,最简单的实现方法是选择一个阈值值,比如图像二值化,并将高于这个值的灰度级别分配为白色,将剩余的级别分配为黑色。问题在于正确找到这个值,以便能够完美匹配前景和背景元素。

2024-04-10 14:29:58 1593

原创 计算机视觉——引导APSF和梯度自适应卷积增强夜间雾霾图像的可见性算法与模型部署(C++/python)

在夜间雾霾场景中,可见性经常受到低光照、强烈光晕、光散射以及多色光源等多种因素的影响而降低。现有的夜间除雾方法常常难以处理光晕或低光照条件,导致视觉效果过暗或光晕效应无法被有效抑制。本文通过抑制光晕和增强低光区域来提升单张夜间雾霾图像的可见性。为了处理光晕效应,提出了一个光源感知网络来检测夜间图像的光源,并采用APSF(大气点扩散函数)引导的光晕渲染。该算法的框架在渲染图像上进行训练,实现了光晕的抑制。

2024-04-10 09:00:00 874

原创 计算机视觉——Python OpenCV BGR转HSV

这里将介绍如何使用 OpenCV 与 Python 来作彩色影像转HSV(RGB to HSV 或 BGR to HSV),在写 Python 影像处理程序时常会用到 OpenCV cvtColor 作颜色空间转换的功能,接下来介绍怎么使用 Python 搭配 OpenCV 模块来进行 RGB/BGR 转 HSV 彩色转HSV空间。饱和度(S):色彩的纯度,越高色彩越纯,低则逐渐变灰,数值为0-100%。彩色转HSV常见的应用可能有物体检测,去背景处理(排除绿色的背景),示例. 彩色影像转HSV。

2024-04-09 18:52:56 477

原创 计算机视觉异常检测——PatchCore面向全召回率的工业异常检测

PatchCore模型是一种先进的工业异常检测方法,它在MVTec数据集上取得了最先进的性能(State of the Art,简称SOTA。这个数据集是工业领域内公认的用于评估异常检测算法的标准数据集,包含了多种不同类别的工业产品图像,既有正常样本也有异常样本。PatchCore的关键优势在于它的特征提取机制。传统的异常检测方法通常需要大量的标注数据来训练模型,以学习正常和异常图像之间的差异。然而,PatchCore采用了一种不同的策略,它利用了预训练模型(如WideResNet50)来提取图像特征。这

2024-04-09 09:23:10 1577

原创 Stable Diffusion——SDXL Turbo让 AI 出图速度提高10倍

这项工作介绍了对抗扩散蒸馏,这是一种将预训练的扩散模型蒸馏成快速,少步图像生成模型的通用方法。结合了对抗和分数蒸馏目标来提取公共的稳定扩散[54]和SDXL[50]模型,通过鉴别器利用真实数据,通过扩散教师利用结构理解。

2024-04-08 14:48:38 1093

原创 联合学习MOON——无需共享原始数据,通过模型对比联合学习实现准确的图像分类

**联合学习**是一种在数据分布的情况下,既能以低成本进行机器学习,又能保护隐私的方法,引入这种方法不仅能保护隐私,还能降低更新模型时向中央服务器发送数据的通信成本。这种方法的引入不仅有望保护隐私,还能降低更新模型时向中央服务器发送数据的通信成本。

2024-04-08 11:07:25 869

原创 计算机视觉——基于深度学习检测监控视频发生异常事件的算法实现

视频异常检测(VAD)是一门旨在自动化监控视频分析的技术,其核心目标是利用计算机视觉系统来监测监控摄像头的画面,并自动检测其中的异常或非常规活动。随着监控摄像头在各种场合的广泛应用,人工监视已经变得不切实际,因为这一任务既单调又耗时。此外,监控设备的快速增长使得用人工有效监视大量摄像头变得日益困难,因此迫切需要自动化的解决方案。异常事件通常指的是在特定场景和时间下出现的不寻常活动,例如打斗、偷窃、纵火和事故等。这些事件是否被视为异常,很大程度上取决于它们发生的环境和上下文。

2024-04-07 15:30:15 2027 1

原创 数字人解决方案——Champ单个视频单张图像生成可控且一致的人体视频生成

本文介绍了一种新颖的人体图像动画方法,将SMPL 3D参数化人体模型与潜在扩散模型相结合,旨在增强姿势对齐和动作指导。通过利用SMPL模型提供的形状和姿势变化的统一表示,以及深度、法线和语义地图,该方法进一步提高了捕捉真实人体运动和形状的能力。基于骨架的运动指导和自注意机制的特征图集成进一步优化了动画过程,使得创造更准确反映人体解剖和运动的动态视觉内容成为可能。在各种数据集上的实验验证证实了这种方法在产生高质量人体动画方面的有效性,展示了它在需要详细和逼真的人体表现的领域中推进数字内容创作的潜力。

2024-04-07 10:18:51 1148 1

原创 Python PyQt5开发——QLineEdit文字输入框的使用方法和代码示例

QLineEdit文字输入框的使用方法和代码示例

2024-04-06 20:26:41 463

原创 计算机视觉——基于傅里叶幅度谱文档倾斜度检测与校正

在计算机视觉领域,处理文档数据时,OCR算法的性能往往会受到文档的倾斜度影响。如果文档在输入到模型之前没有经过恰当的校正,模型就无法期待模型能够提供准确的预测结果,或者模型预测的精度会降低。例如,在信息提取系统中,如果向OCR模型提供了倾斜的图像,模型可能无法准确地识别出文本内容的同时,文本的对齐方式也可能因此而丢失。特别在一些包含了表格检测文档,如果在进行表格检测之前没有对图像的倾斜度进行校正,那么模型可能无法准确地预测出表格的边界和角落。

2024-04-06 10:04:17 1175

原创 OpenCV图像处理——基于OpenCV的ORB算法实现目标追踪

ORB算法通过结合FAST和BRIEF两种算法的优点,能够在图像中快速准确地检测到关键点,并生成对应的特征描述符。这使得ORB算法非常适合用于对象识别、跟踪和图像拼接等任务,尤其是在需要处理大量图像数据时,ORB的高效性尤为重要。

2024-04-05 22:02:25 1214

YOLOv8与DeepSORT实现目标追踪

YOLOv8是一种基于图像全局信息进行预测并且它是一种端到端的目标检测系统,最初的YOLO模型由Joseph Redmon和Ali Farhadi于2015年提出,并随后进行了多次改进和迭代,产生了一系列不同版本的YOLO模型,如YOLOv2、YOLOv3、YOLOv4,YOLOv5等。这些更新和迭代旨在提高模型的性能、精度和速度,使其在实际应用中更具竞争力。 YOLOv8的核心思想是将图像划分为网格,并在每个网格单元中预测物体的边界框和类别。这种设计使得YOLO非常适合实时目标检测应用,因为它可以在较短的时间内完成目标检测任务。 多目标跟踪往往面临一些挑战,例如需要同时跟踪多个目标、目标可能频繁遮挡,这些因素使得目标跟丢成为一个常见问题。为了解决这些问题,可以借助跟踪器 DeepSORT 以及检测器 YOLO v8,从而构建一个高性能的实时多目标跟踪模型。 参考博客:https://blog.csdn.net/matt45m/article/details/134237238#comments_32297294

2024-04-18

手机目标检测数据集.rar

这是一个手机目标检测的数据集,数据集的标注工具是labelimg,数据格式是voc格式,要训练yolo模型的话,可以使用脚本改成txt格式,数据集标注了手机,标签名:telephone,数据集总共有1960张,有一部分是直实数据,有一部分是是真实数据。数据集下载之后就可以直接使用。

2024-04-14

标注扑克牌目标识别数据集

这是一个检测扑克牌种类的数据集,检测种类目前只有6种,分别是 ``` "queen", "ten", "nine", "king", "jack", "ace" ``` 数据集共含有363张图片,标注的工具是labelimg,数据标签是xml。

2024-04-13

实时语义分割ENet算法Pytorch复现与模型训练

ENet架构是专为语义分割而设计的。与成熟的深度学习工作站相比,主要目标是有效利用嵌入式平台上可用的稀缺资源。Enet工作在完成此任务方面取得了很大的收获,与此同时,匹配并有时超过了现有的baseline,这些baseline对计算和内存的要求更高。ENet在NVIDIA TX1硬件上的应用体现了实时便携式嵌入式解决方案。即使主要目标是在移动设备上运行网络,它在NVIDIA Titan X等高端GPU上也非常有效。在需要处理大量高分辨率图像的数据中心应用中,这可能被证明是有用的。ENet允许以更快,更高效的方式执行大规模计算,这可能会节省大量资金。 资源是对论文的复现,可用于时实语义分割,转了模型之后可以部署在边缘设备上,关于算法的应用与理解可以参考个人的博客。里面有详细的介绍与训练方向。

2024-04-10

基于深度学习实现的复杂背景文档二值化的算法实现

阈值分割可以被视为一个分类问题,通常涉及两个类别,这也是为什么阈值分割也被称为二值化。对于文档图像,我们期望阈值算法能够正确地将墨水分类为黑色,将纸张分类为白色,从而得到二值化图像。对于数字灰度图像,最简单的实现方法是选择一个阈值值,比如图像二值化,并将高于这个值的灰度级别分配为白色,将剩余的级别分配为黑色。问题在于正确找到这个值,以便能够完美匹配前景和背景元素。 在这里将探讨如何通过使用基于卷积神经网络(CNN)的U-Net架构训练的模型进行分类,来实现具有不同类型问题的文档二值化。CNN的典型用途在于分类任务,其中对图像的输出是一个单一的类别标签。然而,在许多视觉任务中,期望的结果不仅包括图像中物体是否存在,还包括其定位,即每个像素都应该被分配到一个类别标签。

2024-04-10

夜晚图像雾霾图像增强C++/python部署

在夜间雾霾场景中,可见性经常受到低光照、强烈光晕、光散射以及多色光源等多种因素的影响而降低。现有的夜间除雾方法常常难以处理光晕或低光照条件,导致视觉效果过暗或光晕效应无法被有效抑制。本文通过抑制光晕和增强低光区域来提升单张夜间雾霾图像的可见性。为了处理光晕效应,我们提出了一个光源感知网络来检测夜间图像的光源,并采用APSF(大气点扩散函数)引导的光晕渲染。我们的框架在渲染图像上进行训练,实现了光晕的抑制。此外,我们还利用梯度自适应卷积来捕捉雾霾场景中的边缘和纹理。通过提取的边缘和纹理,我们在不丢失重要结构细节的情况下增强了场景的对比度。为了提升低光强度,我们的网络学习了一个注意力图,然后通过伽马校正进行调整。这个注意力图在低光区域有较高的值,在雾霾和光晕区域有较低的值。通过在真实的夜间雾霾图像上进行广泛的评估,我们的方法证明了其有效性。

2024-04-10

基于NCNN轻量级PaddleOCRv4模型C++推理

PaddleOCR 提供了基于深度学习的文本检测、识别和方向检测等功能。其主要推荐的 PP-OCR 算法在国内外的企业开发者中得到广泛应用。在短短的几年时间里,PP-OCR 的累计 Star 数已经超过了32.2k,常常出现在 GitHub Trending 和 Paperswithcode 的日榜和月榜第一位,被认为是当前OCR领域最热门的仓库之一。 PaddleOCR 最初主打的 PP-OCR 系列模型在去年五月份推出了 v3 版本。最近,飞桨 AI 套件团队对 PP-OCRv3 进行了全面改进,推出了重大更新版本 PP-OCRv4。这个新版本预计带来了更先进的技术、更高的性能和更广泛的适用性,将进一步推动OCR技术在各个领域的应用。 参考博客:https://blog.csdn.net/matt45m/article/details/134713935#comments_32019413

2024-04-02

检测出图像中的几何形状并测量出边长、直径、内角(python和opencv实现)

图像里面的线段测量,首先要理解“每度量比的像素”(pixels per metric ratio),它类似于比例尺,通过已知图像上一个对象的尺寸和该对象在图像中所占像素的数量,可以得到一个比例关系,从而可以将其他物体的像素转换为实际度量单位(如厘米、毫米等)。 关键属性包括: 已知长度:需要知道图像中一个物体的实际长度,通常是以某种可测量的单位(例如毫米、英寸等)来表示。 像素数量:该已知长度物体在图像中所占据的像素数。这可以通过在图像中测量该物体的像素宽度或高度来获取。 有了这两个属性,就可以计算出每个度量单位所对应的像素数。这个比例关系将图像中的像素转换为实际的度量单位,从而可以测量其他物体的大小或长度。

2024-03-29

YOLOv8目标检测、语义分割、状态估计、目标追踪模型部署带GUI界面

Ultralytics YOLOv8是一种前沿的、最先进的(SOTA)模型,它在前代YOLO版本的成功基础上进行了进一步的创新,引入了全新的特性和改进,以进一步提升性能和灵活性。作为一个高速、精准且易于操作的设计,YOLOv8在广泛的领域中,包括目标检测与跟踪、实例分割、图像分类以及姿势估计等任务中,都表现出色。实例分割在物体检测的基础上迈出了更进一步的步伐,它不仅可以识别图像中的单个物体,还能够精确地将这些物体从图像的其他部分中分割出来。这是一个集成了YoloV8目标检测、实例分割、姿态估计与目标追踪的项目,界面是用PyQt5写的,可以读入图像,视频与摄像头。可用于对比与参考这几个算法的差异与如何部署。关于源码的运行与部署可以参考博客《YOLOv8项目解析——一文搞定目标检测、语义分割、状态估计、目标追踪算法原理与模型部署》,博客地址:http://t.csdnimg.cn/PbVNu

2024-03-26

图像抠图DIS-自然图像中高精度二分图像抠图的方法(C++推理代码)

二分图像分割(DIS),旨在从自然图像中分割高精度的对象。为此,我们收集了第一个大规模DIS数据集,称为DIS5K,其中包含5470张高分辨率(例如2K、4K或更大)图像,涵盖各种背景中的伪装、突出或精细物体。DIS使用极细粒度的标签进行注释。此外,我们还引入了一个简单的中间监督基线(IS-Net),使用特征级和掩码级指导进行DIS模型训练。IS-Net在建议的DIS5K上优于各种前沿基线,使其成为一个通用的自学习监控网络,可以促进DIS的未来研究。此外,我们设计了一个新的度量,称为人类校正努力(HCE),它近似于纠正假阳性和假阴性所需的鼠标点击操作数。HCE用于测量模型和实际应用程序之间的差距,因此可以补充现有指标。最后,我们进行了最大规模的基准测试,评估了16种具有代表性的分割模型,对对象的复杂性进行了更深入的讨论,并展示了几种潜在的应用(例如背景去除、艺术设计、三维重建)。希望这些努力能为学术界和工业界开辟有希望的方向。

2024-03-24

百度人像抠图C++模型部署完整包

PP-HumanSeg v2人像分割方案是一项重要的突破,采用了深度学习技术,以96.63%的mIoU精度和仅15.86ms的推理耗时,在人像分割领域刷新了SOTA指标。该方案不仅支持商业应用,而且可零成本、开箱即用。 相比于之前的版本,PP-HumanSeg v2在推理速度和精度上都有显著提升,肖像分割模型推理速度提升45.5%,mIoU精度提升3.03%。通用人像分割模型推理速度提升5.7%,mIoU精度提升6.5%。 通过以上优化措施,PaddleSeg的肖像分割模型在保证分割精度的情况下,大幅减少了参数量,提高了模型的轻量化程度,并且通过全局上下文信息的汇集和特征融合,进一步提升了模型的语义理解能力和分割效果。

2024-03-23

人像自动抠图LFM训练代码与C++推理部署代码

图像抠图(Image Matting)是一个在工业界和视觉研究领域都非常重要的研究课题。从 2000 年开始,对图像抠图及相关研究问题进行了大量研究,产生了一系列对计算机视觉和计算机图形学研究都有深远影响的工作,例如 GrabCut、Guided Filter、Closed Form Matting、Poisson Matting、Bayesian Matting 等。在好莱坞的动作大片、迪士尼的动画巨作、Office 以及 Adobe Photoshop 的一些功能中都能看到抠图算法的应用。 解决抠图问题需要我们分别求解出图像的前景、背景和 alpha matte。Alpha matte 即我们常说的 alpha 通道,基于 alpha 通道我们可以将前景和任意背景进行重新组合得到新的图像。因此,alpha matte 是和原图同大小的一个单通道图像,每个像素都对应于原 RGB 图像相同位置像素的 alpha 值。关于算法解析与实现具体步骤可看我的博客《人像抠图PP-Matting——支持多场景精细化高精度人像抠图(C++模型推理)》

2024-03-22

PP-Matting高精度抠图模型C++推理

PP-Matting是PaddleSeg自研的高精度抠图模型,通过引导流设计实现语义引导下高分辨率图像抠图。 追求更高精度,推荐使用该模型。且该模型提供了512和1024两个分辨率级别的预训练模型。 PP-MattingV2是PaddleSeg自研的轻量级抠图SOTA模型,通过双层金字塔池化及空间注意力提取高级语义信息,并利用多级特征融合机制兼顾语义和细节的预测。 对比MODNet模型推理速度提升44.6%, 误差平均相对减小17.91%。追求更高速度,推荐使用该模型。

2024-03-21

离线语音识别C++实现

这是一个语音识别的C++实现的demo,使用的IDE是vs2019,压缩包里面包含了所有用到的依赖,下载之后解压配置包含目录,库目录,附加依赖项,就可以运行出效果。

2024-03-20

SadTalker语音驱动肖像图像数字人源码与模型

SadTalker 模型在三维运动场中学习如何从音频中生成3DMM的3D运动系数,包括头部姿势和表情,并利用全新的3D面部渲染器来生成自然的头部运动。 为了学习真实的运动系数,研究人员将音频和不同类型的运动系数之间的联系进行了显式建模。他们设计了蒸馏系数和3D渲染的脸部,从音频中学习准确的面部表情。同时,他们还设计了条件VAE,即 PoseVAE,用于合成不同风格的头部运动。最后,他们将生成的三维运动系数映射到人脸渲染的无监督三维关键点空间,并合成最终的视频。 在实验中,研究人员证明了 SadTalker 模型在运动同步和视频质量方面实现了最先进的性能,为通过人脸图像和语音音频生成会说话的人物头像视频提供了一种有效的方法。 参考博客《数字人解决方案— SadTalker语音驱动图像生成视频原理与源码部署》 博客链接:https://blog.csdn.net/matt45m/article/details/13676466

2024-03-18

Wav2lip 语音驱动Ai数字人源码与模型

传统的基于像素的人脸重建损失无法有效约束音频-口型同步。由于面部重建损失是整个图像的计算结果,而唇部区域只占图像的很小一部分,因此无法充分关注唇部细节。此外,在人脸重建的训练过程中,对口型的优化往往在训练的中后期才开始,导致前期监督信息不足。 传统的基于GAN的判别器在音频-口型同步检测方面准确率较低。这些判别器通常只使用单帧图像来评估口型同步,缺乏时间上下文信息,因此无法有效评估口型动态变化的质量。此外,生成过程中可能出现伪影,导致GAN判别器更容易关注视觉伪影而忽略音频和口型的对应关系。 为了解决以上问题,wav2lip提出了一个专家口型同步判别器,该判别器在真实视频中进行预训练,并包含多帧信息,可用于判断音频和口型是否同步。实验证明,相比于基于像素的人脸重建方法,这个专家判别器在口型同步判别任务上更为准确。在训练阶段,该专家判别器保持冻结状态,以确保其判断结果不受伪影的干扰。 参考博客:《数字人解决方案——Wav2lip语音驱动唇部动作的技术原理(附整合包下载)》

2024-03-16

用于边缘检测的轻量级密集神经网络C++推理

LDC 是一种基于 CNN 的边缘检测模型,与参数小于100万的轻量级模型相比,LDC生成了薄边缘图并取得了最高分数(即ODS),与参数约为3500万的重型体系结构相比,性能相似。LDC提供了使用不同边缘检测数据集的定量和定性结果,并与现有技术模型进行了比较。所提出的LDC不使用预训练的权重,需要直接的超参数设置。

2024-03-10

P2PNet密集人流统计C++实现

P2PNet提出了一个新的度量标准,称为密度归一化平均精度(nAP),以提供更全面和更精确的性能评估。腾讯优图团队在这个框架下设计了一个直观的解决方案,称为P2PNet,并且实现了state-of-the-art。 P2PNet忽略了所有冗余步骤,直接预测一系列人头点的集合来定位图像中的人群个体,这完全与真实人工标注保持一致。通过深入分析,研究者发现实现该方法的一个核心策略是为预测候选点分配最优的学习目标,并通过基于匈牙利算法的一对一匹配策略来完成了这一关键步骤。实验证明,P2PNet不光在人群计数基准上显著超越了已有SOTA方法,还实现了非常高的定位精度。

2024-03-09

C++实现AES256加密

AES是用来替代DES的新一代加密标准,具有128bit的分组长度,支持128、192和256比特的密钥长度,它是目前最流行的加密算法之一。

2024-03-09

视频一键祛水印/视频目标移除

ProPainter它融合了图像和特征修复的优势,以及高效的Transformer技术,旨在提供高质量的视频修复效果,同时保持高效性。 ProPainter包含以下功能: 1. 对象去除:能够轻松去除视频中的不需要的对象。 2. 水印删除:可用于删除视频中的水印,提高视觉质量。 3. 视频内容完整性修复:能够修复损坏的视频内容,使其看起来 完整和连贯。 项目整合了Segment-and-Track Anything与ProPainter实现视频一键目标移除与一键祛除水印,这是一个安装包,下载之后直接运行脚本就可以。

2023-10-23

基于InsightFace、CodeFormer实现高清换脸与验证换脸后效果能否通过人脸比对、人脸识别算法

从运行结果对比来看,如果欧氏距离使用默认值1.24,所换的脸都能通过识别算法,但从余弦相似度的结果来看,使用CodeFormer修复人脸后,人脸的特征还是有一定的损失。在算法没有优化之前,直接换脸结果的余弦相似度都在0.8以上。但现在人脸验证的一般要求余弦相似度要在0.95以,所以如果直接现在的算法是无法通过人脸验证的算法,除非验证算法的阈值设置不合理。我试着去优化部分算法,但目前提升并不明显,如果使用一些盘外招,还是可以冲击一下95%余弦相似度。

2023-10-05

一键提取视频语音并转文本带UI界面

对于不是视频编辑专业人员,处理起来还是比较麻烦的,但网上也有好多可以用的小工具,这些工具大多数都标榜有自己技术和模型,但都是在线模型或者使用过一段时间之后就无法再使用了,这些工具实际上都是基于一些大公司提供的接口衍生出来的AI工具,使用效果也不错。但在处理的过程中,处理的文件要上传到大公司的服务器进行处理,这里可能会涉及到一些数据的安全问题。这些数据很大一部分有可能会涉及到数据泄露与安全的问题。 这个项目的核心算法是基于PaddlePaddle的语音识别加Python实现,使用的模型可以有自己训练,支持本地部署,支持GPU与CPU推理两种文案,可以处理短语音识别、长语音识别、实现输入的语音识别。

2023-09-30

实现视频目标移除/视频水印移除/视频掩码补全/视频外扩等多个实用功能

视频修复(Video Inpainting)是指通过填补缺失区域或去除不需要的内容,修复视频中的损坏或缺失部分的任务。视频修复可以分为对象移除和对象补全两个方面。对象移除是将视频中的不需要的对象从视频中删除,对象补全是填补视频中缺失的区域。 视频修复算法可以基于传统方法或深度学习方法。传统方法使用纹理合成技术,从周围的帧中复制纹理来填补缺失区域。深度学习方法使用生成对抗网络(GAN)、变分自编码器(VAE)或Transformer等架构,学习从输入视频中生成缺失区域的映射关系。 视频修复在电影制作、视频编辑、监控视频修复等领域有广泛应用。它可以提高观看体验,也可以应用于视频分析和计算机视觉任务中。

2023-09-30

语义分割实现人脸图像的皱纹检测定位与分割数据集

人脸皱纹主要区分有额纹、川字纹、眼下纹、法令纹、嘴角纹,眼角纹等,在美颜相机,智能医美等于应用领域里,需要对人脸皱纹进行检测、定位、分割,测量等。

2023-09-13

开放世界万物识别模型推理C++代码,目前可以识别的目标有2万1000多种

- Detic采用了一种完全不同的方法,它选择了覆盖整个图像的最大面积提议(通常几乎包括整张图片)。 - 然后,Detic将整个图像的类别标签分配给这个最大面积的提议。 - 这种方法的关键在于,Detic不再依赖于传统的proposal级别的标签分配,而是将整个图像视为一个整体,并为其分配类别标签。 - 这种做法消除了传统方法中可能导致误差的标签和bbox分配过程,简化了训练流程,提高了性能,特别是在检测新颖类别时。 Detic方法通过选择整个图像的最大提议并将整个图像的类别标签分配给它,从而消除了传统方法中可能出现的标签和bbox分配误差。这种简化和创新的方法有望提高目标检测的性能和鲁棒性,特别是在具有挑战性的场景中。

2023-09-13

基于yoloV5的x下光危险物物品识别推理代码带UI界面

1.识别的目标是分别是有:'lighter','scissors','powerbank','pressure','knife','zippooil','handcuffs','slingshot','firecrackers','nailpolish'。 2.违禁品中有要检测的危险品是小巧的打火机,考虑到其在复杂拥挤环境中的易遮挡性,有时候是很难精确检测到的,我这个用的是S模型,检测效果还可以,如果对精度有更高的要求,除了加大训练数据之外还可以选择更大的模型或者使用YOLOv8。 3.在安检这个场景中,出现漏检要比出现错检所触发的问题更严重,为了优化漏检率,可以适当放大置信度和加入一些相近的样本,还有场景负样本。

2023-08-06

实时对话数字人解决方案实现源码

​ 1.这是一个能实时对话的虚拟数字人demo,使用的是NeRF(Neural Radiance Fields 2.文本转语音是用了VITS语音合成 3.语言模型是用了新开源的ChatGLM2-6B,当前的项目暂时没有加上这个接口 4.声音克隆用的是PaddleSpeech,这个语音克隆训练起来很快,使用的数据集也相对少一些,当前的项目暂时没有加上语音克隆。 ​

2023-07-22

最强伴奏人声提取工具开源免费

一键安装,直接使用!Ultimate Vocal Remover UVR5,最强人声伴奏提取工具,可以提取音频或者视频里面的人声与伴奏,直接安装,不需要额外的依赖,支持CPU和GPU,处理速度快,提取效果完美,无任何限制。

2023-07-10

智能黑白图像自动上色C++源码

这是黑白图像自动上色的C++源码,IDE是Vs2019,依赖OpenCV和ncnn,所有的依赖都包含在里面了,下载之后,把依赖添加到环境就可以运行。

2023-01-08

烟火检测标注好的数据集

1.烟火检测数据集,xml格式,总共有2000多张图像。 2.可以用来训练目标检测。 3.参考博客:https://mp.csdn.net/mp_blog/creation/success/123366835

2022-11-01

人脸比对与人脸识别C++代码与模型

1.使用C++与opencv实现了人脸检测与人脸对比。 2.项目是好vs2019的工程,项目所有依赖都在里面,下载之后要配置include和lib路径。 3.项目可以支持GPU推理。 4.点开我的博客,可以找到实现的相关步骤与源码配置方法。

2022-10-26

高清视频与图像人像抠图

RobustVideoMatting是来自字节跳动视频人像抠图算法(RVM),专为稳定人物视频抠像设计。 不同于现有神经网络将每一帧作为单独图片处理,RVM 使用循环神经网络,在处理视频流时有时间记忆。RVM 可在任意视频上做实时高清人像抠图。

2022-10-25

OpenCV视频人脸自动打码

1.基于OpenCV和C++实现的视频人脸自动打码功能。 2.工程是Vs2019工程,所有的依赖都在工程里面。 3.下载之后不会配置工程的可以跳转到相关博客对着配置就可以。

2022-10-23

Yolov7目标检测与实例分割的C++推理代码

1.Yolov7目标检测与实例分割的C++推理代码, 2.开发环境,开发环境是win10,OpenCV4.5,NCNN,IDE 是Vs2019。 3.关于源码配置可以看我的博客,有详细的步骤。

2022-10-19

目标识别与区域入侵检测

1.区域入侵检测是通过识别目标之后或者目标坐标位置,判断目标坐标是否在所规定的区域内出现,使用在电子围栏,不安全区域入侵检测,智慧城市,安防监控等领域。 2.这里的编译环境是Win 10, vs2019,OpenCV4.5, 目标检测算法用的yolov5,实现语言使用的语言是C++。 3.算法实现与项目配置可以参数我的博客:基于目标识别的区域入侵检测——C++实现从获取区域到检测入侵目标

2022-07-11

安全帽头盔佩戴检测识别

1.检测与识别当前的人是否佩戴了安全帽 2.C++ 源码与模型部署。 3.下载之后可以使用vs2019直接运行。 4.包含了所有用到的依赖库。 5.参考博文:https://blog.csdn.net/matt45m/article/details/124702919?spm=1001.2014.3001.5502

2022-05-15

Yolov5-v3安全帽检测

1.这是一个检测是否佩戴安全帽的完整训练代码项目,包含一个已训练好的yolov5m的模型,mAP在90%以上,能直接应用于要求不高的场景上。 2.参考博文:https://blog.csdn.net/matt45m/article/details/124702919?spm=1001.2014.3001.5502

2022-05-15

dfinity Internet Identity使用示例

1.Internet Identity是由ICP支持的匿名区块链认证框架。用户可以创建自己的身份“锚”,将兼容的加密设备分配写入到当前设备,如笔记本电脑上的指纹传感器、手机上的面部识别系统,或便携式HSM,如YubiKey或Ledger钱包。然后,用户可以使用分配给他们的身份锚设备,注册验证ICP的dapp。这提供了很高的便利性,允许用户以极低的摩擦来验证他们感兴趣的dapp,同时受益于最高级别的加密安全性,但不需要直接管理或处理加密密钥材料。这样可以防止出错和关键材料被盗。系统对dapp进行了匿名化,每当一个锚与dapp交互时,dapp就会看到一个特别生成的假名,这可以防止用户在使用不同的dapp时被跟踪。每个用户可以创建任意数量的身份锚。 2.与大多数登录认证方法不同,Internet Identity 不需要设置和管理密码,也不需要向 dapps 或 Internet Identity 提供任何个人识别信息,这样大大的提高了安全性。 3.这里将演示如何使用Internet Identity身份,获取当前PID,使用的语言是motoko和ts。

2022-05-03

LiteSeg语义分割 C++ 模型部署

LiteSeg语义分割的模型和源码,使用OpenCV 的Dnn进行推理

2022-05-02

LiteSeg 实时轻量级语义分割算法,使用的框架是pytorch。

实时轻量级语义分割网络

2022-05-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除