- 博客(338)
- 资源 (81)
- 收藏
- 关注
原创 情感识别——情感计算的模型和数据集调查
情感识别主要有三种类型:视觉情感识别(VER)、听觉/语音情感识别(AER/SEER)和生理情感识别(PER)。在机器学习方面,这些都是大量研究的主题。除此之外,混合现实(XR)技术(如 VR)被认为能够改善人们的主观情感体验,并已开展了多项相关研究。
2024-04-23 23:03:45 447
原创 探索ChatGPT在提高人脸识别与软性生物识准确性的表现与可解释性
本文通过一系列全面实验,深入评估了 ChatGPT 在人脸识别和特征估计等关键人脸生物识别任务中的表现。实验涉及多个不同的数据库,结果表明,在与专业训练模型的比较中,ChatGPT 展现了可观的准确性。尤其是在没有任何训练的情况下,ChatGPT 作为初始评估工具的潜力尤为突出。
2024-04-23 10:43:32 610
原创 计算机视觉——图像特征之FAST角点检测(OpenCV/Python)
FAST角点定义为:若某像素点与周围邻域足够多的像素点处于不同区域,则该像素可能为角点。考虑灰度图像,即若某像素点的灰度值比周围邻域足够多的像素点的灰度值大或小,则该点可能为角点。
2024-04-22 23:32:00 372
原创 探索大型语言模型(LLM)在人类性格个性评估(MBTI)中的前景与应用
本文介绍了让法学硕士评估人类个性的新思路,并描述了一篇论文,该论文提出了通过迈尔斯-布里格斯类型指标(MBTI)从法学硕士中评估人类定量个性的框架。
2024-04-22 15:15:13 827
原创 磁性呼吸传感技术与机器学习结合在COVID-19审断中的应用
本文结合磁性呼吸传感技术(MRST)和机器学习(ML)的优势,提出了一种对 COVID-19 及其变种进行实时监测和诊断的开创性方法。该研究强调了呼吸信号特征在区分 COVID-19 患者和健康人方面的有效性,为全球抗击该流行病做出了重要贡献。
2024-04-21 17:07:04 682
原创 多模态——PALO包含 10 种语言的多模态模型算法解析
本文开发了一种新的多语言大规模多模态模型 PALO。PALO 可将图像和文本查询作为输入,并能有效地与多种语言交互。它可以与多种语言进行交互。通过翻译 10 种语言的 150,000 条指令,并对每种语言进行 1,000 次人工标注对话,对模型进行了改进;通过在三种不同规模(1.7 亿、70 亿和 130 亿)的学习,PALO 提高了其在视觉和语言评估方面的整体性能、这证明了它的多功能性和可扩展性。
2024-04-21 09:35:01 739
原创 基于Google Gemini 探索大语言模型在医学领域应用评估和前景
研究结果证实了Gemini在理解多样医学主题方面的卓越能力,同时也指出了它在需要深层次专业知识的领域中的局限性。本文深入分析了Gemini及其他大规模语言模型在医疗领域的应用前景,并强调了它们的优势与面临的挑战,期望能为讨论人工智能技术在医疗领域未来发展提供有益的视角。
2024-04-20 20:39:41 1202 1
原创 LLMs——扩展数据受限的语言模型解决方案
单纯的参数数量增长并不一定能够带来性能上的提升,除非我们能够提供相应增长的、高质量的训练数据。这种现象可以通过“缩放规则”(Scaling Laws)来解释,它描述了模型规模和性能之间的关系。缩放规则指出,为了实现性能上的提升,我们需要按照特定的比例增加模型的参数数量和训练数据量。然而,这种增长模式在实际应用中可能会遇到瓶颈,因为可用的高质量数据是有限的,而且模型规模的增加也会带来计算资源和效率上的挑战。
2024-04-20 14:04:52 977
原创 Yolov8项目实践——基于yolov8与OpenCV实现目标物体运动热力图
物体运动热力图可以展示物体在一段时间内的运动轨迹和活动强度。这种图表通常通过颜色的变化来表示不同区域的运动热度,颜色的深浅代表了物体在该区域的运动频率或者速度的快慢。在物理学和计算机视觉领域,热力图可以用于分析和理解物体的运动模式,例如人流监控、交通流量分析或者运动员的运动轨迹分析。
2024-04-19 14:35:15 1929
原创 深度学习数据处理——对比标签文件与图像文件,把没有打标签的图像文件标记并删除
要对比目录下的jpg文件与json文件,并删除那些没有对应json文件的jpg文件,这个在深度学习或者机器学习时常会遇到。比如对一个数据集做处理时,往往会有些图像不用标注,那么这张图像是没有对应的标签文件的,这个时候又不想这些没有标注的图像文件占用了空间,所以则要删除掉没有标签对应的图像文件。
2024-04-19 10:10:08 318
原创 深度学习——常用激活函数解析与对比
在神经网络中,激活函数扮演着至关重要的角色。它们的主要目的是引入非线性因素,使得网络能够学习和表示更加复杂的函数映射。非线性激活函数是神经网络能够解决非线性问题的关键。如果没有非线性激活函数,无论神经网络有多少层,最终都相当于一个线性模型,这大大限制了网络的表达能力。非线性激活函数使得神经网络可以通过叠加多个非线性层来学习复杂的数据分布和模式。例如,ReLU(Rectified Linear Unit)激活函数通过将所有负值置为零,引入了非线性,同时保持了计算的简单性。
2024-04-18 13:03:19 1014 1
原创 数字人解决方案——EMAGE面部加肢体动画实现从音频生成数字人表情与动作
AI数字人面部与肢体的驱动算法是数字人研发中至关重要的一环,它能够有效降低VR Chat、虚拟直播和游戏NPC等应用场景中的成本。随着技术的发展,基于语音的面部、肢体和手部动作生成模型已经逐步成熟并得到广泛应用。然而,当尝试将这些独立模型生成的动画结果进行混合时,往往会导致整体动画效果的不协调。为了解决这一问题,研究人员开始探索采用统一的框架来同步生成面部表情和肢体动作,以期达到更自然、协调的动画效果。
2024-04-18 08:58:28 1275
原创 计算机视觉——OpenCV Python位运算与图像掩码
位运算与图像掩码的结合允许对图像的特定区域进行精确的操作。通过使用位运算(如AND、OR、XOR和NOT),可以基于掩码的选择性地修改图像数据。
2024-04-17 14:46:46 895
原创 ArtCoder——通过风格转换生成多元化艺术风格二维码
ArtCoder能够从原始图像(内容)、目标图像(风格)以及想要嵌入的信息中,生成具有艺术风格的二维码。这一过程类似于通常的图像风格转换,但特别针对二维码的特点进行了优化和调整。通过这种方法,不仅能够保持二维码的功能性和可读性,同时还能够使其具有独特的视觉效果和艺术表现力。这样的二维码不仅能够提供信息的快速识别和传递,还能够作为一种视觉元素,增强产品的吸引力和品牌的识别度。
2024-04-17 09:49:28 925
原创 计算机视觉——OpenCV Python基于颜色识别的目标检测
在HSV颜色模型中,色调的度量是以色轮为基础的,其中红色通常对应于0度(或360度,因为色轮是连续的),绿色对应于120度,蓝色对应于240度。色调的这种表示方式使得颜色的选择和调整变得直观,因为它与我们在日常生活中描述颜色的方式相一致。这种分离使得HSV颜色空间在处理光照变化时更为鲁棒,因为可以通过调整色调和饱和度的范围来检测特定颜色的物体,而不受亮度变化的影响。现在,检测的定义颜色范围。:在HSV颜色空间中,可以通过设置色调、饱和度和亮度的阈值来创建颜色掩码,从而过滤和检测特定颜色的物体。
2024-04-16 10:29:24 1338 1
原创 Git 基本操作——常用指令
Git 常用的是以下 6 个命令:**git clone**、**git push**、**git add** 、**git commit**、**git checkout**、**git pull**,的详细介绍。
2024-04-16 09:24:51 262
原创 Swin Unet——结合U-Net和Transformer的医学图像分割的网络解析
Swin-Unet的性能被与纯CNN和结合了CNN的Transformer方法进行了比较。实验结果表明,Swin-Unet在多器官分割任务上取得了优于其他方法的性能。这可能是因为Swin-Unet能够有效地结合局部和全局信息,从而更好地理解医学图像中的复杂结构。
2024-04-15 14:05:23 1259
原创 计算机视觉——手机目标检测数据集
这是一个手机目标检测的数据集,数据集的标注工具是labelimg,数据格式是voc格式,要训练yolo模型的话,可以使用脚本改成txt格式,数据集标注了手机,标签名:telephone,数据集总共有1960张,有一部分是直实数据,有一部分是是真实数据。
2024-04-14 23:18:59 413
原创 计算机视觉——基于OpenCV和Python进行模板匹配
模板匹配的主要目标是在一幅大图像中定位一个或多个与模板图像相匹配的区域。这个过程就像是用一个“放大镜”在大图像上移动,不断比较模板图像与大图像中相应位置的相似度。通过计算模板图像和大图像中各个位置的像素差异,可以找到与模板图像最为相似的区域。
2024-04-14 16:01:03 1581 5
原创 深度学习体系结构——CNN, RNN, GAN, Transformers, Encoder-Decoder Architectures算法原理与应用
详细介绍深度学习架构卷积神经网络(CNN)、递归神经网络(RNN)、生成对抗网络(GAN)、变换器和编解码器架构。
2024-04-14 09:00:00 1266 1
原创 多模态AnyGPT——整合图像、语音和文本多模态大规模语言模型算法原理与实践
AnyGPT的核心在于使用离散表示法,可以在不改变现有大规模语言模型的框架和训练方法的情况下毫不费力地纳入新的模态。AnyGPT 的核心在于使用离散表示法,可以在不改变现有大规模语言模型的框架和学习方法的情况下毫不费力地纳入新的模式。这就赋予了模型学习新语言的灵活性。
2024-04-13 14:04:25 1077 1
原创 计算机视觉——Mask R-CNN实例分割原理与算法应用
Mask R-CNN 适用于复杂任务,因为它既能进行像素级分割,又能进行物体定位。该方法可同时执行检测、分割和关键点估算,在各种应用中表现出色。在人工智能领域,它是对物体识别和分割的发展做出贡献的模型范例,在现实世界的计算机视觉任务中表现出色。
2024-04-13 09:38:34 811
原创 计算机视觉——DiffYOLO 改进YOLO与扩散模型的抗噪声目标检测
本文提出了一种新方法来提高物体检测的准确性。实验结果表明,利用从这一特定模型中学到的信息,可以获得比通常更好的性能。这样就可以利用在高质量图像上训练的模型,在噪声环境中准确检测出物体。不过,人们也注意到,当使用模型的计算资源不足或数据容易变化时,这种方法就会受到限制。
2024-04-12 17:02:51 1364 1
原创 计算机视觉动作识别——YOWO用于实时时空动作定位与识别的算法解析
YOWO能够并行处理来自连续视频帧的时空上下文信息,以便更好地理解和识别动作,同时它也能够从关键帧中提取细节丰富的空间信息,以解决动作定位问题。此外,YOWO采用了一种通道融合和注意力机制,有效地整合了来自不同网络分支的信息。与将行人检测和动作分类作为分开的步骤不同,YOWO将这两个过程整合在一起,使得整个网络可以通过一个统一的损失函数在端到端的框架中进行优化。
2024-04-12 10:32:27 816
原创 计算机视觉——实时语义分割ENet算法原理与模型训练
ENet所提出的这一创新神经网络架构,专为语义分割任务量身打造,其核心设计理念在于充分发挥嵌入式设备上有限资源的潜力。在这一目标的指引下,ENet的工作取得了显著的成效,不仅成功实现了与现有技术相比更为高效的计算性能,而且在某些情况下,还实现了与之相匹配甚至更优的结果,即便这些现有技术对计算能力和内存的需求远高于ENet的设计。
2024-04-11 13:40:41 998
原创 多模态 ——LLaVA 集成先进图像理解与自然语言交互GPT-4的大模型
提出了一种大型模型 LLaVA,它使用 GPT-4 生成多模态语言图像指令跟随数据,并利用该数据将视觉和语言理解融为一体。初步实验表明,LLaVA 展示了出色的多模态聊天能力,在合成多模态指令上的表现优于 GPT-4。在科学质量保证中进行微调时,LLaVA 和 GPT-4 的协同作用实现了新的一流准确性。
2024-04-11 09:31:51 898
原创 计算机视觉——图像特征提取D2D先描述后检测特征提取算法原理
局部特征提取是计算机视觉中的一个重要任务,它旨在从图像中提取出能够代表图像局部结构和外观信息的特征。这些特征通常用于图像匹配、物体识别、三维重建、跟踪和许多其他应用。
2024-04-10 17:04:04 1078
原创 计算机视觉——基于深度学习UNet实现的复杂背景文档二值化算法实现与模型训练
阈值分割可以被视为一个分类问题,通常涉及两个类别,这也是为什么阈值分割也被称为二值化。对于文档图像,我们期望阈值算法能够正确地将墨水分类为黑色,将纸张分类为白色,从而得到二值化图像。对于数字灰度图像,最简单的实现方法是选择一个阈值值,比如图像二值化,并将高于这个值的灰度级别分配为白色,将剩余的级别分配为黑色。问题在于正确找到这个值,以便能够完美匹配前景和背景元素。
2024-04-10 14:29:58 1593
原创 计算机视觉——引导APSF和梯度自适应卷积增强夜间雾霾图像的可见性算法与模型部署(C++/python)
在夜间雾霾场景中,可见性经常受到低光照、强烈光晕、光散射以及多色光源等多种因素的影响而降低。现有的夜间除雾方法常常难以处理光晕或低光照条件,导致视觉效果过暗或光晕效应无法被有效抑制。本文通过抑制光晕和增强低光区域来提升单张夜间雾霾图像的可见性。为了处理光晕效应,提出了一个光源感知网络来检测夜间图像的光源,并采用APSF(大气点扩散函数)引导的光晕渲染。该算法的框架在渲染图像上进行训练,实现了光晕的抑制。
2024-04-10 09:00:00 874
原创 计算机视觉——Python OpenCV BGR转HSV
这里将介绍如何使用 OpenCV 与 Python 来作彩色影像转HSV(RGB to HSV 或 BGR to HSV),在写 Python 影像处理程序时常会用到 OpenCV cvtColor 作颜色空间转换的功能,接下来介绍怎么使用 Python 搭配 OpenCV 模块来进行 RGB/BGR 转 HSV 彩色转HSV空间。饱和度(S):色彩的纯度,越高色彩越纯,低则逐渐变灰,数值为0-100%。彩色转HSV常见的应用可能有物体检测,去背景处理(排除绿色的背景),示例. 彩色影像转HSV。
2024-04-09 18:52:56 477
原创 计算机视觉异常检测——PatchCore面向全召回率的工业异常检测
PatchCore模型是一种先进的工业异常检测方法,它在MVTec数据集上取得了最先进的性能(State of the Art,简称SOTA。这个数据集是工业领域内公认的用于评估异常检测算法的标准数据集,包含了多种不同类别的工业产品图像,既有正常样本也有异常样本。PatchCore的关键优势在于它的特征提取机制。传统的异常检测方法通常需要大量的标注数据来训练模型,以学习正常和异常图像之间的差异。然而,PatchCore采用了一种不同的策略,它利用了预训练模型(如WideResNet50)来提取图像特征。这
2024-04-09 09:23:10 1577
原创 Stable Diffusion——SDXL Turbo让 AI 出图速度提高10倍
这项工作介绍了对抗扩散蒸馏,这是一种将预训练的扩散模型蒸馏成快速,少步图像生成模型的通用方法。结合了对抗和分数蒸馏目标来提取公共的稳定扩散[54]和SDXL[50]模型,通过鉴别器利用真实数据,通过扩散教师利用结构理解。
2024-04-08 14:48:38 1093
原创 联合学习MOON——无需共享原始数据,通过模型对比联合学习实现准确的图像分类
**联合学习**是一种在数据分布的情况下,既能以低成本进行机器学习,又能保护隐私的方法,引入这种方法不仅能保护隐私,还能降低更新模型时向中央服务器发送数据的通信成本。这种方法的引入不仅有望保护隐私,还能降低更新模型时向中央服务器发送数据的通信成本。
2024-04-08 11:07:25 869
原创 计算机视觉——基于深度学习检测监控视频发生异常事件的算法实现
视频异常检测(VAD)是一门旨在自动化监控视频分析的技术,其核心目标是利用计算机视觉系统来监测监控摄像头的画面,并自动检测其中的异常或非常规活动。随着监控摄像头在各种场合的广泛应用,人工监视已经变得不切实际,因为这一任务既单调又耗时。此外,监控设备的快速增长使得用人工有效监视大量摄像头变得日益困难,因此迫切需要自动化的解决方案。异常事件通常指的是在特定场景和时间下出现的不寻常活动,例如打斗、偷窃、纵火和事故等。这些事件是否被视为异常,很大程度上取决于它们发生的环境和上下文。
2024-04-07 15:30:15 2027 1
原创 数字人解决方案——Champ单个视频单张图像生成可控且一致的人体视频生成
本文介绍了一种新颖的人体图像动画方法,将SMPL 3D参数化人体模型与潜在扩散模型相结合,旨在增强姿势对齐和动作指导。通过利用SMPL模型提供的形状和姿势变化的统一表示,以及深度、法线和语义地图,该方法进一步提高了捕捉真实人体运动和形状的能力。基于骨架的运动指导和自注意机制的特征图集成进一步优化了动画过程,使得创造更准确反映人体解剖和运动的动态视觉内容成为可能。在各种数据集上的实验验证证实了这种方法在产生高质量人体动画方面的有效性,展示了它在需要详细和逼真的人体表现的领域中推进数字内容创作的潜力。
2024-04-07 10:18:51 1148 1
原创 计算机视觉——基于傅里叶幅度谱文档倾斜度检测与校正
在计算机视觉领域,处理文档数据时,OCR算法的性能往往会受到文档的倾斜度影响。如果文档在输入到模型之前没有经过恰当的校正,模型就无法期待模型能够提供准确的预测结果,或者模型预测的精度会降低。例如,在信息提取系统中,如果向OCR模型提供了倾斜的图像,模型可能无法准确地识别出文本内容的同时,文本的对齐方式也可能因此而丢失。特别在一些包含了表格检测文档,如果在进行表格检测之前没有对图像的倾斜度进行校正,那么模型可能无法准确地预测出表格的边界和角落。
2024-04-06 10:04:17 1175
原创 OpenCV图像处理——基于OpenCV的ORB算法实现目标追踪
ORB算法通过结合FAST和BRIEF两种算法的优点,能够在图像中快速准确地检测到关键点,并生成对应的特征描述符。这使得ORB算法非常适合用于对象识别、跟踪和图像拼接等任务,尤其是在需要处理大量图像数据时,ORB的高效性尤为重要。
2024-04-05 22:02:25 1214
YOLOv8与DeepSORT实现目标追踪
2024-04-18
手机目标检测数据集.rar
2024-04-14
标注扑克牌目标识别数据集
2024-04-13
实时语义分割ENet算法Pytorch复现与模型训练
2024-04-10
基于深度学习实现的复杂背景文档二值化的算法实现
2024-04-10
夜晚图像雾霾图像增强C++/python部署
2024-04-10
基于NCNN轻量级PaddleOCRv4模型C++推理
2024-04-02
检测出图像中的几何形状并测量出边长、直径、内角(python和opencv实现)
2024-03-29
YOLOv8目标检测、语义分割、状态估计、目标追踪模型部署带GUI界面
2024-03-26
图像抠图DIS-自然图像中高精度二分图像抠图的方法(C++推理代码)
2024-03-24
百度人像抠图C++模型部署完整包
2024-03-23
人像自动抠图LFM训练代码与C++推理部署代码
2024-03-22
PP-Matting高精度抠图模型C++推理
2024-03-21
离线语音识别C++实现
2024-03-20
SadTalker语音驱动肖像图像数字人源码与模型
2024-03-18
Wav2lip 语音驱动Ai数字人源码与模型
2024-03-16
用于边缘检测的轻量级密集神经网络C++推理
2024-03-10
P2PNet密集人流统计C++实现
2024-03-09
视频一键祛水印/视频目标移除
2023-10-23
基于InsightFace、CodeFormer实现高清换脸与验证换脸后效果能否通过人脸比对、人脸识别算法
2023-10-05
一键提取视频语音并转文本带UI界面
2023-09-30
实现视频目标移除/视频水印移除/视频掩码补全/视频外扩等多个实用功能
2023-09-30
语义分割实现人脸图像的皱纹检测定位与分割数据集
2023-09-13
开放世界万物识别模型推理C++代码,目前可以识别的目标有2万1000多种
2023-09-13
基于yoloV5的x下光危险物物品识别推理代码带UI界面
2023-08-06
实时对话数字人解决方案实现源码
2023-07-22
最强伴奏人声提取工具开源免费
2023-07-10
智能黑白图像自动上色C++源码
2023-01-08
烟火检测标注好的数据集
2022-11-01
人脸比对与人脸识别C++代码与模型
2022-10-26
高清视频与图像人像抠图
2022-10-25
OpenCV视频人脸自动打码
2022-10-23
Yolov7目标检测与实例分割的C++推理代码
2022-10-19
目标识别与区域入侵检测
2022-07-11
安全帽头盔佩戴检测识别
2022-05-15
Yolov5-v3安全帽检测
2022-05-15
dfinity Internet Identity使用示例
2022-05-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人