xz1308579340-CSDN博客

原创 torch tensor操作

viewview（）用于改变tensor的形状meshgridhttps://blog.csdn.net/weixin_39504171/article/details/106356977torch.round()四舍五入取整gather四维gatherhttps://stackoverflow.com/questions/53471716/index-pytorch-4d-tensor-by-values-in-2d-tensorhttps://zhuanlan.zhihu.com/p/

2022-05-31 18:49:39 584 2

原创 torch的maximum与max以及导出onnx

文章目录1、torch.max()2、torch.min()3、 torch.maximum()4、torch.minimum()获得 Tensor 元素中的最大值、最小值1、torch.max()torch.max(input, dim, keepdim=False)返回命名元组（最大值，最大值索引），最大值是给定维度中的最大值，索引为在对应维度中的索引当有多个最大值时，返回第一个最大值的索引当没有指定维度 dim 时，则返回所有元素中的最大值（single value）input：输入张量

2022-05-22 19:21:00 1390

原创将torch模型转化为onnx模型

函数torch.onnx.export(model, args, f, export_params=True, verbose=False, training=False, input_names=None, output_names=None, aten=False, export_raw_ir=False, operator_export_type=None,opset_version=None, _retain_param_name=True, do_constant_f

2022-05-22 12:07:53 3863

原创 leetcode(455). Majority Element 贪心法分饼干

Assign CookiesAssume you are an awesome parent and want to give your children some cookies. But, you should give each child at most one cookie.Each child i has a greed factor g[i], which is the minimum size of a cookie that the child will be content wi.

2021-09-29 20:30:13 141

原创 leetcode(169). Majority Element

寻找数组中占比超过一半的数，要求空间复杂度0(1)题目Given an array nums of size n, return the majority element.The majority element is the element that appears more than ⌊n / 2⌋ times. You may assume that the majority element always exists in the array.Example 1:Input: nums =

2021-09-22 23:10:00 98

原创 Python 垃圾回收机制

概述python 采用的是引用计数机制为主，标记 - 清除和分代收集两种机制为辅的策略。引用计数Python 语言默认采用的垃圾收集机制是『引用计数法 Reference Counting』，该算法最早 George E. Collins 在 1960 的时候首次提出，50 年后的今天，该算法依然被很多编程语言使用。『引用计数法』的原理是：每个对象维护一个ob_ref字段，用来记录该对象当前被引用的次数，每当新的引用指向该对象时，它的引用计数ob_ref加1，每当该对象的引用失效时计数ob_ref

2021-09-05 18:08:05 192

原创 linux中的so文件

静态链接和动态链接静态链接:而动态链接在链接的时候并不将那些库文件直接拿过来，而是在运行时，发现用到某些库中的某些函数时，再从这些第三方库中读取自己所需的方法,用到什么功能，加载什么so文件，不同操作系统的动态链接库文件格式稍有不同，Linux称之为共享目标文件（Shared Object），文件后缀为.so，Windows的动态链接库（Dynamic Link Library）文件后缀为.dll。静态链接:在链接的时候，就把所依赖的第三方库函数都打包到了一起，导致最终的可执行文件非常大。静态链接的存

2021-06-30 11:10:31 4008

原创 11.MOCO v3

paper链接：https://arxiv.org/abs/2104.02057摘要１．作者分析了训练self-supervised ViT过程中的一些现象，指出“训练过程的不稳定”是影响accuracy的一个主要的因素，但是这个因素也存在于一些看起来不错的结果里，所以往往是不容易被发现的。２．基于对训练过程中梯度的观察，作者提出了一个简单的trick（use fixed random patch projection，即固定住ViT的patch projection层）用于提升稳定性。详细重头戏

2021-04-18 20:48:47 397 1

转载 python的多进程与多线程

python的多线程比较鸡肋，优先使用多进程基础知识现在的 PC 都是多核的，使用多线程能充分利用 CPU 来提供程序的执行效率。1.1 线程线程是一个基本的 CPU 执行单元。它必须依托于进程存活。一个线程是一个execution context（执行上下文），即一个 CPU 执行时所需要的一串指令。1.2 进程进程是指一个程序在给定数据集合上的一次执行过程，是系统进行资源分配和运行调用的独立单位。可以简单地理解为操作系统中正在执行的程序。也就说，每个应用程序都有一个自己的进程。每一个进.

2021-03-12 21:07:39 163

原创人脸检测-RetinaFace

《RetinaFace: Single-stage Dense Face Localisation in the Wild》论文地址：https://arxiv.org/pdf/1905.00641.pdfInsight Face在2019年提出的最新人脸检测模型,原模型使用了deformable convolution和dense regression loss，在 WiderFace 数据集上达到SOTA。1、摘要虽然在未受控制的人脸检测方面取得了巨大进步，但野外准确有效的面部定位仍然是一个开

2021-03-02 17:10:23 259

原创 RetinaNet

object detection的算法主要可以分为三大类：two-stage detectorone-stage detector基于焦点该论文最大的贡献在于提出了Focal Loss用于解决类别不均衡问题，从而创造了RetinaNet（One Stage目标检测算法）这个精度超越经典Two Stage的Faster-RCNN的目标检测网络。基于深度学习的目标检测算法有两类经典的结构：Two Stage 和 One Stage。**Two Stage：**例如Faster-RCNN算法。第一级专

2021-03-02 15:53:26 268

转载余弦距离

原文:https://blog.csdn.net/lucky_kai/article/details/89514868概述：在机器学习领域中，通常将特征表示为向量的形式，所以在分析两个特征向量之间的相似性时，常用余弦相似度表示。例如将两篇文章向量化，余弦距离可以避免因为文章的长度不同而导致距离偏大，余弦距离只考虑两篇文章生成的向量的夹角。余弦相似度的取值范围是[-1,1]，相同两个向量的之间的相似度为1。余弦距离的取值范围是[0,2]。余弦相似度的定义公式为cos(A,B)=A⋅B∥A∥2∥B∥2

2020-12-23 19:44:39 460

原创 10.无需负样本的自监督学习 BYOL

(2020年6月13日提交)无需负样本的自我监督学习不易受批次大小和数据增强的影响比传统的对比度学习与ImageNet分类等准确率更高。DeepMind提出了一种新的自监督学习方法Bootstrap Your Own Latent(BYOL).自监督学习是无监督学习的一种，它是一种标在这种类型的学习中，教师是由输入数据本身创建的，而不使用自我监督学习。例如，自监督学习可以通过隐藏一部分图像数据，并对未隐藏的部分图像数据作为输入进行预测，从而学习图像的表示。在传统的著名模型如SimCLR和MoC

2020-10-13 11:48:19 1112

原创 9.无监督学习simclr中的数据增强

重新评估数据增强方式是simclr取得成功的关键之一,之前的文章设计了一系列复制的数据增强,我们发现只需要随机裁剪就够了如图3所示，它创建了一系列包含上述两个任务的预测性任务。数据增强操作的组成对于学习良好的表示形式至关重要为了系统地研究数据扩充的影响，我们在这里考虑几种常见的扩充。一类扩充涉及数据的空间/几何变换，例如裁剪和调整大小（水平翻转），旋转（Gidaris等，2018）和剪切（De-Vries＆Taylor，2017）。另一种类型的增强涉及外观变换，例如颜色失真（包括颜色下降，亮度，对

2020-10-12 19:08:55 896

原创 8.无监督学习: SimCLRv2

v2框架整体还是沿用了在NLP中流行的unsupervised pretrain外加10% 的有监督label进行微调的范式。预训练阶段在没有先验的情况下学习没有标签的数据。论文中也提到了使用较深和较宽的神经网络可以提高label-efficient，并极大地提高准确性。与SimCLRv1采用ResNet-50的策略不同，SimCLRv2中的Large model直接上152层的ResNet，其通道是前者的三倍同时也采用了SK随着应用大规模的模型，一方面是提升精度，另一方面也却显得有点笨重。后面还是通

2020-10-12 13:32:00 780

原创 7.无监督学习: MoCo V2

核心融合了MoCo V1 和 SimCLR, 是二者的集大成者,并且全面超越SimCLR吸收了SimCLR的两个重要改进using an MLP projection headmore data augmentation无需SimCLR一样超大batch size, 普通8卡即可训练代码开源Introduction Recent无监督学习的进展主要来源与对比学习,更小的batch size更少的资源消耗更好的效果In contrast to SimCLR’s large 4k∼

2020-10-10 14:29:22 1706

原创 0.无监督/自监督 paper list

paper list博客:https://towardsdatascience.com/a-framework-for-contrastive-self-supervised-learning-and-designing-a-new-approach-3caab5d29619主要算法CPC，AMDIM，SimCLR，Moco，BYOL综述文章https://arxiv.org/pdf/2009.00104.pdf主要算法CPC，AMDIM，SimCLR，Moco，BYOL[1] Falco

2020-10-10 12:59:00 254

原创 1.无监督学习概述: 生成学习VS对比学习

概述自监督方法在深度学习中将取代当前占主导地位监督方法的预言已经存在了很长时间。如今，自监督方法在Pascal VOC检测方面已经超过了监督方法（2019年何恺明提出的MoCo方法），并且在许多其他任务上也显示出了出色的结果。最近自监督方法兴起的背后是他们都遵循了 contrastive learning 。当前的机器学习方法大多依赖于人类标注信息，这种对标注信息的过度依赖有如下危险：数据的内部结构远比标注提供的信息要丰富，因此通常需要大量的训练样本，但得到的模型有时是较为脆弱的。在高维分类问

2020-10-10 12:56:06 4604 2

原创模型量化

https://zhuanlan.zhihu.com/p/132561405模型量化是一种将浮点计算转成低比特定点计算的技术，可以有效的降低模型计算强度、参数大小和内存消耗，但往往带来巨大的精度损失。尤其是在极低比特(<4bit)、二值网络(1bit)、甚至将梯度进行量化时，带来的精度挑战更大。Part 1 量化综述什么是模型量化？为什么要进行模型量化？模型量化是由模型、量化两个词组成。我们要准确理解模型量化，要看这两个词分别是什么意思。在计算机视觉、深度学习的语境下，模型特指卷积神经网络，

2020-10-10 11:44:54 7190 1

原创 5. 无监督学习 MoCo: Momentum Contrast for Unsupervised Visual Representation Learning

用于视觉表示学习的动量对比。作者：Kaiming He 以及FAIR的一众大佬Summary这篇文章主要解决的是无监督视觉表示学习问题。作者从将对比学习看做字典查找（dictionary look-up）出发，使用队列（queue）和滑动平均编码器（moving-averaged encoder）构建动态字典。这一做法使得通过在线构建大容量且协调的字典来实现对比无监督学习成为可能。作者表示，该方法在7种检测和分割任务上超过了有监督学习方法。目前，已经有一些方法借助对比损失（contrastive l

2020-10-09 20:28:15 1372

原创 4.无监督算法 SimCLR

有点像词向量预训练模型，这个框架可以作为很多视觉相关的任务的预训练模型，可以在少量标注样本的情况下，拿到比较好的结果。结果自监督情况下固定特征提取层, 使用所有数据训练softmax分类器小数据集fineturn所有参数微调迁移学习所有数据The Illustrated SimCLR FrameworkPublished March 04, 2020 in illustrationhttps://amitness.com/2020/03/illustrated-simclr/近年

2020-10-09 17:11:00 2766 3

原创 Contrastive Self-Supervised Learning 的对比学习框架和设计新方法

https://towardsdatascience.com/a-framework-for-contrastive-self-supervised-learning-and-designing-a-new-approach-3caab5d29619近来，一系列“新颖”的自监督学习领域算法取得了不错的成果，如：AMDIM[2]，CPC[3]，Moco[5]，SimCLR[4]，BYOL[6]等。YADIM[1]设计了一个框架来表达对比性自我监督学习方法，受该框架启发，本文从4个方面了分析近来的对比自监督算

2020-10-09 15:00:42 1038

原创 2.Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey

预训练模型提供一个好的初始点避免过拟合深度学习的标注成本很高,尤其是涉及视频时为避免耗时且昂贵的数据标注工作，提出了许多自我监督的方法，以在不使用任何人工注释的情况下从大规模的未标记图像或视频中学习视觉特征。为了从未标记的数据中学习视觉特征，一种流行的解决方案是为网络提出各种需要解决的pretext tasks，同时可以通过学习借记任务的目标功能来训练网络，并通过此过程学习特征。各种已经提出了各种自我监督学习的借口任务，包括为灰度图像着色[18]，图像修复[19]，拼图游戏[20]（1.

2020-09-30 13:31:32 679

原创 OCR输入要求

Q：图片格式和分辨率有限制吗?A：目前图片格式支持jpg、png、bmp，图片的长和宽要求最短边大于10px，最长边小于2048 px。Q：图片大小有限制吗?A：图像编码后大小必须小于10M，建议不要超过4M；最小边长不小于15，最大边长不超过4096，建议不要超过2048（最大边长超过2048或编码后大于1M的图像会被缩放，影响效果，建议控制输入图像大小）Q：身份证识别支持图片的竖拍吗?A：横拍竖拍都支持。Q：银行卡识别支持翻转识别吗？A：目前翻转不支持。Q：怎么提高识别的准确率和识别速度

2020-09-29 08:28:37 990

转载 python getattr,setattr方法的理解

（1）getattr(self, item):在访问对象的item属性的时候，如果对象并没有这个相应的属性，方法，那么将会调用这个方法来处理。。。这里要注意的时，假如一个对象叫fjs, 他有一个属性：fjs.name = “fjs”，那么在访问fjs.name的时候因为当前对象有这个属性，那么将不会调用__getattr__()方法，而是直接返回了拥有的name属性了（2）setattr(self, item, value):当试图对象的item特性赋值的时候将会被调用。# -*- coding:

2020-09-23 20:53:40 246

原创 Ear Recognition: More Than a Survey

文还介绍了一个新的完全不受约束的从网络收集的耳朵图像数据集，提供一个工具箱，该工具箱实现了几种最先进的耳朵识别技术。(Matlab)The toolbox is available from: http://awe.fri. uni-lj.si自动耳朵识别系统中使用的耳朵图像通常可以从个人头像拍摄或录像中提取出来。采集过程是非接触的且非侵入性的，并且也不取决于人们试图识别的人的合作能力。在这方面，人耳识别技术与其他基于图像的生物特征识别方法具有相似之处。耳部生物识别技术的另一个吸引人的特性是其独特性

2020-07-30 17:06:20 736

原创 Deep Ear Recognition Pipeline

paper link: https://link.springer.com/chapter/10.1007/978-3-030-03000-1_14key开源耳朵训练集和测试集 (http://awe.fri.uni-lj.si)检测用分割识别计算向量L2距离耳朵识别pipline基于卷积神经网络的新型人耳识别管道执行耳朵的检测以及识别，并在图像数据上表现出色在完全不受限制的设置中捕获•改进了以前最好的耳朵检测方法，•对提议的分别用于检测和识别的技术进行详细分析，以及进行联合

2020-07-30 15:43:48 232

转载 A-Softmax(SphereFace)

论文：SphereFace：https://arxiv.org/abs/1704.08063SphereFace在MegaFace数据集上识别率在2017年排名第一，用的A-Softmax Loss有着清晰的几何定义，能在比较小的数据集上达到不错的效果。首先，需要先科普一下在训练和测试人脸识别分类器的时候经常被提到的Open-set 和Close-set。Figure 1是一个直观的展示。close-set，就是所有的测试集都在训练集中出现过。所以预测结果是图片的ID，如果想要测试两张图片是否是同一个

2020-07-26 22:48:27 839

原创人脸识别中的全脸/半脸/中脸

人脸识别中的一个常用概念是全脸/中脸/半脸下面讲一下区别目前DeepFaceLab拥有三种不同类型的脸部模式，H64和H128是半脸(half face)模型，DF LIAEF128 Quick96是全脸(full face)模型，SAE SAEHD拥有半脸 (half face) 和中脸 (medium face) 和全脸(full face)三种模式，本篇文章就说一说这些“脸”的区别。半脸模型：缺点：面积较小，没有额头脸颊和下巴难于正确遮盖，若两人差别太大就难有好的效果。比如src有络腮胡，但

2020-07-20 14:21:40 3164

转载 PFLD: A Practical Facial Landmark Detector

转载： https://www.jiqizhixin.com/articles/2019-04-17-20PFLD算法，目前主流数据集上达到最高精度、ARM安卓机140fps，模型大小仅2.1M!研究背景人脸关键点检测，在很多人脸相关的任务中，属于基础模块，很关键。比如人脸识别、人脸验证、人脸编辑等等。想做人脸相关的更深层次的应用，人脸关键点是绕不过去的点。正是因为它是一个基础模块，所以对速度很敏感，不能太耗时，否则影响了系统整体的效率。所以对人脸关键点检测的要求是，又准又快。研究问题人脸关键点

2020-07-19 22:24:49 280

原创 RetinaFace: Single-stage Dense Face Localisation in the Wild

作者：帝国理工，伦敦米德尔塞克斯大学，InsightFacepaper： https://arxiv.org/pdf/1905.00641.pdfgithub： https://github.com/deepinsight/insightface/tree/master/RetinaFace1.摘要摘要：虽然在未受控制的人脸检测方面取得了巨大进步，但野外准确有效的面部定位仍然是一个开放的挑战。这篇文章提出了一个强大的单阶段人脸检测器，名为RetinaFace，它利用联合监督和自我监督的多任务学习

2020-07-10 21:15:05 255

原创文本检测-Psenet

通常OCR中，文字检测都是由目标检测继承而来，目标检测大多都是基于先验框的（anchor base)，近期出现的no-anchor模式本质上也是基于先验框的。anchor-base模式在目标检测衍生到OCR领域就有很多缺陷，比如：倾斜（或扭曲）文字检测不准、过长文字串检测不全、过短文字串容易遗漏、距离较近的无法分开等缺点。近期，渐进式扩展网络(PSENet)横空出世，以另一种思路解决了这些问题。目前文本检测领域主要有两种方法，一种是Anchor-based的方法，如下(b)所示，其主要问题是基于ancho

2020-07-10 19:56:58 1540

原创 EAST算法(Efficient and Accuracy Scene Text))

1.EAST模型简介本文介绍的文本检测模型EAST，便简化了中间的过程步骤，直接实现端到端文本检测，优雅简洁，检测的准确性和速度都有了进一步的提升。如下图：其中，（a）、（b）、（c）、（d）是几种常见的文本检测过程，典型的检测过程包括候选框提取、候选框过滤、bouding box回归、候选框合并等阶段，中间过程比较冗长。而（e）即是本文介绍的EAST模型检测过程，从上图可看出，其过程简化为只有FCN阶段（全卷积网络）、NMS阶段（非极大抑制），中间过程大大缩减，而且输出结果支持文本行、单词的多个角度

2020-06-12 19:08:22 6952

原创图像风格迁移1 A Neural Algorithm of Artistic Style

论文地址https://arxiv.org/pdf/1508.06576v2.pdf所谓图像风格迁移，是指利用算法学习著名画作的风格，然后再把这种风格应用到另外一张图片上的技术。著名的国像处理应用Prisma是利用风格迁移技术，将普通用户的照片自动变换为具有艺术家的风格的图片。先回忆一下图像识别模型VGGNet。事实上，可以这样理解VGGNet的结构：前面的卷积层是从图像中提取“特征”，而后面的全连接层把图片的“特征”转换为类别概率。其中，VGGNet中的浅层（如conv1_1，conv1_2），提

2020-06-12 17:33:40 496

原创文本检测 DB：Real-time Scene Text Detection with Differentiable Binarization

原文地址：https://blog.csdn.net/m_buddy/article/details/103285989代码地址：DB-official:https://github.com/MhLiao/DBDBNet.pytorch:https://github.com/WenmuZhou/DBNet.pytorch1. 概述由于分割网络的结果可以准确描述诸如扭曲文本的场景，因而基于分割的自然场景文本检测方法变得流行起来。基于分割的方法其中关键的步骤是其后处理部分，这步中将分割的结果转换为文本

2020-06-05 23:47:48 6627 8

labelImg安装需要的所有资源

FRCNN tensorflow 代码

tensorflow目标检测代码

deepling detection必读论文frcnn ssd yolo 等等

空空如也