自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 【手撕经典算法】【目标检测】SSD

先看论文,再写解读,再根据pytorch 手写实现

2020-12-21 15:08:15 1348 2

原创 非极大值抑制(nms)算法详解[python]

一、起源目标检测在使用了基于深度学习的端到端模型后效果斐然。目前,常用的目标检测算法,无论是One-stage的SSD系列算法、YOLO系列算法还是Two-stage的基于RCNN系列的算法,非极大值抑制都是其中必不可少的一个组件。在现有的基于anchor的目标检测算法中,都会产生数量巨大的候选矩形框,这些矩形框有很多是指向同一目标,因此就存在大量冗余的候选矩形框。非极大值抑制算法的目的正在于...

2019-08-22 17:29:59 26635 10

原创 【手撕经典算法】经典卷积网络(一)VGG

本文讲解和代码地址:https://github.com/lzneu/handwriten_net/blob/master/conv/VGG.ipynb

2021-01-14 15:42:51 646

原创 【深度学习刨根问底】Pytorch细节

两个方法的功能都是交换张量中的维度,但两个方法却有着很大的不同:1、维度不同:- transpose(dim1,dim2)只能传入两个参数,tensor在这两个维度之间交换;-permute(dims)要求传入所有维度,tensor按维度排列顺序进行交换;2、共享内存:- transpose得到的张量与原张量共享内存,如果需要改变内存-permute为非共享内存注意点:torch.view函数只能由于contiguous的张量上,具体而言,就是在内存中连续存储的张量。..

2020-12-29 20:56:57 265

原创 【手撕经典算法】【论文解读】【目标检测】YOLO系列解读YOLOv3算法手写

YOLO系列算法论文解读YOLOv11、直接看网络的输出如何表示目标如Fig2最终的输出层特征尺寸为S*S大小的grid,每个grid单元代表一个输出预测; 每个输出预测包括B个bbox以及C个类别的置信度 bbox表示为[x,y,w,h, 置信度],其中,xy 为相对于gridcell边界的中心;w,h 为相对于整个图片的距离;置信度预测为预测框和真实框的IOU值,当grid cell中不存在目标时,其值为0 C个类别置信度为Pr(Classi| Object),其中P(Obj

2020-12-29 10:43:47 1072 1

原创 【论文解读】Stacked Hourglass Networks

题目:Stacked Hourglass Networks forHuman Pose Estimation作者背景:ECCV 2016录用作者来自密歇根大学

2020-11-11 17:50:25 592 1

原创 【论文解读】【图像分割】U-Net

题目U-Net: Convolutional Networks for BiomedicalImage Segmentation作者基于滑窗的分割缺点1、对每个取窗的patch分隔训练,patch与patch之间数据重复度高2、定位精确度与context之间有trade-off。大的patch需要更大的pooilng层,使得定位误差增大;同时,小的patch使得网络提取出更少的语义信息主要工作1、基于FCN,在收缩网络之后连接扩展网络,形成一个类似U形状的网络架构2、将p

2020-11-05 16:27:30 1118

原创 【论文解读】【文字检测】EAST

EAST: An Efficient and Accurate Scene Text Detector作者:一、Overview主要的工作包含三个部分:- 取消多阶段模型,提出2阶段模型,FCN+NMS- 支持旋转矩形、四边形;支持词级别、句级别的文字检测- 提出的算法在精度和速度都达到sota二、算法介绍2.1 网络设计- 要点:大的文本区域需要高级特征;小的文本区域需要低级别的特征- 借鉴U-net的灵感 ,使用up-sampling模块来进行特征融合...

2020-10-29 20:45:45 453 2

原创 【论文解读】【论文翻译】【文字检测】TextFuseNet

TextFuseNet: Scene Text Detection with Richer Fused Features作者:论文翻译:Abstract自然场景中的任意形状文本检测是一项极具挑战性的任务。与现有的仅基于有限特征表示感知文本的文本检测方法不同,我们提出了一个新颖的框架TextFuseNet,以利用融合的丰富特征进行文本检测。更具体地说,我们建议从特征表示的三个级别(即字符,单词和全局级别)感知文本,然后引入一种新颖的文本表示融合技术,以帮助实现鲁棒的任意文本检测...

2020-10-19 22:01:48 2609

原创 【论文解读】【文字检测】PixelLink

PixelLink: Detecting Scene Text via Instance Segmentation作者:一、Overview1.1 拟解决的问题:- 文本实例距离非常近的情况,语义分割无法分开两个实例1.2 算法简介- 预测包含两个部分:1)文本/非文本;2)连接预测- 受到SegLink的启发,与其不同的是:PixelLink仅仅关注像素及其临近的8个像素是否在同一文本实例内,如果在的化就是正样本,否则为负- 然后使用这两个部分的预测来生成Connect

2020-10-19 21:52:48 395

原创 【论文解读】【文字检测】SegLink

Detecting Oriented Text in Natural Images by Linking Segments一、作者二、主要思想将文本检测的全局问题拆分成两个局部可检测元素:segments和links;然后使用这两个元素合并成为bbox。三、Overview3.1 优势:- 适用于任意长度文本,任意方向的文本- 速度快3.2 主要架构- 使用VGG16作为backbone- 增加6个卷积预测器- 为了处理多尺度检测,使用两种类型的link...

2020-10-19 17:57:28 614

转载 【Moving Least Squares】【移动最小二乘法】

基于移动最小二乘的图像变形一、背景意义写这篇博文是应为目前为止我看到了好多领域里的经典paper算法都有涉及到移动最小二乘(MLS)。可见这个算法非常重要,先来看一下它的相关经典应用:1、图像变形。在图像处理领域paper:《Image Deformation Using Moving Least Squares》利用移动最小二乘的原理实现了图像的相关变形,而且这篇paper的引用率非常高,可以说是图像变形算法的经典算法,Siggraph上面的paper。利用移动最小二乘实现图像变形

2020-10-13 16:15:31 3723

原创 CSIG-DIAR 2020学术年会系列报道-学习笔记

CSIG-DIAR 2020学术年会系列报道一、金连文老师《手写及场景文字分析与识别的一些新尝试》演讲笔记1.1 手写体签名鉴别 1.1.1 总体趋势 - 传统仍然由于纯深度学习模型,原因有2 = 已有的训练数据集规模很小 = 需要寻求有效的数据增广方式 1.1.2 SynSig2Vec:一种新的深度学习笔迹鉴别新方法 - 只需要真实签名机器形变样本,无需仿冒签名来进行训练 二、白翔老师《2020年场景文...

2020-09-28 17:51:42 495

原创 【论文解读】【论文翻译】SAST文字检测算法

A Single-Shot Arbitrarily-Shaped Text Detector based on,Context Attended Multi-Task Learning百度自研文字检测算法,实际上就是EAST算法的扩展,一阶段,输出为multitask,各个分支相互校正。

2020-08-22 15:55:57 4613 1

原创 【深度学习基础】优化器详解

深度学习优化器,学习率策略全面详解待更新。。。

2020-08-06 09:00:31 1733

原创 【论文解读】【论文翻译】ABCNet

作者:Yuliang Liu‡;华南理工大学;阿特来德大学;华为诺亚方舟实验室背景知识:论文翻译:Abstract 场景文本检测和识别已经吸引了大量的研究者关注。现有的方法可以大致分为两类:基于字符的方法和基于分割的方法。这些方法或者需要花费字符标注的精力或者需要维护一个复杂的pipeline,这对于实时应用是十分不利的。因此我们提出了自适应贝塞尔曲线网络ABC-Net。我们的贡献包括以下三个部分:1)首先,我们通过参数化的贝塞尔曲线拟合任意形状的文本区域;2...

2020-07-28 10:11:57 1451 4

原创 detectron2官方tutorials翻译-Configs

Configsdetectron2提供了一个基于k-v的配置问题体系,能够被用于标准通用的一些行为。detectron2的配置文件使用yaml和yacs类型数据。为了提供基本操作和更新配置文件,我们提供了如下的额外功能:配置文件可能含有_BASE_:base.yaml字段,该字段首先加载一个基本配置文件。base配置文件中的一些值将会被子配置文件所覆盖。我们为标准模型架构提供了几个base配置。我们提供了配置的版本控制,向后兼容。配置文件是一个非常有局限性的语言。我们不希望detect

2020-07-27 20:09:06 493

原创 detectron2官方tutorials翻译-Evaluation

Evaluation评估是一个接受一些输入/输出对并计算相应指标的过程。你可以直接使用模型,并手动解析输入输出来评估性能。detectron2也提供了一个评估接口DatasetEvaluator。detectron2包含了一些计算标准数据集评估指标的DatasetEvaluator(例如COCO,LSVT等)。你也可以实现你自己的DatasetEvaluator来完成其他的一些评估任务。例如,统计验证集中实例的个数:class Counter(DatasetEvaluator): def re

2020-07-27 20:08:22 886

原创 detectron2官方tutorials翻译-Training

Training在之前的文档中,你可能已经自定义了一个模型和一个dataloader。为了训练,使用者通常在以下两种方式中挑选一种:Custom Training Loop在模型和dataloader已经准备好的情况下,模型训练loop中所有需要的东西都已经在Pytorch中实现好了,你可以自由的实现你所需要的部分。这个方式允许开发者自主实现整个训练逻辑。官方提供的例子为:tools/plain_train_net.py。Trainer Abstraction我们也提供了一个标准的“trainer

2020-07-27 20:07:22 223

原创 detectron2官方tutorials翻译-Write Models

Write Models如果你正在尝试完成一些新任务,你可能想要实现一个完全的自研模型。然而,很多情况下你只需修改或者扩展detectron2中的现有模型。因此我们提供了一个注册机制来让你覆写标准模型的内部组成部分。例如,为了添加一个新的backbone,在你的代码里添加以下部分:from detectron2.modeling import BACKBONE_REGISTRY, Backbone, ShapeSpec@BACKBONE_REGISTRY.register():class Toy

2020-07-27 20:06:38 160

原创 detectron2官方tutorials翻译-Use Models

Use ModelsDetectron2中的模型构建是通过以下函数实现,例如:build_model、build_backbone、build_roi_heads:from detectron2.modeling import build_modelmodel = build_model(cfg) # 返回一个torch.nn.Modulebuild_model仅仅是创建了模型,并且填入了随机参数,下面说明如何加载已有模型,和如何使用model对象。Load/Save a Checkpoint

2020-07-27 20:05:51 328

原创 detectron2官方tutorials翻译-Use Dataloaders

Use DataloadersDataloader是为模型提供数据的部分,一个dataloader通常从数据集中获取行信息,处理为模型需要的格式。How the Existing Dataloader WorksDetectron2提供了两个方法从config来创建一个默认的dataloader:build_detection_{train, test}_loader,下面是工作原理:它首先用一个注册数据集的名称拿到该数据集,让后用一个轻量级的格式加载一个list[dict]来表示该数据集。这些

2020-07-27 20:04:39 242

原创 detectron2官方tutorials翻译-Use Custom Datasets

Use Custom Datasets如果想要使用自定义数据集的同时复用detectron2的dataloader,你将需要\1. Register 你的数据集\2. 可选,注册你的数据集的metadata接下来详细说明这两个步骤:Register a Dataset假设我们需要建立一个名称为my_datasets的数据集,需要做的工作有两个,首先需要实现一个返回items的函数,并将这个函数传递给detectron2def my_dataset_function(): ...

2020-07-27 20:02:02 546 1

原创 表格OCR相关资源整理【ICDAR】【表格识别】【持续更新...】

定义: 表格检测(Table Detection)任务是从一个页面中检测出表格所在的区域 表格结构识别(Table Structure Recognition)任务则是在检测到的表格区域的基础上,进一步将表格的内容与逻辑结构识别出来 数据集: 名称 说明 内容 量级 地址 ...

2020-03-23 12:31:55 5789 5

原创 DB算法分析《Real-time Scene Text Detection with Differentiable Binarization》

算法架构图:算法分析 总览,主要包含三个部分: backbone提取特征(特征金字塔) 特征金字塔被上采样到相同尺度构建一个特征图F 使用F来预测概率图P和阈值图T,并通过P和T来生成二值图B 一些细节: 预设的图片大小【640,640】 在训练阶段:P、T、B都会进行loss计算,并bp,其中P、B会使用相同的标签 在推理阶段,P、B都可以被...

2020-02-13 15:41:44 3286

原创 【论文解读】【论文翻译】【线框分析】LCNN

1. 文章背景:2018年的CVPR会议上,来自上海科技大学信息学院的团队提出了《Learning to Parse Wireframes in Images of Man-Made Environments》论文来进行现实场景中图片框线结构的检测分析研究,与此同时,他们贡献出了一个带标注的开源的数据集wireframe。本文正是基于该数据集进行的框线分析问题研究。这篇论文旨在为业界的...

2019-11-10 18:34:32 5874

原创 电商评论爬虫【python】

一年前给上家公司写的商品评论、商品信息爬虫支持京东、天猫现在分享给大家天猫评论爬虫:https://github.com/lzneu/Comment_Ali_Spider_20180329京东评论爬虫:https://github.com/lzneu/Comment_JD_Spider_20180329天猫 产品品牌爬虫:https://github.com/lzneu/Pro...

2019-11-08 15:20:25 1177

原创 【论文解读】【论文翻译】【文字检测Corner】ICDAR2019发票比赛冠军论文

1. 文章背景:ICDAR2019任务3: 发票比赛端到端识别比赛冠军,技术方案Corner+CRNN,其中的Corner方法就是本文方法,开源代码:https://github.com/lvpengyuan/corner2. 题目:Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentati...

2019-09-26 16:08:30 2807 9

翻译 VGG论文翻译

本文为VGG论文的翻译,VGG英文论文地址:http://www.robots.ox.ac.uk/~vgg/research/very_deep/VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION牛津大学Absract在这篇文章中我们探讨了在大规模图像识别中卷积网络深度设置对准确率的影响。文章主要的思...

2019-08-26 09:47:36 1444

原创 图像处理中的仿射变换和透视变换理解总结

一. 前言1. 最近在做身份证OCR项目中,需要对倾斜扭曲的图像做矫正,透视变换正可以解决这个问题,在这里记录对变换方法的理解。2. 本文主要介绍一下仿射变换和透视变换的原理,特点以及其在opencv中实现的一些注意点。3. 首先看下透视变换后的例图: 二. 从仿射变换说起透视变换和仿射变换在原理上比较相似,而仿射变换更加简单。1. 定义:...

2019-06-18 20:50:50 7086 2

原创 python关于multiprocessiong.Pool进程池使用

multiprocessiong.Pool多进程池中,可以使用的并行方法有:map, apply, map_async, apply_async四种方法的区别如下:简单来说:map(map_async)与 apply(apply_async)的区别是:apply可以在循环中传递多种参数,map只支持一种迭代器的参数apply与apply_async的区别:apply会在执...

2019-03-27 14:32:16 554

原创 关于深度学习中batch_size对于模型的影响

较大的batch_size能够得到更加精准的梯度估计,但是回报小于线性。 较小的batch_size能够带来更好的泛化误差。 由于小batch_size再学习过程中带来了噪声,会产生一些正则化效果。 由于梯度估计的高方差,小batch_size在训练中需要更小的学习率以保持稳定性,这意味着更长的训练时间 当batch_size设置为2的次幂时能够充分利用矩阵运算。参考《深度学习》8...

2019-02-26 12:01:24 1881

转载 详解机器学习中的梯度消失、爆炸原因及其解决方法

https://blog.csdn.net/qq_25737169/article/details/78847691

2019-02-19 10:18:18 134

转载 蓄水池抽样

蓄水池抽样 今天又在“待字闺中”上看到将蓄水池抽样的题,想起一年多之前小光找工作的时候考过我这个。这里做个备忘。转自:https://www.guokr.com/blog/745588/题目要求:从个元素中随机抽取个元素,但的个数无法事先确定。在实际应用中,往往会遇到很大数据流的情况。因此,我们无法先保存整个数据流然后再从中选取,而是期望有一种将数据流遍历一遍就得到所选取的元素,...

2018-09-03 09:01:52 201

原创 Mysql备忘整理

1. 创建数据库: CREATE DATABASE db_test;2. 删除数据库: DROP DATABASE db_test;3. 选择数据库: USE db_test;4. 创建数据表:CREATE TABLE IF NOT EXISTS table_test (column_id INT UNSIGNED AUTO_INCREMENT, column_name VARCHAR...

2018-09-01 11:07:31 132

原创 设计一个随机算法,将一个整数M分成N个整数 要求每个都在区间【minV, maxV】之间

设计一个随机算法,将一个整数M分成N份 要求每份在区间【minV, maxV】之间输入:M, N, minV, maxV输出: N个随机整数举个栗子: 比如:N = 10 M = 3 minV = 2 maxV = 4 那么输出是 [2, 4, 4] [3, 3, 4] [4, 2, 4]......等每次运行的输出结果不一样,满足随机性import ran...

2018-08-30 18:02:01 5495 5

原创 机器学习算法笔记(一)

(1)容斥原理a. 容斥原理是组合数学方法,可以求解集合、复合事件的概率等。b. 计算几个集合并集的大小,先计算出所有单个集合的大小,减去所有两个集合相交的部分,加上三个集合相交的部分,再减去四个集合相交的部分,以此类推,一直计算到所有集合相交的部分。c. 概率论:事件Ai(i=1,...,n),P(Ai)为对应事件发生的概率。至少一个事件发生的概率:转自:https://bl...

2018-08-24 08:19:58 307

原创 哈希表冲突解决方法方法总结

参考书籍:《大话数据结构》1. 开放定址法:一旦发生冲突,就去寻找下一个空的散列地址。只要列表足够大,空的散列地址总能找到,并将记录存入。        线性探测法:当使用线性探测法进时,会吹按不是同义词却需要争夺一个地址的情况,这种现象是堆积。        二次探测法:增加平方运算为了不让关键字都聚集在某一块区域,解决堆积问题。        随机探测法:在冲突时,对于...

2018-07-27 10:47:12 486

原创 最长公共子序列LCS理解和实现[python]

问题:给定两个字符串S1和S2,求这两个字符串的最长公共子序列的长度例子:    S1= ABCD,S2=AEBD,最长公共子序列长度为3思路:    1.自顶向下的方法        |-回溯法: 时间复杂度O(2^n * n)            |-对两字符串的最后一个字符进行比较,分为相等和不相等两种情况                |-相等:res = 1 + back(m-1, n...

2018-06-15 21:27:22 2341

转载 贪心算法理解

一、基本概念:      所谓贪心算法是指,在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,他所做出的仅是在某种意义上的局部最优解。     贪心算法没有固定的算法框架,算法设计的关键是贪心策略的选择。必须注意的是,贪心算法不是对所有问题都能得到整体最优解,选择的贪心策略必须具备无后效性,即某个状态以后的过程不会影响以前的状态,只与当前状态有关。    所以对所采...

2018-06-14 10:53:02 1920

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除