自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Francis Liu

万物皆有裂痕,那是光照进来的地方。

  • 博客(59)
  • 资源 (5)
  • 收藏
  • 关注

原创 【停更公告】

因为感觉CSDN的交流学习生态不是特别好,所以博客基本不怎么用了,平时的话知乎会看的多一点,后续有精力会写一些文章。个人目前在商汤实习,浙大计院硕士在读,方向是OCR(主要是场景文字识别)和 NAS,后续有希望交流或者需要内推的可以在知乎 (https://www.zhihu.com/people/francisliu-48)私信我。...

2020-05-31 14:30:03 633 2

原创 Copy-Paste Commands

-ihttps://pypi.tuna.tsinghua.edu.cn/simple :set shiftwidth=4 # 设置缩进宽度为 4:set expandtab # 设置 Tab 转为空格10>> # 下面 10 行向右缩进10<< # 下面 10 行向左缩进 sync; echo 3 > /...

2020-02-03 17:23:06 333

原创 CNN backbone 总结笔记

算是一篇梳理backbone的总结笔记,前面部分不少内容都是照搬 reference 2 的,稍微总结了一下里面的内容,后面增加了其中遗漏的以及今年新出的网络(FPN,Hourglass,ResNeXt,DCN,DPN,SENet,MobileNet v3),用了很多网图,联系侵删;Reference:1.https://arxiv.org/pdf/1908.03673.pdf,19年...

2019-12-20 19:30:55 3799

原创 基于STN的场景文字识别框架整理

当前场景文字识别较为主流的方法分为 attention mechanism(代表:Show, Attend and Read; Transformer-based attention; 各种各样的 2D Attention) 和 STN + CRNN /DenseNet + CTC,二者的主要区别是一个是在解码前给文字区域赋予较高的权重,聚焦于文本信息,弱化无关背景信息,另一个是在一开始修正曲形...

2019-12-02 19:43:42 3180 2

原创 MaskRCNN-BenchMark pytorch源码阅读笔记

长文警告...源码地址:https://github.com/facebookresearch/maskrcnn-benchmarkmodeling 部分解析来自:模型定义(modeling)之骨架网络(backbone),博主将resnet,fpn等实现细节讲述的非常详细,根据最新发布的maskrcnn-benchmark版本略微做了修改。按照从外往里的顺序阅读一下maskrcnn的...

2019-10-16 21:55:56 5566 6

原创 OCR-文本图像合成工具

1. Text Recognition Data GeneratorGithub地址:https://github.com/Belval/TextRecognitionDataGenerator官方文档:https://textrecognitiondatagenerator.readthedocs.io/en/latest/index.html安装:# pip 安装,中文不建...

2019-09-29 14:23:18 3039 1

原创 OpenCV Python 常见图像预处理与图像数据增强总结

索引:图像预处理 1. 滤波 2. 二值化 3.通道合并与分离 4. 图形绘制&添加文字 5. 图形变换 6. 形态学 7. 视频&摄像头 8. 边缘检测 9. 闭包矩形 10.直方图均衡化 11. 霍夫直线检测 12. 存储路径含中文 13.图像加权合成 14. 图像压缩 图像增强(写成 Augment class)图像预处理1. 滤...

2019-09-27 20:05:28 11424 1

原创 Attention Mechanism 序列学习任务中的注意力机制

Attention机制:序列学习任务(translation, QA, image captioning, OCR 等)上提升巨大;分类: 空间注意力 Spatial Attention 时间注意力 Temporal Attention Soft Attention (soft 分布) Hard Attention (one-hot 分布) 引入原因: 输入序列很长时,模...

2019-08-28 20:15:33 2560

原创 2D Attention Network for Scene Text Recognition

paper地址:2D Attentional Irregular Scene Text Recognizer.继 Transformer-based-OCR 后又一篇基于语言、翻译模型架构的不规则文字识别的paper,主要贡献如下:attention部分使用多层双向transformer的block(BERT)替代了单transformer block; label只用于计算loss,不...

2019-07-18 18:17:14 3097 4

原创 日常踩坑总结

self.parser.add_argument('--lr_use', action='store_true', default=False)# 终端运行不加入--lr_use,lr_use的值为default: False, 加上--lr则为True; # 有default值的时候,running时不申明为default; # 申明的话,如果是store_false则默认True,...

2019-07-17 21:53:12 309

原创 Git 命令总结

创建仓库流程:第一次创建要添加Git全局设置git config --global user.name "$username"git config --global user.email "$useremail"从0创建一个新的代码仓库在Github / GitLab 上先创建一个仓库(假设叫repo),再在工作目录下执行:git clone [email protected]:u...

2019-06-05 15:02:08 301

原创 曲形文字识别 - Transformer-based Convolutional-Attention Network for Irregular Text Recognition

和上一篇基于attention机制的不规则文字识别论文是同一批作者,博客链接:Show, Attend and Read由于show attend and read是基于LSTM-encoder-decoder结构的翻译翻译模型(以前翻译的主流框架),隔壁翻译组的同事当时看到就说说不定可以用transformer(现在的主流翻译模型)做ocr,结果。。过了两三个月就真出了基于transfor...

2019-06-01 17:24:52 5798 12

原创 Linux 文件命令总结

基础命令:常用 Linux 命令# 服务器登录ssh [email protected]# 服务器配置生效source ~/.bashrc# 删除用户ssh [email protected] # root 登录服务器userdel name # 删除name用户# 添加用户useradd -d /search/odin/name name # ...

2019-05-23 15:41:21 224

原创 将彩色RGB分割标注图像数据集转换为COCO格式的json文件

由于很多检测、分割网络对coco格式的数据集都兼容支持,有时候需要将自己的数据集转化为coco格式的json文件,写一篇博客记录一下自己将彩色RGB的分割标注图像转换为coco格式文件的过程。彩色 label:转换为单个物体的黑白mask:生成最终的 json 文件:具体流程:1. 安装pycococreator(先安装pycocotools, cyth...

2019-05-21 15:08:22 8015 41

原创 Python 文件命令总结

读取 Excel:import xlrddata = xlrd.open_workbook('gt.xlsx')table = data.sheet_by_name('Sheet1')for i in range(table.nrows): imgname, gt = table.row_values(i)[0], table.row_values(i)[1]新建、删...

2019-04-22 14:20:33 249

原创 Python / C++ OpenCV 前后两张截图去重 & 图像找不同

概述:场景与任务:判断相邻的两张微信聊天截图是否为同一张(传输压缩、格式转换过程中存在一定像素失真和边缘抖动,不可以直接相减) 要求:使用数字图像处理的方法(仅作为预处理去重,不用深度学习方法);一组(两张)图片判断的时间要求在20ms以内; 思路: 转换到HSV空间下,先将聊天窗口通过颜色阈值单独分离出来; 轮廓查找判断两张图的闭包矩形框的数目是否相同,不同则为不同截图; 否则...

2019-04-21 20:56:22 1954 1

原创 不规则文字识别方法之 SAR: Show, Attend and Read (2018)论文解析

论文地址:Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition对于不规则(曲形文字、艺术字等)的识别,作者没有采用基于修正(rectification)的策略,而是提出利用基于不规则文字而构造的(tailored)基于二维注意力机制模块(2D attention module)的模型...

2019-03-16 11:18:29 7482 23

原创 计算机视觉方向实习面试总结 (商汤 / 搜狗 / 纽劢 / 普华永道)

目前个人情况:普通211,计算机不是很相关专业大四,已保研,CV方向,所以想找份视觉方向的实习,记录一下面试的一些情况希望对找相关实习或工作的同学有所帮助。项目(面试问题基本从项目里面找的):植物叶片的实例分割+半自动标注软件(Mask RCNN + Qt5,毕设) 一篇数据分析与可视化、LSTM预测拟合时序数据的论文(SCI一作,非CV方向,对面试基本没有帮助) OpenCV相关的两...

2019-03-03 20:59:10 4542 2

原创 卷积计算、1x1 卷积、BN、梯度爆炸与消失、ResNet残差、RoI Pooling 和 RoI Align

卷积输出计算以及卷积核参数计算 计算量 =,,即输入通道数、输出通道数、卷积核长、宽、输出特征图的长、宽的乘积; 参数数量 =1 x 1 卷积的作用 参考:1 x 1 卷积的作用 当1*1卷积出现时,在大多数情况下它作用是升/降特征的维度,这里的维度指的是通道数(厚度),而不改变图片的宽和高。 e.g. W*H*6的特征...

2019-02-13 16:19:31 1165

原创 图像数据预处理 -- 数据增强、写入tfrecords

Augmentor 是图像数据增强一个很好用的python库,支持多种图像变形变换。下面这段代码展示的是基于图像分割的数据集,同时生成增强的图像及其对应的label:import Augmentor# 图像所在目录AUGMENT_SOURCE_DIR = 'E:/datasets/leafs/imgs'AUGMENT_LABEL_DIR = 'E:/datasets/leafs/...

2019-02-11 16:32:51 2301

原创 深度网络解析之-Mask RCNN

Mask RCNN 综合了 Faster RCNN 和 FCN,并且改良了ROI Pooling,提出了ROI Align; Faster RCNN 架构 (图片参考 reference):Mask RCNN与Faster RCNN的区别:ResNet101 / FPN 替换了原来的 vgg 卷积层; ROI Pooling 替换为 ROI Align; 添加了和bbox ...

2019-02-10 11:53:26 1371

原创 RCNN系列总结:RCNN -> Fast RCNN -> Faster RCNN概述

RCNN(参考:ref-1、ref-2)传统的目标检测方法分为区域选择、特征提取(SIFT、HOG等)、分类器(SVM等)三部分,其主要问题有两方面:区域选择策略没有针对性、时间复杂度高,窗口冗余; 手工设计的特征鲁棒性较差;RCNN ( Region-based Convolutional Neural Networks )RCNN 创新点:采用CNN提取图像特征,从经验...

2019-02-09 19:36:12 4084 1

原创 深度网络解析之-ResNet

 ResNet:   (参考:ResNet解析)随着网络的加深,出现了训练集准确率下降的现象,这不是由于Overfit过拟合造成的 (过拟合的情况训练集应该准确率很高) ,故此引入深度残差网络; ResNet提出了两种mapping:一种是identity mapping   部分,指的就是图中”弯弯的曲线”,另一种residual mapping  残差部分,指的就是除了”弯弯的曲线“...

2019-02-07 16:34:04 2174

原创 交叉熵 和 softmax 公式及 python 实现

交叉熵损失函数:实际输出(概率)与期望输出(概率)的距离,也就是交叉熵的值越小,两个概率分布就越接近。Python 实现:def cross_entropy(a, y): return np.sum(np.nan_to_num(-y*np.log(a)-(1-y)*np.log(1-a)))# tensorflow versionloss = tf.reduce_mea...

2019-02-07 12:48:58 14341 1

原创 反向传播 (BP) 算法公式推导与python (numpy) 实现

参数定义:  第 (l - 1) 层第 k 个节点与第 l 层第 j 个节点的权重; 第 l 层 第 j 个节点的偏置; 第 l 层 第 j 个节点的输入; 第 l 层 第 j 个节点的输出; 代价函数; 第 l 层 第 j 个节点产生的错误;其中: 若损失函数为均方差函数,则  公式推导1. 第 l 层 第 j 个节点产生的错误​​​:    ...

2019-02-04 14:33:23 2303

原创 FCN Tensorflow源码阅读注释和总结

项目地址:https://github.com/shekkizh/FCN.tensorflow为了直观的从头到尾捋一遍代码和tensorflow语法,所以把 tensorflowUtils.py 文件中的大多和tensorflow相关的辅助函数在 FCN.py 中重新实现了一遍。 FCN 优点:可以输入任意大小的图像; 全卷积代替全连接,减少参数数目、运算量;FCN缺点:结果...

2019-01-24 16:21:08 2612 7

原创 Python OpenCV / PyQt5 车道检测与可视化

OpenCV C++版本 车道检测https://blog.csdn.net/francislucien2017/article/details/83443639lane detection.pyimport osimport sysimport cv2import numpy as npfrom PyQt5.QtWidgets import QApplicationim...

2019-01-23 14:30:57 2494 2

原创 关于图像卷积运算 / 多通道卷积计算 / 反卷积 / 膨胀卷积 / Depthwise卷积 / 群卷积 的概念和计算总结

之前面试商汤的时候被问了好几个和卷积有关的概念,有些细节没答上来,所以稍微总结一下一些相关概念;卷积的计算和作用; 三种卷积运算 Valid / Same / Full 的区别; 多通道卷积 反卷积(转置卷积)的概念和作用; 小数步长卷积 Fractionally Strided Convolution; 膨胀卷积的概念和作用; Depthwise卷积的概念和作用;卷积,是一种...

2019-01-04 21:11:12 4351 3

原创 Qt5:添加图片 / 菜单栏 / 工具栏 / 停靠窗口

作者及原代码链接:跟小豆君学Qt跟着学习;完整实现代码;示例截图; 添加图片资源:1. 项目文件夹下新建image文件夹;2. 右键项目-&gt;Add New-&gt;Qt-&gt;Qt Resource File;3. 点击添加-&gt;前缀改为空-&gt;文件(图片);4. 读取路径 “:/image/1.png”; 菜单栏 QMenu1 separa...

2019-01-02 22:55:13 5015

原创 Qt5:标准布局管理器 QHBoxLayout / QVBoxLayout / QGridLayout / QFormLayout / 栈布局管理器

QHBoxLayout / QVBoxLayout / QGridLayout:水平 / 垂直 / 格点 布局 QStackedLayout 栈布局管理器栈布局可以添加很多窗口,但是在同一时刻,只能有一个窗口可以显示。1 count:栈布局中的窗口数量,可以使用addWidget() insertWidget()添加窗口。2 currentIndex:当前的窗口索引。3...

2019-01-02 16:40:27 1258

原创 Qt5:输入控件 QPushButton/ QToolButton/ QRadioButton/ QCheckBox/ QTextEdit/ QComboBox/ QSpinBox/ QLabel

作者及原代码链接:跟小豆君学Qt跟着学习;完整实现代码;示例截图; QPushButtonautoDefault:自动默认按钮,当在一个对话框中,用户输入完信息后,想要点击回车确认,则这时可以设置OK按钮的autoDefault为true default:是否为自动默认按钮 flat:是否为扁平状态。如果为true,则会去掉按钮的边框QToolButton:工具按钮,工具按钮...

2019-01-02 13:35:39 2416

原创 Qt5 -- 容器控件 QFrame / QScrollArea / QGroupBox / QTabWidget / QToolBox

作者及原代码链接:跟小豆君学Qt跟着学习;完整实现代码;示例截图; QFrame:带边框的QWidget,有突起或凹陷的效果;QScrollArea: 滚动窗口类,提供了一个垂直和水平的滚动条,用以浏览整个窗口;Qt::ScrollBarAsNeeded:无法完全显示窗口时,显示滚动条,否则不显示; Qt::ScrollBarAlwaysOff:不显示滚动条; Qt::Sc...

2018-12-27 15:31:24 3099

原创 Qt5:标准对话框 QInputDialog/ QColorDialog/ QFontDialog/ QFileDialog/QMessageBox/QProgressDialog/QWizard

作者及原代码链接:跟小豆君学Qt跟着学习;完整实现代码;示例截图; QDialog: 对话窗口的基类 标准对话框:QInputDialog / QColorDialog / QFontDialog / QFileDialog / QMessageBox / QProgressDialog / QWizard头文件:#include &lt;QInputDial...

2018-12-27 10:47:28 287

原创 XMind 思维导图 / 流程图: 基础操作和常用快捷键

2018-12-25 16:46:52 1847

原创 Qt5 -- 基本控件 / 信号 / 槽

作者及原代码链接:跟小豆君学Qt跟着学习;完整实现代码;示例截图; QPushButton:#include &lt;QPushButton&gt;QPushButton button;button.setText("This is a button");button.resize(200, 100);button.show();// 从大到小变化的三个butto...

2018-12-25 15:43:08 1683

原创 Qt5 -- 常用操作 / 快捷键 / OpenCV配置

QString转换String:std::string s = qstr.toStdString();String转换QString:QString qstr2 = QString::fromStdString(s); 快捷键:ctrl + R # 编译并运行ctrl + F # 查找ctrl + shift +...

2018-12-24 10:40:35 341

原创 关于在Qt Creator中配置OpenCV出现找不到collect2.exe(undefined reference "cv::...")问题的解决和总结

真是个巨大无比的坑。。。网上其他方法:1. 路径中含有中文名;2. 编译器bin文件夹未添加至系统环境变量;3. 软件兼容性设置中去掉支持xp(?)针对某类情况吧;4. 修改.pro中的TARGET变量5.注释掉 Mainwindow 那两行如果以上的方法可行的话就不用往后看了。。在无数次尝试和失败后终于找到了原因:Qt默认安装的OpenCV编译器是MinGW_32...

2018-12-23 13:21:56 3324

原创 Python 数据结构与做题总结

持续更新中~:基础语法(List / Tuple / String / Set / Dict):交换两个元素:a, b = b, a获取元素索引:# list中idx = l.index(val)# string 中idx = l.find(c)删除某个元素:# list中l.remove(val)# set中st.remove(item)# ...

2018-12-21 16:45:40 278

原创 Github Windows桌面端常用命令(git相关)

安装Github Windows Desktop:Github Desktop将git.exe所在目录添加至系统环境变量;Win + R  ==&gt;  cmd 打开命令行(或者打开Windows PowerShell);cd dir       跳转至待创建的目录;mkdir dirname        创建文件夹 (也可以手动创建);git help    查看git命...

2018-12-20 14:38:05 1566

原创 Tensorflow基础语法总结

一、常规语法1. GPU设置 gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.67) sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options)) sess.run(tf.global_variables_initializer()) …...

2018-12-16 22:33:08 1659

Basemap中国区(大陆+台湾)行政区域信息shp文件

如标题,将文件解压放在工程文件夹内,在程序中调用readshapefile函数(basemap对象的方法)即可加载文件。

2019-01-07

Qt MinGW OpenCV3.4 编译好的文件

Qt默认安装的OpenCV编译器是MinGW_32 / MinGW_64编译OpenCV源文件时要加上Qt的支持,并且在.pro中添加路径时用cmake编译后源代码和动态库中文件夹中 install/x64/mingw 目录下的include和lib路径,同时bin文件夹添加至系统环境变量。

2018-12-23

Pycharm 代码高亮推荐配色(支持点击相同词、变量的高亮显示)

Pycharm 代码高亮推荐配色(支持点击相同词、变量的高亮显示): 打开Pycharm,选择 file -> settings -> import settings ,导入此文件即可。

2018-11-28

基于OpenCV3( Python / C++ ) 的车道检测代码和测试视频

基于OpenCV3( Python / C++ ) 的车道检测代码和测试视频

2018-10-27

Pycharm 代码高亮推荐配色

Pycharm 代码高亮推荐配色: 打开Pycharm,选择 file -> settings -> import settings ,导入此文件即可。

2018-10-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除