Liu, Xu-CSDN博客

原创【停更公告】

因为感觉CSDN的交流学习生态不是特别好，所以博客基本不怎么用了，平时的话知乎会看的多一点，后续有精力会写一些文章。个人目前在商汤实习，浙大计院硕士在读，方向是OCR（主要是场景文字识别）和 NAS，后续有希望交流或者需要内推的可以在知乎（https://www.zhihu.com/people/francisliu-48）私信我。...

2020-05-31 14:30:03 633 2

原创 Copy-Paste Commands

-ihttps://pypi.tuna.tsinghua.edu.cn/simple :set shiftwidth=4 # 设置缩进宽度为 4:set expandtab # 设置 Tab 转为空格10>> # 下面 10 行向右缩进10<< # 下面 10 行向左缩进 sync; echo 3 > /...

2020-02-03 17:23:06 333

原创 CNN backbone 总结笔记

算是一篇梳理backbone的总结笔记，前面部分不少内容都是照搬 reference 2 的，稍微总结了一下里面的内容，后面增加了其中遗漏的以及今年新出的网络（FPN，Hourglass，ResNeXt，DCN，DPN，SENet，MobileNet v3），用了很多网图，联系侵删；Reference:1.https://arxiv.org/pdf/1908.03673.pdf，19年...

2019-12-20 19:30:55 3799

当前场景文字识别较为主流的方法分为 attention mechanism（代表：Show, Attend and Read; Transformer-based attention; 各种各样的 2D Attention）和 STN + CRNN /DenseNet + CTC，二者的主要区别是一个是在解码前给文字区域赋予较高的权重，聚焦于文本信息，弱化无关背景信息，另一个是在一开始修正曲形...

2019-12-02 19:43:42 3180 2

原创 MaskRCNN-BenchMark pytorch源码阅读笔记

长文警告...源码地址：https://github.com/facebookresearch/maskrcnn-benchmarkmodeling 部分解析来自：模型定义(modeling)之骨架网络(backbone)，博主将resnet，fpn等实现细节讲述的非常详细，根据最新发布的maskrcnn-benchmark版本略微做了修改。按照从外往里的顺序阅读一下maskrcnn的...

2019-10-16 21:55:56 5566 6

原创 OCR-文本图像合成工具

1. Text Recognition Data GeneratorGithub地址：https://github.com/Belval/TextRecognitionDataGenerator官方文档：https://textrecognitiondatagenerator.readthedocs.io/en/latest/index.html安装：# pip 安装，中文不建...

2019-09-29 14:23:18 3039 1

原创 OpenCV Python 常见图像预处理与图像数据增强总结

索引：图像预处理 1. 滤波 2. 二值化 3.通道合并与分离 4. 图形绘制&添加文字 5. 图形变换 6. 形态学 7. 视频&摄像头 8. 边缘检测 9. 闭包矩形 10.直方图均衡化 11. 霍夫直线检测 12. 存储路径含中文 13.图像加权合成 14. 图像压缩图像增强（写成 Augment class）图像预处理1. 滤...

2019-09-27 20:05:28 11424 1

原创 Attention Mechanism 序列学习任务中的注意力机制

Attention机制：序列学习任务（translation, QA, image captioning, OCR 等）上提升巨大；分类：空间注意力 Spatial Attention 时间注意力 Temporal Attention Soft Attention (soft 分布) Hard Attention (one-hot 分布) 引入原因：输入序列很长时，模...

2019-08-28 20:15:33 2560

原创 2D Attention Network for Scene Text Recognition

paper地址：2D Attentional Irregular Scene Text Recognizer.继 Transformer-based-OCR 后又一篇基于语言、翻译模型架构的不规则文字识别的paper，主要贡献如下：attention部分使用多层双向transformer的block（BERT）替代了单transformer block； label只用于计算loss，不...

2019-07-18 18:17:14 3097 4

原创日常踩坑总结

self.parser.add_argument('--lr_use', action='store_true', default=False)# 终端运行不加入--lr_use，lr_use的值为default: False, 加上--lr则为True； # 有default值的时候，running时不申明为default； # 申明的话，如果是store_false则默认True，...

2019-07-17 21:53:12 309

原创 Git 命令总结

创建仓库流程：第一次创建要添加Git全局设置git config --global user.name "$username"git config --global user.email "$useremail"从0创建一个新的代码仓库在Github / GitLab 上先创建一个仓库（假设叫repo），再在工作目录下执行：git clone [email protected]:u...

2019-06-05 15:02:08 301

原创曲形文字识别 - Transformer-based Convolutional-Attention Network for Irregular Text Recognition

和上一篇基于attention机制的不规则文字识别论文是同一批作者，博客链接：Show, Attend and Read由于show attend and read是基于LSTM-encoder-decoder结构的翻译翻译模型（以前翻译的主流框架），隔壁翻译组的同事当时看到就说说不定可以用transformer（现在的主流翻译模型）做ocr，结果。。过了两三个月就真出了基于transfor...

2019-06-01 17:24:52 5798 12

原创 Linux 文件命令总结

基础命令：常用 Linux 命令# 服务器登录ssh [email protected]# 服务器配置生效source ~/.bashrc# 删除用户ssh [email protected] # root 登录服务器userdel name # 删除name用户# 添加用户useradd -d /search/odin/name name # ...

2019-05-23 15:41:21 224

原创将彩色RGB分割标注图像数据集转换为COCO格式的json文件

由于很多检测、分割网络对coco格式的数据集都兼容支持，有时候需要将自己的数据集转化为coco格式的json文件，写一篇博客记录一下自己将彩色RGB的分割标注图像转换为coco格式文件的过程。彩色 label：转换为单个物体的黑白mask：生成最终的 json 文件：具体流程：1. 安装pycococreator（先安装pycocotools, cyth...

2019-05-21 15:08:22 8015 41

原创 Python 文件命令总结

读取 Excel：import xlrddata = xlrd.open_workbook('gt.xlsx')table = data.sheet_by_name('Sheet1')for i in range(table.nrows): imgname, gt = table.row_values(i)[0], table.row_values(i)[1]新建、删...

2019-04-22 14:20:33 249

原创 Python / C++ OpenCV 前后两张截图去重 & 图像找不同

概述：场景与任务：判断相邻的两张微信聊天截图是否为同一张（传输压缩、格式转换过程中存在一定像素失真和边缘抖动，不可以直接相减）要求：使用数字图像处理的方法（仅作为预处理去重，不用深度学习方法）；一组（两张）图片判断的时间要求在20ms以内；思路：转换到HSV空间下，先将聊天窗口通过颜色阈值单独分离出来；轮廓查找判断两张图的闭包矩形框的数目是否相同，不同则为不同截图；否则...

2019-04-21 20:56:22 1954 1

原创不规则文字识别方法之 SAR: Show, Attend and Read （2018）论文解析

论文地址：Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition对于不规则（曲形文字、艺术字等）的识别，作者没有采用基于修正（rectification）的策略，而是提出利用基于不规则文字而构造的（tailored）基于二维注意力机制模块（2D attention module）的模型...

2019-03-16 11:18:29 7482 23

原创计算机视觉方向实习面试总结（商汤 / 搜狗 / 纽劢 / 普华永道）

目前个人情况：普通211，计算机不是很相关专业大四，已保研，CV方向，所以想找份视觉方向的实习，记录一下面试的一些情况希望对找相关实习或工作的同学有所帮助。项目（面试问题基本从项目里面找的）：植物叶片的实例分割+半自动标注软件（Mask RCNN + Qt5，毕设）一篇数据分析与可视化、LSTM预测拟合时序数据的论文（SCI一作，非CV方向，对面试基本没有帮助） OpenCV相关的两...

2019-03-03 20:59:10 4542 2

原创卷积计算、1x1 卷积、BN、梯度爆炸与消失、ResNet残差、RoI Pooling 和 RoI Align

卷积输出计算以及卷积核参数计算计算量 =，，即输入通道数、输出通道数、卷积核长、宽、输出特征图的长、宽的乘积；参数数量 =1 x 1 卷积的作用参考：1 x 1 卷积的作用当1*1卷积出现时，在大多数情况下它作用是升/降特征的维度，这里的维度指的是通道数（厚度），而不改变图片的宽和高。 e.g. W*H*6的特征...

2019-02-13 16:19:31 1165

原创图像数据预处理 -- 数据增强、写入tfrecords

Augmentor 是图像数据增强一个很好用的python库，支持多种图像变形变换。下面这段代码展示的是基于图像分割的数据集，同时生成增强的图像及其对应的label：import Augmentor# 图像所在目录AUGMENT_SOURCE_DIR = 'E:/datasets/leafs/imgs'AUGMENT_LABEL_DIR = 'E:/datasets/leafs/...

2019-02-11 16:32:51 2301

原创深度网络解析之-Mask RCNN

Mask RCNN 综合了 Faster RCNN 和 FCN，并且改良了ROI Pooling，提出了ROI Align； Faster RCNN 架构（图片参考 reference）：Mask RCNN与Faster RCNN的区别:ResNet101 / FPN 替换了原来的 vgg 卷积层； ROI Pooling 替换为 ROI Align；添加了和bbox ...

2019-02-10 11:53:26 1371

原创 RCNN系列总结：RCNN -> Fast RCNN -> Faster RCNN概述

RCNN（参考：ref-1、ref-2）传统的目标检测方法分为区域选择、特征提取（SIFT、HOG等）、分类器（SVM等）三部分，其主要问题有两方面：区域选择策略没有针对性、时间复杂度高，窗口冗余；手工设计的特征鲁棒性较差；RCNN ( Region-based Convolutional Neural Networks )RCNN 创新点：采用CNN提取图像特征，从经验...

2019-02-09 19:36:12 4084 1

原创深度网络解析之-ResNet

ResNet: （参考：ResNet解析）随着网络的加深，出现了训练集准确率下降的现象，这不是由于Overfit过拟合造成的 (过拟合的情况训练集应该准确率很高) ，故此引入深度残差网络； ResNet提出了两种mapping：一种是identity mapping 部分，指的就是图中”弯弯的曲线”，另一种residual mapping 残差部分，指的就是除了”弯弯的曲线“...

2019-02-07 16:34:04 2174

原创交叉熵和 softmax 公式及 python 实现

交叉熵损失函数：实际输出（概率）与期望输出（概率）的距离，也就是交叉熵的值越小，两个概率分布就越接近。Python 实现：def cross_entropy(a, y): return np.sum(np.nan_to_num(-y*np.log(a)-(1-y)*np.log(1-a)))# tensorflow versionloss = tf.reduce_mea...

2019-02-07 12:48:58 14341 1

原创反向传播 (BP) 算法公式推导与python (numpy) 实现

参数定义：第 (l - 1) 层第 k 个节点与第 l 层第 j 个节点的权重；第 l 层第 j 个节点的偏置；第 l 层第 j 个节点的输入；第 l 层第 j 个节点的输出；代价函数；第 l 层第 j 个节点产生的错误；其中：若损失函数为均方差函数，则公式推导1. 第 l 层第 j 个节点产生的错误： ...

2019-02-04 14:33:23 2303

原创 FCN Tensorflow源码阅读注释和总结

项目地址：https://github.com/shekkizh/FCN.tensorflow为了直观的从头到尾捋一遍代码和tensorflow语法，所以把 tensorflowUtils.py 文件中的大多和tensorflow相关的辅助函数在 FCN.py 中重新实现了一遍。 FCN 优点：可以输入任意大小的图像；全卷积代替全连接，减少参数数目、运算量；FCN缺点：结果...

2019-01-24 16:21:08 2612 7

原创 Python OpenCV / PyQt5 车道检测与可视化

OpenCV C++版本车道检测https://blog.csdn.net/francislucien2017/article/details/83443639lane detection.pyimport osimport sysimport cv2import numpy as npfrom PyQt5.QtWidgets import QApplicationim...

2019-01-23 14:30:57 2494 2

原创关于图像卷积运算 / 多通道卷积计算 / 反卷积 / 膨胀卷积 / Depthwise卷积 / 群卷积的概念和计算总结

之前面试商汤的时候被问了好几个和卷积有关的概念，有些细节没答上来，所以稍微总结一下一些相关概念；卷积的计算和作用；三种卷积运算 Valid / Same / Full 的区别；多通道卷积反卷积（转置卷积）的概念和作用；小数步长卷积 Fractionally Strided Convolution；膨胀卷积的概念和作用； Depthwise卷积的概念和作用；卷积，是一种...

2019-01-04 21:11:12 4351 3

原创 Qt5：添加图片 / 菜单栏 / 工具栏 / 停靠窗口

作者及原代码链接：跟小豆君学Qt跟着学习；完整实现代码；示例截图；添加图片资源：1. 项目文件夹下新建image文件夹；2. 右键项目->Add New->Qt->Qt Resource File；3. 点击添加->前缀改为空->文件(图片)；4. 读取路径 “:/image/1.png”；菜单栏 QMenu1 separa...

2019-01-02 22:55:13 5015

原创 Qt5：标准布局管理器 QHBoxLayout / QVBoxLayout / QGridLayout / QFormLayout / 栈布局管理器

QHBoxLayout / QVBoxLayout / QGridLayout：水平 / 垂直 / 格点布局 QStackedLayout 栈布局管理器栈布局可以添加很多窗口，但是在同一时刻，只能有一个窗口可以显示。1 count：栈布局中的窗口数量，可以使用addWidget() insertWidget()添加窗口。2 currentIndex：当前的窗口索引。3...

2019-01-02 16:40:27 1258

原创 Qt5：输入控件 QPushButton/ QToolButton/ QRadioButton/ QCheckBox/ QTextEdit/ QComboBox/ QSpinBox/ QLabel

作者及原代码链接：跟小豆君学Qt跟着学习；完整实现代码；示例截图； QPushButtonautoDefault：自动默认按钮，当在一个对话框中，用户输入完信息后，想要点击回车确认，则这时可以设置OK按钮的autoDefault为true default：是否为自动默认按钮 flat：是否为扁平状态。如果为true，则会去掉按钮的边框QToolButton:工具按钮，工具按钮...

2019-01-02 13:35:39 2416

原创 Qt5 -- 容器控件 QFrame / QScrollArea / QGroupBox / QTabWidget / QToolBox

作者及原代码链接：跟小豆君学Qt跟着学习；完整实现代码；示例截图； QFrame：带边框的QWidget，有突起或凹陷的效果；QScrollArea: 滚动窗口类，提供了一个垂直和水平的滚动条，用以浏览整个窗口；Qt::ScrollBarAsNeeded：无法完全显示窗口时，显示滚动条，否则不显示； Qt::ScrollBarAlwaysOff：不显示滚动条； Qt::Sc...

2018-12-27 15:31:24 3099

原创 Qt5：标准对话框 QInputDialog/ QColorDialog/ QFontDialog/ QFileDialog/QMessageBox/QProgressDialog/QWizard

作者及原代码链接：跟小豆君学Qt跟着学习；完整实现代码；示例截图； QDialog：对话窗口的基类标准对话框：QInputDialog / QColorDialog / QFontDialog / QFileDialog / QMessageBox / QProgressDialog / QWizard头文件：#include <QInputDial...

2018-12-27 10:47:28 287

原创 XMind 思维导图 / 流程图：基础操作和常用快捷键

2018-12-25 16:46:52 1847

原创 Qt5 -- 基本控件 / 信号 / 槽

作者及原代码链接：跟小豆君学Qt跟着学习；完整实现代码；示例截图； QPushButton:#include <QPushButton>QPushButton button;button.setText("This is a button");button.resize(200, 100);button.show();// 从大到小变化的三个butto...

2018-12-25 15:43:08 1683

原创 Qt5 -- 常用操作 / 快捷键 / OpenCV配置

QString转换String：std::string s = qstr.toStdString();String转换QString：QString qstr2 = QString::fromStdString(s); 快捷键：ctrl + R # 编译并运行ctrl + F # 查找ctrl + shift +...

2018-12-24 10:40:35 341

原创关于在Qt Creator中配置OpenCV出现找不到collect2.exe（undefined reference "cv::..."）问题的解决和总结

真是个巨大无比的坑。。。网上其他方法：1. 路径中含有中文名；2. 编译器bin文件夹未添加至系统环境变量；3. 软件兼容性设置中去掉支持xp（？）针对某类情况吧；4. 修改.pro中的TARGET变量５.注释掉 Mainwindow 那两行如果以上的方法可行的话就不用往后看了。。在无数次尝试和失败后终于找到了原因：Qt默认安装的OpenCV编译器是MinGW_32...

2018-12-23 13:21:56 3324

原创 Python 数据结构与做题总结

持续更新中~：基础语法（List / Tuple / String / Set / Dict）：交换两个元素：a, b = b, a获取元素索引：# list中idx = l.index(val)# string 中idx = l.find(c)删除某个元素：# list中l.remove(val)# set中st.remove(item)# ...

2018-12-21 16:45:40 278

原创 Github Windows桌面端常用命令（git相关）

安装Github Windows Desktop：Github Desktop将git.exe所在目录添加至系统环境变量；Win + R ==> cmd 打开命令行（或者打开Windows PowerShell）；cd dir 跳转至待创建的目录；mkdir dirname 创建文件夹（也可以手动创建）；git help 查看git命...

2018-12-20 14:38:05 1566

原创 Tensorflow基础语法总结

一、常规语法1. GPU设置 gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.67) sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options)) sess.run(tf.global_variables_initializer()) …...

2018-12-16 22:33:08 1659