北落师门XY-CSDN博客

原创图像篡改及防篡改

阿里内网秒杀月饼，写脚本误秒杀124盒月饼，自首后2h内4人被解雇。后续发现另有一个P8秒杀了9盒被解雇。内网截图者也被解雇。揭秘阿里巴巴抢月饼事情的全过程 - 简书揭秘阿里巴巴抢月饼事情的全过程 - 简书。

2023-07-26 18:09:31 2154

原创 DPText-DETR原理及源码解读(二)

接下来深入最难的DeformableTransformer_Det，这个py文件包含了多个class。CirConv 环形卷积。

2023-05-17 18:34:33 1101 4

原创 2023文本定位模型选型调研

DPText-DETR，排名最高，后续试了效果还不错FAST-B-800，排名2DBNet++ 商业化落地最多的

2023-04-21 09:09:18 1369 1

原创 DPText-DETR原理及源码解读（一）

DETR是FACEBOOK基于transformer做检测开山之作，Deformable DETR加速收敛并对小目标改进，TESTR实现了端到端的文本检测识别，DPText-DETR做了精度更高的文字检测

2023-04-20 20:43:25 1946 1

原创基于MMdet的Cascade MASKRCNN 原理及源码解读

这篇文章提出了一种级联结构来改善检测及分割的效果（约有2-4的ap提升），虽然是 2018 年提出来的，但2021年做表格解析调研的时候，很多网络都用到了cascade的思想，可见确实有效。mismatch：训练和测试阶段的不匹配问题，训练阶段采用的Proposals 经过了处理，控制了positive和negitive的比例（positive和negitive的区分基于和gt的IOU，阈值的设置是个超参数，一般是0.5）。从阈值那张图的输入输出可以看出，输出已经改变了分布，不适合再用同一个H了。

2023-01-20 18:03:26 3146

原创 MMDet踩坑与使用体会

有意思的是，某些模型的AP范围，最差的backbone可能AP很低，但最好的又很高。如果改了配置文件coco_inatance.py而模型没变，注意把模型保存路径下的配置文件如cascade_mask_rcnn_r50_fpn_1x_coco.py删掉，之前训练的时候改了几次参数，最后的修改没完全更新上，效果烂烂的。如训练swin版的mask2former也要改调用的r50版配置文件，并且不同模型的类数量等参数可能命名方式不同，看一下配置文件就知道了。虽然在同个框架下，但loss不同。

2023-01-10 20:02:30 2231 6

原创 jieba中文分词

粗略来讲，jieba支持精确模式、全模式、搜索引擎模式、paddle模式，共4种模式。学习jieba 最好的参考资料是readme文件，在官方readme中除了以上4种模式还详细介绍了词性、关键词提取、修改词频suggest_freq、命令行分词、动态修改词典add_word等等方法。

2023-01-09 18:55:00 151

原创基于MMDet的cascade MASKRCNN 入门

场景需要训练一个分割模型，参考这个场景大多数人的选择，决定用mmdet的maskrcnn，再进阶到cascade maskrcnn。实例分割Mask rcnn = 检测Faster rcnn + 语义分割FCN+ ROIAlign在Faster rcnn的cls+box分支基础上，增加了分割mask分支。ROIAlign替代ROIPool解决2次量化的影响。

2022-12-15 21:23:01 2658

原创表格解析概览

表格解析发展至今，仍然是一项很年轻的研究领域，出现了大量解决方案，常用的技术包括：线检测、box检测、分割、多模态融合、GCN、img2seq。以下按我的理解梳理一下表格解析各个流派，从中了解这项任务背后所采用的技术。在实际生产中，往往需要根据场景定制化多个模型进行堆叠以达到预期效果。注意：以下的流派是按个人理解划分。

2022-12-12 16:35:51 3542 1

原创 paddle——站在巨人肩膀上及背刺二三事

飞桨平台 https://www.paddlepaddle.org.cn/tutorials/projectdetail/4676538先抛结论，对于想要快速了解某一领域有哪些比较适合落地的算法的从业人员来说，是一个很好的参考系统。从中可以知道从哪些模型里选型、如何轻量化、如何加速、一些非常细节的FAQ。但是，这个框架维护上还是存在欠缺，比如很多人反馈的教程调不通，盘子铺得较大但维护没跟上；遇到一些报错的时候，相比pytorch这种大量使用的框架，能查到的解决方案较少。

2022-11-28 20:31:04 2014 4

原创 Bert（Bidirectional Encoder Representations from Transformers）

原理

2022-09-21 21:01:04 1936

原创 Oh my zsh

wget、curl一把安装好固然好，但在办公网络下，由于防火墙的存在或其他限制，可能需要手动下载，手动安装，这就比较头痛了，需要手动下载2个组件，修改安装sh文件，再手动执行。由于公司防火墙等原因，直接执行sh文件clone oh my zsh 代码库会报错"Error: git clone of oh-my-zsh repo failed"被命令行自动补齐功能吸引，在编辑指令的时候，对于之前使用过的指令，按→即可快速补全。参考的是以下网址，亲测mac上安装无误，安装好后终端就变彩色了。

2022-09-20 20:05:17 2757 3

原创 jupyter 下进行markdown

可以用markdown语法或HTML语法进行渲染，下面的例子如果用了就涉及到了HTML语言。命令行会输出一些网址供浏览器打开jupyter界面，如以下网址：如链接所示，在页面进行功能勾选。

2022-09-18 21:45:42 2475

原创 Swin Transformer

VIT代表着Transformer正式席卷CV领域，一般就用来进行分类；SwinT则是一种更精进的方法，支持高分辨率的场景，还实现了卷积中常见的特征金字塔结构，在SwinT基础架构上改造，可以用于图像分类、目标检测、语义分割。VIT通过切patch，将每个patch用一个token表示，实现了降低复杂度。SwinT既想高分辨率，又想降低复杂度，所以设计成仅在patch内计算局部的attention（降低复杂度），patch内每个点都是token。为了获得全局的attention，设计了移动窗口机制。....

2022-07-18 19:16:11 326

原创 Vision Transformer(VIT)

VIT代表着transformer向cv领域的正式进军，nlp在transformer中将字符转为token，如要将cv中每个像素点作为token，224*224=50176>>512，参数量巨大。VIT提供了一个成功的思路将图像转为一定长度的token又能保留二维空间信息。VIT步骤为：1、将图像切分为patch，如将224*224的图片切成16*16的patch，每个patch的大小为16*16*32、将patch信息拉平，线性层映射为指定位数如768或1024（embedding size)，这一步也

2022-07-08 11:46:32 1345

原创分词器与词表

有多种词表文件格式：vocab.txt、tokenizer.json。vocab.txt特殊token的介绍[CLS] 开始[SEP]结束，可用于分隔2个句子[UNK]未知字符[MASK]进行mask处##able 子词的后缀[unused10] 预留位，便于扩充词表。可在不改变此表大小基础上增加tokenBert如何使用预留的[unused*] - 简书tokenizer.json 特殊token的介绍<s>开始</s>结束<pad><

2022-06-29 13:44:01 2448

原创 Loss损失函数

本博客记录一下遇到的各种损失，如想了解各种损失及其代码，也可查看mmdet项目的loss部分适用于多分类任务，交叉熵属于分类损失中常见的一种损失，-ylogP取平均，概率P为1时，损失为0。在bert的mlm预训练任务中使用了ignore_index入参，可仅根据部分位置（15%mask处）计算损失。在实际计算时，标签转为one-hot，y=0的位置-ylogP为0，不参与损失计算，可参考如下链接中的红色示例交叉熵损失和二元交叉熵损失_飞机火车巴雷特的博客-CSDN博客_交叉熵损失计算过程为：

2022-06-27 17:19:47 3078

原创 PDF解析

PDF是一种查看方便但解析起来非常不方便的工具，不理解为什么到现在还没对这个问题从源头优化一下。对PDF文件的解析，一般分成对pdf文本等内容的解析、将pdf转化成图像再解析这两种。一、pdf 解析文本公认比较好用的pip库是pdfplumber，此外fitz也可以，经费够可以调pdflux这种服务商。fitz仅处理文本，pdfplumber还可以处理表格。1.1 pdfplumber解析文本 PDFPlumber是基于 PDFMiner 构建...

2022-03-28 11:54:45 6854

原创表格解析算法——PaddlePaddle之RARE

百度paddlepaddle paddleocr下pp-structure包含了版面分析及表格解析两项工作，本文是对表格解析的技术详述。代码：https://github.com/PaddlePaddle/PaddleOCR简要概览：PaddleOCR新发版v2.2：开源版面分析与轻量化表格识别_飞桨PaddlePaddle的博客-CSDN博客RARE 百度paddlepaddle包含表格解析功能，被称为RERE算法。RARE算法原本用于进行文本识别...

2022-03-21 15:14:40 6993

原创 PYTHON中基于OPENCV进行图像压缩

JPG的图像是有损压缩的，有时场景需要人为地对图像进行压缩。例如：显存溢出时进行cv2.resize操作，减小输入图像尺寸；当图像文件大小太大时，例如超过了上限10M，这时可以通过控制图像质量的方式压缩像素所占字节大小。基本知识：RGBA：A（Alpha）指图像的透明和半透明度，1位存储时表示透明或不透明，多位存储时表示不同的透明度位深度：单个像素单个通道所占比特数，常见为8bit，0-255范围色深：单个像素所有通道所占比特数，常见为3*8=24情况一：cv2....

2022-03-15 15:07:25 9344

原创 hashlib库摘要算法

在很多场景中需要对图像进行编码，用于去重、反欺诈或获得唯一的图片名称，一个简单的方法是获得md5码。摘要算法另一个应用是存储用户账户密码，可实现加密存储，且无法解密，是不可逆的。加盐：对所有口令增加字符串再计算加密值的方法称为加盐。get_md5(password + 'the-Salt')。目的是防止简单口令被黑客反推。常见的破解方法是先列举常用密码，预先获得这些加密值。加盐可应对这种破解方法。碰撞：将一个无限数据集映射到有限数据集，必然可能出现不同数据映射到一个摘要的情况。概率极...

2022-02-28 14:36:04 2659

原创 F.grid_sample

grid_sample用于在pytprch的tensor中做不规则采样，下例从一个5*5的空间a中进行4点采样，采样坐标系为（-1，1），grid取了4个角的点，为了便于观察，填充方式为取最接近的点的取值。可以看到，a空间左上角坐标为[-1,-1],右下角坐标为[1，1]。取值方式有‘nearest’、‘bilinear’。当grid为非平均间隔的坐标点时，即可实现不规则采样import cv2# import torch_geometricimport torchimpo...

2022-01-19 14:31:29 5577

原创 apt-get、pip、gcc、g++

一、定义apt-get，是一款适用于Unix和Linux系统的应用程序管理器pip 是python包管理工具GCC（GNU Compiler Collection，GNU编译器套件），是一款编译器，可以用apt-get 安装。二、apt-get 常用指令2.1更新apt-get update2.2 查看可支持版本apt-cache policy gcc-52.3 安装指定版本apt-get install 5.4.0-6ubuntu1~16.04.122.4

2022-01-05 11:54:54 2711

原创 cuda、cudann、nvcc、pytorch、torchvision

一、定义1.1、什么是CUDACUDA(ComputeUnified Device Architecture)，是显卡厂商NVIDIA推出的运算平台。 CUDA是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。1.2、什么是CUDNNNVIDIA CUDNN是用于深度神经网络的GPU加速库。二、查看版本2.1 查看显卡驱动nvidia-smiDriver Version: 410.104 CUDA Version: 10.0 表明显卡驱

2021-12-24 10:49:21 3215

原创 LayoutLM、LayoutLMV2、LayoutXLM、LayoutLMV3

微软一代LayoutLM用途：表单理解、票据理解、文档图像分类。也就是进行实体识别及分类。paper:https://github.com/microsoft/unilm/tree/master/layoutlm简介：https://www.msra.cn/zh-cn/news/features/layoutlmcode:https://github.com/microsoft/unilm/tree/master/layoutlm注意：https://github.com/m

2021-08-20 11:52:53 7453 1

原创爬虫（三）多线程、多进程

一、git代码来源https://github.com/shenxiangzhuang/PythonDataAnalysis/tree/master/Ch1Spider/muti-threads经过咨询作者，将最后两行代码交换一下，否则后一种方法无法获取到url二、知识点三、代码import reimport timeimport requestsimport ...

2021-08-11 23:58:34 128

原创 transformer

Attention在2014年由bengio团队提出。transformer本质是一种编解码结构。Bert基于transformer，用于生成词向量。transformer的编解码结构编码部分=self-Attenion+ Feed Forward Neural Network解码部分=self-Attenion+ Encoder-Deccoder Attention+ Feed Forward Neural Networkself-attention: ....

2021-08-11 19:02:28 995

原创 nginx卸载及安装

背景：要将nginx1.14.0升级到1.18.0，由于场景无需关注nginx相关的服务平滑过渡，且1.14.0和1.18.0差别很大，采取的是先卸载后安装的方法。1、基于原镜像新建容器nvidia-docker run -itd –-name newnginx -v 容器外路径:容器内路径镜像名:latest2、进入新容器docker attach newnginx查看当前ngnx版本及配置nginx -V复制arguments后面的一大串配置拷贝原配置文件，卸

2021-08-08 22:43:25 1264

原创 nginx基础

nginx可作为HTTP服务器，也可作为反向代理服务器，邮件服务器。可用来实现反向代理、负载均衡。正向代理与反向代理区分：正向代理：访问谷歌需要vpn，vpn就是正向代理，代理了客户端。反向代理：某个服务有3台服务器，对这3台服务器做一个统一的管理，就是反向代理，代理了服务端。以代理服务器来接收请求，然后将请求转发给内部网络上的服务器，并将从服务器上得到的结果返回给 internet 上请求连接的客户端Socket：计算机之间进行通信的一种约定或一种方式，利用三元组【ip..

2021-08-08 22:24:51 153

原创 YOLOv5

———————————yolov5—————————有YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四个版本，只有模型宽度与深度的区别。四个组成部分：输入端：对输入图像进行缩放、归一化、数据增强等操作backbone基准网络：分类器网络提取特征Neck网络：进一步提升特征的表达能力Predition/Head输出端：预测，进行回归分类基础组件及其实现脚本CBL即Conv+BN+Leaky_relu。 CBM由2个cbl组成...

2021-06-25 18:03:52 1776

原创图像增强技术

这篇文章笼统地介绍一下失焦模糊、运动模糊、低照图像恢复、hdr、超级夜景等提高图像质量的技术。图像拍摄的2个重要参数：光圈大小及曝光时间光圈大小：控制光线穿过孔的大小曝光时间（又称快门速度）：控制光线投射到传感器上的时间对某个场景进行拍摄，外部光线是固定的，要得到合适的曝光，需要将两个参数调节结合。光圈控制了景深，太近太远都会模糊，大光圈会导致景深变浅，远处（景深外）模糊（可以这么理解，但不一定正确，人看远处会眯眼看，睁大眼睛看不清）。长的曝光时间内，手抖或者物体移动...

2021-05-31 22:56:03 1788

原创图像质量评价

图像质量评价iqa（Image Quality Assessment）通常视为一个回归或分类问题。图像质量评价有多种细分方式1）客观质量评价&主观美学评估（Image Quality Assessment & Image AestheticQuality Assessment）客观质量评价：评价图像的曝光、清晰度、有无噪声等主观美学评估：评价图像的构图、颜色、内容主体等2)全参考、半参考、无参考全参考（Full-Reference，FR）：同时有原始(无失.

2021-05-26 10:14:28 3966

原创 Python字符串匹配——正则严格匹配&fuzzywuzzy模糊匹配

match、search、findall、finditer简单介绍菜鸟教程有个入门的教程：https://www.runoob.com/python/python-reg-expressions.html重叠区域匹配

2021-05-25 16:54:18 6921

原创基于【基于（基于pytorch的resnet）的fpn】的psenet

源码：https://github.com/whai362/PSENet源码里pse有python和c++2种版本，以下以python说明上图中绿色的F为H*W*7尺寸的特征图，7为kernals数量，一般为7，可做7层的渐近缩放，H*W为原图尺寸。def pse(kernals, min_area): kernal_num = len(kernals) # 通道数量，做n层的渐近缩放 pred = np.zeros(kernals[0].shape, dtype.

2021-03-15 23:10:30 341

原创基于（基于pytorch的resnet）的fpn

FPN（feature pyramid networks）特征金字塔网络说明：这部分代码及截图是从psenet中截取出来的自底向上+自顶向下+横向连接自底向上上图左，用resnet提取多层特征自顶向下上图右，将高层特征图上采样后与低层特征图融合横向连接从上图左到上图右，需要将特征图经过卷积减少通道数add与cat的区别https://blog.csdn.net/weixin_42926076/article/details/100660188class Re

2021-03-14 22:05:05 1257 1

原创基于pytorch的resnet

resnet系列结构图 BasicBlock Bottleneck见图1:相关文章：https://blog.csdn.net/qq_42278791/article/details/90690747...

2021-03-14 16:56:33 424 1

原创中文文本纠错

常见错误原因及类型语音识别（ASR AutomaticSpeechRecognition）：谐音（眼镜->眼睛）、混淆音（流浪->牛郎）形近字：OCR｜五笔｜手写｜拼音（伍拾元->伍抬元，高粱->高梁）拼音全拼：shanghai->上海拼音缩写：sh->上海字词顺序颠倒字词补全语法错误一般流程错误识别生成纠正候选（召回率的保证）评价纠正候选（排序选择最可能的候选，当比原句优秀时才做纠错）pycorrector安装：pip

2021-01-06 21:43:33 3708

原创语义分割&实例分割

三个层次：物体分割、语义分割、实例分割物体分割（利用灰度值的不连续性及相似性，做前景、背景的分割，不区分主体）语义分割（像素级分类）包含：FCN、SegNet、DeepLab、RefineNet、PSPNet常用数据集如下：FCN（Fully Convolutional Networks 全卷积网络）https://blog.csdn.net/qq_36269513/article/details/804203631）虚线以上是全卷积提取特征，最后2层用卷积替代了.

2020-12-21 22:55:27 4453 1

原创 opencv常用函数

以下都基于import cv2一、绘制cv2.line() cv2.circle() cv2.rectangle() cv2.ellipse() cv2.putText()二、基础操作平移 cv2.warpAffine()绕中心点旋转 cv2.getRotationMatrix2D设置旋转矩阵cv2.warpAffine仿射变换缩放 cv2.resize 注意：官方建议缩小用cv2.INTER_AREA，放大用CV2.INTER_LINEAR(默认)翻转 cv2...

2020-12-07 17:18:37 317

原创 CV2与PIL

一、打开与显示import cv2from PIL import Imageimport matplotlib.pyplot as pltimg_path = 'E:\\360MoveData\\Users\\Administrator\\Desktop\\111.JPG'img_cv = cv2.imread(img_path)cv2.imshow('111', img_cv)cv2.waitKey()img_PIL = Image.open(img_path)plt.imsho

2020-05-18 22:44:21 1774

空空如也

空空如也