自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

学无止境

主要分享平时积累与学习的内容,包括OCR、图像、深度学习相关的内容

  • 博客(106)
  • 资源 (1)
  • 收藏
  • 关注

原创 表格识别技术综述

近几年表格识别技术的总览,包括ICDAR2019、ICDAR2021、ICCV2021、ACM MM 2021、各大厂表格识别技术

2022-09-06 17:44:07 5349 13

原创 多模态综述

Bert 预训练、TextVQA、LayoutLM

2021-07-08 22:36:07 728

原创 图像质量评价(IQA)综述

对于图像处理领域来讲,一个首要的目标是去提升处理后的图像的质量,而这个质量应该更符合人类的感知,即:如何去评判一个算法所得到的图像是好是坏?这不应该单单是靠着某个指标来决定的,而是应该依赖于人类的观感。简而言之,这个图像处理算法所得到的结果图片,只有人类看上去感觉更"好看",我们才说 A 是一个好算法。那接下来得问题是:不能总是靠人来帮助我们构建好的算法,因为人力资源是很昂贵的,因此我们就需要 图像质量评价 (IQA)算法。...

2021-05-08 17:24:01 18043

原创 Text-VQA数据集以及方法总结

TextVQA数据集:ST-VQA | Paper | DownloadText-VQA | Paper | DownloadOCR-VQA | Paper | DownloadSTE-VQA | Paper |方法:M4C | Paper | Code | 笔记SA-M4C | Paper | 笔记SMA | Paper | 笔记MM-GNN | PaperLoRRA | Paper | CodeQA R-CNN | Paper

2020-08-04 23:41:06 4876 7

原创 文本检测综述(2017 ~ 2021)

论文题目模型方法时间检测文本类别备注CTPN回归ECCV 2016水平文本TextBoxes回归CVPR 2017水平文本SegLink回归CVPR 2017水平+弯曲文本EAST回归CVPR 2017水平+旋转文本回归IEEE 2018水平+旋转文本SLPR回归arXiv 2018水平+弯曲+不规则文本回归+分割CVPR 2018水平+旋转文本RRD回归CVPR 2018水平+旋转文本IncepText回归+分割。

2019-08-29 10:42:55 24156 14

原创 Monkey 和 TextMonkey ---- 论文阅读

TextMonkey为了解决大模型对于文档图像的分辨率问题,使用了滑动窗口并且采用了零初始化的移位窗口注意力来对多窗口建立关系。为了解决视觉 token 的冗余,提出使用 token 重采样来有效减少 token 的数量。同时针对大模型容易出现的幻觉问题,加入了面向文本的任务,增强模型对空间关系的感知和理解。

2024-03-31 16:09:53 974

原创 Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models ----论文阅读

受语言的 LLMs 启发,纯 NLP 大模型(如 LLaMA)从英文到中文(外语)时因为原始词表编码中文效率低,必须要扩大 text 词表。那么对于现在基于 CLIP 视觉词表的多模大模型也是一样的,遇到 “foreign language image”,如一页论文密密麻麻的文字,很难高效地将图片 token 化,Vary 提出就是解决这一问题,在不 overwrite 原有词表前提下,高效扩充视觉词表。

2023-12-20 18:13:31 1309 1

原创 大模型学习之GPT系列

大模型GPT演进路线图。

2023-12-15 18:17:16 968

原创 PHMOSpell: Phonological and Morphological Knowledge Guided Chinese Spelling Check ---- 论文阅读

据统计,大多数中文拼写错误都属于字音或者字形错误。然后,之前的方法很少利用汉字的字音和字形知识,或者严重依赖外部资源来模拟它们的相似性。为了利用汉字的字音和字形,本文提出了端到端的训练模型 PHMOSpell。1. 从多模态中获取汉字的字音和字形知识,并将其应用于 CSC2. 使用一种自适应的门控机制,以端到端的方式有效地将多模态信息整合到预训练语言模型中

2023-06-04 01:08:39 236

原创 Dynamic Connected Networks for Chinese Spelling Check ---- 论文阅读

为了解决以上问题,本文提出了动态连接网络(Dynamic Connected Networks - DCN),包括拼音增强候选生成器(Pinyin Enhanced Candidate Generator)和动态连接评分器(Dynamic Connected Scorer - DCScorer)。此网络可以学习到输出汉字之间的依赖关系,缓解不连贯问题。首先,本文使用 RoBERTa 和拼音增强候选生成器结合拼音信息,并在每个位置生成 k 个候选字符。

2023-06-03 17:04:40 569

原创 UDOP:Unifying Vision, Text, and Layout for Universal Document Processing ---- 论文阅读

文档人工智能具有独特的挑战,使其有别于其他视觉语言领域。例如,文本和视觉模态之间的跨模态交互在文档中比在常规视觉语言数据中强得多,因为文本模态在视觉上位于图像中。此外,下游任务在领域和范例上是多样化的,例如,文档问答、布局检测、文档分类、信息提取等。这增加了两个挑战如何利用图像、文本和布局模式之间的强相关性,并将它们统一对整个文档进行建模?模型如何有效地有效地学习不同领域的不同视觉、文本和布局任务?

2023-04-27 19:59:04 1124

原创 pycuda 安装出错解决

error: command '/usr/bin/gcc' failed with exit code 1ERROR: Could not build wheels for pycuda which use PEP 517 and cannot be installed directly

2023-04-20 10:21:03 1156 1

原创 Neural Collaborative Graph Machines for Table Structure Recognition ----论文阅读

本文认为对于不同的表格,不同模态的关系归纳偏差将是高度不一致的,不同的模态应该以不同的模式相互协作。在本文中,把模态内部交互定义为异构表结构识别(Hetero-TSR)问题。提出了一种使用堆叠协作模块的新型Neural Collaborative Graph Machines(NCGM),它可以交替提取模态内上下文并以分层方式对模态间交互进行建模。可以更稳健地表示表格元素的内部模态关系,从而显着提高识别性能。本文使用文本框作为表元素,并分别从维度中提取它们的多模态特征嵌入。

2022-11-14 17:15:41 797 1

原创 TSRFormer: Table Structure Recognition with Transformers ----论文阅读

TSRFormer,可以从各种表格图像中稳健地识别具有几何变形的复杂表格的结构,可以处理几何扭曲甚至弯曲的表格,有边框和无边框的表格。此方法是把表格分隔线预测当作线回归问题而不是图像分割问题,并提出了一种新的基于 DETR 的分隔线预测方法,称为 Separator REgression TRansformer (SepRETR),直接从表格图像中预测分割线。在分割线预测之后,使用基于简单关系网络的单元合并模块来恢复合并单元。

2022-11-12 14:47:41 3397 4

原创 tensorboard 查看训练过程(远程服务器)

tensorboard 查看训练过程(远程服务器)

2022-10-10 17:05:13 1244 2

原创 Mac 移动硬盘无法装载

原因:硬盘格式 exFAT,某一次由于着急没有安全弹出硬盘,直接就把移动硬盘拔了,下一次插上移动硬盘直接挂载不上,在访达侧边栏没有显示解决方法:在终端输入:ps aux | grep fscksudo pkill -f fsck这个时候就可以在侧边栏看到自己的移动硬盘了,但是硬盘只有只读权限,不能写。所以只能把硬盘里所有的东西备份一下,然后格式化,这样才能读写。...

2021-05-01 13:01:21 6636

原创 文档图像分类、信息提取、信息结构化之 LayoutLM、LayoutLMv2、LayoutXLM —— 论文阅读笔记

LayoutLM: Pre-training of Text and Layout for Document Image UnderstandingLAYOUTLMV2: MULTI-MODAL PRE-TRAINING FOR VISUALLY-RICH DOCUMENT UNDERSTANDING在表单理解、票据理解和文档图像分类都有不错的效果。

2021-04-17 23:16:41 6467 6

原创 OpenCV —— 特征点检测之 SIFT 特征检测器

上一篇文章介绍的特征检测器已经可以较好地解决方向不变性问题,即图像旋转后仍能检测到相同的特征点。这篇文章介绍两个特征检测器(SIFT 和 SURF)可以解决尺度不变性问题,即在任何尺度下拍摄的物体都能检测到一致的关键点,而且每个被检测的特征点都对应一个尺度因子。理想情况下,对比两幅图像中不同尺度的同一个物体点,计算得到的两个尺度因子之间的比率应该等于图像尺度的比率。SIFT原理详解Scale-Invariant Feature Transform,尺度不变特征转换尺度空间的极值检测:首先是构造 D

2021-04-11 13:26:17 4957 4

原创 OpenCV —— 角点检测之 Harris 角点检测、Shi-Tomasi 角点检测、FAST 角点检测

Harris 角点检测实现原理OpenCV 函数优化GFTT在图像处理和计算机视觉领域,兴趣点(inter points),也被称作关键点(key points)、特征点(feature points)。它被大量用于解决物体识别、图像识别、图像匹配、视觉跟踪、三维重建等一系列的问题。我们不再观察整幅图,而是选择某些特殊的点,然后对它们进行局部有的放矢地分析。如果能检测到足够多的这种点,同时它们的区分度很高,并且可以精确定位稳定的特征,那么这个方法就具有实用价值。图像特征类型可以被分为如下三种:边缘

2021-03-30 20:26:41 4373 1

原创 RepVGG: Making VGG-style ConvNets Great Again —— 论文阅读笔记

RepVGG论文总览方法多分支训练结构重参数化网络架构实验局限性Paper : https://arxiv.org/abs/2101.03697Code : https://github.com/DingXiaoH/RepVGGMegEngine : https://github.com/megvii-model/RepVGG论文总览本文通过结构重参数化,只使用 3x3 卷积和 ReLU 激活函数的单路极简架构在速度和性能上达到 SOTA 水平。尽管许多复杂的卷积网络都比简单的卷积网络提

2021-03-29 15:17:01 242 3

原创 ReadLikeHumans: Autonomous,Bidirectional and Iterative Language Modeling for Scene Text Recognition

首先,自治显性定义视觉模型与语言模型,视觉模型只负责图像分类的功能,而语言模型只负责语言建模的功能。其次,基于双向特征表示的 BCN(Bidirectional cloze network)作为语言模型,消除了组合两个单向模型的问题。通过指定注意掩码来控制双方字符的访问,从而在左右上下文中共同受到限制。同样,不允许跨时间步访问以防止泄漏信息。第三,语言模型迭代校正的执行方式,可以有效减轻噪声输入的影响。通过将 ABINet 的输出反复输入到 LM,可以逐步完善预测,并可以在一定程度上缓解长度不齐的问题。

2021-03-26 09:42:47 904

原创 损失函数整理(分类和回归)

0-1损失函数(zero-one loss)、绝对值损失、指数损失、Hinge 损失、感知损失、交叉熵损失(CE)、权重交叉熵损失(WCE)、Focal Loss均方差、平均绝对误差、Huber Loss(Smooth L1 Loss)、分位数回归损失、IoU Loss、GIoU Loss、DIoU Loss、CIoU Loss、EIoU Loss、Focal Loss

2021-03-18 19:25:10 7140 1

原创 OpenCV —— 图像分割之基于距离变换的分水岭分割

图像分割处理流程1. 原图像灰度化,二值化,开运算消除噪点2. 距离变换,归一化 `distanceTransform` `normalize`3. 再次二值化,得到确定的前景,即种子4. 根据种子生成 Marker,可以通过以下两种方式生成: * 查找连通分量 `connectedComponents` * 查找轮廓,绘制轮廓 `findContours`, `drawContours`5. 分水岭变换 `watershed`6. 输出图像

2021-03-14 22:47:36 3091

原创 OpenCV —— 模板匹配

模板匹配就是在整个图像区域发现与给定图像最相似的小块区域,所以模板匹配首先需要一个模板图像,另外需要一个待检测图像:* 在待检测图像上,从左到右,从上到下,计算模板图像与重叠子图像的匹配度(相似度),匹配度(相似度)越大,两者相同的可能性越大。* 对于每一个位置将计算的相似结果保存在矩阵 R 中。如果输入图像的大小为 WxH 且模板图像的大小为 wxh,则输出矩阵 R 的大小为 (W-w+1)x(H-h+1) 。* 获得 R 后,从 R 中找出匹配度最高的位置,那么该位置对应的区域就是最匹配的,区

2021-03-09 19:45:11 959

原创 SPIN: Structure-Preserving Inner Offset Network for Scene Text Recognition —— 论文阅读笔记

SPIN:用于场景文本识别的保留结构的内部偏移网络Paper : 论文地址本文提出的方法主要解决色彩失真的图片。如下图中的(c)和(d)SPIN(Structure-Preserving Inner Offset Network),一种可学习的几何无关的矫正,可以对网络中的原数据进行颜色处理。可以在任何识别体系结构之前插入此模块,以减轻下游任务的负担,使神经网络能够主动转换输入强度,而不仅仅是空间校正。 它也可以作为已知空间变换的补充模块,并以独立和协作的方式与它们一起工作。色彩失真可以分为

2021-03-03 18:41:38 1098 7

转载 CTC算法详解之训练篇

现实应用中许多问题可以抽象为序列学习(sequence learning)问题,比如词性标注(POS Tagging)、语音识别(Speech Recognition)、手写字识别(Handwriting Recognition)、机器翻译(Machine Translation)等应用,其核心问题都是训练模型把一个领域的(输入)序列转成另一个领域的(输出)序列。近年来基于RNN的序列到序列模型(sequence-to-sequence models)在序列学习任务中取得了显著的效果提升,本文介绍一种RNN

2021-03-02 20:16:30 1184

原创 OpenCV —— 频率域滤波(傅里叶变换,低通和高通滤波,带通和带阻滤波,同态滤波)

频率域滤波基本概念傅里叶变换二维离散的傅里叶变换快速傅里叶变换傅里叶幅度谱与相位谱谱残差显著性检测卷积与傅里叶变换的频率域滤波低通滤波和高通滤波带通和带阻滤波同态滤波基本概念频率域滤波 —— 百度百科频率域滤波是对图像进行傅里叶变换,将图像由图像空间转换到频域空间,然后在频率域中对图像的频谱作分析处理,以改变图像的频率特征。滤波: 狭义地说,滤波是指改变信号中各个频率分量的相对大小、或者分离出来加以抑制、甚至全部滤除某些频率分量的过程。广义地说,滤波是把某种信号处理成为另一种信号的过程。空间域滤波

2021-03-01 20:11:09 8199 3

原创 OpenCV —— 几何形状的检测和拟合(凸包、霍夫直线检测、霍夫圆检测、轮廓)

几何形状的检测和拟合点集的最小外包最小外包矩形最小外包圆最小外包三角形最小凸包霍夫直线检测霍夫圆检测标准霍夫圆检测基于梯度的霍夫圆检测轮廓查找、绘制轮廓外包、拟合轮廓轮廓的周长和面积点和轮廓的关系轮廓的凸包缺陷根据阈值分割和边缘检测可以基本确定物体的边缘或者前景,接下来需要拟合这些边缘和前景,如确定物体边缘是否满足某种几何形状,如直线、圆、椭圆等,或者拟合出包含前景或者边缘像素点的最小外包矩形、圆、凸包等几何形状,为计算它们的面积或者为模板匹配等操作打下坚实的基础。点集的最小外包点集是指坐标点的集。已

2021-02-25 23:31:16 10472

原创 OpenCV —— 边缘检测(Laplacian、LoG、DoG、Marr-Hildreth 边缘检测)

边缘检测Laplacian 算子高斯拉普拉斯(LoG)边缘检测高斯差分(DoG)边缘检测Marr-Hildreth 边缘检测Laplacian 算子二维函数 f(x,y)f(x,y)f(x,y) 的 Laplacian(拉普拉斯)变换,由以下计算公式定义:∇2f(x,y)=∂2f(x,y)∂2x+∂2f(x,y)∂2y≈∂(f(x+1,y)−f(x,y))∂x+∂(f(x+1,y)−f(x,y))∂y≈f(x+1,y)−f(x,y)−(f(x,y)−f(x−1,y))        +f(x,y+1)

2021-01-31 19:04:03 2701

原创 OpenCV —— 边缘检测(Roberts、Prewitt、Sobel、Scharr、Kirsch、Robinson、Canny边缘检测)

边缘检测Roberts 算子Prewitt 边缘检测Sobel 边缘检测Scharr算子Krisch 算子和Robinson 算子Canny 边缘检测图像的边缘指的是灰度值发生急剧变化的位置。在图像形成过程中,由于亮度、纹理、颜色、阴影等物理因素的不同而导致图像灰度值发生突变,从而形成边缘。边缘是通过检查每个像素的邻域并对其灰度变化进行量化的,这种灰度变化的量化相当于微积分里连续函数中方向导数或者离散数列的差分。边缘检测大多数是通过基于方向导数掩码(梯度方向导数)求卷积的方法。计算灰度变化的卷积算子包含

2021-01-18 22:52:55 3391 1

原创 OpenCV —— 形态学处理(腐蚀、膨胀、开运算、闭运算、顶帽、底帽、形态学梯度)

形态学处理腐蚀膨胀开运算和闭运算顶帽变换、底帽变换和形态学梯度常用的形态学处理方法包括:腐蚀、膨胀、开运算、闭运算、顶帽运算、底帽运算,其中腐蚀和膨胀是最基础的方法,其他方法是两者相互结合而产生的。腐蚀结构元: 与平滑操作类似,在平滑操作中使用的是矩形邻域,而在形态学处理中邻域可以是矩形结构,也可以是椭圆形、十字交叉形结构。同样也需要指定一个锚点。在腐蚀操作中,是取结构元中的最小值作为锚点的值。可以对灰度图或二值图做腐蚀操作。以下图为例(均取中心点为锚点):上方三个图中的邻域的最小值分别为 11

2021-01-16 15:38:09 4279 1

转载 Python —— ctypes,调用动态库:踩坑记录

官方文档:https://docs.python.org/zh-cn/3/library/ctypes.htmlctypes定义了一些和C兼容的基本数据类型踩坑1:sheetDeteInterface.h// definechar* detectSheet(const char* imagePath, bool flag, const double angle=0.0);python调用(错误示例)from ctypes import *from ctypes import cdll.

2021-01-15 11:51:10 969

原创 将 Xcode 中的 hpp 后缀修改为 h

Xcode Version 12.3进入目录我自己的电脑路径是这个:/Applications/Xcode.app/Contents/Developer/Library/Xcode/Templates/File Templates/MultiPlatform/Source/C++ File.xctemplate/WithHeader网上找到的是这个:/Applications/Xcode.app/Contents/Developer/Library/Xcode/Templates/File

2021-01-10 16:32:11 466

原创 OpenCV —— 阈值分割(直方图技术法,熵算法,Otsu,自适应阈值算法)

阈值分割1. 全局阈值分割直方图技术法熵算法Otsu算法2. 局部阈值分割自适应阈值阈值的分割的核心就是如何选取阈值,选取正确的阈值时分割成功的关键。可以使用手动设置阈值,也可以采用直方图技术法、Otsu算法、熵算法自动选取全局阈值,也可以采用自适应阈值算法自动选取局部阈值。1. 全局阈值分割设定一个阈值,将图像中小于阈值的设为 255(白色),将图像中大于阈值的设为0(黑色);或者反过来,小于阈值的设为0,大于阈值的设为255。OpenCV 函数:threshold(InputArray src

2021-01-09 17:39:27 26381 8

原创 Simple is not Easy: A Simple Strong Baseline for TextVQA and TextCaps —— 论文阅读笔记

M4C 把文本和视觉对象统一对待,并将文本特征作为一个整体,一起输入到 Transformer 中。SMA 使用异构图对图像中的object-object、object-text 和 text-text 关系进行编码,然后设计一个图注意网络对其进行推理。MM-GNN 将图像表示为三个图,并引入三个聚合器来引导消息从一个图传递到另一个图。与M4C相比,该方法首先用三个注意力块过滤掉无关的或者多余的特征并且将它们聚合成六个单独功能的向量。相对于 M4C,这 6 个向量有更少的计算量。与 MM-GNN

2021-01-08 15:33:41 772 3

原创 Exploring the Capacity of Sequential-free Box Discretization Network for Omnidirectional Scene Text

SBD首先将四边形边框离散为几个关键边缘,其中包含所有可能的水平和垂直位置。为了解码准确的顶点位置,提出了一种简单而有效的匹配程序来重构四边形边界框。基本思想是利用与标签序列无关的不变表示形式(例如,最小x,最小y,最大x,最大y,平均中心点和对角线的相交点)来反推边界框坐标。为了简化参数化,SBD首先查找所有包含顶点的离散水平和垂直边。 然后学习序列标记匹配类型以找出最佳拟合的四边形。 摆脱了训练目标的模糊性。贡献第一个根据四边形边界框的顺序解决文本检测歧义的方法,这对于实现良好的检测精度至关重要

2021-01-05 15:18:33 1085 1

原创 DBNet:Real-time Scene Text Detection with Differentiable Binarization —— 论文阅读笔记

https://github.com/MhLiao/DBhttps://github.com/WenmuZhou/DBNet.pytorch速度很快!传统的基于分割的文本检测的后处理方法比较复杂,提出的差分二值化不仅可以简化后处理还可以增强文本检测的性能。在5个基准集上实现了比较好的表现比先前的方法更快,DB可以提供一个二值化图,简化了后处理使用轻量级的主干也可以表现好,在ResNet-18主干网络上增强了检测性能在推理阶段,可以移除DB,不影响性能Standard binariz.

2021-01-05 15:16:18 1446

原创 Learning to Predict More Accurate Text Instances for Scene Text Detection —— 论文阅读笔记

为检测弯曲文本,提出与起始顶点无关的坐标回归,提出文本实例精度损失作为辅助任务来细化预测坐标。基于回归+像素贡献提出了与起点无关的回归损失,而不是传统的回归损失,以优化文本实例的预测坐标,并且与基于分割的方法不同,可以直接优化多边形的坐标。引入文本实例精度损失来获得具有更大IoU的文本多边形,从而在不增加网络计算的情况下进一步提高了性能。提出了一种简单有效的基于像素的方法,该方法仅使用NMS后处理步骤。 该方法可用于无需附加标注的任意形状文本检测,并在Total-Text数据集上获得最新性能

2021-01-05 15:13:57 443

原创 Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes

通过语义分割可以直接从二维空间实现检测和识别。Spatial Attention Module(SAM)Mask TextSpotter 的识别模型对于处理二维空间中的常规文本和不规则文本更通用,并且同时考虑本地和全局文本信息会更有效不同于之前的方法只能处理水平或者旋转文本,本文方法可以处理任意形状的文本Mask TextSpotter 是第一个完全可端到端训练以进行文本发现的框架,它具有简单,平滑的训练方案,因此其检测模型和识别模型可充分受益于特征共享和联合优化。Architecture

2021-01-05 15:11:14 663 1

原创 PAN:Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network —— 论文阅读笔记

有低计算成本的分割部分和可学习的后处理。分割分割部分由特征金字塔增强模块(FPEM)和特征融合模块(FFM)组成。 FPEM是可级联的U形模块,可以引入多级信息来指导更好的分割。 FFM可以将不同深度的FPEM提供的特征收集到最终特征中进行分割。 可学习的后处理是通过像素聚合(PA)实施的,该算法可以通过预测的相似度矢量精确地聚合文本像素。通过分割网络预测文本区域,内核和相似度向量。FPEM + FFM从预测的内核重建完整的文本实例。贡献提出了一个轻量级的分割部分,它由特征金字塔增强模块(F

2021-01-05 15:08:22 1193

TED演讲数据(2015-1中英)

TensorFlow学习之LSTM ---机器翻译(Seq2Seq + attention模型),用于学习机器翻译的TED2015-1中英文的资源

2018-12-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除