自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic组会

文本识别网络不断地进步,从单纯地只利用视觉信息到现在的大多数网络都开始结合语义信息。因此现在的文本识别网络可以分为两个部分,分别是VM和LM。那么目前的VM和LM结合的方法可以总结为以下四类。VM之后接LM,VM和LM输出的特征结合之后作为最后的识别特征。比如说之前的SRN,ABINet的都是这种方法。第二种类型是VM辅助LM,就像joint visual semantic这篇文章,多阶段的解码器通过多次使用视觉信息来提升语义信息。在每一个阶段,都会添加噪声,并重新解码。第三种类型是LM辅助VM,就像

2022-01-11 15:35:40 1986 1

原创 A Multiplexed Network for End-to-End, Multilingual OCR组会稿

  端到端的OCR方法已经能够带来很不错的精度了,检测和识别能够互相帮助带来提升,但是之前大多数的方法针对的都是单一的一种语言:英文。英文仅仅只有26个字母,而且识别的时候,我们一般不区分大小写。除了英文之外,还有很多的拉丁语种。拉丁语种的特点就是字符比较少,词语都是几个基础的字符组成起来的。而中文,韩语,日语这些亚洲语言,和英文区别就很大,字符的个数远远多多于英文。此外还有很多已经遗忘的语言和古文字。因此单单只研究英文的端到端方法是不足以解决世界上全部的OCR的问题。因此一个能够识别多语种的文本端到端的方

2021-07-02 22:03:44 319

原创 ViLT_Vision-and-Language Transformer Without Convolution or Region Supervision组会稿

背景知识  预训练模型后再finetune已经在cv和nlp领域证明了其可行性,同样的,这种方式在视觉和语言结合的多模态领域也能够带来一定的提升。预训练的方式可以是有监督和自监督。比如说,谷歌很多的图像分类任务都是在自己的巨大数据集JFT上预训练之后,再在imagenet上finetune。而nlp领域,bert类模型都是在大量网络上爬取的语料上进行自监督的方法预训练。目前,多模态领域也已经有了很多研究关注预训练后再在具体任务上进行微调,也证明了这种方法的有效性。(VLP代表的就是vision and l

2021-07-02 22:02:38 284

原创 Perceiver_General Perception with Iterative Attention稿

  人们理解世界是依赖多模态信息的融合,视觉,声音,触觉的结合让人能够准确地感知身边的事物。由于,不同模态的输入的维度是不相同的,比如纯音频信号,是一维的,图片是二维的,视频,点云是3d的。因此之前的很多网络架构设计都是局限在一个单模态里面的,作者就希望提出一个可以同时处理多模态并且针对不同模态不用做很多改动的方法。  这个方法是基于Transformer的改进。目前transformer已经在图片领域有了巨大的运用。ViT堆叠Transformer encdoer引领了transformer在图片中的热

2021-04-28 19:12:04 761

原创 Towards Robust Visual Information Extraction in Real World论文分享稿

简介  这篇文章提出了一个SOTA的端到端信息提取方法和一个中文信息提取的数据集。  视觉关键信息提取的方法可以分为两种:端到端和非端到端。非端到端的做法是将这个任务分为三个(两个)子任务,分别进行训练,之后再进行级联。三个模块分别为文本检测和识别(检测和识别的端到端),关键信息提取模块。关键信息提取模块的话可以分为以下几类:纯文本来做信息提取,纯文本加上位置信息(Post-OCR parsing)和纯文本加上位置信息、视觉信息(LayoutLM,PICK)。端到端有两种做法,一种是三个模块连接在一起进

2021-03-18 15:37:41 528

原创 ViT中的attention可视化

  ViT论文中使用的可视化attention的方法是Attention Rollout。这个方法来自与Quantifying Attention Flow in Transformers。Jacob Gildenblat写了个blog介绍了这个方法和实现。  另外一个方法来自于Transformer Interpretability Beyond Attention Visualization.效果图如下所示:...

2021-03-01 15:14:41 10067 1

原创 ViT and DeiT

简介  在nlp方面,transformer已经成为了标配。但是在cv方向,transformer的应用仍然是受限的。通常人们只是利用transformer来辅助cnn网络。这篇文章就完全抛弃了cnn,单纯地使用transformer也能够处理分类任务。贡献证明了单纯地使用transformer是work的。使用大量的数据训练transformer,将精度做到了SOTA。pretrain model的开源CNN vs Transformer  CNN是一种分层(hierarchical)的

2021-01-08 10:20:17 1992

原创 ConvBERT: Improving BERT with Span-based Dynamic Convolution稿

  类bert的语言模型是当下几乎所有nlp任务都会运用到的基本模型,他在大规模的无标签的语料上进行预训练,然后在下游任务微调。他是由transformer的encoder构成的。因此,训练这个模型,需要大量的计算资源。人们开始研究如何降低计算资源的消耗,有模型压缩,蒸馏等等方法。之前有论文发现bert中的某些注意力头只学习局部依赖,那么完全就没必要使用self attention的方法来学习这些依赖,作者希望利用卷积来替代,来学习这些局部依赖。动态卷积  卷积的使用方法是参考了2019年的Pay Le

2020-12-09 11:09:04 308

原创 TRIE_End-to-End Text Reading and Information Extraction for Document Understand 稿

富文本(VRD)  富文本因为结合了视觉和文本两种模态而得名。它不但含有纯文本信息,还含有文档的结构,版式,文本颜色,字体,大小等等特征。Layout在这里指的是文本之间的相对位置和text type。text type分为两种,一种是structed,另一种则是semi-structed。structed指的是类别是固定的(在图片中必定出现这些内容),semi-structed 指的是有不固定类别,有些类别可以在也可以没有。结构  富文本理解的方法可以是双阶段的,也可以是端到端的。双阶段的第一阶段就

2020-11-02 10:15:16 788

原创 ubuntu20.04 pycharm 中文输入法冲突 无法输入中文

  升级了ubuntu20之后,全家桶装完,发觉pycharm总是卡死,无法关闭,只能重启。最后发觉是因为搜狗输入法的原因,没找到什么很好的解决方法。只能删除搜狗输入法,但是又出现了新的问题,ibus无法输入中文(每次只能输入三个中文,裂开)。在pycharm.sh里添加内容的方法,这个方法是行不通的。  找到了一个有效的解决方法,博客,官网介绍  在这里简单的介绍下,首先在pycharm里面下载Choose runtime的插件。然后在下载jbr,网址,下载解压后。在pycharm 里面 con

2020-10-28 16:38:27 2057 8

原创 百度SRN的网络结构

论文《Towards Accurate Scene Text Recognition with Semantic Reasoning Networks》 paddlepaddle ocr整体网络流程#mermaid-svg-lbx9Wy2dDM2hwxnE .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-

2020-10-22 14:29:38 654

原创 Adaptive Text Recognition through Visual Matching稿

简介  这篇文章的目的在于解决文档识别中的文本识别的多样性和泛化性问题。通过视觉匹配的方法来做文本识别。传统文本识别的方法的缺点  传统的文本识别的方法一般是由一个编码器加一个序列解码器组成。整个pipeline会包含字符矫正,特征提取,字符建模,解码等模块。这种方式训练的时候是去学习训练集中的字体和纹理的信息,因此一旦出现训练集之外的字体,泛化性就不会很好。解码前需要确定好字符类别的数量,训练完之后的模型只能解码字典中的内容。出现字典外的字符就无法解码。解码器和编码器得一一对应。  我们所希望的方

2020-09-17 17:21:55 371 1

原创 加载保存的bert模型时缺少“model.embeddings.position_ids”

重新新建了个环境,跑之前的代码的时候,出错了。使用transformers加载bert模型,(使用了subclass Berttokenizer,BertModel来加载模型),添加了其他层,fintune之后,使用torch.save保存,之后使用torch.load加载,报错,缺少model.embeddings.position_ids。最直接的解决方案,回退transformers版本。我回退到了下之前能够正常加载的版本(2.6),或者是使用 BertPreTrainedModel。...

2020-09-16 20:09:22 3048 2

原创 AE TextSpotter_Learning Visual and Linguistic Representation for Ambiguous Text稿

简介  scene text spotting旨在更好地检测和识别文本内容。但是在需要检测的文本之间存在巨大的空格,或者一张图片中,文字的排列顺序既可以是水平也可以是垂直排列的时候,就会出现检测不准确的情况。错误地将一个文本区域分为两个,或者是错误地标注了文本排列顺序。这是因为这些检测的方法都仅仅使用了视觉信息,而语言信息只是单单用来做后处理(比如说字典)。作者希望通过添加语言信息,并将语言信息结合到网络的训练过程中,来辅助视觉信息,最终解决这些错误的问题。模块  这个网络分为三个模块,检测识别和重排

2020-08-21 10:35:48 521 1

原创 RobustScanner: Dynamically Enhancing Positional Clues for Robust Text Recognition稿

  文本识别str领域伴随着rnn,cnn,selfattention的出现,准确率也随之提高。使用attention 解码,可以在不需要文本矫正的情况下进行文本识别。但是使用attention解码会存在一些问题,,目前有两个挑战,一个是attention漂移的问题。这里举个图片的例子比如说左边这张图会出现连续的两个likely,这也是因为我们训练的时候,使用的文本内容几乎都是单词,而不是随机生成的乱码,因此识别器学习到的更多的解码顺序都是基于内容信息的。我们使用的训练集中是用单词字符生成的,那么针对乱码的

2020-07-24 10:15:35 469

原创 SCATTER:Selective Context Attentional Scene Text Recognizer稿

  这是一篇来自亚马逊的文章,对文本识别的方法提出了一种新的思路。  目前来看,文本识别的方法可以分为两种,一种是基于字符级别的文本识别,另一种则是基于字符串的识别。基于字符的识别,通常使用的都是分割的方法。基于字符串的识别的方法可以分为两种,一种是基于ctc的decoder的方式,另一种就是基于attention的decoder的方式。左边图中的(a)就是目前常用的基于attention decoder的流程图。可以分为四个步骤:第一步,图像的矫正,旋转。第二步,特征提取。第三步,内容建模。最后一步就是

2020-06-30 16:21:29 948

原创 Exploring Self-attention for Image Recognition稿

狭义的self attention  self attention这个说法来自于attention is all you need这篇论文,它也是构成transformer的基础。提出的原因是因为基于rnn做attention的话,是无法做并行化且rnn的结构在长距离的依赖的时候效果并不好。  self attention是针对key,value,query三个变量来计算的。这三个变量都来自于自己的本身乘以一个矩阵变换而来。因此叫做self attention。计算attention的公式就是q和k之

2020-06-04 17:22:45 3633 2

原创 On Vocabulary Reliance in Scene Text Recognition笔记

简介  目前很多sota的方法的结果在预测字典中的单词有很好的的效果,但是遇到图片中存在不存在字典中的单词的效果就不是很好。作者把这种现象称作为vocabulary reliance.作者发现(1)这种现象是普遍存在的,或多或少都会有这种情况(2)基于attention的方法在预测词典外的单词效果不好,而使用视觉特征的分割类的方法效果优秀。(3)内容建模和预测层相关。作者提出了一种结合基于attention和分割两种方法的训练策略,来减轻字典依赖这个现象,提升了识别的表现。介绍  针对这个现象,举个例

2020-05-21 20:30:45 700

原创 BERT词向量-batch提取

代码来源于网址,做了一点小修改,添加了一点注释。一开始model_path设置为‘bert-base-uncased’,网络模型,字典都会下载在cache/torch/transformer中,之后save保存之后,就可将model_path设置为保存的位置。主要由于标注没有使用wordpiece,因此词由分词之后第一个词的词向量表示。batch从长到短排列,是为了方便之后的rnn结构。impo...

2020-05-06 20:28:32 1095

原创 Encoding word order in complex embeddings稿

过去的positional embedding  首先介绍为什么需要位置编码。对于语言来说,单词的位置和顺序十分的重要。举个简单的例子:我在上山和我在山上,虽然这两句话组成的字都一样,但由于顺序不一样导致了完全不一样的语义。rnn的网络结构是一种顺序结构,能够学习到字符之间的顺序关系。而transformer的网络结构完全是一种self attention的叠加,是无法学习到语句的顺序关系的。因...

2020-04-30 14:35:24 668

原创 LayoutLM: Pre-training of Text and Layout for Document Image Understanding稿

背景介绍  预训练技术在图片领域和文字领域都有很多的应用。对于图像来说,一般浅层的网络里都是最基本的内容,因此可以复用。用的最多的就是在ImageNet上预训练好的resnet,之后再针对你特定的任务进行finetune。但是何凯明也提出过无需预训练,也能达到一样效果的结论。是否使用见仁见智。对NLP来说,最近两年的巨大进步都是来自BERT这个预训练模型的提出。在大量的预料上训练后来辅助后续的下...

2020-04-26 20:25:49 1229 2

原创 anaconda不同设备之间的环境复制问题

问题  由于一些原因,需要从别的机器上复制环境到新的机器上。直接找到anaconda3/envs/下的环境,整个包复制到新的机器上的相同路径下。但是这样虽然能够使用python,并且import其中的库。但是如果要使用pip的时候,会报错:/bin/python:bad interpreter.解决方法:  出现这样问题的原因是复制的环境中的py36(这个看你是什么版本)/bin/pip文件...

2020-03-29 23:11:31 2176

原创 pytorch之我的沙比错误

矩阵赋值描述: 有batch维度的矩阵赋值思路: 先生成需要的全零矩阵,由于我这每个batch里的值都一样,因此就在第零维全部选择,第一维选择具体的位置,第二维选择区间。y = torch.zeros(2, 2, 4)c = torch.zeros(2, 2, 4)for i in range(2): y[0][i][2*i:2*i+2] = 1. y[1][i][2*i...

2020-03-18 16:50:32 147

原创 CRF

条件随机场条件随机场是无向图。条件随机场是给定一组输入变量条件下另一组输出随机变量的条件概率分布模型(马尔科夫随机场)。CRF的bloghttps://blog.csdn.net/dcx_abc/article/details/78319246简单理解:举了序列标注的例子。有不同的特征函数来计算前后两个字符标注的特征值,最后将所有的特征函数对一个句子里所有的前后的字符标注的特征值相加作为s...

2020-02-16 11:45:16 193

原创 Sequence-to-sequence Domain Adaptation Network for Robust Text Image Recognition笔记

简介  Domain adaptation 可以解决不同域之间的偏移的问题。之前大多数的工作都没有考虑连续序列的问题,都是对于单一内容的。这篇文章中,作者提出了一个SSDAN的网络来做文本识别。其中的gateed attention similarity用来将源域和目标域的字符特征分布来对齐。对文本识别带来提升。domain adaptation的好处  如何训练一个鲁棒的识别器能够很好地识...

2020-02-16 11:35:25 692

原创 Adaptive Attention Span in Transformers

简介  这篇论文作者提出了一种独特的自注意力机制,能够学习到最佳的attention覆盖文本的范围。  Transoformer很难关注一个超过千个单词的句子,但是在字符语言模型中,会出现跳跃千个字符的关联。作者提出了一种多头注意力的改进版,让多头注意力学习到最优的注意力关联,减少计算量。这种改进版的Transformer在低层关注很少的文本,而在深层能够关注到更多的文本内容。自我决定需要关注...

2020-02-16 11:34:42 1428

原创 TextDragon_An End-to-End Framework for Arbitary Shaped Text Spotting

简介  第一个做对于弯曲文本端到端的检测识别的网络。检测的灵感来自于Text snake,识别是CNN加CTC。在检测和识别的中间使用了自己提出的一个特征转换器RoISlide。然后这个模型可以仅仅使用单词和单词的中心线的标注进行弱监督的训练。检测  TextSnake使用的是园来表示文本,而这个方法使用长方形来表示。然后提取出的特征也是多尺度的叠加。检测分为起来那个模块,一个是中心线检测模...

2020-02-16 11:33:44 530

原创 Knowledge-aware Graph Neural Networks with Label Smoothness Regularization for Recommender Systems

Label Smoothness Regularization  因为与传统的GNN不同,边的权重是可以学习的,而且在钱箱传播的过程中,还有w的参数需要学习。为了防止过拟合,而且由于边的权重的重要性,因此需要刚过的约束。作者在这里使用了Label Smoothness Regularization。具体的公示内容没有看懂。为了这个正则化和可学习的gnn网络,作者提出了一个独特的损失函数。直观...

2020-02-16 11:32:30 1657

原创 Using Object Information for Spotting Text

简单理解  直观理解来说,很多时候,自然场景中文本的出现往往与自然场景中的物体有关,比如说,在广告牌上一定有文字。然后有一些物体上往往会更大概率出现为。文本和物体并不是相互独立的。而且这样利用物体的信息还有一点好处,会减少文本检测的误检率。比如说车轮子和英文字符o很像,但是我们可以知道在文字是不可能出现在车底下的,这就杜绝了错误是别的问题。数据集  数据集是能够训一个好模型的关键。作者自己构...

2020-02-16 11:31:26 268

原创 Chinese NER Using Lattice LSTM

简介  本文主要提出了一种对于LSTM的魔改。针对的任务是中文的NER任务。名词解释NER  Named Entity Recognition,命名实体识别。比如说小明就是人命,上海就是地点。学术上NER所涉及的命名实体一般包括3大类(实体类,时间类,数字类)和7小类(人名、地名、组织机构名、时间、日期、货币、百分比)。对于其他任务来说,通过NER可以提供更多的有效的信息。CRF  C...

2020-02-16 11:29:57 217

原创 cls()之实例化对象

cls的使用起因  今天,在看torchtext的时候,发现了个问题。cls()居然可以作为函数来使用。一开始想不明白,网上查询加上自己的小实验算是搞明白了。train_data = None if train is None else cls(os.path.join(path, train), exts, fields, **kwargs)来自菜鸟教程的例子class A(obje...

2019-10-08 19:57:22 691 1

原创 pytorch 1.1 零维tensor的乘法问题

今天在写代码的时候,将0维的tensor改为了数,发觉loss误差很大,写了个test试了下问题出现在什么地方,记录一哈。零维张量的问题如果其中一个数已经是整形了,那么会出现与高维不同的情况import torcha = torch.tensor(250)b = torch.tensor(1.5)c = 1.5print(a*b)# tensor(375.)print(a*c)...

2019-09-05 11:06:34 1494

原创 teamviewer14无法联网且将CPU拉满

Teamviewer无法联网且CPU拉满前景提要本人在Ubuntu18.0.4上安装teamviewer之后,一开始可以使用,过了大半年,随着版本的不断更新,在一次的更新之后,teamviewer无法联网。我的电脑一个有线连接外网,一个无线连接内网。状况描述按照网上的方法都试过之后,全都没有用。teamviewer无法联网,而且使用top查看,发现teamviewered这个程序cpu使用...

2019-07-20 15:34:30 615

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除