小菜鸡拉-CSDN博客

原创 Accurate Single Stage Detector Using Recurrent Rolling Convolution

1. Introduction在许多现实世界的应用中，robustly detecting objects with high localization accuracy, namely to predict the bounding box location with high Intersection over Union (IoU) to the groundtruth，对于服务质量至关

2017-08-16 19:28:26 1392

原创 Speed/accuracy trade-offs for modern convolutional object detectors

1. Introduction近年来由于使用卷积神经网络（CNN），目标检测方面取得了很大的进展。基于这些网络的现代物体检测器，如Faster R-CNN [31]，R-FCN [6]，Multibox [40]，SSD [26]和YOLO [29] 现在已经足够好地部署在消费类产品中（例如Google Photos，Pinterest Visual Search），有些已被证明足够快

2017-08-16 17:41:08 496

原创 Picking Deep Filter Responses for Fine-Grained Image Recognition

作为一个新兴的研究课题，细粒度识别旨在区分属于同一基本类别的数百个子类别。它位于基本类别分类（例如，在Pascal VOC [8]中分类自行车，船，汽车等等）和个体实例的识别（例如人脸识别）之间。没有经验的人可以立即识别自行车或马匹等基本类别，因为它们在视觉上非常不相似，而在没有具体专家指导的情况下，他/她很难从黑鸟中区分乌鸦。事实上，细粒度的子类通常共享相同的部分（例如，所有的鸟应该具有翅膀，腿

2017-08-16 17:19:05 736

原创 Look Closer to See Better Recurrent Attention Convolutional Neural Network for Fine-grained Image Re

2. Related Work关于细粒度图像识别的研究沿着两个维度进行，即判别性特征学习和复杂的局部定位。2.1. Discriminative Feature Learning学习判别性特征对于细粒度图像识别至关重要。由于深度学习的成功，大多数方法依赖于强大的卷积深层特征，其在通用和细粒度识别上比手工制作的特征有着显着改善[4,5,6,17,29]。为了学习更强大的特征表示，

2017-08-16 16:34:32 3502

原创 Wide Residual Networks

卷积神经网络在过去几年中逐渐增加了层数，从AlexNet [16]，VGG [26]，Inception [30]到Residual [11]网络开始，对应于许多图像识别任务的改进。近年来，深入网络的优势已经出现在几项工作中[3,22]。然而，训练深层神经网络有几个困难，包括爆发/消失的梯度和退化。建议使用各种技术来训练更深层次的神经网络，如精心设计的初始化策略[1,12]，优化优化[

2017-08-16 16:12:45 619

原创 EmotioNet_

面部感知和情感理论的基础研究无法完成，没有大量的注释数据库的情感面部表情的图像和视频序列[7]。一些最有用和通常需要的注释是行动单位（AU），AU强度和情感类别[8]。虽然中小型数据库可以由专家编码人员在几个月内手动注释[11,5]，但是大型数据库不能。例如，即使可以通过一个非常快的方式注释每个脸部图像专家编码器（例如20秒/图像），编码一百万张图片需要5,556小时，这可以转换为

2017-08-16 15:50:58 3409 1

原创 Densely Connected Convolutional Networks

卷积神经网络（CNN）已经成为视觉对象识别的主要机器学习方法。虽然它们最初是在20多年前推出的[18]，但是计算机硬件和网络结构的改进使得真正深入的培训成为可能最近才有CNN。原来的LeNet5 [19]由5层组成，VGG的19个[28]，去年公路网[33]和剩余网络（ResNets）[11]已经超过了100层的障碍。随着CNN越来越深入，出现了一个新的研究问题：当有关输入或渐

2017-08-16 15:47:27 854

原创基于卷积神经网络的图像语义分割

摘要传统的图像分割方法大部分是基于图像本身的特征提取，需要先在图像上生成不同的区域，再在区域上提取特征，对区域进行分类合并才能得到最终语义分割的结果，过程比较复杂，并且效果也有很大的提升空间。第一章绪论1.1 课题背景为了识别和分析前景，需要把前景即我们感兴趣的那个部分从一幅图像中选取出来，这就是图像分割所要探讨的问题。当前我们在探讨图像分割问题

2017-06-28 17:00:38 5188

原创 Similarity Metric Learning for Face Recognition2013

由于其在生物识别和监视中的应用，人脸识别引起了越来越多的关注。最近，相当多的研究工作致力于无约束的面部验证问题[8,17,18,20,23,24]，其任务是预测两个人脸图像是否代表同一个人。人脸图像在无约束条件下拍摄，并在复杂背景，照明，姿势和表情方面显示出显着的变化（见图1）。另外，人脸验证的评估步骤通常假设训练和测试集中的人员身份是排他性的，需要预测从未见过的面孔。这两个因素使得人脸验证非常具

2017-06-28 16:31:31 561

原创基于深度学习的服装图像分类与检索

摘要面对海量的服装图像数据，如果使用人工进行服装图像的语义属性标注以用于分类和检索，则需要花费大量的人力和时间，而且语义属性并不能完全表达服装图像中的丰富信息，造成检索效果不佳。针对服装图像对多个属性同时进行分类和识别的要求，构建了基于多任务学习的卷积神经网络结构。为了克服背景、光照、变形等因素的影响，采用了结合度量学习的卷积神经网络结构，具体包括Siamese和Trip

2017-06-27 16:46:45 19602 11

原创 Long-term Recurrent Convolutional Networks for Visual Recognition and Description

1 INTRODUCTION 图像和视频的识别和描述是计算机视觉的根本挑战。近年来，针对图像识别任务的监督卷积神经网络（CNN）模型已经取得了显着的进步，并且最近提出了一些对视频处理的扩展。理想情况下，视频模型应该允许对可变长度的输入序列进行处理，并且还提供可变长度的输出，包括生成超出常规一对一预测任务的全长句子描述。在本文中，我们提出了Long-term Recurren

2017-06-27 15:38:25 1240

原创 Unsupervised Learning of Video Representations using LSTMs

了解时间序列对于解决AI集中的许多问题很重要。最近，使用长时间记忆（LSTM）的复发神经网络架构（Hochreiter＆Schmidhuber，1997）已成功地用于执行各种监督序列学习任务，如语音识别（Graves＆Jaitly，2014），机器翻译（Sutskever等，2014; Cho等，2014）和图像的字幕生成（Vinyals等，2014）。它们也被应用于识别动作和产生自然

2017-06-09 15:51:37 1601

原创 Delving Deeper into Convolutional Networks for Learning Video Representations

1 INTRODUCTION视频分析和理解是计算机视觉和机器学习研究的重大挑战。虽然以前的工作传统上依赖于手工制作和任务特定（Wang等人，2011; Sadanand＆Corso，2012），设计一般视频表示的兴趣越来越大，可以帮助解决视频理解中的任务，如人类行为识别，视频检索或视频字幕（Tran et al。，2014）。二维卷积神经网络（CNN）已经在诸如分类或检测的静态图

2017-06-09 14:27:38 1569

原创 3D Convolutional Neural Networks for Human Action Recognition

认识到现实世界环境中的人类行为，可以发现各种领域的应用，包括智能视频监控，客户属性和购物行为分析。然而，由于混乱，准确地识别行动是一项非常具有挑战性的任务背景，闭塞和观点变化等[1]，[2]，[3]，[4]，[5]，[6]，[7]，[8]，[9]，[10] [11]。目前的大多数方法[12]，[13]，[14]，[15]，[16]做出了某些假设（例如，小规模和观点变化）关于视

2017-06-07 14:26:56 2513 1

原创 Beyond Short Snippets: Deep Networks for Video Classification

1. Introduction卷积神经网络在静态图像识别问题上已被证明是非常成功的，如MNIST，CIFAR和ImageNet大型视觉识别挑战[15,21,28]。通过使用可训练的过滤器和特征池操作的层次结构，CNN能够自动学习视觉对象识别任务所需的复杂功能，从而实现手工制作功能的卓越性能。受到这些积极成果的鼓舞，最近已经提出了几种方法将CNN应用于视频和动作分类任务[2,13,14,19

2017-06-07 11:43:48 1435 1

原创 Learning Spatiotemporal Features with 3D Convolutional Networks

1. Introduction 互联网上的多媒体正在快速增长，导致每分钟共享越来越多的视频。为了打击信息爆炸，必须理解和分析这些视频，用于搜索，推荐，排名等各种用途。计算机视觉界一直在进行数十年的视频分析，解决了动作识别[26]，异常事件检测[2]和活动理解[23]等不同的问题。通过采用不同的具体解决方案，在这些独立问题上取得了相当大的进展。然而，仍然需要一种通用视频描述符，有助于以

2017-06-07 09:34:54 4606 1

原创 CRAFT Objects from Images（2016）

1. Introduction 对象检测的问题定义是确定对象在图像中的位置以及每个对象所属的类别。上面的定义给出了如何解决这个问题的线索：通过从图像（它们在哪里）生成对象提案，然后将每个提案分类成不同的对象类别（它属于哪个类别）。这个两步解决方案在某种程度上与人们看到事物的注意机制相匹配，首先给出整体场景的粗略扫描，然后重点关注我们感兴趣的区域。事实上，上述直

2017-06-06 21:52:40 938 1

原创 Large-scale Video Classification with Convolutional Neural Networks

1. Introduction 图像和视频在互联网上变得无所不在，这鼓励了开发可以分析其语义内容的不同应用程序的算法，包括搜索和摘要。近来，卷积神经网络（CNN）[15]已经被证明是一种有效的模型，用于理解图像内容，为图像识别，分割，检测和检索提供了最先进的结果[11,3,2， 20，9，18]。这些结果背后的关键因素是将网络扩展到数千万个参数和可以支持学习过程的大量标签数据集的技

2017-06-06 10:07:21 1859

原创 Two-Stream Convolutional Networks for Action Recognition in Videos

1 Introduction 视频中人类行为识别是一项具有挑战性的任务，在研究界得到了极大关注[11，14，17，26]。与静态图像分类相比，视频的时间分量为识别提供了额外的（重要的）线索，因为可以基于运动信息可靠地识别多个动作。另外，视频为单一图像（视频帧）分类提供自然数据增强（抖动）。在这项工作中，我们的目标是扩展视频数据中的动作识别的深层卷积网络（ConvNets

2017-06-05 21:41:23 2644 5

原创 T-CNN: Tubelets with Convolutional Neural Networks for Object Detection from Videos

1 INTRODUCTION 近年来，随着新型深度卷积神经网络（CNN）[1]，[2]，[6]，[7]和物体检测框架[3]，[4]，[5]，[8]的成功，物体检测的性能得到显着提高。R-CNN [3]及其后继者[4]，[5]等最先进的对象检测框架从区域提案中提取深度卷积特征，并将提案分类为不同的类别。DeepID-Net [8]通过引入box pre-training, casc

2017-06-05 15:31:54 14849 3

原创 Convolutional Neural Network-based Place Recognition

1 Introduction 自20世纪90年代初推出以来，卷积神经网络（CNN）已经被用于诸如手写字体识别和人脸检测等各种任务中，并取得出色的表现。最近，监督的深度卷积神经网络已经显示出在更具挑战性的分类任务上提供高水平的性[Krizhevsky，et al 2012]。这些令人印象深刻的结果背后的关键支撑因素是他们使用大量标签数据学习数千万个参数的能力。一旦以这种方式进行了

2017-06-05 14:05:53 969

原创 XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks

1 Introduction 深层神经网络（DNN）已经在包括计算机视觉和语音识别在内的几个应用领域显示出显着的改进。在计算机视觉中，称为卷积神经网络（CNN）的特定类型的DNN已经证明了在目标识别[1,2,3,4]和检测[5,6,7] 中最先进的结果。卷积神经网络显示出可以在现实世界应用的物体识别和检测的可靠结果。与最近的识别进展同步，在虚拟现实（Oculus的VR）[

2017-06-02 16:52:48 2108 1

原创 BinaryConnect： Training Deep Neural Networks with binary weights during propagations

1 Introduction 深度神经网络（DNN）大大推动了广泛的任务的state-of-the-art，特别是在语音识别[1,2]和计算机视觉方面，特别是图像中的物体识别[3,4]。最近，深度学习在自然语言处理方面取得重要进展，特别是统计机器翻译[5,6,7]。有趣的是，造成这一重大进展的关键因素之一是图形处理单元（GPU）的出现，加速10到30倍，从[8]开始，类似的改进与分布

2017-06-02 15:21:00 3399

原创 Learning Complexity-Aware Cascades for Deep Pedestrian Detection

1.Introduction 行人检测是计算机视觉中的一个重要问题。其许多应用，例如智能车或监控，需要实时检测。由于在流行的滑动窗口准则下，640×480像素的图像有近百万个窗口，检测复杂度很容易变得难以处理。这是在行人检测领域部署复杂分类器（如深度学习模型）的障碍。用于实时物体检测的最流行的架构是[32]的检测器级联。它利用了大多数图像块可以通过几个简单级联阶段的评估，可以被分配

2017-06-02 10:41:51 745

原创 Scale-aware Fast R-CNN for Pedestrian Detection（2015）

1.Introduction 行人检测旨在预测图像中所有行人实例的bounding box。近年来，它已经引起了计算机视觉界的广泛关注[5]，[38]，[40]，[7]，[46]，[6]，[45]，[10]，[21]，作为许多以人为中心的应用的重要组成部分，如无人驾驶汽车，人员重新识别，视频监控和机器人技术[20]，[39]。最近，很多研究工作[35]，[46]，[24]

2017-06-01 16:30:29 3191 1

原创 Pedestrian Detection with RCNN

Abstract 在本文中，我们评估了使用R-CNN方法对行人检测问题的有效性。我们的数据集由ETH视觉实验室的手工注释的视频序列组成。使用selective search作为我们的提案方法，我们评估几个神经网络架构的性能以及基准逻辑回归单元。我们发现最好的结果是在使用在ImageNet上预训练的权重的AlexNet架构与从头开始训练的这个网络的变体之间进行了分割。1 In

2017-06-01 15:53:33 518

原创 Real-Time Pedestrian Detection with Deep Network Cascades

Abatract 我们提出一种新的实时对象检测方法，利用深层神经网络的精度和级联分类器的效率。深层网络已被证明在分类任务方面表现优异，而且无需设计特殊的特征，他们在原始像素输入上的操作能力是非常有吸引力。然而，在inference时间，深层网络的声誉是非常低的。在本文中，我们提出了一种将深度网络和快速特征级联的方法，既快速又准确。我们将其应用于具

2017-06-01 11:35:45 1704

原创 Learning Cross-Modal Deep Representations for Robust Pedestrian Detection

Abstract 本文提出了一种在不利照明条件下检测行人的新方法。我们的方法依赖于一种新型的跨模态学习框架，它基于两个主要阶段。首先，给出一个多模态数据集，采用深度卷积网络学习非线性映射，对RGB和热图之间的关系进行建模。然后，所学习的特征表示被迁移到第二个深度网络，其接收RGB图像作为输入，并输出检测结果。以这种方式，学习到了对不良照明条件具有判别性和鲁棒性的特征。

2017-06-01 08:50:59 3144

原创 Joint Deep Learning for Pedestrian Detection（2014）

1. Introduction 行人检测是汽车自动驾驶安全，机器人和智能视频监控的关键技术。它吸引了大量的研究兴趣[2，5，12，47，8]。这个任务的主要挑战是由行人的服装，光照，背景，关节和遮挡等类内变化引起的。为了解决这些挑战，一组相互依赖的组件是很重要的。首先，特征应该捕捉行人的最具判别性的信息。众所周知的特征如Haar-like特征[49]，SIF

2017-05-29 11:42:04 620

原创 Taking a Deeper Look at Pedestrians

1. Introduction 近年来，计算机视觉领域涉及卷积神经网络（convnets）的成功案例爆炸式增长。这种架构目前提供了通用物体分类[25,36]，通用物体检测[40]，特征匹配[16]，立体匹配[45]，场景识别[48,8]，姿态估计[41,7] ，行为识别[23,38]和许多其他任务[35,3]的最好结果。行人检测是汽车安全，视频监控和机器人等相关应用中物体检测的典型案

2017-05-29 10:34:23 881

原创 How Far are We from Solving Pedestrian Detection?

1. Introduction 近年来，对象检测受到了极大关注。行人检测是一个规范的子问题，由于其多样的应用，仍然是研究的热门话题。尽管对行人检测进行了广泛的研究，最近的文章仍然显示出显著的改进，表明尚未达到饱和点。在本文中我们分析了state-of-the-art与新创建的human baseline之间的差距（第3.1节）。结果表明，在达到人类表现之前，仍然需要有

2017-05-28 20:06:05 995

原创 Pushing the Limits of Deep CNNs for Pedestrian Detection

1 Introduction 近年来，行人检测问题得到了深入的研究。在最近基于深层卷积神经网络（DCNNs）的方法[1,2]出现之前，最高性能的行人检测器是boosted decision forests和精心手工制作的特征，例如histogram of gradients(HOG) [3], self-similarity (SS) [4], aggregate channel

2017-05-28 17:08:18 1175

原创 Fused DNN: A deep neural network fusion approach to fast and robust pedestrian detect

1.引言行人检测在视频监控，个人识别，图像检索和驾驶辅助系统（ADAS）等多个领域有应用。实时准确的行人检测是应用这种系统的关键。行人检测算法旨在实时绘制描绘图像中行人位置的边界框。然而，由于精度和速度之间的折中，这是很难实现的[8]。低分辨率输入通常会导致快速的物体检测，但性能较差，可以通过牺牲处理速度为代价的高分辨率输入来获得更好的物体检测性能。（不懂）其他因素如密集场景，非人遮挡物体

2017-05-28 11:38:23 2121

原创基于深度学习的自然场景文字识别

1.1引言传统光学字符识别主要面向高质量的文档图像，此类技术假设输入图像背景干净、字体简单且文字排布整齐，在符合要求的情况下能够达到很高的识别水平。与文档文字识别不同，自然场景中的文字识别 -----图像背景复杂、分辨率低下、字体多样、分布随意等，传统光学字符识别在此类情况下无法应用。图像理解：仅利用一般的视觉元素（如太阳、大海、山、天空等）及其相互关系，容易缺乏足够的上下文信息约束，

2017-05-27 09:09:48 58805

xiaofei0801的博客