半分热度-CSDN博客

转载 Violence detection-Hockey Fight-CNN+LSTM暴力检测CNN+LSTM实例

提取属于视频的一组帧，将它们发送到一个名为VGG16的预训练网络，获得其最后一层的输出，并从这些输出训练另一个具有称为LSTM的特殊神经元的网络结构。这些神经元具有记忆能力，能够分析视频的时间信息，如果在任何时候检测到暴力，就会被归类为暴力视频。对数据的处理以及查看导入所需要的包：%matplotlib inlineimport cv2import osimport numpy as npimport kerasimport matplotlib.pyplot as plt# import

2021-04-05 16:30:39 3883 12

原创 [CVPR 2021] 利用时序差分进行动作识别的最新Backbone--TDN

TDN: Temporal Difference Networks for Efficient Action RecognitionarxivGithub存在的问题这是一篇动作识别方向的文章，之前的时空建模方法大致分为两种，一种是双流网络，一个RGB流一个光流，利用光流捕获运动信息，计算量很大；另一种方法是使用3D卷积，从RGB信息中隐式学习运动特征，但是3D卷积在时间维度缺乏特定的考虑（3D卷积学出来的时序weight的分布基本一致，更多的还是对时序上的信息做一种平滑聚合）且需要更多的算力。也有使

2021-09-22 16:54:45 1284

原创 2021- （让2D CNN具有短期编码的能力）用于实时暴力识别的高效时空建模方法

IEEE Access的一篇文章，其模型在RWF-2000数据集获得了92%的准确率，作者提出了轻量级的空间注意模块和时间注意模块，还有一个Frame-grouping方法，可以与传统的二维卷积神经网络（2D CNNs）相结合，该方法是本文的亮点，作者通过消融实验证明了Frame-grouping方法获得的提升最大，仅使用Frame-grouping都可以在RWF-2000数据集获得88%的准确率，而且Frame-grouping还降低了计算量，更有利于部署在硬件端。下图为整个模型的流程图：空间注意力M

2021-07-29 11:14:06 831 3

原创 2021-Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

paper: https://arxiv.org/abs/2103.14030code: https://github.com/microsoft/Swin-Transformer将Transformer从NLP领域迁移到CV领域面临两个挑战：1.与文本相比图像中的视觉实体尺度变化剧烈，NLP的scale是标准固定的，而CV的scale变换范围非常大。2.图像分辨率高，带来了多尺度建模与计算量巨大的问题，CV中使用Transformer的计算复杂度是图像尺度的平方。因为存在这两个问题，所以iGPT

2021-07-02 09:08:22 294

原创 2019-An Improved Two-stream 3D Convolutional Neural Network for Human Action Recognition

一种改进的双流三维卷积神经网络用于人体动作识别该文的双流指的是RGB和光流，双流分别提取出RGB特征和光流特征，光流是稠密光流，它是基于前后两帧所有像素点的移动估算算法。之后将RGB特征和光流特征匹配，放入3D网络中训练。本研究的三个主要改进是：1）将Resnet-101网络独立地集成到目标网络的两个流中；2）由两个流的相应卷积层分别获得的两种特征映射（即光流运动和RGB通道信息）相互叠加；3）利用三维卷积神经网络（CNN）将时间信息与空间信息相结合，从视频中提取更多的潜在信息。双流CNN的

2021-06-27 21:18:35 409

原创 tensorflow2.0升级，更换Ubuntu16.04驱动以及CUDA、CUDNN

之前：显卡 GTX960Mtensorflow-gpu：2.0cuda：10.0cudnn：7.4因为代码要求需要使用tensorflow-gpu：2.0以上版本，所以需要更换环境可以看到version是460.84，之前的是418，不满足更换tensorflow2.1cuda10.1的要求：更换驱动以及内核在2021年1月26日，英伟达非常良心地更新驱动，让GTX960M也支持cuda11了，所以我们可以更换驱动，便可以更换CUDA了（CUDA版本对应下图红线，需要根据你的显卡内核来确

2021-06-20 09:48:10 357

原创 2021-基于人工智能视频监控序列的校园暴力检测Campus Violence Detection

Campus Violence Detection Based on Artificial Intelligent Interpretation of Surveillance Video Sequences本文作者分别对视频和音频进行了检测，分别得出一个概率（暴力或非暴力），作者定义的分类标准：当视频和音频同时判断为暴力时，则这个场景就是暴力场景；当视频=暴力，音频=非暴力，则定义为体育竞技或玩游戏，为非暴力场景；当视频=非暴力，音频=暴力，定义为批评，为非暴力场景；当视频=音频=非暴力时，则该场景定义

2021-06-02 15:16:54 2434 6

原创 2021-基于卷积和LSTM神经网络的视频分类时间融合方法在暴力检测中的应用

A Temporal Fusion Approach for Video Classification with Convolutional and LSTM Neural Networks Applied to Violence Detection通过读该文章，想起之前复现的一个代码，与本文不同的是，代码采用帧率从视频片段中截取图片，视频的帧率都是25，也就是1s提取25张图片，这样会有很多重复帧，本文采用的是1s提取2帧，代码采用的是文章中提到的早期融合（Early Fusion），把40帧串联起来送

2021-05-25 16:44:52 1632 2

原创传统图像检索方法和深度学习图像检索方法

最近计算机视觉大作业让比较一下图像检索的各种方法，于是进行了学习：1.LSHLSH(Locality-Sensitive Hashing)较为官方的理解为：将原始数据空间中的两个相邻数据点通过相同的映射后，这两个数据点在新的数据空间中仍然相邻的概率很大，而不相邻的数据点被映射到同一个桶的概率很小。也就是说，如果我们对原始数据进行一些hash映射后，我们希望原先相邻的两个数据能够被hash到相同的桶内，具有相同的桶号。因此，LSH算法使用的关键是针对某一种相似度计算方法，找到一个具有以上描述特性的hash

2021-05-20 15:25:48 2902 6

原创 2019-Cover the Violence: A Novel Deep-Learning-Based Approach Towards Violence-Detection in Movies

覆盖暴力：一种基于深度学习的电影暴力检测新方法在本文中，作者提出了一个包含三个步骤的电影暴力检测方案。首先将整部电影分割成多个镜头，然后根据镜头的显著程度从每个镜头中选取一个代表性的帧。接下来，这些选定的帧从一个轻量级的深度学习模型中传递，该模型使用转移学习方法进行微调，以对电影中的暴力镜头和非暴力镜头进行分类。最后，所有的非暴力场景被合并在一个序列中，以生成一个无暴力的电影。作者利用预先训练好的图像网络权值对一个轻量级的深度CNN模型（MobileNet）进行了微调，以便于模型的收敛和数据集中的暴力识别

2021-05-20 15:12:02 333

原创 2021-ADNet：监控视频中的时间异常检测ADNet: Temporal Anomaly Detection in Surveillance Videos

异常检测一般的方法是学习环境中的正常行为，将一切不正常的行为定义为不正常，这种方法可能会产生一些误报，但是有可能识别不包括在训练数据集中的异常情况。另一种方法是将数据集中的异常情况喂给模型学习，并尝试识别它们，但是失去了识别没有训练过的异常情况的能力。本文的贡献：1.提出了一个异常检测网络：ADNet，利用卷积来定位视频中的异常。2.为了提高ADNet的异常检测能力，提出了AD损失函数。3.扩展了UCF-Crime数据集，增加了两个异常类。本文的代码和数据集扩展在：https://github.

2021-05-07 16:08:25 860

原创 2021-Efﬁcient Two-Stream Network for Violence Detection Using Separable Convolutional LSTM

使用可分离卷积LSTM进行暴力检测的高效两流网络本文亮点为作者对视频进行了预处理，1.取帧差作为输入；2.进行背景抑制，突出运动对象。在模型方面，作者选择了一种轻量级的CNN进行特征提取（MobileNet）。模型分为双流，一个流的输入为帧差，另一个流的输入为背景抑制后的结果，最后两个流都放入MobileNet进行特征提取，之后将输出放入Seperable Convolutional LSTM中，提取时空特征，之和串联两个流的输出。作者提出了一种有效的双流深度学习架构，可分离卷积LSTM（SepConv

2021-04-29 09:48:15 641 1

原创 2019-一个基于CNN的多模式工具来保证视频的正确性A MULTIMODAL CNN- BASED TOOL TO CENSURE INAPPROPRIATE VIDEO SCENES

作者的目的是：设计一个审查工具来检测视频中存在的暴力、色情画面。然后对这些画面进行模糊处理，声音进行删除。作者使用的是基于卷积神经网络（CNNs）的多模态（音频特征和图像特征）架构，用于检测。作者的模型在检测适当画面和不适当画面分别得到了98.95%和98.94%的F1分数。作者使用了两个深度CNN，一个用于提取图形序列特征，另一个用于提取音频特征。然后将这些特征结合起来，为整个视频（或视频片段）创建一个单一的特征向量，然后作为分类器的输入。基于CNN的分类器由两个模块组成。第一个模块作为主干充当特征提取

2021-04-28 21:34:31 140

原创 2020-MULTIMODAL VIOLENCE DETECTION IN VIDEOS视频中的多模态暴力检测

在本文中，作者旨在通过将暴力的主观概念分解为更客观的概念来解决暴力检测任务。更细节的客观子概念。k=7，更具体地说，是血液、冷武器、爆炸、战斗、火、大部分武器、枪声的概念。对于每个概念，作者训练特定的神经网络：首先分析其视觉特征，然后分析其听觉特征，然后将这两个功能结合起来获得对子概念更好的理解。对K个子概念重复此步骤，最后使用融合网络将所有概念组合起来。作者的目标是开发一个视觉和音频特征表示的融合模型。与本文提出方法最相关的工作是【17】提出的，该方法通过收集语音特征，利用dCNN技术获取视觉特征，这

2021-04-23 15:46:38 1038 1

原创 2019-图卷积标签噪声清除器：训练即插即用动作分类器以进行异常检测Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Act

弱标签定义：如果数据集中的数据出现样本只标注部分类别没有被完全标注的情况，也算一种弱标注。有监督学习：训练数据既有特征(feature)又有标签(label)，通过训练，让机器可以自己找到特征和标签之间的联系，在面对只有特征没有标签的数据时，可以判断出标签。无监督学习（unsupervised learning）：训练样本的标记信息未知，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础，此类学习任务中研究最多、应用最广的是"聚类" (clustering)，其他无

2021-04-19 20:59:32 860 3

原创 python数据处理（批量改文件名、文件夹名、多个文件夹中文件合并到一个文件夹中）

# 改文件名字import osfor j in range(1,501): path = ("/home/wjx/Downloads/暴力行为检测/Fight-Detection-master/fight_detection_using_crnn/model/non_violence/no{}_xvid/").format(j) f = os.listdir(path) n = 0 for i in f: oldname=path+f[n]

2021-04-13 20:16:26 379

原创 2019-走向视频中的主观暴力检测TOWARD SUBJECTIVE VIOLENCE DETECTION IN VIDEOS

作者对每个网络（C3D、CNN-LSTM）都经过了针对每个单独概念（血液、冷武器、爆炸、战斗、射击等）的二进制分类的训练。因为VSD数据集只有训练集的样本提供了概念的注释（血液、冷武器等），所以作者从训练集中分离了五套可用的训练影片，两套用于训练期间的验证，三套用于测试。也就是说作者用C3D、CNN-LSTM两个模型分别单独训练了更细致的暴力分类概念（血液、爆炸、射击等），之后作者用C3D Fusion、CNN-LSTM Fusion两个模型进行训练，其融合数据来自各个模型之前单独训练出来的特征。作者设计了

2021-04-12 20:01:48 796 1

原创 2019-使用3D卷积神经网络进行有效的暴力检测Efficient Violence Detection Using 3D Convolutional Neural Networks

介绍作者提出了一种基于3D卷积神经网络的深度学习模型，无需使用手工制作的功能或RNN架构专门用于编码时间信息。改进的内部设计采用紧凑而有效的瓶颈单元来学习运动模式，并利用DenseNet架构促进了特征重用和通道交互，这被证明具有捕获时空特征的能力，并且需要相对较少的参数。本篇文献的贡献如下：1.提出了一种端到端3D CNN模型，而不使用手工制作的功能或RNN架构专门用于编码时间信息。2.证明了在所提出的模型中采用的瓶颈单元（bottleneck units）和desnenet体系结构有助于提高表示

2021-04-11 21:14:02 1083

原创 2018-Bidirectional Convolutional LSTM for the Detection of Violence in Videos双向卷积LSTM在视频暴力检测中的应

介绍了一种基于双向卷积LSTM（BiConvLSTM）结构的时空编码器。在时空编码器中添加双向时间编码和这些编码的元素最大池在暴力检测领域是新颖的。这种添加的动机是希望通过在视频的两个时间方向上利用长距离信息来获得更好的视频表示。过程我们通过VGG13网络将每个视频帧编码为特征图的集合。然后，我们将这些特征映射传递给BiConvLSTM，以便沿着视频的时间方向对它们进行进一步编码，执行时间上的向前传递和反向传递。接下来，我们对每个编码执行元素最大化，以创建整个视频的表示。最后，我们将此表示传递给分类器

2021-04-08 14:51:10 1173 2

原创 2019：RWF-2000: An Open Large Scale Video Database for Violence Detection一个开放的大规模暴力检测视频数据库

本文提出了一个RWF-2000数据集，此外提出了一种新的方法，Flow Gated网络，综合了三维CNNs和光流的优点。代码地址作者的方法：作者提出的模型具有自学习池机制，能很好地融合时间特征和外观特征：图4显示了我们提出的模型的结构，包括四个部分：RGB通道、光流通道、合并块和完全连接层。RGB通道和光流通道是由级联的三维cnn构成的，它们具有一致的结构，可以实现输出的融合。合并块也由基本的3D CNNs组成，这些CNNs经过自学习的时间池处理信息。最后，完全连接的层生成输出。此外，我们采用Mo

2021-04-05 14:37:00 1682

原创 2020-既看，又听：在弱监督下学习多模态暴力检测

Not only Look, but also Listen: Learning Multimodal Violence Detection under Weak Supervision本文的贡献：1.发布了一个名为XD-Violence的多模式暴力数据集，其中包含4754个未修剪的视频，涵盖了六种常见的暴力类型。据我们所知，XD暴力是迄今为止规模最大的暴力数据集，总计217小时。与以前的数据集不同，XD-Violence的视频是从多种场景中捕获的，例如电影和YouTube。2.引入了HL-Ne

2021-03-30 15:30:55 2668 8

原创 2017-利用卷积长短时记忆学习检测暴力视频Learning to Detect Violent Videos using Convolutional Long Short-Term Memory

arxiv：https://arxiv.org/pdf/1709.06531.pdf本文贡献：1.开发了一个端到端可训练的深度神经网络模型来进行暴力视频分类。2.发现一个能够编码局部时空变化的递归神经网络用于检测视频中暴力的存在，能以较少的参数产生更好的表示。3.证明了基于帧差训练的深度神经网络比基于原始帧训练的模型具有更好的性能。4.使用三个广泛使用的暴力视频分类基准，实验验证了该方法的有效性。红色的为卷积层、灰色的为归一化层、蓝色的为池化层、绿色的为ConvLSTM用于分类，全连接层为棕色

2021-03-30 08:52:17 522

原创 2020-基于视觉的战斗检测监视摄像机（Vision-based Fight Detection from Surveillance Cameras）

arxiv：https://arxiv.org/pdf/2002.04355.pdf本文概括：本文探索了基于 LSTM 的解决方法。此外，还利用了注意层。此外，还收集了一个新的数据集，其中包括来自监控摄像机视频的战斗场景，可在 YouTube 上获得。暴力活动包含广泛的活动，例如破坏、爆炸和战斗。在这项研究中，我们重点讨论了战斗活动。战斗事件被定义为两个或两个以上的人，他们的战斗程度必须受到干扰。在本研究中，为了增强基于 CNN+LSTM 的战斗检测任务方法，利用战斗场景对改进的 Xcep

2021-03-29 21:16:23 546 1

原创 2017-Appearance-and-Relation Networks for Video Classification视频分类中的外观与关系网络

arxiv: https://arxiv.org/abs/1711.09125 github: https://github.com/wanglimin/ARTNet本文提出一种新的架构，学习视频时空特征，称为外观和关系网络（Appearance and Relation—ARTNet），以学习视频表示的端到端方式。ARTNET是通过堆叠多个通用构建块，称为SMART，来构建的，其目标是以单独和明确的方式同时从RGB输入中建模外观和关系。具体而言SMART块将时空学习模块解耦为用于空间建模的外观分支.

2021-03-24 15:25:09 229

原创 Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification

论文地址：https://arxiv.org/pdf/1711.08200本文最大的贡献就是提出了一种模型迁移的方法，同时引入一种新的时域层temporal layer给可变时域卷积核深度建模，这个层叫做temporal transition layer(TTL) ，作者将这个新的temporal layer嵌入到提出的3D CNN，该网络叫做Temporal 3D ConvNets（T3D）。本文将DenseNet 结构从2D扩展到3D中。另一个贡献是将知识预先训练好的2D CNN转移到随记初始化的3

2021-03-23 14:15:21 435

原创 2017-non-local neural networks非局部神经网络

这是一篇何凯明挂名的文献。intro: CVPR 2018. CMU & Facebook AI Researcharxiv: https://arxiv.org/abs/1711.07971github(Caffe2): https://github.com/facebookresearch/video-nonlocal-net卷积运输和循环运算都是一次处理一个局部邻域的构造快。在本文中，我们将非局部操作作为一个通用的构建快族来捕获长期依赖关系。作者受到NL-Means在图像去噪应用的

2021-03-22 21:21:40 722

原创 2018-A Teacher Student Network for Video Classification Using Fewer Frames

arxiv:https://arxiv.org/abs/1805.04668作者首先训练了一个教师网络，它查看视频中的所有帧。然后训练一个学生网络，其目标是只处理视频中的一小部分帧，并且产生的结果非常接近教师网络。作者在YouTube-8M数据集上进行了实验，结果表明所提出的学生网络在性能下降很小的情况下，推理时间可以减少30%。作者关注了一个最先进的模型，其性能在这个数据集上接近最好，将此模型作为教师网络，并训练了一个可比较的学生网络。在这项工作中，作者选择了分层RNN（hierarchical RN

2021-03-15 15:10:34 319

翻译基于keras和深度学习的视频分类实战（附代码）

该文章涉及到了模型微调、使用训练好的模型来进行视频分类。这是我在一个国外博客翻译过来的。作者首先通过train.py训练微调模型，之后用训练好的模型在predict_video.py进行视频分类。如果需要源码请留下邮箱。在执行图像分类时，我们：输入一幅图像到我们的CNN中；从CNN中获得预测；选择相应概率最大的标签。由于视频只是一系列帧，一种简单的视频分类方法是：1.循环播放视频文件中的所有帧2.对于每一帧，通过CNN传递帧3.对每个帧进行单独的分类，并且相互独立4.选择相应概率最大的标签

2021-03-11 15:35:03 1850 25

原创 youtube-8m入门（数据集可视化，统计数据集,使用Bi-lstm进行分类）

这是一些可能与本次比赛有关的阅读材料。原始数据集文件：YouTube-8M：大型视频分类基准：https：//arxiv.org/abs/1609.08675上届比赛：借助Context Gating进行视频分类的可学池：https : //arxiv.org/abs/1706.06905YouTube-8M视频理解挑战的猴子式解决方案：https：//arxiv.org/abs/1706.05150大规模Youtube-8M视频理解的时间建模方法：https://arxiv.org/abs/1

2021-03-11 10:46:41 1690

原创 2017-基于视觉注意的视频分类时空模型A spatiotemporal model with visual attention for video classification

arxiv:https://arxiv.org/abs/1707.02069本文的重点是建立一个时空模型来处理包含旋转和尺度变化的运动对象的视频。建立了卷积神经网络（CNNs）和递归神经网络（RNNs）相结合的序列数据分类模型，研究了在CNN阶段引入注意模块对视频分类的有效性。在移动MNIST数据集上，通过旋转和缩放，证明了该时空模型的优越性。本文的创新之处在于提出了一种基于视觉注意的时空模型，该模型能够对具有旋转和尺度变化的多目标具有鲁棒性。作者将MNIST数据集进行了旋转、缩放、旋转和缩放，然后提出

2021-03-09 15:57:34 299

原创 2017-UTS提交给谷歌的YouTube-8M挑战赛UTS submission to Google YouTube-8M Challenge 2017

intro: CVPR’17 Workshop on YouTube-8Marxiv: https://arxiv.org/abs/1707.04143github: https://github.com/ffmpbgrnn/yt8mYouTube-8M提供的帧级数据集分为静态图像特征和音频特征，静态图片特征是由ImageNet上预先训练的Inception network提取的，音频特征是由YouTube-8M第一个版本上训练的VGG模型提取的。摘要在这篇文章中，我们提出了我们的解决方案，谷歌Y

2021-03-03 16:13:04 330

原创 2017-用于视频理解的分层深度递归体系结构Hierarchical Deep Recurrent Architecture for Video Understanding

Hierarchical Deep Recurrent Architecture for Video Understandingarxiv: https://arxiv.org/abs/1707.03296

2021-03-02 14:46:36 437

原创 2017-Aggregating Frame-level Features for Large-Scale Video classification聚合帧级功能以进行大规模视频分类

intro: Youtube-8M Challenge, 4th placearxiv: https://arxiv.org/abs/1707.00803贡献：1.根据信息最丰富的内容出现在视频中间，提出了RNN变体-双向RNN。3.1.12.提出的VLAD聚合方法与RNN相比计算成本较低。3.1.23.证明了融合多个模型总是有帮助的。摘要本文介绍了我们为Google Cloud和YouTube-8M视频理解挑战赛开发的系统，可以将其视为在大规模YouTube-8M数据集[1]之上定义的多标签

2021-03-01 10:04:22 542

原创【2017】Learnable pooling with Context Gating for videoclassification借助Context Gating进行可学习的池化以进行视频分类

intro: CVPR17 Youtube 8M workshop. Kaggle 1st placearxiv: https://arxiv.org/abs/1706.06905github: https://github.com/antoine77340/LOUPE摘要当前的视频分析方法通常使用预训练的卷积神经网络（CNN）提取帧级特征。然后，例如通过简单的时间平均或更复杂的递归神经网络（例如长短期记忆（LSTM）或门控递归单元（GRU））随时间聚合此类特征。在这项工作中，我们修改了现有的视

2021-02-04 09:54:56 407

原创【2017】Deep Learning Methods for Efficient Large Scale Video Labeling高效的大规模视频标记的深度学习方法

arxiv: https://arxiv.org/abs/1706.04572github: https://github.com/mpekalski/Y8M作者使用了两种方法来扩充数据集，1.交叉验证2.将一个视频切分成三部分，但是超过2部分并没有发现性能的提升。作者的最终模型是神经网络专家（MoNN），长期短期记忆（LSTM）[4]和门控递归单元（GRU）的混合物的加权集合。其中MoNN主要用于视频级特征。作者发现较大尺寸的模型表现更好。对于相同大小的视频级模型，较宽的模型似乎比较深的模型更好

2021-02-01 12:10:02 291

原创【2017】Large-Scale YouTube-8M Video Understanding with Deep Neural Networks借助深度神经网络对YT8M进行大规模视频理解

paper: https://arxiv.org/abs/1706.04488摘要视频分类问题已经研究了很多年。卷积神经网络（CNN）在图像识别任务中的成功为研究人员创建更高级的视频分类方法提供了强大的动力。由于视频具有时间内容，因此长期短期记忆（LSTM）网络成为方便的工具，可以对长期的时间线索进行建模。两种方法都需要输入数据的大型数据集。本文提供了三个模型，用于使用最近宣布的YouTube8M大规模数据集解决视频分类问题。第一个模型基于帧池化方法。基于LSTM网络的其他两个模型。在第三

2021-01-22 08:55:11 409

原创 2017-【精读】Deep Feature Flow for Video Recognition用于视频识别的深度特征流

paper: https://arxiv.org/abs/1611.07715代码： https://github.com/msracver/Deep-Feature-Flow这篇文章提出了一个结合光流的快速视频目标检测和视频语义分割方法。文章有三个动机：1.在视频流的每一帧上用CNN计算特征太慢了。在目标检测和语义分割任务中，通用的做法是首先将图片送到一个深层卷积网络提取特征，再将特征送入相应的任务网络得到结果。在视频上进行目标检测或者语义分割任务时，如果继续使用单帧图片的方法，将有大量的时间耗

2021-01-18 09:48:10 1188

原创 2015-【精读】Fusing Multi-Stream Deep Networks for Video Classification

本文利用多模态线索进行视频分类，结合了音频信息进行建模，在UCF-101数据集上最后有音频与无音频信息实验结果相差0.4%。使用了三个卷积神经网络分别对空间、短期运动和音频线索进行建模，在卷积神经网络的空间和短期运动特征上进一步采用LSTM进行长期时间建模。然后使用提出的融合方法，自适应地学习每个类别的融合权重

2020-12-30 14:53:41 434

原创 2015【精读】Modeling Spatial-Temporal Clues in a Hybrid Deep Learning Framework for Video Classification

Modeling Spatial-Temporal Clues in a Hybrid Deep Learning Framework for Video Classification在混合深度学习框架中为视频分类建模时空线索本篇文章的贡献：1）提出了一种用于视频分类的端到端混合深度学习框架，该框架不仅可以对短期空间运动模式进行建模，还可以对以可变长度视频序列作为输入的长期时间线索进行建模。2）采用LSTM在空间和短期运动特征之上对长期时间线索进行建模。我们显示这两个功能都可以与LSTM很好地配合

2020-12-22 10:02:29 896

keras-video-classification.zip

tensorflow2.5可以正常运行但是2.0就报错

刚安装完Android Studio就出现了这个错误