Michaelliu_dev-CSDN博客

原创时序动作分割(temporal action segmentation)任务介绍

时序动作分割(temporal action segmentation)任务介绍

2022-10-01 10:22:34 1613 1

原创视频时序动作检测（temporal action detection）介绍

视频时序动作检测

2022-09-04 15:17:54 1549

原创主流的视频动作类算法任务介绍

主流视频动作类算法任务介绍

2022-09-03 20:53:08 1769

原创视频时序动作识别（video action recognition）介绍

视频动作识别汇总介绍

2022-09-03 20:50:26 1861

原创《Attention Is All You Need》算法详解

该篇文章右谷歌大脑团队在17年提出，目的是解决对于NLP中使用RNN不能并行计算（详情参考【译】理解LSTM（通俗易懂版）），从而导致算法效率低的问题。该篇文章中的模型就是近几年大家到处可以听到的Transformer模型。一、算法介绍前的说明由于该文章提出是解决NLP（Nature Language Processing）中的任务，例如文章实验是在翻译任务上做的。为了CV同学更好的理解，先简单介绍一下NLP任务的一个工作流程，来理解模型的输入和输出是什么。1.1 CV模型的输入和输出首先拿CV中的

2022-04-14 19:11:38 2129

原创 docker使用入门简介

一、什么是docker？https://www.docker.com/resources/what-container使用docker时有两个重要概念，一个是镜像（images），一个是容器（containers）镜像就是从docker hub或者自己制作好的一个包，类似压缩包容器，就是将镜像run起来后的一个虚拟环境二、为什么使用docker？对于我们来说，环境独立且相对轻量，互不影响，后台运行。三、怎么使用docker？介绍几个常用命令，方便使用首先要知道的是docker运行需要

2022-04-12 19:19:00 1400

原创 R3DS Wrap基本使用方法

中文的R3DS Wrap软件的教程较少，最近刚好实操了一遍，特此记录下来。为了描述方便，下面将R3DS Wrap简称Wrap。软件官网：https://www.russian3dscanner.com/一、目的及所需输入材料下面介绍一下使用Wrap将高模转为低模的方法。虽说目的是将高模转为低模，但是从软件名称和实际操作可以看出，软件是使用低模或者说是base mesh去包裹(wrap)高模，从而得到高模上对应与低模的顶点位置。要将高模转为低模，首先需要两个模型，一个是预先定义的低模，一个是通过

2022-03-16 21:00:09 3710

原创 Record something about DL

这篇文章算是DL实践杂谈吧，主要是想把自己模型调优和复现算法遇到的一些坑总结一下（里面的一行字可能是我当时花费了一周甚至更长时间得到的总结），希望能对读者有所帮助。一、熟悉数据模型是数据的浓缩版----Andrew NG的二八定律，即80%的数据+20%的=更好的AI 对于新上手的一任务来说，需要熟悉你的数据。拿检测任务来说，可以写个可视化代码查看标注是否合理，查看一下待检测物体的大小分布情况（例如anchor的预设），查看一下图片大小，查看类别分布情况（例如是否有极端的分布）等等。二、算法选型

2021-09-10 20:44:50 623 1

原创 ATSS论文详解

《Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection》发表于CVPR2020代码地址：https://github.com/sfzhang15/ATSS现有目标检测的主流算法中，主要分为两阶段和一阶段。而一阶段的算法中，又分为基于anchor和anchor-free的算法。在FCOS(一种anchor-free的目标检测算法，想详细了解请看《FCOS算

2020-05-26 22:59:57 1541

原创《FCOS: Fully Convolutional One-Stage Object Detection》论文详解

《FCOS: Fully Convolutional One-Stage Object Detection》发表于ICCV2019代码地址：https://github.com/tianzhi0549/FCOS/这篇文章主要是觉得现有的基于anchor的目标检测器存在一些缺点：检测结果对于anchor的大小，尺度比例，数量比较敏感即使认真的调好的上述参数，检测器对于GT变化较大，特别是小物体效果较差为了获得较高的召回率，基于anchor的检测器需要大量的anchoranchor会涉及一些复杂的

2020-05-26 10:02:29 484

原创《Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression》论文详解

现在在物体检测领域，通常会使用IoU(Intersection over Union)来作为一个很重要的度量指标。但是很多时候在训练网络时，采用的是l2-norm来回归检测框的，文章认为采用l2-norm来训练模型而使用IoU来衡量模型好坏，这两者之间似乎存在着某种不匹配的关系。举个例子，如下图所示，【图】现假设采用左上角右下角的坐标来表示一个矩形框，即(x1,y1,x2,y2)(x_1,y...

2020-03-31 21:39:11 450

原创《Double-Head RCNN: Rethinking Classification and Localization for Object Detection》论文详解

原文链接《Double-Head RCNN: Rethinking Classification and Localization for Object Detection》这篇文章灵感来源于18年COCO 物体检测冠军也就是旷世的团队，他们发现在做实例分割任务时使用卷积来得到BoundingBox比使用全连接得到结果要好。文章认为全连接对于空间位置是敏感的，而卷积对于物体信息的提取效果更好，所...

2020-02-23 18:21:48 6441 15

原创 HOG特征计算流程

HOG特征是在文章《Histograms of Oriented Gradients for Human Detection》中提出，看文章标题可知，该文章是为了行人检测提出的，不过后来也用于其它方向，比如特征点检测等。该文中行人检测大概分为以下几步：输入图像（行人的图像）采用Gamma矫正法对输入图像进行颜色空间的标准化；目的是调节图像的对比度，降低图像局部的阴影和光照所造成的影响，同时...

2020-01-28 20:22:45 1102

原创如何使用git合并多次提交

在为代码添加一个新功能的时候你会怎么做？（从git的操作顺序来说）如果是我的话，顺序如下：先是使用git checkout -b ，来新建一个新的分支，然后开始按照自己提前思考好的逻辑加入新代码写好这个功能并调试好后，使用git add 、git commit提交代码但之后当你或者同事review代码，或者测试测出bug时，你又需要改代码并且将改后的代码提交，这样就造成了一个功能多次提...

2020-01-18 13:17:36 4544

原创《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》论文详解

论文地址：https://arxiv.org/pdf/1905.11946.pdfGitHub实现地址：https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet这篇工作中的网络结构基本采用的是mobilenet的结构，关于mobilenet的详情可以查看mobilenet-v1和mobilenet-v2...

2019-12-19 23:31:44 744

原创 mobilenet-v1和mobilenet-v2详解

最近efficientnet和efficientdet在分类和检测方向达到了很好的效果，他们都是根据Google之前的工作，mobilenet利用nas搜索出来的结构。之前也写过《轻量级深度学习网络概览》，里面提到过mobilenetv1和mobilenetv2的一些思想。下面基于slim mobilenet的实现版本来具体讲讲他们的结构一、mobilenet-v1mobilenet-v1创新...

2019-12-18 22:51:38 2338

原创《Gliding vertex on the horizontal bounding box for multi-oriented object detection》算法详解

《Gliding vertex on the horizontal bounding box formulti-oriented object detection》是华中科大白翔老师的新作，发表于2019年11月21号。该文章是用来做物体检测的，有意思的是发挥了白翔老师在OCR方面的特长。一般的物体检测都是使用一个非旋转矩形来表示一个物体，文章认为对于长条形的物体（例如斜着的中文句子，航拍的船舶...

2019-12-17 20:05:26 6223 6

原创【译】梯度下降优化算法概览（gradient descent optimization algorithms）

之前一直想总结一下深度学习中常用的梯度下降算法的，后来发现有人做了，那好吧，直接翻译吧。一、变量的更新方法1.1 Batch gradient descent这种变量的更新方法是利用整个数据集的数据，也就是一个batch来计算出损失函数的梯度，进而来更新网络中的参数θ\thetaθ，公式如下：θ=θ−η⋅∇θJ(θ)\theta = \theta -\eta\cdot\nabla_{\th...

2019-11-21 20:23:05 425

原创 git revert的使用

本文假设读者知道git的基本原理。git revert命令其实非常好理解，就是revert的含义，该命令会重新进行一次新的提交，只是提交的内容是会退某一次提交。下面举例来说明。有一个仓库，仓库的提交记录和文件分别如下图所示，该仓库有三次提交，每次分别向仓库添加了1.txt，2.txt和3.txt，三个文件。通过git log可以查看以前的所有提交内容，并且提交时的版本号，分别如下三图所...

2019-10-24 08:27:09 1301 1

原创 Scale-Aware Trident Networks for Object Detection论文详解

《Scale-Aware Trident Networks for Object Detection》发表于ICCV2019的一篇图片检测的文章。代码地址：https://github.com/TuSimple/simpledet/tree/master/models/tridentnet文章的主要思路是解决多尺度物体检测的问题。目前一种很常用的解决多尺度物体检测的方法是采用fpn的结构，然后...

2019-10-09 22:37:43 622

原创 Feature Selective Anchor-Free Module for Single-Shot Object Detection论文详解

《Feature Selective Anchor-Free Module for Single-Shot Object Detection》发表于CVPR2019文章认为现有的anchor的检测方式，为了解决多尺度的问题，容易引入人为的一些规则，这样会导致检测结果不是最优的，比如常用的fpn结构，按照待检测物体的大小规定某些层检测一定大小区域的物体。为了解决这种问题，文章提出了一种anchor...

2019-10-01 21:53:35 310

翻译【译】理解LSTM（通俗易懂版）

循环神经网络（Recurrent Neural Networks）人对一个问题的思考不会完全从头开始。比如你在阅读本片文章的时，你会根据之前理解过的信息来理解下面看到的文字。在理解当前文字的时候，你并不会忘记之前看过的文字，从头思考当前文字的含义。传统的神经网络并不能做到这一点，这是在对这种序列信息（如语音）进行预测时的一个缺点。比如你想对电影中的每个片段去做事件分类，传统的神经网络是很难通过...

2019-05-23 13:07:49 4594 3

原创 MedianFlow 跟踪算法详解

在技术日新月异的时代，今天的技术可能在明天就会被新的技术取代，例如现在爆火的大模型。但目前看来，大模型还不能做到无所不能。所以这篇博客还是来考古一下，写一下传统的跟踪算法。这里不是为了怼大模型而为了写一篇传统算法而写传统算法。只是觉得这个算法有个思想非常有意思，所以记录一下。该算法在2010年发表在ICPR上，它主要是提出了Forward-Backward errors这种跟踪点的校验思想，使得跟踪点更为可靠。

2023-11-04 14:34:40 234

原创从新的角度看待大模型微调

一切要从最近大火的Lora(）说起，该文章在ICLR2022中提出。说的是利用低秩适配(low-rank adaptation)的方法，可以在使用大模型适配下游任务时只需要训练少量的参数即可达到一个很好的效果。LoRA是怎么去微调适配下游任务的？流程很简单，LoRA利用对应下游任务的数据，只通过训练新加部分参数来适配下游任务。而当训练好新的参数后，利用重参的方式，将新参数和老的模型参数合并，这样既能在新任务上到达fine-tune整个模型的效果，又不会在推断的时候增加推断的耗时。

2023-07-16 00:09:42 834

原创关于OpenCV中minAreaRect角度记录

因为你还得根据当前的角度去计算新的角度，例如给定与旋转矩形相同大小的矩形，让你旋转到旋转矩形的角度，可能就得想半天了。这里提供一个可能会更好理解的方式。对于左图，它在opencv的旋转方式里，初始化就是宽大于高的框，所以只需要对应的转30就可以了，至于是正30还是负30（逆时针还是顺时针），我们这里明显是逆时针，所以根据当前版本的OpenCV返回角度取反就可以了。大概问题是minAreaRect这个接口返回的角度信息不足以反应返回的旋转矩形的旋转信息，例如返回角度为30度，那它到底是下面图中的哪一个呢？

2023-06-17 14:53:32 1266

转载【转载】JNI内存方面说明以及相关类型手动释放内存

它的生命期是在Native Method的执行期开始创建（从Java代码切换到Native代码环境时，或者在Native Method执行时调用JNI函数时），在Native Method执行完毕切换回Java代码时，所有Local Reference被删除（GC会回收其内存），生命期结束（调用DeleteLocalRef()可以提前回收内存，结束其生命期）。供Java应用程序使用的，所有java对象的内存都是从这里分配的，它不是物理上连续的，但是逻辑上是连续的。

2023-06-11 22:22:32 902

原创 ChatGPT Prompt Engineering for Developers from DeepLearning.AI

【代码】ChatGPT Prompt Engineering for Developers from DeepLearning.AI。

2023-06-11 18:35:12 2246

原创 RepVGG: Making VGG-style ConvNets Great Again

文章发表于CVPR2021，文章提出一种将训练态和推断态网络结构解耦的方法。文章认为目前复杂的网络结构能够获取更高的精度，但是存在很明显的缺点：多分支结构可能会降低推断速度以及更占用显存。

2023-05-05 21:49:20 386 1

原创《ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection》论文详解

github地址：https://github.com/wangyuxin87/ContourNet该论文发表与CVPR2020。文章认为现在自然场景主要存在两个挑战：1. 误检问题 2. 自然场景中文本尺度变化较大使得网络难以学习。为了解决上述的两个问题，文章提出了*Local Orthogonal Texture-aware Module (LOTM)*来缓解误检问题，（Adaptive-RPN）来解决文本尺度问题。

2023-03-26 12:50:58 128

原创 COCO物体检测评测方法简介

本文从ap计算到map计算，最后到coco[0.5:0.95:0.05] map的计算，一步一步拆解物体检测指标map的计算方式。

2023-02-11 16:59:59 893

原创 ActionVLAD算法详解

action vlad

2022-11-20 13:57:18 842

原创时空动作检测 (spatio-temporal action detection)

时刻动作检测（spatio-temporal action detection）任务简介

2022-10-24 00:15:00 2954

原创《Channel-wise Knowledge Distillation for Dense Prediction》论文详解

密集型任务蒸馏算法-CWD详解

2022-10-01 10:13:15 1109 2

原创 Image captioning任务常用的评价指标计算

BLEU (bilingual evaluation understudy) ACL-2002Meteor AMTA-2004ROUGE-L ACL-2004CIDEr CVPR-2015SPICE ECCV-2016

2021-10-24 19:56:00 761

原创 Image captioning评价方法之SPICE

项目地址：https://panderson.me/spice/上述的项目地址包含了论文地址和代码地址。该方法是由The Australian National University和Macquarie University联合发表在ECCV2016上。文章认为之前的评价方法采用n-gram的方式计算不是特别的好，例如下面例子(a) A young girl standing on top of a tennis court.(b) A giraffe standing on top of a g

2021-10-24 19:55:09 1935 1

原创 Image captioning评价方法之CIDEr

文章地址：CIDEr: Consensus-based Image Description Evaluation代码地址（非官方，且代码实现的是CIDEr-D）：https://github.com/tylin/coco-caption文章由微软和Virginia Tech联合发表在CVPR2015上。CIDEr是专门用来评价image captioning效果的评价指标。下面先定义一些符号。对于一张图片IiI_iIi，candidate sentence定义为cic_ici， referenc

2021-10-24 19:53:07 2457

原创 Image captioning评价方法之ROUGE-L

文章地址：ROUGE: A Package for Automatic Evaluation of Summaries代码地址(非官方)：https://github.com/tylin/coco-caption文章由University of Southern California发表在2004ACL上。ROUGE为 Recall-Oriented Understudy for Gisting Evaluation的缩写。文章ROUGE提出了用来评价文本摘要算法的评价集，里面包含了四个评价算法，分

2021-10-24 19:51:34 516

原创 Image captioning评价方法之Meteor

项目地址：http://www.cs.cmu.edu/~alavie/METEOR/代码地址（非官方实现，实现的是项目地址中的1.5版本）：https://github.com/tylin/coco-caption项目由CMU提供，项目地址包含了代码和最新版本以及之前老版本的meteor评价算法。下面记录一下最初版也就是《The Meteor Metri for Automatic Evaluation of Machine Translation》的计算思路。首先说明一下常用的BLEU的缺点，BL

2021-10-24 19:48:59 680

原创 Image captioning评价方法之BLEU (bilingual evaluation understudy)

文章地址：BLEU: a Method for Automatic Evaluation of Machine Translation代码地址(非官方)：https://github.com/tylin/coco-caption该评价方法是IBM发表于ACL2002上。从文章命名可以看出，文章提出的是一种双语评价替补，"双语评价(bilingual evaluation)"说明文章初衷提出该评价指标是用于机器翻译好坏的评价指标，"替补(understudy)"说明文章想提出一种有效的评价指标进而帮助人类

2021-10-24 19:46:07 3132

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

A Review of Time-Scale Modification of Music Signals

superviseddescentmethod工程实现的人脸特征点检测

active shape models-their training and application

asmlibrary

AAMlibrary

Cropface预处理软件

sift特征提取与物体检测

表情识别预处理小软件

哈弗曼编码

空空如也