七元权-CSDN博客

文章目录1 前言2 Log-linear model3 MEMM3.1 模型概述3.2 label bias问题4 CRF4.1 模型概述4.2 模型训练4.3 模型解码4.4 小结参考资料1 前言条件随机场(conditional random field, CRF)是在建立序列模型时的常用模块，它的本质就是描述观测到的序列xˉ\bar{x}xˉ对应的状态序列yˉ\bar{y}yˉ的概率，记作P(yˉ∣xˉ)P(\bar{y}|\bar{x})P(yˉ∣xˉ)。这里字符上的横线表示这是一个序列，下

2022-02-08 17:10:15 2742

原创论文阅读 - Is Space-Time Attention All You Need for Video Understanding?

这篇论文是在vision transformer的基础上，在时间维度进行了attention，将图像分类拓展到了视频分类。这也是第一个完全抛弃CNN，只用transformer搭建整个网络的视频分类模型。

2022-01-31 09:42:10 5084 1

原创论文阅读 - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

文章目录1 概述2 方法简述2.1 encoder之前2.2 encoder之后3 实验结果参考资料1 概述这篇论文是一篇将tranformer引入到图像领域的里程碑式的文章。因为这是第一次在处理图像时，将所有的卷积模块统统抛弃，只使用attention。并且实验证明了只用attention比使用卷积的网络在图像分类上效果要更好。正片文章的内容并不难理解，前提熟知transformer的原理，不了解或者想要回顾一下的小伙伴，可以看我的另一篇搞懂Transformer。而论文提出的vision tra

2022-01-29 10:22:20 3239 1

原创小工具：基于颜色的视频和图片切割

文章目录1 前言2 方案简述3 效果1 前言最近做一个短视频相关的项目的时候，发现输入的视频有很多是有黑边的，有些可能是白边或者其他颜色的边。这对下游的模型处理有很大的影响。于是就写了一个自动判断填充边的颜色，并根据该颜色自动切割视频或者图片的小工具。这个真的挺方便的，所以就分享出来。代码可见https://github.com/zjuPeco/color_base_image_crop。2 方案简述所有的颜色都是将rgb值映射到hsv空间后，再映射到事先总结好的一个颜色表当中。每个hsv对应颜色

2022-01-17 19:11:01 2713

原创论文阅读 - AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss

autovc论文解读

2021-12-10 16:00:31 2895

原创图像表格实线和虚线检测

图像中的实线和虚线检测

2021-11-12 10:49:45 3204

原创 Yolo系列知识点梳理（Yolov1-v5）

文章目录1 概述2 Yolo系列模型2.1 基石 - Yolov12.1.1 Yolov1的网络结构1 概述Yolo系列的模型是大多数做目标检测的图像算法工程师都在使用的，使用时经常也是先用了看看效果再说，如果效果不错，有时间再回头来研究一下模型，有时甚至就忘了回过头来细究。这篇文章就是一个回头的产物。Yolo的每一个系列都令人惊艳，本文综合了原始论文和网上各家的一些说法，把Yolo每个系列究竟产出了一些什么做一个系统的梳理，也方便我以后的再回头。如果Yolo之后有人继续更新下去，本文也会尽量做到继

2021-10-23 20:00:51 5990

原创论文阅读 - Joint Beat and Downbeat Tracking with Recurrent Neural Networks

文章目录1 概述2 信号预处理3 分类神经网络4 动态贝叶斯网络（HMM）4.1 原始的bar pointer model4.2 原始的bar pointer model的缺点4.3 改进后的模型5 预测参考资料1 概述最近在做音乐卡点相关的项目，需要对音乐的基本特征进行理解，比如beats和downbeats就是最基本的特征。madmom是我找到的一个对beats和downbeats的检测都有实现的第三方库，于是就认真学习了一下，把其中用到的方法和自己的理解记录下来。madmom中的beats和do

2021-09-10 17:56:09 1615 9

原创 speech production model

文章目录1 概述2 source model3 filter model4 小结参考资料1 概述本文的目的是为了厘清在speech production model中source model和filter model所扮演的角色，不涉及具体公式的推导或者模型的建立，只是为了把这两个model在干什么事情说明白。文中用到的图片均来自底部参考资料，如有侵权，必定删除。如下图1-1所示，speech production model把人发声的过程分成了三大块，分别是power，source和filter。

2021-09-04 21:57:30 451

原创搞懂语音去噪

文章目录1 概述2 传统语音去噪2.1 谱减法2.2 滤波法3 深度语音去噪1 概述2 传统语音去噪2.1 谱减法2.2 滤波法3 深度语音去噪

2021-09-03 11:32:51 8723 2

原创搞懂HMM

文章目录1 概述2 符号说明3 Evaluation4 Learning5 Decoding参考资料1 概述本文是B站上机器学习-白板推导系列(十四)-隐马尔可夫模型HMM的学习笔记，UP主讲得实在是太清楚了，赶紧记录下来，以防之后忘记。2 符号说明3 Evaluation4 Learning5 Decoding参考资料[1] 机器学习-白板推导系列(十四)-隐马尔可夫模型HMM......

2021-08-22 12:08:03 814 1

原创论文阅读 - Group Normalization

文章目录1 概述2 几种normalization的方法2.1 Batch Norm2.2 Layer Norm2.3 Instance Norm2.4 Group Norm3 效果对比参考文献1 概述Group Nomralization的提出是为了解决一张GPU上能容纳的batch_size很小，导致模型训练效果显著变差的问题。随着深度学习的快速发展，我们所使用的模型越来越大了，这也就导致了在训练时，一个batch所占用的显存越来越大了，也i就导致了一张卡上的batch_size会很小，最终导致了模

2021-06-05 18:57:02 588 2

原创论文阅读 - Jukebox: A Generative Model for Music

文章目录1 概述2 什么是VQ-VAE2.1 Auto-encoder(AE)2.2 Variational AutoEncoder(VAE)2.3 Vector-Quantized Variational AutoEncoder(VQ-VAE)2.4 VQ-VAE-23 Music VQ-VAE4 Prior and upsamplers5 Lyrics Conditioning参考文献By learning to produce the data, we can learn the best fea

2021-04-30 16:36:59 3173

原创 Chapter7-13_Dialogue State Tracking (as Question Answering)

文章目录1 什么是Dialogue State Tracking2 数据集3 两个挑战4 经典模型本文为李弘毅老师【Dialogue State Tracking (as Question Answering)】的课程笔记，课程视频youtube地址，点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT，若有侵权，必定删除。文章索引：上篇 - 7-12 Controllable Chatbot下篇 - 无总目录1 什么是Dialogue State TrackingDialo

2021-03-20 18:52:20 371

原创 Chapter7-12_Controllable Chatbot

文章目录1 Chatbot面临的问题2 控制Chatbot的输出2.1 直接Finetune2.2 输入添加控制特征2.3 只有独白3 展望本文为李弘毅老师【Controllable Chatbot】的课程笔记，课程视频youtube地址，点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT，若有侵权，必定删除。文章索引：上篇 - 7-11 Deep Learning for Question Answering (2/2)下篇 - 待更新总目录1 Chatbot面临的问题什

2021-03-13 20:18:23 178

原创论文阅读 - Beat Tracking by Dynamic Programming

文章目录1 概述2 总体框架3. 计算Onset Strength Envelope4 计算全局的Tempo5 基于动态规划计算beats6 参考文献1 概述有背景音乐的短视频拼接时，如果两个视频的拼接点刚好在背景音乐的某个节拍点上，那么合成的视频看起来，听起来，都会非常舒服，这是短视频合成的一个加分项，这种视频也就是我们经常说的卡点视频。要做卡点视频的前提是找到背景音乐中可以卡的点，beats是其中一种可以卡的点，本文就是用大白话来讲讲论文Beat Tracking by Dynamic Progra

2021-02-26 11:12:22 2263 1

原创 Chapter7-11_Deep Learning for Question Answering (2/2)

文章目录1 Simple Question: Match & Extract2 Complex Question: Reasoning3 Dialogue QA本文为李弘毅老师【Deep Learning for Question Answering (2/2)】的课程笔记，课程视频youtube地址，点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT，若有侵权，必定删除。文章索引：上篇 - 7-10 Deep Learning for Question Answerin

2021-02-21 19:54:01 231

原创 Chapter7-10_Deep Learning for Question Answering (1/2)

文章目录1 什么是Question Answering(QA)2 按答案分类2.1 答案是一个单词2.2 答案是多个选项2.3 答案是source中的一段话2.4 答案是生成的一段话3 按source分类3.1 source是网页3.2 source是图片或者视频3.3 source是语音3.4 source是视频本文为李弘毅老师【Deep Learning for Question Answering (1/2)】的课程笔记，课程视频youtube地址，点这里????(需翻墙)。下文中用到的图片均来自

2021-02-16 14:54:34 226

原创 Chapter7-9_Deep Learning for Dependency Parsing

文章目录1本文为李弘毅老师【Deep Learning for Dependency Parsing】的课程笔记，课程视频youtube地址，点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT，若有侵权，必定删除。文章索引：上篇 - 7-8 Deep Learning for Constituency Parsing下篇 - 待更新总目录1...

2021-02-15 20:04:07 172

原创 Chapter7-8_Deep Learning for Constituency Parsing

文章目录1 什么是Constituency Parsing2 解决方案2.1 Chart-based Approach2.2 Transition-based Approach2.3 Grammer as Foreign Language本文为李弘毅老师【Deep Learning for Constituency Parsing】的课程笔记，课程视频youtube地址，点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT，若有侵权，必定删除。文章索引：上篇 - 7-7 Deep L

2020-12-12 18:36:47 244

原创论文阅读 - TransNet and TransNet V2

文章目录1 概述1 概述

2020-11-14 16:31:56 4255 2

原创 Chapter7-7_Deep Learning for Coreference Resolution

文章目录1 什么是coreference resolution2 模型架构本文为李弘毅老师【Deep Learning for Coreference Resolution】的课程笔记，课程视频youtube地址，点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT，若有侵权，必定删除。文章索引：上篇 - 7-6 Text Style Transfer下篇 - 待更新总目录1 什么是coreference resolutioncoreference resolution翻译过

2020-11-08 16:23:34 234

原创论文阅读 - Large-scale weakly-supervised pre-training for video action recognition

文章目录1 概述2 数据的收集方式3 使用的模型4 预训练时的一系列问题4.1 预训练的数据是不是越多越好？4.2 用于预训练的模型是不是越大越好？4.3 预训练数据的标签种类和数量是不是越多越好？4.4 用于预训练的每个video有长有短，时长该如何选取？5 总结1 概述本文是对论文Large-scale weakly-supervised pre-training for video action recognition的阅读笔记。在视频领域，一直没有一个像图像中ImageNet那样的标准，庞大且适

2020-11-06 15:33:29 803

原创搞懂DEtection TRanformer(DETR)

文章目录1 什么是bipartite matching参考文献本文描述了笔者在阅读了一些文献并实际实验之后，对 End-to-end Object Detection with Transformers(DETR) 的理解。DETR是一个令人非常兴奋的目标检测模型，它在思路上完全不同于现有的state-of-art的那些目标检测模型，让人对目标检测这个任务重新思考。一句话概括一下，DETR就是一个不用nms，不用anchor，流程非常简洁明了，且基于transformer的state-of-art的目标检

2020-10-24 18:22:57 12731 9

空空如也

空空如也