Yuggie_Sue-CSDN博客

原创 Visual Semantic Role Labeling 文章理解速递

1）动机：经典的动作识别方法要么研究在图像或视频剪辑水平上的动作分类任务，要么最多是在做动作的人周围产生一个边界框。这样的输出对图像完全理解是不够的。2）内容：提出了Visual Semantic Role Labeling视觉语义角色标记任务：给定一个图像，检测到正在做行动的人，并定位交互的对象。

2023-03-31 17:23:16 430 2

原创 Learning to Detect Human-Object Interactions 文章解读

主要研究领域定义了HOI detection任务：在静态图像中检测人-对象交互（HOI）的问题，也就是给定一张图片，预测一个人和一个对象边界框并预测连接他们的交互类别。主要工作：1）介绍了HICO-DET数据集，一个新的HOI检测基准，是将目前的HICO分类benchmark添加实例标注增强得到的。2）提出了Human-Object Region-based Convolutional Neural Networks (HO-RCNN).这个网络的核心是，这个交互模式表征了两个边界框之间的空间关系。

2023-03-30 22:14:58 812

原创 Human-centric Relation Segmentation: Dataset and Solution论文解读+基础知识介绍

1）摘要首先叙述了现实问题：当机器人被告知要“把女孩的左手拿着的书给我”时，如果女孩用左手和右手分别拿着一本书，大多数现有的方法都会失败。因此视觉和语义理解还是存在一定的细粒度的问题。针对这个问题，该文介绍了一个新的任务，命名为Human-centric Relation Segmentation（HRS）–以人中心的关系分割，这个任务可以作为 human-object interaction detection (HOI-det)的一个细粒度案例。

2023-03-29 18:14:43 446

原创 Unsupervised Action Segmentation by Joint Representation Learning and Online Clustering_CVPR 2022理解速

Unsupervised Action Segmentation by Joint Representation Learning and Online Clustering理解速递

2022-06-01 16:33:10 564

原创 2022年CV、ML会议

cvpr、eccv、icme等会议2022年的投稿和会议时间合集。

2021-12-20 23:43:42 3350

原创 SOLO: A Simple Framework for Instance Segmentation理解速递

SOLOarXiv上有两篇，SOLOv1和SOLOv2，近期看到TPAMI官网接受了SOLO，是前面两个版本的集合版。SOLO: A Simple Framework for Instance Segmentation阿德莱德大学和字节跳动实验室的。一、相关背景1.图像分割：1）语义分割按照语义，为图像中的每个像素分配标签。2）实例分割不分割背景，需要标注出图上同一实例类别的不同个体，比如人1，人2。3）全景分割语义分割和实例分割的结合，即要对所有目标和背景都检测出来，又要区分出同个类别

2021-11-02 17:42:44 971

原创 CV注意力机制梳理

CV注意力机制一、发展：Non-local-> SENet -> CcNet -> GC-Net -> Gate -> CBAM -> DANet -> Spatial Attention -> Channel Attention -> …本文对加粗的几篇论文进行了简单的梳理。二、Non-local：Non-local Neural Networks，CVPR2018计算机视觉领域注意力机制的开篇之作。1.出发点：捕获远距离依赖关系(lon

2021-01-27 22:02:55 2471

转载使用Pytorch在多GPU下保存和加载训练模型参数遇到的问题

原文转载至https://www.cnblogs.com/jinjunweina/p/12671833.html使用Pytorch在多GPU下保存和加载训练模型参数遇到的问题最近使用Pytorch在学习一个深度学习项目，在模型保存和加载过程中遇到了问题，最终通过在网卡查找资料得已解决，故以此记之，以备忘却。首先，是在使用多GPU进行模型训练的过程中，在保存模型参数时，应该使用类似如下代码进行保存：torch.save({ 'epoch': epoch,

2020-11-09 09:29:53 1848

原创 VNC VIEWER中遇到的问题

VNC VIEWER中遇到的问题1.启动vnc在服务器上输入vncserver或者vncserver -geometry 1366x768 :1# geometry设置vnc屏幕的大小，1为端口首先要求设置密码，password和verify，设置密码之后出现即启动成功，端口为1。输入ps -ef | grep -i vnc即可查询在使用vnc的进程。在电脑的vnc viewer上输入IP:端口，回车打开输入密码，即可连接到服务器桌面。2.unencrypted conne

2020-11-08 14:45:33 25082 6

原创 Linux服务器上安装anaconda和pytorch

Linux服务器上安装anaconda和pytorch一、前期准备1.查看linux的cuda版本在XShell中输入：nvcc -V即可查看cuda版本。但是注意，-V中的必须是大写，否则出错。2.查看服务器是否可以联网在XShell中输入：ping www.baidu.com如果出现...

2020-11-05 15:41:00 1400 1

原创 Bi-directional Cross-Modality Feature Propagation with Separation-and Aggregation Gate_eccv2020

Bi-directional Cross-Modality Feature Propagation with Separation-and Aggregation Gate for RGB-D Semantic Segmentation_ECCV2020这篇论文是eccv2020的。第一作者是北大信息科学技术学院的，主攻方向就是RGBD语义分割。第二个作者是商汤科技的。摘要motivation：大多数现有的工作只是假设深度测量是准确的，并与RGB像素很好地对齐，并将问题建模为跨模态特征融合，以获得更好

2020-09-10 14:54:04 2198 8

原创 2022年CV会议（更新中）

2021年CV会议情况（持续更新）1.CVPR2021截稿日期：2020年12月16日链接: cvpr2021.网址：http://cvpr2021.thecvf.com/2.ICCV2021截稿日期：2021年03月17日（11:59PM Pacific Time)链接: iccv2021.网址：http://iccv2021.thecvf.com/3.AAAI2021截稿日期：2020-09-01会议日期：2021-02-02会议地点：Vancouver, British Col

2020-08-16 20:53:23 20902 7

原创国立台湾大学李宏毅机器学习笔记

1. ML Lecture 0-1- Introduction of Machine Learning（1）structured learning结构学习指的是输入和输出都是具有结构化的对象（数列、列表、树、边界框等）。在之前的学习中，输入和输出都是向量。然而在现实生活中，我们需要解决的问题并不都是此类问题。因此我们需要一个更加强大的函数-其输入输出都是对象，而对象可能是序列、列表、树或者是边界盒等等。举例来说，对于语音识别，其输入输出都是序列。例如：（2）reinforcement learni

2020-07-19 21:01:12 429

原创 C++实验--getline、文件、类模板、杨辉三角、运算符重载、复数操作

C++实验前几天在电脑上发现自己大一的时候写的C++实验课的代码。舍不得删掉，那个时候写这么点代码都费劲呢。那就放一篇怀旧博客吧，用代码唤醒那些年刚学计算机时的记忆，希望自己永远保持热忱，保持好奇，你们也是~1.分别用for和while循环计算50-100所有整数的和#include <iostream>using namespace std;int main(){ /*int i; int sum = 0; for(i = 50;i <= 100;i

2020-06-09 21:17:29 219

原创 Momentum Contrast for Unsupervised Visual Representation Learning (MoCo)

论文：MoCo这篇文章是CVPR2020的文章，针对上一篇文章的memory bank所占用的空间较大的问题，这一篇文章提出了改进。该文章主要解决的是无监督视觉表示学习问题。摘要：作者从将对比学习看做字典查找（dictionary look-up）出发，使用队列（queue）和滑动平均编码器（moving-averaged encoder）构建动态字典。这一做法使得通过构建大容量且协调的字典来...

2020-04-27 10:31:16 411

原创 Unsupervised Feature Learning via Non-parametric Instance Discrimination

这篇文章是cvpr2018的spotlight。是伯克利、香港中文大学、亚马逊联合发表的论文。论文：Unsupervised Feature Learning via Non-parametric Instance Discrimination.摘要和介绍中指出，通过对有监督的图像分类结果的观察，发现图像分类的依据不是图像的语义注释，而是数据本身的视觉相似性，换句话说，视觉相似性不是从语义注释...

2020-04-27 10:07:47 750

原创自监督学习详细介绍（学习笔记）

一、相关文献：fast.ai上面关于自监督学习的资料：Self-supervised learning and computer vision.GitHub上面每年使用自监督学习的论文列表：Awesome Self-Supervised Learning.相关微信推送二、自监督学习的介绍1.自监督学习的由来机器学习中基本的学习方法有：监督学习（supervised learning）、...

2020-04-06 16:21:45 9682 1

原创深度学习轻松学（四）

指路：深度学习入门（一）.指路：深度学习入门（二）.指路：深度学习入门（三）.此系列的参考书籍为：《深度学习轻松学–核心算法与视觉实践》冯超·著网络结构-经典网络关于网络结构，我们关心什么模型的总深度、模型的参数总量、模型前向计算所需要的内存量。分析从AlexNet、VGGNet、GoogLeNet到ResNet的网络，可以得出的结论是：CNN网络结构发展的趋势是：从“shallow...

2020-03-31 16:13:55 375

原创深度学习轻松学（三）

指路: 深度学习入门（一）.指路: 深度学习入门（二）.此系列的参考书籍为：《深度学习轻松学–核心算法与视觉实践》冯超·著CNN的基石（一）：全连接层全连接层由两个子部分组成：线性运算部分和非线性部分。线性部分运算公式：作用：线性部分通过数值计算的方式从不同角度对输入数据进行分析汇总，的处在这些角度下对输入数据的总结和判断。即完成从图像数据到特征转换的过程。非线性部分线性部分汇...

2020-03-31 14:26:54 706

原创深度学习轻松学（二）

指路: 深度学习入门（一）.此系列的参考书籍为：《深度学习轻松学–核心算法与视觉实践》冯超·著数学与机器学习基础线性代数基础矩阵：大小为m×n的矩阵 A 可以看做一个二维数组 A[m][n] ，其中第一维表示行，第二维表示列。相同维度的矩阵可以相加，矩阵可以和标量相乘，在维度匹配的情况下，矩阵和矩阵之间也可以相乘。矩阵满足加法交换律、乘法结合律。对称矩阵：矩阵的转置和矩阵本身相同。...

2020-03-30 21:28:03 305

原创深度学习轻松学（一）

此系列的参考书籍为：《深度学习轻松学–核心算法与视觉实践》冯超·著机器学习与深度学习的概念机器学习的概念特征：比方说，一朵花的大小可以用半径来描述，那么这个半径就是一个可以被计算机使用的描述信息，这个信息在机器学习中被称为特征。One-Hot编码：假设一共有N个所要描述的事物，所以定义一个N维的空间，这个空间的每一维只能取0或1，空间中的每一维代表一个事物，于是对于每个事物都可以在空间...

2020-03-30 15:02:50 379

原创 Semi-Supervised Semantic Image Segmentation with Self-correcting Networks_CVPR2020

Semi-Supervised Semantic Image Segmentation with Self-correcting Networks_CVPR2020这篇文章是CVPR2020的，是基于自校正网络的半监督语义分割。摘要摘要里面指出，建立一个大型的图像数据集来进行语义分割是非常昂贵和耗时的。因此，本文中介绍了一个半监督框架，它的训练数据是：一个小型的全监督数据集(具有语义分割标签...

2020-03-25 17:50:02 2256 8