自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

yangshaokangrushi的博客

原创 video bert & visual bert

最近需要处理一些多模态任务（图文匹配，caption等），需要用到多模态模型/算法。调研之后发现，目前处理此类问题的主流方法都是基于bert的多模态模型，因此总结一下学习过程中遇到的问题，以及自己对这些模型的理解。本文主要学习和记录一下video bert《VideoBERT: A Joint Model for Video and Language Representation Learning》这篇文章。读完这篇论文，给我的最大感受就是：为了让多模态数据（video和文本）能够同时输入到bert模型

2021-01-04 21:37:49 743 1

原创 edas上传过程中的一些错误

关于latex使用的一些教训总结：failed 1: paper has an average line spacing of 8.97 pt, but should have 10. You may need to increase your font size.1）当前上传的是scanned image 所以系统无法对文字进行检查，（英文忘记了，大概是这个意思）2）The gutter between columns is 0.19 inches wide (on page 2), but should

2020-05-14 21:34:08 2933 2

原创 ali笔试

题目描述：输入两个字符串s1, s2, 只能对s1进行一种操作，即可以将字符串中任意一个位置的字符移动到末尾0(1), 为s1转变为s2最少需要多少步。如 s1= acdks2 = dacks1=acdk -> cdka -> dkac -> dack 总共3次import sysfrom collections import Counterdef main(sou...

2020-03-27 12:31:23 195

原创 Python 中补码表示

《剑指offer》中有一道题：输入一个整数，输出该数二进制表示中1的个数。其中负数用补码表示。如果不是负数很好解决，用到如下技巧即可n = n & (n-1)即可把一个二进制数(此处的n)中最后一个1去掉。过程如下：比如 n = 3的时候，一般数都是用32位补码表示，此处为了解释上述公式，没有扩展为32位。当 n = 3时候其二进制为 0b11n & (n-1)...

2020-03-25 14:10:30 2833

原创 pytorch 迁移学习

迁移学习我们经常会用到，无论是CV还是NLP任务。在pytorch中主要通过如下方式进行：方式一：1）首先冻结不需要进行梯度更新曾的参数(减少计算）：class Net(nn.Module): def __init__(self, model, pretrained): super(self, Net).__init__() self.resnet = model(pretrai...

2020-03-08 19:35:21 315

原创 LeetCode 刷题指南

题号独立解决看答案解决（*代表看一次）完全无思路（？代表一次无思路） Brute force Recursion Divided and Conquer BFS DFS DP Binary Search Greedy Bits Operation stack queue hash ...

2020-03-02 18:36:27 188

原创 pytorch DataParallel理解及易犯错误（逻辑上感觉没问题，但是返回时候却出错）

本文只针对单机多GPU使用dataparallel进行加速运算。写在前边： dataparallel只存在于继承了nn.Modules类的forward()计算中。大致流程如下：import torchmodel = Net() #初始化模型for i, (input_datas, label_datas) in enumerate(data_loader): #step 1: 数据...

2020-02-26 23:22:57 6444 16

原创关于pytorch dataloader执行逻辑的理解

本文主要介绍dataloader 和dataset类之间调用逻辑的关系https://blog.csdn.net/wangdongwei0/article/details/88344806关键点：每个Dataset类可以通过索引获取数据 https://blog.csdn.net/lyb3b3b/article/details/83713820二dataloader通过 self.sam...

2019-11-30 15:54:50 257

原创 bottom-up attention features代码的一些笔记

mscoco 数据集的bottom-up attention的特征（目标检测的框对应的特征)trainval_resnet101_faster_rcnn_genome_36.tsv 或者 trainval_resnet101_faster_rcnn_genmoe.tsv下载地址为 https://github.com/peteanderson80/bottom-up-attention#dem...

2019-11-30 12:50:27 3084 10

原创 Mxnet利用loss层前的输出层做测试

Mxnet利用loss层前的输出层做测试无论是在分类，还是目标检测模型中，在测试的时候我们都会存在这样的需求：只输入图像数据(无标签)然后执行模型的前向计算，得到对应的分类结果或者目标检测结果。但是用训练过程中的模型，因为存在softmaxoutput等类似的层，需要传入label。接下来介绍一下，怎么使用训练好的模型和参数直接执行前向运算而不需要传入label。接下来以多分类为例举例说明：模...

2019-11-29 10:22:25 183

原创像素均值 opencv实现mxnet均值归一化

opencv 实现mxnet/pytorch 图像均值归一化在一般的图像预处理过程中都会对图像进行减去mean,除以std操作。例如mxnet 中 mean = nd.array([123.68, 116.28, 103.53]) , std = nd.array([58.395, 57.12, 57.375])。在使用imageiter或者imagerecordIter等构训练或者验证集的...

2019-11-27 17:18:27 806

原创二分类多分类多标签计算AP AR

二分类多分类多标签计算AP AR这几种分类模型的计算AP AR 过程基本一致比如有10个类别label为（0,1…9)predict\label0 (100)1234…0902313…1………所以类别1的accuracy=90/(90+2+3+1+3+…)类别1的recall=90/100注释：其中100为ground...

2019-11-27 16:53:27 1596

转载 linux

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。 ...

2019-11-13 21:53:45 63

原创 python 相对绝对import

Pycharm等python IDE中有如下目录结构：package1/ __init__.py SubPack1/ __init__.py module_11.py module_12.py module_13.py SubPcak2/ __init__.py modu...

2019-07-18 15:14:12 314

原创 Django2.2文档笔记

入门教程：第一节：请求和相应注释：此处的逻辑是首先会解析HTTP request的参数，即去掉域名和GET/POST参数，e.g. URLconf在处理请求https://www.example.com/polls/?page=3时候，会首先尝试匹配polls/。然后mysite/urls下的urlpatterns按顺序搜索，第一个path()函数正好匹配成功。然后将剩...

2019-07-18 13:21:31 295

转载 torchvision 两种数据集预处理

两种数据集：1. 所有图片都在同一个文件夹内。（这个用torch.utils.data.DataSet类就行！）2. 不同类别的图片放在不同的文件夹。（用torchvision.datasets.ImageFolder(‘image_dir_root’ )大部分任务的数据都是第一种吧，第二种一般是分类任务，比如imagenet数据集有1000类，对应1000个文件夹。目录...

2019-07-03 10:02:56 2289 1

原创 COCO image caption数据集格式

最近在做image caption的任务，因为有自己的数据集，因此需要自己创建字典、annotation等信息。而COCO官方针对coco image caption任务的数据集写了一个API接口（pycocotools包），因此如果想偷懒就老老实实按照coco image caption数据集的格式准备数据。否则自己写pycocotools接口，可能会出现各种各样的bug。因此我们应该首先看一下...

2019-07-03 09:45:33 7043 18

原创 python2.X 中文编码问题

鉴于github上很多深度学习代码都是用Python2.X写的，直接用Python3.X 可能因为软件包依赖问题导致很多bug，改的头晕眼花。但是Python2.X 因为Unicode和str内部编码问题，导致一遇到中文字符就会报这种错误(python3.x完美的解决了这个问题嘻嘻嘻，Python3.X大法好）。根据这几天改bug踩到的坑，总结一下。以供他日再次遇到只需！在用pytho...

2019-07-02 17:40:19 577

原创广播域冲突域 ping指令

最近上网络实验，发现本科学的计算机网络真的只是记住了OSI五层，其他什么东西都忘完了！话不多说就今天网络实验课程内容（主要是链路层协议），总结一下什么是广播域，冲突域，广播风暴，以及ping的工作原理。冲突域：众所周知以太网是采用 CSMA/CD即带冲突检测的载波监听多路访问技术(载波监听多点接入/碰撞检测)进行传输，这就导致同一时段只能有一个网络终端能够发送消息，否则将会导致混乱...

2019-03-13 21:54:41 654

原创如何理解RL中on-policy与off-policy

on-policy 和off-policy是强化学习中出现最多的两个概念，也是最容易让初学者迷惑的概念之一。网上很多博客都是从是否使用当前policy和其它policy角度出发解释的，但是笔者认为这样解释诚然正确但是总给人感觉看过之后还是茫茫然。今天我们就从另外的角度探讨一下他们两者的区别与联系。 On-policy methods attempt to evaluate or imp...

2018-03-31 22:48:12 15383 4

Reinforcement learning an introduction 2nd edition

sutton博士著作 Reinforcement learning第二版2017年最新版问世，此书涵盖了强化学习所有知识点与最新成果，非常值得认真学习

2018-03-31

TensorFlow 框架实战

TensorFlow作为目前最流行，功能最完善，用户量最多的深度学习框架，对于从业者是必不可少的了解应用工具

2018-03-30

机器学习实战

机器学习实战，其中有大量丰富的代码，对于想快速提高自己编程能力的人，此书值得认真研读

2018-03-30

一天入门深度学习

台大李宏毅教授，深入浅出的讲解什么是DeepLearning，其怎么work，已经如何工程实现。

2018-03-30

Reinforcement learning--an introduction second edition

sutton博士经典著作RL第二版终于问世了，想要系统深入了解强化学习的此书必不可少

2018-03-30

CNN_tutorial

详细讲解CNN基础知识，以及BP算法推导过程。以及CNN应用领域

2017-12-07

如何理解AlphaGo Zero背后涉及到的技术

详细讲解AlphaGo Zero背后涉及到的知识点，以及论文流程讲解分析。

2017-12-07

如何理解A3C算法

如何理解深度强化学习基本概念：value-based，policy-based，off-policy，on-policy。以及A3C算法

2017-12-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

jack_ya_ng CSDN认证博客专家 CSDN认证企业博客

码龄9年

IP 属地：北京市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

18: 原创

15万+: 周排名

160万+: 总排名

4万+: 访问

: 等级

639: 积分

11: 粉丝

28: 获赞

52: 评论

90: 收藏

私信

关注

热门文章

分类专栏

最新评论

video bert & visual bert
CSDN-Ada助手: 非常感谢CSDN博主分享关于video bert和visual bert的文章，这两个技术在视频处理和图像处理方面都有很好的应用。我觉得下一篇博客可以继续深入探究图像处理方面的技术，比如基于CNN的图像分类方法，以及最新的GAN图像生成技术。这样的技术文章对其他用户学习图像处理和计算机视觉都会有很大的帮助。相信会有更多读者受益于这样的深入分析和探究。期待您的下一篇精彩文章！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
COCO image caption数据集格式
diaiaLi: 你好，想请教下annotation中关于caption的'id'的生成，一张图片5个caption是同张图片的5个caption需要5个id吗，最近卡在这里导致生成的词的数量不对
COCO image caption数据集格式
iiitachi258: 同求看了很多都没有关于这个方面的
bottom-up attention features代码的一些笔记
moon4869: 你好，item['boxes']为对应检测框的位置信息，具体的值好像是左上角和右下角的坐标？而不是左上角坐标和box的宽高？
pytorch DataParallel理解及易犯错误（逻辑上感觉没问题，但是返回时候却出错）
zhaoliang照亮你: 你好，请问可以交流一下这个问题嘛

最新文章

提示

确定要删除当前文章？

取消删除