自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

avis_ma的博客

原创论文阅读笔记（audio-visual相关）—Co-Separating Sounds of Visual Objects

本文是2019 ICCV的文章。论文地址：http://vision.cs.utexas.edu/projects/coseparation/coseparation-iccv2019.pdfCode：https://github.com/rhgao/co-separation本文作者还有一篇文章是投在CVPR 2019的，用的是相同的框架，但是解决的问题不同，可以参考来看。论文：http://openaccess.thecvf.com/content_CVPR_2019/papers/Gao_2.

2020-05-15 21:37:20 848 4

原创论文阅读笔记（audio-visual相关）—Music Gesture for Visual Sound Separation

本文是CVPR 2020 的一篇文章。网络框架如下：网络的思想是基于现有的声音分离模型中base方法-使用U-net进行预测与视觉相关的音频部分的mask，然后将其作用在原始频谱上，然后分离对应音频频谱。作者是在base基础上，深挖了视觉部分的可用信息——人体姿态信息。因为作者将音频分离任务具体到乐器演奏的分离上，而乐器演奏是离不开演奏者的，并且演奏者的姿态和动作（主要体现在肢体和手部）会直接影响所演奏的音乐，所以作者在视觉部分深挖了关于人体姿态的信息，以此来更好的指导音频分离。下面具体说一下网络

2020-05-15 20:59:25 821

原创 Torch模型迁移到Pytorch

最近要做一份工作需要复现一篇论文的结果，但是论文的source code是lua语言，torch7框架的，所以自己在学习语言和搭建环境上花费了比较多的时间，最后网路也没调通，身边也没找到有接触过lua+torch使用的人，因此咨询了大神，可以将torch的模型迁移到pytorch上。因此打算将这一段时间的工作写在博客上记录起来，方便自己后面查阅。lua+torch安装lua和torch的安...

2020-02-06 17:52:22 496

原创一点说明

本人是2019级的computer vision方向的研究生，由于是跨考上的研究生，关于一些基础知识的问题了解的不多，也不够深刻。写这些博客的目的是为了整理自己的学习记录，让自己能够在一些东西记忆不够清晰的时候有本可查，当然这些记录能够帮助到一些和我同样刚刚迈入CV领域的人就最好不过了。有一些学习的资料，还有一些论文阅读的笔记，这里面有一些是我自己...

2019-08-12 16:51:30 148

原创论文阅读笔记（visual relation相关）—Exploring Visual Relationship for Image Captioning

《探索图像描述的视觉关系》这是京东AI研究院被2018ECCV收录的一篇关于图像描述的文章。这篇文章提出了一种新的模型，是GCN+LSTM的结构，整合了语义信息和空间位置信息到图像编码器。 image caption问题的典型解决方案是受机器翻译启发的，相当于将图像翻译为文本。图像中的物体可能有各种尺度，可能在图像中的任意位置，以及他们是不同的类别，这样就比较难以确定关系的...

2019-08-12 16:42:34 1154 3

原创论文阅读笔记（visual relation相关）—Natural Language Guided Visual Relationship Detection

\quad关于关系检测，主流的做法从短语检测开始，因为分类器数量庞大，并且数据集的长尾问题，而被取代。\quad第二种策略就是进行拆分，按照第一篇文章的思想，将object和predicate拆分，分别进行检测，如此可以显著降低分类器数量。但是这样做，object和predicate之间的语义联系就被忽略了。因此将关系进行分类，使用同一种predicate的relationship被归为同一类...

2019-08-12 16:30:28 476 3

原创论文阅读笔记（visual relation相关）—Visual Relationship Detection with Deep Structural Ranking

AAAI 2018 视觉检测任务都是按照<subject, predicate, object>来进行建模的。主要两类挑战：一是数据不足，没办法对所有的关系进行数据标注，并且上一篇论文中所说的分类器数量庞大，并且因为数据分布不均导致的长尾问题，都是需要面临的挑战。二是数据集的关系标注不完整。只标注了一部分对象对之间的关系，或者是标注的对象对的关系不全，可能有多种关...

2019-08-12 16:24:49 879

原创论文阅读笔记（visual relation相关）—Visual Relationship Detection with Language Priors

Visual Relationship Detection with Language Priors （ECCV 2016）视觉关系主要是关于图像中，对象与对象之间的各种相互作用。视觉关系检测包含检测图像中的对象，定位，并对于两者之间的predicate或者是interaction进行分类。但是由于对象的个数本身已经很多，关系的种类也非常多，那么如果按照<subject，p...

2019-08-12 16:17:12 1150

原创整理知识（2）关于CNN网络资料整理

CNN网络相关知识1.卷积神经网络CNN总结https://www.jianshu.com/p/13bc52d82287?utm_campaign=haruki&utm_content=note&utm_medium=reader_share&utm_source=qq2.卷积神经网络(CNN)反向传播算法(https://www.cnblogs.com/pinar...

2019-08-12 16:04:06 95

原创整理知识（1）关于一些定义

关于一些定义1.arg的含义2. 矩阵求导计算3. MAP （Mean Average Precision）4. recall 召回率5. 卷积6. 点积点乘外积7. 深度学习中的batch、epoch、iteration的含义1.arg的含义是变元（即自变量argument）的英文缩写。arg min 就是使后面这个式子达到最小值时的变量的取值arg max 就是使后面这个式子达到最...

2019-08-12 16:01:05 365

核心素养视域下初中道德与法治情景创设实践探索.pdf

摘要：自2016年起，将义务教育小学和初中起始年级“品德与生活”“思想品德”教材名称统一更改为“道德与法治”，这个课程的开设对学生的思想认知、品德素养的培养有很大的益处，培养了学生正确的生活观、价值观和社会观。而且在初中道德与法治情景创设中，核心素养是发挥着尤为重要的作用的，核心素养是现如今教育时代的最新要求，一个学科的核心素养就是这个学科的灵魂所在。本文即是描述核心素养视域下初中道德与法治情景创设实践的优势以及其实践探索的策略

2020-04-16

iclr_2019会议笔记.pdf

iclr2019会议笔记，每日的主题，关键点整理，以及一些在人工智能领域未来可以做的方面的整理。

2019-08-12

lua+torch7安装svm包出错：/usr/bin/ld: cannot find -lluajit

2020-02-10

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除