chenxp2311-CSDN博客

原创 SSD: Signle Shot Detector 用于自然场景文字检测

之前我在论文阅读：SSD: Single Shot MultiBox Detector 中，讲了这个最新的 Object Detection 算法。既然 SSD 是用来检测物体的，那么可不可以将 SSD 用来检测自然场景图像中的文字呢？答案肯定是可以的～同时，受到浙大 solace_hyh 同学的 ssd-plate_detection 工作，这篇文章记录我自己将 SSD 用于文字检测的过程。

2016-10-18 21:21:37 30526 85

原创豆豆叶：机器学习与我的学术日常

之前因为没有得到豆豆叶学长的授权就把他这次 Live 的内容发出来，我在此再次抱歉。所以我之前的那篇文章已经被我删除了。这次的发表已经得到豆豆叶学长的授权，并且豆豆叶学长也检校过了。因此，我再次发出来，希望能够对你的学习有所帮助，谢谢豆豆叶学长：对这篇文章的转载需要得到授权，谢谢！

2016-09-29 16:41:58 9632

原创相比于深度学习，传统的机器学习算法难道就此没落了吗，还有必要去学习吗？

应 CSDN 运营朋友之邀写了一篇观点文章，作为一个刚刚入门的小硕，虽然不才，但厚着脸皮，发表一下自己浅薄的看法。

2016-09-24 10:53:19 45345 1

原创论文阅读：SSD: Single Shot MultiBox Detector

这篇 ECCV 2016 的文章，在既要保证检测速度，又要保证精度的情况下，提出了 SSD: Single Shot MultiBox Detector 物体检测模型。与现在流行的检测模型一样，将检测过程整个成一个 single deep neural network。便于训练与优化，同时提高检测速度。

2016-09-19 23:23:58 102909 62

原创离线下载安装 NLTK 的 nltk_data 模块

离线安装 nltk_data 模块

2017-03-19 13:45:01 23983 4

原创编译 OpenCV 避免下载 linux-64-opencv-2.4.11-nppy27_0.tar.bz2

在编译 OpenCV 3.2.0 的时候，在 ./configure 时候，会因为缺少一个文件：linux-64-opencv-2.4.11-nppy27_0.tar.bz2这时候，程序会自动下载。但如果我们在没有翻墙的情况下，常常下载超时。因此，我们可以离线下载下来，再 ./configure。离线下载地址：https://raw.githubusercontent.com/opencv/open

2017-03-17 01:33:31 3126

原创在 anaconda 中离线安装 cv2 模块

离线安装 cv2 模块

2017-03-16 22:03:51 10236

原创将 MVAD 的标注数据转成 CSV（Youtube Clips 的数据格式）

讲 MVAD 数据集的标注格式，转换为 YouTube Clips 的格式。

2016-11-23 19:05:55 3946 4

原创 python tools：计算视频的 FPS，以及总帧数

两个目的，一是用 FFmpeg、CV2 来计算视频的总帧数；二是用 CV2 来计算视频的 FPS，即每秒传输速率。

2016-11-23 18:32:13 50381 2

原创 python tools：将视频的每一帧提取并保存

最近在做 video caption 相关，要处理大量视频。今天碰到一个问题，就是要将 YoutubeClips 数据集中的 avi 格式的视频，将其视频中的每一帧提取出来。

2016-11-21 23:37:10 52666 4

原创日常笔记：python（2）

Preface日常纪录自己所查所用，为日后回忆留个方便，也给碰到类似问题的童鞋留个小参考。不知不觉，进行到第二弹了，之前的日常笔记：Python（1）已经比较冗余了。开一个新的吧，作为（2）。

2016-11-16 19:49:16 5926

原创日常笔记：Linux（Ubuntu） and shell

这里记录一些平常使用 Linux 的笔记，以及写的一些日常 shell 脚本。不积跬步无以至千里，不积小流无以成江海。以前都是零散的，用什么 google 什么，这里有自己的记录，以后方便自己，方便他人。

2016-11-06 16:16:45 2554

原创将 Street View Text 数据集的 GroundTruth 标注在图像上

自然场景图像，Street View Text 数据集是非常著名的一个数据集。所有的图像都源自于 Google Street View，这里面的图像分辨率较低，文字变化较大。数据集给定的 ground truth 是两个 XML 文件： train.xml、test.xml。本文将 XML 中的 ground truth 信息，标注在原图像中。

2016-10-26 15:41:56 9377 2

原创 LeetCode: Reconstruct Original Digits from English

这道 LeetCode 上的题目，还是有点难度，有点意思的。就是要把给定的字符串中的英文，组合成 0,1,2,3,4,5,6,7,8,90,1,2,3,4,5,6,7,8,9 这几个数字的英文，再按升序将数字输出。

2016-10-16 16:49:59 3271

原创 LeetCode: Valid Word Square

这是 LeetCode 上的一题目：Valid Word Square

2016-10-16 11:29:35 3733

原创 LeetCode: 字符串转换到整数

LeetCode 题目：将字符串转换到整数

2016-10-16 11:15:01 2810

原创 YouTube-8M 数据集简介

Google 公布了一个大型的视频数据集：YouTube-8M 视频数据集。这个数据集包含 8,000,000 万个 YouTube 视频链接，同时有 4800 个标注的 knowledge graph entity（知识图谱实体）。

2016-10-06 11:07:46 53434 2

原创 Open Image 数据集简介

Google 又放出了一个大新闻： Open Image 图像数据集，包含 900 万张机器标注的 image-level 的图像数据。数据基本来自 flickr，其中验证集经过了人工检校。

2016-10-01 16:32:39 40792 6

原创将 ICDAR 2015 的 Ground Truth 标注在图像数据上

要标注数据，数据集是 ICDAR 2015 比赛中的 Challenge 4: Incidental Scene Text。将 ground truth 的四个坐标标注在原图上，形成一个boxes。

2016-09-30 10:45:32 17441 11

原创论文阅读：You Only Look Once: Unified, Real-Time Object Detection

这篇今年 CVPR 2016 年的检测文章 YOLO，我之前写过这篇文章的解读。但因为不小心在 Markdown 编辑器中编辑时删除了。幸好同组的伙伴转载了我的，我就直接考过来了。以后得给自己的博文留个备份。

2016-09-23 19:07:11 32562 22

原创 Linux 中 bashrc 中的 rc 是什么意思

刚刚配置 .bashrc 文件时，突然想，这里面的 rc 是什么意思？使用了这么长时间，这个都不知道，这是醉了。Google 之，还真有不少人探究过，哈哈。这个 ubuntu 中文论坛里，有人回答过： rc 是取自 runcom, 来自麻省理工学院在 1965 年发展的 CTSS系统。相关文献曾记载这一段话: 具有从档案中取出一系列命令来执行的功能；这称为 run c

2016-09-21 19:45:16 10869

原创读书：智能时代 - 大数据与智能革命重新定义未来

之前发过一次，但不知怎么的，那篇文章没了。重新整理了下，重发一次。我在逻辑思维上买的吴军的新书：《智能时代 - 大数据与智能革命重新定义未来》到了。花了近一天时间，一口气读完了。感觉书还是不错的，一开始买这本书，是因为逻辑思维上为这本书宣传的观点：吴军博士判断，稳定社会状态里的二八法则都不再适用，只有 2% 的人能够完成跨越，其余 98% 的人都可能陷入或迟或早被人工智能替代的担忧。

2016-09-08 23:00:45 4428

原创论文阅读：Synthetic Data for Text Localisation in Natural Images

重新把注意力放到了自然场景文本检测与识别上了。已经从这块方向离开了一年多了。再回来，已经物是人非。都不像以前那么玩了，论文赶紧看起来。上次阅读完 Reading Text in the Wild with Convolutional Neural Networks 之后，文中提到了作者自己生成了 Synthetic Data（人工合成自然场景文本数据）。

2016-08-31 22:24:01 15514 6

原创利用 caffe 接口构建 CNN 网络

我的研究重点原本是在 Torch 上，我也很喜欢用 Torch 去实现网络。但最近不得不转到 caffe 上。在实现上篇博文：论文阅读：Reading Text in the Wild with Convolutional Neural Networks 的代码时，在 Bounding Box Regression 部分，需要用 caffe 来实现这个网络。而一开始我构建论文中提到的这个 CNN

2016-08-29 14:53:59 3584

原创论文阅读：Reading Text in the Wild with Convolutional Neural Networks

来自 VGG 实验室，发表在 IJCV 上。实验步骤分为两部分，基于 region proposal mechanism 的检测文字部分，以及基于 CNN 的文字识别部分。在第一部分的 region proposal 部分，首先保证较高的 recall，尽量把所有可能的文字区域先检测出来；然后经过一个 filtering 阶段，保证文字检测的精度。在第二部分的 word recognition 部分，不同于传统的

2016-08-27 21:41:51 7289 11

原创 CCF ADL70：机器学习前沿

Preface这个月的 20~22 号，我参加了中国计算机协会举办的《机器学习前沿》讲习班。开会地点是在广州的广东外语外贸大学，地处广州白云山的山脚下，环境挺美的。三天里，共有 5 位讲者在大会上分享他所研究领域的前沿。第一个分享者是清华大学的朱军老师，讲的是贝叶斯学习前沿；第二个分享者是香港科技大学的 James Kwok 老师，讲的是统计学习前沿；第三个分享者是华为若亚方舟实验室

2016-08-24 10:57:27 4439 11

原创日常笔记：LaTeX

LaTex 笔记

2016-08-01 16:16:46 2994

原创 Torch 中的引用、深拷贝以及 getParameters 获取参数的探讨

这段时间一直在苦练 Torch，我是把 Torch 当作深度学习里面的 Matlab 来用了。但最近碰到个坑，把我坑的蛮惨。所以这部分就不放在之前的博文 Code Zoo - Lua & Torch 中了，单独拎出来。

2016-07-30 15:48:14 12819 1

原创 Triplet Loss、Coupled Cluster Loss 探究

因为要区分相似图像，所以研究了一下 Triplet Loss，还有今年 CVPR 的一篇文章：《Deep Relative Distance Learning: Tell the Difference Between Similar Vehicles》，这篇文章提出了 Coupled Cluster Loss 。文章的主要内容在之前的阅读笔记已经叙述过了，文本主要集中于对这两个损失函数的实验。

2016-07-25 20:49:46 15897 27

原创日常笔记：vim

终于要学习 vim 了…为什么要学习 vim？想想看，当你有一个 100M 的 TXT 文档需要编辑的时候……你相用文本编辑器做？孩子…那速度得等到天荒地老…这里记录一下我的 vim 学习过程、笔记。

2016-07-24 16:47:06 925

原创 Torch 中添加自己的 nn Modules：以添加 Dropout、 Triplet Loss 为例

因为要复现前面阅读的一篇论文：《论文笔记：Deep Relative Distance Learning: Tell the Difference Between Similar Vehicles》中提到的用来区分相似图像的两个损失函数：Triplet Loss、Coupled Cluster Loss 。上面的那篇论文没有提供源代码，因此得自己去写这两个损失函数模块。

2016-07-20 11:05:04 9504 5

原创将 Mac OS X 系统的 C、C++ 编译器从默认的 Clang 切换到 GCC

OS X 系统编译器用的是 Clang。但是编译很多工具，如 Caffe，Clang 编译器会产生很多 warning 以及 error。虽然说 Clang、LLVM 啥的甩 GCC 几条街，但是我不想在这里浪费时间。但是该怎么切换了，我之前也尝试过，没成功。今晚又一次尝试了，终于成功了。记录下来，一是可以给也想改变的人参考，二是以后再切换回 LLVM 的 Clang 的时候，有个参考。

2016-07-19 01:10:23 61019 8

原创 Caffe: MNIST 数据集格式转换、用 python 读写 LMDB 数据库

Preface这两天概览了一下卜居（赵永科）的《深度学习 21天实战caffe》，进入深度学习挺长时间的了。文章也看了不少，Caffe、Theano、Torch 也都用过。其实个人认为，这本书对于已经深入这个领域已定时间的人来说，帮助不大。本书讲述的只是“术“，有点像深度学习的说明书，讲的很浅。但是翻了一翻，还是有点收获的，这个 MNIST 手写数字识别是深度学习入门很经典的例子。基本上所有的深度学

2016-07-15 10:34:11 13890 5

原创日常笔记：Lua & Torch

Code Zoo，这个名字取自于深度学习框架 caffe 中著名的模型集合：Caffe Model Zoo。就是想把我平时用 Torch 时做深度学习时，写的 Lua 代码，如脚本工具、Lua 和 Torch 中的处理函数、使用过程中跳进去的坑…整理集中起来，供以后参考，也给需要的同学一点线索。

2016-07-14 23:22:04 13836 1

原创日常笔记：Python（1）

Code Zoo，这个名字取自于深度学习框架 caffe 中著名的模型集合：Caffe Model Zoo。就是想把我平时写的一些代码，如脚本工具啊什么的，整理集中起来。供以后参考，也给需要的同学一点线索。

2016-07-14 20:02:58 2202

原创论文阅读：Comparative Study of Deep Learning Software Frameworks（ caffe、Neon、TensorFlow、Theano、Torch 之比较）

这是我为本周例会准备的内容。最近不少人问我哪个开源框架好用，我自己用过 caffe、TensorFlow、Theano、Torch，用过后有一定的感觉。但很多东西需要实验来具体的验证。正好我看到《Comparative Study of Deep Learning Software Frameworks》，对Caffe、Theano、Torch、Neon和TensorFlow这5个框架作了对比，这是我阅读笔记。

2016-07-02 12:28:53 4243 2

原创论文阅读：Deep Relative Distance Learning: Tell the Difference Between Similar Vehicles

CVPR 2016 的论文：《Deep Relative Distance Learning: Tell the Difference Between Similar Vehicles》，阅读笔记。

2016-06-29 15:40:18 10194 3

原创一个矩阵的所有子矩阵最大和问题、Kadane算法

今天早上刷微博，看到LeetCode中国微博发了一道题：《找到一个矩阵中所有子矩阵的最大和》，已经好久没做题练练手了，于是想试试。LeetCode上，该题目的地址为：https://leetcode.com/problems/max-sum-of-sub-matrix-no-larger-than-k/Analysis，这篇是对讨论区一个大神给的代码及其解释的解读，以及自己的注释、心得。

2016-06-22 15:39:56 9976

原创日常笔记：git

Preface 其实自己也用了好久好久的 Git 了，但是都是零零碎碎的，不成系统。这篇博客就是记录我学习使用 Git 的笔记吧，一是方便自己查阅，同时也希望可以帮到你。无特殊声明，我都是在Linux环境下进行操作。中间参考了网上其他人的笔记或者教程，我会在后面注明。这篇博客会保持更新。^_^Notes在进行 Git 操作之前，我们要切换到 Git 仓库目录下。这时候

2016-06-16 22:45:39 688

空空如也

空空如也