richard2357-CSDN博客

原创 PCA主成分分析

今天来讲下PCA，如果大家对多元统计分析和矩阵形式比较熟悉的话，看起来会很轻松。假设表示n个样本，每个样本包含p维特征。则数据集的协方差矩阵为其中为每维特征的均值。我们希望协方差矩阵是对角化的，这样就表示每维特征是不相关的。但是实际上并不是对角化的。所以我们需要用PCA来预处理数据，使变换后数据的协方差矩阵式对角化的。PCA实际上就是将X做变换，投影到另一组标准正交基U=(u1,u

2015-03-26 19:37:00 961

原创 Hey! 来试试我做的音乐检索吧！

前一阵子做了一个音乐检索的系统，现在已经被酷狗公司买下（只换来码农几个月工资。。），所以大家现在用的手机app酷狗搜歌就是我做的，每天有数万计的人在使用，想想还有点小激动呢。专利已被google检索，看专利请猛戳https://www.google.com.hk/patents/CN103853836A?cl=zh&dq=%E9%9F%B3%E4%B9%90%E6%A3%80%E7%B4%A2

2014-09-14 10:15:08 1229 2

原创 LSHKIT库源码编译

最近在研究LSH(局部敏感哈希,local sensitive hash)，在海量

2014-08-07 22:33:19 1623 3

转载 contrastive divergence 算法

原文链接在这里http://blog.sina.com.cn/s/blog_5980285201014pwy.html把 >这篇论文看了一遍，其实只看了一半觉得PoE和contrastive divergence以及RBM学习算法这部分可以过了主要意思是这样的：1.RBM是PoE的一个特例2.PoE可以用contrastive diver

2014-04-12 15:36:41 2043

原创 Hopfield神经网络

1982年，生物物理学家J.Hopfield提出了一种新颖的人工神经网络模型——Hopfield网络模型

2014-04-08 15:52:00 13308

原创 UFLDL学习笔记7（Working with Large Images）

最近在学习UFLDL Tutorial，这是一套关于无监督学习的教程。在此感觉Andrew Ng做的真的是非常认真。下面把我的代码贴出来，方便大家学习调试。所有代码已经过matlab调试通过。Convolution and Pooling本章是使用卷积神经网络进行分类。分类的图片有四种：飞机、汽车、猫、狗（如图1）。每幅图像的大小为64*64*3（彩色）。train图片2000

2014-01-21 20:04:23 2726

原创 UFLDL学习笔记6（Linear Decoders with Autoencoders）

最近在学习UFLDL Tutorial，这是一套关于无监督学习的教程。在此感觉Andrew Ng做的真的是非常认真。下面把我的代码贴出来，方便大家学习调试。所有代码已经过matlab调试通过。Linear Decoders with Autoencoders这一章是第一章Sparse Autoencoder变化版。第一章的Sparse Autoencoder两层都用的是

2014-01-19 15:57:54 1756

原创 UFLDL学习笔记5（Building Deep Networks for Classification）

最近在学习UFLDL Tutorial，这是一套关于无监督学习的教程。在此感觉Andrew Ng做的真的是非常认真。下面把我的代码贴出来，方便大家学习调试。所有代码已经过matlab调试通过。Building Deep Networks for Classification练习这一章是用fine-tune的多层网络进行mnist数字的识别。特征提取层使用unlabeld数据

2014-01-19 13:51:02 2427 1

原创 UFLDL学习笔记4（Self-Taught Learning and Unsupervised Feature Learning）

最近在学习UFLDL Tutorial，这是一套关于无监督学习的教程。在此感觉Andrew Ng做的真的是非常认真。下面把我的代码贴出来，方便大家学习调试。所有代码已经过matlab调试通过。Self-Taught Learning and Unsupervised Feature Learning练习这一章实际上是把Sparse Autoencoder和Softmax R

2014-01-13 20:13:02 2859 1

原创 UFLDL学习笔记3（Softmax Regression）

最近在学习UFLDL Tutorial，这是一套关于无监督学习的教程。在此感觉Andrew Ng做的真的是非常认真。下面把我的代码贴出来，方便大家学习调试。所有代码已经过matlab调试通过。第三章 Softmax Regression这一章讲的是用softmax（实际就是logistic回归的多类版）来进行mnist手写数字的分类。我们知道，logistic和softma

2014-01-13 16:43:28 9428 13

原创 UFLDL学习笔记2（Preprocessing: PCA and Whitening）

最近在学习UFLDL Tutorial，这是一套关于无监督学习的教程。在此感觉Andrew Ng做的真的是非常认真。下面把我的代码贴出来，方便大家学习调试。所有代码已经过matlab调试通过。PCA是一种用来降维的方法。个人推荐看Pattern Recognition And Machine Learning的第十二章作为辅助。该书写的极为详细。UFLDL上有两个练习。建议先做pc

2014-01-11 21:43:24 3020 1

原创 UFLDL学习笔记1（Sparse Autoencoder）

最近在学习UFLDL Tutorial，这是一套关于无监督学习的教程。在此感觉Andrew Ng做的真的是非常认真。下面把我的代码贴出来，方便大家学习调试。所有代码已经过matlab调试通过。Sparse Autoencoder练习说实话这一节我调了好几天才弄出来。期间一度想放弃从网上找代码，但最后还是坚持下来了。在此建议大家自己写代码，我的代码仅作为参考。如果自己写收获会非常多。

2014-01-11 18:35:05 3602 3

原创概率图模型 conditional independence 一览表

概率图模型的独立和条件独立性质是非常重要的，为了方便以后查阅，特将这些性质记录下来。参考的第八章参考文献【1】【2】其它图模型的资料....

2013-12-17 17:45:59 1409

原创 logistic regression 逻辑斯蒂回归（两类）

logistic regression 从字面上就可以看出，分类实际上也是一种特殊的回归。其与linear regression的不同是输出增加了一个非线性映射，映射到0-1，从而可以利用概率进行分类。分类问题有很多种模型，包括logistic regression，SVM支持向量机，神经网络等等，logistic是分类问题中最基本的内容。很多教材上也有讲到。但是对logistic函数的来龙去

2013-12-14 10:42:58 2786

原创 linear regression 线性回归

本篇讲述linear regression线性回归模型。参考资料为http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course=MachineLearning中的第二节。这个网站很好的是同时提供了源代码，可以直接在matlab上跑。因为之前比较了解，所以视频是跳着看的。同时参考了<pattern analysis and

2013-12-09 14:32:21 1886

原创 MFCC梅尔倒谱系数

MFCC梅尔倒谱系数是说话人识别、语音识别中最为常用的特征。我曾经对这个特征困惑了很久，包括为什么步骤中要取对数，为什么要最后一步要做DCT等等，以下将把我的理解记录下来，我找到的参考文献中最有价值的要数【1】了。是CUM一个教授做的PPT。整个流程如下：时域的波形图如下图1. 时域波形图第一步获得语谱图，语谱图是一个非常有力的工具，因为人耳就是进行的频

2013-12-05 20:09:26 16446 11

原创 exponential family

在机器学习中，几乎到处都可以见到exponential family的影子。从伯努利分布，高斯分布，logistic回归，最大熵，都与exponential family息息相关。找了很久的资料，后来发现来自【1】中的讲解最好最清楚。本文是对其的摘录和理解。exponential family定义其中pdf指probability density function， pmf

2013-11-26 19:04:01 4301 1

原创 Deep Learning 开发工具Theano安装配置

Theano是一个非常好的Deep Learning工具。按照官网的教程配置出了点问题，捣鼓了很久总结如下。官网指南：http://deeplearning.net/software/theano/install.html#install安装Theano我的环境：64位 windows 71. 安装Anaconda，这是一个python的超集，里面包含了python2.7，

2013-11-26 13:45:55 7193

原创卷积神经网络CNN

近来在了解深度学习。深度神经网络的一大特点就是含有多隐含层。卷积神经网络（CNN）算是深度神经网的前身了，在手写数字识别上在90年代初就已经达到了商用的程度。本文中将简要介绍CNN，由于相应的博文资料已经很多，也写的很好，本篇最有价值的是参考资料部分。前向神经网络数字识别假设我们的图片是28*28像素的，使用最简单的神经网络进行识别，如图1图1输入层是像素值（一般使用黑

2013-11-23 18:02:29 3467 1

原创 TDNN时延神经网络

近来在了解卷积神经网络（CNN），后来查到CNN是受语音信号处理中时延神经网络（TDNN）影响而发明的。本篇的大部分内容都来自关于TDNN原始文献【1】的理解和整理。普通神经网络识别音素在讲TDNN之前先说说一般的神经网络的是怎样识别音素的吧。假设要识别三个辅音"B", "D", "G"，那么我们可以设计这样的神经网络：图1其中输入0-12代表每一帧的特征向量（如1

2013-11-23 11:14:44 37320 5

原创 SOM自组织神经网络

SOM自组织神经网络是神经网络的一种。个人感觉属于仿生学的一种方法。这种网络是基于生理学和脑科学研究成果提出的。与前向神经网络不同，它是一种无监督的学习。适用于数据聚类。应用：数据聚类，数据降维（如映射高维数据到2维平面）SOM自组织神经网络是两层结构，包括输入层和竞争层。为什么要用这种结构？因为Kohonen根据生理学的发现，认为神经网络在接受外界输入时，将会分成不同的区域，不同的区域对

2013-11-22 14:00:59 26761

原创最大熵模型

最大熵模型一直困惑了我很久，直到最近看了exponential family才明白。最大熵解的形式属于exponential family。第一部分首先考虑一个问题：给定一些样本，求估计p(x)的分布。根据最大熵模型，这个问题可以写成最优化问题：其中为经验分布，表示样本中X=x出现的概率。下面给出最大熵的大白话定义：为了估计随机变量p(x)的分布，在给定限制

2013-11-20 11:49:53 3431

原创充分统计量

参考以下链接：http://liuhongxun.blog.163.com/blog/static/98763420064141052500/http://wenku.baidu.com/link?url=RTUMj4vYenz69ycdNe0qlvS701gVAoDt0v3XKvWdfvwtUd_41HWYGXjI05dJcTFiNE2CuThx8yvJOV2XTPK-zGuhSVZ

2013-11-19 17:17:20 1134

原创熵

最近为了学习最大熵模型，整理了一些熵的资料，深入理解了一下熵。目录：0.引言1.克劳修斯熵2.波尔兹曼熵3.香农熵4.三种熵的关系5.联合熵6.条件熵 0.引言。香农熵的定义：这个式子大家应该都熟悉。但为什么要这样定义？为什么会有一个log出现？下面我们来一步步揭开疑惑。 1.1854年克劳修斯提出熵的热力学定义。【1】注意这条

2013-08-04 11:55:10 1402

原创支持向量机（三）

在第一篇中讲到了支持向量机实际上就是求解这样一个最优化问题：其中约束条件要求每个点都必须被正确分类。但在实际数据中，数据集常常并不是线性可分的。以及会有噪声点等情况，如图1。这时1是无解的。这时我们需要引入松弛变量来解决这个问题。图1线性不可分意味着存在某些样本点(xi, y

2013-06-18 10:00:36 959

原创支持向量机（二）

为什么要引入对偶呢？其原因有二：1.解原始问题是困难的，而对偶问题相对容易。2.通过对偶，可以自然引入核函数对偶：对偶是一个很宽泛的概念，是一种方法。常常求解对偶问题比原始问题要容易。如证明成立与证明非A不成立是对偶。>=与

2013-06-18 09:21:22 1474 4

原创支持向量机（一）

本篇是学习SVM的初学讲义，希望能够对大家有所帮助。SVM涉及到很多拉格朗日对偶等最优化知识，强烈推荐大家学习《最优化计算方法》，不然理解SVM会遇到很多困难。学习之前强烈推荐先玩一玩林智仁的svm-toy.exe，对理解SVM很有帮助，链接在http://download.csdn.net/detail/richard2357/5382093 好了，接下来我们开始SVM的学习。在本文

2013-06-17 22:40:55 1515

richard2357的专栏