自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(67)
  • 收藏
  • 关注

转载 机器学习中的相似性度量

在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。  本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯

2015-09-21 16:12:20 676

原创 隐马尔科夫模型(HIDDEN MARKOV MODEL)

1.0  问题的提出假设有一个房间,一个人在房间里投掷硬币,你在房间的外面,只能看见结果,例如:TTHTHHTT(T代表反面,H代表正面),这个结果被称为观察序列,但是你却不知道房间里的人是一直在投掷一个硬币,还是投掷不同的硬币,你也不知道硬币是均匀的,还是有偏差的。下图给出四个例子,a代表投掷一个均匀的硬币,b代表两个均匀的硬币,c代表两个有偏差的硬币,d代表三个有偏差的硬币。可

2014-12-20 18:19:30 1074

原创 独立成分分析(Independent Components Analysis)

首先我们对ICA算法做一些形式化的描述:ICA是用来分离混合源的技术。所以我们准备先混合,再分离,我们定义两个独立的源,上面的称为A,下面的称为B,代码如下: 1然后我们将其线性混合,上面的为A - 2*B下面的为1.73*A+3.41*B2之后使用fastica函数,就将两个源分开了:3完整的工程在这里下载:http://research.ics.aalto.fi

2014-11-08 20:23:27 3283 1

原创 隐含语义索引(Latent Semantic Indexing )

向量空间模型(Vector Space Model)将文本看作是一个向量,向量中的每一维都代表某单词是否出现在文本中,使用向量空间模型的pca算法时并不做规约化,因为文本里的每一条不一定有同等的作用。向量空间中紧挨着的文本,我们认为他们讨论的是同一类的问题:其中有三个基础的性质:1.      d1挨着d2,那么d2挨着d12.      d1挨着d2,d2挨着d3,那么d

2014-11-07 23:37:14 2604

原创 主成分分析(Principal Component Analysis)与 奇异值分解(Singular Value Decomposition)

主成分分析(Principal Component Analysis)我们来形式化的描述一下PCA的思想1图中描述了一组二维的数据,但同时我们可以看出在u1方向上的数据已经可以描述数据集的大部分的信息,因此可以将二维的数据映射到u1方向上,实现降维。在实现pca算法之前要进行一些预处理:1.      计算数据的均值22.      将每一个数据减去均值3这两步规约化了

2014-11-07 18:32:40 1470

原创 k-means

我们先展示一下k-means方法的过程:如图给出一个数据集:1.我们猜测它可以被分为5类,因此我们初始化k=5,然后我们随机设置5个中心点22.将数据与最近的中心点相匹配:33.所有分为一类的数据重新计算中心点(均值):44.循环2,3过程直至收敛5让我们审视一下整个的收敛过程:6

2014-11-01 19:14:47 724

原创 特征选择(Feature Selection)

交叉验证直接介绍k折叠交叉验证(k-fold cross validation):11.      特征选择1.1      相关系数先考虑对连续的输出y进行预测,皮尔森相关性系数为:2Cov代表协方差,var代表方差,R(i)的估计定义为:3相关性系数描述了xi与y之间的相关性,如果R(i)等于1或者-1,则xi与y线性相关。所以,我们可以用4作为特征排列的一

2014-10-28 22:40:30 4665

原创 偏差与方差(Bias and Variance)

1我们将从三个方面阐述偏差与方差。(Bias and Variance) 1.1概念性的定义基于偏差的误差:所谓基于偏差的误差是我们模型预期的预测与我们将要预测的真实值之间的差值。偏差是用来衡量我们的模型的预测同真实值的差异。基于方差的误差:基于方差的误差描述了一个模型对给定的数据进行预测的可变性。比如,当你多次重复构建完整模型的进程时,方差是在预测在模型的不同关系间变化的多少。

2014-10-27 20:12:33 4904 1

原创 坐标下降法(Coordinate descent)

首先介绍一个算法:coordinate-wise minimization问题的描述:给定一个可微的凸函数,如果在某一点x,使得f(x)在每一个坐标轴上都是最小值,那么f(x)是不是一个全局的最小值。形式化的描述为:是不是2对于所有的d,i都有3这里的4代表第i个标准基向量。答案为成立。5这是因为:6但是问题来了,如果对于凸函数f,若不可微该会怎样呢?7答案

2014-10-26 15:20:14 44283 12

转载 机器学习常见算法分类汇总

机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。学习方式根据数据类型的

2014-10-23 19:01:28 722

原创 多项式事件模型(multinomial event model)

我们之前讨论了基于朴素贝叶斯的文本分类,也被称作多变量伯努利事件模型(multi-variate Bernoulli event model),我们首先假设,邮件是随机发送过来的(垃圾与非垃圾),所以有先验概率p(y),然后我们又认为,邮件里每一个单词是相互独立的,p(xi=1|y) =φi|y,一条讯息的概率是1这里,我们介绍一种新的模型,被称为多项式事件模型(multinomial e

2014-10-23 18:55:37 6718

原创 平滑(smoothing)

1 问题的提出由于在现实生活中,我们的观察尺度有限,我们的样本(输入)很可能没有办法包含所有可能的情况,那么我们怎么去处理先前看不见的事件呢?1举个例子,莎士比亚使用了30000个双连词(bigram),然而我们总共有V^2=8.44亿个可能的双连词,所以,99.96%的可能的双连词都没有出现过,那是不是意味着,任何句子包含有其中某一种双连词的概率就为0呢?同样的问题有很多,当我们面对

2014-10-21 17:53:07 16047 1

原创 朴素贝叶斯(Naive Bayes)

首先,我们有贝叶斯公式(Bayes theorem):1然后,给出我们的假设:我们的输入x中的数据是两两条件独立的,因此:现在我们以一个多变量的Bernoulli模型为例:对给定的i,对每一个j,3相互独立,有42数据的联合似然:5使其取得最大值,解得:6既然已经得到了参数,当我们有一个新的x,我们就可以计算:7实践证明,贝叶斯是快的,空间效率高

2014-10-21 12:28:23 1121

原创 生成学习算法(generative learning algorithms)

我们之前介绍了一些判别学习算法(discriminative learning algorithms),例如logistic regression,都是研究p(y|x),而接下来我们介绍生成学习算法(generativelearningalgorithms),是对p(y) 和p(x|y)进行建模,通过最大化联合似然来学习参数:1我们利用Bayes公式来将问题描述为:2然而,我们不需

2014-10-20 20:13:27 1124

原创 softmax regression

我们给出一个GLM的例子,是logistic regression的推广,应用于多类分类。所以,我们有y ∈{1, 2, . . . , k },我们用k个参数φ1, . . . , φk来表示k个输出的概率,由于第k个参数是多余的,所以我们只用k-1个参数,而1为了将其描述为指数族,我们将定义2 3在这里,T (y)不再等于y,而是一个k-1维的向量。我们引入一个类似于布尔函

2014-10-19 14:15:00 537

原创 指数族和广义线性模型(The exponential family and Generalized Linear Models)

指数族的概率密度形如:1对所有的:2所以:3当T(x) =x,A(θ)是h(x)的Laplace变换的log形式。下面我们给出常见的概率分布:4之后,我们转向我们熟悉的形式:5η被称为natural parameter或者canonical parameter,T (y)被称为sufficient statistic(a statisticis a function of

2014-10-18 18:46:07 1801

原创 牛顿法(Newton’s method)

牛顿法通常都是用来寻找一个根,同时也可以理解为最大化目标函数的局部二次近似。设我们的目标函数为f(x),那么一个关于x0的二次近似就有:1我们用f进行匹配:2可以得到:3如果b这是牛顿法在最优化方面的表述,但是一旦5,牛顿法就不适用了,我们必须要使用其他的优化算法。下面给出一种非二次的变形:在Dirichlet分布的最大似然估计中,我们接触到目标函数:6这个目标函数是凸

2014-10-18 12:56:09 2531

原创 局部加权线性回归(Locally weighted linear regression)

紧接着之前的问题,我们的目标函数定义为:1我们的目标是最小化cost function:2换成线性代数的表述方式:34是mxm维的对角矩阵5是mxn维的输入矩阵6是mx1维的结果7是nx1维的参数向量8 9令11有12既13权重定义为:14参数τ控制权重函数的宽度,τ越大,权重函数越宽:15下面给出matlab代码 16 所以

2014-10-17 16:00:53 3279 1

原创 正规方程组(The normal equations)

为了寻求最优解,在低维的时候,正规方程组是最直接的方式。因为它要计算(1),其复杂度为(2)。如下图,m代表样例,n代表特征

2014-10-17 10:15:30 8967 2

原创 梯度下降(gradient descent)

梯度下降法,又称最速下降法。1847年由著名的数学家柯西Cauchy给出。梯度下降法,基于这样的观察:如果实值函数   在点   处可微且有定义,那么函数 在   点沿着梯度相反的方向   下降最快。因而,如果对于   为一个够小数值时成立,那么 。考虑到这一点,我们可以从函数   的局部极小值的初始估计   出发,并考虑如下序列   使得因此可得到如果顺利

2014-10-16 21:53:08 1436

原创 1035. Password (20)

To prepare for PAT, the judge sometimes has to generate random passwords for the users. The problem is that there are always some confusing passwords since it is hard to distinguish 1 (one) from l (L

2014-09-08 21:21:39 479

原创 1027. Colors in Mars (20)

People in Mars represent the colors in their computers in a similar way as the Earth people. That is, a color is represented by a 6-digit number, where the first 2 digits are for Red, the middle 2 dig

2014-09-08 21:18:19 352

原创 1031. Hello World for U (20)

Given any string of N (>=5) characters, you are asked to form the characters into the shape of U. For example, "helloworld" can be printed as:h de ll rlowoThat is, the characters must be pr

2014-09-08 21:17:14 343

原创 1024. Palindromic Number (25)

A number that will be the same when it is written forwards or backwards is known as a Palindromic Number. For example, 1234321 is a palindromic number. All single digit numbers are palindromic numbers

2014-09-08 21:14:18 334

原创 1023. Have Fun with Numbers (20)

Notice that the number 123456789 is a 9-digit number consisting exactly the numbers from 1 to 9, with no duplication. Double it we will obtain 246913578, which happens to be another 9-digit number con

2014-09-08 21:11:37 352

原创 1019. General Palindromic Number (20)

A number that will be the same when it is written forwards or backwards is known as a Palindromic Number. For example, 1234321 is a palindromic number. All single digit numbers are palindromic numbers

2014-09-08 21:08:28 363

原创 1011. World Cup Betting (20)

With the 2010 FIFA World Cup running, football fans the world over were becoming increasingly excited as the best players from the best teams doing battles for the World Cup trophy in South Africa. Si

2014-09-08 21:03:59 386

原创 1009. Product of Polynomials (25)

This time, you are supposed to find A*B where A and B are two polynomials.Input Specification:Each input file contains one test case. Each case occupies 2 lines, and each line contains the inf

2014-09-08 20:24:35 364

原创 1008. Elevator (20)

The highest building in our city has only one elevator. A request list is made up with N positive numbers. The numbers denote at which floors the elevator will stop, in specified order. It costs 6 sec

2014-09-08 20:21:19 364

原创 1006. Sign In and Sign Out (25)

At the beginning of every day, the first person who signs in the computer room will unlock the door, and the last one who signs out will lock the door. Given the records of signing in's and out's, you

2014-09-08 20:19:02 303

原创 1005. Spell It Right (20)

Given a non-negative integer N, your task is to compute the sum of all the digits of N, and output every digit of the sum in English.Input Specification:Each input file contains one test case.

2014-09-08 20:15:05 293

原创 1002. A+B for Polynomials (25)

This time, you are supposed to find A+B where A and B are two polynomials.InputEach input file contains one test case. Each case occupies 2 lines, and each line contains the information of a p

2014-09-08 20:10:33 396

原创 1001. A+B Format (20)

Calculate a + b and output the sum in standard format -- that is, the digits must be separated into groups of three by commas (unless there are less than four digits).InputEach input file cont

2014-09-08 20:03:01 346

原创 1025. 反转链表 (25)

给定一个常数K以及一个单链表L,请编写程序将L中每K个结点反转。例如:给定L为1→2→3→4→5→6,K为3,则输出应该为3→2→1→6→5→4;如果K为4,则输出应该为4→3→2→1→5→6,即最后不到K个元素不反转。输入格式:每个输入包含1个测试用例。每个测试用例第1行给出第1个结点的地址、结点总个数正整数N(5)、以及正整数K(接下来有N行,每行格式为:Add

2014-07-09 16:59:33 551

原创 1024. 科学计数法 (20)

科学计数法是科学家用来表示很大或很小的数字的一种方便的方法,其满足正则表达式[+-][1-9]"."[0-9]+E[+-][0-9]+,即数字的整数部分只有1位,小数部分至少有1位,该数字及其指数部分的正负号即使对正数也必定明确给出。现以科学计数法的格式给出实数A,请编写程序按普通数字表示法输出A,并保证所有有效位都被保留。输入格式:每个输入包含1个测试用例,即一个以科学计

2014-07-09 16:46:45 577

原创 1023. 组个最小数 (20)

给定数字0-9各若干个。你可以以任意顺序排列这些数字,但必须全部使用。目标是使得最后得到的数尽可能小(注意0不能做首位)。例如:给定两个0,两个1,三个5,一个8,我们得到的最小的数就是10015558。现给定数字,请编写程序输出能够组成的最小的数。输入格式:每个输入包含1个测试用例。每个测试用例在一行中给出10个非负整数,顺序表示我们拥有数字0、数字1、……数字9的个数。

2014-07-09 16:45:04 480

原创 1022. D进制的A+B (20)

输入两个非负10进制整数A和B(30-1),输出A+B的D (1 输入格式:输入在一行中依次给出3个整数A、B和D。输出格式:输出A+B的D进制数。输入样例:123 456 8输出样例:1103题目分析:这是典型的十进制转其他进制

2014-07-09 16:43:45 398

原创 1021. 个位数统计 (15)

给定一个k位整数N = dk-1*10k-1 + ... + d1*101 + d0 (0i<=9, i=0,...,k-1, dk-1>0),请编写程序统计每种不同的个位数字出现的次数。例如:给定N = 100311,则有2个0,3个1,和1个3。输入格式:每个输入包含1个测试用例,即一个不超过1000位的正整数N。输出格式:对N中每一种不同的个位数字,以D:

2014-07-09 16:42:11 328

原创 1020. 月饼 (25)

月饼是中国人在中秋佳节时吃的一种传统食品,不同地区有许多不同风味的月饼。现给定所有种类月饼的库存量、总售价、以及市场的最大需求量,请你计算可以获得的最大收益是多少。注意:销售时允许取出一部分库存。样例给出的情形是这样的:假如我们有3种月饼,其库存量分别为18、15、10万吨,总售价分别为75、72、45亿元。如果市场的最大需求量只有20万吨,那么我们最大收益策略应该是卖出全部15万吨第2种

2014-07-09 16:40:01 446

原创 1018. 锤子剪刀布 (20)

大家应该都会玩“锤子剪刀布”的游戏:两人同时给出手势,胜负规则如图所示:现给出两人的交锋记录,请统计双方的胜、平、负次数,并且给出双方分别出什么手势的胜算最大。输入格式:输入第1行给出正整数N(5),即双方交锋的次数。随后N行,每行给出一次交锋的信息,即甲、乙双方同时给出的的手势。C代表“锤子”、J代表“剪刀”、B代表“布”,第1个字母代表甲方,第2个代表乙方,中间

2014-07-09 16:35:17 510

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除