自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

转载 SparkShell实战

目录(?)[+]1、Spark编程模型1.1 术语定义l应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor;l驱动程序(Driver Program):运行Application的main()函数并且创建SparkContext,通常用SparkContext代表Driver Progr

2016-07-07 18:41:33 593

转载 Learning to Rank

去年实习时,因为项目需要,接触了一下Learning to Rank(以下简称L2R),感觉很有意思,也有很大的应用价值。L2R将机器学习的技术很好的应用到了排序中,并提出了一些新的理论和算法,不仅有效地解决了排序的问题,其中一些算法(比如LambdaRank)的思想非常新颖,可以在其他领域中进行借鉴。鉴于排序在许多领域中的核心地位,L2R可以被广泛的应用在信息(文档)检索,协同过滤等领域。 

2016-01-04 23:52:02 563

原创 关于点击率模型,你知道这三点就够了

说到计算广告,或者个性化推荐,甚至一般的互联网产品,无论是运营、产品还是技术,最为关注的指标,就是点击率。业界也经常流传着一些故事,某某科学家通过建立更好的点击率预测模型,为公司带来了上亿的增量收入。点击率这样一个简单直接的统计量,为什么要用复杂的数学模型来刻画呢?这样的模型又是如何建立与评估的呢?我们这一期就来谈谈这个问题。一、为什么要建立一个点击率模型?无论是人工运营还是机器决

2016-01-04 23:35:15 1352 1

转载 从最大似然到EM算法浅解

转自:http://blog.csdn.net/zouxy09/article/details/8537620        机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么

2016-01-03 23:18:33 519

转载 Logistic回归分析时几个需要注意的问题

1、关于样本含量的问题logistic回归分析中,到底样本量多大才算够,这一直是个令许多人困惑的问题。尽管有的人从理论角度提出了logistic回归分析中的样本含量估计,但从使用角度来看多数并不现实。直到现在,这一问题尚无广为接受的答案。根据国外一些大牛的看法,如果样本量小于100,logistic回归的最大似然估计可能有一定的风险,如果大于500则显得比较充足。当然,样本大小还依赖于变量

2015-12-28 23:13:05 28264 2

原创 逻辑回归

一、线性回归       回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。       最简单的回归是线性回归,在此借用Andrew NG的讲义,有如图1.a所示,X为数据

2015-12-28 22:46:53 685

转载 监督学习 - 一个典型的工作流程

现今,当在“数据科学”领域开始引入各种概念的时候,著名的“鸢尾花(Iris)”花数据集可能是最常用的一个例子。1936年,R.A.Fisher在他的判别分析中创建和使用了Iris数据集。Iris现在可以从UCI机器学习库中免费得到。在一个监督分类任务中,它将会是一个很好的例子。Iris中的花被分为了三类:Setosa , Virginica , 和Versicolor .而这1

2015-12-23 22:39:55 6070

原创 决策树分类算法

一、决策树模型决策树是一种对实例进行分类的树形结构,由结点(node)、有向边(directed edge)组成。结点有2种类型:内部结点和叶子节点,其中内部结点表示实例样本的一个特征(feature),叶子节点表示实例的类别(class)。一颗典型的决策树如下图所示:      可以将决策树看成是一个“if-then”规则的集合,决策树的每条路径就是一条规则,路径上的内

2015-12-12 18:19:02 1408

原创 朴素贝叶斯分类算法

一、贝叶斯定理        已知条件概率P(A|B)的情况下如何求得P(B|A),这就要用到贝叶斯定理了:   二、朴素贝叶斯算法的原理朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这么

2015-11-28 17:55:58 1468

转载 R语言 apply函数家族详解

R语言 apply函数家族详解applyApply Functions Over Array Margins对阵列行或者列使用函数apply(X, MARGIN, FUN, …)lapplyApply a Function over a List or Vector对列表或者向量使用函数lapply(X, FUN, …)

2015-11-28 12:45:30 1055

转载 推荐系统比较好的论

链接:http://www.zhihu.com/question/25566638/answer/37455091来源:知乎推荐几篇对工业界比较有影响的论文吧:1. The Wisdom of The Few 豆瓣阿稳在介绍豆瓣猜的时候极力推荐过这篇论文,豆瓣猜也充分应用了这篇论文中提出的算法;2. Restricted Boltzmann Machines for C

2015-11-20 10:09:54 951

转载 机器学习常见算法分类

机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。学习方式根据数据类型的不同,对一

2015-11-20 09:46:00 1121

转载 simhash算法原理及实现

simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是原理simhash值的生成图解如下大概花三分钟看懂这个图就差不多怎么实现这个simhash算法了。特别简单。谷歌出品嘛,简单实用。算法过程大概如下:

2015-11-17 17:37:37 1382

原创 矩阵分解模型(1):ALS学习算法

一、矩阵分解模型。用户对物品的打分行为可以表示成一个评分矩阵A(m*n),表示m个用户对n各物品的打分情况。如下图所示:其中,A(i,j)表示用户user i对物品item j的打分。但是,用户不会对所以物品打分,图中?表示用户没有打分的情况,所以这个矩阵A很多元素都是空的,我们称其为“缺失值(missing value)”。在推荐系统中,我们希望得到用户对所有物品的打分情况,如果

2015-11-15 11:42:12 32604 13

转载 ALS 在 Spark MLlib 中的实现

转载自 http://www.csdn.net/article/2015-05-07/2824641深受用户喜爱的大数据处理平台 Apache Spark 1.3 于前不久发布,MLlib 作为 Spark 负责机器学习 (ML) 的核心组件在 1.3 中添加了不少机器学习及数据挖掘的算法:研究主题分布的 latent Dirichlet allocation (LDA)、估计

2015-11-14 10:33:39 2180

原创 隐语义模型LFM

隐语义模型LFM和LSI,LDA,Topic Model其实都属于隐含语义分析技术,是一类概念,他们在本质上是相通的,都是找出潜在的主题或分类。这些技术一开始都是在文本挖掘领域中提出来的,近些年它们也被不断应用到其他领域中,并得到了不错的应用效果。比如,在推荐系统中它能够基于用户的行为对item进行自动聚类,也就是把item划分到不同类别/主题,这些主题/类别可以理解为用户的兴趣。对于一个用户

2015-11-12 21:03:03 3987

转载 基于内容的推荐(Content-based Recommendations)

[本文链接:http://www.cnblogs.com/breezedeus/archive/2012/04/10/2440488.html,转载请注明出处]      Collaborative Filtering Recommendations (协同过滤,简称CF) 是目前最流行的推荐方法,在研究界和工业界得到大量使用。但是,工业界真正使用的系统一般都不会只有CF推荐算法,Cont

2015-11-12 19:10:52 582

转载 推荐系统小结

转载自 http://blog.csdn.net/lzt1983/article/details/38884435许久不做推荐系统了,但偶尔也会关注一些相关的论文或资料。最近喜欢整理思路,顺便把自己过去几年对这个方向的理解做个小结吧。什么是推荐系统:      自动或被动地为用户推送其可能感兴趣的目标单元(商品、人、活动等)的系统。推

2015-11-11 20:02:33 569

原创 基于物品的协同过滤算法(Item-CF)

一、算法思想。    基于物品的协同过滤算法,是给用户推荐和他之前喜欢的物品相似的物品。基于物品的协同过滤算法,是目前广泛使用的一种推荐算法,像Netflix, YouTube, Amazon等。 二、算法步骤。1、计算物品之间的相似度。计算相似度的方法有以下几种:基于余弦(Cosine-based)的相似度计算,通过计算两个向量之间的夹角余弦值来计算物品之间的

2015-11-10 13:59:16 4391

原创 UserCF算法 - 改进用户相似度计算

前面计算用户间兴趣相似度使用的是余弦相似度,该公式过于粗糙,需要改进该公式。      以图书为例,如果两个用户都曾经买过《新华字典》,这丝毫不能说明他们兴趣相似,因为绝大多数中国人小时候都买过《新华字典》。但如果两个用户都买过《数据挖掘导论》,那可以认为他们的兴趣比较相似,因为只有研究数据挖掘的人才会买这本书。换句话说,两个用户对冷门物品采取过同样的行为更能说明他们兴趣的相似度。因此,Joh

2015-11-10 11:45:12 6172 2

转载 数据归一化和两种常用的归一化方法

数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法:一、min-max标准化(Min-Max Normalization)也称为

2015-11-09 17:50:14 1228

转载 基于用户的协同过滤推荐算法原理和实现

转载自 http://www.cnblogs.com/technology/p/4467895.html        在推荐系统众多方法中,基于用户的协同过滤推荐算法是最早诞生的,原理也较为简单。该算法1992年提出并用于邮件过滤系统,两年后1994年被 GroupLens 用于新闻过滤。一直到2000年,该算法都是推荐系统领域最著名的算法。        本文简单介绍基于用

2015-11-09 14:07:23 655

原创 K-近邻分类算法KNN

一、KNN算法的步骤计算已知类别数据集中每个点与当前点的距离;选取与当前点距离最小的K个点;统计前K个点中每个类别的样本出现的频率;返回前K个点出现频率最高的类别作为当前点的预测分类。二、计算距离传统上,KNN算法采用的是欧式距离,即:假设item的特征向量为(x1,x2,......,xn),则欧式距离=2个item在特征空间上的直线距离。如果item是文本,它的特征是文

2015-11-07 21:38:37 3327

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除