自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小飞鱼世界

一起奔向全新的世界--关注大规模机器学习,数据挖掘

  • 博客(10)
  • 资源 (2)
  • 收藏
  • 关注

原创 "NaN" 的困扰

NaN ("Not a Number") 是一种特殊的浮点类型,IEEE754在1985年的时候引入,用于定义一些未定义的浮点运算产生的结果。NaN 不同与 inf or -inf,它并非是一种具体的浮点数值,它一种未定义的浮点操作所产生的结果,可以理解成是另外一种对象,目前在很多语言里面都引入了该定义,如 python, matlab 等等。当然,在计算的时候,通常很少会碰见 NaN,但一旦出现

2014-03-24 10:11:43 3231

原创 当我们的经验无法适应新环境的时候该怎么办? Covariate Shift

前几天偶然看到 Alex Smola (CMU ML Prof) 的一篇 " Real simple covariate shift correction" 博文,论述在机器学习领域一个非常容易被忽略的问题, “Covariate Shift”。最为直观的解释就是当你的训练集的样本分布和测试集的样本分布一致的时候,你训练得到的模型是无法有很好的泛化 (Generalization) 能力的。假

2014-03-02 09:22:18 5942

原创 正则化的最小二乘法

在单元 (unimodal) 目标变量的线性模型中,MLE (Maximum likelihood) 和 Least Squares (最小二乘法) 是常用的两种估计模型参数向量 W 的解法。他们都有个共同点,求解得到的参数向量 W 能够保证估计的目标值和观测得到的目标值之间的误差最小。但是单纯的考虑误差最小化得到的模型会有过拟合现象,也就是预测效果会很差。为了解决这个问题,在目标函数中往往都会考

2014-03-01 14:35:12 23248

原创 神经网络简介

最近在研究Deep Learning在个性化推荐中的应用,由于DL跟神经网络有很大的关系,索性开篇就介绍下神经网络和自己所了解到的知识。接触ML时间不是很长,难免有描述不当的地方,旨在于交流学习,有啥想法直接后面回复。在这篇博文中,你将会看到如下知识:神经网络的基本模型,前向神经网络(Feed-forward neural network),General Feed-for

2013-06-06 13:31:22 16300 1

原创 基于图结构高性能计算框架:GraphLab

偶然觉得有必要关注下大规模机器学习和数据挖掘方法刚阅读完 CMU的一篇《Distributed GraphLab;A Framework for Machine Learning and Data Mining in the Cloud》论文,虽然自己还木有分布式计算框架的经验,但还是想在这里抛砖引玉,望路过的大大们不吝啬赐教。自己开通博客,一方面记录并分享所学的东西,另一方面自己还是菜鸟,有

2013-01-08 18:40:11 5079

原创 关于机器学习的综述论文收集

Mark 之,分享之http://www.mlsurveys.com/

2013-01-06 12:00:57 5094

原创 python list强制转化为dict的时候

做一个笔记a = [ [2,3],[5,3],[20,8],[19,20] ]b = dict(a)在a的元素较少的时候,会得到 b = {2:3,5:3,20:8,19:20}可并非每次操作都会得到这么好的结果当list中的元素非常多的时候,转化为dict类型的时候,得到会是一个无序的字典

2012-12-06 14:20:13 1637

转载 Computer Vision重要期刊论文

21世纪初最有影响力的20篇计算机视觉期刊论文选取论文的原则:(1)期刊论文,主要来源于以下期刊:TPAMI,IJCV,TIP,CVIU,IVC,MVA,PR,JMIV,IJPRAI…(2)发表在2000年以后(3)SCI检索次数大于1000,来源于Web of Science数据库,2012年12月初的检索结果 Top 20 榜单如下:  [1] D. G. Lo

2012-12-05 09:23:45 1500

转载 海量数据处理的常用思路和方法

http://blog.chinaunix.net/uid-26565142-id-3127581.html最近在研究个性化推荐系统,基础很是薄弱,没有海量数据处理相关经验,这篇文章算是分享了一些经验。若想将个性化推荐技术运用于互联网中,必须面对增量计算和可拓展性问题,即能够进行分布式部署于服务器集群中,这样才符合实时推荐的需要。1.Bloom filter 适用范围:可以用来

2012-10-31 16:02:44 842

转载 python sort()

http://blog.donews.com/maverick/archive/2006/07/09/951101.aspx

2012-09-24 10:05:08 475

Mining of massive dataset

斯坦福的数据挖掘大牛 Jure 的公开课程用的就是这本书

2012-12-22

Learning from data

这是一本跟机器学习和数据挖掘相关的基础书,上面讲述了很多基础概念,已经应用。

2012-12-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除