自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

上下求索

专注自然语言处理、数据挖掘、信息检索、云计算及行业咨询

  • 博客(45)
  • 收藏
  • 关注

转载 HMM的介绍及实现

HMM基本原理Markov链:如果一个过程的“将来”仅依赖“现在”而不依赖“过去”,则此过程具有马尔可夫性,或称此过程为马尔可夫过程。马尔可夫链是时间和状态参数都离散的马尔可夫过程。HMM是在Markov链的基础上发展起来的,由于实际问题比Markov链模型所描述的更为复杂,观察到的时间并不是与状态一一对应的,而是通过一组概率分布相联系,这样的模型称为HMM。HMM是双重随机过程:其中之一是M

2017-01-22 10:54:14 7999

转载 使用Word Embedding构造文本摘要系

文本摘要是在信息泛滥的时代非常重要的工具,可以帮助用户快速判断文章内容主旨,并以此决定是否值得细看文章内容。本文介绍下我们在2014年底2015年初时,使用WordEmbedding思想来构造文本摘要的一些思路,其中包括一种异常简单的文本摘要实现思路,实验效果证明这种方法虽然简单,可能比传统的TFIDF方法还要简单,但是效果与比较复杂的方法是相当的。这里介绍

2016-08-22 17:28:41 1892

转载 kd-tree

k-d树[1]  (k-dimensional树的简称),是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索)。K-D树是二进制空间分割树的特殊的情况。应用背景SIFT算法中做特征点匹配的时候就会利用到k-d树。而特征点匹配实际上就是一个通过距离函数在高维矢量之间进行相似性检索的问题。针对如何快速而准确地找到查询点的近邻,现

2016-08-11 14:33:27 776

原创 为什么要特征标准化及特征标准化方法

归一化化定义:归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。归一化的原因是什么那:一是为了后面数据处理的方便,把不同量纲的东西放在同一量纲下比较,即把不同来源的数据统一到一个参考系下,这样比较起来才有意义。特征标准化

2016-07-22 10:52:30 19541

转载 特征选择常用算法综述

1 综述(1) 什么是特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。 (2) 为什么要做特征选择       在机器学习的实际应用中,特征数量往往较多,其

2016-07-19 14:23:01 21202

原创 指数分布与幂律分布定义及不同(泊松分布、伽马分布)

1、定义(1)幂律分布(pow law distribution),其概率密度函数形式如下,这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大。y=cx-r其中x,y是正的随机变量,c,r均为大于零的常数。对上式两边取对数,可知lny与lnx满足线性关系lny=lnc-rlnx,也即在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给

2016-07-18 17:18:00 16145

转载 卡方检验x2检验(chi-square test)

x2检验(chi-square test)或称卡方检验,是一种用途较广的假设检验方法。可以分为成组比较(不配对资料)和个别比较(配对,或同一对象两种处理的比较)两类。    一、四格表资料的x2检验    例20.7某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者,结果如表20-11,问两种疗法有无差别?表20-11 两种疗法治疗卵巢癌的疗效比较

2016-07-07 16:31:01 69470

原创 deep learning学习

阅读笔记为什么有deep learning手工地选取特征是一件非常费力、启发式(需要专业知识)的方法,能不能选取好很大程度上靠经验和运气,而且它的调节需要大量的时间。既然手工选取特征不太好,那么能不能自动地学习一些特征呢?答案是能!Deep Learning就是用来干这个事情的,看它的一个别名UnsupervisedFeature Learning,就可以顾名思义了,Unsup

2016-06-21 16:31:58 593

转载 CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的区别

http://www.zhihu.com/question/34681168个人觉得CNN、RNN和DNN不能放在一起比较。DNN是一个大类,CNN是一个典型的空间上深度的神经网络,RNN是在时间上深度的神经网络。推荐你从UFLDL开始看,这是斯坦福深度学习的课程,了解一些神经网络的基础,会对你的学习有很大帮助。=============================分割线=

2016-06-20 15:28:00 5340

转载 word embedding

Embedding在数学上表示一个maping, f: X -> Y, 也就是一个function,其中该函数是injective(就是我们所说的单射函数,每个Y只有唯一的X对应,反之亦然)和structure-preserving (结构保存,比如在X所属的空间上X1 通俗的翻译可以认为是单词嵌入,就是把X所属空间的单词映射为到Y空间的多维向量,那么该多维向量相当于嵌入到Y所属空间中,一

2016-06-20 14:05:26 1072

转载 稀疏特征(稀疏矩阵)

所谓”稀疏“,是很常见的一个词,比如稀疏矩阵,稀疏编码。这里直白点讲,就是非零值很少。就如对于矩阵而言,稀疏矩阵,就是大部分数据都为0,少部分不为0,稀疏正是指”非0数据很少。那么”稀疏特征“,如果用矩阵的形式表达,得到的就是稀疏矩阵。“稀疏特征”在大多数的特征上其值为0,只有少部分的特征非0。一般在machine learning意义上,我们常说的feature,是一种对数据

2016-06-15 12:01:31 18417 1

转载 参加kaggle竞赛是怎样一种体验?

作者:Naiyan Wang链接:http://www.zhihu.com/question/24533374/answer/34631808来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。先贴下Kaggle Profile以示诚意:Winsty | Kaggle 我是KDD Cup专业户,虽然每年做的都不是特别好。。。和一些Kaggle专业户们无

2016-06-07 20:15:05 8643 1

转载 xgboost: 速度快效果好的boosting模型

本文作者:何通,SupStat Inc(总部在纽约,中国分部为北京数博思达信息科技有限公司)数据科学家,加拿大Simon Fraser University计算机学院研究生,研究兴趣为数据挖掘和生物信息学。主页:https://github.com/hetong007引言在数据分析的过程中,我们经常需要对数据建模并做预测。在众多的选择中,randomForest, gb

2016-06-06 15:00:34 1624

原创 SVM中决策距离(函数)计算

sklearn中的SVM算法使用了liblinear和libsvm两个包,而且模型参数略有区别。在sklearn中,SVM有SVC和SVR之分,且有四种核函数如下,所以在SVM的参数中有些模型需要,有些模型不需要。linear: .polynomial: .  is specified by keyword degree,  by coef0.rbf: .  is

2016-05-30 16:10:57 17530 1

转载 AUC、ROC、ACC区别

很多时候我们都用到ROC(receiver operating characteristic curve,受试者工作特征曲线)和AUC(Area Under Curve,被定义为ROC曲线下的面积)来评判一个二值分类器的优劣,其实AUC跟ROC息息相关,AUC就是ROC曲线下部分的面积,所以需要首先知道什么是ROC,ROC怎么得来的。然后我们要知道一般分类器会有个准确率ACC,那么既然有了

2016-05-25 13:01:25 19671 2

转载 LibLinear使用及与Lib的区别

本文主要基于liblinear-1.93版本的README文件。里面介绍了liblinear的详细使用方法。更多信息请参考:       http://www.csie.ntu.edu.tw/~cjlin/liblinear/在这里我用到的是LibLinear的Matlab接口,这个在下一博文中介绍。 LIBLINEAR是一个简单的求解大规模规则化线性分类和回归的软件包

2016-05-19 12:16:00 3800

转载 特征处理(Feature Processing)

特征处理(Feature Processing)Nov 15, 2014特征工程(Feature Engineering)经常被说为机器学习中的black art,这里面包含了很多不可言说的方面。怎么处理好特征,最重要的当然还是对要解决问题的了解。但是,它其实也有很多科学的地方。这篇文章我之所以命名为特征处理(Feature Processing),是因为这里面要介绍的东西只是特征

2016-03-07 17:49:46 1679

转载 双聚类的研究与进展

近年来随着基因芯片和DNA微阵列等高通量检测技术的发展,产生了众多的基因表达数据。对这些数据进行有效的分析已经成为后基因组时代的研究重点。一般的聚类是根据数据的全部属性将数据聚类,这种聚类方式称为传统聚类。传统聚类只能寻找全局信息,无法找到局部信息,而大量的生物学信息就隐藏在这些局部信息中。为了更好地在数据矩阵中搜索局部信息,人们提出双聚类概念,目前这种聚类方法得到了越来越广泛的应用

2016-03-07 09:59:42 13487

原创 NLP/ML/SML/DM etc. website

1、Python机器学习工具:http://scikit-learn.org/stable/index.html2、统计学:统计之都,http://cos.name/to be updating

2016-01-12 19:11:33 560

转载 hive-学习笔记

hive-学习笔记1.hive模糊搜索表  show tables like '*name*';2.查看表结构信息  desc formatted table_name;  desc table_name;3.查看分区信息  show partitions table_name;4.根据分区查询数据  select table_c

2015-08-27 18:10:43 353

转载 机器学习算法与Python实践之逻辑回归(Logistic Regression)

机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)

2015-08-25 17:19:30 1025

转载 机器学习中的范数规则化之(一)L0、L1与L2范数

机器学习中的范数规则化之(一)L0、L1与L2范数       今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正。谢谢。        

2015-06-11 17:41:12 634

转载 SVN入门之深入浅出123

(一)SVM的八股简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Ac

2015-05-05 17:17:46 4745

转载 Python实现贝叶斯推断及其互联网应用:拼写检查

贝叶斯推断及其互联网应用:拼写检查作者: 阮一峰日期: 2012年10月16日使用Google的时候,如果你拼错一个单词,它会提醒你正确的拼法。比如,你不小心输入了seperate。Google告诉你,这个词是不存在的,正确的拼法是separate。这就叫做"拼写检查"(spelling corrector)。有好几种方法

2015-04-20 18:33:15 1293

转载 Hive 内建操作符与函数开发——深入浅出学Hive

第一部分:关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE

2015-04-01 19:50:28 347

转载 初始Hive —— 深入浅出学Hive

第一部分:Hive简介什么是Hive•Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。•本质是将SQL转换为MapReduce程序  第二部分:为什么使用Hive面临的问题  人员学习成本太高  项目周期要求太短  我只是需要一个简单的环境  

2015-04-01 19:33:55 310

原创 编辑距离 、最长公共子串、最长公共子序列以及最长递增子序列

0 、前言动态规划就是把一个大的问题拆分成几个类似的子问题,通过求解子问题来获得最终的结果,常采用递归的方法。由于递归的方法中会重复地计算相同的子问题,使得效率较低。为减少重复计算相同子问题的时间,引入一个数组,把所有子问题的解存放于该子数组,这是动态规划采用的基本方法。 编辑距离 、最长公共子串、最长公共子序列以及最长递增子序列都是采用动态规划方法进行求解的,而且他们之间有相同和不同之处

2015-03-31 19:11:00 870

转载 普利策奖《哥德尔、埃舍尔、巴赫——集异璧之大成》

普利策奖《哥德尔、埃舍尔、巴赫——集异璧之大成》                        书名:集异璧之大成(Godel,Escher,Bach——an Eternal Golden Braid)作者:侯世达(Douglas R. Hofstadter)出版社:商务印书馆出版日期:1996年8月页数:1053面简而言之,一本当代奇书。

2015-03-31 14:32:54 2820

转载 Python学习之set()集合

python的set和其他语言类似, 是一个无序不重复元素集, 基本功能包括关系测试和消除重复元素. 集合对象还支持union(联合), intersection(交), difference(差)和sysmmetric difference(对称差集)等数学运算。sets 支持 x in set, len(set),和 for x in set。作为一个无序的集合,sets不记录元素位置或者

2015-03-30 17:48:36 466

转载 聚类算法实践经验汇总

所谓聚类,就是将相似的事物聚集在一起,而将不相似的事物划分到不同的类别的过程,是数据分析之中十分重要的一种手段。比如古典生物学之中,人们通过物种的形貌特征将其分门别类,可以说就是一种朴素的人工聚类。如此,我们就可以将世界上纷繁复杂的信息,简化为少数方便人们理解的类别,可以说是人类认知这个世界的最基本方式之一。      在数据分析的术语之中,聚类和分类是两种技术。分类是指我们已经知

2015-03-11 11:09:40 1053

原创 层次聚类--凝聚(自底向上)和分裂(自顶向下)

1、概念层次聚类就是对数据集采用某种方法逐层地进行分解或者汇聚,直到分出的最后一层的所有的类别数据满足要求为止。所以按照分解或者汇聚的原理的不同,层次聚类可以分为凝聚(agglomerative)和分裂(divisive)两种方法。K-means和k-medias都是划分的聚类算法,而层次聚类就是要把数据自顶向下分裂成或者自底向上合并成一棵树。层次聚类涉及到嵌套聚类,嵌套聚类是指一个聚类中

2015-03-10 15:26:31 34279 3

转载 【scikit-learn】Python分类实例

引入一个机器可以根据照片来辨别鲜花的品种吗?在机器学习角度,这其实是一个分类问题,即机器根据不同品种鲜花的数据进行学习,使其可以对未标记的测试图片数据进行分类。这一小节,我们还是从scikit-learn出发,理解基本的分类原则,多动手实践。Iris数据集Iris flower数据集是1936年由Sir Ronald Fisher引入的经典多维数据集,可以作为判别分析(discrimi

2015-03-04 19:29:54 4298 1

原创 卷积

1.定义卷积是分析数学中一种重要的运算,对于在空间R上的f(x),g(x)是两个可积函数,作积分:可以证明,关于几乎所有的实数x,上述积分是存在的。这样,随着x的不同取值,这个积分就定义了一个新函数h(x),称为函数f与g的卷积,记为h(x)=(f*g)(x)。上述的定义是假设f(x)和g(x)在空间R上是连续的,如果它们为离散的,即卷积的变量x(n)和h(n)是序

2015-03-04 10:57:11 839

转载 谱聚类算法原理介绍

1. 谱聚类给你博客园上若干个博客,让你将它们分成K类,你会怎样做?想必有很多方法,本文要介绍的是其中的一种——谱聚类。聚类的直观解释是根据样本间相似度,将它们分成不同组。谱聚类的思想是将样本看作顶点,样本间的相似度看作带权的边,从而将聚类问题转为图分割问题:找到一种图分割的方法使得连接不同组的边的权重尽可能低(这意味着组间相似度要尽可能低),组内的边的权重尽可能高(这意味着组内相似度要尽

2015-03-02 17:36:57 1409

转载 拉普拉斯矩阵

1 矩阵基础1.0 理解矩阵    如果对矩阵的概念已经模糊,推荐国内一人写的《理解矩阵by孟岩》系列,其中,抛出了很多有趣的观点,我之前在阅读的过程中做了些笔记,如下:“1、简而言之:矩阵是线性空间里的变换的描述,相似矩阵则是对同一个线性变换的不同描述。那,何谓空间?本质而言,“空间是容纳运动的一个对象集合,而变换则规定了对应空间的运动”by孟岩。在线性空间选定基

2015-03-02 16:44:45 17321 1

转载 谱聚类算法(Spectral Clustering)

谱聚类算法(Spectral Clustering)谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的。其中的最优是指最优目标函数不同,可以是割边最小分割——如图1的Smallest cut(如后文的Min cut), 也可以

2015-03-02 15:17:13 848

转载 Python 文本分类:使用scikit-learn 机器学习包进行文本分类

阅我做的项目是对评论进行有用性(helpfulness)分类,把评论分成有用和没用两类。在之前已经有使用机器学习方法进行情感分类了,现在是提取各种可能影响评论有用性的特征之后对文本进行分类。我分析的数据是手机商品评论,看看我提取了些什么特征(特征和情感分类的特征不一样了。情感分类使用的是词来做特征,但这里用的是已经计算出的各项数值作为特征)。我提取了(一

2015-02-28 17:15:47 6908

转载 隐马尔可夫模型(HMM)攻略

隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM的详细介绍。  考虑下面交通灯的例

2015-02-27 17:54:26 711 1

转载 AdaBoost算法介绍

Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。使用

2015-02-27 17:45:36 672

转载 PRML读书会第三章 Linear Models for Regression

大家好,我负责给大家讲讲 PRML的第3讲 linear regression的内容,请大家多多指教,群主让我们每个主讲人介绍下自己,赫赫,我也说两句,我是 applied mathematics + computer science的,有问题大家可以直接指出,互相学习。大家有兴趣的话可以看看我的博客: http://t.qq.com/keepuphero/mine,当然我给大家推荐一个好朋友的,

2015-02-02 17:37:54 916

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除