自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 问答 (1)
  • 收藏
  • 关注

原创 K-means clustering using random matrix sparsification(ICML2018)

K-means clustering using random matrix sparsification第四十一次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。由于K-Means算法本身的时间复杂度很高,特别是在处理大数据集时,因此这篇文章主要介绍一种使用随机矩阵稀疏化(random matrix sparsification)方法的近似K-Mea...

2019-02-13 09:39:52 742

原创 Random Projections for k-means Clustering(ICML 2010)

Random Projections for k-means Clustering第四十次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。由于K-Means算法本身的时间复杂度很高,特别是在处理大数据集时,因此这篇文章主要介绍一种使用随机映射(Random Projection)降维方法的近似K-Means算法,其他有关于原型聚类算法的讨论可以移步到该...

2019-02-12 19:09:15 655

原创 MapReduce中Shuffle机制的学习案例——房屋租赁信息

MapReduce中Shuffle机制的学习案例——房屋租赁信息由于在《自己动手搭建一个简单的基于Hadoop的离线分析系统》系列中直接将清洗后的数据导入Hive中进行分析,没有使用到Hadoop中的MapReduce框架,因此这篇文章将通过该框架对输入数据进行清洗,并对清洗后的数据经行分析,数据源仍来源于同一网站的网络爬虫。Hadoop版本:2.6.5Shuffle机制...

2019-03-24 12:09:22 425

原创 【问题记录】Eclipse打包Maven项目报错:PluginResolutionException

JDK版本:1.7.0_80Maven版本:3.6.0Eclipse版本:Eclipse Oxygen问题描述一个“奇怪”的问题,在编写项目源码时,通过Maven成功的引入了第三方依赖,但是打包时报PluginResolutionException,导致打包失败,下面来分析一下错误日志,首先忽略打包过程中关于GBK编码的警告,如果由于编码导致MojoFailureException从而...

2019-03-04 22:34:37 2973 1

原创 【问题记录】Eclipse打包Maven项目报错:MojoFailureException

JDK版本:1.7.0_80Maven版本:3.6.0Eclipse版本:Eclipse Oxygen问题描述[使用Maven install命令打包](https://blog.csdn.net/qq_40793975/article/details/88070421)时,出现如下编码错误:[INFO] --- maven-compiler-plugin:3.1:compile (...

2019-03-04 21:43:16 1004

原创 Eclipse中带有第三方依赖的Maven项目打包方式

Eclipse中带有第三方依赖的Maven项目打包方式最近正在学习流式计算系统,测试阶段在跑本地模式时需要将Flume、Kafka以、Storm以及Redis整合到一个Java项目中,于是乎在Eclipse中整了个Maven项目,加入了各种依赖包,但是因为之前在做分布式离线计算系统都是把依赖包直接整合成一个自定义的外部依赖库(User Library),然后直接用编辑器自带的打包指令直接打包,...

2019-03-01 23:43:34 837

原创 Proximal Support Vector Machine Classifiers(2001)

Proximal Support Vector Machine Classifiers第四十六次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。在《》一文中曾对支持向量机(SVM)以及支持向量回归(SVR)进行了详细的介绍,在给出二次规划问题后,需要使用SMO算法对目标进行优化,由于SMO算法运行过程中需要对原数据进行循环扫描,来查找满足条件的样本点,...

2019-02-14 21:18:27 917

原创 最小二乘支持向量机(LSSVM)详解

最小二乘支持向量机(LSSVM)详解第四十六次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。在《》一文中曾对支持向量机(SVM)以及支持向量回归(SVR)进行了详细的介绍,在给出二次规划问题后,需要使用SMO算法对目标进行优化,由于SMO算法运行过程中需要对原数据进行循环扫描,来查找满足条件的样本点,因此该算法的时间复杂度是非常高的,本文介绍一种解决...

2019-02-14 20:51:57 35916 12

原创 Dictionary Learning详解(附带K-SVD算法)

Dictionary Learning详解第四十五次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文主要对字典学习(Dictionary Learning)进行简要介绍,并对其中较为典型的K-SVD算法进行讲解。预备知识:【1】L0L_{0}L0​范数  ∣∣x∣∣0=||{\bf{x}}||_{0}=∣∣x∣∣0​=向量x\bf{x}x中...

2019-02-13 21:06:59 2115

原创 Manifold Learning详解

Manifold Learning详解第四十四次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文承接上一篇《Low-dimension Embedding详解(附带MDS算法)》,继续介绍某些降维手段。Manifold Learning(流行学习)  在《Low-dimension Embedding》这篇文章中,我们介绍了一种称为MDS的降...

2019-02-13 16:36:24 940

原创 Metric Learning详解(附带NCA算法)

Metric Learning详解第四十三次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。  无论在分类还是回归任务中,降维的目的有时是为了选择一个合适的距离度量,如果每个空间都对应了一种距离度量方式,那么求得最适合原始样本空间的低维嵌入可以看做是求得一种最恰当的距离度量方式,这就是“度量学习”(Metric Learning)的目的。  为了...

2019-02-13 15:45:47 2257

原创 Low-dimension Embedding详解(附带MDS算法)

Low-dimension Embedding详解第四十二次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。机器学习任务中的“维数灾难”(Curse of Dimensionality)会导致高维样本空间中的样本稀疏与距离计算困难等问题,为了解决该问题,本文介绍一种被称为“多维缩放”(Multiple Dimensional Scaling,简称MDS...

2019-02-13 11:43:14 1295

原创 A Simple Linear Time (1 + ε)-Approximation Algorithm for k-Means Clustering in Any Dimensions(2004)

A Simple Linear Time (1 + ε)-Approximation Algorithm for k-Means Clustering第三十九次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。由于K-Means算法本身的时间复杂度很高,特别是在处理大数据集时,因此这篇文章主要介绍一种具有线性时间复杂度的近似K-Means算法,其他有关于...

2019-02-09 14:43:41 581

原创 Kernelized Principal Component Analysis详解

Kernelized Principal Component Analysis详解第三十八次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。《主成分分析(PCA)详解(附带详细公式推导)》一文中曾对一种重要的降维手段——主成分分析(PCA)进行了讲解,这篇文章则主要对PCA的一种变体——核主成分分析(KPCA)进行讲解。主成分分析的问题分析  主...

2019-01-18 14:20:49 321

原创 基于图切分的K-Means算法——Spectral Clustering

基于图切分的K-Means算法——Spectral Clustering第三十七次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇对聚类中的一个重要算法——Spectral Clustering(谱聚类)进行讲解,算法原理可以参照原论文(链接附在文章下方)或网上的相关原理详解,本文旨在以代码和实验现象解释算法中的某系细节,不做过多纯原理的赘述。...

2019-01-07 12:44:50 1654

原创 自己动手搭建一个简单的基于Hadoop的离线分析系统之三——hive

自己动手搭建一个简单的基于Hadoop的离线分析系统之三——hive在上一篇《自己动手搭建一个简单的基于Hadoop的离线分析系统之二——HDFS》文章中介绍了整个系统的数据存储,这一篇文章从hive入手,介绍整个离线分析系统的数据分析。一、hive与MySQL  二、sql脚本--切换数据库use ${hiveconf:database_name};--创建表并导入数据cre...

2018-12-25 20:37:37 667

原创 自己动手搭建一个简单的基于Hadoop的离线分析系统之二——HDFS

自己动手搭建一个简单的基于Hadoop的离线分析系统之二——HDFS在上一篇《自己动手搭建一个简单的基于Hadoop的离线分析系统之一——网络爬虫》文章中介绍了整个系统的数据来源,这一篇文章从HDFS入手,介绍整个离线分析系统的数据存储。一、脚本处理流程  爬取到的数据信息往往非常庞大,以至于单靠一台存储设备不能完整的保存下来,这时就可以使用分布式文件系统(HDFS)来解决这个问题,我们...

2018-12-24 20:12:06 411

原创 自己动手搭建一个简单的基于Hadoop的离线分析系统之一——网络爬虫

自己动手搭建一个基于Hadoop的离线分析系统

2018-12-23 14:39:20 1305 4

原创 使用自相似性的聚类方法——Chameleon

使用自相似性的聚类方法——Chameleon第三十六次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第二部分,主要针对“共享最近邻相似度(Shared Nearest Neighbour)”以及使用该度量的“Jarvis-Patrick聚类”进行介绍。其他基于图的聚类算法的链接可以在这篇综述《基于图的聚类算法综述(基于图的聚类算...

2018-12-10 09:54:29 2366

原创 基于密度的新概念——SNN密度

基于密度的新概念——SNN密度第三十五次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第二部分,主要针对“共享最近邻相似度(Shared Nearest Neighbour)”以及使用该度量的“Jarvis-Patrick聚类”进行介绍。其他基于图的聚类算法的链接可以在这篇综述《基于图的聚类算法综述(基于图的聚类算法开篇)》的结...

2018-12-10 09:13:16 2123 2

原创 共享最近邻相似度

共享最近邻相似度第三十四次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第二部分,主要针对“共享最近邻相似度(Shared Nearest Neighbour)”以及使用该度量的“Jarvis-Patrick聚类”进行介绍。其他基于图的聚类算法的链接可以在这篇综述《基于图的聚类算法综述(基于图的聚类算法开篇)》的结尾找到。S...

2018-12-05 09:05:56 6441

原创 稀疏化邻近度图

稀疏化邻近度图第三十三次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第一部分,主要针对“如何稀疏化邻近度图”以及“如何在稀疏化后的邻近度图上运行聚类算法”,本文还会针对数据结构与算法中的两种构建“最小生成树(Minimum Spanning Tree)”的算法(Prim和Kruskal)进行介绍。其他基于图的聚类算法的链接可以...

2018-12-03 20:39:36 1867

原创 基于图的聚类算法综述(基于图的聚类算法开篇)

基于图的聚类算法综述第三十二次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章作为基于图的聚类(Figure-based Clustering)算法的开篇,简要介绍了该类算法的相关内容,并为之后的算法详解做铺垫。如何稀疏化邻近度图  稀疏化邻近度图,即只保留对象与其最近邻之间的连接,采用这种处理方法有利于处理离群点和噪声,还可以基于稀疏...

2018-12-03 09:16:58 12109

原创 K-Means++详解

k-means++ The Advantages of Careful Seeding第三十一次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。由于K-Means++是标准K-Means的一种优化算法,因此这篇文章作为原型聚类中介绍的第六篇,其他有关于原型聚类算法的讨论可以移步到该类算法的导航页《原型聚类算法综述(原型聚类算法开篇)》。传统K-Me...

2018-11-23 20:34:27 2186 3

原创 BIRCH详解

BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)详解第三十次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇作为可伸缩聚类(Scalable Clustering)算法的第三篇,主要是对BIRCH(Balanced Iterative Reducing and ...

2018-11-09 14:29:11 773

原创 CURE算法详解

CURE算法详解第二十九次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇作为可伸缩聚类(Scalable Clustering)算法的第二篇,主要是对CURE(Clustering Using Representative)算法进行详细介绍,其他可伸缩聚类算法的链接可以从《可伸缩聚类算法综述(可伸缩聚类算法开篇)》这篇文章中找到。CURE算...

2018-10-31 09:40:07 13689 3

原创 可伸缩聚类算法综述(可伸缩聚类算法开篇)

可伸缩聚类算法综述第二十八次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章作为可伸缩聚类(Scalable Clustering)算法的开篇,简要介绍了几种针对大规模数据常用的减少时间和空间复杂度的方法。  许多聚类算法所需要的存储量(空间复杂度)都是非线性的,以层次聚类为例,其所需的存储量为,由于磁盘对随机访问速度的限制,这类算法并不...

2018-10-30 08:35:57 1951

原创 Agglomerative Hierarchical Clustering详解

Agglomerative Hierarchical Clustering详解第二十七次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章主要是介绍各种凝聚层次聚类(Agglomerative Hierarchical Clustering)技术,从基本凝聚层次聚类算法出发,介绍了该类算法中各种“距离”的定义以及时间、空间复杂度,然后介绍了各种...

2018-10-22 14:27:26 8582 3

原创 Feature Selection详解(附带Relief、Relief-F、LVM详解)(二)

Feature Selection详解第二十六次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇承接上一篇《》的内容,仍然是针对特征选择问题的其他几种常见方法进行阐述,并介绍其中一种比较经典的特征选择算法(LVM)。Feature Selection详解  “特征选择”(Feature Selection)是一种数据预处理(Data Pre...

2018-10-17 09:49:08 2137

原创 Feature Selection详解(附带Relief、Relief-F、LVM详解)(一)

Feature Selection详解(附带Relief、Relief-F、LVM详解)(一)第二十五次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇主要是针对特征选择问题的几种常见方法进行阐述,并介绍其中几种比较经典的特征选择算法(Relief、Relief-F、LVM)。Feature Selection详解  “特征选择”(Feat...

2018-10-16 10:07:20 4513 2

原创 Subspace Clustering详解(附带CLIQUE算法详解)

Subspace Clustering详解第二十四次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇作为密度聚类算法族的第三篇,主要是介绍一种用来发现子空间中的簇的算法——Subspace Clustering,并对该类算法中最具代表性的CLIQUE(Clustering in quest)算法进行介绍,其他密度聚类算法的链接可以在《DBSCAN...

2018-10-08 12:20:09 9402 4

原创 Grid-based Clustering详解(附带DENCLUE算法)

Grid-based Clustering详解第二十三次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇作为密度聚类算法族的第二篇,主要是介绍其中最流行的一类算法——Grid-based Clustering,并对该类算法中最具代表性的DENCLUE(Density Clustering)算法进行介绍,其他密度聚类算法的链接可以在《DBSCAN详...

2018-09-25 13:30:32 4608 5

原创 DBSCAN详解(密度聚类算法开篇)

DBSCAN详解 第二十二次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇作为密度聚类算法族的开篇,主要是介绍其中最流行的一种算法——DBSCAN,其他算法在后续会陆续更新,链接附在该篇文章的结尾处。预备知识: 这一部分主要是谈一谈DBSCAN中一些概念的定义:ϵϵ\epsilon-领域、核心对象、密度直达、密度可达以及密度相...

2018-09-17 13:58:17 4078 4

原创 Self-organizing Map详解

Self-organizing Map详解 第二十一次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章是原型聚类中介绍的第五个算法,主要是谈一谈“自组织映射”(Self-organizing  \ Map)。其他有关于原型聚类算法的讨论可以移步到该类算法的导航页《原型聚类算法综述(原型聚类算法开篇)》。Self-...

2018-09-13 16:17:37 12455 2

原创 Mixture-of-Gaussian Clustering详解

Mixture-of-Gaussian Clustering详解 第二十次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章是原型聚类中介绍的第四个算法,主要是谈一谈“高斯混合分布”(Mixture-of-Gaussian  \ Distribution)。其他有关于原型聚类算法的讨论可以移步到该类算法的导航页《原型聚类...

2018-09-04 14:15:08 1181

原创 Fuzzy Clustering详解

Fuzzy Clustering详解 第十九次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章是原型聚类中介绍的第三个算法,主要是谈一谈“模糊聚类”(Fuzzy  \ Clustering)。其他有关于原型聚类算法的讨论可以移步到该类算法的导航页《原型聚类算法综述(原型聚类算法开篇)》。模糊集合  模糊集合论...

2018-09-03 15:13:32 4590

原创 Learning Vector Quantization详解

Learning Vector Quantization详解 第十八次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章是原型聚类中介绍的第二个算法,主要是谈一谈“学习向量量化”(Learning  \ Vector &nbs

2018-08-29 08:20:15 1846

原创 K-Means详解

K-Means详解 第十七次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章以标准K-Means为基础,不仅对K-Means的特点和“后处理”进行了细致介绍,还对基于此聚类方法衍生出来的二分K-均值和小批量K-均值进行了延伸。标准K-均值(K-Means)算法简介  标准K-均值(K-Means)使用贪心法对优化目标进行迭代优化...

2018-08-27 14:58:29 1762

原创 原型聚类算法综述(原型聚类算法开篇)

原型聚类算法综述 第十六次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇作为该类算法族的开篇,主要介绍了基于原型聚类的最终模型和优化目标。  基于原型的聚类最终产生的模型包含以下两部分:   (1) 聚类簇{Cl|l=1,2,...,k}{Cl|l=1,2,...,k}\{C_l|l=1,2,...,k\}   (2) 聚类中心{...

2018-08-27 14:22:21 2098

原创 机器学习资料(不定期更新)

机器学习资料(不定期更新) 链接失效的话,下面评论区回复,我看到的话会及时补链接。吴恩达机器学习Coursera 链接:https://pan.baidu.com/s/1xKze7iNrYg23OiMnU41MlQ 密码:64la林轩田《基石》 链接:https://pan.baidu.com/s/14XhVUKqXsZNKq3kPxmIGLw 密码:3j1...

2018-08-22 20:00:54 301

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除