靓玲珑-CSDN博客

原创 DBSCAN聚类算法的原理及sklearn的演示

概念：基于密度的带有噪声点的聚类方法。内部概念理解：1.核心对象：若某个点的密度达到算法设定的阈值则称为核心点。2.距离阈值：设定的半径r。3.直接密度可达：若某点p在点q的r邻域内，且q是核心密度点，则pq直接密度可达。4.密度可达：直接密度可达的相互传播。5.密度相连：若从某核心点q出发，点p和k都能与q核心密度可达，则p和k是密度相连的。6.边界点：属于某个类的非核心点，不能发...

2018-10-06 18:20:26 1930

原创聚类算法Kmeans的工作原理和sklearn实现

聚类算法出现的原因：手里没有标签，也就是没有Y值了，聚类是把相似的东西分为一组。Kmeans算法输入的参数：要得到的簇的个数，也就是分成几类，也就是需要指定K值质心（不需要输入）：各个向量维度取平均值欧几里得距离。两个点之间的距离。优化的目标就是，不同的质心与同一个点的距离，谁最近，这个店就属于哪一类。Kmeans算法的执行流程1.对于两类数据点，首先输入分类的k为2，会随机找到两...

2018-10-06 15:20:05 721

概述：PCA是基于方差降维的。1.对数据进行基变换使其映射在新的基中，例如，原本数据是二维的，进行基变换获得一对新的基，选择一个特征值最大的基，因为特征值表示向量的重要程度。这样二维的数据就能映射到新的基上变成一维的数据。2.如何选择这个基才能使得数据保留更多的原始信息呢，一种直观的看法是，希望投影后的值尽可能分散，也就是方差最大。3.如果单纯的让方差最大，那么不同的基一定会相互接近，因为只...

2018-10-06 14:30:07 1635

原创 sklearn的lda降维

LDA全称：线性判别分析用途：用来对数据进行降维或分类目标：LDA关注的是能够最大化类间区分样本将特征空间（数据集中的多维样本）投影到一个维度更小的K子维样本中，同时保持区分类别的信息。降维算法的画图解释。LDA更关心的是投影后的分类。而PCA更关系新的是投影后的方差，意思就是说LDA分类的目标是使得不同类别之间的距离越远越好，同一类别之间的距离越近越好。sklearn代码：fro...

2018-10-06 13:35:04 2105

原创支持向量机的人脸识别

支持向量机（Support Vector Machine）是人工神经网络出现之前最常用的算法**支持向量机要解决的问题：**什么样的决策边界才是最好的呢？优化的目标：找到一条线，使得离该线最近的点，比如二分类的两种点，每个最近的点能够离决策边界最远。求什么样的w和b使得之前的等式最小，意思就是说找到离直线距离最近的点，然后在让这个点到直线的距离求最大值。化简后：第二步就是利用拉格朗...

2018-10-04 15:08:55 2175

原创 TF-idf算法进行文本相似度分析代码

编程：所用python的包下的gensim。编程路径：1.读取文档2.对要计算的文档进行分词3.把文档按照空格整理成一个超长的字符串4.计算词语出现的频率5.对频率低的词进行过滤，如果文档过小就不用选，过大的话把频率过低的词过滤后，在更快计算6.通过语料库建立词典7.加载要对比的文档8.将要对比的文档通过doc2bow转化为稀疏向量9.对稀疏向量进行处理，获得新语料库10.将...

2018-10-03 09:02:19 3673 3

原创贝叶斯算法的原理和代码实现

贝叶斯算法要解决的问题：假设我们知道了在A条件发生的情况下，B条件发生的概率（即条件概率），但是我们想知道在B条件发生的情况下，A条件发生的概率。我们就可以用到贝叶斯公式。贝叶斯公式的分母是全概率公式，全概率公式如下：如果事件B1、B2、B3…Bn 构成一个完备事件组，即它们两两互不相容，其和为全集；并且P（Bi)大于0，则对任一事件A有P(A)=P(A|B1)P(B1) + P(A|B...

2018-10-03 08:53:23 10090 1

原创集成算法之随机森林

集成算法Ensemble learning，目的是让机器学习效果更好，一个完不成，那就多个。分类Bossting:从弱机器学习开始加强，通过加权来进行训练Bagging 训练多个分类器取平均比如训练一个决策树没办法达到要求，所以训练100个决策树取平均。最典型的就是随机森林（并行训练一堆分类器）Stacking聚合多个分类或者回归模型。可以堆叠各种各样的分类器(KNN,SVM等)。...

2018-10-02 17:04:43 1599

原创决策树的概念及代码实现

定义：树的一种，从根节点一一步步到叶子节点，所有的数据都在叶子节点上，决策树既可以用来分类也可以用来做回归。决策树中的节点：根节点是决策的开始选择项，中间节点是选择的过程，叶子节点是选择的结果，每次增加一个节点，就相当于对数据切了一刀。如果对数曲线0-1，区间内横轴表示事情的概率，纵轴的绝对值表示熵的大小，这表明，概率越小的事件y值越大，就是熵越大，因为他的不确定性越大，混乱度越高，...

2018-10-02 15:38:16 350

原创 Anaconda加载加利福尼亚房价数据出现PermissionError: [WinError 32] 另一个程序正在使用此文件,进程无法访问。

错误：今天在机器学习训练数据加载的时候，加利福尼亚房价数据总是出现以上错误。解决方法如下解决方案：修改D:\Program Files\Anaconda3\Lib\site-packages\sklearn\datasets\california_housing.py给这一行remove方法增加try，except try: remove(archive_path)...

2018-09-29 10:16:07 1658 2

原创 KNN算法及python实现

KNN算法原理和python实现K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。原理是：如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如...

2018-09-26 19:03:08 8731

原创机器学习——逻辑回归的原理及python代码实现

机器学习——逻辑回归的原理及python代码实现逻辑回归的数学原理及推导过程逻辑回归算法是比较牛逼的二分算法，是分类用的，机器学习算法中，首选的都是逻辑回归，如果逻辑回归做得好，那还选啥其他的，做的不好再选复杂的。Sigmoid函数方程方程式如下：自变量取值为任意实数，值域为[0,1]这个方程的目的在于分类，一般用于对两个东西进行分类，也就是分成两类，横轴是任意取值，y轴是这...

2018-09-23 22:09:41 6062

原创 hadoop异常：org.apache.hadoop.ipc.RemoteException

在使用自定义outputformat出现异常，异常值如下：hdfs.DFSClient (DFSClient.java:closeAllFilesBeingWritten(949)) - Failed to close inode 17333。或者：org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.n...

2018-08-29 20:47:06 13222

转载 Windows下使用eclipse插件访问hdfs出错，用户名不一致的问题

本文转载至：https://blog.csdn.net/worldchinalee/article/details/80974544 错误原因： org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security .AccessControlException: Permission denied: use...

2018-08-21 19:33:34 491

转载 Maven打包方式

以storm本地版和打jar包为例。打jar包分为三种方式。1.——————————只打自己的包，不打依赖包—————————— pom下什么也不用设置，或者设置个打包编译的JDK就行了，例如 <plugin> <groupId>org.apache.maven.plugins</groupId>...

2018-08-20 18:55:26 237

原创关于storm出现 NotSerializableException: java.io.BufferedWriter

错误代码：org.apache.storm.zookeeper.server.NIOServerCnxnFactory - Thread Thread[main,5,main] died java.lang.RuntimeException: java.io.NotSerializableException: java.io.BufferedWriter at backtype.s...

2018-08-20 18:38:54 492

转载关于hadoop本地版启动报错，Windows.createDirectoryWithMode0(Ljava/lang/String;I)V错误解决方案

本文转载至：https://blog.csdn.net/wyxeainn/article/details/81413544**开发环境：**win7与centos6.7-hadoop2.7.6 **错误原因：**windows编译的hadoop版本中，hadoop.dll,winutils版本与本地版的不一致，也有可能与开发时导入的jar包不一致解决方案：首先确定自己Wi...

2018-08-20 17:49:26 2208

qq_41302130的博客