hgz_dm-CSDN博客

原创对accuracy、precision、recall、F1-score、ROC-AUC、PRC-AUC的一些理解

　　最近做了一些分类模型，所以打算对分类模型常用的评价指标做一些记录，说一下自己的理解。使用何种评价指标，完全取决于应用场景及数据分析人员关注点，不同评价指标之间并没有优劣之分，只是各指标侧重反映的信息不同。为了便于后续的说明，先建立一个二分类的混淆矩阵，以下各参数的说明都是针对二元分类 ...

2019-09-02 16:34:13 2245

原创 linux系统中离线安装python3.7过程记录

最近公司新弄来一台linux redhat 4.4.7服务器，准备在上面离线安装python3.7,安装过程中出现一些问题，特此记录下来。首先在python官网上下载了Python-3.7.3.tgz文件，放在/usr/local/python3.7路径下，然后解压到该路径下tar -zxvf Python-3.7.3.tgz 接着进入/usr/local/python3.7/...

2019-07-24 11:56:23 9002 3

原创 spark-submit提交python脚本过程记录

最近刚学习spark，用spark-submit命令提交一个python脚本，一开始老报错，所以打算好好整理一下用spark-submit命令提交python脚本的过程。先看一下spark-submit的可选参数1.spark-submit参数--masterMASTER_URL:设置集群的主URL，用于决定任务提交到何处执行。常见的选项有 l...

2019-07-23 16:27:22 14520 3

原创 linux服务器间配置ssh免密连接

先说一下，我用的centos7，root用户。ssh的原理就不说了，网上介绍的文章很多，直接开始说操作步骤吧：1.首先确认有没有安装ssh，输入rpm -qa |grep ssh查看这样就表示安装了ssh，没有的话就先安装ssh2.关闭防火墙首先查看防火墙的状态，运行 systemctl status firewalld.service由于我这里已经关闭了防火墙，所...

2019-07-19 11:32:56 252

原创 psycopg2模块安装问题

我的平台是win10(x64)、python3.7，打算通过psycopg2模块来操作Greenplum数据库，我通过pip installpsycopg2 安装了psycopg2模块，也提示安装成功了，可是我在importpsycopg2的时候提示我该模块未知、不存在，这让我很郁闷，于是我查找了一下原因，在stack overfloow上找到了原因。尽管我的windows系...

2019-07-19 11:31:11 1634

原创记录一次读取hdfs文件时出现的问题java.net.ConnectException: Connection refused

公司的hadoop集群是之前的同事搭建的，我(小白一个)在spark shell中读取hdfs上的文件时，执行以下指令>>> word=sc.textFile("hdfs://localhost:9000/user/hadoop/test.txt")>>> word.first()报错：java.net.ConnectException: Ca...

2019-07-19 11:08:56 2354 1

转载 mysql中数据类型DECIMAL(M,D)的说明

本文转载自Boblim的文章http://www.cnblogs.com/fnlingnzb-learner/p/8108119.html在MySQL数据类型中，例如INT,FLOAT,DOUBLE,CHAR,DECIMAL等，它们都有各自的作用，下面我们就主要来介绍一下MySQL数据类型中的DECIMAL类型的作用和用法。一般赋予浮点列的值被四舍五入到这个列所指定的十进制数。如果在...

2019-04-24 15:27:34 1479

转载 OLTP与OLAP分析与比较

（本文转载自Super_Mu的博客https://www.cnblogs.com/hhandbibi/p/7118740.html）1.OLTP与OLAP的介绍数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction processing）、联机分析处理OLAP（On-Line Analytical Processing）。OLTP是传统的关...

2019-04-22 11:11:00 282

原创关联分析（二）：关联模式的评估

关联分析方法具有产生大量模式的潜在能力，在真正的商业数据上，数据量与数据维数都非常大，很容易产生数以千计、万计甚至百万计的模式，而其中很大一部分可能并不让人感兴趣，筛选这些模式，以识别最有趣的模式并非一项平凡的任务，因为“一个人的垃圾在另一个人那里可能就是财富”，因此建立一组广泛接受的评价关联模式质量的标准是非常重要的。评价标准可以通过客观统计论据建立，例如上一篇提到过得支持度与置信...

2019-04-08 16:43:15 5323

原创 sklearn.tree.DecisionTreeClassifier 详细说明

sklearn.tree.DecisionTreeClassifier()函数用于构建决策树，默认使用CART算法，现对该函数参数进行说明，参考的是scikit-learn 0.20.3版本。sklearn.tree.DecisionTreeClassifier(criterion=’gini’,splitter=’best’,max_depth=None,min_...

2019-03-19 20:07:37 6193 1

原创 sklearn.neighbors.NNeighborsClassifier 详细说明

平时会用到sklearn.neighbors.NNeighborsClassifier函数来构建K最邻近分类器，所以这里对NNeighborsClassifier中的参数进行说明，文中参考的是scikit-learn 0.20.3版本。 NNeighborsClassifier函数中参数如下： n_neighbors：类别预测时，选择的最邻近数据点数...

2019-03-14 19:50:41 5614

原创分类：支持向量机(四)——非线性支持向量机

前面介绍的支持向量机都是在数据线性可分条件下的，但我们拿到训练数据时，并不一定能知道数据是否线性可分，低维数据可以通过可视化的方式观察是否线性可分，而高维数据则很难判断其是否线性可分了。对线性不可分数据强行构建线性支持向量机分类可能会导致很差的分类效果，本篇博文就介绍一下如何在数据线性不可分条件下构建非线性支持向量机。1.非线性情况在二维空间中，考虑如下一组数据...

2019-03-13 20:15:10 4669

原创分类：支持向量机(三)——软间隔最大化

在支持向量机系列的前两篇中，介绍了一下完全线性可分向量机的构建过程，本篇将在此基础上介绍一下不完全线性可分的情况下实现支持向量机软间隔最大化过程。1.线性分类时的两种情况情况一：考虑下面这张图中的情况，这些数据点是完全线性可分的，蓝色点与绿色点两类，分割线为紫色实直线 ...

2019-03-11 17:42:57 1565

原创分类：支持向量机（二）——数值优化

在上一篇博客中，较为详细的介绍了在数据完全线性可分的情况下，构建SVM模型的目标，并将构建目标转化为最大化几何距离的优化过程，本篇就将介绍具体优化时的计算过程。还是一样的，先推荐几篇不错的博文，大家也可以参考链接中的文章学习。关于凸优化问题 http://www.360doc.com/content/18/0522/09/32196507_756021531.sh...

2019-02-18 17:23:05 1253

原创分类：支持向量机(一)——完全线性可分

最初学习、理解支持向量机时，有点费劲，参考了一些不错的书籍和博客，这里推荐一下：http://blog.pluskid.org/?page_id=683 https://www.cnblogs.com/pinard/p/6097604.html 李航老师的《统计学习方法》1.支持向量机简介支持向量机(Support Vector Machine，SVM)是一种...

2019-02-14 16:59:09 1198

原创分类：基于规则的分类——RIPPER算法

在《分类：基于规则的分类技术》中已经比较详细的介绍了基于规则的分类方法，RIPPER算法则是其中一种具体构造基于规则的分类器的方法。在RIPPER算法中，有几个点是算法的重要构成部分，需要强调一下规则排序方式 RIPPER算法中采用的仍然是基于类的规则排序方式，不过独特的地方是，它先将各个类按频率(即类中包含的样本占总样本数的比例)从低到高排序，设是排序后的类，是最...

2019-02-04 16:07:14 6979

原创 python绘图：散点图

散点图可以显示观察数据的分布，描述数据的相关性，matlibplot也可以绘制散点图，不过我一般优先使用seaborn库的sctterplot()绘制，下面就介绍一下如何用seaborn.scatterplot()绘制散点图。1.sctterplot()参数说明x,y:输入的绘图数据，必须是数值型数据 hue:对输入数据进行分组的序列，使用不同颜色对各组的数据加以区分。下...

2019-01-28 22:04:24 7709 1

原创 t分布与t检验详解

最近又遇到了t分布及t检验方面的内容，发现有些地方自己当初没有很明白，就又查了些资料，加深了一下自己的理解，这里也将自己的一些理解记录下来。1. 理论基础——大数定理与中心极限定理在正式介绍t分布前，还是再强调一下数理统计学中的两大基石般的定理：大数定理与中心极限定理，后面会用到。这里我就不以数学公式的方式来说明了，直接说一下两个定理所表达的意思。大数定理...

2019-01-25 16:39:10 35948 10

原创 python绘图：利用matlibplot绘制雷达图

之前在一些数据分析案例中看到用 Go 语言绘制的雷达图，非常的漂亮，就想着用matlibplot.pyplot也照着画一个，遗憾的是matlibplot.pyplot模块中没有直接绘制雷达图的函数，不过可以基于‘polar’图形特征来改进，下面就记录一下如何绘制雷达图。import numpy as npimport matplotlib.pyplot as plt# 用...

2019-01-24 18:49:16 6488 1

原创分类：决策树——常用算法说明

决策树模型很早就出现了，当我们使用一连串的 “if...else...” 语句时，就已经具备了决策树的思想了，不过当真正去构建决策树时，就要考虑哪个先 if、哪个后 if，采用什么样的标准来支持我们选定先 if的属性等，这部分内容在《分类：决策树——树的生长》中已经说明了。早期的决策树算法（如ID3算法）的处理能力有限，只能在特定情形下使用，后来经过不断发展，出现了一些新的算法（如C...

2019-01-23 16:31:59 1092

原创 python3中的os.path模块

os.path模块主要用于获取文件的属性，这里对该模块中一些常用的函数做些记录。os.abspath(path):获取文件的绝对路径。这里path指的是路径，例如我这里输入“data.csv” [In] os.path.abspath('data.csv') [Out] 'E:\\kaggle\\Titanic\\data.csv'os.path.basename(...

2019-01-16 14:55:04 461

原创 python绘图：柱状图绘制详解

柱状图用于反映数值变量的集中趋势，用误差线估计变量的差值统计。理解误差线有助于我们准确的获取柱状图反映的信息，因此打算先介绍一下误差线方面的内容，然后介绍一下利用seaborn库绘制柱状图。1.误差线的理解误差线源于统计学，表示数据误差(或不确定性)范围，以更准确的方式呈现数据。当label上有一组采样数据时，一般将这组数据的平均值作为该label上标注的值，...

2019-01-08 15:53:20 43138 2

原创探索性数据分析

探索性数据分析（Exploratory Data Analysis，EDA）是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法，该方法在上世纪70年代由美国统计学家J.K.Tukey提出。传统的统计分析方法常常先假设数据符合一种统计模型，然后依据数据样本来估计模型的一些参数及统计量，以此了解数据的特征，但实际中往往有很多...

2019-01-05 21:15:22 29333

原创 python绘图：DataFarme内置的绘图功能参数说明

可视化是数据探索性分析及结果表达的一种非常重要的形式，因此打算写一个python绘图系列，本文是第一篇，先说一下pandas.DataFrame.plot()绘图功能。pandas.DataFrame.plot() 在0.23.4版本的pandas中，pandas.DataFrame.plot()中常用的参数有以下几个x：横坐标上的标签，一般是DataFram...

2019-01-02 19:21:36 1247

原创数据预处理过程

数据预处理过程会占用很多时间，虽然麻烦但也是必不可少且非常重要的一步。在数据能用于计算的前提下，我们希望数据预处理过程能够提升分析结果的准确性、缩短计算过程，这是数据预处理的目的。本文只说明这些预处理方法的用途及实施的过程，并不涉及编程方面内容，预处理的过程可以用各种各样的语言编程实现来实现。我个人始终是秉持着这样的观点：没有任何一种方法可以一成不变的被应用于任何任务中，依据实际任...

2018-12-27 16:50:05 45164

转载统计学中抽样调查和一些常用的方法

（文章转载自https://www.cnblogs.com/yangsy0915/p/5162449.html）抽样调查的领域涉及如何用有效的方式得到样本。这些调查都利用了问卷，而问卷的设计则很有学问。它设计如何用词、问题的次序和问题的选择与组合等等。涉及包括心理学、社会学等知识。问题的语言应该和被调查者的文化水平相适应。那么抽样调查的设计的目的之一是确保样本对总体的代表性，以...

2018-12-20 17:17:27 8141

原创开始挖掘数据前，该如何认识我们手上的数据？

（自己的认知与理解有限，文中错误、不当之处还请诸位不吝指出，大家共同进步）数据是重要、应该被充分利用的，这一点大家都是认同的，就像我们的个人信息（尤其是手机号）被肆意的售卖，各种推销、诈骗电话屡见不鲜，虽然我们对此大为光火，但是对推销员和诈骗犯来说，人家确实利用到了数据，而且总能钓上几条鱼。作为一名数据挖掘工作者来说，可能没法在一线搜集数据，但是充分理解到手的数据是接下来一切工作...

2018-12-20 17:13:28 196

原创分类：朴素贝叶斯分类方法

在很多的应用中，属性集与类别之间的关系是不确定的，换句话说，尽管测试样本的属性值与训练样本相同，但是也不一定能正确的预测其类别，其中一个原因是噪声的存在，另一个原因是某些影响分类的属性并没有出现在属性集中。贝叶斯方法都有所耳闻，之所以称为“朴素”贝叶斯方法，是因为在分类时，假定了“各变量间相互独立”的条件，这个条件算是比较强的了，大大简化了分类时的计算，但同时也丢失了一些分类准确性...

2018-11-01 11:58:59 2010

原创 panda数据处理：groupby()函数

groupby()是pandas库中DataFrame结构的函数，最近在看用Movielens数据集进行关联分析的教程时，发现用到了groupby()函数，觉得该函数功能很强大，经常用在for循环结构中用于提取数据，故对该函数一些常用的方法进行一些记录。先创建一个DataFrame对象dfimport pandas as pddf=pd.DataFr...

2018-10-28 15:37:24 12841

原创分类：K最邻近分类

最邻近分类是分类方法中比较简单的一种，下面对其进行介绍1.模型结构说明最邻近分类模型属于“基于记忆”的非参数局部模型，这种模型并不是立即利用训练数据建立模型，数据也不再被函数和参数所替代。在对测试样例进行类别预测的时候，找出和其距离最接近的个样例，以其中数量最多的类别作为该样例的类预测结果。最邻近分类模型的结构可以用下图来说明，图中叉号表示输入的...

2018-10-24 16:03:27 4197

原创数据测量与相似性分析

这篇文章中主要记录如何分析样本间相似性的内容，相似性分析在分类算法（如K最邻近分类）和聚类任务中会涉及到。相似性分析基于样本属性取值，因此对于样本属性类型及其取值的特征也有必要说明。1.数据测量及属性分类测量某个对象得到数据的过程实质上是描述该对象的属性（特征）、并将该属性映射到某个值上，在这些值上一般可以定义如下几种操作：相异性、序 ...

2018-10-22 16:58:58 8559

转载 P类问题、NP类问题与NPC类问题

（转载自作者 “Matrix67原创” 的文章，链接为：http://www.matrix67.com/blog/archives/105）你会经常看到网上出现“这怎么做，这不是NP问题吗”、“这个只有搜了，这已经被证明是NP问题了”之类的话。你要知道，大多数人此时所说的NP问题其实都是指的NPC问题。他们没有搞清楚NP问题和NPC问题的概念。NP问题并不是那种“只有搜才...

2018-10-08 18:51:09 6460 4

原创分类：基于规则的分类技术

基于规则的分类是一种比较简单的分类技术，下面从以下几个方面对其进行介绍 1.任务所有的分类技术的任务都是利用数据集训练出分类器，然后为每条记录贴上标签，对其进行分类，基于规则的分类任务也是如此。 2.结构基于规则的分类使用了一组的规则来对记录进行分类，其将这些规则组合起来，形成了如下所示结构 ...

2018-09-30 16:13:05 14149 3

原创关联分析（一）：频繁项集及规则产生

关联分析用于发现隐藏在大型数据集中有意义的联系，属于模式挖掘分析方法，其为人熟知的经典应用当属沃尔玛超市里“啤酒与尿布”的关系挖掘了。关联分析的应用领域非常多，当数据集类型比较复杂时，进行关联分析采用的手段也相对复杂，本篇从最简单的事务数据集着手，对关联分析进行解读。对大型事务数据集进行关联分析时，有两个问题要考虑：发现关联模式时耗费的计算量发现的关联模式是否可信关联分析...

2018-09-28 15:46:10 38843 3

原创经典假设检验理论记录一二

大数据环境下的假设检验问题比较复杂，目前还未详细深入了解，但其思想还是源于经典假设检验理论，故在此先对经典假设检验理论记录一二。 1.假设检验方法的作用实际问题中很多时候需要通过样本去作推断，由于样本带有随机性，基于我们对总体的认知，有时并不确定该推断是否可信（或者说可靠），或者说偏差的程度如何，此时就可以用到假设检验方法，在我们认知范围内去判断该推断是否...

2018-09-15 09:18:59 2263

原创分类模型的评价及比较

当我们得到数据模型后，该如何评价模型的优劣呢？之前看到过这样一句话：“尽管这些模型都是错误的，但是有的模型是有用的”，想想这句话也是挺有道理的！评价和比较分类模型时，关注的是其泛化能力，因此不能仅关注模型在某个验证集上的表现。事实上，如果有足够多的样本作为验证集来测试模型的表现是再好不过的，但即使是这样也存在一个难点，比如难界定多大的样本才能足够表现出模型的泛化能力。因此，一般的做...

2018-09-06 08:42:02 21416 4

原创分类：决策树——剪枝

本篇是决策树系列的第二篇，介绍一下决策树的剪枝过程。过拟合是决策树构建过程中常见的问题，信息失衡、噪声等问题都会导致过拟合，剪枝则是提高决策树模型泛化能力的重要手段，下面对常用的剪枝方法作一些介绍。1.预剪枝决策树系列第一篇《分类：决策树——树的生长》中提到过，树的生长是一种“完全”式的生长，终止条件也仅有“所有的样本属于同一类，或者所有的样本具有相同的属性值”...

2018-08-26 14:49:17 1431

原创分类：决策树——树的生长

分类算法非常适合预测或描述标签为二元或标称类型的数据集，对于标签为序数类型的数据集，分类技术则不太有效，因为分类技术不考虑隐藏在序数中的“序”关系，对于标签其他形式的联系如子类与超类（包含的关系），分类技术也不太适合。本文是分类模型系列的初篇，先介绍最基本的分类/回归模型——决策树模型。决策树分类模型打算分为三篇来说明，第一篇先说明决策树生长，第二篇介绍决策树的剪...

2018-08-22 17:35:32 2236

原创贝叶斯估计

在之前的博文《统计学中频率学派与贝叶斯学派》中，陈述了一下贝叶斯学派的一些观点及方法，本文中则说一下贝叶斯估计方面的内容。贝叶斯估计是依照贝叶斯定理进行了，该定理如下 ...

2018-08-18 16:11:29 2959

原创统计学中的频率学派与贝叶斯学派

对于技术应用人员来说，我们更看重方法的应用，但有时候对知识的背景做一些了解，我觉得还是挺有必要的，能帮助我们理解一些东西。这篇博文里，不会呈现任何计算公式，只是讨论一下贝叶斯学派与频率学派之间的问题。贝叶斯学派与频率学派是当今数理统计学的两大学派，基于各自的理论，在诸多领域中都起到了重要作用。自20世纪初数理统计学大发展开始，一直到20世纪中叶，频率学派一直占据...

2018-08-18 13:18:40 14703

串口异步读写源文件（.h/.cpp）

空空如也