memoryqiu-CSDN博客

原创 Weka选择属性算法介绍

在Select attribute标签页中可以指定属性评估器和搜索方法。选择属性通常搜索属性子集空间，评估每一个空间，这可以通过组合属性子集评估器和搜索方法得以实现。快捷但准确度不高的方法是评估单个属性并排序，丢弃低于指定截止点的属性，这可以通过组合单个属性评估器和属性排名的方法得以实现。1、属性子集评估器属性子集评估器选取属性的一个子集，并返回一个指导搜索的度量数值。 C...

2018-09-16 16:48:26 3673

原创 Weka专用的文件格式—— ARFF

ARFF格式ARFF代表Attribute-Relation File Format（属性-关系文件格式）。该文件是ASCII文本文件，描述共享一组属性结构的实例列表，由独立且无序的实例组成，是Weka表示数据集的标准方法，ARFF不涉及实例之间的关系。在Weka安装目录下的data子目录中，可以找到名称为weather.numeric.arff的天气数据文件，其内容如下所示。天气...

2018-09-16 16:05:05 2131

原创 Weka功能简介

Weka系统汇集了前沿的机器学习算法和数据预处理工具，以便用户能够快速灵活地讲已有的成熟处理方法应用于新的数据集。1、处理方法包括处理标准数据挖掘问题的所有方法：回归、分类、聚类、关联规则和属性选择。2、输入数据通过以ARFF格式为代表的文件进行输入直接读取数据库表3、Weka主界面 Weka GUI Chooser（1）探索者（Explorer）图形用户界...

2018-09-16 15:32:13 4783

原创 [统计学理论基础] 置信区间

1. 点估计和区间估计例如：刮刮卡 2. 置信区间置信区间又称估计区间，是用来估计参数的取值范围的。在统计学中，一个概率样本的置信区间（Confidence interval）是对这个样本的某个总体参数的区间估计。2.1 计算步骤第一步：求一个样本的均值第二步：计算出抽样误差。人们经过实践，通常认为调查： 100个样本的抽样误差为±10%； 500个样本的抽样...

2018-07-02 23:03:54 4413

原创 [统计学理论基础] 中心极限定理与大数定律的区别

一. 中心极限定理下图形象的说明了中心极限定理当样本量N逐渐趋于无穷大时，N个抽样样本的均值的频数逐渐趋于正态分布，其对原总体的分布不做任何要求，意味着无论总体是什么分布，其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布。如上图，这个正态分布的u会越来越逼近总体均值，并且其方差满足a^2/n，a为总体的标准差，注意抽样样本要多次抽取，一个容量为N的抽样样本是无法构成分布...

2018-07-02 21:52:01 28771

原创 [统计学理论基础] 统计方法—F检验

F检验（F-test）最常用的别名叫做联合假设检验（英语：joint hypotheses test），此外也称方差比率检验、方差齐性检验。它是一种在零假设（null hypothesis, H0）之下，统计值服从F-分布的检验。其通常是用来分析用了超过一个参数的统计模型，以判断该模型中的全部或一部分参数是否适合用来估计母体。计算（1）样本标准偏差的平方，即：两组数据就...

2018-07-02 21:00:40 28791 1

原创 [统计学理论基础] 统计方法—T检验

T检验亦称student t检验（Student’s t test），主要用于样本含量较小（例如n&lt;30），总体标准差σ未知的正态分布。 t检验是用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著。它与f检验、卡方检验并列。实例以单总体t检验为例说明：问题：难产儿出生数n=35，体重均值为3.42，S =0.40，一般婴儿出生体重μ0=3.30（大规模调...

2018-07-02 20:55:22 3539

原创 [统计学理论基础] 假设检验

概念假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是：根据问题的需要对所研究的总体作某种假设，记作H0；选取合适的统计量，这个统计量的选取要使得在假设H0成立时，其分布为已知；由实测的样本，计算出统计量的值，并根据预先给定的显著性水平进行检验，作出拒绝或接受假设H0的判断。显著性水平：它是在进行假设检验时事先确...

2018-06-26 22:30:08 1464

在训练一个模型之前需要做数据的预处理，因为模型的最终效果决定于数据的质量和数据中蕴含的有用信息的数量。在实际的模型的训练样本数据中，样本可能会由于某些原因，造成一个或多个值的缺失。可能由于样本采集过程中的失误，或者度量方法对于某些特征不适用，或者数据未被填写等。在表格中缺失值通常是以空值的形式或者是NaN(Not A Number)存在的。如果我们直接忽视这些缺失值可能有些算法无法处理这些缺失...

2018-06-24 22:41:00 8582 2

原创 [Python] 一元线性回归分析实例

本文通过一个简单的例子：预测房价，来探讨怎么用python做一元线性回归分析。1. 预测房价房价是一个很火的话题，现在我们拿到一组数据，是房子的大小（平方英尺）和房价（美元）之间的对应关系，如下（csv数据文件）：No,square_feet,price 1,150,6450 2,200,7450 3,250,8450 4,300,9450 5,350,11450 6,...

2018-06-24 15:22:54 11230

原创 [Python数据预处理] 规范化（归一化）

数据规范化为了消除指标之间的量纲和取值范围差异的影响，需要进行标准化（归一化）处理，将数据按照比例进行缩放，使之落入一个特定的区域，便于进行综合分析。数据规范化方法主要有： - 最小-最大规范化 - 零-均值规范化数据示例代码实现#-*- coding: utf-8 -*-#数据规范化import pandas as pdimport numpy ...

2018-06-20 21:51:00 7733 1

原创 [Python数据预处理] 异常值检测（箱型图） & 统计量分析

1. 箱型图分析1、对数据没有作任何限制性要求（如服从某种特定的分布形式），它只是真实直观地表现数据分布的本来面貌； 2、判断异常值的标准以四分位数和四分位距为基础，四分位数具有一定的鲁棒性：多达25%的数据可以变得任意远而不会很大地扰动四分位数，所以异常值不能对这个标准施加影响。数据示例代码实现#-*- coding: utf-8 -*-import pandas as ...

2018-06-20 21:31:30 14839

原创 [Python] 关联规则算法 Apriori

Apriori关联规则最常用也是最经典的挖掘频繁项集的算法，其核心思想是通过连接产生候选项及其支持度然后通过剪枝生成频繁项集。关联规则的一般形式（1）支持度项集A、B同事发生的概率称为关联规则的支持度（相对支持度）P(AUB)。（2）置信度项集A发生，则项集B发生的概率为关联规则的置信度P(B|A)。数据示例已超市销售数据为例，提取关联规则的最大困难在于当存在很...

2018-06-18 23:58:47 4068 2

原创 [Python聚类] 离散点检测（K-Means聚类方法）

聚类分析用于发现局部强相关的对象组，而异常检测用来发现不与其他对象强相关的对象。因此，聚类分析可以用于离散度检测。诊断步骤进行聚类。选择聚类算法（如K-Means算法），将样本集聚K簇，并找到各簇的质心。计算各对象到它的最近质心的距离。计算各对象到它的最近质心的相对距离。（相对距离是点到质心的距离与簇中所有点到质心的距离的中位数之比）与给定的阈值作比较。如果某对象距离...

2018-06-18 22:40:54 17659 5

原创 [Excel常用函数] 使用函数替代case when

目的将excel中“AB标识”中的0, 1,2,3，normal对应为"排序组",“排序组”,“对照组”,“对照组”,"正常组"。公式 =CHOOSE(MATCH(C2,{0,1,2,3,”normal”},),”排序组”,“排序组”,“对照组”,“对照组”,”正常组”)参考文章 https://blog.csdn.net/bodilove/article/details/59...

2018-06-18 18:54:42 23155

转载 [Python] 直接赋值、浅拷贝和深度拷贝解析

Python 直接赋值、浅拷贝和深度拷贝解析参考文章链接： http://www.runoob.com/w3cnote/python-understanding-dict-copy-shallow-or-deep.html直接赋值：其实就是对象的引用（别名）。浅拷贝(copy)：拷贝父对象，不会拷贝对象的内部的子对象。深拷贝(deepcopy)： copy 模块的 deepcop...

2018-06-17 16:53:21 479

原创 [Python聚类] 用TSNE进行数据降维并展示聚类结果

聚类结果可视化工具TSNE#-*- coding: utf-8 -*-#接博客[Python] K-Means聚类算法分类中的代码from sklearn.manifold import TSNEtsne = TSNE()tsne.fit_transform(data_zs) #进行数据降维tsne = pd.DataFrame(tsne.embedding_, index =...

2018-06-10 18:32:11 12875 1

原创 [Python聚类] K-Means聚类算法分类

根据数据将客户分类成不同客户群，并评价这些客户群的价值。数据示例部分餐饮客户的消费行为特征数据如下：方法采用K-Means聚类算法，设定聚类个数为3，最大迭代次数为500次，距离函数取欧式距离。代码实现#-*- coding: utf-8 -*-#使用K-Means算法聚类消费行为特征数据import pandas as pd#参数初始化inputfil...

2018-06-10 15:01:11 8409 1

原创 [Python] 决策树算法分类

构建模型分析天气、是否周末和是否有促销活动对销量的影响。数据示例代码实现#-*- coding: utf-8 -*-#使用ID3决策树算法预测销量高低import pandas as pd#参数初始化inputfile = '../data/sales_data.xls'data = pd.read_excel(inputfile, index_col = u'...

2018-06-10 14:11:45 749 1

原创 [Python] 逻辑回归分析

数据示例以某银行贷款拖欠率数据进行逻辑回归建模，数据示例如下：逻辑回归分析步骤特征筛选：本例采用稳定性选择方法中的随机逻辑回归建立模型：利用筛选后的特征建立逻辑回归模型输出平均正确率实现代码#-*- coding: utf-8 -*-#逻辑回归自动建模import pandas as pd#参数初始化filename = '../data/ban...

2018-06-10 11:57:57 1966

原创 [Python] 主成分分析降维

数据示例实现代码#-*- coding: utf-8 -*-#主成分分析降维import pandas as pd#参数初始化inputfile = '../data/principal_component.xls'outputfile = '../tmp/dimention_reducted.xls' #降维后的数据data = pd.read_excel(in...

2018-06-09 23:34:12 14250 4

原创 [Python数据预处理] 连续数据离散化：等宽法 & 聚类分析法

需要离散化的数据示例：实现代码#-*- coding: utf-8 -*-#数据规范化import pandas as pddatafile = '../data/discretization_data.xls' #参数初始化data = pd.read_excel(datafile) #读取数据data = data[u'肝气郁结证型系数'].copy()k = 4...

2018-06-09 18:11:21 9838

转载 [Python] pandas （ix & iloc &loc）的区别

本文转载自：https://blog.csdn.net/hecongqing/article/details/61927615loc——通过行标签索引行数据 iloc——通过行号索引行数据 ix——通过行标签或者行号索引行数据（基于loc和iloc 的混合）同理，索引列数据也是如此！举例说明： 1、分别使用loc、iloc、ix 索引第一行的数据: （1）loci...

2018-06-09 17:53:10 4660

原创 [Python作图] 基本作图函数plot折线图 & pie饼图 & hist直方图 & boxplot箱型图

在作图之前，通常加载一下代码import matplotlib.pyplot as plt #导入图像库plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号plt.figure(figsize = (7,5)) #创建图像...

2018-06-09 13:34:33 2290

原创 [Python] 相关性分析

餐饮销量数据相关性分析分析菜品销售量之间的相关性得到不同菜品之间的关系，比如是替补菜品、互补菜品或者没有关系，为原材料采购提供参考。数据源示例： #-*- coding: utf-8 -*-#餐饮销量数据相关性分析import pandas as pdcatering_sale = '../data/catering_sale_all.xls' #餐饮数据，含有其他属性da...

2018-06-09 11:54:30 8567

原创 [Python] 贡献度分析

贡献度分析又称帕累托分析，它的原理是帕累托法则，又称20/80定律。对餐饮企业来讲，应用贡献度分析可以重点改善某菜系盈利最高的前80%的菜品。这种结果可以通过帕累托图直观地呈现出来。如某月菜品盈利数据：菜品盈利帕累托图代码#-*- coding: utf-8 -*-#菜品盈利数据帕累托图import pandas as pd#初始化参数dish_profit =...

2018-06-09 11:31:11 6064

原创 [Python] Pandas安装与基本操作

安装安装完Numpy后，直接使用pip install pandas 进行安装支持excel读写，安装读取xlrd和写入xlwt库 pip install xlrd #为python添加读取excel功能 pip install xlwt #为python添加写入excel功能简单例子&amp;amp;amp;amp;gt;&amp;amp;amp;amp;gt;&amp;amp;amp;amp;gt; import

2018-06-08 22:16:29 5118 2

原创 [Python作图] Matplotlib安装与基本作图

安装Matplotlib通过pip安装Matplotlib步骤：进入到CMD窗口下，在命令提示符中依次输入python -m pip install -U pip setuptools python -m pip install matplotlib Matplotlib作图的基本代码&amp;amp;amp;amp;gt;&amp;amp;amp;amp;gt;&amp;amp;amp;amp;gt; import numpy

2018-06-04 00:36:18 4300

原创 [Python] Numpy安装与基本操作

Numpy扩展包提供了数组功能，以及对数据进行快速处理的函数。Numpy基本操作实例&amp;amp;gt;&amp;amp;gt;&amp;amp;gt; pip install numpy #通过pip安装numpy&amp;amp;gt;&amp;amp;gt;&amp;amp;gt; import numpy as np #一般以np作为numpy的别名&amp

2018-06-04 00:05:49 573

原创 [统计学理论基础] 贝叶斯定理

贝叶斯定理贝叶斯定理是一种在已知其他概率的情况下求概率的方法：对于贝叶斯公式，记住AB AB AB，然后再做分组：”AB = A×BA/B”。首先，对于贝叶斯定理，还是要先了解各个概率所对应的事件。P(A|B) 是在 B 发生的情况下 A 发生的概率，也称作A的后验概率。P(A) 是 A 发生的概率，P(A)是A的先验概率或边缘概率，称作”先验”是因为它不考虑B因素。P(...

2018-05-27 19:51:43 1737

原创长尾效应

长尾效应英文名称Long Tail Effect。“头”（head）和“尾”（tail）是两个统计学名词。正态曲线中间的突起部分叫“头”；两边相对平缓的部分叫“尾”。从人们需求的角度来看，大多数的需求会集中在头部，而这部分我们可以称之为流行，分布在尾部的需求是个性化的，零散的小量的需求。而这部分差异化的、少量的需求会在需求曲线上面形成一条长长的“尾巴”，而所谓长尾效应就在于它的数量...

2018-05-27 15:57:27 14206

原创 [统计学理论基础] 方差 & 协方差 & 标准差

统计里最基本的概念就是样本的均值、方差和标准差。通过一个含有n个样本的集合，依次给出这些概念的公式描述。均值描述的是样本集合的中间点，它告诉我们的信息是很有限的，标准差描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例，[0，8，12，20]和[8，9，11，12]，两个集合的均值都是10，但显然两个集合差别是很大的，计算两者的标准差，前者是8.3，后者是1.8...

2018-05-27 15:10:23 7122

原创 [统计学理论基础] 协方差与相关系数

协方差二维随机变量（X，Y），X与Y之间的协方差定义为： Cov(X,Y)=E{[X-E(X)][Y-E(Y)]} 其中：E(X)为分量X的期望，E(Y)为分量Y的期望协方差Cov(X,Y)是描述随机变量相互关联程度的一个特征数，协方差代表了两个变量之间的是否同时偏离均值。从协方差的定义可以看出，它是X的偏差【X-E(X)】与Y的偏差【Y-E(Y)】的乘积的数学期望。由于偏差可正可...

2018-05-27 14:43:31 3563

原创 [Excel常用函数] var &var.p & var.s函数

var函数函数 VAR 假设其参数是样本总体中的一个样本。公式意义见下图：注意到图中分式的分母为n-1var.p函数函数 VAR.P计算基于整个样本总体的方差公式意义见下图：注意到图中的分式的分母为n实例用var函数求单元格区域A1：A10这一列数据的方差在单元格A13输入函数:=VAR(A1:A10)用var.p函数求单元格区域A1：A10...

2018-05-27 12:05:30 27282

原创 [Excel] 条件格式-公式条件

条件格式中公式条件用法1下面是一张销量表：需要标记表中销量大于4000的日期，具体做法如下：选中B2：B14，然后点击“条件格式”的“新建规则”；在弹出的对话框中的“选择规则类型”里面选择“使用公式确定要设置的单元格”，在公式栏中输入”=$C2&amp;gt;4000”；要注意对C2的相对引用与绝对引用，如果这里写成CCC2或者C$2格式都不会正常。因为这里的公式时相当于我...

2018-05-27 01:48:28 10691

原创 [Excel常用函数] vlookup函数

vlookup 竖直查找VLOOKUP 的语法结构VLOOKUP(lookup_value, table_array, col_index_num, [range_lookup])。即是VLOOKUP(查找值，查找范围，查找列数，精确匹配或者近似匹配）第四个参数 False 精确匹配/True 近似匹配：在我们的工作中，几乎都使用精确匹配，该项的参数一定要选择为false。否则...

2018-05-26 13:45:41 454

原创 [Excel常用函数] sumif & sumifs函数

sumif函数sumif函数是用来根据指定条件对若干单元格进行求和 sumif函数的语法格式 =sumif(range，criteria，sum_range) Sumif（条件区域，求和条件，实际求和区域），第二个求和条件参数在第一个条件区域里。在A列中的众多发货平台（条件区域）中找出各个发货平台（求和条件）的发货总量（实际求和条件）输入公式=SUMIF(A2:A13,D2,B2...

2018-05-26 13:25:34 9893 1

原创 [Excel常用函数] countif & countifs函数

countif函数1.countif函数的含义在指定区域中按指定条件对单元格进行计数（单条件计数）2.countif函数的语法格式=countif（range，criteria）参数range 表示条件区域——对单元格进行计数的区域。参数criteria 表示条件——条件的形式可以是数字、表达式或文本，甚至可以使用通配符。 Countif（条件区域，条件）3.实例...

2018-05-26 13:12:30 22608

原创 [MySQL] PRIMARY KEY 主键

SQL PRIMARY KEY 约束PRIMARY KEY 约束唯一标识数据库表中的每条记录。主键必须包含唯一的值。主键列不能包含 NULL 值。每个表都应该有一个主键，并且每个表只能有一个主键。SQL PRIMARY KEY Constraint on CREATE TABLE下面的 SQL 在 “Persons” 表创建时在 “Id_P” 列创建 PRIMARY KEY...

2018-05-26 11:15:08 8303

原创 [MySQL] 数据类型

MySQL 数据类型在 MySQL 中，有三种主要的类型：文本、数字和日期/时间类型。Text 类型：数据类型描述 CHAR(size) 保存固定长度的字符串（可包含字母、数字以及特殊字符）。在括号中指定字符串的长度。最多 255 个字符。 VARCHAR(size) 保存可变长度的字符串（可包含字母、数字以及特殊字符）。在括号中指定字符串...

2018-05-26 11:05:19 165

空空如也

空空如也