莫虚度-CSDN博客

原创分类器性能

分类器性能混淆矩阵1.基本概念混淆矩阵用于把样本实际值（true class)和模型预测值（predicted class)进行联列表分析。如果实际样本true class 取-1，则为反例（negative),取+1则为正例（positive).如果模型预测错误，则为false,预测正确，则为真（true).最后混淆矩阵如表下所示：表中各个项的含义如下所示：

2016-05-11 22:12:11 903

原创回归分析算法

回归分析1.回归分析基本原理所谓回归分析法，就是在掌握大量观察数据基础上，利用数理统计方法建立因变量与自变量之间的回归关系函数表达式（简称为回归方程式）。回归分析是一种预测性的建模技术，它研究的是因变量（目标）和自变量（预测器）之间的关系，这种因变量与自变量的不确定性的关系（相关性关系）。这种技术通常用于预测分析，时间序列模型以及发现变量之间的因果关系。2.为什么使用回归分析？如上

2016-05-07 13:39:20 35047

原创数据挖掘--离群点检测

离群点检测R实现##设置工作空间#先用setwd设置工作空间，如D盘，并将相关数据拷贝到该目录下setwd("("D:/discrete")#读入数据Data=read.csv("D:/discrete/data/",header=T)Data=scale(Data)set.seed(12)km=kmeans(Data,center=3)print(km)k

2016-05-03 00:03:01 1360

原创数据挖掘-数据预处理模块

数据预处理在数据挖掘中，海量的原始数据中存在着大量的不完整（有缺失值）、不一致、有异常的数据，严重影响到数据挖掘建模的执行效率，甚至可能导致挖掘结果的偏差，所以进行数据清洗显得尤为重要，数据清洗完成后接着进行或者同时进行数据集成、变换、规约等一系列的处理，该过程就是数据预处理。数据预处理的主要内容包括数据清洗，数据集成，数据规约，数据变换等。1. 数据清洗1.1 缺失值

2016-05-02 00:28:20 9690

原创分类与预测

分类与预测分类和预测是预测问题的两种主要类型，分类主要是预测分类标号（离散属性），而预测主要是建立连续值函数模型，预测给定自变量对应的因变量的值。1. 实现过程1）分类分类是构造一个分类模型，输入样本的属性值，输出对应的类别，将每个样本映射到预先定义好的类别。分类模型建立在已有类标记的数据集上，模型在已有样本上的准确率可以方便的计算，所以分类属于有监督的学习。2）预测

2016-05-01 22:40:00 4188

原创数据挖掘-离群点检测

离群点检测离群点检测是数据挖掘中重要的一部分，它的任务是发现与大部分其他对象显著不同的对象。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃，然而在一些应用中，罕见的数据可能蕴含着更大的研究价值。离群点检测已经被广泛应用于电信和信用卡的诈骗检测、贷款审批、电子商务、网络入侵、天气预报等领域，如可以利用离群点检测分析运动员的统计数据，以发现异常的运动员。1)

2016-05-01 21:22:22 8696

原创时序模式

时序模式时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样，它也是用己知的数据预测未来的值，但这些数据的区别是变量所处时间的不同。1.时间序列的预处理到一个观察值序列后，首先要对它的纯随机性和平稳性进行检验，这两个重要的检验称为序列的预处理。根据检验结果可以将序列分为不同的类型，对不同类型的序列会采用不同的分析方法。对于纯随机序列，又

2016-05-01 18:20:11 11990

原创数据挖掘-关联规则

关联规则关联规则分析是数据挖掘中最活跃的研究方法之一，目的是在一个数据集中找出各项之间的关联关系，而这种关系在数据中并没有直接表示出来常用关联规则算法如下表所示：算法名称算法描述Apriori关联规则最常用也是最经典的挖掘频繁项集的算法，其核心思想是通过连接产生候选项及其支持度然后通过剪枝生成频繁项集

2016-05-01 16:18:33 2378

原创数据挖掘-聚类分析

聚类分析 1.常用聚类分析算法与分类不同，聚类分析是在没有给定划分类别的情况下，根据数据相似度进行样本分组的一种方法。与分类模型需要使用类标记样本构成的训练数据不同，聚类模型可以建立在五类标记的数据上，是一种非监督的学习算法。聚类的输入是一组未被标记的样本，聚类根据数据自身的距离或相似度将它们划分成若干组，划分的原则是组内距离最小化而组间距离最大化。常用聚类方法：

2016-05-01 10:08:41 2731

原创数据挖掘-Logistic回归建模

Logistic回归建模 Logistic回归属于概率型非线性回归，对于二分类的Logistic回归，因变量y只有“是、否”两个取值，记为“是、否“两个取值，记为0和1。假设在自变量想，x1,x2.......,xp 作用下，y取“是”的概率是p，则取“否”的概率是1-p，研究的是当y取“是”发生的概率p与自变量x1,x2,x3……, xp 的关系。Logistic

2016-04-28 08:41:06 4359

原创数据探索-特征性分析

数据探索-特征性分析分布分析分布分析能揭示数据的分布特征和分布类型。分布分析可以从定量数据的分布分析和定性数据的分布分析两个维度去展开。1. 定量数据的分布分析对于定量变量，选择“组数”和“组宽”是做频率分布分析时最主要的问题，一般按照以下步骤：1）求极差2）决定组距与组数3）决定分点4）列出频率分布表5）绘制频率分布直方图遵循的主

2016-04-28 00:13:35 1330

原创数据挖掘-数据探索

数据探索根据观测、调查收集到初步的样本数据集后，接下来要考虑的问题是：样本数据集的数量和质量是否满足模型构建的要求？有没有出现从未设想过的数据状态？其中有没有什么明显的规律和趋势？各因素之间有什么样的关联性？数据探索就是通过检验数据集的数据质量、绘制图表、计算某些特征量等手段，对样本数据集的结构和规律进行分析的过程。数据探索可以从数据质量分析和数据特征分

2016-04-27 21:35:05 4505

原创数据挖掘算法-时间序列

时间序列算法R实现setwd("D:/arima")library(forecast)library(fUnitRoots)Data=read.csv("D:/arima/data",header=T)[,2]sales=ts(Data)plot.ts(sales,xlab="时间", ylab="销量 / 元")#单位根检验unitrootTest(sales)

2016-04-26 21:59:21 970

原创数据挖掘算法-关联规则Apriori

Apriori算法R实现##设置工作空间install.packages("arules")library ( arules )#先用setwd设置工作空间，如D盘，并将相关数据拷贝到该目录下setwd("D:/apriori")#读入数据data=read.table()tr summary(tr)

2016-04-26 21:53:26 590

原创数据挖掘算法-k-means

k-means 算法R实现#先用setwd设置工作空间，如D盘，并将相关数据拷贝到该目录下setwd("D:/k-means")#读入数据Data=read.csv("D:/k-means/data")km=kmeans(Data,center=3)print(km)km$size/sum(km$size)#数据分组aaa=data.frame(Data,k

2016-04-26 07:27:55 560

原创数据挖掘算法-BP神经网络

BP神经网络R实现##设置工作空间#先用setwd设置工作空间，如D盘，并将相关数据拷贝到该目录下setwd("D:/BP")#读入数据Data=read.csv("D:/BP/data")#数据命名library(nnet)colnames(Data)###最终模型model1=nnet(y~.,data=Data,size=6,decay=5e-4,

2016-04-26 07:23:02 1102

原创数据挖掘算法-ID3决策树

ID3决策树R实现##设置工作空间#先用setwd设置工作空间，如D盘，并将相关数据拷贝到该目录下setwd("D:/ID3")#读入数据data=read.csv("D:/ID3/data")#数据命名colnames(data)#计算一列数据的信息熵calculateEntropy t sum t entropy

2016-04-26 07:19:28 576

原创数据挖掘算法逻辑回归-R实现

Logistic回归代码-R实现##设置工作空间#首先用setwd设置工作空间，如设置到D盘,并将相关数据拷贝到该目录下setwd("D:/logistic")#读入数据Data=read.csv("D:/logistic/data")#数据命名colnames(Data)#logistic回归模型glm=glm(y~x1+x2+x3+x4+x5+x6+x7+x

2016-04-26 07:05:16 1223

原创 spark源码分析-storage

Storage模块主要分为两层：1.通信层：storage模块采用的是master-slave结构来实现通信层，master和slave之间传输控制信息、状态信息，这些都是通过通信层来实现的。2.存储层：storage模块需要把数据存储到disk或是memory上面，有可能还需replicate到远端，这都是由存储层来实现和提供相应接口。而其他模块若要和storage模块进行交互，stor

2016-03-07 23:27:49 419

lightGBM vs2015 win10 环境下编译好的包

在 vs2013 win10 环境下编译好的包，可以直接python setup.py 安装

2017-08-29

xgboost python成功编译文档（基本不会出现问题，能够编译成功）

xgboost 能够编译成功，方便解决xgboost编译不成功，出现各种问题的烦恼（网上很多教程都会出现问题）

2017-07-31

IBM Spss Modeler 18 应用程序指南.pdf

IBM Spss Modeler 18 应用程序指南

2017-03-04

《R语言与网站分析》从互联网应用角度对R语言如何实现数据挖掘和指标分析等问题做了阐述。通过诸多真实应用案例的分析，作者试图为读者建立起一座沟通数学原理和互联网实际业务应用的桥梁。同时本书给出了案例中的完整代码以及分析过程，力图帮助读者充分理解R语言是如何实现算法的。, 《R语言与网站分析》是目前为止国内唯一一本阐述如何使用R语言来分析和挖掘互联网数据的应用性书籍。书中使用大量的实际案例，把数学原理同R语言实现方案有机结合起来。力图通过案例分析达到举一反三的效果，进而指导读者在日后的实际工作中进行应用。同时书中也阐述众多常用的数据分析和挖掘的方法和原理，对于非互联网的从业人员也很有指导意义

2017-03-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

lightGBM vs2015 win10 环境下编译好的包

cygwin.part3

cygwin.part2

cygwin。part1

xgboost python成功编译文档（基本不会出现问题，能够编译成功）

IBM Spss Modeler 18 应用程序指南.pdf

IBM SPSS Modeler 14.2 应用程序指南

BaiduYunGuanjia5.2.5.7_Speed

R语言与网站分析

cygwin-setup-x86_64.exe

厨房语音助理方案

win32-python2.7.3+Ipython

R数据分析方法与案例详解

python数据挖掘入门与实践（源码）.rar

ipython-2.3.1.zip

gtools_3.5.0.tar.gz

CNN模型简单介绍(LeNet,AlexNet,VGG,GoogLeNet,ResNet,GAN,R-CNN)

CNN-DNN-RNN区别

ansj_seg-5.1.1.jar

[MATLAB智能算法30个案例分析]

pyreadline-2.1.win-amd64

pywin32-218.win-amd64-py2.7

Matlab经典教程——从入门到精通

EViews7.exe

空空如也