自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(73)
  • 收藏
  • 关注

原创 【机器学习】集成算法——特牛逼的XGBoost流程和使用方法

原谅我字太丑……

2020-10-14 18:14:45 941

原创 【机器学习】集成算法——Boosting中的AdaBoost算法原理及sklearn应用

(写在前面:集成算法中基评估器可以是分类模型也可以是回归模型,因为个人习惯称基评估器为弱分类器,全文的弱分类器其实是指基评估器,而写基评估器就是基评估器,写到后面才发现这点不太严谨,后面逐步更改。另外要注意:随机森林的基评估器必定是决策树,可以是回归树也可以是分类树。XGBoost属于GBDT中的范畴,GBDT属于Boosting,Boosting的基评估器可以是回归和分类模型,而GBDT基评估器一定是回归模型,但GBDT模型虽然基是回归,但仍然可以解决分类问题,sigmoid函数)Boosting的核

2020-10-13 13:45:12 460

原创 【机器学习】集成算法——Bagging中的随机森林详细描述及sklearn应用

(写在前面:集成算法中基评估器可以是分类模型也可以是回归模型,因为个人习惯称基评估器为弱分类器,全文的弱分类器其实是指基评估器,而写基评估器就是基评估器,写到后面才发现这点不太严谨,后面逐步更改。另外要注意:随机森林的基评估器必定是决策树,可以是回归树也可以是分类树。XGBoost属于GBDT中的范畴,GBDT属于Boosting,Boosting的基评估器可以是回归和分类模型,而GBDT基评估器一定是回归模型,但GBDT模型虽然基是回归,但仍然可以解决分类问题,sigmoid函数)

2020-10-13 13:32:00 264 2

原创 【机器学习】决策树详细原理及sklearn简单应用

2020-10-11 13:04:25 128

原创 【机器学习】逻辑回归公式推导及sklearn实现logistic regression

2020-10-03 13:18:26 332

原创 【机器学习】梯度下降

2020-10-03 13:11:44 85

原创 【机器学习】线性回归——最小二乘和正则化

2020-10-03 13:04:26 520

原创 【机器学习】朴素贝叶斯

2020-09-23 17:23:58 66

原创 【机器学习】KNN算法

2020-09-18 19:10:05 108

原创 【机器学习】聚类算法——K-Means(上)

import numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as plt%matplotlib inlinefrom sklearn.datasets import make_blobsfrom sklearn.datasets import load_iris import warnings warnings.filterwarnings('ignore')...

2020-09-11 13:26:09 322

原创 【数据挖掘数学基础】11回归分析(下)

【Excel回归分析案例】:该案例应用到相关分析和回归分析(上、下)三章:链接:https://pan.baidu.com/s/1bcfVPfDahM8U8aSWyY1lLg 密码:qmvy

2020-09-08 16:30:26 139

原创 【数据挖掘数学基础】11回归分析(上)

【Excel回归分析案例】:该案例应用到相关分析和回归分析(上、下)三章:链接:https://pan.baidu.com/s/1bcfVPfDahM8U8aSWyY1lLg 密码:qmvy

2020-09-08 16:22:18 108

原创 【数据挖掘数学基础】10相关分析

【Excel回归分析案例】:该案例应用到相关分析和回归分析(上、下)三章:链接:https://pan.baidu.com/s/1bcfVPfDahM8U8aSWyY1lLg 密码:qmvy

2020-09-08 16:15:20 106

原创 【数据挖掘数学基础】09方差分析

【案例】链接:https://pan.baidu.com/s/1Gyj3DY8_Uz8Q0SGSiw6YHw 密码:hxd7

2020-09-08 16:06:08 231

原创 【数据挖掘数学基础】08列联分析

【更多案例—— Excel函数CHITEST()】链接:https://pan.baidu.com/s/1sx4YcxyLamug2Pg4PrwVeA 密码:h8xp

2020-09-08 15:59:01 176

原创 【数据挖掘数学基础】07矩阵(下)

【注意】很多软件解出来的特征向量是不一样的,正负号不一样,但大多解出来的特征向量是单位向量(即内积=1)

2020-09-08 15:49:01 135

原创 【数据挖掘数学基础】07矩阵(中)

EViews矩阵运算软件包:https://pan.baidu.com/s/1MRJsJtvdOxobln9bSMyRbQ 密码:w387EViews教程和练习:https://pan.baidu.com/s/1QECOwURxosplWRjOeQV6Gg 密码:g2dh2、矩阵的几何意义:矩阵的加减法:两两矩阵的合并或抵消 矩阵(向量)乘法:其可以平移、旋转、缩放【案例】链接:https://pan.baidu.c...

2020-08-17 14:25:01 180

原创 【数据挖掘数学基础】07矩阵(上)

2020-08-17 14:15:39 85

原创 【数据挖掘数学基础】06行列式(下)

2020-08-17 14:13:38 101

原创 【数据挖掘数学基础】06行列式(中)

所以D1=D1+D2

2020-08-17 14:03:16 114

原创 【数据挖掘数学基础】06行列式(上)

6、行列式通式计算缺点是对于高阶行列式来说其计算量会很大,那我们有没有其他办法计算呢。

2020-08-17 13:56:17 148

原创 【数据挖掘数学基础】05导数

2020-08-17 13:50:11 118

原创 【数据挖掘数学基础】04假设检验(下)

本章节主要案例为主。数据下载地址: https://pan.baidu.com/s/1kkDh16Y1kcdHtyE0sBO-Tw 密码:7fcs

2020-08-17 13:44:39 149

原创 【数据挖掘数学基础】04假设检验(上)

5、左侧检验和右侧检验合称单侧检验。双侧检验和单侧检验为统计假设检验中的两种检验形式。

2020-07-23 19:23:53 121

原创 【数据挖掘数学基础】03 估计(下)

六、【案例分享】这章《估计》理论知识是比较玄乎,实际如何运用,我们可以拿一个案例出来举例。以下是数据下载地址:https://pan.baidu.com/s/1W7o3ahpcOBzu31dIQRVpeQ 密码:az2t

2020-07-23 19:14:27 111

原创 【数据挖掘数学基础】03 估计(中)

2020-07-23 18:00:16 90

原创 【数据挖掘数学基础】03 估计(上)

假设某厂里生产了一万个零件,我们想知道这一万多个零件中有多少零件不合格,我们有两个方法,1个是全部检查一遍,另一种方法是随机抽一组零件检查来估计整体的情况,这就是我们这章主要讲的“估计”问题。第二天甲方爸爸过来收货了,厂长说,我们产品的合格率99.9%呀,甲方爸爸一听是不是很开心直接就收货,不,他们还得验货,需要检验合格率是否达标,这就是“检验”的问题。检验没问题了,厂长说,我们百年老店,质量过硬,你下次过来订货,合格率一样是99.9%。这就是“预测”的问题。估计:就是我们已经知道的样本信息来推断总体的

2020-07-23 17:45:22 169

原创 【数据挖掘数学基础】02常用分布(下)

目录四、分布(卡方分布)五、t分布六、F分布七、各分布的总结四、分布(卡方分布)1、定义:设随机变量X1,X2,……Xn相互独立,且XI(i=1,2,……,n)服从标准正态分布,则它们的平方和服从自由度为n的X2分布。2、性质特点:因卡方分布是平方和,所以分布的变量值始终为正; 分布的形状取决于其自由度n的大小,通常为不对称的正偏分布(右偏分布),但随着自由度的增大逐渐趋向对称;常用于方差的估计和假设检验,以及列联分析中; 期望为:E(x2)=n,方差为:D(x2)

2020-07-13 21:17:05 7480

原创 【数据挖掘数学基础】02常用分布(中)

目录二、正态分布三、标准正态分布二、正态分布1、表示方法:N(μ,σ2)2、正态分布是个神奇的分布,任何分布随着其自由度或样本量增大,其最终都会服从正态分布。(正态分布是所有分布的终极状态)3、概率密度函数:(f(x):概率密度,和概率是一回事,数据离散的时候叫概率,数据连续的时候叫概率密度)4、正态分布理解:从上图看,横轴是变量的值,纵轴是概率密度,即事件发生的概率,事件发生概率有小有大,但不能是负数,所以概率密度函数在x上方,即f(x)>0; 之前复习了数

2020-07-13 20:55:08 1835

原创 【数据挖掘数学基础】02常用分布(上)

咋们就先说说工作上常用到的分布:两点分布与二项分布、正态分布、标准正态分布、X2分布、t分布、F分布。目录一、两点分布与二项分布一、两点分布与二项分布1、两点分布X~B(1,p):发生X事件结果只有两种,非此即彼。且实验1次。期望E(X)=p 方差D(X)=p(1-p)2、二项分布X~B(n,p):发生X事件结果只有两种,非此即彼。但实验次数是n次,是独立事件。期望E(X)=np 方差D(X)=np(1-p)例子:假设在10个球中有3个红球,7个白球,每次摸一个球后放

2020-07-13 20:39:29 400

原创 【数据挖掘数学基础】01描述统计(下)

四、离散程度1、定义:反映各变量值远离其中心值的程度,是数据分布的一种重要特征,从另一个侧面说明了集中趋势测度值的代表程度。2、常见指标:2.1极差:一组数据最大值与最小值之差;符号:R 公式:R=max(xi)-min(xi) 理解:是测度离散程度的最简单的方法,但极易受极端值的影响,且未考虑数据的分布。2.2平均差:各变量与其均值离差绝对值的平均数;符号:Md 公式:未分组数据: 分组数据:(Mi :组中值)理解:平均差是一个很好能表...

2020-07-06 21:29:20 1027

原创 【数据挖掘数学基础】01描述统计(中)

目录一、平均指标1、定义:一组数据向其中心值靠拢的趋势。2、众数和分位数:3、均值(平均数)3.1算术平均数:3.2调和平均数:3.3几何平均数:3.4幂平均数:一、平均指标1、定义:一组数据向其中心值靠拢的趋势。2、众数和分位数:众数:属于分类数据的指标,出现次数最多的值。符号:Mo;众数的缺点:不唯一性,即有时候太多,有时候没有;优点:不受极端值影响。 分位数:符号Me。根据数据位置进行划分,可以分二等分、三等分、四等分……,而分二等分的称二分位数(也.

2020-07-06 20:49:34 685

原创 【数据挖掘数学基础】01描述统计(上)

一般刚从事或者刚接触数据分析的同学们都是从写一份分析报告开始的,那么我们应该如何去写一份完整的报告?或者说,拿到一份数据的时候,我们应该从哪几个维度方向去分析数据,这便是这章需要了解的描述统计分析。目录一、五个角度二、总量指标三、相对指标一、五个角度当我们拿到数据时可以考虑从这5个维度分析:总体规模的描述——总量指标 对比关系的描述——相对指标 集中趋势的描述——平均指标 离散程度的描述——变异指标 分布形态的描述——偏态与峰态这样看好像很难明白,我们可以拿个案例举例:

2020-07-06 20:30:00 186

原创 【数据挖掘数学基础】00前言

终于到了咋们最最最头痛的环节--统计学,是包含了高等数学的统计学。这部分我也是找回当年封尘多年的笔记又又又看了许多教材和视频,终于总结到一些有用的见解。当然楼主也是曾经的学渣,更深奥的问题也解决不了……(尽力了)真后悔当年没能加高数老师的微信,他可是帅哥啊!目录一、什么是统计学二、数据的几个概念三、数据的几个指标:总体、样本、参数、统计量一、什么是统计学统计学是一门收集、处理、分析、解释数据并从中得出结论的科学。简单的说,咋们数据分析师工作的流程有四大任务:收集数据、处理数据(即清洗

2020-07-06 20:22:42 571

原创 【MySQL基础】05常用函数

sql的函数是有很多的,我就写一下关键的几个函数。当时在上课的时候,老师有给一个课件,里面包含了比较全的常见的函数,有需要的筒子们可以下载:网盘地址:链接:https://pan.baidu.com/s/1HcCuxIU5hZiLrlZntabuaw 密码:g3lr目录一、字符串函数二、数学函数三、时期时间函数四、分组合并函数五、逻辑函数六、开窗函数七、序号函数一、字符串函数concat(str1,str2,…):合并字符串【注意】合并时,其中有个字段是nul.

2020-06-30 17:55:17 253

原创 【MySQL基础】04数据查询语言DQL(下)

一、多表查询1、定义:通过不同表中具有相同意义的关键字段,将多个表进行连接,查询不同表中的字段信息。2、连接方式:内连接([inner] join):A表和B表重合(相交)部分 select 字段1[,…] from 表1[ inner] join 表2 on 表1.key=表2.key;左连接(left join):写在join前面的是左表,除了返回满足连接条件的行,还会返回左表所有行。 select 字段1[,…] from 表1 left join 表2 o...

2020-06-30 16:56:26 92

原创 【MySQL基础】04数据查询语言DQL(上)

目录一、数据查询语言DQL:用于查询数据库表中的记录。二、运算符三、select语句书写顺序与执行顺序四、单表查询一、数据查询语言DQL:用于查询数据库表中的记录。二、运算符【注意】Between … and …:是包括两端值三、select语句书写顺序与执行顺序1、select语句书写顺序:select -> from -> [left | right | inner] join ->on -> where -> group by

2020-06-30 15:21:55 1124

原创 【MySQL基础】03数据操作语言DML

一、数据操作语言DML:是针对数据表行记录的增删修改。二、插入数据1、指定字段名插入:insert into表名(字段名1[,字段名2,...])values(字段值 1[,字段值 2,...]); 2、不指定字段名插入:insert into 表名values(字段值 1[,字段值 2,...]);【注意】需要为表中每一个字段指定值,且值的顺序须和数据表中字段顺序相同3、批量导入数据:(路径中不能有中文,并且要将‘\’改为‘\\’或‘/’)load data in...

2020-06-30 15:12:27 126

原创 【MySQL基础】02数据定义语言DDL

目录一、数据定义语言DDL:是针对数据库各种对象(数据库、视图、索引、表结构)的增删选查。二、数据库的增删选查三、数据类型四、约束条件五、数据表的增删查六、修改数据表七、总结一、数据定义语言DDL:是针对数据库各种对象(数据库、视图、索引、表结构)的增删选查。二、数据库的增删选查 查看数据库:show datebases; 创建数据库:create datebase 数据库名称;#数据库名不能和SQL关键字相同,也不能重复。 选择使用数据库:us...

2020-06-30 15:00:35 240

原创 【MySQL基础】01数据库的理解

目录一、数据库分类二、企业为什么选择关系型数据库存储数据三、表结构数据四、主流的关系型数据库五、数据库-数据库管理系统-SQL之间的关系六、为什么学mysql七、sql书写要求八、sql语言分类九、如何用数据库管理系统(数据库软件)链接服务器(数据库/本地服务器/机房)十、执行sql方法一、数据库分类1、数据库定义:按照一定的数据结构来组织、存储和管理数据的仓库。重点理解存储、管理!数据库是用来存数据的,不能在上面做分析,只能用来存和取。2、数据库类别...

2020-06-30 11:45:59 154

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除