xiaogao2017-CSDN博客

原创机器学习笔记（总）

机器学习：第一周第二周

2018-08-06 21:43:50 217

原创特征选择

aaa

2018-08-06 21:51:36 268

原创人工智能第2周笔记（总）

一、logistic二、SVM三、特征选择

2018-08-06 21:42:29 263

原创人工智能第2周（SVM）

SVM

2018-08-06 21:37:16 282

原创人工智能第2周（logistic）

一、分类问题二、分类模型的评价三、案例

2018-08-06 21:36:55 193

原创 logistic案例

1、查看输出y分类是否均衡？sns.countplot(train.target);pyplot.xlabel('target');pyplot.ylabel('Number of occurrences');2、代码#四要素import pandas as pd import numpy as npfrom matplotlib import pyplotimpo...

2018-08-06 21:36:35 787

原创分类模型的评价

1、从案例出发假如某个班级有男生80人，女生20人，共计100人。目标是找出所有女生。现在某人挑选出50个人，其中20人是女生，另外还错误的把30个男生也当作女生挑选出来了。评估(evaluation)下他的工作。（1）accuracy（准确率）：0-1损失。分类器（某人）正确分类的样本数/总样本数，即20+50/100=70%不适合不均衡数据集。举例，总人数100人，男生1人，女...

2018-08-06 21:35:39 1567

原创集成学习与SMOTE

一、集成学习（1）EasyEnsemble算法：通常效果还不错思想：单一的容易丢失，那么就多来几次，尽量将样本都用上。对于多数样本，通过有放回抽样，形成一份子集。然后与少数样本合并训练一个模型（C1）。重复N次操作，得到N个模型（CN），最终对N个模型的结果取平均。注意：C1到CN可以并行。（2）BalanceCascade算法：效果也行对于多数样本，有效的选择一些样本，形...

2018-08-05 11:15:12 608

原创不平衡数据分类

1、不平衡数据集举例网页中有很多广告，我们只会点击很少量我们感兴趣的广告。广告被点击 y=1 的样本要比 y=0的少很多。信用卡欺诈，不会还款的只是少数推荐系统，推荐的物品被购买的比例很低2、解决方案从数据的角度：抽样数据不是不均衡嘛，通过抽样，让它变平衡就可以了。从算法的角度：代价敏感学习不改动数据，就不能只考虑正确率，还需要添加别的评价指标。于是...

2018-08-05 10:54:20 2351

原创分类问题

1、模型的选择2、逻辑回归(普通)1、逻辑回归，虽然名为回归，本质是分类。2、怎么理解logistic函数是线性的？（1）如果用回归函数去做分类，当数据不是线性的，会有问题。（2）怎么解决呢？将非线性转为线性（这也是逻辑回归的本质）。（3）如何转呢？施加函数。（4）施加什么函数？施加logistic函数（由于图形类似S型，又称为sigmoid函数）===...

2018-08-03 20:10:19 5367

原创 KNN算法

1、KNN：K-NearestNeighbor，即k-紧邻算法。它是基于样本和实例的算法。非常简单且高效。2、k可以等于1,2,3,4.....一直到k，表示与测试样本最接近的k个样本。求测试样本与接近的样本，二者之间的距离。（1）二点之间的距离，最简单的算法就是欧式距离。（2）sklearn中，默认：（3）理...

2018-08-03 18:11:24 684 1

原创特征工程

一、前言通常，我们获得需求后，从业务的角度，思考需要哪些特征、从哪里采集这些特征。课堂中，我们可以舍弃上面的步骤，直接使用数据即可。二、数据探索看一看数据特点，分析适合用什么样的模型去处理。1、缺失值（1）有些模型允许有缺失值，如Xgboost，LGVM，模型实现的时候，已经考虑到将缺失值当作一种方式。（2）查找缺失值：（2.1）data.info() ...

2018-07-27 08:36:12 214

原创人工智能第1周（案例）

目录一、数据探索二、特征工程一、数据探索前言：个人觉得 read_csv之后，第一，head()大致看下数据长成什么样第二，info()一下，看看空值多不多第三，如果属性不是很多，又比较了解业务，可有看下直方图、散点图等。如果不是的话，可有略过第三步。第四，查看两两特征相关性（***）（1）加载数据import pandas as pddata=pd...

2018-07-26 00:08:15 1830

原创超参数

一、什么是超参数？普通参数都可以通过不断的学习（模型训练）而得到。但是一般情况下，超参数是学习不来的。它是提前定义好一系列值（一般在log范围均匀分布，如0.001 0.01 0.1 1 10 100 1000等），然后通过迭代学习，得到最好的超参数，这个过程我们称为调参，其实就是优化求解的过程。二、正则化项λ权衡模型复杂度和正则项。正则化越弱，说明模型更加关注样本点...

2018-07-25 21:35:12 2966

原创 LARS（最小角回归）

优缺点LARS是一个适用于高维数据的回归算法。优点：特别适合于特征维度n 远高于样本数m的情况。算法的最坏计算复杂度和最小二乘法类似，但是其计算速度几乎和前向选择算法一样可以产生分段线性结果的完整路径，这在模型的交叉验证中极为有用缺点：由于LARS的迭代方向是根据目标的残差而定，所以该算法对样本的噪声极为敏感。...

2018-07-19 22:06:44 8507

原创 SVD求解

SVD求解

2018-07-19 21:57:59 1242 2

原创岭回归与Lasso

目录一、正则项与岭回归、Lasso的关系二、怎么理解加上正则项，模型复杂度降低？三、岭回归四、Lasso一、正则项与岭回归、Lasso的关系（1）在这篇文章里，讲述了正则项与正则函数（2）正则项在机器学习中普遍存在，在做模型时，往往需要加上正则项。（3）我们希望θ越小越好（最好等于0，L0正则），如果θ很大，就容易造成模型震荡，结果会不稳定。（4）所谓的不稳定，...

2018-07-18 21:24:25 1081

原创人工智能第1周（5-8节）

目录五、学习环境的搭建与介绍六-七-八、线性回归模型1、什么是回归？2、θ怎么求？3、为什么用最小二乘法？4、OLS又是怎么求得的θ？5、OLS一定可以求得θ吗？6、λ的意义？五、学习环境的搭建与介绍略六-七-八、线性回归模型1、什么是回归？有监督学习，因变量y是连续的。通常我们考虑整体的θ，而无需关心θ0（截距项）。 ...

2018-07-18 21:21:31 177

原创模型评估与选择

一、模型评估经过前面一系列的操作，我们得到了一个模型，但是如何评价这个模型好还是不好呢？很简单，用数据测试一下。==>引发2个问题：数据从何而来？评价指标是什么？【1】测试数据：测试集、校验集（1）误差越小，模型越好。（2）在校验集中，数据量不是很大时，会采用k折交叉验证。每折都会计算出一个超参数，最后超参数取平均值。（3）sklearn中，交叉验证和网格搜索合并为一...

2018-07-18 18:08:57 635

原创梯度下降法

一、为什么用梯度下降？通过OLS（最小二乘法）得到：J(θ)=，而通过这个真的能够求得θ，但是不建议这么做，原因有二点：第一：不确定是否可逆第二：线性回归仅仅是一个特例，它可能会求得θ值。但是其他的损失函数就不一定。二、什么是梯度下降、梯度上升？梯度是多元微积分中的概念，就是值增长最快的方向。梯度为0时，可以认为是极值点，不在发生变化。求极值时，有2个优化算法：梯度上升...

2018-07-18 15:32:20 303

原创人工智能第1周笔记（总）

一、机器学习简介与线性回归（1-3）二、机器学习简介与线性回归（4）三、机器学习简介与线性回归（5-8）四、案例

2018-07-18 15:13:20 365

原创人工智能第1周（4节）

目录四、机器学习算法的组成部分1、机器学习的一般步骤2、奥特姆剃刀原则3、目标函数=损失函数+正则项4、损失函数分类5、过拟合与欠拟合6、正则函数7、主要的模型8、梯度下降法9、模型评估与选择四、机器学习算法的组成部分1、机器学习的一般步骤特征工程通常情况下，我们得到需求后，首先要做的就是特征工程。它是数据预处理的重要组成部分。...

2018-07-18 15:07:49 287

原创人工智能第1周（1-3节）

目录一、一个Kaggle竞赛优胜解决方案二、机器学习任务类型三、对鱼进行分类一、一个Kaggle竞赛优胜解决方案1、在Kaggle竞赛中，优胜的解决方案具备以下特点：特征工程模型融合在多层上进行的学习。第一层：FM、GBDT。第二层：GBDT、RF、VW、FM。多种相互之间可以互补的模型进行组合。GBDT、RF、VW、FM进行组合。 2、...

2018-07-16 22:36:00 264

原创 spark官网首页翻译

http://spark.apache.org/ 翻译

2017-11-29 15:04:45 2235

xiaogao2017的博客