自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 机器学习笔记(总)

机器学习: 第一周 第二周

2018-08-06 21:43:50 217

原创 特征选择

aaa

2018-08-06 21:51:36 268

原创 人工智能第2周笔记(总)

一、logistic二、SVM三、特征选择

2018-08-06 21:42:29 263

原创 人工智能第2周(SVM)

SVM

2018-08-06 21:37:16 282

原创 人工智能第2周(logistic)

一、分类问题二、分类模型的评价三、案例

2018-08-06 21:36:55 193

原创 logistic案例

1、查看输出y分类是否均衡?sns.countplot(train.target);pyplot.xlabel('target');pyplot.ylabel('Number of occurrences');2、代码#四要素import pandas as pd import numpy as npfrom matplotlib import pyplotimpo...

2018-08-06 21:36:35 787

原创 分类模型的评价

1、从案例出发假如某个班级有男生80人,女生20人,共计100人。目标是找出所有女生。现在某人挑选出50个人,其中20人是女生,另外还错误的把30个男生也当作女生挑选出来了。评估(evaluation)下他的工作。(1)accuracy(准确率):0-1损失。分类器(某人)正确分类的样本数/总样本数,即20+50/100=70%不适合不均衡数据集。举例,总人数100人,男生1人,女...

2018-08-06 21:35:39 1567

原创 集成学习与SMOTE

一、集成学习(1)EasyEnsemble算法:通常效果还不错思想:单一的容易丢失,那么就多来几次,尽量将样本都用上。对于多数样本,通过有放回抽样,形成一份子集。然后与少数样本合并训练一个模型(C1)。重复N次操作,得到N个模型(CN),最终对N个模型的结果取平均。注意:C1到CN可以并行。(2)BalanceCascade算法:效果也行对于多数样本,有效的选择一些样本,形...

2018-08-05 11:15:12 608

原创 不平衡数据分类

1、不平衡数据集举例网页中有很多广告,我们只会点击很少量我们感兴趣的广告。广告被点击  y=1  的样本要比 y=0的少很多。 信用卡欺诈,不会还款的只是少数 推荐系统,推荐的物品被购买的比例很低2、解决方案 从数据的角度:抽样 数据不是不均衡嘛,通过抽样,让它变平衡就可以了。 从算法的角度:代价敏感学习 不改动数据,就不能只考虑 正确率,还需要添加别的评价指标。于是...

2018-08-05 10:54:20 2351

原创 分类问题

1、模型的选择2、逻辑回归(普通)1、逻辑回归,虽然名为回归,本质是分类。2、怎么理解logistic函数是线性的?(1)如果用回归函数去做分类,当数据不是线性的,会有问题。(2)怎么解决呢?将非线性转为线性(这也是逻辑回归的本质)。(3)如何转呢?施加函数。(4)施加什么函数?施加logistic函数(由于图形类似S型,又称为sigmoid函数)===...

2018-08-03 20:10:19 5367

原创 KNN算法

1、KNN:K-NearestNeighbor,即k-紧邻算法。它是基于样本和实例的算法。非常简单且高效。2、k可以等于1,2,3,4.....一直到k,表示与测试样本最接近的k个样本。求测试样本与接近的样本,二者之间的距离。(1)二点之间的距离,最简单的算法就是欧式距离。          (2)sklearn中,默认:                    (3)理...

2018-08-03 18:11:24 684 1

原创 特征工程

一、前言通常,我们获得需求后,从业务的角度,思考需要哪些特征、从哪里采集这些特征。 课堂中,我们可以舍弃上面的步骤,直接使用数据即可。二、数据探索看一看数据特点,分析适合用什么样的模型去处理。1、 缺失值(1)有些模型允许有缺失值,如Xgboost,LGVM,模型实现的时候,已经考虑到将缺失值当作一种方式。(2)查找缺失值:(2.1)data.info() ...

2018-07-27 08:36:12 214

原创 人工智能第1周(案例)

目录一、数据探索二、特征工程一、数据探索前言:个人觉得 read_csv之后,第一,head()大致看下数据长成什么样第二,info()一下,看看空值多不多第三,如果属性不是很多,又比较了解业务,可有看下直方图、散点图等。如果不是的话,可有略过第三步。第四,查看两两特征相关性(***)(1)加载数据import pandas as pddata=pd...

2018-07-26 00:08:15 1830

原创 超参数

一、什么是超参数?普通参数都可以通过不断的学习(模型训练)而得到。但是一般情况下,超参数是学习不来的。它是提前定义好一系列值(一般在log范围均匀分布,如0.001 0.01 0.1 1 10 100 1000等),然后通过迭代学习,得到最好的超参数,这个过程我们称为调参,其实就是优化求解的过程。二、正则化项λ权衡 模型复杂度和正则项。正则化越弱,说明模型更加关注样本点...

2018-07-25 21:35:12 2966

原创 LARS(最小角回归)

优缺点LARS是一个适用于高维数据的回归算法。优点: 特别适合于特征维度n 远高于样本数m的情况。 算法的最坏计算复杂度和最小二乘法类似,但是其计算速度几乎和前向选择算法一样 可以产生分段线性结果的完整路径,这在模型的交叉验证中极为有用 缺点:由于LARS的迭代方向是根据目标的残差而定,所以该算法对样本的噪声极为敏感。...

2018-07-19 22:06:44 8507

原创 SVD求解

SVD求解

2018-07-19 21:57:59 1242 2

原创 岭回归与Lasso

目录一、正则项与岭回归、Lasso的关系二、怎么理解加上正则项,模型复杂度降低?三、岭回归四、Lasso一、正则项与岭回归、Lasso的关系(1)在这篇文章里,讲述了正则项与正则函数(2)正则项在机器学习中普遍存在,在做模型时,往往需要加上正则项。(3)我们希望θ越小越好(最好等于0,L0正则),如果θ很大,就容易造成模型震荡,结果会不稳定。(4)所谓的不稳定,...

2018-07-18 21:24:25 1081

原创 人工智能第1周(5-8节)

目录五、学习环境的搭建与介绍六-七-八、线性回归模型1、什么是回归?2、θ怎么求?3、为什么用最小二乘法?4、OLS又是怎么求得的θ?​5、OLS一定可以求得θ吗?6、λ的意义?五、学习环境的搭建与介绍略六-七-八、线性回归模型1、什么是回归?有监督学习,因变量y是连续的。通常我们考虑整体的θ,而无需关心θ0(截距项)。         ...

2018-07-18 21:21:31 177

原创 模型评估与选择

一、模型评估经过前面一系列的操作,我们得到了一个模型,但是如何评价这个模型好还是不好呢?很简单,用数据测试一下。==>引发2个问题:数据从何而来?评价指标是什么?【1】测试数据:测试集、校验集(1)误差越小,模型越好。(2)在校验集中,数据量不是很大时,会采用k折交叉验证。每折都会计算出一个超参数,最后超参数取平均值。(3)sklearn中,交叉验证和网格搜索合并为一...

2018-07-18 18:08:57 635

原创 梯度下降法

一、为什么用梯度下降?通过OLS(最小二乘法)得到:J(θ)=,而通过这个真的能够求得θ,但是不建议这么做,原因有二点:第一:不确定是否可逆第二:线性回归仅仅是一个特例,它可能会求得θ值。但是其他的损失函数就不一定。二、什么是梯度下降、梯度上升?梯度是多元微积分中的概念,就是值增长最快的方向。梯度为0时,可以认为是极值点,不在发生变化。求极值时,有2个优化算法:梯度上升...

2018-07-18 15:32:20 303

原创 人工智能第1周笔记(总)

一、机器学习简介与线性回归(1-3)二、机器学习简介与线性回归(4)三、机器学习简介与线性回归(5-8)四、案例

2018-07-18 15:13:20 365

原创 人工智能第1周(4节)

目录四、机器学习算法的组成部分1、机器学习的一般步骤2、奥特姆剃刀原则3、目标函数=损失函数+正则项4、损失函数分类5、过拟合与欠拟合6、正则函数7、主要的模型8、梯度下降法9、模型评估与选择 四、机器学习算法的组成部分1、机器学习的一般步骤 特征工程 通常情况下,我们得到需求后,首先要做的就是特征工程。它是数据预处理的重要组成部分。...

2018-07-18 15:07:49 287

原创 人工智能第1周(1-3节)

 目录一、一个Kaggle竞赛优胜解决方案二、机器学习任务类型三、对鱼进行分类一、一个Kaggle竞赛优胜解决方案1、在Kaggle竞赛中,优胜的解决方案具备以下特点:特征工程 模型融合 在多层上进行的学习。第一层:FM、GBDT。  第二层:GBDT、RF、VW、FM。 多种 相互之间可以互补的模型 进行组合。GBDT、RF、VW、FM进行组合。 2、...

2018-07-16 22:36:00 264

原创 spark官网首页翻译

http://spark.apache.org/ 翻译

2017-11-29 15:04:45 2235

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除