自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 项目实训记录(记录12)

A为偏移量offset,B为比例因子factor,logistic回归中默认阈值等于0.5,即p=0.5,此时score=A,即评分阈值为A,p(违约率)越小,score越大,因此评分值大于于A的应该判断为违约,评分值越高,违约率越低。...

2021-07-29 17:00:10 36

原创 项目实训记录(记录11)

在分类模型评估中,最常用的两种评估标准是K-S值和AUC值,AUC值可以在样本不均衡的情况下准确评估模型的好坏,而K-S值不仅能够评估预测的准确与否,还能度量模型对好坏客户是否有足够的区分度。...

2021-07-29 16:57:19 46

原创 项目实训记录(记录10)

评分卡分数计算 评分卡设定的分数刻度值通过将分值表示为比率对数的线性表达式来定义 score = A –Blog(Odds) , 其中Odds = p/(1-p) ,p为违约概率 常数AB可以通过两个已知假设分值带入到公式中,通常需要以下两个假设: - 在某个特定比率设定特定的预期分值 - 指定比率翻倍的分数PDO ...

2021-07-29 16:56:36 47

原创 项目实训记录(记录9)

AUC在机器学习领域中是一种模型评估指标。根据维基百科的定义,AUC(area under the curve)是ROC曲线下的面积。所以,在理解AUC之前,要先了解ROC是什么。而ROC的计算又需要借助混淆矩阵,因此,我们先从混淆矩阵开始谈起。混淆矩阵假设,我们有一个任务:给定一些患者的样本,构建一个模型来预测肿瘤是不是恶性的。在这里,肿瘤要么良性,要么恶性,所以这是一个典型的二分类问题。假设我们用y=1表示肿瘤是良性,y=0表示肿瘤是恶性。TP表示预测为良性,而实际也是良性的样例数;FN表示预测为恶

2021-07-18 10:07:31 91

原创 项目实训纪录(纪录8)

Logistic回归模型的适用条件 因变量为二分类的分类变量或某事件的发生率,并且是数值型变量。但是需要注意,重复计数现象指标不适用于Logistic回归。 残差和因变量都要服从二项分布。二项分布对应的是分类变量,所以不是正态分布,进而不是用最小二乘法,而是最大似然法来解决方程估计和检验问题。 自变量和Logistic概率是线性关系 各观测对象间相互独立。 原理:如果直接将线性回归的模型扣到Logistic回归中,会造成方程二边取值区间不同和普遍的非直线关系。因为Lo

2021-07-15 19:40:16 56

转载 项目实训纪录(纪录7)

原文出处:http://www.cnblogs.com/pinard/p/6035872.html1. 概述    在scikit-learn中,与逻辑回归有关的主要是这3个类。LogisticRegression, LogisticRegressionCV 和logistic_regression_path。其中LogisticRegression和LogisticRegressionCV的主要区别是LogisticRegressionCV使用了交叉验证来选择正则化系数C。而LogisticReg

2021-07-15 19:36:41 47

原创 项目实训纪录(纪录6)

标准化和归一化处理1.概念与机理许多学习算法中成本/损失/目标函数的基础都是假设所有的特征都是零均值并且具有同一阶数上的方差。如果某个特征的方差比其他特征大几个数量级,那么它就会在学习算法中占据主导位置,从而导致其它特征被淹没。例如:在KNN中需要计算样本之间的距离,选用的距离度量为欧式距离。如果直接计算,则绝对值大的特征在距离计算的时候起决定性作用,而绝对值较小的特征几乎被忽略。因此,当存在阶数差异的多个特征时,就有必要进行处理,而标准化和归一化提供了相应的方法。标准化和归一化的优点:提升

2021-07-10 20:57:51 49

原创 项目实训纪录(纪录5)

2.技术与实现(1)操作流程对数据进行逻辑回归建模的过程一般包括:数据准备装载数据集,熟悉数据结构和含义必要的预处理操作:处理缺失/重复值、文本字段的数值化转换、标准化/归一化处理拆分训练集和测试集模型训练使用训练集训练模型,获取最优的权重参数。可以使用批量梯度下降算法、随机梯度下降算法来获得最优权重参数必要的情况下可以调整某些超参数(例如阈值KKK、惩罚系数λ\lambdaλ等),本例将引入L2惩罚系数作为超参数性能验证使用训练好的模型预测新的样本(包括测试样本)使

2021-07-08 09:42:02 57

原创 项目实训纪录(纪录4)

1.概念与机理(1)逻辑回归模型判别式逻辑回归的模型判别式为:ℎ????(????)=????(????0????0+????1????1+⋯+????????????????)=????(∑????????=0????????????????)=????(????∗????)hw(x)=g(w0x0+w1x1+⋯+wdxd)=g(∑i=0Dwdxd)=g(x∗w)其中:????0,????1,…,????????x0,x1,…,xd为特征,????D为特征的总数 ????0,????1,…

2021-07-08 09:38:09 93

原创 项目实训纪录(纪录3)

数据预处理中,对于不同的数据可以进行不同的处理方式。对于缺失值缺失值产生的三种机制以教育程度(自变量/特征)和收入水平(因变量/结果)关系的调查数据为例,考察收入水平字段的缺失情况:完全随机缺失(Missing Completely At Random,MCAR):缺失的数据与自身和其它任何变量都没有关系 与自身无关:不管收入高的人还是收入低的人,都有同样的缺失率或缺失可能性;而不是:收入高的人有更多的理由或原因缺失数据,或者反之 与其它变量无关:不管教育程度高还是低,收入水平字段都

2021-07-04 07:55:19 78

原创 项目实训纪录(纪录2)

在数据处理中,发现虽然 python的数据处理十分简单但是可解释的太少了,对于某种数据处理之后,输出的是什么,输出的类型是什么对下面继续要做的处理有很大的影响。不过在pandas的数据处理中最多不过是三种数据结构,numpy、 dataframe和Series,因此在数据处理中,如果出现问题就可以先对数据类型进行分析,然后进行修改即可保证数据处理的正常进行。...

2021-07-04 07:48:38 112

原创 项目实训纪录(纪录1)

在项目实训的开始阶段,通过老师给的资料对 python的各种库进行学习。也终于体会到了,python的代码简洁度。在我使用传统的JAVA思路进行思考写法的时候,例子给出了一行代码解决的方法。在今天的数据处理中,dataframe对于数据的整理以及筛选方法让我吃惊,功能齐全并且效率高。例如求最小值最大值df['MonthlyIncome'].min()df['MonthlyIncome'].max()去掉包含空值的行df = df.dropna(how='any')以及loc函数

2021-07-01 15:17:57 54

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除