choven_meng-CSDN博客

1、最优分箱def optimal_binning_boundary(x, y, nan=-999, params1=10, params2=0.05): ''' 利用决策树获得最优分箱的边界值列表 ''' boundary = [] # 待return的分箱边界值列表 x = x.fillna(nan).values # 填充缺失值 y = y.values clf = DecisionTreeClassifie

2021-08-02 14:02:56 770

原创变量分析图

def catPlot(df,feature,target, figsize=(14, 6), ylim=False, save=False, filename=None): feature_name = feature.capitalize() df_temp = df.copy() df_temp[feature] = df_temp[feature]#.fillna(-1) tmp = pd.crosstab(df_temp[feature], df_temp[t...

2021-07-09 15:35:37 293

原创各算法参数详解

一、树模型决策树分类模型

2021-05-24 14:47:25 429

原创逻辑回归详解

逻辑回归通常用于解决分类问题，比如：客户是否该买某个商品，借款人是否会违约等。实际上，“分类”是逻辑回归的目的和结果，中间过程依旧是“回归”，因为通过逻辑回归模型，我们得到的是0-1之间的连续数字，即概率，类似借款人违约的可能性。然后给这个可能性加上一个阈值，就变成了分类。逻辑回归与线性模型的关系逻辑回归是线性模型，但属于广义线性模型。普通线性模型与广义线性模型的联系：1、普通线性模型普通线性模型的表达式：是截距项，是未知参数。普通线性模型具备以下特点：响应变量y服从正.

2020-10-16 18:35:40 10101 1

原创样本数据集不平衡处理方式

原始数据中经常存在正负样本不均衡，比如正负样本的数据比例为100：1.常用的解决办法有：1、数据上处理2、权重设置3、集成的思想4、转化成异常检测问题5、利用深度学习：自编码器.6、确定适合样本不平衡问题的评价指标1、数据上处理1.1、数据源：　　搜集更多的数据来使数据达到平衡，但是一般出现样本不平衡问题，就是不太可能以一种简单的方法获取到更多的样本（在金融领域，可以思考坏用户的定义是否过于严格）1.2、数据增广：目前数据增广主要应用于图像领域，...

2020-10-14 15:44:54 4581

原创数据预处理

1、数据预处理2、特征选择特征选择是特征工程里的一个重要问题，其目标是寻找最优特征子集。特征选择能剔除不相关或冗余的特征，从而达到减少特征个数，提高模型精度，减少运行时间的目的。另一方面，选取出真正相关的特征简化模型，协助理解数据产生的过程。...

2020-10-14 15:33:18 8387

原创排序算法

目录一、插入排序1、直接插入排序2、希尔排序三、选择排序1、简单选择排序2、堆排序三、交换排序1、冒泡排序2、快速排序四、归并排序五、基数排序一、插入排序1、直接插入排序直接插入排序的核心思想就是：将数组中的所有元素依次跟前面已经排好的元素相比较，如果选择的元素比已排序的元素小，则交换，直到全部元素都比较过。因此，从上面...

2018-11-09 18:34:29 189

原创爬取猫眼电影相关信息

import jsonimport reimport requestsfrom requests.exceptions import RequestException#定义抓取一个页面代码def get_one_page(url): headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) Apple...

2018-11-07 10:54:01 380

原创聚类算法

聚类指事先并不知道任何样本的类别标号，希望通过某种算法来把一组未知类别的样本划分成若干类别，聚类的时候，我们并不关心某一类是什么，我们需要实现的目标只是把相似的东西聚到一起，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了，因此 clustering 通常并不需要使用训练数据进行学习，这在机器学习中被称作 unsupervised learning （无监督学习）通常，人们根据样...

2018-11-02 00:14:41 4824 2

原创模型融合：stacking&blending

对于机器学习和深度学习来说，用单模型的效果往往都没有进行模型融合后的效果好。对模型来说，我们需要选择具有多样性、准确性的模型，对于融合的方式来说也有很多种，比如最简单的取平均或者投票法就是一种。这里主要讲一下stacking和blending，二者都是用了两层的模型。1.stackingstacking也是一种模型融合的方法，首先，直接用所有的训练数据对第一层多个模型进行k折交叉验证，...

2018-10-08 18:38:36 1734 3

原创集成学习—Boosting、Bagging

目录集成学习1、Boosting1.1、AdaBoost1.2、GBDT1.3、XGBoost2、Bagging2.1、随机森林3、Boosting与Bagging对比集成学习集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统(multi-classifier system).如下图，集成...

2018-09-28 17:45:53 2567

原创决策树—ID3、C4.5、CART

目录一、决策树模型与学习1、决策树模型2、决策树学习二、特征选择1、信息增益2、信息增益率三、决策树的生成1、ID3算法2、C4.5算法3、CART算法四、决策树停止分裂的条件五、连续值和损失值处理决策树（decision tree）是一种基本的分类与回归方法。决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程，可以认为...

2018-09-28 15:26:04 21449 6

原创机器学习/数据挖掘知识整理

目录一、常用排序算法二、正负样本不平衡处理方法总结三、过拟合和欠拟合1、过拟合2、欠拟合四、向量的相似度计算常用方法五、模型参数和超参数六、模型评价1、准确率Accuracy、查准率(精确率)precision、查全率(召回率)recall、F1:2、ROC与AUC3、KS（洛伦兹曲线）评分一、常用排序算法二、正负样本不平衡处理方法总结原...

2018-09-21 01:55:40 2642

原创 selenium和pyquery爬取淘宝美食商品信息

1、用selenium自动爬取淘宝美食的商品信息，先定义search方法，该方法用来在搜索框中输入“美食”，然后点击搜索按钮。浏览器加载需要时间，要判断浏览器加载成功再执行下一步的操作，其使用方法可在python-selenium官网查看waits相关的介绍，部分代码复制粘贴即可。设置的条件要在指定的时间内加载出来，否则会抛出异常，使用try回归这个方法。Input为搜索框，submit为搜索

2017-11-22 15:25:31 1456

原创 ajax动态抓取今日头条街拍美图

1、分析网站源码。网站是局部动态变化，offset变化加载内容，变化范围为0，20，40···首先要获取索引页代码数据，定义索引页，由于是ajax请求，offset根据索引变化0、20、40···，用requests获取网页代码，urlcode将字典转换为url请求参数，然后异常处理，根据url_code状态码判断请求是否成功，返回文本格式，最后定义main函数调用。可根据可变

2017-11-20 14:33:34 1770

转载 selenium学习笔记

官方api：http://selenium-python.readthedocs.io/api.html#1、访问网页from selenium import webdriver#声明浏览器对象，使用ie浏览器brower=webdriver.Ie()brower.get('https://taobao.com')print(brower.page_source) #输出

2017-11-16 16:00:24 308 1

转载利用requests和正则表达式re爬取猫眼电影top100，并下载图片

利用requests和正则表达式re爬取猫眼电影top100，并下载图片

2017-11-15 20:38:34 554

转载 python网络爬虫学习笔记

python网络爬虫学习笔记

2017-10-26 19:33:50 365

原创正则表达式

正则表达式

2017-10-26 18:22:36 223

转载 python.scrapy爬虫-xpath查询语法

xpath查询语法1、查询标签中带有某个class属性的标签：//div[@class=’c1’]即子子孙孙中标签是div且class=‘c1’的标签。2、查询标签中带有某个class=‘c1’并且自定义属性name=‘alex’的标签：//div[@class=’c1’][@name=’alex’] 3、查询某个标签的文本内容：//div/span/text()

2017-10-11 13:38:43 516

转载 python网络数据采集学习范例-通过互联网采集

这个程序从http://oreilly.com 开始，然后随机地从一个外链跳到另一个外链from urllib.request import urlopenfrom bs4 import BeautifulSoupimport reimport datetimeimport randompages = set()random.seed(datetime.datetime

2017-10-08 20:54:55 1031 1

转载 python网络数据学习范例-正则表达式+lambda函数

from urllib.request import urlopenfrom bs4 import BeautifulSoupimport rehtml = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html,"html.parser")images = bsObj.fin

2017-10-06 13:58:40 722

choven_meng的博客

原创规则组合方法

原创特征处理-分箱