自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据客

聚焦数据分析、数据挖掘的基础知识和心得,分析工具Python、BI、Excel等的使用、统计学技术知识、机器学习算法。

  • 博客(75)
  • 收藏
  • 关注

原创 Google 开源运筹工具OR-Tools安装和使用

OR-Tools简介、安装和用法示例,用法示例为一个线性规划问题

2024-03-22 08:51:54 863

原创 图及谱聚类商圈聚类中的应用

对某些业务应用,需要将几个到十几个商圈划成一片,按商圈片进行运营,本文介绍了一种使用谱聚类对商圈进行聚类的方法

2023-11-05 22:57:21 428

原创 深度学习-tensorflow 使用keras进行深度神经网络训练

深度学习网络的训练可能会很慢、也可能无法收敛,本文介绍使用keras进行深度神经网络训练的加速技巧,包括解决梯度消失和爆炸问题的策略(参数初始化策略、激活函数策略、批量归一化、梯度裁剪)、重用预训练层方法、更快的优化器算法,以及学习率的调度策略。

2023-05-03 11:43:53 2081 1

原创 深度学习-Tensorflow Keras使用函数式API构建复杂模型

在深度学习中,并非所有的网络结构都是顺序神经网络,还存在非顺序神经网络,比如有多个输入或者输出的网络,比较典型的是“Wide&Deep”网络(Heng-Tze Cheng et al.,Wide & Deep Learning for Recommender Systems), 此时就需要使用函数式API来构建复杂的网络了。

2023-04-09 17:58:17 396

原创 深度学习-Tensorflow使用Keras进行模型训练

本文以FasionMNIST/加州房价数据集为例,介绍KerasAPI进行分类问题/回归问题模型训练的方法

2023-03-19 11:17:24 2472 1

原创 机器学习-集成学习(模型融合)方法概述

模型融合方法广泛应用于机器学习中,其原因在于,将多个学习器进行融合预测,能够取得比单个学习器更好的效果,实现“三个臭皮匠,顶一个诸葛亮”,其原因在于通过模型融合,能够降低预测的偏差和方差。本文对模型融合中常见的三种方法进行一个简要介绍:包括Bagging、Boosting、Stacking.........

2022-08-13 11:09:31 1926

原创 李沐:机器学习者进阶学习建议

MCU计算机博士、亚马逊首席科学家、B站《动手深度学习》课程讲师沐神对机器学习者进阶学习的建议

2022-08-07 16:32:13 345

原创 机器学习在竞赛和工业界应用区别

机器学习在竞赛和工业界应用是有很大区别的,竞赛通常关注极致的评价指标,而工业应用会在满足应用标准的前提下,会更加关注模型的稳定性、可解释性和领域专家知识的应用

2022-07-24 16:31:23 375

原创 Python数据分析操作-时间序列

本文为python时间数据处理方法笔记,分享工作中实用的时间数据处理方法,后续持续更新

2022-07-09 12:09:25 547

原创 Linux系统下使用kaggle API下载竞赛数据

在参加Kaggle竞赛或者学习训练时,需要将数据下载到本地或者服务器上。Kaggle提供了2种下载方法,一种是普通的web下载,一般本地的windows/mac系统建议采用这种方法,另外一种是kaggle API下载方法,建议在Linux服务器上使用。......

2022-06-06 08:54:48 1534

原创 三步在MacOS Anaconda安装ligthGBM

三步在MacOS Anaconda安装ligthGBM

2022-01-03 17:40:46 2570 2

原创 机器学习-集成学习-提升树-LightGBM

GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,该模型具有训练效果好、不易过拟合等优点。在各种数据挖掘竞赛中也是致命武器,据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。而LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点

2022-01-02 12:30:52 298

原创 机器学习-集成学习-提升树-Xgboost

xgboost 的全称是eXtreme Gradient Boosting,由华盛顿大学的陈天奇博士提出,在Kaggle的希格斯子信号识别竞赛中使用,因其出众的效率与较高的预测准确度而引起了广泛的关注。GBDT算法只利用了一阶的导数信息,xgboost对损失函数做了二阶的泰勒展开,并在目标函数之外加入了正则项对整体求最优解,用以权衡目标函数的下降和模型的复杂程度,避免过拟合。所以不考虑细节方面,两者最大的不同就是目标函数的定义,接下来就着重从xgboost的目标函数定义上来进行介绍。

2022-01-02 11:47:41 428

原创 机器学习-集成学习-梯度提升决策树(GBDT)

提升树(Boosting Tree)是以分类树或者回归树位基本分类器到提升方法,提升树被认为是统计学习中性能最好的方法之一Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重(Ada Boosting),或者让新的预测器对前一个预测器到残差进行拟合(GBDT)。预测时,根据各层分类器的结果的加权得到最终结果。

2022-01-01 21:34:03 2678

原创 机器学习-集成学习:随机森林(Random Forest)

内容参考:https://github.com/NLP-LOVE/ML-NLP/tree/master/Machine%20Learning/3.1%20Random%20Forest​​​​​略做修改0.集成学习如果你随机向几千专家询问一个复杂的问题,然后汇总他们的回答,在许多情况下,你会发现,这个汇总的答案比最好的那个专家回答得要好。同样,如果你聚合一组预测器(比如分类器或者回归器)的预测,得到的预测结果也比最好的单个预测器要好,这种聚合一组预测器来进行预测的方法,称为集成学习。例如..

2021-12-27 20:41:01 2216

原创 机器学习-决策树(Decision Tree)

内容参考自:ML-NLP/Machine Learning/3.Desition Tree at master · NLP-LOVE/ML-NLP · GitHub,有修改1. 什么是决策树1.1 决策树的基本思想其实用一下图片能更好的理解LR模型和决策树模型算法的根本区别,我们可以思考一下一个决策问题:是否去相亲,一个女孩的母亲要给这个女海介绍对象。大家都看得很明白了吧!LR模型是一股脑儿的把所有特征塞入学习,而决策树更像是编程语言中的if-else一样,去做条件判断,这就是根本性的区

2021-12-25 21:04:44 484

转载 [转载]Mac使用vim命令修改配置文件内容

在服务器上部署服务,需要用到jar包起服务,但是不可避免的jar内容有时候需要自己修改配置来适用不同的服务器所在的一个网络环境。不同于windows修改jar包配置文件内容:用压缩工具直接打开jar包修改并保存即可。mac上并没有这样简单易用的mac版工具,于是就打算直接用VIM来实现修改jar包配置文件内容的操作。Vim是一个类似于Vi的著名的功能强大、高度可定制的文本编辑器,下面介绍并使用

2021-12-25 17:55:02 308

原创 机器学习-逻辑斯蒂回归(Logistic Regression)

注:内容转自https://github.com/NLP-LOVE/ML-NLP/tree/master/Machine%20Learning,略有修改。目录逻辑1. 什么是逻辑斯蒂回归2. 什么是Sigmoid函数3. 损失函数是什么4.可以进行多分类吗?5.逻辑斯蒂回归有什么优缺点6. 逻辑斯蒂回归有哪些应用7. 逻辑斯蒂回归常用的优化方法有哪些7.1 一阶方法7.2 二阶方法:牛顿法、拟牛顿法:8. 逻辑斯特回归为什么要对特征进行离散化。9. 逻辑回

2021-12-12 17:55:23 2821

原创 机器学习-线性回归(Linear Regression)

1.什么是线性回归线性:两个变量之间的关系是一次函数关系的——图象是直线,叫做线性。 非线性:两个变量之间的关系不是一次函数关系的——图象不是直线,叫做非线性。 回归:人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算回归到真实值,这就是回归的由来。2. 能够解决什么样的问题对大量的观测数据进行处理,从而得到比较符合事物内部规律的数学表达式。也就是说寻找到数据与数据之间的规律所在,从而就可以模拟出结果,也就

2021-12-05 16:57:44 1456

原创 scikit_learn中fit()/transform()/fit_transform()区别和联系

函数功能解释fit()根据训练集数据学习得到数据集的特征,比如均值、中位数、标准差等等transform()将fit()学到数据集特征,应用到数据集,比如学习到数据集平均数为6,应用到填充数据中的缺失值fit_transform() = fit()+transform()即将从数据集中学到的特征(均值、中位数、标准差)应用到数据集中举例此处以使用均值填充缺失值举例>>> import numpy as np>>> from skl.

2021-11-29 22:08:23 1865

转载 线性代数知识汇总(转载)

发现一片对线性代数的知识点做了非常好的总结性文章,记录下来,供以后查阅。线性代数知识汇总_MyArrow的专栏-CSDN博客_线性代数

2021-10-30 16:47:12 286

转载 Python+Matplotlib制作动画

转载自:https://www.cnblogs.com/endlesscoding/p/10308111.html看到一篇觉得非常不错的Python+Matplotlib制作动画的方法

2021-09-04 22:02:38 224

转载 SVD(奇异值分解)小结

转载自:https://www.cnblogs.com/endlesscoding/p/10033527.html注:奇异值分解在数据降维中有较多的应用,这里把它的原理简单总结一下,并且举一个图片压缩的例子,最后做一个简单的分析,希望能够给大家带来帮助。...

2021-09-04 21:49:28 82

原创 Python中可变数据类型和不可变数据类型

python中数据类型(红色为可变类型)1、字符串 str2、布尔类型 bool3、整数 int4、浮点数 float5、元组 tuple6、日期 date7、列表 list8、字典 dict9、集合 set可变类型和不可变类型的定义这个定义是基于内存地址来说的可变数据类型:变量引用的数据类型,在更改数值的时候,存在不开辟新内存的行为,此数据类型为可变数据类型。不可变数据类型 :变量引用的数据类型,在更改数值的时候,不存在不开辟新内存的行...

2021-08-07 06:52:03 3898 3

转载 Python地理可视化工具包 folium介绍

本文内容转载自:https://www.cnblogs.com/feffery/p/9282808.html一、简介  folium是js上著名的地理信息可视化库leaflet.js为Python提供的接口,通过它,我们可以通过在Python端编写代码操纵数据,来调用leaflet的相关功能,基于内建的osm或自行获取的osm资源和地图原件进行地理信息内容的可视化,以及制作优美的可交互地图。其语法格式类似ggplot2,是通过不断添加图层元素来定义一个Map对象,最后以几种方式将Map对象展现出来。

2021-07-22 16:37:30 3569 1

转载 [转载]sql(hive)中变量的使用

文章来源:https://zhuanlan.zhihu.com/p/89062863我们在学 Python 或者其他编程语言的时候都应该有学过变量这么一个东西,可是 Sql 这种查询语言中怎么也有变量呢?具体有什么用呢?我们来看一下实际应用场景。现在有这么一个表 t ,表结构如下:time1 表示浏览日期,time2 表示加购物车日期,time3 表示下订单日期,time4 表示收货日期。这四个日期有什么关系呢?就是都有可能不相等,也有可能都相等,还有可能部分相等。如果我们想要

2021-03-07 21:49:24 5735 1

原创 支持向量机原理及scikit-learn实现

引言支持向量机(SVM)是一个功能强大并且全面的机器学习模型,它能够执行线性或者非线性分类、回归,甚至异常值检测任务。它是机器学习最受欢迎的模型之一,任何对机器学习感兴趣的人都应该在工具箱中配置一个。SVM特别适用于中小型复杂数据分类。目录引言线性可分和线性不可分线性可分数学定义(二维):线性可分情况下的最优分隔平面线性可分情况下最优分隔平面的数学理论(优化理论)二次规划问题线性不可分情况下的最优分隔平面少数样本导致线性不可分情况大量样本线性不可分情况线性不可

2021-02-17 22:09:46 579

原创 机器学习模型训练问答

内容主要来自Aurelien Geron《Hands-on Machine Learning withi Scikit-Learn&TensorFlow》线性回归1. 如果训练集超过百万个特征,你需要选择什么线性回归算法进行训练?答:使用随机梯度下降(SGD)或者小批量梯度下降(mini-batch gradient descent),如果内存允许,甚至也可以使用批量梯度下降(batch gradient descent),但是由于计算复杂度随特征数增加而快速上升(比二次方还高),因此,

2021-01-31 19:17:09 2539

原创 线性回归模型算法原理及Python实现

线性回归方程线性回归模型的一般表达式:转换为向量表达形式为:训练线性回归模型,主要是得到一组向量,使得均方误差MSE(成本函数)最小参数求解方法一:标准方程MSE为凸函数,有唯一最优解(最小值),为了求解,可以令MSE对求偏导数为0,得到解:手动求解线性回归方程现在我们来使用标准方程计算:import numpy as npX = 2 * np.random.rand(100, 1) # 生存100 X 1维向量(均匀分布随机数)y = 4 + ...

2021-01-24 18:17:55 1988

原创 Pandas数据分析常用数据操作(3年总结)

原创文章,转载请注明来源,谢谢导入设置import odpsimport numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] # matplotlib画图中文支持plt.rcParams['axes.unicode_minus']=False # matplotlib画图

2021-01-09 20:48:56 1550 1

原创 嵩天-Python语言程序设计程序题--第九周:Python计算生态纵览

前言:嵩天老师的《Python语言程序设计课程》被评为国家精品课程,在幕课上累计超过11万学员,里面的习题对初学者入门Python,提高编程实战能力很有帮助。因此,我想把自己学习这门课程作业分享出来,与大家一起学习交流。目录系统基本信息获取描述输入输出示例二维数据表格输出描述输入输出示例系统基本信息获取描述获取系统的递归深度、当前执行文件路径、系统最大UNICODE编码值等3个信息,并打印输出。‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪

2020-12-02 20:17:42 230

原创 嵩天-Python语言程序设计程序题--第八周:程序设计方法学

前言:嵩天老师的《Python语言程序设计课程》被评为国家精品课程,在幕课上累计超过11万学员,里面的习题对初学者入门Python,提高编程实战能力很有帮助。因此,我想把自己学习这门课程作业分享出来,与大家一起学习交流。目录英文字符的鲁棒输入描述输入输出示例数字的鲁棒输入描述输入输出示例英文字符的鲁棒输入描述获得用户的任何可能输入,将其中的英文字符进行打印输出,程序不出现错误。‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬

2020-11-21 17:51:24 434

原创 嵩天-Python语言程序设计程序题--第七周:文件和数据格式化

前言:嵩天老师的《Python语言程序设计课程》被评为国家精品课程,在幕课上累计超过11万学员,里面的习题对初学者入门Python,提高编程实战能力很有帮助。因此,我想把自己学习这门课程作业分享出来,和大家一起学习交流目录文件行数文件字符分布文件独特行数CSV格式列变换CSV格式数据清洗文本的平均列数 描述 输入输出示例CSV格式清洗与转换 描述 输入输出示例文件行数打印输出附件文件的有效行数,注意:空行不计算为有效行数。‪‬‪...

2020-11-21 16:58:17 1603

原创 嵩天-Python语言程序设计程序题--第六周:组合数据类型

前言:嵩天老师的《Python语言程序设计课程》被评为国家精品课程,在幕课上累计超过11万学员,里面的习题对初学者入门Python,提高编程实战能力很有帮助。因此,我想把自己学习这门课程作业分享出来,和大家一起学习交流目录实例9:基本统计值计算描述输入输出示例实例10:文本词频统计 -- Hamlet描述输出样例人名独特性统计描述输入输出示例字典翻转输出描述输入格式输入输出示例《沉默的羔羊》之最多单词描述输入格式输出格式输入输出示例

2020-11-14 17:08:41 3820

原创 文本字符串中提取数据进行分析

需求在进行数据分析的时候,有时候会碰到需要从文本字符串中提取需要的数据来进行分析的情况,这种需求在网络爬虫数据分析非常常见。比如,需要下列表格“基础薪资规则”字段中提取阶梯单量和价格。而且表格中,大部分规则是4档单量和价格,也有部分是3档规则和价格。格式为:第1档单量 第2档单量 第3档单量 第4档单量 第1档价格 第2档价格 第3档价格 第4档价格 200 250 300 9999 3.8 4.8 5.0

2020-11-09 20:44:45 1125

原创 嵩天-Python语言程序设计程序题--第五周:函数和代码复用

前言:嵩天老师的《Python语言程序设计课程》被评为国家精品课程,在幕课上累计超过11万学员,里面的习题对初学者入门Python,提高编程实战能力很有帮助。因此,我想把自己学习这门课程作业分享出来,希望对Python初学者有所帮助目录实例7:七段数码管绘制描述实例8:科赫雪花小包裹描述任意累积描述输入输出示例斐波那契数列计算描述输入输出示例汉诺塔实践描述输入格式输出格式输入输出示例随机密码生成描述输入输出示例连续质数计算描

2020-11-08 10:12:37 590

原创 Python中都全局变量和局部变量

定义全局变量:函数体之外定义的变量局部变量:函数体之内定义的变量下述代码中,t是全局变量,m是局部变量t = 1def func(x): m = 2 return x//m规则1. 局部变量和全局变量是不同的变量,即使变量名相同局部变量是函数中的占位符,与全局变量可能重名,但不是同一个变量 函数运行结束后,局部变量被释放 可以使用global保留字在函数中使用全局变量看下面两个例子:例1: 全局变量s=100,局部变量s=3628800,函数调用完

2020-10-31 17:14:44 7112

原创 嵩天-Python语言程序设计程序题--第四周:程序的控制结构

前言:嵩天老师的《Python语言程序设计课程》被评为国家精品课程,在幕课上累计超过11万学员,里面的习题对初学者入门Python,提高编程实战能力很有帮助。因此,我想把自己学习这门课程作业分享出来,希望对Python初学者有所帮助目录实例5:身体质量指数BMI描述输入输出示例实例6:圆周率的计算描述输入输出示例整数的加减和描述输入格式输入输出示例三位水仙花数描述输入输出示例用户登录的三次机会描述输入输出示例四位玫瑰数输入输出.

2020-10-31 13:33:09 561

原创 plotly之甘特图绘制

应用场景时间顺序的数据分析往往需要用到甘特图,比如骑手出勤的时间分析,商户出餐的时间分析等等plotly有一个专门绘制甘特图的模块figure_factory.create_gantt(),可以很方便地绘制甘特图。函数参数说明plotly.figure_factory.create_gantt(df,colors=None,index_col=None,show_colorbar=False,reverse_colors=False,title='GanttChart',bar...

2020-10-27 21:48:29 3465 5

转载 python格式化输出之format用法

这篇博客总结不错https://www.cnblogs.com/lovejh/p/9201219.html

2020-10-18 09:57:12 159

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除