自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 资源 (12)
  • 收藏
  • 关注

原创 Python运行md文件

添加。

2023-05-05 23:49:42 1181

原创 股市前复权、后复权与不复权

股市小科普

2022-12-13 09:05:20 772

原创 集成学习01_xgboost参数讲解与实战

xgboost 参数详解,实战案例,最优参数网格搜索

2022-11-06 21:37:29 2612

原创 修改Mysql的数据存储路径

MYSQL数据挖掘与DBA人员

2022-11-01 09:36:11 426

转载 python评分卡7_刻度尺实践

python评分卡刻度尺实现

2022-06-14 19:56:35 259

原创 python评分卡7_刻度尺原理

python 评分卡刻度尺讲解

2022-06-14 19:51:21 337

原创 凸优化Python实战(6)_变量轮换法_笔记

Python凸优化

2022-05-31 21:35:02 174

原创 python评分卡6_Logit例2plot_logistic_path

Python评分卡

2022-05-31 21:20:49 210

原创 python评分卡5_Logit例1_plot_logistic_l1_l2_sparsity

python logistic 例题

2022-05-31 20:49:23 157

原创 03_jupyternotebook_windows设置pyspark

1.配置环境变量pyspark是在anaconda里面安装的,默认前面spark与hadoop,java路径已经配置,这里只需要配置pyspark2.安装findsparkpip install findspark3.调用pyspark创建notebook并findspark在新建的notebook里面运行以下代码。import findsparkfindspark.init('D:\\spark-3.1.3-bin-hadoop3.2')findspark.find()'D

2022-05-30 22:22:04 278

原创 02_jupyterLab_windows设置pyspark

1.什么是JupyterProject Jupyter exists to develop open-source software, open-standards, and services for interactive computing across dozens of programming languages.[Jupyter计划的存在是为了开发开放源码软件,开放标准并且为十几种编程语言提供互动式计算服务。2.JupyterLab环境配置无论是在Windows,WSL还是Linux中配置

2022-05-30 22:16:11 495

原创 pandas_文档02_Intro_to_data_structures之DataFrame

https://pandas.pydata.org/docs/user_guide/index.html#user-guide1.DataFrameDataFrame is a 2-dimensional labeled data structure with columns of potentially different types. You can think of it like a spreadsheet or SQL table, or a dict of Series objects. I

2022-05-29 14:17:09 248

原创 凸优化Python实战(5)_一维搜索黄金分割法_笔记

2022-05-29 11:01:01 139

原创 凸优化Python实战(4)_ 解非线性规划的基本思路_笔记

2022-05-29 10:54:28 160

原创 凸优化Python实战(3)_ 无约束问题的最优化条件_笔记

2022-05-28 23:43:33 134

原创 凸优化Python实战(2)_ 非线性规划的数学模型_笔记

2022-05-28 23:39:33 102

原创 python提升算法3_XGBOOST_docs_Scikit-LearnAPI_XGBClassifier参数02

Scikit-Learn API1.fit()fit(X, y, *, sample_weight=None, base_margin=None, eval_set=None, eval_metric=None, early_stopping_rounds=None, verbose=True, xgb_model=None, sample_weight_eval_set=None, base_margin_eval_set=None, feature_weights=None, callbacks=N

2022-05-28 23:30:54 991

翻译 pandas_文档01_Intro_to_data_structures之Series

https://pandas.pydata.org/docs/user_guide/dsintro.html#dataframeIntro to data structuresWe’ll start with a quick, non-comprehensive overview of the fundamental data structures in pandas to get you started. The fundamental behavior about data types, index

2022-05-26 21:33:01 261

翻译 python_xgboost例03_evals_result评估结果

%matplotlib inline本专栏所有例题数据放在 网址[https://download.csdn.net/download/u012338969/85439555(https://download.csdn.net/download/u012338969/85439555)This script demonstrate how to access the eval metricsimport osimport xgboost as xgbdtrain = xgb.DMatrix(

2022-05-22 21:22:28 1031

翻译 python_xgboost例02_predict_leaf_indices获得叶子索引

本专栏所有例题数据放在 网址[https://download.csdn.net/download/u012338969/85439555(https://download.csdn.net/download/u012338969/85439555)%matplotlib inlineDemo for obtaining leaf indeximport osimport xgboost as xgb# load data in do trainingdtrain = xgb.DMatrix

2022-05-22 21:10:38 266

翻译 python_xgboost例01_sklearn_parallel并行

%matplotlib inlineDemo for using xgboost with sklearnfrom sklearn.model_selection import GridSearchCVfrom sklearn.datasets import fetch_california_housingimport xgboost as xgbimport multiprocessingif __name__ == "__main__": print("Parallel Para

2022-05-22 20:43:09 202

原创 python提升算法3_XGBOOST_docs_Scikit-LearnAPI_XGBClassifier_train参数01

1.XGBClassifieScikit-Learn API能一个工具搞定的,就不要太多工具,关于python_api某块,重点翻译学习Scikit-Learn API,主要翻译分类,回归,排序部分,本文重点翻译分类部分、classxgboost.XGBClassifier(*, objective=‘binary:logistic’, use_label_encoder=False, **kwargs)Bases: xgboost.sklearn.XGBModel, sklearn.base.C

2022-05-22 19:16:31 1230

原创 python数据结构与算法笔记02_常用数据结构

1.python语言Python 语言的实现基于一套精心设计的链接结构,各种复杂对象,甚至 Python 程序等,都基于独立的存储块实现,通过链接相互关联。各种数据对象的表示方式,对相关结构上各种操作的效率有着简单性的影响,也间接影响着用 Python 做的程序理解这些结构,可以帮助我们更有效地使用 Python。2.常用数据结构Python 的一些标准数据类型实际上就是非常有用的数据结构:文本序列类型 str序列类型 list 和 tuple集合类型 set 和 frozenset映射类型

2022-05-22 10:20:23 144

原创 python_imbalanced-learn非平衡学习包_02_Over-sampling过采样

Over-sampling1. A practical guideYou can refer to Compare over-sampling samplers实用指南您可以参考比较过采样采样器1.1 Naive random over-samplingOne way to fight this issue is to generate new samples in the classes which are under-represented. The most naive strategy

2022-05-22 10:11:26 1413

原创 python_imbalanced-learn非平衡学习包_01_简介

1.样本不平衡及其危害机器学习中经典假设中往往假定训练样本各类别是同等数量即各类样本数目是均衡的,但是真实场景中遇到的实际问题却常常不符合这个假设。一般来说,不平衡样本会导致训练模型侧重样本数目较多的类别,而“轻视”样本数目较少类别,这样模型在测试数据上的泛化能力就会受到影响。一个例子,训练集中有99个正例样本,1个负例样本。在不考虑样本不平衡的很多情况下,学习算法会使分类器放弃负例预测,因为把所有样本都分为正便可获得高达99%的训练分类准确率。考虑一个简单的例子,假设我们有一个关于医院患者的数据集(里

2022-05-22 10:01:16 920

原创 01_windows10配置spark与pyspark

最近重新装了系统,需要对spark与pyspark重新配置下。于是写了这篇文章,希望对从事这个行业的人员能有所帮助:1.准备阶段准备以下版本的安装包,不同的版本号之间会发生兼容性问题,如果采用版本以下不一致,建议看完本文再动手,有些本人已经踩过坑,会在下文提示。1.Anaconda3-2021.11-Windows-x86_642.jdk-8u40-windows-x643.hadoop-3.2.2.tar.gz4.scala-2.12.155.spark-3.1.3-bin-hadoop3.

2022-05-15 17:01:07 1111

原创 Python安装包的多种方式

1.pip1.1利用网络安装pip install 库名这种方法不好:第一、包之间的兼容性不会全面考虑,可能安装后,会产生冲突。解决方法:conda install第二、有时候下载速度慢解决方法 pip install 库名 -i 其他镜像网站:华为:https://repo.huaweicloud.com/repository/pypi/simple清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.

2022-05-15 13:52:57 1933

原创 python提升算法2_XGBOOST_docs_Python使用英译汉

1 Python Package Introduction由于xgboost使用文档内容较多,时间有限,此文进队文档中的Python Package Introduction(Python软件包简介)介绍给出翻译,文档网址https://xgboost.readthedocs.io/en/stable/python/python_intro.html#install-xgboost[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Yv5vVPOM-1652526423857)

2022-05-14 19:17:00 358

原创 python提升算法1_GBDT到XGBOOST

python提升算法1_GBDT到XGBOOST1 随机森林的启发随机森林构建的子树(决策树)分别采样建立,每个样本的权重值是一样的,属性随机,子树之间相对独立。针对随机森林,我们提取以下问题:1).假定已经训练得到了m-1颗决策树,是否可以通过现有样本和已经构建子树表现的信息,对第m颗子树的构建进行改造呢?2).各个子树组成随机森林后,最后的投票过程每个子树的权重一样,是否可以根据各个子树的表现情况进行调整呢?3).模型训练时,对于容易分类正确的样本与不容易分类正确的样本是否可以调节权重?2.

2022-05-14 19:12:33 349

原创 python评分卡4_logistics原理与解法_sklearn英译汉

logistics_sklearn网址Logistic regressionLogistic regression, despite its name, is a linear model for classification rather than regression. Logistic regression is also known in the literature as logit regression, maximum-entropy classification (MaxEnt) or

2022-05-14 10:44:13 321

原创 hive注意事项02_数据倾斜

hive注意事项02_数据倾斜在海量数据查询中,数据倾斜是一个很常见的场景。普通的查询,运行了几个小时也没有结果,其原因往往是发生了数据倾斜。对数据倾斜采取相应的解决方法,将会大大提高效率。1.数据倾斜任务进度长时间维持在95%以上,查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为这几个reduce处理的数据量比其他大非常多,通常可能达到数倍。 耗时远远超过平均时长。1.1关联大小表情况:这种情况下,大表中大量的key因为找不到小表中的匹配而分发不均匀。如果users表

2022-05-13 22:57:27 186

原创 hive注意事项01_空值处理

1. 空值类型1.1NULLhive中null实际在HDFS中默认存储为’\N’,通过查询显示的是’NULL’。这时如果查询为空值的字段可通过语句:col is null 或者 col =’\N’ 实现。此时可用hive中与null有关的函数,如nvl,coalesce,is null等判断是否为null是为true。产生NULL值,一般都是由hive外链接引起的。1.2 ‘’‘’ 表示的是字段不为null且为空字符串,此时用 col is null 是无法查询这种值的,必须通过 aaa =='‘或

2022-05-13 21:46:02 3513

原创 数据在Pandas,pyspark与hive中的相互转换

1. 从 PySpark DataFrame 创建 Pandas在 Spark 上完成转换后,您可以使用toPandas()方法轻松地将其转换回 Pandas 。#Convert PySpark to PandaspandasDF = pysparkDF.toPandas()注意: toPandas()方法是将数据收集到 Spark Driver 内存中的操作,因此在处理大型数据集时必须非常小心。如果收集的数据不适合 Spark Driver 内存,您将收到 OutOfMemoryExceptio

2022-05-13 21:09:52 1236

原创 凸优化Python实战(8)_牛顿法

1.原理推导1.1 牛顿法的基本原理1.2 牛顿方向1.3牛顿法的基本步骤2.牛顿法例题3.修正牛顿法3.1牛顿法的变形3.2修正牛顿法的基本步骤4.修正牛顿法例题5.代码实现代码可以在 https://github.com/HarmoniaLeo/optimization-in-a-nutshell找到,如果帮助到你,请点个star,谢谢这对博主真的很重要!本次引用Function.py和lagb.py也可以在最优化(1)_ 最优化问题概念与基本知识 找到imp

2022-05-12 22:56:46 414

原创 凸优化Python实战(7)_最速下降法

1.原理推导1.1最速下降法的基本原理1.2最速下降法的算法步骤1.3最速下降法的最优步长2.计算案例:3.总结4.代码实现代码可以在 https://github.com/HarmoniaLeo/optimization-in-a-nutshell找到,如果帮助到你,请点个star,谢谢这对博主真的很重要!本次引用Function.py和lagb.py也可以在最优化(1)_ 最优化问题概念与基本知识 找到import numpy as npfrom Function

2022-05-12 22:37:07 393 1

转载 凸优化Python实战(1)_ 最优化问题概念与基本知识

1 最优化问题1.1 什么是最优化问题1.2 名词与符号1.3 最优解条件2 用计算机求解问题2.1 迭代搜索2.2 质量评估3 最小二乘问题——无约束最优化问题实例点列的曲线拟合是我们高中开始就接触过的问题。为了寻找一个待定系数的函数,可以以最小的误差去描述点列,我们需要用到最小二乘法。有关最小二乘法可以参阅:https://www.zhihu.com/question/37031188最小二乘法是我们研究无约束最优化问题的一个出色的实例。它具有广泛的应用价值,而且目标函数的

2022-05-12 21:56:16 628

原创 python评分卡3_woe与IV分箱实现

本系列分以下章节:python评分卡1_woe与IV值python评分卡2_woe与IV分箱方法python评分卡3_woe与IV分箱实现python评分卡4_logistics回归模型原理python评分卡5_logistics回归模型实现python评分卡6_刻度与logistics模型1.Python第三方库打开网址:https://pypi.org 在搜寻框中输入 woe,如下图所示:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pTuAGG0s-

2022-05-08 22:19:26 3802 1

原创 python评分卡2_woe与IV分箱方法

本系列分以下章节:python评分卡1_woe与IV值python评分卡2_woe与IV分箱方法python评分卡3_woe与IV分箱实现python评分卡4_logistics回归模型原理python评分卡5_logistics回归模型实现python评分卡6_刻度与logistics模型1.数据分箱含义:对连续变量离散化;实际上就是按照属性值划分的子区间,可以简单理解为分段处理(不同的是对特征进行分箱后,需要对分箱后的每组woe编码进行评估,才能放进模型训练);意义:1.模型更稳定

2022-05-08 18:02:33 3651

原创 python评分卡1_woe与IV值

本系列分以下章节:python评分卡1_woe与IV值python评分卡2_woe与IV分箱方法python评分卡3_woe与IV分箱方法应用python评分卡4_logistics回归模型原理python评分卡5_logistics回归模型实现python评分卡6_刻度与logistics模型1.变量的预测能力我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些

2022-05-08 13:32:52 1371

原创 pandas10minnutes_中英对照04

10 minutes to pandas英文网址pandas10minnutes_中英对照01pandas10minnutes_中英对照02pandas10minnutes_中英对照03pandas10minnutes_中英对照04 本次主要讲以下部分:11.Plotting 绘图11.Plotting 绘图See the Plotting docs.We use the standard convention for referencing the matplotlib API:参见绘

2022-05-07 19:23:52 367

配套专栏python机器学习中python_提升算法_例题中的所有数据

配套专栏python机器学习中python_提升算法_例题中的所有数据

2022-05-22

文章《windows10配置spark与pyspark》安装包02

文章《windows10配置spark与pyspark》安装包02,安装包较多分两批上传,每批1.9元

2022-05-15

文章《windows10配置spark与pyspark》安装包01

文章《windows10配置spark与pyspark》安装包第一部分,由于文件较多,分两批上传,

2022-05-15

配套数据,用于配套代码Python评分卡3,代码实现

Python评分卡,个人代码使用的数据https://editor.csdn.net/md/?not_checkout=1&spm=1000.2115.3001.5352

2022-05-08

知识图谱(知识库构建)

讲解知识图谱的重要资料,含视频,课件和代码等,由于文件太大,放在百度网盘,3个积分,真的不多

2018-08-10

讲解机器学习中数据的视频和课件

主要介绍机器学习中的一些必要知识:最基础的部分包括基本的高等数学,比如分析、代数(尤其是矩阵论)、数值优化算法、概率论与数理统计等。 更进阶的需要掌握实分析(比如测度论)、图论、时间序列、回归分析等等。另外虽然严格来说不属于数学,但是算法的概念和数据结构的相关知识也是一定要掌握的

2018-08-10

python爬虫系统化

python爬虫方面的课程不少,但是如此分层,系统化地讲解python爬虫,由基础,强化和深入,看完它,你可以成为python爬虫高手

2018-06-10

python数据结构与算法

python方面讲解数据结构与算法的资料不多,大多只有一部分,这一份资料,较为全面,有视频加代码,方便爱好者学习

2018-06-10

机器学习算法,应用,实战

包含多部机器学习资料,如算法,应用,实战,有些有视频,课件,代码案例,

2018-06-10

自然语言处理python

我看到的最好的自然语言处理方面的资料,特意拿出来分享,已经整理好,5个积分,也不贵了

2018-06-10

机器学习升级4视频+课件+代码

机器学习课件+视频+代码,很好的资源,python版,包含众多的机器学习算法,原理,案例,python实现以及库调用等

2018-06-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除