爱学习的小杠精-CSDN博客

原创 Python Matplotlib绘图的color参数可选内容

Matplotlit绘图颜色选项

2022-11-02 13:45:13 5350

原创 Python pip 国内镜像源

@PYTHON 国内pip install源很多时候python安装一些库、依赖包、打包镜像时，都会比较慢，此时可以借助国内的很多镜像源，加快库的安装速度。具体方式：pip install -i 国内镜像地址包名==x.x.x(版本号)国内常用的镜像源地址：清华：https://pypi.tuna.tsinghua.edu.cn/simple阿里云：https://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc

2021-06-04 10:07:30 413

原创 df.iplot和px如何保存动态图片

df.iplot和px如何保存动态图片df.iplotpxdf.iplot dataframe.iplot是一个非常方便的画图工具，它可以生成需要动态图片。而这种动态图片所占内存空间较大，往往在下一次打开开发界面时，图片无法显示，因此，在画图的时候，肯定很多小伙伴希望将动态图片保存出来。其实很简单，下图是df.iplot的所有参数。想要保存动态图片，仅需如下操作： fig = df.iplot(asFigure=True) fig.write_html(’/需要保存的路径’) 同时，

2020-06-09 09:41:00 1222 3

原创 VMWare虚拟机安装Ubuntu20.04详细过程

VMWare虚拟机安装Ubuntu20.04详细过程1、点击创建新的虚拟机。2、一直按下图操作，点击下一步。3、填写虚拟机名称、选择位置。点击下一步。4、点击下一步。5、根据自身电脑的配置，填写虚拟机内存。我选择2048MB。点击下一步。6、点击下一步。7、选择虚拟机硬盘容量，默认20GB。点击下一步。8、点击自定义组件。9、点击新CD/DVD等，选择使用ISO映像文件。选择事先官网下载好的镜像文件。点击关闭-完成。10、开启上述创建的虚拟机，选择中文（简

2020-05-09 11:05:34 23687 11

原创机器学习中的一些小定理（原则）

机器学习中的一些小定理（原则）总结奥卡姆剃刀原则（OR）没有免费的午餐（NFL）奥卡姆剃刀原则（OR）若有多个假设和观察一致，则选择最简单的那个。没有免费的午餐（NFL）对于样本空间和假设空间，所有的学习算法，它们总误差的期望值相等（即所有算法的学习性能与随机胡猜差不多）。重要前提：所有“问题”出现的机会相同或者所有问题同等重要。...

2020-04-28 10:31:05 313

原创 CatBoost之解决prediction shift详细介绍----原理+技巧

CatBoost之解决预测偏移预测偏移Categorical features预测偏移预测偏移，简而言之是训练样本XkX_kXk的分布F(Xk)∣XkF(X_k)|X_kF(Xk)∣Xk与测试样本XXX的分布F(X)∣XF(X)|XF(X)∣X之间产生的偏移。这种预测偏移存在于目前所有的梯度提升算法中，由目标泄露（target leakage）引起。CatBoost可以解决这一问题。...

2020-03-01 23:26:41 1754

原创 CatBoost详解--原理+类别特征处理的技巧+加速

CatBoost详解

2020-02-19 16:58:13 12202 1

原创 LightGBM详解--原理+技巧+参数

LightGBM详解

2020-02-12 15:36:04 3436

原创 XGBoost详解--原理+模型技巧

XGBoost详解

2020-01-20 17:26:07 2568

原创 EM算法----就在身边

EM算法---身边的算法贝叶斯网络

2020-01-17 17:44:14 627

原创特征选择之过滤式、包裹式、嵌入式

常见的特征选择方法特征选择过滤式选择特征选择从原始特征集合中选出对当前学习任务有用的最重要的一些特征。特征选择的原因：（1）维度灾难：由于属性过多，导致维数灾难，若通过特征选择，则能大大减轻这一问题；（2）降低学习任务的难度：去除不相关的特征，将复杂的特征只留下关键特征，降低学习任务的难度。特征选择的步骤：第一步：先产生一个“候选子集”，并评价其好坏；第二步：基于以上评价结果...

2020-01-16 23:13:36 2850

原创机器学习中类别不平衡问题

机器学习中类别不平衡的解决方法欠采样过采样再缩放--阈值移动类别不平衡是指分类任务中不同类别的训练样本数目差别很大的情况。一般而言，分类学习算法有一个共同的基本假设，即不同类别的训练样本比例相当，如果不同类别比例样本数量相差较大，则会对学习器造成干扰，故有必要对不平衡样本做处理。假定正类样本比较少，反类样本比较多。欠采样欠采样又称下采样，去除一些反类样本，使得正、反类样本数量相当，然后再进...

2020-01-14 17:29:06 831

原创梯度提升与梯度下降

梯度提升与梯度下降梯度提升梯度提升

2020-01-14 15:21:55 2645

原创聚类算法的两个基本问题----性能度量+距离计算

聚类算法的性能度量和距离计算性能度量距离计算性能度量1、性能度量的用处通过某种性能度量来评估聚类结果的好坏；可作为聚类过程的优化目标，从而找到更符合要求的聚类结果。2、性能度量的种类外部指标：将聚类结果与某个“参考模型”进行比较；内部指标：直接考察聚类结果而不利用任何模型作参考3、性能度量的计算外部指标：假设聚类给出的结果为λ\lambdaλ，参考模型给出的结果是λ...

2020-01-08 11:28:27 626

原创集成学习之个体学习器的多样性

集成模型中个体学习器的多样性误差与分歧多样性度量多样性增强误差与分歧对所有样本x，令p(x)表示样本的概率密度，则在全样本上：∑i=1Twi∫A(hi∣x)p(x)dx=∑i=1Twi∫E(hi∣x)p(x)dx−∫E(H∣x)p(x)dx\sum_{i=1}^{T} w_{i} \int A\left(h_{i} | \boldsymbol{x}\right) p(\boldsymbol...

2020-01-08 09:51:36 1417 2

原创最通俗易懂---多分类学习之OvO、OvR、MvM

多分类学习之OvO、OvR、MvM

2020-01-06 14:14:09 7809 5

原创机器学习中的算法性能假设检验--最通俗易懂

机器学习中的算法性能假设检验一个数据集、单个算法一次留出法----二项检验多次重复留出法或交叉验证法----t检验一个数据集、两个算法----交叉验证t检验一组数据集、多个算法----Friedman检验与Nemenyi检验Friedman检验Nemenyi检验一个数据集、单个算法一次留出法----二项检验m个样本的测试集上，泛化错误率为ϵ\epsilonϵ的学习器被测得测试错误率为ϵ^\h...

2019-12-25 16:11:48 2117

原创决策树详解--最通俗易懂的解释

决策树详解

2019-12-24 23:02:23 3412

qq_42003997的博客