逆光mlz-CSDN博客

原创图——提供并查集或者BFS、DFS的前提

1 图与 DFS现在你总共有 n 门课需要选，记为 0 到 n-1。在选修某些课程之前需要一些先修课程。例如，想要学习课程 0 ，你需要先完成课程 1 ，我们用一个匹配来表示他们: [0,1]给定课程总量以及它们的先决条件，返回你为了学完所有课程所安排的学习顺序。可能会有多个正确的顺序，你只要返回一种就可以了。如果不可能完成所有课程，返回一个空数组。示例 1:输入: 4, [[1,0...

2020-03-28 12:06:43 145

原创求连通域及分组情况——并查集的使用

简介在计算机科学中，并查集是一种树型的数据结构，用于处理一些不交集（Disjoint Sets）的合并及查询问题。有一个联合-查找算法（Union-find Algorithm）定义了两个用于此数据结构的操作： Find：确定元素属于哪一个子集。它可以被用来确定两个元素是否属于同一子集。 Union：将两个子集合并成同一个集合。由于支持这两种操作，一个不相交集也常被称为联合-查找数据结构...

2020-03-28 11:00:02 690

原创回溯算法的两种形式——python刷题笔记

回溯算法本质是DFS的一种，先选择一条路一直走到底发现不符合要求了再返回在寻路的过程中，如果可以提前发现不符合要求，则提前终止即为剪枝78.子集问题给定一组不含重复元素的整数数组 nums，返回该数组所有可能的子集（幂集）。说明：解集不能包含重复的子集。示例:输入: nums = [1,2,3]输出:[[3],[1],[2],[1,2,3],[1,3],[2,3...

2020-03-09 11:54:33 896

原创吴恩达机器学习配套作业2.2正则化逻辑回归 python实现

在训练的第二部分，我们将要通过加入正则项提升逻辑回归算法。简而言之，正则化是成本函数中的一个术语，它使算法更倾向于“更简单”的模型（在这种情况下，模型将更小的系数）。这个理论助于减少过拟合，提高模型的泛化能力。这样，我们开始吧。设想你是工厂的生产主管，你有一些芯片在两次测试中的测试结果。对于这两次测试，你想决定是否芯片要被接受或抛弃。为了帮助你做出艰难的决定，你拥有过去芯片的测试数据集，从其中你...

2019-08-15 15:10:19 303

原创吴恩达机器学习配套作业2.1逻辑回归 python实现

在这部分的练习中，你将建立一个逻辑回归模型来预测一个学生是否能进入大学。假设你是一所大学的行政管理人员，你想根据两门考试的结果，来决定每个申请人是否被录取。你有以前申请人的历史数据，可以将其用作逻辑回归训练集。对于每一个训练样本，你有申请人两次测评的分数以及录取的结果。为了完成这个预测任务，我们准备构建一个可以基于两次测试评分来评估录取可能性的分类模型。import numpy as np i...

2019-08-14 15:19:38 238

原创吴恩达机器学习配套作业1.1多变量线性回归 python实现

在本部分的练习中，需要预测房价，输入变量有两个特征，一是房子的面积，二是房子卧室的数量；输出变量是房子的价格。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltdata = pd.read_csv('D:\yuxin\data_sets\ex1data2.txt',header=None,names=[...

2019-08-14 09:01:35 422

原创吴恩达机器学习配套作业1.0单变量线性回归 python实现

在本部分的练习中，您将使用一个变量实现线性回归，以预测食品卡车的利润。假设你是一家餐馆的首席执行官，正在考虑不同的城市开设一个新的分店。该连锁店已经在各个城市拥有卡车，而且你有来自城市的利润和人口数据。您希望使用这些数据来帮助您选择将哪个城市扩展到下一个城市import numpy as npimport matplotlib.pyplot as pltimport pandas as p...

2019-08-14 08:55:16 396

原创一天一个机器学习算法——XGBoost原理及实践

2018-12-27 15:25:54 181

原创一天一个机器学习算法——Adaboost详解

Adboost是boosting（提升）方法中最具代表性的一种，在分类问题中，boosting通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。对提升方法来说，有两个问题需要回答：一是在每一轮如何改变训练数据的权值或概率分布；二是如何将弱分类器组合成一个强分类器。关于第一个问题，Adaboost的做法是，提高那些在前一轮被分错的样本的权值，这样一来，那些没有得到...

2018-12-16 22:02:26 177

原创一天一个机器学习算法——Logistic与softmax回归超详细笔记

2018-12-12 18:55:51 190

原创一天一个机器学习算法——线性回归超详细笔记

在学习了几个机器学习算法之后，发现自己有许多地方一知半解，便决定潜心将每个算法搞明白。在学习时，还是觉得手写笔记要习惯一点，所以这一系列都会是手写版的比较详细的原理推导~ 字写得不好请见谅~...

2018-12-11 21:47:40 326

原创 EM算法基于sklearn 处理鸢尾花数据实战

今天我们用EM算法对鸢尾花数据进行分类处理，EM算法的原理较为复杂，我会总结之后再发出来。我们先来实战看一下EM算法的强大之处。EM算法是无监督的分类，而我们的鸢尾花数据是已知类别的，所以我们在处理时直接忽略掉类别之一列，任务三个特征是符合三个独立的高斯分布混合得到，仅仅通过分析特征数据的均值、方差，来判断出这三个类别。1.首先导入包import numpy as npfrom sklea...

2018-12-11 11:22:57 7494 7

原创 K-Means聚类进行图像处理实战

在K-Means聚类算法原理中，我们对K-Means的原理做了总结，本文我们就来讨论用scikit-learn来学习K-Means聚类。重点讲述如何选择合适的k值。1. K-Means类概述在scikit-learn中，包括两个K-Means的算法，一个是传统的K-Means算法，对应的类是KMeans。另一个是基于采样的Mini Batch K-Means算法，对应的类是MiniBatchK...

2018-12-08 21:29:00 4531

原创密度聚类之DBSCAN算法原理

DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法，和K-Means，BIRCH这些一般只适用于凸样本集的聚类相比，DBSCAN既可以适用于凸样本集，也可以适用于非凸样本集。下面我们就对DBSCAN算法的原理做一个总结。1. 密度聚类原理DBSCAN是一种...

2018-12-08 09:48:44 2144

转载聚类之K-Means算法原理

K-Means算法是无监督的聚类算法，它实现起来比较简单，聚类效果也不错，因此应用很广泛。K-Means算法有大量的变体，本文就从最传统的K-Means算法讲起，在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法。1. K-Means原理初探K-Means算法的思...

2018-12-07 20:27:05 534

原创 SVM—支持向量机处理不均衡数据实战

前面讲到随机森林和逻辑回归对较为均衡的数据的处理效果都很不错，那么对于不均衡的数据，比如某一个特征占绝大多数，而另一个特征仅仅只有很少一点。对于这种数据，用SVM去处理是较为方便的。下面直接通过代码来介绍1.首先导入包import numpy as npfrom sklearn import svmimport matplotlib.colorsimport matplotlib.py...

2018-12-06 20:36:03 3818 1

原创 XGBoost及随机森林处理kaggle—Titanic数据实战

一、什么是XGBoostXGBoost是使用梯度提升框架GBDT实现的高效、灵活、可移植的机器学习库，是GBDT的一个C++实现。它将树的生成并行完成，从而提高学习速度。一般来说，XGBoost的速度和性能都要优于skearn.ensamble.GradientBoostingClassifier类。官网为https://xgboost.readthedocs.io/en/latest/二、...

2018-12-04 19:37:01 1823 1

原创提升boosting之Adaboost算法原理

AdaBoost实则是模型为加法模型、损失函数为指数函数、学习算法为前向分步算法时的二类学习方法。具体过程如下：1.设训练数据集T2.初始化训练数据的权值分步3.使用具有权值分步为Dm的训练数据集学习，得到基本分类器4.计算GM（x）在训练数据集上的误差率5.计算GM（x）的系数6.更新训练数据集的权值分步7.注意这里的Zm是规范化因子目的是使权值和为18.构建基本分类...

2018-12-03 20:47:08 148

原创随机森林处理鸢尾花数据实践

下面介绍随机森林处理鸢尾花数据的python实践，不清楚随机森林原理的科研参考我的笔记https://blog.csdn.net/qq_43468729/article/details/84722248开始撸代码~~首先导入相关包并进行数据预处理import numpy as npimport matplotlib.pyplot as pltimport matplotlib as mp...

2018-12-02 20:24:30 3916

原创决策树对鸢尾花数据的处理实践

学习了决策树和随机森林的相关理论知识，让我们来动手实践吧~ 还是从熟悉的鸢尾花数据入手首先导入相关包和进行数据预处理，预处理方法可以见https://blog.csdn.net/qq_43468729/article/details/84678701这里就不重复写了。接着建立pipline模型model = Pipeline([ ('ss', StandardScaler()),...

2018-12-02 20:15:19 2084

原创决策树与随机森林超详细笔记原理与方法

一、决策树1、决策树 1.决策树是一种树形结构，其中每个内部节点表示在一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。 2.决策树的学习是以实例为基础的归纳学习 3.决策树学习采用的是自顶向下的递归方法，其基本方法是以信息熵为度量构造亦可熵值下降最快的树，到叶子节点处的熵值为零，此时每个叶节点的实例都属于同一类。2、决策树学习算法的特点 1.决策树学习算法的...

2018-12-02 17:28:36 3017 6

原创逻辑回归处理鸢尾花数据实战

自己在尝试用逻辑回归处理鸢尾花数据时，遇到了很多坑，在这里分享一下代码和作图原理。1.首先导入包： import numpy as np from sklearn.linear_model import LogisticRegression import matplotlib.pyplot as plt import matplotlib as mpl from sklearn ...

2018-12-01 21:24:34 2126

原创线性回归原理及简单代码实现

一、概述：初次接触机器学习，发现最困难的一点是对于各种算法的理解，本系列博客将总结自己学到的机器学习相关算法以及简单的代码实现。首先是回归算法的相关心得。二、线性回归：1.定义：线性回归在假设特证满足线性关系，根据给定的训练数据训练一个模型，并用此模型进行预测。为了了解这个定义，我们先举个简单的例子；我们假设一个线性方程 Y=2x+1, x变量为商品的大小，y代表为销售量；当月份x =5时...

2018-12-01 10:52:25 446

原创 Logistic回归与softmax回归算法原理

Logistic回归参数估计1.一般不用线性回归做分类Logistic回归实则是对数的线性回归2.将θ套上一层sigmoid函数再得到目标函数得到目标函数为：取对数，化简。再对θ求偏导：3.Logistic回归参数的学习规则：可以发现与线性回归的结论很相似：不同之处在于Logistic回归的h(x)为套上了一层sigmoid函数的θ，其sigmoid输出就是一个概率。...

2018-12-01 10:41:52 364 1

逆光mlz