啦啦啦12345678900000000-CSDN博客

原创数据结构之经典排序算法

常用排序算法冒泡排序(升序)从前往后两两比较，若后者比前者小，则交换，继续向后对比，每一趟排序挑选出至少一个元素在其正确位置上.冒泡排序最好的时间复杂度为O(n)O(n)O(n),最坏情况为O(n2)O(n^2)O(n2),平均时间复杂度为O(n2)O(n^2)O(n2).稳定排序。鸡尾酒排序鸡尾酒排序的原理跟冒泡排序差不多，只不过冒泡排序每一轮的比较都是从左至右依次比较，而鸡尾酒排序则...

2020-04-02 16:04:44 273

集成学习（bagging boosting）bagging并行基学习器不同，在相同的训练集上进行学习；基学习器相同，在训练集的子集上进行训练，若采样过程为有放回采样，则为bagging(bootstrap aggregating)；若为无放回采样，则为pasting，即bagging允许训练实例被一个预测器多次采样。bagging方法在训练过程中，各基分类器之间无强依赖，可以进行并行训练。为...

2020-03-28 17:40:48 502

原创机器学习经典算法之决策树

基础知识熵/信息熵：熵描述了数据的混乱程度，熵越大，混乱程度越高，也就是纯度越低；反之，熵越小，混乱程度越低，纯度越高。熵的计算公式如下所示：Entropy=−∑i=1kpilog2(pi)Entropy=-\sum_{i=1}^kp_ilog_2(p_i)Entropy=−∑i=1kpilog2(pi)条件熵：随机变量X给定的条件下随机变量YYY的条件熵H(Y∣X)=∑i=1npi...

2020-03-28 17:23:23 401

原创机器学习基础之模型评估与误差分析

模型评估（准确率，召回率，P-R曲线，ROC曲线，AUC，MSE，MAE，交叉验证等）FP：False Positive 假阳TP：True Positive 真阳FN：False Negative 假阴TN：True Negative 真阴评估指标二分类Precision（准确率)P=TPTP+FPP=\frac{TP}{TP+FP}P=TP+FPTPRecall(召...

2020-03-21 22:36:23 849

原创机器学习经典算法之感知机与支持向量机

感知机属于二分类的线性判别模型，是神经网络与支持向量机的基础。基本公式：f(x)=sign(wx+b)f(x)=sign(wx+b)f(x)=sign(wx+b)样本类别标签为y∈{+1,−1}y \in \{+1,-1\}y∈{+1,−1}损失函数：若将误分类的总数作为损失函数，不是参数w,bw,bw,b的连续可导函数，不易优化。误分类样本点到超平面的总距离−1∥w∥∑xi∈Myi(w...

2020-03-21 22:24:24 390

原创机器学习经典算法之线性模型

线性模型基本公式y^=w0+w1x1+⋯+wnxn=WTx\hat y=w_0+w_1x_1+\cdots+w_nx_n=W^Txy^=w0+w1x1+⋯+wnxn=WTx优点：1.模型简单，易于建模。2.许多复杂的非线性模型都是在线性模型的基础上添加层级结构或者高维映射而来。3.W取值可直观地表示特征属性在预测过程中的影响程度，所以具有很好的解释性。常用损失函数：MS...

2020-03-21 12:57:25 482

原创特征工程之降维

降维线性PCA（不需要标签）：可从两个角度进行理解，最大方差和最小平方误差最大方差：在信号处理领域，我们认为信号具有较大方差，噪声具有较小方差，因此我们需要寻找数据中方差较大的方向，即最大化投影方差。推导过程：原始数据为{v1,v2,⋯ ,vn}\{v_1,v_2,\cdots,v_n\}{v1,v2,⋯,vn},经过中心化变为{x1,x2,⋯ ,xn}\{x_1,x_2,\cdo...

2020-03-19 12:36:24 342

原创 python中list相关的BUG记录

1.list循环里面改变listlist循环中remove：if __name__=='__main__': list = [1,2,3,7,5,6,4] for ele in list: if ele == max(list): list.remove(ele) print(ele) print(list)运...

2019-07-19 10:51:34 330

原创遗传算法上机系列之用遗传算法求函数最值问题（附自己写的代码）

本文基于下面的最值问题进行求解： maxf(x1,x2)=21.5+x1sin(4πx1)+x2sin(20πx2)\ max f(x_1,x_2)=21.5+x_1sin(4\pi x_1)+x_2sin(20\pi x_2) maxf(x1,x2)=21.5+x1sin(4πx1)+x2sin(20πx2) −3.0≤x1≤12.1\ -3.0\l...

2018-11-03 20:22:47 3294 1

原创 Azure简单使用教程

这段时间在做调研，我们小组负责了解微软的Azure的情况，按照官网教程，我搭建了一遍官网示例——汽车价格预测，过程如下：一、创建模型1.获取数据若要进行机器学习，首先需获取数据。可以使用机器学习工作室随附的多个示例数据集，也可以从多种源导入数据。本示例将使用工作区中包含的示例数据集“汽车价格数据(原始)”。此数据集包含各辆汽车的条目，包括制造商、车型、技术规格、价格等方面的信息。...

2018-07-31 12:38:57 16480 1

原创美团西安美食部分爬虫（修改版）（python）

#美团美食# -*- coding:UTF-8 -*-import requestsimport timefrom bs4 import BeautifulSoupimport jsonimport csvimport randomwith open(r'C:\Users\Hanju\Desktop\美团西安美食.csv',"w", newline='',encoding='UTF...

2018-06-21 11:50:21 8392 2

原创利用python处理两千万条数据的一些经验（仅供自己记录）

5.3老板交给我一个任务，简单处理一些数据，三个CSV文件，每个都是2.3G大小，以下是要求看着觉得很easy，兴冲冲地去搞了，当时还是用的notepad++写python代码，对于python来说，表里面的要求利用分片，替换等都可以完成，只剩下最后的滤重比较麻烦，想来想去，用了最笨的方法，遍历，还是两重的，时间复杂度瞬间飙到了n平方，代码跑了一晚上，还没跑出结果，于是放弃这个蠢办法，查了查数据清...

2018-05-10 16:50:33 42279 6

明天，你好