拙能胜巧nsq-CSDN博客

转载 SQL窗口函数学习

本文主要学习自：https://blog.csdn.net/qq_41805514/article/details/81772182窗口函数可以进行排序，生成序列号等一般的聚合函数无法实现的高级操作。窗口函数也称为OLAP函数，意思是对数据库数据进行实时分析处理。窗口函数就是为了实现OLAP而添加的标准SQL功能。窗口函数语法：其中[]中的内容可以省略<窗口函数> over (...

2019-11-09 22:03:56 238

本文转载自https://blog.csdn.net/u014135752/article/details/80789251，非常感谢作者的整理及分享。一：连续特征z-score标准化：这是最常见的特征预处理方式，基本所有的线性模型在拟合的时候都会做 z-score标准化。具体的方法是求出样本特征x的均值mean和标准差std，然后用（x-mean)/std来代替原特征。这样特征就变成了均值...

2019-11-09 21:30:27 1729

原创数学基础（五）：均方根误差（RMSE），平均绝对误差(MAE)，标准差(Standard Deviation)的对比

一：RMSERoot Mean Square Error,均方根误差是观测值与真值偏差的平方和与观测次数m比值的平方根。是用来衡量观测值同真值之间的偏差二：MAEMean Absolute Error ，平均绝对误差是绝对误差的平均值能更好地反映预测值误差的实际情况.三：标准差Standard Deviation ，标准差是方差的算数平方根是用来衡量一组数自身的离散程度...

2019-11-09 21:20:08 3198

原创机器学习算法系列（七）：L1正则化与L2正则化

本文主要从该博客处学习：https://blog.csdn.net/u012162613/article/details/44261657一：模型过拟合简单来讲，就是在训练集上表现很好，误差很小，准确率很高，但是在测试集中，表现很差，误差很大。第一幅图为欠拟合，第二个为正常拟合，第三个为过拟合。解决过拟合一般有两种方法：1.丢弃一些不能帮助我们预测的特征的数量。2.正则化。保留所有...

2019-11-09 21:17:29 1082

原创机器学习算法系列（六）：聚类算法（K-means,K-medoids,层次聚类）

一：聚类算法介绍在无监督算法中，用于训练的数据不需要标签。聚类算法就属于无监督算法的一种。聚类算法可以分为两大类：分割型聚类（每个样本点只能在一个类别中）k-means/k-medoids聚类层次型聚类树状的数据结构，每一层是一种分类方法。二：聚类算法的应用图像压缩相近的样本在一个类别中，距离较远的样本在不同类别中。每个类别中只存储一个代表样本。图像分割...

2019-07-10 16:37:23 2314

原创数学基础（四）：支持向量机SVM数学推导（硬间隔，软间隔，核函数）

数学基础系列博客是自己在学习了稀牛学院&网易云课堂联合举办的《人工智能数学基础》微专业后的课程笔记总结。怀着对授课讲师Jason博士无限的敬佩与感激之情，我在完整听了两遍课程之后，对这门进行了笔记整理。Jason博士用深入浅出的方式把数学知识真的是讲透彻了，我的笔记显然无法完整传达Jason博士的精彩授课内容，在此非常推荐每一个打算进入或了解AI的同学去学习这门课程！一：机器学习中的两类...

2019-07-09 12:22:54 2049 1

原创数学基础（三）：凸优化对偶理论（拉格朗日对偶函数，主对问题，强弱对偶问题）

数学基础系列博客是自己在学习了稀牛学院&网易云课堂联合举办的《人工智能数学基础》微专业后的课程笔记总结。怀着对授课讲师Jason博士无限的敬佩与感激之情，我在完整听了两遍课程之后，对这门进行了笔记整理。Jason博士用深入浅出的方式把数学知识真的是讲透彻了，我的笔记显然无法完整传达Jason博士的精彩授课内容，在此非常推荐每一个打算进入或了解AI的同学去学习这门课程！一：一般优化问题m...

2019-07-08 11:22:48 3864

原创数学基础（二）：凸优化基础（仿射集，凸集，凸优化问题）

凸优化基础数学基础系列博客是自己在学习了稀牛学院&网易云课堂联合举办的《人工智能数学基础》微专业后的课程笔记总结。怀着对授课讲师Jason博士无限的敬佩与感激之情，我在完整听了两遍课程之后，对这门进行了笔记整理。Jason博士用深入浅出的方式把数学知识真的是讲透彻了，我的笔记显然无法完整传达Jason博士的精彩授课内容，在此非常推荐每一个打算进入或了解AI的同学去学习这门课程！一：一般...

2019-07-07 18:21:35 1537 1

原创数学基础（一）：无约束优化问题

数学基础系列博客是自己在学习了稀牛学院&网易云课堂联合举办的《人工智能数学基础》微专业后的课程笔记总结。怀着对授课讲师Jason博士无限的敬佩与感激之情，我在完整听了两遍课程之后，对这门进行了笔记整理。Jason博士用深入浅出的方式把数学知识真的是讲透彻了，我的笔记显然无法完整传达Jason博士的精彩授课内容，在此非常推荐每一个打算进入或了解AI的同学去学习这门课程！一：问题引入：线性回...

2019-07-06 20:26:50 1231

原创机器学习算法系列（五）：bagging与随机森林对比及随机森林模型参数介绍

Bagging思想bagging是一种集成模型的思想。其名称来源于“bootstrap aggregating"。这种方法是用来解决模型的过拟合问题。首先说一下bootstrap方法，中文名称叫做”自助采样法“，是一种有放回的采样方法。比如说样本空间有m个样本，当通过bootstrap方法采样时，我们有放回的采样m次，得到m个样本（其中有重复）。bagging思想就是以自助采样法为基础进行的...

2019-07-01 11:01:35 6744

原创机器学习算法系列（四）：决策树回归模型

CART算法中的分类树采用基尼系数的方法来划分特征。而回归树则采用最小二乘法，生成最小二乘回归树。一：如何选择最优切分点？对每一个特征中相邻的数据取均值，作为候选切分点。假设特征有a个取值，则有a - 1 个候选切分点。然后针对每个切分点，将该特征的数据分成两部分，r1和r2。计算两部分中数据的均值c1和c2。对两部分做最小二乘。损失函数为为（y - 均值）^2，再求和。将两部分最小...

2019-06-30 20:55:07 2796 1

原创机器学习算法系列（三）：决策树分类模型

1.分类决策树介绍：决策树是树模型的基础形式。它包含一个根节点，若干个内部节点，以及若干个叶子节点。其中根节点包含全部的样本。每个内部节点代表了一个属性测试，每个子节点对应于一个决策结果（分为多少类就有多少个子节点）。决策树学习的目的在于产生一颗泛化能力强的决策树。决策树的优点：(1):直观易理解，符合人认知事物的过程。(2)应用范围广，分类回归均可以。缺点就是容易造成过拟合。需要剪枝来适当限...

2019-06-29 14:47:51 4716

原创机器学习算法系列（二）：逻辑回归

从概率分布的角度推导逻辑回归的损失函数逻辑回归是一种分类算法。y=wTx+by=\mathbf{w^{T} x}+by=wTx+b采用非线性映射：z=11+e−yz=\frac{1}{1+e^{-y}}z=1+e−y1逻辑回归一定选取sigmoid函数，其实就是把y的值从(−∞,+∞)(-\infty,+\infty)(−∞,+∞)压缩到(0,1)(0,1)(0,1)其实，逻辑回...

2019-06-29 11:13:01 230

原创机器学习算法系列（一）：线性回归（损失函数（均方误差角度，概率分布角度）正规方程法梯度下降法求解线性回归）

线性回归损失函数推导（均方误差角度，概率分布角度）正规方程法梯度下降法求解线性回归从均方误差的角度推导线性回归的损失函数线性回归是一种最基本的机器学习算法。基本形式为：y^=θ0x0+θ1x1+θ2x2+θ3x3+……=θTx\hat{y} = \theta_0x_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+……=\mathbf{\theta^Tx}y...

2019-06-28 14:10:40 2533

原创 sklearn特征选择(过滤式，包裹式，嵌入式）

sklearn特征选择实操过滤式from sklearn.feature_selection import SelectKBestfrom sklearn.datasets import load_irisiris = load_iris()x,y = iris.data,iris.targety[:5]array([0, 0, 0, 0, 0])x[:5]array([[...

2019-06-25 15:18:50 966

原创 sklearn特征工程(数值型、类别型、时间型、文本型)实操

利用sklearn做特征工程一：数值型特征1.1 对数变换（log变换）## 对数变换import numpy as nplog_age = df_train['Age'].apply(lambda x:np.log(x))1.2 MinMaxscaler（最大最小值缩放）from sklearn.preprocessing import MinMaxScalerminmax =...

2019-06-24 20:56:55 1551

原创特征选择介绍

特征选择介绍1.特征选择，顾名思义，就是要选择一部分的特征用于训练，而不使用全部的特征。那么为什么要进行特征选择？有一些特征之间的相关度太高了，会大量消耗计算资源。有一些特征可能会对预测结果有负影响。2.特征选择和降维一样吗？不一样。特征选择是剔除一部分冗余的特征，剔除的这些特征和预测的关系很小。而降维本质上是将特征映射到另一个低维空间中，但是保留了数据的大部分信息。降维后的特征发生...

2019-06-20 09:25:29 1420

原创数据采样与特征工程（数值型特征类别型特征时间型特征文本型特征）介绍

特征工程一：特征工程介绍俗话说，“巧妇难为无米之炊”。在机器学习中，数据和特征便是“米”，模型和算法便是“巧妇”。没有充足的数据、合适的特征，再强大的模型也是没有任何作用的。对于一个机器学习问题，数据和特征往往决定了结果的上限，而模型，算法只是逐步接近这个上限。所谓特征工程，就是对最原始的数据（数字，文本，图像等）进行一系列的处理，将其提炼为特征，作为输入供算法和模型使用。二：数据清洗数...

2019-06-19 20:29:59 4339

原创 python中的生成器解析

通过python中的列表生成式，我们可以快速的生成一个包含多个元素的列表，但是如果这个列表的元素很多呢（比如100万个）？这种情况下，就会大量的占用宝贵的内存空间。因此我们需要一种更有效的方法来解决这个问题。此时，**生成器(generator)**应运而出。接下来我们就看一下，什么是生成器？如果列表中的元素可以按照某种方式推算出来，那么我们就可以把这种计算方法保存下来。这种一边循环一边计算的机...

2019-02-27 17:22:44 229

原创 python中列表生成式（list comprehensions）的用法

列表生成式列表生成式的全称是list comprehensions。是python中内置的一种快速生成新列表的方法。可以由一个列表推导出另外一个新的列表。比如如果我们想要生成一个这样的列表：[1*1.2*2,3*3,4*4,…………10*10]，如果采用一般的循环的方法，代码应该这样来写：lst = []for i in range(1,11): lst.append(i*i)...

2019-02-27 15:06:04 1108

原创 'utf-8' codec can't decode byte 0xd4 in position 1,invalid continuation byte报错解决办法

读取文件时报错。这是python在读取文件时非常容易遇到的一个编码问题。解决办法是添加 encoding=‘ISO-8859-1’。

2019-02-26 16:12:48 26948 7

原创 anaconda jupyter 环境配置（windows）

1. 代码环境我们使用的python配置环境是anaconda jupyter。使用jupyter来写python代码，这已经成为了当前绝大多数python使用者的标配了。也有用pycharm写代码的，但是对于非开发人员，jupyter写代码更为简单和方便。2. 环境配置（每一步都很重要）如果你的系统里曾经安装过Python,请先卸载掉原来的版本。一定要卸载掉！否则会安装失败！请大...

2019-02-26 16:06:46 2123 1

原创 python 遍历字典遍历列表文件读写

遍历1. 遍历字典（只能遍历key值）dic = {"1":21,"2":64,"3":98}#遍历字典只是遍历key值for c in dic: print(c, end = ",")结果：1,2,3,2. 遍历输出完整的字典内容dic = {"1":21,"2":

2019-02-26 12:44:04 2703

原创 python换行方法及 cell() floor() exp() round()函数使用方法

1. python换行1.1Python 通常是一行写完一条语句，但如果语句很长，我们可以使用反斜杠()来实现多行语句a = 4b = 5 c = 6d = a + \ b + \ cprint(d)151.2 在 [], {}, 或 () 中的多行语句，不需要使用反斜杠()，例如：lst = ["中国","北京", "杭州"]lst[0]'..

2019-02-25 08:20:17 6093 1

原创 python基本语法总结

python基本语法总结1. 输入和输出1.1 输入函数input()1.2 输出函数print()2. 数据类型1. 整数2. 浮点数3. 字符串字符串的方法4.布尔值和布尔运算符3. 变量4. 数据结构4.1 list操作列表生成式 [要生成的元素 for循环条件]4.2 tuple操作4.3 字典4.4 set5. 控制流5.1 if……elif……else条件判断5.2 for循环5...

2019-02-22 20:37:28 352

拙能胜巧