无峥-CSDN博客

原创优秀算法博客汇总

决策树 - 参考：decision Tree（Python 实现）http://blog.csdn.net/dream_angel_z/article/details/45965463SVM 支持向量机 - 参考：pluskid 支持向量机三重境界http://blog.pluskid.org/?page_id=683Adaboost - 参考：组合算法 - Adaboost...

2018-10-13 21:27:58 1464

TensorFlow以及Keras里面在处理多分类时有sparse_categorical_crossentropy和categorical_crossentropy。两者的区别在于训练的Label的形态：one-hot： categorical_crossentropyInteger number: sparse_categorical_crossentropy另外tensorflow官方源码中列举了相关参数： Args: from_logits: Whether `y_pred`

2020-05-26 13:29:59 502

原创 PyPlot画图总结

综述在可视化中需要考虑的基本元素是：画布！单图t = np.arange(0., 5., 0.2)"""figure用来定义画布的基本属性"""plt.figure(1)"""画折线图的函数（x，y，line_shape）；如果要在一张图中画多条线直接在后面排就行。"""plt.plot(t, t, 'r--',t, t**2, 'bs', t, t**3, 'g^')plt.show()line1，line2，line3 = plt.plot(t, t, ‘r–’,t, t2

2020-05-26 13:28:41 459

原创关于那些axis

看过特别多的博客，都是在抽象的解释什么方向啊坐标轴啊啥的，估计作者后面自己也混淆了。特别当我看到这篇博客的时候恍然大悟啊。使用这个参数时一定要记得，自己操作的矩阵每个维度代表什么含义！！例如： # 使用一张图片测试神经网络的性能 img = test_images[1] print(img.shape)-->(28, 28) # tensorflow中要求（batch_size,rows,cols）三元组的形式输入模型中，因此必须在第一个维度上拓展出新的来。则axis=0

2020-05-26 13:27:31 284

原创 TF练习——第一个完整项目

Copyright 2018 The TensorFlow Authors.Basic regression: Predict fuel efficiencyNote: 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为，所以无法保证它们是最准确的，并且反映了最新的官方英文文档。如果您有改进此翻译的建议，请提交 pull request 到tensorflow/docs GitHub 仓库。要志愿地撰写或者审核译文，请加入[email protected]

2020-05-26 13:26:43 757

翻译 SQL-WINDOW

SQL高级功能SQL优化

2020-05-26 13:25:12 480

原创 RDD、DataFrame、DataSet

在Spark中这三种数据格式十分重要，是使用Spark的基础中的基础。自己刚开始也一直比较模糊，所以写篇文章记录一下作为备用。DataSet算子合集整体算子RDD和DataFrame上图左侧的RDD[Person]虽然以Person为类型参数，但是对Spark框架来说它无法解析得到Person的内部具体结构，但是我们可以通过代码具体控制每个元素的转化。而DataFrame增加一个schema结构，里面记录了每列的字段类型和名称。所以：DataFrame=RDD[Row]+schema；DataF

2020-05-26 13:08:35 157

原创 Spark算子

Spark有许多常用算子，这里结合几篇文章做一下备份，方便自己后面快速查阅。本篇文章主要分析每个算子的应用方法，后面写到RDD、DataSet和DataFrame区别的时候会从算子的数据类型转变的进行进一步分析。Transformationmapmap的输入变换应用于RDD中的所有元素。scala> val array = Array(1,2,3,4)array:Array[Int] = Array(1, 2, 3, 4)scala>array.map(x=>(x,"spa

2020-05-22 12:58:32 288 1

翻译 2 Features Engineering for Machine Learning中文翻译系列（二）

来自于github项目，点击查看二、简单数字的奇特技巧在深入研究诸如文本和图像这样的复杂数据类型之前，让我们先从最简单的数字数据开始。它们可能来自各种来源：地理位置或人、购买的价格、传感器的测量、交通计数等。数字数据已经是数学模型容易消化的格式。这并不意味着不再需要特征工程。好的特征不仅代表数据的显著方面，而且符合模型的假设。因此，转换常常是必要的。数字特征工程技术是基础。当原始数据被转换为数...

2018-10-21 21:33:20 945

翻译 1 Features Engineering for Machine Learning中文翻译系列（一）

来自于github项目，点击查看一、引言机器学习将数据拟合到数学模型中来获得结论或者做出预测。这些模型吸纳特征作为输入。特征就是原始数据某方面的数学表现。在机器学习流水线中特征位于数据和模型之间。特征工程是一项从数据中提取特征，然后转换成适合机器学习模型的格式的艺术。这是机器学习流水线关键的一步，因为正确的特征可以减轻建模的难度，并因此使流水线能输出更高质量的结果。从业者们认为构建机器学习流水...

2018-10-21 21:00:19 1012

原创 3.MapReduce

一、结构完成一个MapReduce过程需要以下几步，input、map、combine（可选）、shuffle、reduce和output。其中shuffle居于核心的位置。下面逐一来看这些过程。二、input &amp;amp;amp; map 源码分析&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;使用HDFS上的文件作为MapReduc

2018-10-12 08:50:54 331

转载 4.Hbase简介

在学习Hbase的过程中，查找到了一篇特别好的入门博客。但发现博客中介绍的hbase版本过低，还有一些错误，特别复制过来做一下更新。查看原文简介逻辑视图物理存储系统架构关键算法一、简介1.historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase p...

2018-10-11 15:37:25 140

原创 2.HDFS

Hadoop文件系统HDFSHDFS工作流程HDFS数据输入输出流程分析一、Hadoop文件系统&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;Hadoop有一个抽象的文件系统概念，HDFS只是其中的一个实现。Hadoop文件系统接口由Java抽象类org.apache.hadoop.fs.FileSystem类定义。Hadoop的文件系统如下所示：观察上表的多个文件系统，

2018-09-21 20:16:20 204

原创 1、hadoop安装及其文件结构

Hadoop安装&nbsp;&nbsp;&nbsp;&nbsp;安装过程亲测有效，在安装过程中根据自己的喜好和实际环境更改部分内容即可。1.安装jdk a)下载jdk-8u65-linux-x64.tar.gz b)tar开 $&gt;su centos ; cd ~ $&gt;mkdir downloads $&gt;cp /mnt/hdf

2018-09-20 15:42:17 261

原创深入理解正则化

综述&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;刚开始接触机器学习就提到了正则化，一直没有把里面东西搞清楚。今天决定写一篇关于正则化的文章将里面的问题讲讲清楚。从多种角度认识正则化正则化的作用正则化作用补充正则化参数选择从多种角度认识正则化1、贝叶斯角度的正则化&amp;amp;nbsp;&amp;amp;nbsp;

2018-09-05 21:58:47 3812

原创概率和统计学知识汇总

综述&nbsp;&nbsp;本文总结了机器学习中经常遇到的概率统计中的一些基础概念，在平时经常遇到写下来供自己以后查阅。清单样本均值数学期望期望方差样本方差协方差最大似然与最大后验共轭先验偏差和方差样本均值&nbsp;&nbsp;现在我们拿到了nnn个样本，每个样本的观测值为XiXiX_{i}则样本均值指的是1n∑ni=1Xi1n∑i=1nXi\f...

2018-09-02 10:20:33 17255

原创 SVR-支持向量机的回归应用

支持向量机的回归应用本文的思想延续自基于核方法的支持向量机的思想，感兴趣的同学可以移步。本文的公式推导核部分图片截取自PRML，在此表示感谢！综述目标函数确定增加松弛变量求解总结综述&nbsp;&nbsp;&nbsp;&nbsp;在线性回归模型中我们最小一个正则化的误差函数来求解参数得到一个拟合的回归方程。12∑n=1N{yn−tn}2−λ2∥w∥212∑n...

2018-08-31 09:26:17 6711 4

转载 11正交矩阵和Gram-Schmidt正交化法

转载自：https://blog.csdn.net/huang1024rui/article/details/69568991这是关于正交性最后一讲，已经知道正交空间，比如行空间和零空间，今天主要看正交基和正交矩阵1.标准正交基与正交矩阵1.定义标准正交向量（orthonormal）： qTiqj={01i!=ji=jqiTqj={0i!=j1i=jq^T_iq_j= \be...

2018-07-01 17:34:33 10627 1

转载 10投影矩阵和最小二乘

转载自：https://blog.csdn.net/huang1024rui/article/details/69568991上一讲中，我们知道了投影矩阵P=A(ATA)−1ATP=A(ATA)−1ATP=A(A^{T}A)^{-1}A^{T}，PbPbPb将会把向量投影在A的列空间中。即只要知道矩阵AAA的列空间，就能得到投影矩阵PPP。1.投影矩阵（Ax=b无解的情形）1.1两...

2018-07-01 11:18:25 682

转载 9子空间的投影和Ax=b

转载自：https://blog.csdn.net/huang1024rui/article/details/69258689此课老师说要名垂千古，就当作重中之重吧,讲投影,怎样投影，为什么要投影到其他子空间。引子：上一讲中遇到Ax=bAx=bAx=b无解的时候提到，当其无解的时候，我们求的解是什么？我们想要的”最优解”对于原方程偏差最小，我们知道Ax=bAx=bAx=b有解时bb...

2018-06-30 16:21:26 1084

转载 8正交向量与子空间

前面还是图和网络的内容，感觉与自己所求相差较多，可以参考：https://blog.csdn.net/huang1024rui/article/details/68951624第十四课时：正交向量与子空间本文讲解什么是向量的正交，什么是子空间的正交，什么是基的正交。正交向量在n维空间中，向量之间的夹角是90度判断两个向量X,YX,YX,Y是否正交，求乘积XTYXTYX^...

2018-06-30 11:35:06 512

转载 7四个基本子空间

假设AAA是m×nm×nm×n，列空间C(A)C(A)C(A)，零空间N(A)N(A)N(A)，行空间C(AT)C(AT)C(A^{T})，A转置的零空间N(AT)N(AT)N(A^{T})(通常叫左零空间)，研究这四个基本子空间及其关系是线性代数的核心内容。我们从上一讲中的基、维数对这四个空间进行学习。1.维数1.1四种空间的定义AAA是m×nm×nm\times n 的矩阵...

2018-06-30 10:02:44 2265

转载 Untitled2

学习什么是”线性相关性“，“线性无关”，什么是由向量组所“生成”的空间，什么是向量空间的“基”，什么是子空间的“维数”。由上一讲可知：Ax=bAx=bAx=b，其中Am,nAm,nA_{m,n}.则Ax=0Ax=0Ax=0存在非0解，因为A消元后存在自由列。1.向量组线性相关性线性无关的定义：若向量作为列向量构成矩阵A，则方程Ax=0 只有零解x=0。反之，则称为线性相关。对于矩...

2018-06-29 10:58:03 1007

转载 6求解Ax=b：可解性和解的结构

第八课时：求解Ax=b：可解性和解的结构本课时的目标是Ax=b，可能有解，也可能无解，需要通过需要消元才知道，有解的话是唯一解还是很多解。1.Ax=b首先，继续上次课的例子：通过以上推导可以看到，如果方程组有解，必须满足b3=b1+b2b3=b1+b2b_{3}=b_{1}+b_{2}。消元告诉我们，这是必须的。换句话说，左侧行的线性组合得到0，那么右侧常量线性组合也比...

2018-06-29 09:54:54 12691

转载 5求解Ax=0：主变量、特解

第七课时：求解Ax=0：主变量、特解本课时将讲解如何计算那些空间中的向量，从概念定义转向算法，求解Ax=0的算法是怎样的，即如何求解零空间。消元法解Ax=0 消元过程中，方程通过加减消元本质上是线性变换，解是不会改变的。实际上，消元法改变了系数矩阵的列空间，而不改变系数矩阵的行空间。所以，注意消元过程中不变的是什么，随消元不变的是方程组的解。行向量或者列向量之间的相关性可以在消元...

2018-06-29 09:13:57 3830

转载 4列空间和零空间

本部分博客复制https://blog.csdn.net/suqier1314520/article/list/3?t=1的文章，因为其图片显示不出来，做一下丰富。第六课时：列空间和零空间特别关注矩阵的列空间和零空间回忆什么是向量空间：就是许多向量，对加法和数乘运算封闭，原点本身满足加法和数乘封闭所以向量空间一定包含原点。什么是子空间：向量空间内的一些向量，它们属于母空间，...

2018-06-28 16:35:07 1229

转载 3乘法和逆矩阵

本部分博客复制https://blog.csdn.net/suqier1314520/article/list/3?t=1的文章，因为其图片显示不出来，做一下丰富。第三课时：乘法与逆矩阵本课时先讲解矩阵乘法运算，然后是逆矩阵一、矩阵乘法：5种方法![这里写图片描述](https://img-blog.csdn.net/20180628155001865?watermark/2/...

2018-06-28 15:52:33 951

转载 2矩阵消元

本部分博客复制https://blog.csdn.net/suqier1314520/article/list/3?t=1的文章，因为其图片显示不出来，做一下丰富。第二课时：矩阵消元本课时的目标是用矩阵变换描述消元法。核心概念是矩阵变换。一、消元法消元法：将主对角线上的主元固定（0不能做主元），把主元下面的元素消为0。过程：先完成左侧矩阵的消元（变成上三角矩阵），再回代...

2018-06-28 15:31:48 483

转载线性代数导论---方程组的几何解释

本部分博客复制https://blog.csdn.net/suqier1314520/article/list/3?t=1的文章，因为其图片显示不出来，做一下丰富。第一课时：方程组的几何解释一、线性方程组的两种理解方式：行图像和列图像对于方程组： { 2x−y=0 −x+y=3{ 2x−y=0 −x+y=3\begin{cases} \ ...

2018-06-28 15:16:15 754

原创卷积神经网络

综述前面已经分析了神经网络基本原理和优化技巧。从这篇文章开始进入深度学习的分析。神经网络我们可以看做是多条线性方程的叠加来分类复杂样本，在激活函数的作用下可以更好的分类出复杂的样本。深度学习来自于普通的神经网络，其基本运算还是遵循神经网络的理论的。下面就先来看一下人人都在说的卷积神经网络是怎么回事。卷积神经网络在图像的识别方面表现的很是强大。卷积运算卷积运算与普通的加减运算是类似的。卷积运算时两个函

2018-04-06 21:45:58 534

原创神经网络VD问题

综述随着神经网络每层的学习速度其实是不一样的，并且随着层数增加这个问题就越来越明显。一般来说，接近输出层学习速率快，前面的层数学习慢，并随着层数增加学习越来越慢。这种情况我们称为梯度消失（vanishing gradient problem）。下面我们就来分析一下为什么会出现这种情况，并给出解决方案。理论推导若有一个神经网络如下：神经网络有6层，其中每层都有一个神经元。要想知道为什么层数增加训练的越

2018-03-31 21:52:32 599

原创神经网络改进篇

综述前文“神经网络小白篇”已经研究了神经网络的基本结构和运算过程。下面我们来考虑两个问题提升训练速度和过拟合。首先我们来看一下第一个问题。如何提升神经网络的训练速度要提升训练速度我们得先来看看神经网络的训练速度与什么有关。首先回顾一下上文阐述的几个公式和模型：上图给出的结构和公式仍然是上一篇的结构。我们观察一下对w和b偏导结构。根据渐进思想，发现用来衡量学习速度的是在z的条件下激活函数的梯度值。插播

2018-03-27 11:03:12 2956

转载神经网络小白篇

综述刚刚开始接触深度学习，先搭框架再不断的丰富起来是我一贯的习惯。本文主要讲解神经网络的模型并拿出特例来讲解。不过真是醉了，一些教育机构出的视频真是五花八门刚开始还真信了他们的。白白浪费我的时间。神经元模型如上图所示就是我们常见的神经元结构。其中：‘x’代表从上一个节点传输过来的数据。‘w’是该条连接的权重值。‘b’是偏置值。’activation’是激活函数。’h’是这个神经元的输出结果。向前传播

2018-03-22 09:28:16 537

原创 DesignTree算法实现与使用

决策树算法的使用、决策树可视化展示、决策树参数的自动化选择%matplotlib inlineimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.datasets.california_housing import fetch_california_housinghousing = fetch_california_hous

2018-01-14 16:01:35 1739

原创 SMOTE

简述SMOTE算法假设现在有一份数据大分类的有500，小分类的有100。如果使用SMOTE算法怎么从小分类中生成大分类的500个数据？从小分类中依次选择点。假设现在选则点A。计算点A距离其他99个点的欧式距离。并按照距离从小到大依次排序。我们现在要生成500个数据则以每一个点为中心生成5个点才可以。那么怎么生成呢？可以根据这个公式来：a’ = random（0,1）* d好了

2018-01-14 12:03:01 2640

转载不平衡样本处理方法

原文链接：http://blog.csdn.net/heyongluoyao8/article/details/49408131在分类中如何处理训练集中不平衡问题在很多机器学习任务中，训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡，为了使得学习达到更好的效果，因此需要解决该类别不平衡问题。Jason Brownlee 的回复：

2018-01-14 12:00:40 11690

原创信用卡欺诈案例（终结）

该案例主要包含着： 1、不平衡样本的采样方法 2、sklearn中进行模型训练的整个过程（从单一模块组合到优化方法都包括了）import pandas as pdimport matplotlib.pyplot as pltimport numpy as np%matplotlib inlinedata = pd.read_csv("creditcard.csv")dat

2018-01-14 09:51:47 2236 1

转载 LogisticsRegression

http://blog.csdn.net/pakko/article/details/37878837

2017-12-25 21:57:00 187

转载梯度下降

http://blog.csdn.net/tangyudi/article/details/77769045

2017-12-25 21:54:57 116

转载 LinearRegression

http://blog.csdn.net/tangyudi/article/details/77711981http://blog.csdn.net/WOJIAOSUSU/article/details/60470100

2017-12-25 21:50:51 130

空空如也

空空如也