Fly嘉-CSDN博客

原创初识opencv

文章目录1.什么opencv，它的优势点2.opencv安装和环境配置3.了解数字图像的基本概念：像素、彩色图像、灰度图像、二值图像、图像算数操作4.练习numpy中array的基本操作5.练习图像的加载、保存、以及算术操作参考文献1.什么opencv，它的优势点OpenCV是Intel®开源计算机视觉库。它由一系列 C 函数和少量 C++ 类构成，实现了图像处理和计算机视觉方面的很多通用算法...

2019-07-25 21:19:03 964

原创李宏毅机器学习10（CART）

文章目录回归树回归树生成回归树回归树和分类树都是决策树的一种，但是回归树用平方误差最小化准则进行特征选择，来生成二叉树，而分类树则是用基尼指数(Gini index)最小化准则回归树生成假设X与Y分别为输入和输出变量，并且Y是连续变量，在给定训练数据集D={(x1,y1),(x2,y2),⋯ ,(xN,yN)}D=\left\{\left(x_{1}, y_...

2019-06-19 23:44:48 242

原创李宏毅机器学习9（matplotlib画决策树）

导入包和对应的结点import matplotlib.pyplot as pltdecisionNode=dict(boxstyle="sawtooth",fc="0.8")leafNode=dict(boxstyle="round4",fc="0.8")arrow_args=dict(arrowstyle="<-")计算树的叶子节点数量def getNumLeafs(myTr...

2019-06-15 21:21:04 336

原创李宏毅机器学习8(Decesion Tree(决策树))

文章目录一.1.1总结决策树模型结构1.2理解决策树递归思想一.1.1总结决策树模型结构分类决策树模型一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点。内部结点表示一个特征或属性，叶结点表示一个类。1.2理解决策树递归思想决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类的过程。这一...

2019-06-10 09:04:33 1153

原创李宏毅机器学习7(Additional References(熵的理解))

文章目录一. 熵的概念1.1 信息熵1.2 交叉熵1.3 相对熵计算数据集的shangnonEnt参考文献一. 熵的概念1.1 信息熵信息量对于这个事情判断的能提供的信息度。而其实信息熵是信息量的期望（均值），它不是针对每条信息，而是针对整个不确定性结果集而言，信息熵越大，事件不确定性就越大。单条信息只能从某种程度上影响结果集概率的分布。使用一个公式来计算记录n天数据需要的存储空间：Sn...

2019-06-05 21:25:28 325

原创李宏毅机器学习6(个人自己创建数据，利用逻辑回归实现分类任务)

文章目录导入的包逻辑回归代码数据（自己造的）对数组进行分组实际操作代码感觉很不错，我后续看看怎么可以改善导入的包import numpy as npimport matplotlib.pyplot as plt逻辑回归代码class LogisticRegression(object): def __init__(self, learning_rate=0.1, max_it...

2019-06-02 21:53:30 297

原创李宏毅机器学习5(P9)

文章目录一.推导LR损失函数二.学习LR梯度下降三.利用代码描述梯度下降(选做)四.Softmax原理五.softmax损失函数六.softmax梯度下降一.推导LR损失函数逻辑回归的函数是fw,b(x)=σ(∑iwixi+b)f_{w, b}(x)=\sigma\left(\sum_{i} w_{i} x_{i}+b\right)fw,b(x)=σ(i∑wixi+b)outp...

2019-05-28 11:50:50 202

原创李宏毅机器学习4(P8)

文章目录一. 从基础概率推导贝叶斯公式，朴素贝叶斯公式(1)1.1基本概率公式1.2贝叶斯公式1.3朴素贝叶斯公式二. 学习先验概率(2)三. 学习后验概率(3)四. 学习LR和linear regression之间的区别(4)五. 推导sigmoid function公式(5)参考文献一. 从基础概率推导贝叶斯公式，朴素贝叶斯公式(1)1.1基本概率公式我们先交待基本概率公式：设A,B是...

2019-05-25 21:23:46 139

原创李宏毅机器学习3(HW1)

文章目录作业1：预测PM2.5的值hw1要求:hw_best 要求：数据介绍：具体代码作业1：预测PM2.5的值在这个作业中，我们将用梯度下降方法预测PM2.5的值hw1要求: 1、要求python3.5+ 2、只能用（1）numpy（2）scipy（3）pandas 3、请用梯度下降手写线性回归 4、最好的公共简单基线 5、对于想加载模型而并不想运行整个训练过程的人：请上传训练...

2019-05-22 20:54:35 828

原创李宏毅机器学习2(P4-P7)

文章目录理解偏差和方差学习误差为什么是偏差和方差而产生的（数学公式推导）过拟合，欠拟合，分别对应bias和variance什么情况理解偏差和方差学习误差为什么是偏差和方差而产生的（数学公式推导）过拟合，欠拟合，分别对应bias和variance什么情况过拟合对应的是bias很小，variance很大欠拟合对应的是bias很大，viraiance很小...

2019-05-17 21:19:01 198

原创李宏毅机器学习1

文章目录一. 机器学习：二. 学习中心极限定理，学习正态分布，学习最大似然估计2.1推导回归Loss function2.2损失函数与凸函数之间的关系2.3全局最优和局部最优三. 学习导数，泰勒展开3.1推导梯度下降公式3.1梯度下降代码四. 学习L2-Norm，L1-Norm，L0-Norm4.1推导正则化公式4.2说明为什么用L1-Norm代替L0-Norm4.1学习为什么只对w/Θ做限制，不...

2019-05-13 13:13:46 348

原创任务5 LightGBM模型的尝试

Article directoryLightBGM理论Histogram算法带深度限制的Leaf-wise的叶子生长策略LightGBM实践自己设定参数GridSearchCV调参LightBGM理论LightGBM 是一个轻量级梯度 boosting 框架，使用基于学习算法的决策树。它可以说是分布式的，高效的，有以下优势：更快的训练效率低内存使用更高的准确率支持并行化学习可处理大规...

2019-04-13 14:20:48 356

原创任务4 LR+SVM模型的尝试

逻辑回归理论面对一个分类问题，我们用线性回归的模型来进行进行分类（注意虽然有回归两个字，但是逻辑回归解决的是分类问题）。线性回归会得到一个具体的数值，然后我们会通过一个激活函数，一般采用Sigmoid函数（因为这个函数曲线光滑）将输出归结到0到1，然后设定一个阈值，高于这个阈值为正，低于这个阈值为负，公式：ϕ(x)=11+e−(wTx+b)\phi (x) = \frac{1}{1+e^{-...

2019-04-11 21:55:29 102

原创任务3 word2vec词向量原理与实践

Word2Vec的定义在讲述 Word2vec 之前，先说NLP (自然语言处理)。NLP 里面，最细粒度的是词语，词语组成句子，句子再组成段落、篇章、文档。所以处理 NLP 的问题，首先就要拿词语开刀。先举个例子，判断一个词的词性，是动词还是名词。用机器学习的思路，我们有一系列样本(x,y)，这里 x 是词语，y 是它们的词性，我们要构建 f(x)->y 的映射，但这里的数学模型 f...

2019-04-09 21:48:43 433

原创任务2 TF-IDF理论与实践

理论1.什么是TF-IDF?TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术，常用于挖掘文章中的关键词，而且算法简单高效，常被工业用于最开始的文本数据清洗。TF-IDF有两层意思，一层是"词频"（Term Frequency，缩写为TF），另一层是"逆文档频率"（Inverse Document Fr...

2019-04-06 11:30:48 251

原创任务1-数据初始

用百度云下载完数据（数据可以用官网下），然后就用python来读取来观察数据，由于数据太大

2019-04-05 19:55:42 148

原创决策树算法梳理

一. 信息论基础（熵联合熵条件熵信息增益基尼不纯度）信息熵信息量度量的是一个具体事件发生了所带来的信息，而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。即H(x)=−sum(p(x)log2p(x))H(x)=-sum(p(x)log_2p(x))H(x)=−sum(p(x)log2p(x))转换为：H(x)...

2019-04-03 21:48:21 187

原创逻辑回归算法梳理

一. 逻辑回归原理之前是讨论了如何使用线性模型进行回归学习，但若要做的是分类任务改怎么办？比如二分类问题，将X对应的y分为类别和类别。因为之前提及的线性回归的输出是连续的，现在我们需要将连续的值分为离散的0和1，那我们需要什么处理？这样很容易想到找到一个函数，模型输出值转换到0,1之间。可能大家首先想到单位阶跃函数（unit-step Function），函数图像如下：函数原型如下：y=...

2019-03-29 14:14:12 347

原创线性回归算法梳理

我想从一个链进行讲述：机器学习：因为我们是把我们人类的“经验”以数据的形式来存储，所以我们想着能不能让机器从这些数据进行学习，归纳中我们人类中的经验来进行推理。简称机器学习。工程化定义：假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。人话就是：我们想让机器从我们这些人类的经验进行学习来帮我们解决一...

2019-03-29 09:46:54 540

原创 20 Transfer Learning

本身的数据比较少，但是我们却有其他的数据。例如我们做个猫狗识别器，我们会有下面的数据，这些数据没有和任务直接相关。例如共同的领域，但是是不同的任务目标，例如左下的实体的大象和老虎。又例如不同的领域，但是是相同的任务目标，右下的虚体的狗和猫。还有很多这方面的例子，如图上面的。迁移学习就例如上面的，把漫画家和研究生的全身做了对比。这样我们可以看漫画家来大概了解研究生。现在我们把各个情况做...

2019-03-22 10:36:41 259

原创 Unsupervised Learning - Deep Generative Model (Part II)

为什么会使用auto-encoder？一个直观的理由是，当训练模型的，当一个满月的图片输入到auto-encoder模型，我们会希望得到一个满月。同理，当是一个半满月的时候，我们希望得到一个半满月的。不过当直接模型预测的时候，月亮介于满月和半满月之间的时候，我们会希望得到一个介于两者之间的图像。但是实际输出往往不是这样。当使用VAE的时候，会有一个noise，当一个满月进去的时候，会在一个范围内...

2019-01-17 11:24:52 190

原创 Unsupervised Learning - Deep Generative Model (Part I)

这个图片先说了这一个博客，是一个科普文，这个可以很好的介绍Generative Models。我们目前做的是让机器识别出哪些是猫还是狗，但是机器可能不知道这个猫是什么。所以未来我们想让计算机画出东西来，例如画出一只猫Genreative Models有三个方法例如上面的pixels，一个三维vector代表一个pixel，然后用一个pixel来预测下一个pixel，然后用这个两个pi...

2019-01-16 16:58:51 221

原创 17 Unsupervised Learning: Deep Auto-encder

我们是说把训练一个NN Encoder（neural network）来把输入转换到code，这个code代表了那个输入的物体。可是如果没有对应label，是很难train的。但是如果我们新加一个NN Decoder，把对应的code训练回原图。这样我们就可以得到NN Encoder和NN Decoder两个网络。回想起我们的网络PCA，里面就是一个hinden layer，这个hidden...

2019-01-14 20:48:03 154

原创 0-1背包问题实现（python）和Palindrome Partitioning II的完成

01背包问题一. 问题描述有n 个物品，它们有各自的重量和价值，现有给定容量的背包，如何让背包里装入的物品具有最大的价值总和？（人话就是：一个小偷去商店偷东西，但是由于带来的袋子不够大，装不完所有的东西，那就怎么可以偷到又多又值钱的东西）二. 总体思路根据动态规划解题步骤（问题抽象化、建立模型、寻找约束条件、判断是否满足最优性原理、找大问题与小问题的递推关系式、填表、寻找解组成）找出01背...

2019-01-09 21:51:29 230

原创递归算法实战

17写的很匆忙，有事情，解题思路我后面再补，我先上交class Solution: def letterCombinations(self, digits): &amp;amp;quot;&amp;amp;quot;&amp;amp;quot; :type digits: str :rtype: List[str] &amp;amp;quot;&amp;

2019-01-08 23:12:47 123

原创递归思想和动态规划思想

递归：1.介绍递归算法是一种直接或者间接调用自身函数或者方法的算法。其中调用分为直接调用和间接调用，直接调用是指在函数体中调用自身，间接调用是调用别的函数，而这些函数调用函数本身。这样可以把很长的冗余的代码进行了简化。递归算法解决问题的特点：递归就是方法里调用自身。在使用递增归策略时，必须有一个明确的递归结束条件，称为递归出口。递归算法解题通常显得很简洁，但递归算法解题的运...

2019-01-07 20:53:05 526

原创二叉树的遍历

二叉树是一种非常重要的数据结构，很多数据结构是以根据二叉树来进行演化的。现在我们先介绍二叉树的遍历，有深度遍历和广度遍历（也就是平常说的层次遍历），深度遍历有前序、中序以及后序三种遍历方法。因为数的定义本身就是递归定义，因此采用递归的方法实现树的三种遍历不仅容易理解而且代码很简洁，对于层次遍历，需要其他数据结构的支撑，比如堆。四种主要的遍历思想：前序遍历：根结点 —&amp;amp;amp;amp;gt; 左子树 —&amp;amp;amp;amp;gt;...

2019-01-06 10:17:09 282

原创队列、堆思想

队列定义队列（queue）是一种采用先进先出的数据结构。顾名思义就是想排队那样，一个轮着一个。例如去游乐园玩的实话，先排队的可以是先玩，后面的后玩。队列和栈是会有点联系队列有着数组实现和链表实现两个方式。先说数组实现数组实现在栈中使用top变量记录栈顶的位置，队列就使用front和rear来记录队列的头元素和尾元素链表实现队头指针( ...

2019-01-05 20:02:05 482

原创单链表

链表就是一组被称为结点的数据元素组成的数据结构，每个结点都包含结点本身的信息和指向下一个结点的地址。由于每个结点都包含了可以链接起来的地址信息，所以用一个变量就能够访问整个结点序列。第一个结点一般没有存储信息只是存储了指向下一个结点的地址的指针，称为头结点。链表的最后一个如果接上上面某一个结点的地址，就是一个单行循环链表，如果不接，就是丢空指针域，那就是单链表。链表的作用：顺序表的构建需要预...

2019-01-04 20:05:53 97

原创数组（哈希表）

哈希思想：我们定义好一个哈希函数，然后把一些数据对应的key输入到哈希函数会得到一个index，key可以自己设置。创建一个哈希表，来保存好index和这个index对应到的数据。可能不同的数据却生成了一样的index，这时候就会面临冲突，我们可以通过一些方法来解决。我们主要是写好哈希函数和当index冲突的时候的处理方法。我这个使用的是直接寻址法两数之和(1)class ...

2019-01-03 17:27:04 7831 2

Fly嘉