你看起来很好吃-CSDN博客

转载 NLP、词嵌入与相关应用

NLP常见任务：自动摘要指代消解小明放学了，妈妈去接他机器翻译词性标注分词（中文，日文等）大水沟／很／难／过主题识别文本分类

2017-03-29 15:47:03 623

转载 CNN与迁移学习

图像相关任务：1、物体识别（faster R-CNN)2、图片识别＋定位3、物体检测4、图像分割图片定位：输入：image输出：物体边界框（x,y,w,h)；x,y是左上角坐标，w是宽度，h是高度。评价准则：交并准则思路1:看成回归问题。因为有四个数字步骤1: 先解决简单问题，搭一个识别图像的神经网络。在经典CNN上进行fin

2017-03-29 13:47:15 5400

转载神经网络细节与训练注意事项

主要内容：神经网络训练注意事项：1、权重初始化2、Batch Normalization3、正则化和Dropout4、训练状态监控5、最优化与参数更新方法深层CNN与ResNet：1、ResNet结构浅析2、Mxnet与简单ResNet实现最常见的训练过程：站在巨人的肩膀上－－－做fine－tuning caffe下面的Model

2017-03-25 20:55:02 4499

转载 6、卷积神经网络CNN

我们知道多层神经网络（DNN）有很强的特征学习能力，但是他有一些局限：1、因为全连接，所以权重参数特别多，且对参数初始化很敏感2、正是因为参数很多，所以很容易过拟合。以上这两点在进行图像分类时，尤为严重。卷积神经网络大大缓解了DNN参数多的问题，主要有以下几点：1、全连接，改为局部连接，借鉴猫眼的感受野思想。2、同一个滑动窗口，从左上角滑至右下角的过程中，权重是共享

2017-03-22 21:20:05 1253

原创神经网络（ANN）

先抛出几个问题：1、怎么求解2、优缺点3、反向传播，梯度为什么会弥散4、激活函数怎么选取5、几个优化方案？一、神经元模型神经网络中最基本的成分就是神经元模型：神经元接收到来自n个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传递，神经元收到的总输入值将与神经元的阈值（又叫偏置）进行比较，然后通过“激活函数”处理以产生神经元的输出。

2017-03-17 22:21:41 4091

原创 5、多层感知机（MLP）

有理论研究表明，神经网络隐含层，层数越多，所需要的隐含节点可以越少。实际使用中，使用层数较深的神经网络会遇到许多困难，比如容易过拟合、参数难以调试，梯度弥散等等。过拟合：有一种方法叫Dropout，在使用复杂的卷积神经网络训练图像数据时尤其有效，简单说，就是将神经网络某一层的输出节点数据随机丢弃一部分。实质上等于创造出了很多新的随机样本，通过增大样本量、减少特征数量来防止过拟合。参数难

2017-03-17 20:09:30 5170

原创朴素贝叶斯NB

1、分类原理简单的说就是利用了概率论的两个公式：全概率公式、贝叶斯公式。假设我们有两个特征X1、X2和一个目标分类Y（0或1）。已知新的样本特征值，预测其分类。这个可以看作是求条件概率P(y|x=(x1,x2)) = P(x,y) / P(x) = P(y)P(x|y) / [ P(y=0)P(x|y=0) + P(y=1)P(x|y=1)]我们可以通过极大似然估计出先验概率P(y

2017-03-17 11:34:23 335

原创 4、自编码器

自编码器其实也是一种神经网络算法。它与神经网络的区别有：1、自编码器适合无监督学习，即没有标注，也可以提取高阶特征；2、输入与输出一致，期望提炼出高阶特征来还原自身数据。3、单隐含层的自编码器，类似于主成分分析（PCA）实际作用：先用自编码器的方法进行无监督的预训练，提取特征并初始化权重，然后使用标注信息进行监督式的训练。当然不局限于预训练，直接使用自编吗器进行特征

2017-03-14 18:51:51 809

原创 3、TensorFlow实现Softmax回归识别手写数字

一、数据集介绍55000个训练集、10000个测试集、5000个验证集。手写数字图片28*28像素，从二维结构转化为一维（后面章节使用卷积神经网络会利用空间结构）＝784维特征。0到9共10维label特征。from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_

2017-03-13 22:19:49 588

原创 SoftMax回归

我是在学习TensorFlow第一个实践案例《识别手写数字》里面发现简单的多分类问题解决办法SoftMax回归，这一名词的。为什么对多分类算法如此寡闻？因为我们大多学习了二分类之后，就想当然的觉得，可以构建多个二分类模型，比如A、B、C三类，建立A｜其他类；B｜其他类；C｜其他类；来进行多分类预测。拿A｜其他类这个二分类问题来说，可能更加适合类别B与类别C有种相关性的场景（

2017-03-13 16:19:57 308

原创 2.TensorFlow安装

不同操作系统，包含两种情况：仅CPU、使用GPU。本文介绍 Mac、Python3.6、仅CPU的安装1、安装Anaconda：Anaconda是Python的一个科学计算发行版，内置了数百个Python经常会使用的库，其中可能有一些还是TensorFlow的依赖库。解决了单独安装兼容性的问题。Anaconda是目前最好的科学计算的Python环境，方便了安装，也提高了性能

2017-03-13 14:12:01 415

原创 1、TensorFlow基础

1.1 概要官网：https://www.tensorflow.org/GitHub:https://github.com/tensorflow/tensorflow模型仓库：https://github.com/tensorflow/modelsTensorFlow既是一个实现机器学习算法的接口，也是执行机器学习算法的框架。除了执行深度学习，还可以实现许多其他算法，比如线性回

2017-03-12 17:50:38 415

原创 scala的小笔记

一、类型1、查看对象的类型data_origin.getClass.getSimpleNameres6: String = DataFrame2、类型的转化

2017-03-09 15:24:09 151

原创数据的统计分析

数据预处理之后，我们要做一些统计分析，来观察我们的数据，这其中包括描述性分析、统计推断。描述性分析：主要是统计指标、图表。1、集中趋势分析除了分位数，我们还可以结合中位数、众数、平均数三者的关系。具体地：众数在中位数左侧，平均数在中位数右侧，则此时数据呈正偏态分布，又叫右偏，存在极大异常值。是不是可以考虑删除或替换为平均值众数在中位数右侧，平均数在左侧，数据呈负

2017-03-05 11:38:37 934

原创 Adaboost算法

我们之前学习的一些算法都是单挑类型的，即一个算法直接拿来分类和预测。但有时候一个人的力量是有限的，可能准确率只比50%高一点点，这样的学习器，我们称为弱学习器。相应的，如果一个算法正确率很高，则称为强学习器。今天我们要说的就是一个强学习算法，Adaboost算法，他由多个弱学习器进行加权组合而成，每个弱学习器之间还有着紧密联系（这区别于bagging方法），且损失函数是以指数级下降。可以说，三

2017-03-04 17:31:40 197

原创最大似然估计方法

起因：我发现LR在知道样本概率分布后，要估计w的值，用到了极大似然估计方法，得到了所谓的损失函数。所以想了解下极大似然估计的原理。最大似然估计方法，是基于总体分布已知情况下的一种参数估计方法。其基于极大似然估计原理：概率大的事件易发生；在一次观测中发生了的事件，其概率应该大。例子：你和猎人都去打猎，枪响了，兔子倒下了，你觉得这个兔子是被谁打死的？你会觉得是猎人，因为他

2017-02-27 23:02:07 927

原创支持向量机

背景知识：我们拿到一个有标记的数据集后，会想，如果我能有个数学公式来预测lable就好了。这个数学公式可能长这样：wTx。接下来我们就想，我们预测的准确吗？于是我们想到了一些验证准确性的函数，或者换句话，预测结果与真实结果误差的函数，也就是损失函数。我们可能会找到很完美的数学公式，让损失函数最小，但是这仅仅是训练集上的。。。可能在测试集或其他数据集上就会表现很差，这个现象就是过拟

2017-02-19 20:55:32 447

原创最优化算法

http://spark.apache.org/docs/1.6.3/mllib-optimization.htmlMathematical descriptionGradient descentStochastic gradient descent (SGD)Update schemes for distributed SGDLimited-memory BF

2017-02-19 20:36:15 362

原创 MLlib－基本统计计算

http://spark.apache.org/docs/1.6.3/mllib-statistics.html总体概况：类似R语言中的Summary。import org.apache.spark.mllib.linalg.Vectorimport org.apache.spark.mllib.stat.{MultivariateStatisticalSummary,

2017-02-18 11:21:59 299

原创 MLlib中的数据类型

http://spark.apache.org/docs/1.6.3/mllib-data-types.htmlLocal Vector有两种：dense、sparseFor example, a vector (1.0, 0.0, 3.0) can be represented in dense format as [1.0, 0.0, 3.0] or in sparse f

2017-02-17 09:42:18 577

原创 Spark SQL, DataFrames and Datasets Guide

SQL：One use of Spark SQL is to execute SQL queries.Datasets and DataFrames:Datasets 是基于RDD的分布式数据容器。而DataFrames则是有命名列名的Dataset。DataFrame的数据集都是按指定列存储，即结构化数据。类似于传统数据库中的表。 DataFrame的设计是为了让大数据处

2017-02-16 21:49:27 252

原创 scala的容器类

Seq的操作特性（trait) Seq 具有两个子特征（subtrait） LinearSeq和IndexedSeq。它们不添加任何新的操作，但都提供不同的性能特点：线性序列具有高效的 head 和 tail 操作，而索引序列具有高效的apply, length, 和 (如果可变) update操作。Buffers是可变序列一个重要的种类。ListBuffer和ArrayBuf

2017-02-16 20:37:49 1002

原创 scala快速开始

一、安装（略）二、Hello World> scalaThis is a Scala shell.Type in expressions to have them evaluated.Type :help for more information.scala> object HelloWorld { | def main(args: Array[Stri

2017-02-15 09:54:11 395

原创我的scala学习之旅

有简单的java基础，学习spark的同时，需要用到scala，没有什么好的中文书籍，那么就直接看scala官网文档吧～http://www.scala-lang.org/documentation/以下是我的已学习内容：

2017-02-15 09:21:28 136

原创 Spark的介绍

Spark 是快速的、hadoop数据的通用处理引擎；可以运行在hadoop的YARN集群上或者单机模式；可以处理任何格式的hadoop数据；为了批处理和新的流处理、机器学习而设计。一、优点：1、快速：在内存中，spark可以比hadoop的MR快100多倍；在磁盘上，快10多倍。2、易用性：Java, Scala, Python, R.3、普适性：incl

2017-02-13 21:42:59 193

原创我的SPARK学习之旅

这是一个总体的规划：从这里http://spark.apache.org/ 开始。1、大致了解Spark2、学习MLlib基于DataFrame的ML包，和基于RDD的MLlib包的选择（选后者，公司调试方便，后期可以试试前者）每个算法，研究算法的理论知识、调包实现、参数调节、注意事项、优劣点、Scala源码（重中之重）3、疑问点、待学习的知识点的记录笔

2017-02-13 20:21:14 180

转载数学之美－读书笔记

第一章：文字和语言 vs 数字和信息文字增长到一定数量就不再增加，因为人们记不住辣么多，便开始归纳和总结，一字多义；遇到歧义怎么办？上下文。如果不同语言之间要交流文明，这就需要翻译。翻译的理论基础：语言只是信息的载体。“罗塞塔石碑”的历史，说明，信息冗余是信息安全的保障。数字的出现是因为人们的财产多到需要数一数才能搞清楚的时候。为什么今天我们用十进制？因为我们早期就是通

2016-09-20 10:49:04 522

原创统计学习方法－读书笔记

－－李航著统计学习包括：监督学习、非监督学习、半监督学习、强化学习等。监督学习：利用训练数据集（人工给出输出变量）学习一个模型（目标：训练样本输出与模型输出的误差足够小），再用模型对测试样本集进行预测。第二章：感知机感知机是二分类的线性分类模型。分为原始形式和对偶形式。1957年提出，是神经网络和支持向量机的基础。

2016-09-19 11:40:11 628

转载线性回归

单变量线性回归：前阵子,一个学生从波特兰俄勒冈州的研究所收集了一些房价的数据。你把这些数据画出来,看起来是这个样子:横轴表示房子的面积,单位是平方英尺,纵轴表示房价,单位是千美元。那基于这组数据,假如你有一个朋友,他有一套 750 平方英尺房子,现在他希望把房子卖掉,他想知道这房子能卖多少钱。线性回归 > image2016-7-16 16:36:29.png

2016-09-19 11:39:22 207

转载过拟合问题

问题描述：如果我们有非常多的特征,我们通过学习得到的假设可能能够非常好地适应训练集(损失函数可能几乎为 0),但是可能会不能推广到新的数据。回归问题：过拟合问题 > image2016-7-17 17:26:8.png" src="http://wiki.sankuai.com/download/attachments/551391419/image2016-7-1

2016-09-19 11:38:27 296

转载牛顿法和拟牛顿法

求解无约束最优化问题的常用方法，收敛速度快。牛顿法：迭代算法，每一步需要求解目标函数的海赛矩阵的逆矩阵，计算比较复杂。1、目标函数的二级泰勒展开，及极小值的必要条件（一阶导数为0），可以求出每一步迭代值的步长：其中，Hk为海赛矩阵，gk为一阶导数在xk处的值。2、算法流程：3、每一步迭代都是下降方向。证明：

2016-09-19 11:37:51 261

转载模型评估方法

分类模型：1、准确率、覆盖率（召回）、命中率、Specificity（负例的覆盖率）先看一个混淆矩阵：实际\预测10 1（正例）ab(弃真）a+b0（负例）c（取伪）dc+d a+cb+da+b+c+d

2016-09-19 11:36:52 10927

原创数据预处理

一、缺失值填充方法：零值填充平均值／中位数填充（该属性的平均值／中位数；与该元组属同一类的所有样本的均值／中位数）忽略元组推理（回归预测等）二、噪声数据三、去重四、数据降维主成分分析GBDT相关性分析因子分解五、数据抽样六、衍生特征

2016-09-19 11:36:13 339

原创数据挖掘步骤

一、问题分析确定目标变量及其类型（标称、二元、序数、数值）确定挖掘任务类型（分类、聚类、关联、预测、推荐等）二、数据采集ETL特征建设数据探索性分析数据预处理数据存储三、训练模型单模型组合模型模型选择（交叉验证、测试误差、算法优劣等）四、测试模型测试误差模型评估（准确率、召回率、AUC、MSE、提升度等）五、模型迭代线上测试返

2016-09-19 11:35:43 561

转载感知器法则

感知器以一个实数值向量作为输入,计算这些输入的线性组合,然后如果结果大于某个阈值就输出 1,否则输出-1。更精确地,如果输入为 x1 到 xn,那么感知器计算的输出为: 感知器法则 > image2016-7-16 18:15:44.png" src="http://wiki.sankuai.com/download/attachments/550800419/image2016-7-16%

2016-09-19 11:33:52 1660 1

转载 delta法则（梯度下降）

背景：尽管当训练样例线性可分时,感知器法则可以成功地找到一个权向量,但如果样例不是线性可分时它将不能收敛。因此,人们设计了另一个训练法则来克服这个不足,称为 delta 法则(delta rule)。如果训练样本不是线性可分的,那么 delta 法则会收敛到目标概念的最佳近似。 delta 法则的关键思想是使用梯度下降(gradient descent)来搜索可能

2016-09-19 11:32:41 10807 1

转载逻辑回归（LR）

背景知识：二元的分类问题比如“是否为乳腺癌二分类问题”，我们可以用线性回归的方法求出适合数据的一条直线: 逻辑回归（LR） > 24225255-58bb5f12f94449c093ae4a87e3dfc7bc.gif" height="400" src="http://wiki.sankuai.com/download/attachments/550797985/242

2016-09-19 11:31:04 1493

人工神经网络（ANN） > longxinchen_1128_2015-11-30_221922.jpg" height="250" src="http://wiki.sankuai.com/download/attachments/550600864/longxinchen_1128_2015-11-30_221922.jpg?version=1&modificationDate=1471676

2016-09-19 11:29:25 465

转载 SVM

SVM概率输出Libsvm安装、使用Libsvm数据集格式转换Libsvm官网

2016-09-19 11:28:50 186

转载 MaxEnt

最大熵原理当我们需要对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设。（不做主观假设这点很重要。）在这种情况下，概率分布最均匀，预测的风险最小。因为这时概率分布的信息熵最大，所以人们称这种模型叫"最大熵模型"。我们常说，不要把所有的鸡蛋放在一个篮子里，其实就是最大熵原理的一个朴素的说法，因为当我们遇到不确定性时，就要保

2016-09-19 11:28:11 5659 1

空空如也

空空如也