自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 收藏
  • 关注

转载 NLP、词嵌入与相关应用

NLP常见任务:自动摘要指代消解                             小明放学了,妈妈去接他机器翻译词性标注分词(中文,日文等)       大水沟/很/难/过主题识别文本分类

2017-03-29 15:47:03 623

转载 CNN与迁移学习

图像相关任务:1、物体识别(faster R-CNN)2、图片识别+定位3、物体检测4、图像分割图片定位:输入:image输出:物体边界框(x,y,w,h);x,y是左上角坐标,w是宽度,h是高度。评价准则:交并准则思路1:看成回归问题。因为有四个数字步骤1: 先解决简单问题,搭一个识别图像的神经网络。在经典CNN上进行fin

2017-03-29 13:47:15 5400

转载 神经网络细节与训练注意事项

主要内容:神经网络训练注意事项:1、权重初始化2、Batch Normalization3、正则化和Dropout4、训练状态监控5、最优化与参数更新方法深层CNN与ResNet:1、ResNet结构浅析2、Mxnet与简单ResNet实现最常见的训练过程:站在巨人的肩膀上---做fine-tuning  caffe下面的Model

2017-03-25 20:55:02 4499

转载 6、卷积神经网络CNN

我们知道多层神经网络(DNN)有很强的特征学习能力,但是他有一些局限:1、因为全连接,所以权重参数特别多,且对参数初始化很敏感2、正是因为参数很多,所以很容易过拟合。以上这两点在进行图像分类时,尤为严重。卷积神经网络大大缓解了DNN参数多的问题,主要有以下几点:1、全连接,改为局部连接,借鉴猫眼的感受野思想。2、同一个滑动窗口,从左上角滑至右下角的过程中,权重是共享

2017-03-22 21:20:05 1253

原创 神经网络(ANN)

先抛出几个问题:1、怎么求解2、优缺点3、反向传播,梯度为什么会弥散4、激活函数怎么选取5、几个优化方案?一、神经元模型神经网络中最基本的成分就是神经元模型:神经元接收到来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元收到的总输入值将与神经元的阈值(又叫偏置)进行比较,然后通过“激活函数”处理以产生神经元的输出。

2017-03-17 22:21:41 4091

原创 5、多层感知机(MLP)

有理论研究表明,神经网络隐含层,层数越多,所需要的隐含节点可以越少。实际使用中,使用层数较深的神经网络会遇到许多困难,比如容易过拟合、参数难以调试,梯度弥散等等。过拟合:有一种方法叫Dropout,在使用复杂的卷积神经网络训练图像数据时尤其有效,简单说,就是将神经网络某一层的输出节点数据随机丢弃一部分。实质上等于创造出了很多新的随机样本,通过增大样本量、减少特征数量来防止过拟合。参数难

2017-03-17 20:09:30 5170

原创 朴素贝叶斯NB

1、分类原理简单的说就是利用了概率论的两个公式:全概率公式、贝叶斯公式。假设我们有两个特征X1、X2和一个目标分类Y(0或1)。已知新的样本特征值,预测其分类。这个可以看作是求条件概率P(y|x=(x1,x2)) = P(x,y) / P(x) = P(y)P(x|y) / [ P(y=0)P(x|y=0) + P(y=1)P(x|y=1)]我们可以通过极大似然估计出先验概率P(y

2017-03-17 11:34:23 335

原创 4、自编码器

自编码器其实也是一种神经网络算法。它与神经网络的区别有:1、自编码器适合无监督学习,即没有标注,也可以提取高阶特征;2、输入与输出一致,期望提炼出高阶特征来还原自身数据。3、单隐含层的自编码器,类似于主成分分析(PCA)实际作用:先用自编码器的方法进行无监督的预训练,提取特征并初始化权重,然后使用标注信息进行监督式的训练。当然不局限于预训练,直接使用自编吗器进行特征

2017-03-14 18:51:51 809

原创 3、TensorFlow实现Softmax回归识别手写数字

一、数据集介绍55000个训练集、10000个测试集、5000个验证集。手写数字图片28*28像素,从二维结构转化为一维(后面章节使用卷积神经网络会利用空间结构)=784维特征。0到9共10维label特征。from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_

2017-03-13 22:19:49 588

原创 SoftMax回归

我是在学习TensorFlow第一个实践案例《识别手写数字》里面发现简单的多分类问题解决办法SoftMax回归,这一名词的。为什么对多分类算法如此寡闻?因为我们大多学习了二分类之后,就想当然的觉得,可以构建多个二分类模型,比如A、B、C三类,建立A|其他类;B|其他类;C|其他类;来进行多分类预测。拿A|其他类 这个二分类问题来说,可能更加适合 类别B与类别C有种相关性的场景(

2017-03-13 16:19:57 308

原创 2.TensorFlow安装

不同操作系统,包含两种情况:仅CPU、使用GPU。本文介绍 Mac、Python3.6、仅CPU的安装1、安装Anaconda:Anaconda是Python的一个科学计算发行版,内置了数百个Python经常会使用的库,其中可能有一些还是TensorFlow的依赖库。解决了单独安装兼容性的问题。Anaconda是目前最好的科学计算的Python环境,方便了安装,也提高了性能

2017-03-13 14:12:01 415

原创 1、TensorFlow基础

1.1 概要官网:https://www.tensorflow.org/GitHub:https://github.com/tensorflow/tensorflow模型仓库:https://github.com/tensorflow/modelsTensorFlow既是一个实现机器学习算法的接口,也是执行机器学习算法的框架。除了执行深度学习,还可以实现许多其他算法,比如线性回

2017-03-12 17:50:38 415

原创 scala的小笔记

一、类型1、查看对象的类型data_origin.getClass.getSimpleNameres6: String = DataFrame2、类型的转化

2017-03-09 15:24:09 151

原创 数据的统计分析

数据预处理之后,我们要做一些统计分析,来观察我们的数据,这其中包括 描述性分析、统计推断。描述性分析:主要是统计指标、图表。1、集中趋势分析除了分位数,我们还可以结合 中位数、众数、平均数三者的关系。具体地:众数在中位数左侧,平均数在中位数右侧,则此时数据呈正偏态分布,又叫右偏,存在极大异常值。是不是可以考虑删除或替换为平均值众数在中位数右侧,平均数在左侧,数据呈负

2017-03-05 11:38:37 934

原创 Adaboost算法

我们之前学习的一些算法都是单挑类型的,即一个算法直接拿来分类和预测。但有时候一个人的力量是有限的,可能准确率只比50%高一点点,这样的学习器,我们称为弱学习器。相应的,如果一个算法正确率很高,则称为强学习器。今天我们要说的就是一个强学习算法,Adaboost算法,他由多个弱学习器进行加权组合而成,每个弱学习器之间还有着紧密联系(这区别于bagging方法),且损失函数是以指数级下降。可以说,三

2017-03-04 17:31:40 197

原创 最大似然估计方法

起因:我发现LR在知道样本概率分布后,要估计w的值,用到了极大似然估计方法,得到了所谓的损失函数。所以想了解下 极大似然估计的原理。最大似然估计方法,是基于总体分布已知情况下的一种参数估计方法。其基于极大似然估计原理:概率大的事件易发生;在一次观测中发生了的事件,其概率应该大。例子:你和猎人都去打猎,枪响了,兔子倒下了,你觉得这个兔子是被谁打死的?你会觉得是猎人,因为他

2017-02-27 23:02:07 927

原创 支持向量机

背景知识:我们拿到一个有标记的数据集后,会想,如果我能有个数学公式来预测lable就好了。这个数学公式可能长这样:wTx。 接下来我们就想,我们预测的准确吗?于是我们想到了一些验证准确性的函数,或者换句话,预测结果与真实结果误差的函数,也就是损失函数。我们可能会找到很完美的数学公式,让损失函数最小,但是这仅仅是训练集上的。。。可能在测试集或其他数据集上就会表现很差,这个现象就是过拟

2017-02-19 20:55:32 447

原创 最优化算法

http://spark.apache.org/docs/1.6.3/mllib-optimization.htmlMathematical descriptionGradient descentStochastic gradient descent (SGD)Update schemes for distributed SGDLimited-memory BF

2017-02-19 20:36:15 362

原创 MLlib-基本统计计算

http://spark.apache.org/docs/1.6.3/mllib-statistics.html总体概况:类似R语言中的Summary。import org.apache.spark.mllib.linalg.Vectorimport org.apache.spark.mllib.stat.{MultivariateStatisticalSummary,

2017-02-18 11:21:59 299

原创 MLlib中的数据类型

http://spark.apache.org/docs/1.6.3/mllib-data-types.htmlLocal Vector有两种:dense、sparseFor example, a vector (1.0, 0.0, 3.0) can be represented in dense format as [1.0, 0.0, 3.0] or in sparse f

2017-02-17 09:42:18 577

原创 Spark SQL, DataFrames and Datasets Guide

SQL:One use of Spark SQL is to execute SQL queries.Datasets and DataFrames:Datasets 是基于RDD的分布式数据容器。而DataFrames则是有命名列名的Dataset。DataFrame的数据集都是按指定列存储,即结构化数据。类似于传统数据库中的表。 DataFrame的设计是为了让大数据处

2017-02-16 21:49:27 252

原创 scala的容器类

Seq的操作特性(trait) Seq 具有两个子特征(subtrait) LinearSeq和IndexedSeq。它们不添加任何新的操作,但都提供不同的性能特点:线性序列具有高效的 head 和 tail 操作,而索引序列具有高效的apply, length, 和 (如果可变) update操作。Buffers是可变序列一个重要的种类。ListBuffer和ArrayBuf

2017-02-16 20:37:49 1002

原创 scala快速开始

一、安装 (略)二、Hello World> scalaThis is a Scala shell.Type in expressions to have them evaluated.Type :help for more information.scala> object HelloWorld { | def main(args: Array[Stri

2017-02-15 09:54:11 395

原创 我的scala学习之旅

有简单的java基础,学习spark的同时,需要用到scala,没有什么好的中文书籍,那么就直接看scala官网文档吧~http://www.scala-lang.org/documentation/以下是我的已学习内容:

2017-02-15 09:21:28 136

原创 Spark的介绍

Spark 是快速的、hadoop数据的通用处理引擎;可以运行在hadoop的YARN集群上或者单机模式;可以处理任何格式的hadoop数据;为了批处理和新的流处理、机器学习而设计。一、优点:1、快速:在内存中,spark可以比hadoop的MR快100多倍;在磁盘上,快10多倍。2、易用性:Java, Scala, Python, R.3、普适性:incl

2017-02-13 21:42:59 193

原创 我的SPARK学习之旅

这是一个总体的规划:从这里http://spark.apache.org/ 开始。1、大致了解Spark2、学习MLlib基于DataFrame的ML包,和基于RDD的MLlib包的选择(选后者,公司调试方便,后期可以试试前者)每个算法,研究算法的理论知识、调包实现、参数调节、注意事项、优劣点、Scala源码(重中之重)3、疑问点、待学习的知识点的记录笔

2017-02-13 20:21:14 180

转载 数学之美-读书笔记

第一章:文字和语言 vs 数字和信息文字增长到一定数量就不再增加,因为人们记不住辣么多,便开始归纳和总结,一字多义;遇到歧义怎么办?上下文。如果不同语言之间要交流文明,这就需要翻译。翻译的理论基础:语言只是信息的载体。“罗塞塔石碑”的历史,说明,信息冗余是信息安全的保障。数字的出现是因为人们的财产多到需要数一数才能搞清楚的时候。为什么今天我们用十进制?因为我们早期就是通

2016-09-20 10:49:04 522

原创 统计学习方法-读书笔记

--李航 著统计学习包括:监督学习、非监督学习、半监督学习、强化学习等。监督学习:利用训练数据集(人工给出输出变量)学习一个模型(目标:训练样本输出与模型输出的误差足够小),再用模型对测试样本集进行预测。第二章:感知机感知机是二分类的线性分类模型。分为原始形式和对偶形式。1957年提出,是神经网络和支持向量机的基础。

2016-09-19 11:40:11 628

转载 线性回归

单变量线性回归:前阵子,一个学生从波特兰俄勒冈州的研究所收集了一些房价的数据。你把这些数据画 出来,看起来是这个样子:横轴表示房子的面积,单位是平方英尺,纵轴表示房价,单位是 千美元。那基于这组数据,假如你有一个朋友,他有一套 750 平方英尺房子,现在他希望把 房子卖掉,他想知道这房子能卖多少钱。  线性回归 > image2016-7-16 16:36:29.png

2016-09-19 11:39:22 207

转载 过拟合问题

问题描述:如果我们有非常多的特征,我们通过学习得到的假设可能能够非常好地适应训练集(损失函数可能几乎为 0),但是可能会不能推广到新的数据。回归问题 : 过拟合问题 > image2016-7-17 17:26:8.png" src="http://wiki.sankuai.com/download/attachments/551391419/image2016-7-1

2016-09-19 11:38:27 296

转载 牛顿法和拟牛顿法

求解无约束最优化问题的常用方法,收敛速度快。 牛顿法:迭代算法,每一步需要求解目标函数的海赛矩阵的逆矩阵,计算比较复杂。1、目标函数的二级泰勒展开,及极小值的必要条件(一阶导数为0),可以求出每一步迭代值的步长:其中,Hk为海赛矩阵,gk为一阶导数在xk处的值。2、算法流程:3、每一步迭代都是下降方向。证明: 

2016-09-19 11:37:51 261

转载 模型评估方法

分类模型:1、准确率、覆盖率(召回)、命中率、Specificity(负例的覆盖率)先看一个混淆矩阵:实际\预测10 1(正例)ab(弃真)a+b0(负例)c(取伪)dc+d a+cb+da+b+c+d

2016-09-19 11:36:52 10927

原创 数据预处理

一、缺失值填充方法:零值填充平均值/中位数填充(该属性的平均值/中位数;与该元组属同一类的所有样本的均值/中位数)忽略元组推理(回归预测等)二、噪声数据三、去重四、数据降维主成分分析GBDT相关性分析因子分解五、数据抽样六、衍生特征

2016-09-19 11:36:13 339

原创 数据挖掘步骤

一、问题分析确定目标变量及其类型(标称、二元、序数、数值)确定挖掘任务类型(分类、聚类、关联、预测、推荐等)二、数据采集ETL特征建设数据探索性分析数据预处理数据存储三、训练模型单模型组合模型模型选择(交叉验证、测试误差、算法优劣等)四、测试模型测试误差模型评估(准确率、召回率、AUC、MSE、提升度等)五、模型迭代线上测试返

2016-09-19 11:35:43 561

转载 感知器法则

感知器以一个实数值向量作为输入,计算这些输入的线性组合,然后如果结果大于某个阈值就输出 1,否则输出-1。更精确地,如果输入为 x1 到 xn,那么感知器计算的输出为:  感知器法则 > image2016-7-16 18:15:44.png" src="http://wiki.sankuai.com/download/attachments/550800419/image2016-7-16%

2016-09-19 11:33:52 1660 1

转载 delta法则(梯度下降)

背景:尽管当训练样例线性可分时,感知器法则可以成功地找到一个权向量,但如果样例不是线性可分时它将不能收敛。因此,人们设计了另一个训练法则来克服这个不足,称为 delta 法则(delta rule)。如果训练样本不是线性可分的,那么 delta 法则会收敛到目标概念的最佳 近似。 delta 法则的关键思想是使用梯度下降(gradient descent)来搜索可能

2016-09-19 11:32:41 10807 1

转载 逻辑回归(LR)

背景知识:二元的分类问题比如“是否为乳腺癌二分类问题”,我们可以用线性回归的方法求出适合数据的一条直线:  逻辑回归(LR) > 24225255-58bb5f12f94449c093ae4a87e3dfc7bc.gif" height="400" src="http://wiki.sankuai.com/download/attachments/550797985/242

2016-09-19 11:31:04 1493

转载 人工神经网络(ANN)

人工神经网络(ANN) > longxinchen_1128_2015-11-30_221922.jpg" height="250" src="http://wiki.sankuai.com/download/attachments/550600864/longxinchen_1128_2015-11-30_221922.jpg?version=1&modificationDate=1471676

2016-09-19 11:29:25 465

转载 SVM

SVM概率输出Libsvm安装、使用Libsvm数据集格式转换Libsvm官网

2016-09-19 11:28:50 186

转载 MaxEnt

最大熵原理当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。(不做主观假设这点很重要。)在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫"最大熵模型"。我们常说,不要把所有 的鸡蛋放在一个篮子里,其实就是最大熵原理的一个朴素的说法,因为当我们遇到不确定性时,就要保

2016-09-19 11:28:11 5659 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除