潘小榭-CSDN博客

原创 111

// 替换空格/*题目：请实现一个函数，把字符串中的每个空格替换成"%20".例如，输入 "we are happy", 则输出 "we%20are%20happy."*/#include <iostream>#include <stdio.h>using namespace std;void replaceSpace(char *str,int...

2018-07-01 22:13:02 236

原创 aaa

https://people.eecs.berkeley.edu/~pabbeel/cs287-fa15/

2018-04-21 10:46:45 187

原创 chapter3-有限状态自动机

chapter3:finite-state automation. 原书中第三版中的这一章还没写完，所以是看的图书馆借来的第二版，并结合宗成庆老师的统计自然语言处理来看的。有限状态自动机 finite-state automation, FSA前面一章节中的正则表达式只是一种用于文本搜索的方便的元语言，它是描述有限状态机的一种方法。任何正则表达式又可以用有限状态机来实现（除...

2018-04-12 09:19:24 1578

原创 chapter2:正则表达式、文本标准化和编辑距离

Speech and Language Processing: An introduction to Natural Language Processing, Computational Linguistic, and Speech Recognition. Chapter 2 前言：早期的自然语言处理工具ELIZA采用的方法是pattern matching. 而对于文本模式(text ...

2018-04-12 09:18:26 1569

原创隐马尔可夫模型-standford

chapter6: 隐马尔科夫模型 standford tutorial, 可以说是看过的关于隐马尔科夫最好的教程了。要是看英文原版能和看中文一样easy该多好，可惜文化差异的情况下，即使是单词都认识，理解起来也会有点困难。对此，只能自己重新总结一下吧～可以说，斯坦福从未让人失望过，太赞了！也是无意中在google上看到这篇文章，才发现了这么好的一本书, Speech and langua...

2018-04-12 09:17:38 648

原创从生成模型到GDA再到GMM和EM算法

在学习生成模型之前，先学习了解下密度估计和高斯混合模型。为什么呢？因为后面的VAE\GANs模型都需要把训练样本，也就是输入的图像样本看作是一个复杂的、多维的分布。1. 知乎上关于图像频率的解释作者：耳东陈链接：https://www.zhihu.com/question/20099543/answer/13971906 来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请

2018-03-21 17:44:10 1831

原创 09. 训练神经网络4 --- 超参数调试,BN正则化再解析

1. 超参数调试方法1) Try random values, and donnot use a grid2) Coarse to fine3) using an apporiate scale to pick hyperparameters以对学习率αα\alpha的调试为例,需要从[0.0001,1]之间随机选择进行调试.显然,随机选出来的90%会集中在[0.1,1]之间....

2018-03-15 14:25:02 1099

原创 08. 训练神经网络3 -- 优化算法

前面一部分主要讲了神经网络在前向传播过程中对数据的处理,包括去均值预处理, 权重初始化, 在线性输出结果和激活函数之间批量归一化BN,以及进入下一层layer之前的随机失活.那么这一部分将介绍在反向传播过程中对梯度下降的处理,也就是几种优化算法.真的很佩服这些人…一个梯度下降,你之前可能想的就是w−=αdww−=αdww -= \alpha dw就好了,但研究者们也能大做文章,厉害厉害!!...

2018-03-15 14:24:40 303

原创 07. 训练神经网络2

数据预处理归一化 NormalizationPCA降维和白化权重初始化批量归一化 Batch Normalization正则化 L1, L2正则化Dropout and 反向 Dropout属性分类:一个样本有多个标签偏差和方差 bias and variance1. 数据预处理对原始数据进行预处理:均值减法（Mean subtraction）...

2018-03-15 14:24:11 178

原创 06. 训练一个神经网络1-- epoch,batch_size,iteration

batch_size, iteration, epoch1. 训练数据集的喂入：batch_size, iteration, epoch1.1. 首先需要先了解下梯度下降梯度下降是一种迭代优化算法，用于寻找最佳结果，loss的最小值。迭代意味着我们需要多次得到结果才能得到最优的结果。梯度下降的迭代质量有助于拟合图形使图形最适合数据。左图中我们可以看到步长(又称学习...

2018-03-15 14:23:10 1074

原创 05. 神经网络的结构

生物神经元的粗略模型；激活函数，其中ReLU是最佳推荐；理解了神经网络是一个通用函数近似器，但是该性质与其广泛使用无太大关系。之所以使用神经网络，是因为它们对于实际问题中的函数的公式能够某种程度上做出“正确”假设。讨论了更大网络总是更好的这一事实。然而更大容量的模型一定要和更强的正则化（比如更高的权重衰减）配合，否则它们就会过拟合。在后续章节中我们讲学习更多正则化的方法，尤其是dropou...

2018-03-15 14:22:43 708

原创 04. logistic回归-反向传播

logistic回归反向传播反向传播这应该是神经网络里面最难的部分了吧～～为此除了CS231n的课，还结合了Coursera上Ng的deeplearning课程logistic 回归想直接看反向传播的视频的，但发现Ng的符号使用不太一样，所以先从头看点～顺便重新理解了一下logistic回归，貌似又有了新的感觉～就记录下来吧1. 符号表示：input：x.sh...

2018-03-15 14:22:14 3371 1

原创 03.最优化-求梯度

损失函数可视化最优化有限差值法求梯度微分法求梯度：softmax为损失函数时推导前面介绍了两部分： 1. 评分函数：将原始图像像素映射为分类评分值 2. 损失函数：根据评分函数和训练集图像数据实际分类的一致性，衡量某个具体参数集的质量好坏。那么寻找到能使损失函数值最小化的参数的过程就是最优化 Optimization。损失函数可视化损失函数L可以看作是权重W...

2018-03-15 14:21:41 2061

原创 01.Python Numpy Tutorial

##cs231n notes:Python Numpy Tutorialimport numpy as np#idctionaryd = {'cat':(6,7),'dog':(7,5),'dog2':(8,3),'dog3':(9,10)}print(d['cat'][0])c = sorted(d.items(),key=lambda item:item[1][0],reverse ...

2018-03-15 14:21:03 194

原创 02.线性分类器-SVM-Softmax

线性分类器评分函数 score function线性分类器的理解和解释损失函数 loss function 多类SVMsoftmax分类器SVM和softmax比较KNN分类器存在的不足：分类器必须记住所有的训练数据并存储起来，以便未来测试数据比较，需要很大的空间对一个测试数据需要与所有的训练数据进行比较，需要很大的计算资源和时间为此，我们需要一种更好的方法...

2018-03-15 14:17:00 303

cs231n的课程以及作业都完成的差不多了，后续的课程更多的涉及到卷积神经网络的各个子方向了，比如语义分割、目标检测、定位、可视化、迁移学习、模型压缩等等。assignment3有涉及到这些中的一部分，但需要深入了解的话还是得看论文了。所以在看论文前把之前已学的知识，笔记和作业代码一起做个整理。博客里主要是自己在这个过程中做的笔记，其中很多直接贴的知乎上的翻译版note，作业放在github上...

2018-03-15 14:09:27 2680

原创 cs231n-LSTM_Captions

这篇文章是将cs231n中LSTM_Caption重新敲了一遍，所有的模块放在一起，以便于系统的理解整个过程。目的是读懂其中的每一行代码，即使是课程中已经帮你写好了的。# As usual, a bit of setupfrom __future__ import print_functionimport time, os, jsonimport numpy as npimport...

2018-03-09 23:55:30 1546

原创最优化 Ooptimization

损失函数可视化最优化前面介绍了两部分： 1. 评分函数：将原始图像像素映射为分类评分值 2. 损失函数：根据评分函数和训练集图像数据实际分类的一致性，衡量某个具体参数集的质量好坏。那么寻找到能使损失函数值最小化的参数的过程就是最优化 Optimization。损失函数可视化损失函数L可以看作是权重W的函数，在CIFAR-10中一个分类器的权重矩阵大小是[10,307

2018-02-01 12:15:17 391

原创线性分类器

线性分类器评分函数 score function线性分类器的理解和解释损失函数 loss function 多类SVMsoftmax分类器SVM和softmax比较KNN分类器存在的不足：分类器必须记住所有的训练数据并存储起来，以便未来测试数据比较，需要很大的空间对一个测试数据需要与所有的训练数据进行比较，需要很大的计算资源和时间为此，我们需要一种更好的方法：

2018-01-31 16:08:07 559

原创 C++ prime 构造函数和析构函数

数据部分的访问状态是私有的，不能像其他数据类型那样初始化。程序只能通过成员函数来访问数据成员，因此要设计合适的成员函数来将对象初始化。为此，C++提供了一个特殊的成员函数—类构造函数。构造函数的申明和定义： //constructor 构造函数，没有返回类型。原型位于类声明的共有部分#include#include#includeclass Stock { //cl

2018-01-23 18:27:14 841

原创 C++ Prime plus 类和对象

面向对象（oop）： • 抽象 • 封装和数据隐藏 • 继承 • 代码可重用性类规范： • 类声明：以数据成员的方式描述数据部分，以成员函数（方法）的方式描述共有接口。类的内存大小，就是数据成员的内存之和 • 类方法定义：描述如何实现类成员函数类申明：头文件//File : Cplusplusplus_10_.hpp#include#include

2018-01-23 18:17:32 364

原创 C++ vector

标准数组：向量（vector），一个类模板内置数组类型 int fibon[]; 基于对象设计的数组类： class Array{};vector与前两者的区别： 1. 动态增长：支持向现有的数组元素赋值，以及插入元素 2. 更广泛：不在提供巨大的“可用于适量向量”的成员操作集，而只是提供了一个最小集：如等于、小于操作符、size()、empty()等操作。而一

2018-01-18 13:38:04 257

原创 cs231n svm

https://github.com/PanXiebit/cs231ndef svm_loss_naive(W, X, y, reg): """ Inputs have dimension D, there are C classes, and we operate on minibatches of N examples. Inputs: - W: A num

2017-11-10 10:57:43 420

原创 cs231n knn

k近邻（KNN）KNN分类器分为两个阶段：在训练阶段，分类器获取训练数据，并记住它;在测试阶段，knn分类器计算每一张测试集的图片与训练集中所有图片的距离，并导出k个最近的训练样本的类标签;对k进行交叉验证# 获取数据from six.moves import cPickle as pickleimport osimport numpy as npdef load_CIFAR_batc

2017-11-01 23:55:27 357

原创 cs231n notes:Python Numpy Tutorial

##cs231n notes:Python Numpy Tutorial#idctionaryd = {'cat':'cute','dog':'furry'}#三种遍历方式for k,v in d.items(): print(k,v)for i in d: print(i,d[i])cat cutedog furrycat cutedog furry#get(key[

2017-10-31 22:49:34 277

原创机器学习之Adaboost

主要内容： 1.何为提升学习方法adaboost 2.adaboost算法步骤 3. 代码实现 4. sklearn使用一、何为提升学习方法历史上，Kearns和Valiant首先提出了“强可学习（strongly learnable）”和“弱可学习（weakly learnable）”的概念。指出：在概率近似正确（probably approximately correct，PAC）学习框

2017-09-02 16:54:31 1069

原创服务器安装centos7.0

装系统什么的，果然就是实习生干的活。。装过虚拟机的centos，装过ubuntu，原以为很简单，但服务器的一点不一样，造成的是一路来各种意想不到的坑！！！但通过自己一步步摸索，最终看到那么漂亮的centos界面还是灰常开心的～通过踩坑也算是对linux系统更加熟悉了～一、软碟通制作U盘启动踩坑：启动盘制作好后，出现’Waring : /dev/root does not exit ,cou

2017-08-11 11:25:31 476

原创 TF-day6 CNN简单分类

import tensorflow as tf import pandas as pd import numpy as npdatadf = pd.read_excel(‘/home/pan-xie/PycharmProjects/ML/jxdc/打分/项目评分表last.xls’) X = df.iloc[:,2:].fillna(df.mean())print(X.shape) ##(4

2017-08-03 17:55:56 847

原创 TF day 5 神经网络的优化

主要内容：反向传播backpropagation和梯度下降gradient decent学习率learning rate的设置：指数衰减法过拟合问题：正则化regularization一. 优化算法反向传播和梯度下降是神经网络的核心，用来调整神经网络中的参数的取值。具体细节可参考： - learning representations by back-paopagating erro

2017-08-02 15:33:23 826

原创 TF day4 常用损失函数

TF day2 里面说到神经网络的工作, 得到的预测值与实际的 label 比较得到了误差，我们的目标是让这个误差越来越小。那么这个误差怎么定义呢? 这就是损失函数了~~~分类问题和回归问题都属于监督学习. 对于分类问题, 设置 n 个output node, 其中 n 为类别的个数, 因此输出向量是, i表示第i个样本. 在理想情况下,如果一个样本属于类别 k ,那么这个节点的输出值为1

2017-07-31 12:32:00 392

原创 TF-day3 mnist识别数字

相对TF-day1中mnist数字识别的神经网络,这次的神经网络结构更复杂. 使用了带指数衰减的学习率设置,使用正则化来避免过度拟合,以及使用滑动平均模型來使得模型更加健壮.# coding: utf-8from tensorflow.examples.tutorials.mnist import input_dataimport tensorflow as tf###get datasetmn

2017-07-26 20:32:11 400

原创 TF-day2 神经网络基础知识

学习内容：计算图 graph 张量 tensor 会话 session变量 variable：常用的变量生成函数占位符 placeholder1.计算图 graph tensorflow中的每一个计算都是计算图中的一个节点，而节点之间的边描述了计算之间的依赖关系。g1 = tf.Graph()with g1.as_default(): v = tf.get_variable(

2017-07-26 17:56:49 622

原创 TF-day1 MINIST识别数字

当我们开始学习编程的时候，第一件事往往是学习打印”Hello World”。就好比编程入门有Hello World，机器学习入门有MNIST主要步骤 - 获取数据 - 建立模型 - 定义 tensor，variable：X，W，b - 定义损失函数，优化器：cross－entropy，gradient descent - 训练模型：loop，batch - 评价：准确率一.获

2017-07-23 22:29:37 543

转载什么是云计算？

转载：云计算是什么？一、传统电脑当你启动一台个人电脑(PC机)时，电脑所做的事，就是把硬盘上的操作系统(OS，本文以微软的Windows 8为例，但也可以是Unix、Linux等等)的一些基本的控制程序调入到电脑的内存中去。一旦这个过程完成，这台电脑就完全由Windows 控制了。你所谓的电脑，其实就是你在上面工作的Windows。对Windows而言，它所赖以运行的，只有电脑的处理器(CPU)、内

2017-07-15 15:58:55 463

原创机器学习相关知识

之前学习的东西很杂，都是想到哪个算法，就去学。并没有很系统的去理解他们的区别，这样可能就没办法理解其真正的含义。再就是一心想着找实习，可是没有足够的水平水平很难去做这方面项目，即使找到了，可能也很low . 所以其实我要做的是静下心来，系统的，深入的去学习、理解和实现这些算法、知识。常用的机器学习算法：**监督学习：**Classification 分类、regression 回归1. K

2017-07-13 11:18:09 211

原创动态数据爬取

关于爬虫的知识很早之前就学过，但时间久了，不用的话就都忘了。还好当时笔记有写在我的印象笔记上～～1）今天公司要求在新三板上爬取部分上市公司数据，要求400家公司的名称，以及其所属类型，创/基。全国中小企业股份转让系统需要爬取的内容：选取行业类型为互联网相关的公司，然后爬取相应的公司名字，公司代码中基/创2）查看网页源代码，发现里面并没有需要的核心内容。通过分析页面请求的方法爬取动态加载页

2017-07-12 17:23:27 933

原创 Ubuntu16.04+CUDA8.0+Tensorflow

电脑配置: 系统:Ubuntu16.04 显卡:Quadro P400一. 安装显卡驱动: 主要参考博文:Nvidia驱动安装1.先下载相应驱动链接: NVIDIA驱动下载选择驱动: Nvidia 375.661)卸载原有的驱动sudo apt-get remove –purge nvidia*2)禁用nouveau 打开编辑配置文件：gedit /etc/modprobe.d/bla

2017-07-11 18:01:15 767

原创 NLP学习笔记

NLP（Nutural language processing ）概述一、自然语言处理的应用场景：市场调查公司，在线填写问卷。怎么判断出哪些问卷是认真写，哪些是瞎填的？情感分析：判断一个人在什么样的情绪瞎填写的这份问卷文档自动分类：门户网站二、语料库：三、NLP的研究模式：自然语言场景问题数学算法算法如何运用到解决问题中语料训练相关实际应用四、学习NLP的困难：

2017-07-09 23:02:55 336

原创机器学习之决策树

一.决策树模型和学习 1.决策树定义决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。2.决策树的学习构造决

2017-06-26 02:00:00 774

转载 hadoop学习笔记

hadoop学习笔记

2017-06-20 11:39:31 222

对话系统中的深度学习进展

A Brief Introduction to PySpark

隐马尔可夫模型教程-Oxford

贝叶斯网络

空空如也