- 博客(54)
- 资源 (4)
- 收藏
- 关注
原创 111
// 替换空格/*题目:请实现一个函数,把字符串中的每个空格替换成"%20".例如,输入 "we are happy", 则输出 "we%20are%20happy."*/#include <iostream>#include <stdio.h>using namespace std;void replaceSpace(char *str,int...
2018-07-01 22:13:02 236
原创 chapter3-有限状态自动机
chapter3:finite-state automation. 原书中第三版中的这一章还没写完,所以是看的图书馆借来的第二版,并结合宗成庆老师的统计自然语言处理来看的。 有限状态自动机 finite-state automation, FSA前面一章节中的正则表达式只是一种用于文本搜索的方便的元语言,它是描述有限状态机的一种方法。任何正则表达式又可以用有限状态机来实现(除...
2018-04-12 09:19:24 1578
原创 chapter2:正则表达式、文本标准化和编辑距离
Speech and Language Processing: An introduction to Natural Language Processing, Computational Linguistic, and Speech Recognition. Chapter 2 前言: 早期的自然语言处理工具ELIZA采用的方法是pattern matching. 而对于文本模式(text ...
2018-04-12 09:18:26 1569
原创 隐马尔可夫模型-standford
chapter6: 隐马尔科夫模型 standford tutorial, 可以说是看过的关于隐马尔科夫最好的教程了。要是看英文原版能和看中文一样easy该多好,可惜文化差异的情况下,即使是单词都认识,理解起来也会有点困难。对此,只能自己重新总结一下吧~ 可以说,斯坦福从未让人失望过,太赞了!也是无意中在google上看到这篇文章,才发现了这么好的一本书, Speech and langua...
2018-04-12 09:17:38 648
原创 从生成模型到GDA再到GMM和EM算法
在学习生成模型之前,先学习了解下密度估计和高斯混合模型。为什么呢?因为后面的VAE\GANs模型都需要把训练样本,也就是输入的图像样本看作是一个复杂的、多维的分布。1. 知乎上关于图像频率的解释作者:耳东陈 链接:https://www.zhihu.com/question/20099543/answer/13971906 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请
2018-03-21 17:44:10 1831
原创 09. 训练神经网络4 --- 超参数调试,BN正则化再解析
1. 超参数调试方法1) Try random values, and donnot use a grid2) Coarse to fine3) using an apporiate scale to pick hyperparameters以对学习率αα\alpha的调试为例,需要从[0.0001,1]之间随机选择进行调试.显然,随机选出来的90%会集中在[0.1,1]之间....
2018-03-15 14:25:02 1099
原创 08. 训练神经网络3 -- 优化算法
前面一部分主要讲了神经网络在前向传播过程中对数据的处理,包括去均值预处理, 权重初始化, 在线性输出结果和激活函数之间批量归一化BN,以及进入下一层layer之前的随机失活.那么这一部分将介绍在反向传播过程中对梯度下降的处理,也就是几种优化算法.真的很佩服这些人…一个梯度下降,你之前可能想的就是w−=αdww−=αdww -= \alpha dw就好了,但研究者们也能大做文章,厉害厉害!!...
2018-03-15 14:24:40 303
原创 07. 训练神经网络2
数据预处理归一化 NormalizationPCA降维和白化 权重初始化批量归一化 Batch Normalization正则化 L1, L2正则化Dropout and 反向 Dropout属性分类:一个样本有多个标签偏差和方差 bias and variance1. 数据预处理对原始数据进行预处理:均值减法(Mean subtraction)...
2018-03-15 14:24:11 178
原创 06. 训练一个神经网络1-- epoch,batch_size,iteration
batch_size, iteration, epoch1. 训练数据集的喂入:batch_size, iteration, epoch1.1. 首先需要先了解下梯度下降梯度下降是一种迭代优化算法,用于寻找最佳结果,loss的最小值。迭代意味着我们需要多次得到结果才能得到最优的结果。 梯度下降的迭代质量有助于拟合图形使图形最适合数据。左图中我们可以看到步长(又称学习...
2018-03-15 14:23:10 1074
原创 05. 神经网络的结构
生物神经元的粗略模型;激活函数,其中ReLU是最佳推荐;理解了神经网络是一个通用函数近似器,但是该性质与其广泛使用无太大关系。之所以使用神经网络,是因为它们对于实际问题中的函数的公式能够某种程度上做出“正确”假设。讨论了更大网络总是更好的这一事实。然而更大容量的模型一定要和更强的正则化(比如更高的权重衰减)配合,否则它们就会过拟合。在后续章节中我们讲学习更多正则化的方法,尤其是dropou...
2018-03-15 14:22:43 708
原创 04. logistic回归-反向传播
logistic回归反向传播反向传播这应该是神经网络里面最难的部分了吧~~为此除了CS231n的课,还结合了Coursera上Ng的deeplearning课程logistic 回归想直接看反向传播的视频的,但发现Ng的符号使用不太一样,所以先从头看点~顺便重新理解了一下logistic回归,貌似又有了新的感觉~就记录下来吧1. 符号表示:input:x.sh...
2018-03-15 14:22:14 3371 1
原创 03.最优化-求梯度
损失函数可视化最优化 有限差值法求梯度微分法求梯度:softmax为损失函数时推导前面介绍了两部分: 1. 评分函数:将原始图像像素映射为分类评分值 2. 损失函数:根据评分函数和训练集图像数据实际分类的一致性,衡量某个具体参数集的质量好坏。 那么寻找到能使损失函数值最小化的参数的过程就是最优化 Optimization。损失函数可视化损失函数L可以看作是权重W...
2018-03-15 14:21:41 2061
原创 01.Python Numpy Tutorial
##cs231n notes:Python Numpy Tutorialimport numpy as np#idctionaryd = {'cat':(6,7),'dog':(7,5),'dog2':(8,3),'dog3':(9,10)}print(d['cat'][0])c = sorted(d.items(),key=lambda item:item[1][0],reverse ...
2018-03-15 14:21:03 194
原创 02.线性分类器-SVM-Softmax
线性分类器 评分函数 score function线性分类器的理解和解释损失函数 loss function 多类SVMsoftmax分类器SVM和softmax比较KNN分类器存在的不足:分类器必须记住所有的训练数据并存储起来,以便未来测试数据比较,需要很大的空间对一个测试数据需要与所有的训练数据进行比较,需要很大的计算资源和时间为此,我们需要一种更好的方法...
2018-03-15 14:17:00 303
原创 cs231n笔记总结
cs231n的课程以及作业都完成的差不多了,后续的课程更多的涉及到卷积神经网络的各个子方向了,比如语义分割、目标检测、定位、可视化、迁移学习、模型压缩等等。assignment3有涉及到这些中的一部分,但需要深入了解的话还是得看论文了。所以在看论文前把之前已学的知识,笔记和作业代码一起做个整理。 博客里主要是自己在这个过程中做的笔记,其中很多直接贴的知乎上的翻译版note,作业放在github上...
2018-03-15 14:09:27 2680
原创 cs231n-LSTM_Captions
这篇文章是将cs231n中LSTM_Caption重新敲了一遍,所有的模块放在一起,以便于系统的理解整个过程。目的是读懂其中的每一行代码,即使是课程中已经帮你写好了的。# As usual, a bit of setupfrom __future__ import print_functionimport time, os, jsonimport numpy as npimport...
2018-03-09 23:55:30 1546
原创 最优化 Ooptimization
损失函数可视化最优化前面介绍了两部分: 1. 评分函数:将原始图像像素映射为分类评分值 2. 损失函数:根据评分函数和训练集图像数据实际分类的一致性,衡量某个具体参数集的质量好坏。 那么寻找到能使损失函数值最小化的参数的过程就是最优化 Optimization。损失函数可视化损失函数L可以看作是权重W的函数,在CIFAR-10中一个分类器的权重矩阵大小是[10,307
2018-02-01 12:15:17 391
原创 线性分类器
线性分类器 评分函数 score function线性分类器的理解和解释损失函数 loss function 多类SVMsoftmax分类器SVM和softmax比较KNN分类器存在的不足:分类器必须记住所有的训练数据并存储起来,以便未来测试数据比较,需要很大的空间对一个测试数据需要与所有的训练数据进行比较,需要很大的计算资源和时间为此,我们需要一种更好的方法:
2018-01-31 16:08:07 559
原创 C++ prime 构造函数和析构函数
数据部分的访问状态是私有的,不能像其他数据类型那样初始化。程序只能通过成员函数来访问数据成员,因此要设计合适的成员函数来将对象初始化。 为此,C++提供了一个特殊的成员函数—类构造函数。构造函数的申明和定义: //constructor 构造函数,没有返回类型。原型位于类声明的共有部分#include#include#includeclass Stock { //cl
2018-01-23 18:27:14 841
原创 C++ Prime plus 类和对象
面向对象(oop): • 抽象 • 封装和数据隐藏 • 继承 • 代码可重用性类规范: • 类声明:以数据成员的方式描述数据部分,以成员函数(方法)的方式描述共有接口。类的内存大小,就是数据成员的内存之和 • 类方法定义:描述如何实现类成员函数类申明:头文件//File : Cplusplusplus_10_.hpp#include#include
2018-01-23 18:17:32 364
原创 C++ vector
标准数组 : 向量 (vector),一个类模板内置数组类型 int fibon[]; 基于对象设计的数组类: class Array{};vector与前两者的区别: 1. 动态增长:支持向现有的数组元素赋值,以及插入元素 2. 更广泛:不在提供巨大的“可用于适量向量”的成员操作集,而只是提供了一个最小集:如等于、小于操作符、size()、empty()等操作。而一
2018-01-18 13:38:04 257
原创 cs231n svm
https://github.com/PanXiebit/cs231ndef svm_loss_naive(W, X, y, reg): """ Inputs have dimension D, there are C classes, and we operate on minibatches of N examples. Inputs: - W: A num
2017-11-10 10:57:43 420
原创 cs231n knn
k近邻(KNN)KNN分类器分为两个阶段:在训练阶段,分类器获取训练数据,并记住它;在测试阶段,knn分类器计算每一张测试集的图片与训练集中所有图片的距离,并导出k个最近的训练样本的类标签;对k进行交叉验证# 获取数据from six.moves import cPickle as pickleimport osimport numpy as npdef load_CIFAR_batc
2017-11-01 23:55:27 357
原创 cs231n notes:Python Numpy Tutorial
##cs231n notes:Python Numpy Tutorial#idctionaryd = {'cat':'cute','dog':'furry'}#三种遍历方式for k,v in d.items(): print(k,v)for i in d: print(i,d[i])cat cutedog furrycat cutedog furry#get(key[
2017-10-31 22:49:34 277
原创 机器学习之Adaboost
主要内容: 1.何为提升学习方法adaboost 2.adaboost算法步骤 3. 代码实现 4. sklearn使用一、何为提升学习方法历史上,Kearns和Valiant首先提出了“强可学习(strongly learnable)”和“弱可学习(weakly learnable)”的概念。指出:在概率近似正确(probably approximately correct,PAC)学习框
2017-09-02 16:54:31 1069
原创 服务器安装centos7.0
装系统什么的,果然就是实习生干的活。。装过虚拟机的centos,装过ubuntu,原以为很简单,但服务器的一点不一样,造成的是一路来各种意想不到的坑!!! 但通过自己一步步摸索,最终看到那么漂亮的centos界面还是灰常开心的~ 通过踩坑也算是对linux系统更加熟悉了~一、软碟通制作U盘启动 踩坑:启动盘制作好后,出现’Waring : /dev/root does not exit ,cou
2017-08-11 11:25:31 476
原创 TF-day6 CNN简单分类
import tensorflow as tf import pandas as pd import numpy as npdatadf = pd.read_excel(‘/home/pan-xie/PycharmProjects/ML/jxdc/打分/项目评分表last.xls’) X = df.iloc[:,2:].fillna(df.mean())print(X.shape) ##(4
2017-08-03 17:55:56 847
原创 TF day 5 神经网络的优化
主要内容:反向传播backpropagation和梯度下降gradient decent学习率learning rate的设置:指数衰减法过拟合问题:正则化regularization一. 优化算法反向传播和梯度下降是神经网络的核心,用来调整神经网络中的参数的取值。 具体细节可参考: - learning representations by back-paopagating erro
2017-08-02 15:33:23 826
原创 TF day4 常用损失函数
TF day2 里面说到神经网络的工作, 得到的预测值与实际的 label 比较得到了误差,我们的目标是让这个误差越来越小。 那么这个误差怎么定义呢? 这就是损失函数了~~~分类问题和回归问题都属于监督学习. 对于分类问题, 设置 n 个output node, 其中 n 为类别的个数, 因此输出向量是, i表示第i个样本. 在理想情况下,如果一个样本属于类别 k ,那么这个节点的输出值为1
2017-07-31 12:32:00 392
原创 TF-day3 mnist识别数字
相对TF-day1中mnist数字识别的神经网络,这次的神经网络结构更复杂. 使用了带指数衰减的学习率设置,使用正则化来避免过度拟合,以及使用滑动平均模型來使得模型更加健壮.# coding: utf-8from tensorflow.examples.tutorials.mnist import input_dataimport tensorflow as tf###get datasetmn
2017-07-26 20:32:11 400
原创 TF-day2 神经网络基础知识
学习内容:计算图 graph 张量 tensor 会话 session变量 variable:常用的变量生成函数占位符 placeholder1.计算图 graph tensorflow中的每一个计算都是计算图中的一个节点,而节点之间的边描述了计算之间的依赖关系。g1 = tf.Graph()with g1.as_default(): v = tf.get_variable(
2017-07-26 17:56:49 622
原创 TF-day1 MINIST识别数字
当我们开始学习编程的时候,第一件事往往是学习打印”Hello World”。就好比编程入门有Hello World,机器学习入门有MNIST主要步骤 - 获取数据 - 建立模型 - 定义 tensor,variable:X,W,b - 定义损失函数,优化器:cross-entropy,gradient descent - 训练模型:loop,batch - 评价:准确率一.获
2017-07-23 22:29:37 543
转载 什么是云计算?
转载:云计算是什么?一、传统电脑当你启动一台个人电脑(PC机)时,电脑所做的事,就是把硬盘上的操作系统(OS,本文以微软的Windows 8为例,但也可以是Unix、Linux等等)的一些基本的控制程序调入到电脑的内存中去。一旦这个过程完成,这台电脑就完全由Windows 控制了。你所谓的电脑,其实就是你在上面工作的Windows。对Windows而言,它所赖以运行的,只有电脑的处理器(CPU)、内
2017-07-15 15:58:55 463
原创 机器学习相关知识
之前学习的东西很杂,都是想到哪个算法,就去学。并没有很系统的去理解他们的区别,这样可能就没办法理解其真正的含义。再就是一心想着找实习,可是没有足够的水平水平很难去做这方面项目,即使找到了,可能也很low . 所以其实我要做的是静下心来,系统的,深入的去学习、理解和实现这些算法、知识。 常用的机器学习算法:**监督学习:**Classification 分类、regression 回归1. K
2017-07-13 11:18:09 211
原创 动态数据爬取
关于爬虫的知识很早之前就学过,但时间久了,不用的话就都忘了。还好当时笔记有写在我的印象笔记上~~1)今天公司要求在新三板上爬取部分上市公司数据,要求400家公司的名称,以及其所属类型,创/基。 全国中小企业股份转让系统 需要爬取的内容:选取行业类型为互联网相关的公司,然后爬取相应的公司名字,公司代码中基/创2)查看网页源代码,发现里面并没有需要的核心内容。 通过分析页面请求的方法爬取动态加载页
2017-07-12 17:23:27 933
原创 Ubuntu16.04+CUDA8.0+Tensorflow
电脑配置: 系统:Ubuntu16.04 显卡:Quadro P400一. 安装显卡驱动: 主要参考博文:Nvidia驱动安装1.先下载相应驱动链接: NVIDIA驱动下载 选择驱动: Nvidia 375.661)卸载原有的驱动sudo apt-get remove –purge nvidia*2)禁用nouveau 打开编辑配置文件:gedit /etc/modprobe.d/bla
2017-07-11 18:01:15 767
原创 NLP学习笔记
NLP(Nutural language processing )概述 一、自然语言处理的应用场景:市场调查公司,在线填写问卷。怎么判断出哪些问卷是认真写,哪些是瞎填的? 情感分析:判断一个人在什么样的情绪瞎填写的这份问卷文档自动分类:门户网站二、语料库:三、NLP的研究模式: 自然语言场景问题 数学算法 算法如何运用到解决问题中 语料训练 相关实际应用四、学习NLP的困难:
2017-07-09 23:02:55 336
原创 机器学习之决策树
一.决策树模型和学习 1.决策树定义 决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。2.决策树的学习构造决
2017-06-26 02:00:00 774
A Brief Introduction to PySpark
2019-04-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人