张小彬的代码人生-CSDN博客

原创 Text Summarization 综述

ABS 和 ABS+[Rush, 2015] A Neural Attention Model for Abstractive Sentence Summarization这篇 facebook 的论文是用神经网络来做生成式摘要的开山之作，后续的论文基本都会引用。而且在 github 上有开源的代码放出来，可以参考 facebook/NAMAS.模型的主要结构见下图(a)，即左边的那部分，其实本质上

2017-11-24 17:35:21 14902 4

原创 Variational Autoencoder: Basic Concept

The neural network perspective传统的 Autoencoder 结构如下图：但是这种结构没法生成新数据，只能做数据压缩。怎么改进呢？可以考虑加一个正则项，让隐变量趋近一个单位高斯分布。generation_loss = mean(square(generated_image - real_image)) latent_loss = KL-Divergence(la

2017-09-25 20:22:04 1867

原创论文阅读：CopyNet

论文《Incorporating Copying Mechanism in Sequence-to-Sequence Learning》CopyNet 是在 Seq2Seq + Attention 的基础上，引入了拷贝机制，对某些任务会有所擅长。模型结构如下图实现上有关键两点（即图中右边的上下两个矩形框），Prediction with Copying and Generati...

2017-08-03 20:40:44 10529 5

原创 word2vec 笔记

word2vec 是 Google 于 2013年开源的一个用于获取词向量的工具包，作者是 Tomas Mikolov，不过现在他已经从 Google Brain 跳槽到了 Facebook Research，后来还参与了 fasttext 项目的研究。下面是我读博客 word2vec 中的数学原理的一些笔记和总结。Language Model （语言模型）统计语言模型（statistical l

2017-07-07 15:07:38 4914

原创 gensim 实践篇

继上篇文章了解了一些模型的基本原理以后，这里来讲讲怎么用 gensim，主要参考官方网站的 gensim: Tutorials，这篇博文也只是简单记下一点笔记。主要有三块内容，先讲怎么把文档表示成向量空间模型（VSM，vector space model）中的稀疏向量（sparse vector）形式，然后是怎么用模型（这里叫 topic and transformations）把词袋模型（BoW，

2017-06-16 16:21:11 5253

原创 gensim 理论篇

gensimgensim 是 Radim Rehurek 写的一个用来处理文本相似度的 python 库。可以很方便的用 tfidf，LDA，LSA，word2vec 等模型，涵盖了 NLP 里常见的词袋模型，主题模型，词嵌入等。下面简单介绍一下这些概念。Vector Space model在自然语言处理中，我们经常需要表示一个文档。一种常见的做法是写成向量的形式，比如直接统计一下该文章的词频，那么

2017-06-15 17:35:06 2209

原创 pytorch loss function 总结

最近看了下 PyTorch 的损失函数文档，整理了下自己的理解，重新格式化了公式如下，以便以后查阅。值得注意的是，很多的 loss 函数都有 size_average 和 reduce 两个布尔类型的参数，需要解释一下。因为一般损失函数都是直接计算 batch 的数据，因此返回的 loss 结果都是维度为 (batch_size, ) 的向量。如果 reduce = False，那么 s...

2017-05-18 13:02:09 157531 15

原创 cs231n 课程作业 Assignment 3

作业总结终于来到了最后一次作业，这次主要是讲 RNN 或 LSTM 这个时序模型，感觉如果公式已经熟悉了的话（没有的话多看几遍，也可以参考我上篇博文的公式总结，囧），作业应该比上次的简单。代码量也少一些。在写代码之前要下载一些必要的模型文件，数据集等，可能比上两次麻烦点，具体看 Assignment #3 的说明就好了。我的作业代码见：cs231n/assignment3.Image Caption

2017-04-27 16:06:36 15846 5

原创 RNN, LSTM, GRU 公式总结

RNN参考 RNN wiki 的描述，根据隐层 hth_t 接受的是上时刻的隐层（hidden layer） ht−1h_{t-1} 还是上时刻的输出（output layer）yt−1y_{t-1}，分成了两种 RNN，定义如下：Elman network 接受上时刻的隐层 ht−1h_{t-1}Jordan network 接受上时刻的输出 yt−1y_{t-1}但是看了很多的教程，感觉应

2017-04-11 17:09:28 40912 4

原创 cs231n 课程作业 Assignment 2

上一次作业基本已经讲了构建一个多层神经网络的基本知识，包括其结构，公式推导，训练方法。这一次主要关注卷积神经网络（CNN, Convolution Neural Network），要先读完课程笔记 CS231n Convolutional Neural Networks for Visual Recognition，基本就懂了。特别是那个解释卷积的动态图，非常形象。CNN 主要多了卷积层（convo

2017-04-07 16:09:15 26992 5

原创 cs231n Convolutional Neural Network 笔记

CNNs: Architectures, Convolution / Pooling LayersCovNet LayersConvNet 显示地假设输入是图片，卷积池化等操作大大减少了参数，比一般的全连接网络计算更高效。CNN 里具体有下面的几种结构，卷积层， Convolutional LayerDilated convolutions 就是做点乘的时候，也有个stride，而不是连续的九宫格

2017-04-07 16:06:27 2083

原创 cs231n 课程作业 Assignment 1

课程资料趁着在学校的时间，跟着 cs231n 的课程做了一下作业，感觉收获特别大，现在汇总在博客里。下面是一些官方的课程资料：网页备注课程主页主页课程介绍课程官方笔记貌似要 fq 软件支持 Syllabus 课件、视频、课程安排表还有一些其他有用的非官方资料：网页备注课程中文翻译智能单元公众号提供的翻译课程视频网易云课堂提

2017-02-15 21:14:32 70855 42

原创 cs231n neural network 笔记

神经网络里的非线性是很重要且必不可少的。在全连接层之间引入非线性单元，可以让神经网络具有更强的表达能力。一个三层的神经网络可以大概写成这样子的形式，$$s = W_3\max(0, W_2\max(0,W_1x))$$ 中间的隐藏层神经元数量的大小可以自己设置。

2017-02-15 21:04:46 4043

原创 MLaPP Chapter 11 Mixture models and the EM algorithm

11.1 Latent variable models 隐变量模型图模型尝试在不同的观察变量之间建立条件独立关系，另一种思路则是用隐变量模型，即 LVMs, Latent variable models，这种模型假设观察变量都是从一个共同的“隐变量”中得到的。隐变量的意思就是无法观测到，没有数据，可以人为定义个数和表示的含义。因此聚类算法中的簇就可以看做是隐变量，而有监督学习中如果给了簇的标定数据，

2017-02-08 16:23:34 1792

原创 MLaPP Chapter 10 Bayes nets 贝叶斯网络

10.1 Introduction书里开头就引用了迈克尔·乔丹对图模型的理解，他说处理复杂系统有两个原则，模块性（modularity）个抽象性（abstraction），而概率论（probability theory）则通过因式分解（factorization）和求平均（averaging）深刻地实现了这两个原则。概率图模型有三大任务：表征（representatino），推断（Inference

2017-02-08 16:21:43 2611 9

原创 MLaPP Chapter 9 GLM and the exponential family 指数家族

9.1 Introduction前面讲过的很多概率分布其实都是属于指数家族簇，比如高斯，伯努利，泊松，狄利克雷分布等。当然，要除掉均匀分布和学生 t 分布。我们可以用指数家族分布来表示 class-conditional density，由此建立广义线性模型（GLM, Generalized Linear Model）这个生成分类器。9.2 The exponential family 指数家族指数

2017-02-08 16:16:20 3053

原创 MLaPP Chapter 8 Logistic Regression 逻辑斯特回归

8.1 IntroductionLR 是一个非常重要的模型，几乎所有的机器学习职位面试都会问到。因此这章是重点，一定要看懂。8.2 Model specification把线性回归的高斯分布，换成伯努利分布，就成了逻辑斯特回归，不过这个模型其实是个分类模型，p(y|x,w)=Ber(y|sigm(wTx))p(y|\mathbf{x}, \mathbf{w}) = \text{Ber}(y|\tex

2017-02-08 15:57:22 2510 2

原创 MLaPP Chapter 7 Linear Regression 线性回归

7.1 Introduction线性回归（Linear Regression）是统计学和机器学习中的主力军（work horse），当用核函数等做基函数扩充（basis function expansion）时，又可以模拟非线性关系。除了回归问题，如果用伯努利或者多努利分布代替高斯分布，那么就可以用来做分类问题（classification），下一章会讲。7.2 Model specificatio

2017-02-08 15:52:55 2090

原创 MLaPP Chapter 6 Frequentist statistics 频率学派统计学

6.1 Introduction频率学派统计学（frequentist statistics），经典统计学（classical statistics），或者叫正统的统计学（orthodox statistics），设计了一些不把参数当做随机变量的统计推断方法，从而避免了使用贝叶斯法则和先验。频率学派依赖于抽样分布（sampling distribution），而贝叶斯学派则依赖后验分布（poster

2017-02-08 15:50:34 2538

原创 MLaPP Chapter 5 Bayesian statistics 贝叶斯统计

5.1 Introduction 介绍在第三章我们讨论了如果用最大化后验（MAP）做参数估计，即 θ^=argmaxp(θ|D)\hat\theta = \arg\max_p(\theta | \mathcal{D})，和计算全后验 p(θ|D)p(\theta|\mathcal{D}) 和计算后验预测密度（posterior predictive density） p(x|D)p(\mathbf{

2017-02-08 15:42:03 4257

原创 MLaPP Chapter 4 Gaussian models 高斯模型

4.1 Introduction 介绍4.1.1 Notation 符号一般矩阵用大写加粗的字母，向量用小写加粗字体。4.1.2 Basics 基础回顾一下多元高斯概率密度函数：N(x|μ,Σ)≜1(2π)D/2|Σ|1/2exp[−12(x−μ)TΣ−1(x−μ)]\mathcal{N}(\mathbf{x}|\boldsymbol{\mu}, \mathbf{\Sigma}) \triangle

2017-02-08 15:37:11 3200

原创 MLaPP Chapter 3: Generative models for distrete data

3.1 Introduction生成模型（generative model）一般会按照下面的贝叶斯公式构造分类器：p(y=c|x,θ)∝p(x|y=c,θ)p(y=c|θ))p(y=c|\mathrm{x, \theta}) \propto p(\mathrm{x}|y=c, \theta)p(y=c|\theta))中间的 ∝\propto 符号表示“正比于”，即忽略了常系数。而概率 p(x|y=

2017-02-08 14:22:56 2144

原创 MLaPP Chapter 2 Probability 概率论

2.1 Introduction 简介对概率一般有两种理解(interpretations)：frequentist interpretation, 这个层面上是说，概率可以看作是多次事件实验的发生的频率的逼近举个例子，假如进行很多次抛硬币实验，会发现最终硬币会出现正面的概率为0.5Bayesian interpretation, 贝叶斯派常把概率当做是量化事件不确定型的工具原文 (p

2017-02-08 14:09:44 3246

原创 MLaPP Chapter 1 Introduction

1.1 Machine Learning: what and why?由于现在处于信息爆炸的时代，机器学习的意义在于，发现数据中的模式，并用于新数据的预测之中。而本书则会偏向于概率论的角度来看待机器学习。1.1.1 Types of Machine Learning机器学习大概分成下面三种，有监督学习predictive or supervised method给定训练集，求从输入到输出的映射。

2017-02-08 13:54:50 2680

原创 MLaPP 读书笔记-概述

MLaPP 全称是 Machine Learning：A Probabilistic Prospective，是 2012 年出的一本讲机器学习的一本书。我们实验室在2016年秋季决定读这本书，但是只读前半部分基础的部分，具体安排见 CIS2016 。原书的封面见下图，我在读书的过程中，发现这本书的内容很难啃，但是干货很多，所以又不得不硬着头皮啃下去，只好边读书边写下笔记。感觉做笔记有很多的好处，

2017-02-08 13:36:25 14802

原创研究生课程算法分析-回溯法和分支限界法

回溯法（backtrack）有许多问题，当需要找出它的解集或者要求回答什么解是满足某些约束条件的最佳解时，往往要使用回溯法。回溯法的基本做法是搜索，或是一种组织得井井有条的，能避免不必要搜索的穷举式搜索法。这种方法适用于解一些组合数相当大的问题。回溯法在问题的解空间树中，按深度优先策略，从根结点出发搜索解空间树。算法搜索至解空间树的任意一点时，先判断该结点是否包含问题的解。如果肯定不包含，则跳过

2016-12-31 13:26:16 2598 2

原创研究生课程算法分析-贪心法

贪心法的思想在求解一些最优化问题的时候，一般会分成多个步骤，每一步都有一个选择。贪心算法的思想在于，先不从整体考虑，每次都只做当前看来最优的思想，即局部最优解，期望通过一步步的局部最优解，最后构造出全局最优解。贪心算法是很多问题的最优解，当然也有很多问题只是局部最优，或者近似最优解，在构造贪心算法的时候，要注意贪心选择是否能求出最后的最优解。贪心算法的基本要素最优子结构性质一个问题的最优解包含其子问

2016-12-31 12:45:53 1094

原创研究生课程算法分析-动态规划

动态规划的思想上一篇博文讲了分治法，这一篇的动态规划思想有些接近，但是两者最大区别是，动态规划要解决的子问题往往不是独立的，子问题往往被重复求解了很多次。所以一个叫朴素的想法是，把每个子问题的答案都保存下来，从而避免大量的重复计算。这种方法叫做备忘录方法，是典型的以空间换取时间。动态规划的基本要素最优子结构性质最优子结构的性质指的是，问题的最优解包含着其子问题的最优解。利用该性质，自底向上递归地从子

2016-12-29 20:48:10 645

原创研究生课程算法分析-分治法

分治法（divide and conquer）是算法分析里比较直观和朴素的思想，应用也很广泛。分治法的思想分治法的思想是，把一个复杂的问题 P 划分称 kk 个子问题，这些子问题相互独立且与原问题相同。递归调用子问题，直到问题规模足够小，可以很容易地求解为止；接着，把小规模的问题的解合并成一个更大规模的问题的解。可以用下面的伪代码来描述，divide-and-conquer(P) { if

2016-12-29 19:46:01 767

原创研究生课程算法分析笔记

算法分析有四大经典的思想，分治法、贪心法、动态规划，最后一个是回溯法和分支限界法，后面会针对性都出一篇博客总结。这篇博文先总结一下除了四大算法之外的，杂七杂八的笔记。

2016-12-29 16:52:43 1146

原创线性代数复习第六章二次型

第六章二次型6.1 基本概念和性质二次型的定义含有 nn 个未知量 x1,x2,...,xnx_1,x_2,...,x_n 的二次多项式 f(x1,x2,...,xn)=∑i=1n∑j=1naijxixj, (aij=aji)f(x_1, x_2,...,x_n) = \sum_{i=1}^n \sum_{j=1}^n a_{ij}x_ix_j,\ (a_{ij} = a_{ji}) 称为实数域上

2016-09-11 17:52:48 7045

原创线性代数复习第五章特征值和特征向量

第五章特征值与特征向量5.1 特征值与特征向量基本概念有 nn 阶方阵 A\bf{A}，非零 nn 维列向量 α\boldsymbol{\alpha}，若存在数 λ\lambda，使得关系式 Aα=λα\boldsymbol{A\alpha = \lambda\alpha} 成立，那么称 λ\lambda 为矩阵 A\bf{A} 的一个特征值，对应 α\boldsymbol{\alpha} 就是特

2016-09-11 17:50:56 3675

原创线性代数复习第四章线性方程组

第四章线性方程组4.1 高斯消元法基本概念基本上，研究矩阵和线性代数，就是为了求解方程组，三种基本的矩阵变换也是和方程的变换相等价的，如交换两组方程组的位置，把方程的两边同时乘以一个非零常数，方程组的叠加等，都不会改变方程的解。高斯消元法（用初等变换求线性方程组的解）利用初等变换，可以把增广矩阵转化成三角矩阵，然后对应到方程中再用消元法求解。齐次线性方程组只有零解，或者有无数解；非齐次线性方程组可

2016-09-11 17:48:32 2902

原创线性代数复习第三章向量

第三章向量3.1 向量基本概念和运算法则行向量通常用小括号表示，列向量通常用中括号表示，统称向量，用小写黑体字体代表。线性组合对于向量 β\boldsymbol{\beta} 和向量组 α1,α2,...,αn\boldsymbol{\alpha_1, \alpha_2,...,\alpha_n}，若存在一组常数 k1,k2,...,ksk_1,k_2,...,k_s 使得 β=k1α1+k2α

2016-09-11 17:44:30 4644

原创线性代数复习第二章矩阵

第二章矩阵2.1 矩阵的概念矩阵的概念和运算矩阵和前面的行列式定义类似，记 A=(aij)m×n\mathbf{A} = (a_{ij})_{m \times n} 为 m×nm \times n 矩阵。单位矩阵，主对角线均为 11，其他均为 00 的矩阵，记为 E\mathbf{E} 或者 I\mathbf{I}对角矩阵，主对角线上都是常数，其他的都是零三角矩阵，分上三角矩阵和下三角矩阵

2016-09-11 17:41:04 1339

原创线性代数复习第一章行列式

第一章行列式1.1 行列式的概念排序和逆序数由 nn 个数 1,2...,n1,2...,n 组成的一个无重复的有序数组 i1i2⋯ini_1i_2\cdots i_n 称为一个 nn 级排列。而 nn 级排列共有 n!n! 个，因为这是个全排列的问题。逆序数指的是在一个 nn 级排列中，较大数排在较小数之前这种组合（称为逆序）的总个数，用 τ(i1i2⋯in)\tau(i_1i_2\cdots

2016-09-11 17:35:25 2436

原创线性模型

Linear Regression 线性回归1. hypothesis function又叫决策函数（decision function），这里是线性模型，θ\theta 是参数。 hθ(x)=∑i=0nθixi=θTxh_\theta(x)=\sum_{i=0}^n\theta_ix_i=\theta^Tx2. cost function这里是最小二乘法，least squares functi

2016-02-21 20:06:52 1103 1

原创统计学习方法概论

１．监督学习统计学习方法包括了监督学习（Supervised Learning）非监督学习（Unsupervised Learning）半监督学习（Semi-supervised Learning）强化学习（Reinforcement Learning）《统计学习方法》这本书主要讲的是一些常见的监督学习的方法。２．基本概念输入空间，输出空间与特征向量假设我们有一个训练数据集合Ｔ，集合大小为

2016-02-20 21:19:43 716

原创利用Tesseract来识别验证码

概述我们在写爬虫脚本时，经常会遇到验证码阻碍我们的道路。特别是这个网站的资料又非常重要，所以不得不研究一下怎么让机器自动识别。对于一些不太复杂的验证码，我们可以直接用现成的开源引擎Tesseract识别。如下面的图片，数字还是很清晰，也没有什么偏转，字母粘连也不是很严重。在实际测试中，基本50%以上的验证码可以一次通过。Tesseract就是开源引擎里的执牛耳项目。起源于惠普实验室并在1984-19

2015-11-02 20:59:33 15993

原创统计学习方法--感知机模型（perception）

感知机模型（perception）概念感知机是一个二类分类的线性分类器，是支持向量机和神经网络的基础。它假设数据是线性可分的，目标是通过梯度下降法，极小化损失函数，最后找到一个分割超平面，可以将数据划分成两个类别。预测的模型可用下面的函数表示： f(x)=sign(w⋅x+b)f(x) = sign(w·x+b) 其中 ww 是权值（weight）参数，bb 是偏置项（bias）

2015-09-21 01:46:06 4011

SSOAuth示例及源码

空空如也