faith_0904-CSDN博客

原创 CS224N笔记(四) Lecture 7：循环神经网络RNN的进阶——LSTM与GRU

本文将介绍两种比RNN更好地应对梯度消失问题的模型结构——LSTM和GRU，文章以CS224N的课件和材料为基础，以图解的形式帮助大家更好地理解这两种模型的结构，并进一步分析他们的优缺点和应用场景。目录一、背景知识二、LSTM的原理与结构1.模型结构2. 如何解决梯度消失三、GRU的原理与结构四、LSTM与GRU的选择五、RNN的其他变种模型1. 双向RNN2. 多层RNN六、参考文献一、背景知识循环神经网络RNN由于模型结构上的缺陷，很容易引起梯度爆炸和梯度消失，梯度爆炸可以用梯度截断方法在一定.

2020-12-24 20:51:23 1190 4

原创 CS224N笔记(三) Lecture 6~7：深入理解循环神经网络RNN模型

本文将从语言模型的概念出发，引出循环神经网络RNN的概念，对RNN的结构进行描述，详细推导了梯度计算过程，并解释RNN容易出现梯度消失、梯度爆炸的原因。文章的最后对RNN的应用场景进行了简单的介绍。目录一、背景知识1. 语言模型2.n-gram3. 固定窗口神经语言模型二、基本结构三、训练与优化1. 损失函数2. 梯度计算3. 梯度消失和梯度爆炸四、优缺点五、应用与展望六、参考文献一、背景知识1. 语言模型在讲解循环神经网络RNN之前，先来回顾一下什么是统计语言模型，之前说到统计语言模型就是用以.

2020-12-24 20:46:18 432

原创 cs224n笔记(一) Lecture1: word2vec算法详细解析

word2vec本文是对斯坦福CS224N第一、二节课的学习笔记1. 背景知识词向量除了可以分为离散型和分布型，还可以分为计数型和预测型，计数型的如离散型中的词典模型（BOW），TF-IDF模型，以及分布型中的n-gram，他们本质上都是在计算词序列出现的频次，属于统计模型，没有可学习的参数，而word2vec则是直接建立可训练的模型进行预测，模型中的参数和词向量都是通过学习得到，词向量中隐式地编码了语料库中的语义信息。2. 基本原理在word2vec中，词向量的长度不再与词典的大小相关，通常是人

2020-11-28 01:21:51 1222

原创 CS224N笔记(五) Lecture8 机器翻译、Seq2Seq以及Attention注意力机制

一、背景知识机器翻译，Machine Translation，简称MT，是一种运用计算机将一个句子从一种语言翻译成另一种语言的技术，是自然语言处理领域中一项重要的任务。机器翻译最早可以追溯到19世纪50年代的冷战时期，其目的是实现英语和俄语的翻译，但那个时候的技术手段主要是基于规则。之后到90年代才出现了基于统计学的机器翻译技术，而在2010后乘着深度学习的风，神经网络也被大量应用于机器翻译中，并且取得了长足发展。下文将对统计机器翻译和神经网络机器翻译进行详细介绍。假设要将某种语言的一个句子xxx翻译成

2022-01-28 15:09:34 1301

原创捋清pytorch的transpose、permute、view、reshape、contiguous

transpose和permute都是进行转置操作，但是有些许区别，permute可以完全替代transpose，transpose不能替代permute。transpose的基本操作接收两个维度dim1和dim2，将dim1和dim2调换：In [82]: a=torch.Tensor([[1,2,3],[4,5,6]])In [85]: a

2021-01-29 18:30:38 1757 3

原创 PyTorch+Flask+Gunicorn 部署深度模型服务

目录简介项目实现模型实现部署Flask服务Gunicorn加速并发测试Python 多线程+requestsab工具HTML网页端总结参考文献简介初入职场，对于训练完成的模型，对如何被应用到实际的生产环境中产生了疑问，如果要每次都手动向服务器上传一批离线的数据，test一下得到结果，再手动把结果反馈出去就太麻烦了，那么有什么办法可以使模型能让业务端方便地调用呢？不考虑模型压缩这些问题，要将一个训练完的深度学习模型供生产环境使用，最简单的方法就是写成一个Web服务放在服务器后台，客户端通过HTTP发送请

2021-01-23 23:57:01 2852

原创 NLP入门：文本特征的表示方式

一、前言NLP区别与CV的一个重要特征之一，在于模型的输入需要预先处理，从CV转行NLP的炼丹者一开始定会对模型的输入形式感到疑惑。不像CV中模型的输入就是图像的RGB值，本来就是数值型，且像素值可以认为是连续型变量，不需要再做什么处理，最多就是做一下归一化，或者翻转、裁剪等数据增强处理。而NLP输入的是文字，非数值型变量，要如何将文字更加合理地映射成某种数值型变量，是NLP要解决的一个重要问题。在NLP中数值型变量一般是以向量的形式展现出来，本文接下来将阐述NLP中出现过的多种词向量表示方式，并阐述词

2020-12-24 20:54:06 3993 2

原创 CS224N笔记(二) Lecture1～2 ：深入理解Glove原理

1.背景知识在word2vec 中提到，词的表征方法还可以分成统计型和预测性这两类，统计型就是计算各个词或词序列出现的频次，比如词袋BOW、词频-逆文档频率TF-IDF、n-gram等，预测型的如word2vec，将词隐式地编码成特定大小的短向量，通过词向量空间上的语义相似性预测中心词或者周边词。这两种方法的优缺点都很明显，统计型训练快，使用了语料的统计信息但很难提取出语义信息，也很难衡量词之间但相似性，预测型可以很好地捕捉词的语义信息，能够在向量空间上衡量词之间的相似性，但是它没有用到语料的统计信息。

2020-12-24 20:38:00 466 2

nuohuang3371的博客

原创 CS224N笔记(四) Lecture 7：循环神经网络RNN的进阶——LSTM与GRU

原创 CS224N笔记(三) Lecture 6~7：深入理解循环神经网络RNN模型

原创 cs224n笔记(一) Lecture1: word2vec算法详细解析

原创 CS224N笔记(五) Lecture8 机器翻译、Seq2Seq以及Attention注意力机制

原创捋清pytorch的transpose、permute、view、reshape、contiguous

原创 PyTorch+Flask+Gunicorn 部署深度模型服务

原创 NLP入门：文本特征的表示方式

原创 CS224N笔记(二) Lecture1～2 ：深入理解Glove原理

原创 n-gram的原理解释

原创 Python3线程池与任务队列实现

原创 C++学习笔记（模板）

原创 C++学习笔记（多态）

原创 C++学习笔记（继承）

原创 C++学习笔记（基本知识+封装）

原创算法小结（数组与字符串）

原创刷题笔记

转载 C++零碎知识（长期更新）

原创机器模型之线性模型(一)

空空如也

空空如也