炼丹师祖-CSDN博客

原创 NLP实习面试准备-RNN专题(四)-LSTM-GRU

1. LSTM如何解决普通神经网络具有的长期依赖问题？对于一般的循环神经网络，某一时刻的输出仅与当前时刻以及前几个时刻的输入和状态具有强相关性，随着时间序列长度的增加，序列中间隔很远的具有相关性的词汇无法通过网络学习到。即长期依赖问题。LSTM(Long Short Time Memory)在原有网络的基础上加入了一个新的cell state。使得不同时刻具有了可变的连接权重。缓解了普通神经网络的梯度消失和梯度爆炸的问题。LSTM在每一时刻具有两个状态：hidden state(短期状态单元)和cell

2021-08-14 17:03:04 286

原创 NLP实习面试准备-RNN专题(三)-长时依赖问题

1. 什么是神经网络的长期依赖问题？循环神经网络如果设计长度很深，经过前向传播误差，以及反向传播梯度，容易出现梯度消失或爆炸的问题，使得神经网络的优化变得困难。网络丧失了学习很久之前信息的能力。2. 从数学推导的角度解释长期依赖问题。对一个没有输入数据、激活函数以及输出数据的循环神经网络，前向传播过程：ht=Wht−1=Wt−t0ht−t0h_t=Wh_{t-1}=W^{t-t_0}h_{t-t_0} ht=Wht−1=Wt−t0ht−t0当t−t0t-t_0t−t0很大时，矩阵

2021-08-07 10:30:51 941

原创 NLP实习面试准备-RNN专题(二)

1. Dropout为什么可以缓解过拟合问题？Dropout的操作过程为：训练阶段每次迭代都从基础网络中随机丢弃一个神经元，在剩余的神经元上计算梯度以及更新参数；测试阶段恢复所有的神经元。2. 在循环神经网络中如何使用Dropout？...

2021-08-05 17:39:07 343

原创 NLP实习面试准备-RNN专题(一)

1. 循环神经网络的结构与参数更新方式：循环神经网络可以将输入序列映射为同等长度的输出序列。上图右端是对循环神经网络展开后的形式，我们讨论第ttt时刻的隐藏状态h(t)h^{(t)}h(t)、输出状态o(t)o^{(t)}o(t)以及损失LLL的计算方式。其中隐藏状态由上一时刻的隐藏状态和输入状态决定：h(t)=σ(Ux(t)+Wh(t−1)+b)(1)h^{(t)}=\sigma(Ux^{(t)}+Wh^{(t-1)}+b) \tag1h(t)=σ(Ux(t)+Wh(t−1)+b)(1)σ

2021-08-05 15:49:42 137

原创论文阅读总结（九）：Hidden physics models: Machine learning of nonlinear partial differential equations

我们考虑参数化的非线性偏微分方程的一般形式:ht+Nxλh=0,x∈Ω,t∈[0,T](1)h_t+N_x^{\lambda}h=0, x\in\Omega, t\in[0, T]\tag{1}ht+Nxλh=0,x∈Ω,t∈[0,T](1)h(t,x)h(t, x)h(t,x)表示隐式解, NxλN_x^\lambdaNxλ是以λ\lambdaλ为参数的算子。Ω\OmegaΩ为DDD维空间RDR^DRD上的子集。以一维Burger方程为例对应的NxλhN_x^\lambda hNxλh为N

2021-08-04 10:59:33 480

原创 NLP实习面试准备-卷积专题(二)

1. 分组卷积及其应用场景。如图，上图左边是普通的卷积操作，普通的卷积操作的一个卷积核将输入特征图的所有通道映射到一个feature map。而分组卷积是将输入通道和输出通道分成相同的若干组，各组一一对应，输入通道的相同组号通过卷积操作映射到输出通道的同一组中。如果所分组数记为ggg，则参数量和计算量相比于普通卷积操作降低为1/g。分组卷积降低了计算量，可被用来构建用于移动设备的小型网络模型，如深度可分离卷积。不足之处：对内存访问的频繁程度并未降低，且GPU加速库对其优化程度有限，在效率提升上不

2021-08-04 10:55:34 204

原创 NLP实习面试准备-卷积专题(一)

1.介绍一下卷积层与全连接层的区别？卷积层输出层上的每个节点都只与输入层的部分结点(一个卷积核大小)连接。而在全连接层中，输出层的每个节点会与输入层所有节点存在连接。卷积层的滑动窗口机制，使得输出层不同位置结点共享参数(卷积核参数)。而在全连接层中不同节点的连接权值都是不同的。卷积层输出保持输入数据原有的结构信息，而全连接层将数据展成一维使得输入和输出数据在相应位置对应关系丧失。...

2021-07-18 10:37:28 100

原创 NLP论文总结+个人理解（一）：Efficient Estimation of Word Representations in Vector Space

本文提出了两种用来从大数据集中计算连续词向量表示的新的模型架构。词向量表示的好坏的评估基于一个词相似度任务，结果与先前的基于神经网络的最好性能的一些技术进行了比较。准确率大幅度改进以及更低的计算复杂度。训练的词向量在语法和语义相似度上取得了state of the art 的性能。许多传统的NLP系统和NLP技术将单词视作“原子单位”-单词之间没有相似度的概念，单词被表示为词表中的索引，这样做有几个好处在大数据集上训练简单的模型比在小数据集上训练复杂的模型更加的鲁棒，简洁。例如: 在大数据集下(trill

2021-07-18 09:27:59 236

原创 NLP实习面试准备-梯度消失、梯度爆炸及其解决办法

1. 什么是梯度消失和梯度爆炸？神经网络的训练过程是对网络中的各个参数求梯度后对参数进行梯度更新的过程。梯度消失：对于深层神经网络得到loss函数之后对神经网络的前面几层的参数求导时通过链式法则使得求导后的因子项非常多。当激活函数选择为sigmoid函数时激活函数输出对输入求导的那些因子项的导数最大不超过0.25，而神经网络参数我们通常初始化为小于1的值。这些许多小于一的因子项相乘的结果是网络对前几层的参数求导的结果几乎为0导致参数几乎不更新。梯度爆炸：同梯度消失，对于深层神经网络得到loss函数后对

2021-07-08 10:15:14 249

原创 NLP实习面试准备-HMM(二)

概率计算问题：给定已知参数的HMM和一个观测序列（即给定λ\lambdaλ和OOO），如何计算出由HMM得到此观测序列的概率？直接计算：由隐马尔科夫模型首先计算(通过初始状态概率向量和状态概率转移矩阵求)得到可以产生的所有状态序列的概率，假设状态空间有NNN个状态，则长度为TTT状态序列的种类数为NTN^TNT；求得所有状态序列的概率后通过观测概率转移矩阵得到在某一状态序列条件下的到此观测序列的概率。对由NNN^NNN个状态序列计算得到的观测序列概率相加得到最终的观测序列的概率。此过程的时间复杂

2021-07-05 16:27:37 237

原创 NLP实习面试准备-HMM(一)

1. 什么是马尔科夫链？马尔科夫链，又称为离散时间马尔科夫链，是满足马尔科夫性质的随机变量序列。马尔科夫性质即指第n个位置的随机变量XnX_nXn仅与第n-1个位置的随机变量Xn−1X_{n-1}Xn−1相关。2. 什么是HMM？HMM(Hidden Markov Model)指隐马尔科夫模型, 它是由隐藏的马尔科夫链生成（为什么说是隐藏的马尔科夫链，我的理解马尔科夫链并不是直接存在的，而是由初始状态向量和状态转移矩阵隐形确定的。）生成不可观测的状态序列，再由不可观测的状态序列生成可观测的观测序列

2021-07-01 17:00:48 466

原创论文阅读总结(八)：Deep Learning For Symbolic Mathematics

前言：这篇论文是Facebook AI Research在2019年发表的一篇paper。文章创新的地方在于将函数积分和常微分方程的解的求解试图当作两个符号序列相匹配的问题，即通过利用最新的自然语言处理技术训练模型最终得到一个输入为一个函数或常微分方程可以直接输出解的序列的模型。篇章结构：首先文章提出了函数或数学问题(常微分方程)的一种可以应用seq2seq模型的表示方法，并且分析了表示空间的“容量”，之后作者给出了生成函数积分、一阶二阶偏微分方程的监督数据集的方法。最后，作者利用这些数据集训练seq

2021-06-12 16:07:28 288

原创李宏毅-人类语言处理(三)：语音识别-LAS

李老师讲的第一个语音模型为LAS。其中L为Listen代表模型的Encoder模块，S为Spell代表模型的Decoder，Attend代表Attention，指模型使用了注意力机制。ListenListen模块即模型的encoder模块，这个模块以一个由向量组成的序列特征(如MFCC)作为输入，输出一串相同长度的向量序列。这一模块的目标：1.把不同的speaker的说相同的词语句子的差异和语音数据中的噪声等移除。2.提取语音中与具体内容相关的信息。此模块可以使用CNN或RNN。关于Self-

2021-06-09 23:16:08 1366 4

原创李宏毅-人类语言处理(一)导论

1. 为什么这门课叫人类语言处理而不叫自然语言处理？传统的大多数自然语言处理课程超过百分之90的内容都是在讲如何解决文本(文字)相关的问题，而李老师这门课即讲如何解决语音相关问题又讲解决文本相关的问题。2. 人类语言处理主要解决的问题？主要解决的问题可以归结为六大类：1：训练一个模型输入一个语音，输出一个语音。典型应用场景：人机对话：语音内容分离：输入多个人一起说话的语音输出多组，每组为分离出的一个人的声音；同声传译：输入一个语音输出翻译后的语音等。2：训练一个模型输入一个语音，输出一段文本。典

2021-06-08 10:33:45 169

原创论文阅读总结(七)：DeepXDE: A Deep Learning Library for Solving Differential Equations

这篇文章是关于深度学习求解偏微分方程的内容，作者对PINN(Physical Informed Neural Network)一文提出的方法进行了归纳总结，从理论层面分析了PINN解偏微分方程的可行性以及提出了改善PINN训练效率的方法，并对PINN与传统的有限元素法(FEM)进行了比较，最后作者将PINN做成了一个名为DeepXDE的python库。PINN算法和理论分析：深度神经网络：深度神经网络在数学层面可以理解为一个复合函数，最简单的神经网络是前馈神经网络，本文求解偏微分方程使用的前馈神经网络

2021-05-10 16:43:29 2809

原创论文阅读问题总结(四)：Data-driven discovery of partial differential equations

1.本文主要想解决什么问题？本文想要通过使用某个系统在空域上的时间序列观测到的数据，采用稀疏回归方法挑选支配方程的非线性项和偏导项从而确定可以准确拟合数据的偏微分方程(PDE)(In a word, find the PDE)。...

2021-05-04 16:28:34 1360

原创 Datawhale语音识别-Task6：语音识别基础知识

**隐马尔可夫模型（Hidden Markov Model，HMM）**是用于建模离散时间序列的常见模型，它在语音识别中已经使用了几十年了。HMM 涉及的主要内容有，两组序列（隐含状态和观测值），三种概率（初始状态概率，状态转移概率，发射概率），和三个基本问题（产生观测序列的概率计算，最佳隐含状态序列的解码，模型本身的训练），以及这三个问题的常用算法（前向或后向算法，Viterbi 算法，EM 算法）。语音识别的最终应用对应的是解码问题，而对语音识别系统的评估、使用也叫做解码（Decoding）。GMM

2021-04-22 23:39:31 106

原创 Datawhale语音识别-Task5：模型的改进与优化

1. 过拟合和欠拟合过拟合指训练后的模型在训练集上loss非常低，perform well但是在测试集上perform bad，可以理解为模型对训练集学得“太好了”以至于不能很好地泛化到测试集上了。欠拟合是指模型对训练集学习不充分，没有学到全部的先验知识，这种情况数据集对训练集和测试集都会表现不佳。2. 泛化误差、偏差、方差泛化误差当模型在上不能很好的泛化到测试集上时，我们称模型的泛化误差较大。降低模型的复杂度一定程度上可以减小泛化误差。偏差偏差指每次采样m个数据训练模型得到的输出

2021-04-21 23:48:54 103

翻译 Datawhale语音识别-Task4：食物声音识别-深度学习模型搭建与训练

建模：深度学习框架Keras 是一个用 Python 编写的高级神经网络 API，它能够以 TensorFlow, CNTK, 或者 Theano 作为后端运行。现在Keras已经和TensorFlow合并，可以通过TensorFlow来调用。1 网络结构搭建：Keras 的核心数据结构是 model，一种组织网络层的方式。最简单的模型是 Sequential 顺序模型，它由多个网络层线性堆叠。对于更复杂的结构，你应该使用 Keras 函数式 API，它允许构建任意的神经网络图。Sequentia

2021-04-19 23:58:15 170

原创 Datawhale语音识别-Task2：赛题数据介绍与分析

1.声音是如何产生的：声音以波的形式传播，即声波（Sound Wave）。当我们以波的视角来理解声音时，却又大繁若简起来：仅凭频率（Frequency）、幅度（Magnitude）、相位（Phase）便构成了波及其叠加的所有，声音的不同音高（Pitch）、音量（Loudness）、音色（Timbre）也由这些基本“粒子”组合而来。2.赛题数据集：声音分类在很多场景中都有大模型的应用，例如对音乐的分类可以应用于音乐检索和音乐推荐中；对人声的分类可以应用在身份识别、智能家居中。本比赛的背景是食物的声

2021-04-15 23:45:16 128

原创 DataWhale语音识别-Task1：Baseline学习

DataWhale每月组织的小组学习活动：实验所需环境：TensorFlow的版本：2.0 +kerassklearnlibrosaTask1 BaseLine代码详细解读：1.先通过下面的bash指令导入实验所需要的数据集:!wget http://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531887/train.zip!unzip -qq train.zip!\rm train.zip!wget http://tianchi

2021-04-14 21:18:05 129

原创 Deep learning花书学习笔记(二)：信息熵、KL散度、交叉熵

信息论基本想法：可能性越大的事件信息量越少，极端情况下，确保一定发生的事件不具有任何信息量。可能性越小的事件具有更高的信息量。独立的事件应具有增量的信息。满足上面三个性质：定义事件X=xX=xX=x自信息：I(x)=−log⁡P(x)I(x)=-\log P(x)I(x)=−logP(x)上述公式是对单个事件的不确定性进行量化。信息熵：对整个概率分布的不确定性进行量化。H(x)=Ex∼P[I(x)]=Ex∼P(log⁡(P(x))H(x)=E_{x\sim P}[I(x)]=E_

2021-04-07 16:34:35 132

原创 Deep learning花书学习笔记(一)：特征值分解+Moore-Penrose伪逆+迹运算+主成分分析

本人由于在导师分配的论文阅读过程中，发现了深度学习的数学原理的重要性。之前一直吃灰的花书要重新建起来了。。。奇异值分解：1. 奇异值分解的定义：A=UDVT A=UDV^{T} A=UDVT其中AAA为m∗nm*nm∗n的矩阵(未必为方阵)，UUU为m∗mm*mm∗m的正交矩阵，DDD为m∗nm*nm∗n的矩阵，VVV是一个n∗nn*nn∗n的正交矩阵。2. 奇异值分解求解的方法：求解AATAA^{T}AAT的特征值对应的特征向量为UUU的列向量，求解ATAA^{T}AATA的特征值

2021-04-07 15:44:34 358

原创论文阅读问题总结(六)：Meta-Learning with Domain Adaption for Few-shot Learning Under Domain Shift

1.这篇paper作者提出要解决的问题？作者提出，大部分现存的小样本元学习领域的一些工作都基于两个假设：training task和testing task都是从满足同一task distribution中采样出来的小样本数据集。training tasks有足够的数据集提供给模型训练。然而在真实的应用场景中，我们要解决的目标任务所在的领域并没有大量数据集用来构建training tasks(与testing task满足同一task distribution)。2.传统的深度学习的domain

2021-03-23 22:05:18 583

原创论文阅读问题总结(五)：Task-Agnostic Meta-Learning for Few-shot Learning

1.本文作者提出了什么问题？当前基于梯度的元学习方法(MAML, Reptile)虽然针对模型学习到了可以泛化到不同task的初始化参数，但作者指出学习到的初始化参数并不是针对各个task都可以很好地泛化，对与training task相似的task可以快速泛化且perform well，但对一个与training task相似度较低的new task并不一定能很好地泛化。总而言之学到的初始化参数模型是一个有偏(biased)的模型。2.针对上述问题，作者提出的解决思路？1.outer-loop设计一

2021-03-23 17:15:55 291

原创论文阅读问题总结(三)：Optimization as A Model for Few-Shot Learning

1.本文作者想要解决什么问题？如何解决？作者指出传统的深度学习的参数更新和优化方法在小样本学习问题上并不能够很好地work。这主要是因为1：基于梯度的优化算法：Momentum、Adagrad、Adam并不适用于在梯度更新步长受限的场景，即它们都是为大数据多步迭代而设计的优化算法。小样本更新高维参数模型容易过拟合，所以梯度更新步长受限(另一个需要受限的原因是元学习的主要目标之一是可以快速学习)，不能遵循传统深度学习的Rountine在adaption过程多次更新参数。基于上述问题作者提出了一种自动学习

2021-03-19 22:29:03 232

原创论文阅读问题总结(二)：Meta-Learning With Latent Embedding Optimization

1.本文提出得主要想解决的问题是什么？作者在本文中提到了基于梯度的元学习技术(尤其是学习到公共初始化参数随后通过调整初始化参数来适应特定任务的元学习方法：MAML, Reptile)使用特定任务的小样本数据集来通过梯度下降调整高维参数使得泛化困难(我的理解是小样本调整高维参数的适应过程容易过拟合)。2.本文作者试图如何解决上述问题？1.设计模型使每个待解决的特定任务的初始化参数与此任务的训练集相关，使用Relation Network将每个任务的初始化参数引入数据集之间的相关性。2.学习一个高维模型

2021-03-18 22:37:25 626

原创论文阅读问题总结(一)：Learning to Compare: Relation Network for Few-Shot Learning

1.本篇论文主要解决什么问题？本篇论文主要解决小样本学习问题：尝试解决One-shot learning、Few-shot、Zero-shot的小样本学习问题。是Embedding-based小样本学习方法的一种。2.模型的具体方法，训练过程？与Prototypical network和Matching Network一样,模型以epicode为单位进行训练，每个episode分为Support Set和Query Set, Support Set 是一个N-way K-shot的数据集。训练过程

2021-03-17 22:21:22 252

原创百面机器学习(三)：图像数据不足时的处理方法

1：图像分类任务中，训练数据不足会带来什么问题？过拟合，模型在训练数据上表现良好，但在测试集性能上表现不足。2：如何缓解数据不足带来的(过拟合)问题？1：从模型角度：可以简化模型；添加正则项以减少训练模型时的假设空间；集成学习；Dropout超参数等。2：从数据角度：对图像数据进行翻转、剪切、缩放、填充、平移等；对数据加入一定的噪声形成新的数据；颜色变换：在图像RGB颜色空间上进行主成分分析；改变图像的亮度、清晰度、对比度等；对数据在特征空间上进行某种变换(结合SMOTE技术)；生成对抗网络生成新数

2021-03-17 13:18:53 445

原创百面机器学习(二)：文本表示模型

1：简要说明常用的文本表示模型及其优缺点1.词袋模型(Bag of words)和N-gram模型：词袋模型的主要思想是将文本类型的样本用一个向量来表示，向量的长度一般为所有样本的单词种类数。每个维度值代表了对应的单词在此样本中的重要程度。有两种方式确定向量的每个维度值：用此样本中每个单词对应个数填充，没有对应单词用0填充；TF-IDF(Term-Frequency-Inverse Document Frequency). 指个对应单词t在此文档中(d)出现的频率；,IDF(t)用来衡量单词t对表达语义所

2021-03-16 17:05:05 230

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

中科大计算机学院研一算法设计与分析试卷13-20.zip

组合数学课后习题解答

zh_ke_da组合数学历年试题

Foundation of data analysis.pdf

mathematic fountion of data analysis.pdf

Hands-on Machine Learning with Scikit-Learn and TensorFlow对应代码实现

李宏毅老师深度学习PPT

凸优化英文版机器学习必备

最高响应比优先算法

多级反馈队列调度算法实现

空空如也