自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 python基础

1 什么是python的生成器参考2 python中is和==的区别       ==是python标准操作符中的比较操作符,用来比较判断两个对象的value(值)是否相等       is也被叫做同一性运算符,这个运算符比较判断的是对象间的唯一身份标...

2019-10-15 16:04:57 120

原创 线性回归、岭回归和Lasso回归

1 线性回归       假设有数据有:T={(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))}T=\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)})\}T={(x(1),y(1)),(x(2),y(2)),...,(x(m),...

2019-10-14 20:11:55 416

原创 CNN中的感受野的计算,参数量计算

参考

2019-10-06 21:10:50 183

原创 C++基础

C++中有了malloc / free , 为什么还需要 new / deletemalloc与free是C++/C语言的标准库函数,new/delete是C++的运算符。它们都可用于申请动态内存和释放内存。对于非内部数据类型的对象而言,光用maloc/free无法满足动态对象的要求。 对象在创建的同时要自动执行构造函数,对象在消亡之前要自动执行析构函数。 由于malloc/free是库函数...

2019-09-28 20:14:32 207

原创 操作系统面试题

请分别简单说一说进程和线程以及它们的区别?进程是系统进行资源调度和分配的基本单位,实现了操作系统的并发;线程是进程的实体,是CPU调度和分派的基本单位,实现进程内部的并发,它是比进程更小的能独立运行的基本单位。线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源.一个进程可以有多个线程,多...

2019-09-26 22:07:58 369

原创 降维方法

1 PCA       Principal Component Analysis(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。    &nb...

2019-09-26 13:19:56 326

原创 SQL练习题

基本表结构student(sno,sname,sage,ssex) 学生表course(cno,cname,tno) 课程表sc(sno,cno,score) 成绩表teacher(tno,tname) 教师表1 查询课程1的成绩比课程2的成绩高的所有学生的学号select a.sno from(select sno, score from sc where cno=1) a,(...

2019-09-26 10:44:21 639

原创 SQL语句

1 SELECTSELECT 语句用于从表中选取数据。结果被存储在一个结果表中(称为结果集)。       如需获取名为 “LastName” 和 “FirstName” 的列的内容(从名为 “Persons” 的数据库表),请使用类似这样的 SELECT 语句:SELECT LastName,FirstName FROM...

2019-09-24 10:21:17 439

原创 树的遍历 python实现

class Node: def __init__(self, val): self.value = val self.lchild = None self.rchild = Noneclass Tree: def __init__(self): self.root = None def add(...

2019-09-21 15:06:39 133

原创 排序算法 python实现

# Selection Sortdef SelectionSort(a): for i in range(len(a)-1): m = i for j in range(i+1, len(a)): if a[j] < a[m]: m = j a[i], a[m] = a[m], ...

2019-09-21 15:05:49 149

原创 提升方法

1 提升方法       提升方法是一种常用的统计学习方法,应用于广泛且高效。在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类器的性能。       提升方法的思想:对于一个复杂任务来说,将多个专家的判断进行适当...

2019-09-19 14:35:20 177

原创 决策树与随机森林

1 决策树模型       分类决策树模型是一种描述对实例进行分类的树形结构,决策树由节点和有向边组成。节点有两种类型:内部节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类。2 特征选择       特征的选择在于选取对训练数据具有分类能力的特...

2019-09-17 16:23:11 350

原创 千亿级数据量下,找两句话相似度,如何降低复杂度

1 simhash文本相似度计算1.1 分词       把需要判断的两个文本分词形成特征单词,必要时去掉噪音词(停用词),并为每个词加上权重,权重的计算可以是词频或者tf-idf。1.2 hash       通过hash算法把每个词变成hash值...

2019-08-23 17:00:53 764

原创 LSTM为什么可以缓解梯度消失

1 LSTM问什么可以缓解梯度消失       首先要明确的一点是,LSTM并不能完全解决梯度消失的问题,仅仅只是缓解。       原始的LSTM是没有遗忘门的,所以CtC_tCt​的更新如下:Ct=Ct−1+it∗C^tC_t=C_{t-1}+i_t...

2019-08-23 10:30:35 6954 2

原创 L1,L2正则化

       正则化就是结构风险最小化策略的实现,是在经验风险最小化的情况下加入一个正则化项或者罚项。经验风险最小化策略在小数据集下是不可靠的容易产生过拟合,这时就需要结构风险策略。1 L1正则化       L1正则化是指权值向量w中各个元素的绝对值之和...

2019-08-22 16:56:26 146

原创 交叉熵、相对熵(KL散度)、JS散度和Wasserstein距离

1 信息量       任何事件都会承载着一定的信息量,包括已经发生的事件和未发生的事件,只是它们承载的信息量会有所不同。如昨天下雨这个已知事件,因为已经发生,既定事实,那么它的信息量就为0。如明天会下雨这个事件,因为未有发生,那么这个事件的信息量就大。从上面例子可以看出信息量是一个与事件发生概率相关的概念,而且可以得出,事件...

2019-08-21 15:38:38 536

原创 中文分词的方法

       中文分词主要有两个类别:本别是基于字词典分词算法和基于统计的机器学习算法,下面依次介绍这两种方法。1 基于词典分词算法       也称字符串匹配分词算法。该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,...

2019-08-14 09:38:42 1171

原创 深度学习中梯度下降优化算法

1 随机梯度下降       最原始的随机梯度下降算法主要依据当前梯度∂L/∂w乘上一个系数学习率α来更新模型权重w的。wt+1=wt−α∂L∂wtw_{t+1}=w_t-\alpha \frac{\partial L}{\partial w_t}wt+1​=wt​−α∂wt​∂L​2 动量算法(Momentum)&nb...

2019-08-13 14:05:31 266

原创 自然语言中的评价指标

1 Perplexity公式如下所示:PPL(S)=P(w1w2...wN)−1NlogPPL(S)=−logP(w1w2...wN)N=−∑i=1NlogP(wi∣w2...wi−1)NPPL(S)=P(w_1w_2...w_N)^{-\frac{1}{N}}\\logPPL(S)=\frac{-logP(w_1w_2...w_N)}{N}=\frac{-\sum_{i=1}^{N}log...

2019-08-12 11:05:09 651

原创 自然语言处理中数据清理的步骤

1.小写转换和标点移除,视具体情况而定。2.将每个句子拆分成一系列的单词。3.清除停用词,停用词也是视具体情况而定。4.将单词还原为原来的表示(词干化)。...

2019-08-06 16:22:09 651

原创 K-Means聚类算法,KNN分类算法,AP聚类算法

1 K-Means       说明:类别的个数是提前定义好的,属于无监督学习算法。1.1 算法描述输入数据和K值随机生成K个点对输入的数据,计算每个点属于哪一类对于K个点,找出所有属于自己这一类的点,然后把坐标修改为这些点的中心判断算法是否收敛,若没有收敛返会3,否则输出结果2 KNN(K Nearest ...

2019-08-05 14:33:17 1766

原创 Batch Normalization和Layer Normalization

1 对比BN是在batch上,对N、H、W做归一化,而保留通道 C 的维度。BN对较小的batch size效果不好。BN适用于固定深度的前向神经网络,如CNN,不适用于RNNLN在通道方向上,对C、H、W归一化,主要对RNN效果明显;       如果把特征图[公式]比喻成一摞书,这摞书总共有 N 本,每本有 C 页...

2019-07-30 10:56:54 575

原创 GPT和GPT2.0

1 面临的挑战尚不清楚哪种类型的优化目标在学习对迁移有用的文本表示方面最有效。将这些学习的表示迁移到目标任务的最有效方法没有达成共识。2 方法介绍       针对各种语言理解任务,论文介绍了一种半监督的学习方法,它包含无监督的预训练阶段和监督的微调阶段。这种方法的目标是将预训练阶段学习到的通用表示迁移到具体的任务中...

2019-07-29 10:58:14 388

原创 ELMO

1 本质思想       ELMO的基本思想是利用双向的LSTM结构,对于某个语言模型的目标,在大量文本上进行预训练,从LSTM layer中得到contextual embedding,其中较低层的LSTM代表了比较简单的语法信息,而上层的LSTM捕捉的是依赖于上下文的语义信息。ELMO的全称就是Embeddings fro...

2019-07-24 10:48:04 324

原创 Attention,Transformer,BERT,XLNet,Transformer-XL

1 传统的词向量的缺点       传统Word Embedding的预训练表示是上下文无关的,例如word2vec,在训练好词向量之后不能表示多意单词,例如:bank deposit(银行) VS river band(岸边)2 什么是BERT      &nb...

2019-07-22 15:14:00 649

原创 线性链条件随机场CRF

线性链条件随机场是无向图、判别模型1 马尔科夫随机场2 线性链条件随机场概率密度函数参数形式如下:p(Y∣X)=1zexp∑i=1KFi(xci)(线性链的条件随机场有n−1个最大团,n为节点个数)=1zexp∑t=1TFt(yt−1,yt,x1:T)(假设存在一个y0,所以为T个最大团)=1zexp∑t=1TF(yt−1,yt,x1:T)(将T个F函数合并为一个F)=1zexp∑t...

2019-07-17 20:57:11 924

原创 隐马尔可夫HMM

1 HMM组成三部分HMM可以由下面的三元符号表示:λ=(A,B,π)\lambda=(A,B,\pi)λ=(A,B,π)A是状态转移概率矩阵B是观测概率矩阵π\piπ是初始状态概率向量将观测变量用oto_tot​表示,取值为V=v1,...,vMV={v_1,...,v_M}V=v1​,...,vM​将状态变量用iti_tit​,取值为Q=q1,...,qNQ={q_1,......

2019-07-17 09:47:25 140

原创 SVM

svm有三宝:间隔、对偶、核技巧1 SVM分类hard-margin SVMsoft-margin SVMkernel SVM2 硬间隔SVM(最大间隔分类器)的模型定义模型的定义:f(w)=sign(wTx+b)f(w)=sign(w^{T}x+b)f(w)=sign(wTx+b)由上可知SVM是一个判别模型。硬间隔SVM的目标:{max⁡w,b margin(...

2019-07-15 20:03:17 138

原创 beam search

1、简述      &nbspbeam search只在test的时候需要。训练的时候知道正确答案,并不需要再进行这个搜索。       test的时候,假设词表大小为3,内容为a,b,c。beam size是2   &nbs...

2019-07-09 22:00:06 374

原创 TF-IDF

1、介绍       TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索与文本挖掘的常用加权技术。       TF-IDF是一种统计方法,用以评估一字词对于一个文件集或...

2019-07-09 20:51:33 317

原创 Word2Vec、Glove

1、cbow与skip-gram的比较       在cbow方法中,是用周围词预测中心词,从而利用中心词的预测结果情况,使用GradientDesent方法,不断的去调整周围词的向量。要注意的是, cbow的对周围词的调整是统一的:求出的gradient的值会同样的作用到每个周围词的词向量当中去。可以看到,cbow预测行为的...

2019-07-04 20:28:59 279

原创 fasttext介绍

1、字符级别的n-gram       word2vec把语料库中的每个单词当成原子的,它会为每个单词生成一个向量。这忽略了单词内部的形态特征,比如:“apple” 和“apples”,两个单词有较多公共字符,即它们的内部形态类似,但是在传统的word2vec中,这种单词内部形态信息因为它们被转换成不同的id丢失了。&nbs...

2019-07-04 14:25:42 778 1

原创 激活函数

1、Softmax vs. k 个sigmoid分类器       这一选择取决于你的类别之间是否互斥,例如,如果你有四个类别的音乐,分别为:古典音乐、乡村音乐、摇滚乐和爵士乐,那么你可以假设每个训练样本只会被打上一个标签(即:一首歌只能属于这四种音乐类型的其中一种),此时你应该使用类别数 k = 4 的softmax回归。...

2019-07-04 12:26:25 482

原创 N-gram介绍

1、简介N-gram是一种基于统计的语言模型,常常用来做句子相似度比较,句子合理性判断。(语言模型就是用来计算一个句子的概率的模型,也就是判断一句话是否合理的概率,RNN是神经语言模型)N-Gram是基于一个假设:第n个词出现的概率与前n-1个词相关,而与其他任何词不相关。因此整个句子出现的概率就等于各个词出现的概率的乘积。各个词的概率可以通过语料中统计得到。假设句子TTT是有词序列w1,w2...

2019-05-20 20:58:07 2113

原创 论文笔记:基于外部知识的会话模型Commonsense Knowledge Aware Conversation Generation with Graph Attention

Commonsense Knowledge Aware Conversation Generation with Graph Attention1 出发点       现有的具有外部知识的模型,大多采用非结构化、开放域知识或者结构化、小规模、特定域的知识,这就导致模型存在依赖高质量的非结构化知识的问题或者在开放域的对话场景下...

2019-04-18 16:55:19 3102

原创 论文笔记:基于外部知识的会话模型Knowledge Diffusion for Neural Dialogue Generation

Knowledge Diffusion for Neural Dialogue Generation1 出发点        现有的话语生产模型缺少必要的外部知识,生成的话语都是一般的、短的、无意义的2 贡献        提出了神...

2019-04-15 20:53:31 814

原创 论文笔记:基于外部知识的会话模型A Knowledge-Grounded Neural Conversation Model

A Knowledge-Grounded Neural Conversation Model1 出发点现有的会话模型无法获得外部知识,网络产生的相应虽然在会话上恰当,但是包含的信息量很少2 网络结构图1:网络的整体结构2.1 Dialog Encoder        输入:对话历史S = {s1 …s...

2019-04-09 16:49:52 748 2

原创 论文笔记:基于外部知识的会话模型Learning to Select Knowledge for Response Generation in Dialog Systems

Learning to Select Knowledge for Response Generation in Dialog Systems1 出发点传统的Seq2Seq模型趋向产生一般的且信息含量很少的回答。现有的具有外部知识的模型中,很少有人证明他们的模型有能力将适当的知识纳入生成的回答中。2 论文贡献在训练阶段,利用后验知识来实现有效的知识选择和整合,并且指导先验知识...

2019-04-09 09:56:39 887

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除