hyzhyzhyz12345-CSDN博客

原创利用hugging face进行albert-lstm-crf的命名实体识别

预览这里使用albert模型对词进行初始embedding，再输入到lstm-crf中2.pip isntall transformer，下载hugging face的库#因为albert中文版没有sentencepiece，故通过hugging face的bert_tokenize进行词索引的转换tokenizer = BertTokenizer.from_pretrained(‘bert-base-chinese’)#得到hugging face预训练模型参数word_embeddi.

2020-06-11 13:45:40 2787 3

原创 pytorch数据类型

tensor和Tensortensor接收的是数据，注意是【2.， 3.2】，这样数据类型是torch.float也可以指定类型torch.Tensor（）和torch.FloatTensor（）一样，可以接收数据，默认为torch.float，可以通过torch.set_default_tensor_type(torch.DoubleTensor)修改也可以接收数据形状，随机初始化数据，注意这里没有【】torch.FloatTensor（）的创建通常建议torch.tensor([

2020-05-25 16:44:03 379

原创 elmo算法解析

2018年3月份提出ELMo（Embedding from Language models），模型通过对不同句子创建不同的词向量，进行动态调整，解决了之前工作2013年的word2vec及2014年的GloVe的多义词问题，可以称之为静态词向量。模型经过大量语料库预训练好之后（context—before预测当前字，context—after预测当前字，而且不是同时的），使用预训练时，将任务实际...

2020-02-06 18:55:43 588

原创 GPT-1和GPT-2的发展

OpenAI在2018年提出来的一个方法——GPT 1.0，GPT 1.0采取预训练+FineTuning两个阶段，它采取Transformer的decoder作为特征抽取器，总共堆叠12个。预训练阶段采用“单向语言模型”作为训练任务，把语言知识编码到decoder里。第二阶段，在第一阶段训练好的模型基础上，通过Finetuning来做具体的NLP任务，迁移能力强。注意在Decoder 中，使用了...

2020-02-05 16:18:29 4260

原创 attention 机制

deep learning中的Attention mecanism是参考人脑的注意力模型，例如我们看到一张照片时，虽然我们可以看到整张全貌，但当我们仔细观察的时候，我们的眼睛只聚焦在照片中比较小的一部分，大脑主要也是关注这一区域，换句话说这个时候人脑对照片的关注并不是均衡的，是有一定的权重区分，这就是attention的RNN多输入与多输出N VS M (encoder-decoder模型)，...

2020-02-04 14:02:57 271

原创古董word2vec

word representation从离散空间开始，one-hot，bag-of-words（将各词的one-hot词向量加和表示句子），TF-IDF（解决了词频高不一定是词重要，“的” “了” “要”，这些词很常见，但不是重要，另外词的顺序没有考虑），N-gram（按句子的顺序，分别取相邻N=1个词，N=2个词。。。建立索引）离散表示的问题：1无法衡量词向量之间的关系，2词表维度随着语料库增...

2020-02-02 12:48:41 192

原创说说transformer当中的维度变化

例如我们要进行机器翻译任务法语–英语，输入一种法语，经过 Transformer，会输出另英语。Transformer 有 6 个编码器叠加和 6 个解码器组成，在结构上都是相同的，但它们不共享权重。拿出经典的图，我将从encoder一步一步走，再到decoder一步一步走到output probabilities。1、输入的是批量（batch_size）含有许多句子，最长为max_seq_l...

2020-01-31 00:16:01 7645 3

原创从分类问题出发，朴素贝叶斯-隐马尔科夫模型-最大熵马尔科夫模型-条件随机场

在统计学习中，有两种模型：概率模型和非概率模型；软分类：使用的是概率模型，输出不同类对应的概率，最后的分类结果取概率最大的类，如多SVM组合分类；有逻辑回归，朴素贝叶斯-隐马尔科夫模型-最大熵马尔科夫模型-条件随机场等硬分类：使用的是非概率模型，形式为决策函数，即输入x到输出y的一个映射，且输出唯一，分类结果就是决策函数的决策结果；SVM,LDA,PLA等对于分类问题，若是将概率引入，变为概...

2020-01-30 11:33:02 608 1

原创机器学习中模型的欠拟合与过拟合

使用训练集去训练模型，参数的选择是依据最小化训练误差，加上训练集和测试集一般不是独立同分布，所以会有distribution dfift，出现过拟合或者欠拟合。过拟合过度依赖训练数据，是的模型在训练集上方差高，低偏差。对上面一句话的理解：1.训练数据少，无法估计整个数据集的分布2.模型过于复杂，参数量远多于训练集数解决方法：1.加入正则化，是的某些神经元权重递减，当权重为零时神经元失...

2020-01-20 15:23:06 441

原创 python 中理解super()

super() 函数是用于调用父类(超类)的一个方法。class singer(people):super(singer, self).show_my_power（），找singer的父类people，再回到子类singer中。多个继承时，有点像先进后出。下面这个例子，artist实例化后，先找到子类singer（左边），输出"before_super_singer_first"，再找到子类a...

2020-01-19 14:27:30 181

原创 FASHION-MNIST 图像分类实现（softmax regression）--Dive-into-DL-Pytorch

参照Dive-into-DL-Pytorch，可自行下载阅读。本文在pycharm 中编译，结果如图所示，准确率还需提升。导入模块import torchimport numpy as npimport d2lzh_pytorch as d2ld2lzh_pytorch是一个包，方便以后的调用，后面展示都有哪些函数。#batch_size设为2^nbatch_size = 256...

2020-01-18 23:22:41 359

原创 anaconda 安装tensorflow和pytorch

anaconda 安装tensorflow和pytorch下载anaconda开始安装tensorflow安装pytorch下载anaconda清华镜像源（https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/），下载最新的就可以，无脑安装，有个地方需注意，这个地方都勾上。开始安装tensorflow打开anaconda prompt，...

2020-01-17 15:43:43 842

hyzhyzhyz12345的博客