自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 问答 (8)
  • 收藏
  • 关注

原创 tensorflow2.0 tf.keras API踩坑实录(缓更)

回调函数问题1 使用Tensorboard时出现ProfilerNotRunningError解决方法:将原始的存储路径改为os.path.join的形式log_dir = './tensorboard'# 改为如下形式log_dir = os.path.join('tensorboard')...

2019-12-12 14:42:12 296

原创 PyTroch网络构建参数与输出速查

只会列出常见方法和常用参数一 基础类ModuleModule是所有模型的父类,因此以下方法中都是各个模型的通用方法apply(fn)输入fn:函数输出inpalce方法,会对自己的每一层机械能fn中的操作children()输出会输出一个迭代器,包含所有的子Module(只返回最外层)与此对应的方法是named_children(...

2019-12-10 19:04:12 219

原创 Word2Vec之外的词向量训练方法(fastText,Glove)

word2vec外其他的词嵌入方法**fastText在Word2Vec训练词向量时忽略了英文单词单复数以及时态的变化。“dog”和“dogs”表示不同的单词但是具有相同的词根。我们在背单词的时候也会注意到,具有相同词根的单词在词义上会比较接近。而在Word2Vec的训练中,我们忽略了这些,将不同单词的单复数以及时态当作了不同的单词进行处理。基于Word2Vec存在的以上问题,fastTex...

2019-12-10 12:10:51 506

原创 Linux深度学习环境配置(tensorflow-gpu/远程jupyter)

文章目录python环境安装Tensorflow安装(无GPU)远程jupyter_notebook的配置cuda安装tensorflow-gpu安装这里讲解了python环境安装一直到无GPU的环境和有GPU环境的配置,其中1.1.1部分是python环境搭建的内容,1.1.3是jupyter配置的教程,如果你需要查看tensorflow-gpu的配置的话,可以直接到1.1.4部分pytho...

2019-11-15 10:49:19 770

原创 训练集测试集拆分,K折交叉,mini-batch的实现

1 测试集和训练集的划分我们需要从所有数据中额外取出一些数据来用作模型训练完成后的评估,所以需要训练集的测试集的划分训练集和测试集的划分我们一般使用scikit-learn下的model_selection模块进行,代码如下from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_tes...

2019-10-15 16:57:10 1278

原创 Transformer的矩阵维度分析和Mask详解

文章目录Multi-Head attention中矩阵维度的变化Transfromer的训练过程Transformer的句子生成过程Maskmask矩阵对K进行mask对Q进行maskMasked Multi-Head Attention中的Maskmask时Transformer中很重要的一个概念,mask操作的目的有两个:让padding(不够长补0)的部分不参与attention操作...

2019-09-29 11:05:26 33628 40

原创 简单理解Transformer结构

Transformer结构是谷歌于2018年提出用于nlp的深度学习模型结构,同时成为了之后bert的基础,那么transformer到底是什么样子的,它的提出解决了什么问题,带来了什么变化,我们在下面详细解释。Encoder-decoder结构机器翻译遵循的模型一般是encoder-decoder结构,结构图如下所示encoder是编码器,通常是RNN结构或者CNN结构(Image C...

2019-09-27 16:08:24 1188

原创 快速理解NLP中的Attention机制

为什么需要attention机制常规的机器翻译遵循encoder-decoder机制,其中两个模块的目的是:encoder:将输入序列x1x2x3x4....xtx_1x_2x_3x_4....x_tx1​x2​x3​x4​....xt​转换为矩阵或者向量表示C=f(x1,x2,x3....,xt)C=f(x_1,x_2,x_3....,x_t)C=f(x1​,x2​,x3​....,xt​...

2019-09-25 19:03:49 428

原创 快速理解axis

axis在tensorflow和numpy中式经常出现的一个参数,但是有时可能并不是很好的理解axis=0或者axis=1是沿着什么方向进行计算的,经过我的实践,在这里写出理解。二维矩阵In [10]: aOut[10]:array([[1, 2, 3], [4, 5, 6]])In [11]: np.amax(a , axis=0)Out[11]: array(...

2019-09-16 11:15:14 277

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除