一夜了-CSDN博客

原创对话机器人-检索与生成模型

综述从应用的角度来说，对话机器人可以分为三个类别，分别是闲聊机器人，qa机器人以及任务型机器人。本系列主要介绍闲聊机器人。由于本文的内容主要是对对话机器人做一个简单的介绍，所以都是一些简单的介绍，详细的内容后面后有介绍。一 QA机器人问答机器人主要功能是在知识库找到用户提问的问题的答案。主要用于智能客服等。一般来说问答机器人是不涉及多轮，主要是针对某一个领域的问答。构建一个问答...

2019-12-17 22:47:54 36237 49

原创设计模式之小结

设计模式系统总结： 1.设计模式-创建型软件设计模式(一) 2.设计模式-创建型软件设计模式(二) 3.设计模式-创建型软件设计模式(三) 4.设计模式-结构型软件设计模式(一) 5.设计模式-结构型软件设计模式(二) 6.设计模式-结构型软件设计模式(三) 7.设计模式-结构型软件设计模式(四) 8.设计模式-行为型软件设计模式(一) 9. 设计模式-行为型软件设计模式(二)

2017-07-16 12:00:56 26244 17

原创算法与数据结构系列

本篇是算法与数据结构系列的目录： 1.排序算法总结 2.红黑树 3.在线生成红黑树作者：yiyele 转载请保留原文地址：http://write.blog.csdn.net/mdeditor#!postId=74317447如果本文对您有所帮助，欢迎您扫码下图所示的微信支付点赞码对本文进行打赏。

2017-07-04 14:10:24 25814 16

原创 C++系列之浅谈

本篇blog是关于所有Ｃ＋＋文章的所有链接总结：１.从C++类创建后，自动创建的函数有哪些开始谈起２.this指针介绍 3.C++模板详解 4.C++关键字总结 5. C++内存处理 6. 内存映射文件原理探索 7.C++中使用内存映射文件存取struct，并用指针访问 8.C++实现只能动态或者静态创建对象 9.静态链接库和动态链接库 1

2017-06-29 18:21:51 10553

原创关于机器学习-深度学习的总结

最近在知乎上看到了一个机器学习的相关学习流程，觉得很有道理，所以，后面的blog我将开始具体的分享一些机器学习的学习笔记。目前已经更新的blog有：数据篇：1.关于中英文语料的获取途径总结基础总结篇：1.机器学习中的相似性度量2.机器学习中的损失函数总结3.pearson相关系数与spearman相关系数4.机器学习中error（误差），bias（偏差）与varienc............

2017-02-28 13:41:28 12555 1

原创强化学习之Q-learning算法

本文主要介绍强化学习之Q-learning算法，如果喜欢的话可以多读读。

2023-05-25 09:00:00 842

原创强化学习系列之Policy Gradient算法

自chatgpt出来之后，SFT+RM+RL就成为了对话模型的主流技术，本系列主要介绍强化学习相关的技术。

2023-05-23 19:59:46 735 1

原创一文了解预训练相关加速技巧

大模型训练效率技巧总结, 包括数据并行, 模型并行, 流水线并行, ZeRO等技术, 以及megatron, deepspeed, oneflow等框架的介绍.

2021-12-01 16:46:39 14131 18

位置编码 - 领略位置编码神奇的风景 - 系列(1)前文自从attention在nlp流行之后，不管是在bert还是在transformer，都缺少不了位置编码的身影（position embedding）。主要原因是attention在计算的时候，不管是QK之间的点乘运算，还是attention scores与V之间的点乘运算在训练时都是并行计算的，从逻辑上来说，跟RNN不一样，attention处理时并没有先后之分。当一个句子中出现多个相同的token时，从语义上来说，同一个t

2021-08-26 20:13:16 12955 72

原创一文让你了解生成模型相关的解码Tricks

一文让你了解生成模型相关的解码Tricks本文是笔者花费闲暇时间根据工作经历以及阅读文献总结的，如果对于屏幕前的隔着读者有些许帮助，真是欣慰之至。当然，各位读者的支持也是笔者写作的动力。麻烦一键三连。点赞，评论，收藏。在生成模型中，解码是一个很重要的步骤，直接影响到生成回复质量的高低，所以除了一些解码策略可以使用之外，在解码策略之中，可以穿插使用一些tricks，通过这些tricks的使用，可以解决一些在解码策略中出现的问题，例如解码出现“UNK”字符，解码长度过短等问题。这些trick

2021-08-06 16:21:32 14777 64

原创生成模型-解码策略小结

解码方法小结本文是笔者花费闲暇时间根据工作经历以及阅读文献总结的，如果对于屏幕前的隔着读者有些许帮助，真是欣慰之至。当然，各位读者的支持也是笔者写作的动力。麻烦一键三连。点赞，评论，收藏。1. 简介在对话生成任务中，解码策略有自回归与非自回归两种方法。其中自回归的解码策略包括了greedy，beam search，top-k以及top p等方法。每种方法都有自己的优缺点。本文主要是针对上面的解码策略做个汇总，以便读者以及笔者后续查看。在自回归的解码方法，主要是在inference阶段，

2021-04-15 16:42:02 22965 6

原创最详尽版本：一文带你了解beam search算法

目录文章目录目录Beam Search算法1. 简介2. 算法细节3. 具体实现4.算法优化Beam Search算法1. 简介在对话生成任务中，解码策略有自回归与非自回归两种方法。其中自回归的解码策略包括了greedy，beam search，top-k以及top p等方法。每种方法都有自己的优缺点。本文主要针对beam search方法做详细的介绍。其它相关的解码策略后面会有相应的文章进行介绍，这里就不多做说明。在自回归的解码方法，主要是在inference阶段，输入query，然后

2021-04-12 23:24:34 24169 4

原创 transformer具体介绍-威力加强版

目录文章目录目录Transformer模型介绍1. 简介1.1 模型结构图1.2 概括2. 具体模块2.1 Inputs2.2 Encoder2.3 Decoder3. 示例说明3.1 具体示例3.2 模型训练3.3 inference阶段Transformer模型介绍1. 简介1.1 模型结构图本文主要介绍了transformer模型，尽力做到对transformer的模型的结构与代码面面俱到，让读者能够通过阅读本文对transformer总体结果与实现细节方面都能够有清晰的认识。当然，做到上

2021-04-07 22:13:15 22748 6

原创终端快捷键操作

Terminator操作快捷命令具体的命令操作如下：作用命令打开terminatorCtrl+Alt+T新建终端窗口Ctrl+Shift+T关闭终端窗口Ctrl+D清空屏幕Ctrl+L自动补全Tab光标移动到行首Ctrl+a光标移动到行末Ctrl+e向前移动光标Ctrl+f向后移动光标Ctrl+b删除当前字符Ctrl+d删除前一个字符Ctrl+h删除光标至行首所有字符Ctrl+u删除光标至

2020-11-10 19:54:49 28255 3

原创 nlp相关会议总结

相关nlp会议的总结A类：ACL(ACL) Meeting of the Association for Computational Linguistics 下载地址：https://link.zhihu.com/?target=http%3A//www.aclweb.org/anthology-new/IJCAI(AAAI) International Joint Conference on Artificial Intelligence 国际人工智能联合会议两年一次，奇数年份举办 IJ

2020-06-23 20:33:07 32447

原创线性规划-概念与公式总结

linear algebra用空间的语言表达向量、矩阵和行列式向量与空间基底线性空间是一个只有原点的空间，没有坐标，没有刻度。所以在线性空间中只能做向量的加法与数乘（数字与向量相乘）运算。但是为了能够更好的描述有向线段，所以需要基底。所以作为基准的一组向量作为基底，这一组向量中的的每个向量称为基向量。基底的选取条件：当前空间中的任何向量v→\overrightarrow{v}v都可以表示为：v→=xie→1+...+xne→n\overrightarrow{v}=x_i\overrigh

2020-06-23 20:29:19 35310 7

原创 Docker使用教程之命令大全

Docker 使用教程主要命令搜索需要的imagedocker search XXX拉取镜像：docker image pull XXX运行docker：docker run --gpus all -itd --name xxq_tf2 -v /home/work/xx/data:/root/data -v /home/work/xx/algpt2:/root/algpt2 -v /home/work/xx/algpt2:/root/xx patientzero/tensorf

2020-05-22 19:43:00 31022 2

原创 chatbot-检索式模型介绍（四）

检索式模型介绍（四）这个系列的文章主要是介绍一些可以作为文本匹配工作的一些模型，有些是比较基础的算法，例如bm25。有些模型是基于深度学习的架构，比如说deepMatch模型。个人认为文本匹配的任务有两种实现方式，一个是学习不同domain中text的represation，然后利用represation计算score，这个的score可以是相似度（cosine，欧式距离等）。...

2020-04-19 15:46:53 34239

原创 Chatbot-检索式模型介绍（三）

检索式模型介绍（三）这个系列的文章主要是介绍一些可以作为文本匹配工作的一些模型，有些是比较基础的算法，例如bm25。有些模型是基于深度学习的架构，比如说deepMatch模型。个人认为文本匹配的任务有两种实现方式，一个是学习不同domain中text的represation，然后利用represation计算score，这个的score可以是相似度（cosine，欧式距离等）。...

2020-01-19 16:28:23 35390

原创 Chatbot-检索式模型介绍（二）

检索式模型介绍（二）这个系列的文章主要是介绍一些可以作为文本匹配工作的一些模型，有些是比较基础的算法，例如bm25。有些模型是基于深度学习的架构，比如说deepMatch模型。个人认为文本匹配的任务有两种实现方式，一个是学习不同domain中text的represation，然后利用represation计算score，这个的score可以是相似度（cosine，欧式距离等）。...

2020-01-15 20:46:29 36014

原创 Chatbot-检索式模型介绍（一）

检索式模型介绍（一）这个系列的文章主要是介绍一些可以作为文本匹配工作的一些模型，有些是比较基础的算法，例如bm25。有些模型是基于深度学习的架构，比如说deepMatch模型。个人认为文本匹配的任务有两种实现方式，一个是学习不同domain中text的represation，然后利用represation计算score，这个的score可以是相似度（cosine，欧式距离等）。...

2020-01-08 20:34:48 33682

原创 tensorflow serving服务器安装过程总结

1.安装环境centoscuda 9cudnn 72.非gpu版本tf_serving安装tf_serving的安装(非gpu版本)(cuda 9 cudnn 7)编译tf_serving的过程git clone -b r1.3 --recurse-submodules https://github.com/tensorflow/serving进入serving/tensor...

2019-05-06 14:54:13 23451 4

原创 bert模型代码介绍

关于bert模型的细节记录1. Input1.1. pretrain输入包含七个部分,分别为input_ids,input_mask,segment_ids,masked_lm_positions,mask_lm_ids,masked_lm_weights,next_sentence_labels.input_ids:表示tokens的idsinput_mask:表示哪些是inpu...

2019-05-06 14:46:28 36711 7

原创 tensorflow- tf.reduce_all

函数 tf.reduce_all示例

2019-04-09 20:01:34 2371

原创 tensoflow-unstack

函数unstack示例

2019-04-09 19:59:29 24108

原创 tensorflow-tile_batch

函数tensorflow.contrib.seq2seq.tile_batch作用主要是对tensor复制importtensorflow.contrib.seq2seq as seq2seq示例

2019-04-09 19:49:56 22500

原创论文总结：Ask Me Anything: Dynamic Memory Networks for Natural Language Processing

论文总结：Ask Me Anything: Dynamic Memory Networks for Natural Language Processing简介具体结构Input ModuleQuestion ModuleEpisodic Memory ModuleAnswer Module简介本文主要是对《Ask Me Anything: Dynamic Memory Networks for...

2018-09-30 14:32:58 17567

原创如何将pyspark的rdd数据类型转化为DataFrame

简述　　在用pyspark进行开发的时候，经常会遇到如何将pyspark读取的数据使用xgboost的模型进行训练，当然，如果是使用scala，可以直接使用xgboost4j，这个库里面提供了可以读取rdd的数据文件的函数接口，通过scala可以很简单的进行训练，但是对于python用户来说，如何使用pyspark和xgboost进行训练，就比较难以处理了？　　本人通过对libsvm的数据...

2018-09-17 11:03:33 7603

原创关于中英文语料的获取途径总结

中文：https://github.com/candlewill/Dialog_Corpus 这个是一个集合，包括之前答主的答案！包含的语料包括了 1）小黄鸡 xiaohuangji50w_nofenci.conv.zip 2）dgk_shooter_min.conv.zip 中文电影对白语料，噪音比较大，许多对白问答关系没有对应好 3）smsCorpus_zh_xml_201...

2018-09-01 11:51:26 8928 3

原创关于RNN相关模型-tensorflow源码理解

本文主要是对tensorflow中lstm模型中的c，h进行解析。rnn_cell_impl.py1.关于RNN模型在rnn_cell_impl.py的tensorflow源码中，关于RNN部分实现的类主要是BasicRNNCell，首先在build函数中，定义了两个变量_kernel和_bias。其中_num_untis表示RNN cell 的unt...

2018-08-23 21:03:32 29970

原创关于transformer模型总结（源码）

本文主要是对transfermer模型的源码进行解析： transfermer主要结构是由encoder和decoder构成。其中，encoder是由embedding + positional_encoding作为输入，然后加一个dropout层，然后输入放到6个multihead_attention构成的结构中，每个multihead_attention后面跟一个feedforwar...

2018-08-21 19:19:41 11133 3

原创 grid lstm模型简介

理论介绍主要通过论文《Grid Long short-Term Memory》。 grid LSTM沿着任何或所有维度（包括网络深度）部署cell。一个Grid LSTM网络的block有N个hidden vector h1, …, hN和N 个memory vectorm1,m2..作为输入，另外block的各个输出各不相同。标准的lstm模型的计算公式如下：源码介绍...

2018-08-21 18:26:39 3705 2

原创 Normalization Technique总结

1.相关介绍：神经网络在多个领域取得了非凡的成就，例如，语音识别，图像识别等。所以，训练神经网络是个重要的任务，gradient descent常被用来寻来拿神经网络。但在网络比较深时，gradient descent容易出现梯度消失或梯度爆炸等现象。因此，在使用SGD算法对神经网络进行优化时，需要小心的对模型超参数进行微调，例如学习速率，模型参数的初始化等。神经网络的训练过程是很复杂的，每层.........

2018-08-06 20:33:20 32742 10

原创 SRU介绍

1.背景介绍    RNN模型在机器翻译，语言模型，问答系统中取得了非凡的成就，由于RNN的结构，当前的层输入为前一层的输出，所有RNN比较适合时间序列问题，但也正是由于这种串行结构，限制了RNN模型的训练速度，与CNN相比，RNN并不能进行并行化处理。而SRU网络结构的提出就是为了解决这个问题，SRU(simple recurrent units)将大...

2018-08-03 19:52:14 16632

原创 tensorflow中关于BahdanauAttention以及LuongAttention实现细节

背景介绍在 TensorFlow 中，Attention 的相关实现代码是在 tensorflow/contrib/seq2seq/python/ops/attention_wrapper.py 文件中，这里面实现了两种 Attention 机制，分别是 BahdanauAttention 和 LuongAttention，其实现论文分别如下： Neural Machine Translat......

2018-08-03 19:38:54 8104 8

原创 LSTM模型的两种分解技巧

介绍LSTM模型在语言模型，机器翻译等领域取得了非凡的成就，然后LSTM网络有几百万的参数以及需要数周在多GPU系统中进行训练。因此，一下介绍两种方法来缩减网络参数以及训练时间。两种方法分别为factorized LSTM（FLSTM）以及group LSTM（GLSTM）。FLSTMFLSTM网络主要是将大的LSTM矩阵转化为两个小的矩阵。LSTM模型简单介绍在LST...

2018-07-21 11:13:22 28232

原创高效的文本分类

相关介绍文本分类任务是自然语言处理中重要的任务之一，近来，神经网络的使用变得更为普遍，神经网络在文本分类任务中表现更好，但是在训练和测试时间比较慢，限制了在大型语料库中的使用。与此同时，线性分类器在文本分类器中被认为是一种很好的baseline，尽管他们很简单，但当正确的特征被使用时，经常能够得到很好的表现[wang and Manning,2012]。线性模型也适用于非常大的语料库。因此...

2018-07-11 21:18:00 24640

原创基于LSTM的seq2seq模型介绍以及相应的改进

简介DNN模型在语言识别等任务上具有强大的能力，主要是因为DNN可以在适当步骤中进行并行计算，尽管DNN很灵活并很有用，但是DNN只能用于固定维度的输入以及输出的任务中，并且输入以及输出已知。因此，Ilya sutskever .et提出了基于LSTM模型的端到端的架构。其中用一个LSTM作为encoder，得到一个基于时间序列的向量表示，另外，用另一个LSTM网络作为decoder，从向量中...

2018-06-26 23:34:32 9857

原创 Encoder-Decoder 预训练

Encoder-Decoder模型预训练通过对Encoder-Decoder模型进行预训练能够有效的提高模型的训练效果。

2018-06-26 01:02:30 3784

原创语言模型简介

1.语言模型简介：统计语言模型是指单词序列的概率分布，假设有一个句子，长度为m，那么整个句子的概率为 p(w1,...,wn)p(w1,...,wn)p(w_1,...,w_n)，利用语言模型，可以确定哪个词序列的可能性更大，或者给定若干个词，可以预测下一个最可能出现的词语。假设给定句子：s=w1,w2,..,wks=w1,w2,..,wks=w_1,w_2,..,w_k它的概率可...

2018-06-25 23:14:43 965