hellozgy-CSDN博客

原创 Beam Search搜索和topk采样优缺点

seq2seq任务中两种搜索算法的优缺点

2022-10-19 23:55:06 1055 1

这里写自定义目录标题1、SimCSE: Simple Contrastive Learning of Sentence Embeddings1、SimCSE: Simple Contrastive Learning of Sentence Embeddings论文：https://arxiv.org/pdf/2104.08821.pdfcode: https://github.com/princeton-nlp/SimCSE思想：...

2021-08-19 11:40:59 247

原创经典推荐算法

一、DIN论文：Deep Interest Network for Click-Through Rate Prediction作者：阿里妈妈1、贡献任务可以抽象为分类问题，输入是用户历史行为数据（点击，加入购物车等行为）和待预测商品，输出是用户点击该商品的概率。利用了用户兴趣多样性以及当前候选商品仅与用户一部分兴趣有关这一特点，引入了attention机制。工程优化上，引入了GAUC度量指标、Dice激活函数、自适应正则技术2、模型如下，右边就是DIN网络（深度兴趣网络），base 方案

2021-07-01 11:04:51 388

原创 HMM & CRF

主要介绍HMM和CRF在序列标注问题中的应用。

2021-04-27 15:44:06 154

原创激活函数

一、gelu论文：Gaussian Error Linear Units (GELUs)公式：f(x) = xΦ(x)其中Φ(x)表示高斯分布函数（是面积，不是概率密度），这样写是因为一般模型的参数是符合正太分布的，这样越小的参数越可能被dropout掉实际使用时的近似公式（bert）：tf代码： 0.5x * (1.0 + tf.tanh((np.sqrt(2 / np.pi) * (x + 0.044715 * tf.pow(x, 3)))))原理解释：引入非线性，该激活函数是根据输入值

2021-04-09 12:45:33 136

原创预训练模型

一、bert论文：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding代码：https://github.com/google-research/bert作者：google1、贡献提出一种双向语言模型，基于该预训练模型finetune后在各下游任务取得sota效果。模型结构图如下，包括两个任务，一个是MLM(mask language model)，另一个是NSP任务(next sente

2021-04-09 11:44:47 5119 1

原创 MSE Loss，MAE Loss, 交叉熵 Loss的统计意义

MSE loss和MAE Loss经常用在回归问题。对于MSE Loss，如果相同的样本存在不同的label值（比如同一句话在不同场景下满意度可能是不同的），当预测值取这些样本label的平均值时，loss最小。这可以通过对loss对导数得到。对于MAE Loss，这是统计学中的『最小一乘线性回归』问题，如果相同的样本存在不同的label值，那么预测值取这些样本的label的中位数时候，loss最小。可以假定loss最小时，预测值不是中位数，证明这个时候loss比中位数的loss大就行。对于交叉熵

2020-12-25 20:25:12 8059 1

原创文本分类：[google]PRADO: Projection Attention Networks for Document Classification On-Device

可以参考对textcnn的改进点：每个kernel使用两只cnn，其中一只作为softmax计算另一支的attention，取代textcnn的max-pool

2020-10-24 18:20:55 293

原创深度特征工程：[google]DCN-M: Improved Deep & Cross Network for Feature Cross Learning in Web-scale Learning

参考：https://mp.weixin.qq.com/s/0qidwbxyfTkODTw2DIiRWw代码1、贡献DNN在特征交叉学习上比较低效，DCN[1]可以高效的学习高阶的特征交叉，本文在DCN的基础上，提出一种改良版的DCN-M模型。2、回顾DCN的结构图中输入包括连续特征和向量, 模型分两支，一是DNN模型，一是Cross Net，最终两者的输出concat一起经过FFN输出。CrossNet的公式如下：公式的矩阵显示是：式中w和b都是d维向量，因此每增加一层增加2d个参数

2020-10-21 11:51:17 677

原创多任务学习：Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized

出处：[腾讯]RecSys2020最佳长论文参考：https://mp.weixin.qq.com/s/IEtlu2AhvwI-W6lZY1j4NQ论文贡献论文对多任务学习方向，多个任务在NN模型中的架构形式做了探索。具体分为单层和多层两种结构，单层的几种结构如下：...

2020-10-14 11:01:27 5832

原创《Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms》

出处： ACL20181. 贡献本文提出在词向量上进行简单的池化操作在文本分类/匹配任务上就可以得到跟CNN/RNN相当的效果。2. 方案1） SWEM-aver：整个句子的信息)2）SWEM-max：突出特征)3）拼接SWEM-aver和SWEM-max4 SWEM-hier（层次化）最大和平均池化没有考虑词序，这里引入层次化pooling。先作固定窗口的平均pooling，得到k个向量，然后对这k个向量做max-pooling。3. 解释SWEM-max和glove的各个纬度

2020-06-02 10:58:12 141

原创《Dynamic routing between capsules》

paper：《Dynamic routing between capsules》出处： NIPS 2017作者：Hinton一、摘要

2020-02-22 21:08:50 588

原创《Joint Slot Filling and Intent Detection via Capsule Neural Networks》

出处：ACL 2019一、摘要之前对于槽位填充和意图检测的工作都是将两者分开进行的，即使有同时进行的，也没有明显考虑word、slot和intent的层级关系。因此作者基于胶囊网络，提出一种带有重路由功能动态路由机制来联合进行槽位填充和意图检测工作。二、方法...

2020-02-16 21:14:52 877

原创《Semantically Conditioned Dialog Response Generation via Hierarchical Disentangled Self-Attention》

来源：ACL 2019代码：https://github.com/wenhuchen/HDSA-Dialog摘要基于pipeline的任务型对话系统可以拆解成以下四个部分，其中NLU为意图槽位理解，DST为对话历史并能根据当前用户query更新状态，Policy learning为根据用户需求判断下一步action（也就是论文中提到的dialog act），NLG为对话生成。本论文目标是提高...

2020-02-16 11:32:09 783

原创语料列表

MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling出处：EMNLP 2018描述：来自"绿野仙踪"的对话语料下载地址：http://dialogue.mi.eng.cam.ac.uk/ index.php/corpus/...

2020-02-15 20:52:09 213

原创 Efficient Large-Scale Neural Domain Classification with Personalized Attention

出处：ACL 2018摘要论文探索了在智能个人数字助理领域（IPDA）将用户口语输入映射到domain这个任务。主流的IPDA有很多第三方开发的domain，这在第一方domain的基础上大大提高了domain的丰富度。论文提出一种可以共享编码器且融合注意力机制的神经网络模型来解决这个问题，模型融合了个性化信息，并且可以高效适应不断增长的第三方domain，比完全重训取得量级上的加速。论文参照...

2020-01-20 13:14:20 225

原创 c++盲点

基于C++ 111.将vector转换为set std::set<std::string> my_set(my_vector.start(), my_vector.end())2. 将一个vector添加到另一个vector末尾 std::vector<int> src; std::vector<int> dst; dst.insert(dst.e...

2019-11-30 18:03:22 184

原创 tensorflow知识点

expand_dims(tensor, dim=2) # 扩展纬度

2019-11-28 16:57:37 286

原创《Proactive Human-Machine Conversation with Explicit Conversation Goals》

论文出处：ACL 20191. 摘要论文提出了一种基于知识图谱能主导对话的对话系统，并开源了对应的数据集DuConv。该数据集涉及电影、导演和演员相关题材，包含3w个多轮对话，约27w个句子。每个对话包含一个目标三元组[START, TOPIC_A, TOPIC_B]，表示系统的目标是将对话主题从A引导到B；另外包括一系列跟TOPIC_A或者TOPIC_B有关的知识三元组，形式为（主体，谓词，...

2019-11-22 23:11:08 1594

原创 excel使用命令

excel使用命令随机打乱数据计算两列的和放在第三列随机打乱数据 1.在左上角范围列，输入一个空列的范围，长度为数据行数，比如I2:I3000，然后fx（函数）列输出公式=rand()，按住ctrl+回车键，可以生成随机数 2. 这些随机数会变化，复制，然后在另一个空列右键选择性粘贴，粘贴值 3. 选中所有列，筛选->然后对随机数列排序即可计算两列的和放在第三列 1. 选中空列...

2019-11-18 19:18:47 1638

原创《Multi-Domain Joint Semantic Frame Parsing using Bi-directional RNN-LSTM》

出处： InterSpeech 2016摘要对于NLU的三个任务：domain分类、intent检测、slot-filling，这种分成三个任务而不是端到端学习的优势是：灵活，对某个特定domain的修改不会影响其他domain可以在特定domain使用该特定domain的特征在domain内有更好的理解，因为比如在某一domain的意图检测，只需要在该domain的一个较小的子集内进...

2019-09-20 10:17:00 497 1

原创《LEARNING END-TO-END GOAL-ORIENTED DIALOG》

** 摘要 **

2019-09-15 15:53:43 678 1

原创《End-to-end memory networks》

这里介绍了一种可以端到端训练的内存网络MemN2N，可以利用额外的知识库。代码地址：https://github.com/facebook/MemNN.贡献可以端到端训练multiply hop attention许多实现细节可以参考任务任务描述如下，文章使用问答数据集，给定一组句子作为知识库，然后根据问题进行回答，答案为1个word。模型模型的架构如下所示：左边（a）...

2019-09-08 15:42:32 260

原创《Mem2Seq: Effectively Incorporating Knowledge Bases into End-to-End Task-Oriented Dialog Systems》

1. 摘要端到端的任务型对话系统在知识库的融合方面受到挑战，这篇文章提出一种端到端的网络member-to-sequence(Mem2Seq)来解决这个痛点。Mem2Seq是第一篇融合指针网络的多跳attention的生成式模型。我们的模型具有普适性，训练的更快，且取得了SOTA的效果。2. 背景介绍传统的任务型对话系统将任务拆分成几个子模块：NLU（包括意图识别、槽位填充）、DM(包括DS...

2019-09-04 10:54:41 295

原创常用命令汇总

删除删除单行命令模式下，连续按两次d即可删除多行首先在命令模式下，输入“：set nu”显示行号； -通过行号确定你要删除的行；命令输入“：32,65d”,回车键，32-65行就被删除了如果无意中删除错了，可以使用‘u’键恢复（命令模式下）我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：.........

2019-02-23 16:23:58 1003 1

转载中缀表达式转换为后缀表达式（逆波兰表达式）

中缀表达式转换为后缀表达式（逆波兰表达式）一、后缀表达式求值后缀表达式也叫逆波兰表达式，其求值过程可以用到栈来辅助存储。假定待求值的后缀表达式为：6 5 2 3 + 8 * + 3 + *，则其求值过程如下：1）遍历表达式，遇到的数字首先放入栈中，此时栈如下所示：2）接着读到“+”，则弹出3和2，执行3+2，计算结果等于5，并将5压入到栈中。3）读到8，将其直接放入栈中。4...

2018-09-30 11:42:17 3447

原创语言模型和ppl

语言模型的ppl计算公式：

2018-07-26 17:44:39 6700

原创三种Attention

三种Attention的公式：

2018-04-06 11:06:38 1226

原创降维方法

1. PCA (主成分分析)在信号处理中认为信号具有较大的方差，噪声有较小的方差将数据映射后在每个维度方差都最大。2. LDA(线性判别分析)LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”。什么意思呢？我们要将数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。...

2018-04-02 23:06:45 250

原创 ROC和AUC

指标物理意义假设分类器的输出是样本属于正类的socre（置信度），则AUC的物理意义为，任取一对（正、负）样本，正样本的score大于负样本的score的概率。计算方式第一种方法取每一个分数作为阈值，划分0和1，然后求得真阳率（TP/(TP+FN)）和假阳率（FP/(FP+TN)），然后绘制ROC曲线（真阳率为纵轴，假阳率为横轴），求得ROC曲线的面积就是AUC值。第二种方法：...

2018-04-01 11:52:04 367

原创防止过拟合的方法

Early stopping数据增强正则化方法（L1、L2）Dropout

2018-03-30 21:08:24 311

原创正则

1.为什么L2不稀疏：理解一：稀疏则表示在0点处于最小值，而L2的导数在-0那里基本不为0。因为L2项在0点处导数是0，所以如果原来的损失函数在0点处倒数不为0，那么正则后的损失函数在0点处的导数就不为0。而施加 L1 regularization 时，只要 regularization 项的系数 C 大于原先费用函数在 0 点处的导数的绝对值，x = 0 就会变成一个极小值点。理解二：2.L1...

2018-03-30 19:45:00 199

原创 svm问答

1.为什么高斯核能够拟合无穷维度：因为他可以无穷泰勒展开。2.参数C和σ ：前者表示对误差的惩罚，越大说明对误分类的惩罚越大，模型非线性拟合越好，越容易过拟合，越小则容易欠拟合。后者表示高斯分的形状，越大说明在均值那里越抖，支持向量越少，值越小支持向量越多，影响计算复制度。...

2018-03-30 19:39:48 221

原创 BPTT推导及RNN梯度消失和梯度爆炸的原因

2018-03-30 19:26:17 1186

转载推导LR

转载自：https://blog.csdn.net/ltlitao717/article/details/75453480

2018-03-30 18:53:49 472

原创 Adaboost和GBDT

1. Adaboostboost算法通过学习一系列的弱分类器，通过加权得到一个强分类器Adaboost首选假设每个样本权值相通为1/N。然后学习第一个分类器，然后计算样本在该分类器下的误差率（误分类样本的加权和）：根据误差率得到一个系数，这个系数也是当前这个分类器的权重：然后更新样本的权重：然后根据新的样本分布去训练一个新的分类器。最后的分类器可表示为这些分类器的加权和：2. GBDT讲GBDT之...

2018-03-22 14:26:51 3061

原创 GRU和LSTM

1.GRU分为更新门和重置门：更新门决定上一个时间片的隐藏层信息有多少可以直接传递到当前时间片。重置门决定上一个时间片的隐藏层信息对于生成当前的存储有多大的贡献2. LSTM分为输入门、遗忘门和输出门：输入门决定当前输入的单词是不是重要的遗忘门决定上一个时间片的存储信息是不是重要的输出门决定哪部分最终的存储需要传递给当前隐藏...

2018-03-22 12:38:35 569

原创决策树和随机森林

1.决策树构建：从当前节点的属性集合中选择一个属性就行划分，使得划分后节点的纯度增高，一直到终止条件：a.借点所有样本属于同一类。b.没有可划分的属性。c.当前节点已经没有可划分的样本2.属性选择可以通过信息增益最大(ID3)或者信息增益比最大（解决信息增益比较偏好有更多属性值的属性的问题）（C4.5）或者划分后基尼指数最小（CART）来做。3.剪枝a.预剪枝：在决策树生成过程中，对每个节点进行划...

2018-03-22 10:07:51 310

原创 ubuntu16.04 opencv3.2 sun jdk1.8配置教程

1、下载sun jdk1.8，放到目录/usr/lib/jvm/jdk1.8目录2、在官网下载opencv3.2版本，解压到/home/zgy/cv/opencv3.23、执行一些安装sudo apt-get install build-essentialsudo apt-get install cmake git libgtk2.0-dev pkg-config libavc

2017-01-05 23:55:52 1561

原创 java是不是"解释执行"语言

java是不是"解释执行"语言

2016-04-14 00:17:31 1052

secureCRT_mac.tar.gz

mac下强大的终端工具secureCRT，下载安装就可以使用。上传到这里共享给大家。下载不需要积分

2020-05-20

geckodriver-v0.14.0

geckodriver-v0.14.0 支持linux和windows 64位

2017-02-26

xuggle-xuggler-5.4.jar

2017-01-06

ippicv_linux_20151201.tgz

ubuntu配置opencv

2017-01-05

Java 8函数式编程

这是<<Java 8函数式编程>>整书。本书将探讨如何编写出简单、干净、易读的代码；如何简单地使用并行计算提高性能；如何准确地为问题建模，并且开发出更好的领域特定语言；如何写出不易出错，并且更简单的并发代码；如何测试和调试Lambda表达式。如果你想尽快了解Java 8新特性，写出简单干净的代码，那么本书不容错过。

2016-08-11

JProfiler 9注册码.txt

JProfiler 9注册码,亲测可用。可以用来测试IDEA，eclipse的代码性能

2016-01-29

Android底层开发技术实战详解内核、移植和驱动

从底层原理开始讲起，结合真实的案例向读者详细介绍了Android内核、移植和驱动开发的整个流程。全书分为21章，依次讲解驱动移植的必要性， Goldfish、OMAP内核和驱动解析，显示系统、输入系统、振动器系统、音频系统、视频输出系统的驱动，OpenMax多媒体和多媒体插件框架，传感器，照相机，Wi-Fi，蓝牙和GPS，USB Gadget驱动，Lights光系统和Battery电池系统等。在每一章中，重点介绍了与Android驱动开发相关的底层知识，并对Android源码进行了剖析。

2016-01-07