一枚小码农-CSDN博客

原创关于对话系统（任务式/检索式/生成式）的若干总结

最近一直在调研对话系统，细细研究发现里面的细分知识点非常多，任务式/检索式/生成式对话系统每个里面的都有不同特点及方法，因此在这里总结下自己的研究成果。Intro按照对话系统的技术架构来分，人机对话系统可以分为任务型对话系统和非任务型对话系统两大类，在实际商业应用中这 2 种对话方式常常结合在一起使用．任务型对话通过交互的方式帮助用户完成一项或多项特定的任务，系统能够完成的任...

2020-04-24 11:04:43 3456 1

原创 NLP领域相关博文汇总

自己总结的相关内容目录：1.T5: Text-To-Text Transfer Transformer2.Bert改进模型汇总（1）3.Byte Pair Encoding（BPE）/WordPiece算法介绍4.Bert改进模型汇总（2）5.Bert改进模型汇总（3）6.Bert改进模型汇总（4）7.Bert改进模型汇总（5）大佬优秀文章收藏1.预训练语...

2020-02-05 11:46:59 357

原创深度学习相关博文汇总

1.为什么神经网络参数不能全部初始化为全0？2.常见的深度学习参数初始化方法总结3.ResNet介绍4.为什么CNN中的卷积核要旋转180度？5.label smooth/mixup——深度学习中的一种防止过拟合方法...

2020-01-31 18:13:46 175

原创机器学习相关博文汇总

现汇总下自己总结过的MachineLearning知识点文章：1.为什么bagging降低方差，boosting降低偏差？2.机器学习中的特征选择（过滤式，包裹式，嵌入式）3.期望风险、经验风险与结构风险4.局部加权线性回归(Locally weighted linear regression5.主成分分析(PCA)/线性判别分析(LDA)总结6.降维算法（PCA/LDA...

2020-01-30 22:10:20 146

最早的IR模型，也是应用最广泛的模型；目前仍然应用于商业系统中；Lucene是基于布尔（Boolean）模型的。布尔模型描述文档D表示：一个文档被表示为关键词的集合查询式Q表示:查询式(Queries)被表示为关键词的布尔组合，用“与、或、非”连接起来，并用括弧指示优先次序匹配F:一个文档当且仅当它能够满足布尔查询式时，才将其检索出来检索策略基于二值判定标准算法R:根据匹配框架F判定相关, 计算相关度排名，这里不涉及doc得分和tfidf，只是boolean关系。查询表示在布尔模型中，

2021-07-01 14:42:40 3103

原创 Neo4j国内下载镜像地址，速度超快

Neo4j官网的下载速度实在是太慢了，这个镜像里面版本很全，速度也很稳定，强烈推荐使用！地址http://doc.we-yun.com:1008/

2021-01-26 11:15:32 1937

原创 pandas清空DataFrame

df.drop(df.index, inplace=True)df=df.drop(index=df.index)DataFrame内的数据会被清空，但会保留表头

2020-12-15 16:44:59 11000 1

原创 pandas数据类型转为str

data = {'玩具':['车','飞机','轮船'], '数量':[3,2,5], '价格':[100,90,80]} df = DataFrame(data)df['数量'] = df_data['数量'].apply(str)

2020-12-15 16:36:09 7666

原创 pandas的数据类型转换

当我们做数据分析时，确保自己使用的是正确的数据类型，这一点很重要。而在pandas中，一般情况下会根据我们导入的数据，自动分配最合适的数据类型。但是有时候pandas也会犯错，这时候我们就需要diy自定义数据类型。本文主要将pandas的dtype，如何进行数据类型的操作。pands数据类型数据类型是编程语言的基础性概念，ta会告诉电脑如何存储数据、如何操作数据。例如，当我们给程序两个数字，进行5+10操作时, 程序要能理解这是两个整数，且知道整数是可以进行加法操作。而当有两个字符...

2020-11-23 15:02:52 10998 4

原创 python-Levenshtein常用函数

编辑距离Levenshtein.distance(str1, str2)汉明距离计算汉明距离。要求str1和str2必须长度一致。是描述两个等长字串之间对应位置上不同字符的个数。Levenshtein.hamming(str1, str2)莱文斯坦比计算公式r = (sum – ldist) / sum, 其中sum是指str1 和 str2 字串的长度总和，ldist是类编辑距离。注意这里是类编辑距离，在类编辑距离中删除、插入依然+1，但是替换+2。Leven...

2020-09-04 15:29:55 3258

原创安装python-Levenshtein包时遇到的问题

环境：Python3.6直接用pip installpython-Levenshtein时报错，提示需要安装 Microsoft Visual C++ 14.0。error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools安装Microsoft Vis...

2020-09-04 15:11:35 1652 3

原创编辑距离算法之Jaro-Winkler Distance

概述Jaro-Winkler Distance是一个度量两个字符序列之间的编辑距离的字符串度量标准，是由William E. Winkler在1990年提出的Jaro Distance度量标准的一种变体。Jaro Distance是两个单词之间由一个转换为另一个所需的单字符转换的最小数量。Jaro-Winkler Distance通过前缀因子使Jaro Distance相同时共同前缀长度越大的相似度越高。Jaro–Winkler Distance越小，两个字符串越相似。如果分数是0，则表示完全不同，分数

2020-09-04 14:53:30 5055

原创文本相似度的若干计算方法及Python实现

最近工作中正好遇到文本相似度问题，尝试了好几种方法，在这里稍微总结下吧，也让自己理解更透彻些。1 余弦相似度import numpy as npdef cos_sim(vector_a, vector_b): vector_a = np.mat(vector_a) vector_b = np.mat(vector_b) num = float(vector_a * vector_b.T) denom = np.linalg.norm(ve...

2020-09-02 17:45:10 683

原创 Papers

NLP1.Beyond Accuracy Behavioral Testing of NLP Models with CheckListACL2020 Best Parper，本文主要介绍的是NLP的评测方法，不同于以往的从语料中分为一部分test data来评价模型，而是介绍CHECKLIST这种新式评测方法。...

2020-07-10 10:31:52 120

原创好文分享（NLP/机器学习/深度学习）

记录下平常在公众号，zhihu上看到的不错的技术文章。搜索1.医疗搜索中的Query词权重算法探索2.BERT在美团搜索核心排序的探索和实践NLP1.1分钟|聊聊Transformer的并行化

2020-07-10 10:02:51 194

原创 Git官网下载过慢的解决方法

大家每次从官网下载Git时速度都非常慢，平均只有几十KB/S，现在可以从这个网站来下载。地址：https://npm.taobao.org/mirrors/git-for-windows/因为是按时间升序排序，所以Git船新版本在页面最下方，点开某版本后选择自己相应的版本即可。...

2020-07-08 10:06:01 450

原创 Learning to rank学习

IntroLTR（Learning to rank）是一种监督学习（SupervisedLearning）的排序方法，已经被广泛应用到推荐与搜索等领域。传统的排序方法通过构造相关度函数，按照相关度进行排序。然而，影响相关度的因素很多，比如tf，idf等。传统的排序方法，很难融合多种因数，比如向量空间模型以tf*idf作为权重构建相关度函数，就很难利用其他信息了，并且如果模型中参数比...

2020-04-30 16:43:55 538 1

原创任务式对话系统总结(1)---自然语言理解

任务式对话系统基本框架如下图所示，这里我对语音领域不是很熟悉，所以本文不做具体介绍，因此任务式对话系统基本框架主要包括自然语言理解（NLU），对话管理器( DM) 、语言生成（NLG）。下面内容就具体介绍下这几个组件。1 自然语言理解NLU完成的具体任务在不同对话系统中差异较大，比较共性的能力包括领域识别、意图识别、对话行为识别、槽位识别和槽位值抽取。领域识别是将用户...

2020-04-28 17:20:55 2777

原创 Python中的*arg与**kwargs参数的用法

最近面试的时候被问到了这个问题，自己也没回答上来，因此在这里记录一下。在python中，这两个是python中的可变参数，*arg表示任意多个无名参数，类型为tuple，**kwargs表示关键字参数，类型为dict。def exmaple2(required_arg, *arg, **kwarg): if arg: print "arg: ", arg ...

2020-04-26 16:31:49 395

原创生成式对话系统总结(1)

1 自然语言生成自然语言生成的作用是组织适当的应答语句，将系统的答复转换成用户能够理解的自然语言，通常有 3 种解决方案: 基于人工模板( rule-based) 、基于知识库检索( query-based) 和基于深度学习的序列到序列(Sequence-to-Sequence) 生成模型。语言生成方案的优缺点和适用场景总结如下表所示。Ref...

2020-04-24 15:02:30 4838 1

原创 diversity beam search

Seq2Seq中常用到的优化方法就是Beam Search，但是Beam Search的一个缺点就是生成的N个回答往往差异性很小，无法体现语言的多样性（比如文本摘要、机器翻译的生成文本，往往有不止一种表述方式）。最近看论文的时候发现Google提出的改进Beam Search方法，下面来稍微总结下。论文地址：https://arxiv.org/pdf/1610.02424.pdf具体...

2020-04-16 10:38:20 1067

原创大厂对话系统文章汇总

最近主要在研究对话系统，看到很多大厂技术团队分享的文章，在此分享给大家。1.Trend Micro--基于Elasticsearch的智能客服机器人2.平安-智能问答系统：问句预处理、检索和深度语义匹配技术3.腾讯-智能问答技术及其应用4.思必驰-一文详解启发式对话中的知识管理5.贝壳找房-【WOT峰会回顾】人工智能和人工冰释前嫌6.微软-微软小冰对话机器人架构7.瓜子...

2020-04-13 17:06:24 296

原创人工智能领域值得关注的会议

机器学习ICMLNIPSAISTATSUAIICLDNLPACLEMNLPCOLINGNAACLCVCVPRICCVDATA MININGKDDWSDMAIAAAIIJCAI期刊JMLRTKDEPAMI

2020-03-27 23:29:20 158

原创 Glove原理解析

在2013年Tomas Mikolov等人提出word2vec之后，2014年，Jeffrey Pennington, Richard Socher, Christopher D. Manning三人提出了GloVe算法[1][2][3]。其中，GloVe是Global Vector的缩写。在传统上，实现word embedding（词嵌入）主要有两种方法，Matrix Factorizat...

2020-03-25 16:36:19 1844

原创关于drop out

1简介1.1dropout出现的原因在机器学习的模型中，如果模型的参数太多，而训练样本又太少，训练出来的模型很容易产生过拟合的现象。在训练神经网络的时候经常会遇到过拟合的问题，过拟合具体表现在：模型在训练数据上损失函数较小，预测准确率较高；但是在测试数据上损失函数比较大，预测准确率较低。过拟合是很多机器学习的通病。如果模型过拟合，那么得到的模型几乎不能用。为了解决过拟合问题...

2020-03-04 16:54:18 1123

原创 Feature-based和Fine-tune的区别

在Bert的论文中看到了Feature-based和Fine-tune这两种无监督的NLP学习方法，对这两个概念一直以来都不太理解，今天来总结下。Feature-basedFeature-based指利用语言模型的中间结果也就是LM embedding, 将其作为额外的特征，引入到原任务的模型中，例如在TagLM[1]中，采用了两个单向RNN构成的语言模型，将语言模型的中间结果。...

2020-02-14 11:14:20 4825

原创 Bert改进模型汇总（5）

目录DistillBert:a distilled version of BERT: smaller,faster, cheaper and lighterTinyBert:: DISTILLING BERT FOR NATURAL LANGUAGE UNDERSTANDINGReferenceDistillBert:a distilled version of BERT: s...

2020-02-11 15:32:54 1726

原创 Bert改进模型汇总（4）

目录ALBertIntroFactorized embedding parameterizationCross-layer parameter sharingSentence Order Prediction（SOP）Electra:Efficiently Learning an Encoder that Classifies Token Replacements Accu...

2020-02-11 14:49:47 2824

原创 Bert改进模型汇总（3）

目录SpanBert: Improving Pre-training by Representing and Predicting SpansSpanMaskingSpan Boundary ObjectiveRemove NextSentencePredictionRoBERTa:Robustly optimized BERT approachMoreData...

2020-02-11 09:49:52 3730

原创 label smooth/mixup——深度学习中的一种防止过拟合方法

LabelSmooth在常见的多分类问题中，先经过softmax处理后进行交叉熵计算，原理很简单可以将计算loss理解为，为了使得网络对测试集预测的概率分布和其真实分布接近，常用的做法是使用one-hot对真实标签进行编码，作者认为这种将标签强制one-hot的方式使网络过于自信会导致过拟合，因此软化这种编码方式。等号左侧：是一种新的预测的分布等号右侧：前半部分是对原分布乘...

2020-02-10 23:36:43 2257

原创 Bert改进模型汇总（2）

目录MASS:Masked Sequence to Sequence Pre-training for Language GenerationUNILM:UNIfied pre-trained Language ModelUnidirectional LMBidirectional LMSeq2Seq LMReferenceMASS:Masked Sequence to...

2020-02-10 23:06:39 933

原创 Byte Pair Encoding（BPE）/WordPiece算法介绍

Subword算法如今已经成为了一个重要的NLP模型性能提升方法。自从2018年BERT横空出世横扫NLP界各大排行榜之后，各路预训练语言模型如同雨后春笋般涌现，其中Subword算法在其中已经成为标配。所以作为NLP界的小菜鸟，有必要了解下Subword算法的原理。1BPEBPE，（byte pair encoder）字节对编码，也可以叫做digram coding双字母组合编码，主要...

2020-02-05 23:37:36 5001 3

原创 Bert改进模型汇总（1）

目录IntroERNIE from BaiduERNIE from THUReferenceIntroBert自问世以来横扫NLP各大榜单，但Bert模型本身还存在着或多或少的问题，因此后续学术界也针对Bert的缺陷提出了各类改进模型，今天这篇文章我就大致总结下我所了解到的模型。首先先上两张图，总结的非常好ERNIE from Baidu论文地址htt...

2020-02-05 21:45:49 5522

原创机器学习各类优化算法总结

目录1Intro2一阶优化算法2.1GradientdescentBatch Gradient DescentStochastic Gradient DescentMini-batch Gradient Descent2.2Momentum2.3Nesterov accelerated gradient（NAG）2.4AdaGrad2.5A...

2020-02-05 15:50:22 3515

原创 T5: Text-To-Text Transfer Transformer

总而言之就是一个集NLP之大成者的预训练模型，也只有Google这种土豪公司才玩得起了。。论文：Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer代码：https://github.com/google-research/text-to-text-transfer-tra...

2020-02-05 11:45:50 514

原创为什么CNN中的卷积核要旋转180度？

目录1CNN介绍2WhyReference1CNN介绍推荐看这位大佬的文章：卷积思想理解、Convolutional Neural Network（CNN）卷积神经网络初探2WhyCNN(卷积神经网络)的误差反传(error back propagation)中有一个非常关键的的步骤就是将某个卷积(Convolve)层的误差传到前一层的池化(Pool)层上，因为...

2020-02-02 21:18:12 4564

原创如何确定LDA主题模型中的主题个数？

1 基于经验主观判断、不断调试、操作性强、最为常用2 基于困惑度Perplexity该方法需要测测试集！3贝叶斯统计标准方法参考文献：Griffiths T L, Steyvers M. Finding Scientific Topics[J]. Proceedings of the National Academy of Sciences of the Unit...

2020-02-01 23:20:20 9906

原创常见的深度学习参数初始化方法总结

目录1随机初始化2Xavier初始化3He初始化4高斯随机初始化 withBatchNorm5Pre-trainReference1随机初始化2Xavier初始化每层的权重初始化公式如下：上式为一个均匀分布，n_j为输入层的参数，n_(j+1)为输出层的参数Xavier的推导过程是基于几个假设的，其中一个是激活函数是线性的，...

2020-01-31 20:12:35 2827

原创 K-Means算法中k值及初始类簇中心点的选取

1 k值的选择手肘法手肘法的核心指标是SSE(sum of the squared errors，误差平方和)，其中，Ci是第i个簇，p是Ci中的样本点，mi是Ci的质心（Ci中所有样本的均值），SSE是所有样本的聚类误差，代表了聚类效果的好坏。手肘法的核心思想是：随着聚类数k的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐渐变小。并且，当k...

2020-01-31 18:49:51 6259 1

原创为什么神经网络参数不能全部初始化为全0？

参考这篇文章为什么神经网络参数不能全部初始化为全0？

2020-01-31 18:13:14 818

空间数据三维建模与可视化

本书以空间地质体和虚拟树木等复杂对象为目标，系统介绍三维地理信息系统中空间数据三维建模及可视化方法。主要内容包括三维地质建模方法、三维地质模型可视化、模型处理与三维交互、基于规则的树木三维建模、模型参数计算等

2018-05-14

华为编码规范和范例

华为编码规范和范例，大家可以下载看一看，学习一下大厂的编码规范！

2018-04-25

软件开发者路线图-从学徒到高手

作为一名软件开发者，你在奋力推进自己的职业生涯吗？面对今天日新月异和不断拓展的技术，取得成功需要的不仅仅是技术专长。为了增强专业性，你还需要一些软技能以及高效的学习技能。本书的全部内容都是关于如何修炼这些技能的。两位作者Dave Hoover和Adewale Oshineye给出了数十种行为模式，来帮你提高主要的技能。

2018-04-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人