五癫-CSDN博客

转载 relu神经元死亡的一种角度解释

最近在阅读 Airbnb 的论文Applying Deep Learning to Airbnb Search。阅读的过程中，我发现作者在谈及特征归一化的必要性时，有如下表述：Feeding values that are outside the usual range of features can cause large gradients to back propagate. Thi...

2019-07-18 18:06:41 9630 2

原创文本分类概论

思路历程：1.利用知识工程建立专家系统进行分类通过添加特定规则做分类任务，费时费力，覆盖的范围和准确率都非常有限。2.人工特征工程+浅层分类模型文本预处理：在文本中提取关键词表示文本中文文本预处理主要包括分词jieba等工具，具体算法参考相关文章去停用词维护停用词表（包括高频的代词连词介词等），特征提取过程中删除停用表中出现的词等文本表示1.词袋模型（...

2019-04-05 13:47:15 561

原创对于word-embedding的理解和感悟1

时间：2019.4.3地点：武汉状态：离职在家今天天气很好，阳光照射到绿叶上，一片兴兴向荣。不谈未来职业规划，不论工作面试准备，抛去这些让人疲惫的东西，突然想回归到纯粹知识的本质之中。问题的开端：复兴的深度学习让人们试图用计算机模拟人类的感知，认知，决策和自我学习能力。计算机能处理的东西只有数字，所以我们第一步是要把现实世界的东西用数字尽可能的描述出来。比如：一张图可以表示成三...

2019-04-03 15:03:07 1115

转载 TextCNN

论文来源：“Convolutional Neural Networks for Sentence Classification”为了更好理解，以下图举例，实际参数值参考论文图中第一层输入为7*5的词向量矩阵，其中词向量维度为5，句子长度为7，然后第二层使用了3组宽度分别为2、3、4的卷积核，图中每种宽度的卷积核使用了两个。其中每个卷积核在整个句子长度上滑动，得到n个激活值，图中卷积核滑...

2019-03-22 21:21:56 792

原创 fastText

发明者:Mikolov在facebook AI实验室于2016提出了fastText模型。论文标题:Bag of Tricks for Efficient Text Classification模型结构：类似于word2vec中Cbow模型的结构，Cbow是根据contexts预测目标词，而fasttext是根据contexts预测label。优点：快，切能和其他模型有差...

2019-03-22 20:37:48 317

原创权重初始化

1.权重初始化的常见方式（1）[-y,y]范围的均匀分布（2）初始化为高斯分布（外加截断的高斯分布等）：（3）xavier尝试问题：使得每一层输出的方差应该尽量相等（4）MSRA尝试问题：随着网络加深，上述方法收敛越来越难2.权重初始化的目的（1）加快收敛（2）打乱对称性，增强学习效果...

2019-03-22 13:12:31 484

原创 2019-3-14深夜

东风不来,三月的柳絮不飞你的心如小小的寂寞的城恰若青石的街道向晚跫音不响,三月的春帷不揭你的心是小小的窗扉紧掩我达达的马蹄声是美丽的错误我不是归人,是个过客...

2019-03-14 23:29:32 425

原创激活函数对比分析

1.激活函数的作用提供网络的非线性建模能力2.激活函数中的常见概念饱和当一个激活函数h(x)满足 limn→+∞h′(x)=0limn→+∞h′(x)=0 时，我们称之为右饱和。当一个激活函数h(x)满足 limn→−∞h′(x)=0limn→−∞h′(x)=0 时，我们称之为左饱和。当一个激活函数，既满足左饱和又满足又饱和时，我们称之为饱和。硬饱和与软饱和对任意的...

2019-03-11 12:54:03 1218

看到这里，是否记得前面提及Vaswani推出的Transformer结构，那么如果不使用RNN结构，是怎样表示位置信息的呢？在提信息位置技术前，先简介以下RNN和CNN。RNN的序列结构不适合大规模并行训练。因为大家都知道，RNN对于序列问题有天然优势，然而这种优势却注定RNN的每一时刻的状态输入都需要等待上一个时刻状态输出完成。而对于CNN，这里是指经典版CNN的问题。卷积层实则上就是一个特征提...

2019-03-09 18:24:02 13658 3

转载两行代码玩转 Google BERT 句向量词向量

转载地址https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/84351397关于作者：肖涵博士，bert-as-service 作者。现为腾讯 AI Lab 高级科学家、德中人工智能协会主席。肖涵的 Fashion-MNIST 数据集已成为机器学习基准集，在 Github 上超过 4.4K 星，一年来其学术引用数超过 300 ...

2019-03-08 15:17:05 2115

转载【译】深度双向Transformer预训练【BERT第一作者分享】

【译】深度双向Transformer预训练【BERT第一作者分享】目录NLP中的预训练语境表示语境表示相关研究存在的问题 BERT的解决方案任务一：Masked LM 任务二：预测下一句 BERT 输入表示模型结构——Transformer编码器 Transformer vs. LSTM 模型细节在不同任务上进行微调 ...

2019-03-07 09:40:41 933

转载 BERT：用于语义理解的深度双向预训练转换器（Transformer）

鉴于最近BERT在人工智能领域特别火，但相关中文资料却很少，因此将BERT论文理论部分（1-3节）翻译成中文以方便大家后续研究。· 摘要本文主要介绍一个名为BERT的模型。与现有语言模型不同的是，BERT旨在通过调节所有层中的上下文来进行深度双向的预训练。因此，预训练的BERT表示可以通过另外的输出层进行调整，以创建用于广泛任务的状态模型，例如问题转换和语言参考，而无需实质的任...

2019-03-07 09:30:38 3733

转载归一化（Normalization）、标准化（Standardization）和中心化/零均值化（Zero-centered）

1 概念归一化：１）把数据变成(０，１)或者（1,1）之间的小数。主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速。２）把有量纲表达式变成无量纲表达式，便于不同单位或量级的指标能够进行比较和加权。归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为纯量。标准化：在机器学习中，我们可能要处理不同种类的资料，例如，音讯和图片上的像素...

2019-03-05 11:21:43 1590

原创数据归一化读书笔记

1.数据归一化的直观感受直观来看，就是将数据按比例缩放，使之落入一个小的特定区间（0,1）或者（-1,1），目的是后续处理数据方便。2.数据归一化的作用（1）把有量纲表达式变成无量纲表达式，便于不同单位或量级的指标能够进行比较和加权。（2）在使用梯度下降的方法求解最优化问题时，归一化/标准化后可以加快梯度下降的求解速度，即提升模型的收敛速度。3.数据归一化的理解归一化...

2019-03-05 11:21:08 261 1

转载【python gensim使用】word2vec词向量处理中文语料

2019-02-21 13:40:03 1500 1

转载 CS224N研究热点2_Linear Algebraic Structure of Word Senses, with Applications to Polysemy（对于一词多义的向量表示研究）

Paper:Linear Algebraic Structure of Word Senses, with Applications to Polysemy源代码词向量编码的相似性相似的单词的词向量编码在欧几里得空间中的分布会彼此相邻：如何表示多义词？比如，tie在游戏比赛的平局；在衣服中的领带；或者表示一种扭曲的动作。实际得到的tie的词向量是tie-1、tie-2、tie-3...

2019-02-21 13:01:06 529

原创一个简单但很难超越的Sentence Embedding基线方法论-笔记

源码地址https://github.com/PrincetonML/SIF1.目的创建句向量2.方法论文地址：第一步，对句子中的每个词向量，乘以一个独特的权值。这个权值是一个常数αα除以αα与该词语频率的和，也就是说高频词的权值会相对下降。求和后得到暂时的句向量。然后计算语料库所有句向量构成的矩阵的第一个主成分uu，让每个句向量减去它在uu上的投影（类似PCA）。...

2019-02-21 12:41:33 840

转载理解GloVe模型（+总结）

系列目录（系列更新中）第二讲 cs224n系列之word2vec & 词向量 word2vec进阶之skim-gram和CBOW模型（Hierarchical Softmax、Negative Sampling）第三讲 cs224n系列之skip-pram优化 & Global Vector by Manning & 词向量评价理解Glo...

2019-02-18 10:29:58 2057

翻译 Skip-Gram直观理解（ Word2Vec Tutorial - The Skip-Gram Model， Word2Vec (Part 1): NLP With Deep Learning翻译）

什么是Word2Vec和Embeddings？ Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型，它被大量地用在自然语言处理（NLP）中。那么它是如何帮助我们做自然语言处理呢？Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Embedding其实就是一个映射，将单词从原先所属的空间映射到新的...

2019-02-16 10:42:50 887

原创逻辑回归算法步骤

结合西瓜书理解

2019-02-15 11:11:08 2810

原创机器学习中L1正则化和L2正则化有什么区别？

1.正则化的作用机器学习中，如果参数过多，模型过于复杂，容易产生过拟合状态，故正则化的提出是为了一定程度上避免过拟合。比如，常见的L1和L2正则化。2.正则化公式L1：L1正则化是在原来的损失函数基础上加上权重参数的绝对值。L2：L2正则化是在原来的损失函数基础上加上权重参数的平方和。它们的直观解释参照红色石头博客https://blog.csdn.n...

2019-02-15 10:08:49 3405

转载西瓜书-逻辑回归算法的使用

1.任务名称：实验-sklearn-user-guide 1.1.112.使用包：sklearn（里面提供了许多机器学习算法的详细教程和案例，需要多多掌握）3.资料地址：http://sklearn.apachecn.org/#/docs/79逻辑回归逻辑回归（Logistic regression 或logit regression），即逻辑模型（英语：Logit model，也...

2019-02-15 09:15:01 1551

原创西瓜书-3.18，3.19理解过程-对数几率回归

3.22到3.23，3.24的推导过程

2019-02-14 14:15:10 524

原创西瓜书-3.14，3.15理解过程-广义线性模型

假设样本的输出标记符合指数趋势的变化，以对数线性回归为例：（3.14）形式上描述的是对于整体的线性规律对于y而言，描述的是：y=3.15也较好理解注：广义线性模型的参数估计方法有 1.加权最小二乘法 2.极大似然估计 ...

2019-02-14 13:53:49 269

原创西瓜书-3.9，3.10理解过程-线性模型

许多人对3.9公式不理解，其实，min右侧只是用矩阵的形式表示了均方差的概念（大家可以结合矩阵的乘法运算举个例子试试），argmin表示右侧式子最小时w取得的值，我们的目标就是求出这个向量w 需要注意的是：实际问题中，我们的样例数可能很少，而属性维度却很大，即造成了求出多个权重向量维度的情况，都能使得均方误差最小化，此时，如何选择最终结果呢？决定因素：学习算法的归纳偏好做法：...

2019-02-14 11:26:25 1155 2

原创西瓜书-3.5，3.6，3.7，3.8推导过程

1.什么是线性模型碰到不熟悉的概念，我们首先从名字本身着手。线性：顾名思义，表示模型是一个线性组合，模型：可以理解成表示实际问题的一个函数（通过输入，可以得到输出-即结果）于是，线性模型有了以下定义： 2.线性回归已知：,目标：试图通过现有数据构建一个线性模型，使其尽可能准确的预测输出标记。解法：最小二乘法（实质就是试图找到一条直线，使得所有样本...

2019-02-14 10:54:57 1465 1

转载 NLTK学习笔记(一):语言处理和Python

NLTK学习笔记(一):语言处理和Python目录目录 nltk资料下载文本和词汇搜索文本计数词汇(去重、定位) 词链表自然语言简单数学统计频率分布细粒度的选择词双连词和词汇搭配词长分布目录nltk资料下载import nltknltk.download()其中,download() 参数默认...

2018-10-15 19:54:45 274

转载 Anaconda在已有python3.6的情况下安装python2.7

现在默认已经安装的是自带python3.6的Anaconda，要安装python2.7在Prompt中打这个命令conda create -n python27 python=2.7这样就建了一个新的名字叫python27的新环境，打完这行代码之后会自动下python2.7。上面这句代码中的“python27”是环境名，可以自己改成任何名字装完之后打这句命令：conda i...

2018-10-10 19:16:37 2671

转载 Anaconda常用命令大全

转载自：https://blog.csdn.net/sunxinyu/article/details/78801534Anaconda常用命令大全使用conda 首先我们将要确认你已经安装好了conda 配置环境下一步我们将通过创建几个环境来展示conda的环境管理功能。使你更加轻松的了解关于环境的一切。我们将学习如何确认你在哪个环境中，以及如何做复制一个环境...

2018-07-23 10:43:37 4117

转载支持向量机原理篇之手撕线性SVM

转载自：https://blog.csdn.net/c406495762/article/details/78072313转载请注明作者和出处： https://zhuanlan.zhihu.com/ml-jack 机器学习知乎专栏：https://zhuanlan.zhihu.com/ml-jack CSDN博客专栏：http://blog.csdn.net/column/details/164...

2018-07-07 16:00:09 1451 3

原创 k近邻法（k-NN）笔记3-第三方库FLANN介绍-下载/编译/测试代码解析

k近邻法（k-NN）笔记3- 第三方实现（PCL点云库kdtree模块）笔者我查阅了较多kdtree的第三方实现，下载调试了github上及其他途径的代码，结合个人喜好和对比结果，推荐PCL点云库kdtree模块。PCL库是大型跨平台开源C++编程库，实现了大量点云相关的通用算法和高效数据结构，其中划分了许多模块，其中有一个核心问题就是建立离散点间的拓扑关系，实现基于邻域关系的快速查找。具体详情...

2018-07-02 15:50:12 5849

原创 k近邻法（k-NN）笔记4-利用FLANN库(k近邻法)解决图像识别问题实例解析

本篇文章所有数据和代码的下载地址：点击此处1.问题描述已知数据集：1934个文件，选取一个文件示例如下：按文件排列顺序，其类别如下0~188 ：表示数字“0”189~386：表示数字“1”387~581:表示数字“2”582~780:表示数字“3”781~966：表示数字“4”967~1153：表示数字“5”1154~1348：表示数字“6”1349~1549：表示数字“7“1550~1729：表...

2018-07-02 15:47:25 2031 1

原创人工智能技术体系-机器学习基础第一讲

学习AI，我们并非初始就针对各种深度学习网络架构，而是应该从机器学习开始，个人在此推荐以下基础学习资料。1.推荐学习资料（1）统计学习方法-李航著此书偏向原理和推导。包括对感知机、k近邻算法、朴素贝叶斯法、决策树、逻辑斯谛回归、支持向量机（SVM）等详细定义和描述。非常契合上篇文章中的技术体系图内容。（2）台大林轩田机器学习视频教程个人无意中发现的，非常喜...

2018-06-08 09:23:40 530

转载人工智能技术体系和应用领域

本来想自己整理资料画图的，网上突然发现一个总结得比较全面的图解，故转存如下。原图来源已经无法查证，若侵犯作者权益，请留言与我。在下图中，我们主要关注于技术体系。...

2018-06-06 21:00:50 1707

原创初学领域知识我们应该如何下手？

记得以前学习的时候，部分人一上来就开始“我们今天学习重点要考的消费者-生产者问题”，“今天学习原码反码补码的转换”、“今天学习协方差矩阵”等等，然后就开始了各种细节的计算过程。问题是，这些东西是干嘛的？用来解决什么问题的？在我们专业中如何应用？回首过去，个人觉得要想学好任何一门知识，需要从以下四步开始。1.了解其发展历史。历史是最好的老师，方法的发现和创造都是为了处理当时实际问题的...

2018-06-06 13:32:06 369

原创人工智能第一讲：发展历史图解

1.什么是人工智能摘自百度：人工智能（Aritificial Intelligence， AI）是计算机科学的一个分支，它企图了解智能的实质，并生产出一种以人类智能相似的方式做出反应的智能机器。人工智能的目的是模拟人的意识、思维的信息过程。目前该领域的研究方向主要包括：机器人、语言识别、图像识别、自然语言处理和专家系统等，用来替代人类实现识别、认知、分类和决策等多种功能。2.人工智...

2018-06-05 14:48:31 11341

原创 ubuntu下针对服务的常用基本操作

1.查看服务列表service --status-all，操作部分截图如下：2.查看某个特定服务比如，我现在要查找vsftpd服务状态：service vsftpd status，截图如下：3.开启和停止某服务service vsftpd startservice vsftpd stopservice vsftpd restart...

2018-05-27 09:14:06 2565

转载 MIDI 文件格式分析

MIDI 文件属于二进制文件,这种文件一般都有如下基本结构: 文件头+数据描述文件头一般包括文件的类型,因为 Midi 文件仅以.mid 为扩展名的就有 0 类和 1 类两种,而大家熟悉的位图文件的格式就更多了,所以才会出现文件头这种东西。而数据描述部份是主体,我们现在来一起分析它的结构:在每个 Midi 文件的开头都有如下内容,它们的十六进制代码为:“4d 54 68

2017-12-08 18:33:39 8870 2

转载从零开始一步步写LSTM

欢迎转载，但请务必注明原文出处及作者信息。@author: huangyongye @creat_date: 2017-03-09 前言: 根据我本人学习 TensorFlow 实现 LSTM 的经历，发现网上虽然也有不少教程，其中很多都是根据官方给出的例子，用多层 LSTM 来实现 PTBModel 语言模型，比如： tensorflow笔记：多层LSTM代码分析

2017-12-05 16:41:39 8598 1