枫林扬-CSDN博客

原创刷题-算法（CodeTop）

快速选择算法的基本思路是：首先选择一个枢轴元素，然后将数组中小于等于枢轴元素的元素放在左侧，大于枢轴元素的元素放在右侧，最后返回枢轴元素的位置。如果数组中有重复元素，则只需找到其中一个即可。这是一个经典的算法问题，可以使用快速选择算法来解决。快速选择算法是一种基于分治思想的算法，其时间复杂度为 O(n)。请注意，你需要找的是数组排序后的第。你必须设计并实现时间复杂度为。个最大的元素，而不是第。

2023-05-18 23:35:29 376

原创 Mask Transfiner for High-Quality Instance Segmentation

Mask Transfiner for High-Quality Instance Segmentation

2022-07-21 11:15:37 2358

原创 Pointer-generator network和Coverage mechanism机制详解

针对本文的翻译和解释有很多，具体的内容不在此处细说。我们这里主要讨论论文中的两个技术，分别是Pointer-generator network和Coverage mechanism。大多数博客对这两个技术进行了描述，但是为什么该技术可以解决论文中提出的问题，并没人进行过说明。我们详细的研究讨论了这两个技术，下面将进一步阐明。Pointer-generator network：如文中所述，该...

2019-11-13 14:55:06 1747 2

转载 Attention 机制 -- Transformer

Attention 机制 – Transformer推荐先看The Illustrated Transformer代码： The Annotated Transformer此外，代码十分推荐看 Bert-pytorch 里面的实现，代码比上述的要更加清晰，可以看完上述代码与 bert 之后再看。1. Scaled Dot-product Attention首先， Q 与 K 进...

2019-11-06 18:59:46 327

转载 Attention 机制 -- 基础篇

Attention 机制 – 基础篇Hard vs Soft [1]Attention首先分为两大类：Hard Attention 与 Soft Attention，两者的区别在于 Hard Attention 关注一个很小的区域，而soft Attention 关注的相对要发散。举个机器翻译方面的例子：我是小明 --> I am XiaoMing对于 Hard At...

2019-11-06 18:58:18 367 1

转载正则化

正则化1. L1 正则化 - 稀疏正则化1-范数: 表示向量元素的绝对值之和。∣∣x∣∣=∑i=1N∣xi∣||x|| =\sum_{i=1}^N |x_i|∣∣x∣∣=i=1∑N∣xi∣正则化项：Ω(θ)=∣∣w∣∣1=∑i∣wi∣目标函数：J~(w;X,y)=α∣∣w∣∣1+J(w;X,y)梯度：∇wJ~(w;X,y)=αsign(w)+∇wJ(w;X,y)正则化项： \O...

2019-11-06 11:39:02 278

转载 Normalization

Normalizationtags: 深度学习0 . 归一化1. 归一化手段**Min-max 归一化：**当有新数据加入时，可能导致max和min的变化，需要重新定义。x∗=x−minmax−min x^* = \frac{x -min } {max - min} x∗=max−minx−min**Zero-mean 归一化：**均值为0，标准差为1的标准正态分布...

2019-11-06 11:13:36 318

XGBoost代表“Extreme Gradient Boosting”，其中“梯度增强”一词源于弗里德曼的论文《Greedy Function Approximation: A Gradient Boosting Machine》。这是一个关于梯度增强树的教程，大部分内容都是基于这些幻灯片，作者是XGBoost的原作者陈天琦。梯度提升树已经被提出有一段时间了，有很多关于这个主题的材料。本教程...

2019-11-05 16:29:00 253

原创 word2vec详解

没时间，先把论文附在这，有需要的可以看下，看完后是一个很大的提升。后期有空补上https://arxiv.org/pdf/1411.2738.pdfhttps://arxiv.org/pdf/1402.3722.pdfword2vec Parameter Learning Explained译文：AbstractMikolov等人的word2vec模型及其应用在近两年引起了...

2019-07-08 18:31:03 397

原创 pytorch实现连续切片，类似于tf.strided_slice()

1.背景：一直使用torch进行开发，torch的友好为开发调试提供了很多方便，但是torch中有些函数没有内置，造成使用的时候必须自己实现，最近就遇到了一个连续切片的问题，问题可以想象我们往Bert中输入的是一个句子对，但是我们还需要第一个句子的表示，因此必须从句子对的表示中取出第一个或者第二个句子的表示，tensorflow中tf.strided_slice()函数有类似的功能，但是我在t...

2019-06-20 11:02:28 3239

原创论文：Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks

一、译文：ABSTRACT自然语言是分层结构的:较小的单元(例如短语)嵌套在较大的单元(例如子句)中。当较大的组件结束时，嵌套在其中的所有较小的组件也必须结束。虽然标准的LSTM体系结构允许不同的神经元在不同的时间尺度上跟踪信息，但它并没有明确地偏向于对成分层次结构建模。本文提出通过对神经元进行排序来增加这种诱导偏差;一个主输入和遗忘门的向量确保当一个给定的神经元被更新时，按照顺序跟随它的...

2019-06-19 14:25:13 2157 1

转载指数移动平均（EMA）的原理及PyTorch实现

在深度学习中，经常会使用EMA（指数移动平均）这个方法对模型的参数做平均，以求提高测试指标并增加模型鲁棒。EMA的定义指数移动平均（Exponential Moving Average）也叫权重移动平均（Weighted Moving Average），是一种给予近期数据更高权重的平均方法。假设我们有n个数据：普通的平均数： EMA：，其中，表示前条的平均值 ()...

2019-06-12 20:04:39 23555 7

原创 Convolutional Spatial Attention Model for Reading Comprehension with Multiple-Choice Questions

译文：Abstract问题具有多个候选项的机器阅读理解(MRC)要求机器阅读给定的文章，并从几个候选项中选择正确答案。在本文中，我们提出了一种新的方法，称为卷积空间注意(CSA)模型，它可以更好地处理带有多个候选项的MRC。该模型能够充分提取文章、问题和候选项之间的相互信息，形成丰富的表征。此外，为了合并各种注意结果，我们建议使用卷积运算来动态总结不同区域大小内的注意值。实验结果表明，所提...

2019-05-29 16:55:58 866

原创论文：Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism

译文：Abstract句子中的关系事实往往是复杂的。不同的关系三元组在一个句子中可能有重叠。根据三元组重叠程度，我们将句子分为三种类型:普通、实体对重叠和单实体重叠。现有的方法主要集中在普通类上，不能准确提取关系三元组。在本文中，我们提出了一种基于复制机制的序列到序列学习的端到端模型，该模型可以从任意类的句子中联合提取关系事实。在解码过程中，我们采用了两种不同的解码策略:使用一个统一的解码...

2019-05-06 11:31:55 2723 3

原创决策树

决策树的目标是从一组样本数据中，根据不同的特征和属性，建立一颗树形的分类结构。对于一个特定的问题，决策树的选择可能有很多种，从中选择最优的决策树是一个NP问题，在实际中我们通常会采用启发式学习的方法去构建一颗满足启发式条件的决策树。常用的决策树算法有ID3、C4.5、CART，下面对这三种算法进行讲述：ID3--最大信息增益对于样本集合D，类别数为K，数据集D的经验熵表示为 ...

2019-04-22 15:38:31 225

原创深度学习过拟合解决方案（pytorch相关方案实现）

描述最近做项目出现过拟合的情况，具体表现为，使用简单模型的时候需要迭代十几个epoch之后才能达到一个理想的结果，并且之后loss趋于稳定，f1也趋于稳定；后来使用复杂的模型后，两三个epoch后能达到更好的结果但是之后随着loss下降f1值反而下降了。这是一个比较明显的的过拟合现象。解决方案对于深度学习网络的过拟合，一般的解决方案有：1.Early stop在模型训练过程中，...

2019-04-16 19:52:27 9060 5

转载深度学习新手易犯错误总结

1. 忘了数据规范化What?在使用神经网络的过程中，非常重要的一点是要考虑好怎样规范化（normalize）你的数据。这一步不能马虎，不正确、仔细完成规范化的话，你的网络将会不能正常工作。因为规范化数据这个重要的步骤在深度学习圈中早已被大家熟知，所以论文中很少提到，因此常会成为初学者的阻碍。How?大体上说，规范化是指从数据中减去平均值，然后再除以标准差的操作。通常这个操作对每个...

2019-04-11 10:10:20 497

转载矩阵求导术

矩阵求导的技术，在统计学、控制论、机器学习等领域有广泛的应用。本文来做个科普，分作两篇，上篇讲标量对矩阵的求导术，下篇讲矩阵对矩阵的求导术。本文使用小写字母xxx表示标量，粗体小写字母x\boldsymbol{x}x表示（列）向量，大写字母XXX表示矩阵。首先来琢磨一下定义，标量fff对矩阵XXX的导数∂f∂X=[∂f∂Xij]\frac{\partial f}{\partial X}=\lef...

2019-03-26 20:24:56 296

原创 MACHINE COMPREHENSION USING MATCH-LSTM AND ANSWER POINTER(MATCH-LSTM)

原文链接：https://arxiv.org/pdf/1608.07905.pdf原文代码：https://github.com/shuohangwang/SeqMatchSeqABSTRACT:机器理解是自然语言处理中的一个重要问题。最近发布的数据集Stanford Question answers dataset (SQuAD)提供了大量由人类通过众包创建的真实问题及其答案。SQu...

2019-03-11 11:42:15 962

原创 Snowball: Extracting Relations from Large Plain-Text Collections

机器学习和深度学习都基于大量的标注数据，对于NLP任务也不例外，由于文本的特殊性，导致很多任务没有好的标注数据集给我们使用，对于某些场景下的任务也不能使用通用标注数据集训练，否则效果也不会很好。实体关系提取是NLP的基础任务，也是许多上层任务的基础。这里介绍一种很久之前就提出的，但是在我们项目中使用效果很好的方案--snowball。由于在通天塔上没有看到翻译，因此为了方便大家学习，也方便自己...

2019-03-06 14:34:45 1673

原创文本匹配模型-BiMPM

在上一篇博客中介绍了ESIM模型（https://blog.csdn.net/zhang2010hao/article/details/87913910），这里介绍一个新的文本匹配模型BiMPM，其在某些任务中的效果超过ESIM模型。论文链接：http://tongtianta.site/paper/1759现在去判断两个句子相似性的深度学校解决方案主要有两种，其一是Simaese net...

2019-02-27 09:27:17 7424 1

原创短文本匹配模型-ESIM

论文来源：TACL 2017论文链接：http://tongtianta.site/paper/11096文本匹配是智能问答（社区问答）中的关键环节，用于判断两个句子的语义是否相似。机器智能问答FAQ中，输入新文本(语音转文本)后，和对话库内已有句子进行匹配，匹配完成后输出对应问题答案。而这里主要研究的就是两个句子如何计算它们之间语义相似度的问题。一、原理Enhanced LST...

2019-02-25 13:52:00 9159 14

原创 word2vec理解及pytorch实现

word2vec理解及pytorch实现欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导...

2019-01-29 16:03:24 7503 2

原创 cw2vec解析及代码实现

序言cw2vec来自于蚂蚁金服的论文：《cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information》，本文主要对论文中的一些关键点进行解析，并讲解pytorch版本实现。一、相关知识词向量算法是自然语言处理领域的基础算法，在序列标注、问答系统和机器翻译等诸多任务中都发挥了重要作用。词向量算法最早由谷歌在...

2019-01-14 20:19:06 2197 5

转载 Transformer：The base of BERT

本文转载自《机器学习算和自然语言处理》Transformer由论文《Attention is All You Need》提出，现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取，其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本，并注释该论文。在本文中，我们将试图把模型简化一点，并逐一介绍里面的核...

2019-01-14 19:27:05 326

原创 cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information

Abstract我们提出了一种新的汉字嵌入学习方法cw2vec。根据我们的观察，笔划层次的信息对于提高汉字单词嵌入的学习是至关重要的。具体来说，我们设计了一种极简主义的方法来利用这些特征，通过使用笔画n-gram来捕捉汉字单词的语义和构词层面的信息。通过定性分析，我们证明了我们的模型能够提取现有方法无法捕获的语义信息。在单词相似性、单词类比、文本分类和命名实体识别任务方面的实验结果表明，该方法...

2019-01-09 09:15:31 1502

转载字符串相似度计算算法

本文参考：https://zhuanlan.zhihu.com/p/36892462，https://zhuanlan.zhihu.com/p/335672681. 字符串子串查找算法KMP给定一个主串（以 S 代替）和模式串（以 P 代替），要求找出 P 在 S 中出现的位置，此即串的模式匹配问题。Knuth-Morris-Pratt 算法（简称 KMP）是解决这一问题的常用算法之一。...

2019-01-06 10:33:40 5567 1

转载 BiLSTM-CRF-3

2.3 CRF损失函数CRF损失函数中包含了真实标签序列得分和所有可能标签序列的总得分，正常情况下，真实标签序列得分在所有可能标签序列得分中是最高的。比如，假设数据集中的标签如下所示：LabelIndexB-Person0I-Person1B-Organization2I-Organization3O4START5END6...

2018-12-28 09:54:41 768

转载 BILSTM-CRF-4

BILSTM-CRF2.6 推断新句子的标签参考声明：本系列转载自createmomo大神的博客https://createmomo.github.io，并在其中加入一些新的内容，如有侵权请及时联系。2.6 推断新句子的标签在前面的部分中，我们学习了BiLSTM-CRF模型的结构和CRF损失函数的细节。您可以通过各种开源框架（Keras，Chainer，TensorFlow等）实现您自己的B...

2018-12-27 20:07:33 386

转载 BILSTM-CRF-2

BILSTM-CRF2 CRF层2.1 Emission score2.2 Transition score下一节2.3 CRF损失功能2.4 真实路径得分2.5 所有可能路径的得分参考声明：本系列转载自createmomo大神的博客https://createmomo.github.io，并在其中加入一些新的内容，如有侵权请及时联系。在上一节中，我们知道CRF层可以从训练数据集中学习一些约束...

2018-12-27 16:06:30 973

转载 BILSTM-CRF-1

BILSTM-CRF目录1 简介1.1 在我们开始前1.2 BILSTM-CRF模型1.3如果我们没有CRF层怎么办？1.4 CRF层可以从训练数据中学习约束下一节参考声明：本系列转载自createmomo大神的博客https://createmomo.github.io，并在其中加入一些新的内容，如有侵权请及时联系。目录本系列将包括：简介：介绍命名实体识别（NER）中的相关概念，一些解...

2018-12-27 15:15:49 2513

原创准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1

准确率、精确率、召回率、F1是衡量机器学习结果的重要指标。下面我们用经典的表格来说明他们之间的关系和区别。 Positive（预测到的正例） Negative（预测到的反例） True（预测结果为真） TP（1） TN（2） False（预测结果为假） ...

2018-11-27 09:45:29 1827

转载 tensorflow中有向图（计算图、Graph）、上下文环境（Session）和执行流程

转自：https://blog.csdn.net/dcrmg/article/details/79028003计算图（Graph）Tensorflow是基于图(Graph)的计算框架，图的节点由事先定义的运算(操作、Operation)构成，图的各个节点之间由张量（tensor）来链接，Tensorflow的计算过程就是张量（tensor）在节点之间从前到后的流动传输过程，如下图示例：...

2018-11-20 10:37:55 1367

转载 Tensorflow中与梯度相关的计算与函数

转自：https://blog.csdn.net/mieleizhi0522/article/details/80421030摘要：本系列主要对tf的一些常用概念与方法进行描述。本文主要针对tensorflow的模型训练Training与测试Testing等相关函数进行讲解。为‘Tensorflow一些常用基本概念与函数’系列之四。1、序言本文所讲的内容主要为以下列表中相关函数。函数t...

2018-11-20 09:55:54 1092

原创 Attention Is All You Need

Abstract: 现在主要的序列转换模型是基于复杂循环或卷积神经网络的编码器和解码器。性能最好的模型也是通过注意机制连接编码器和解码器。我们提出了一种新的简单的网络结构——转换器，完全基于注意机制，完全不需要递归和卷积。在两个机器翻译任务上的实验表明，这些模型在质量上是优越的，同时具有更高的并行性，并且需要更少的训练时间。我们的模型在2014年的WMT英德语翻译任务中达到28.4 BLEU，比现...

2018-11-14 19:46:49 200

原创 Deep contextualized word representations（ELMO）

最近在看ELMO以及BERT，为了更好的理解特将相关论文翻译后以供使用。概要：我们引入了一种新型的深层语境化的词表示，它既模拟了复杂的词特征的使用(例如，语法和语义)，也模拟了这些词在不同语言语境中的使用(即，一词多义)。我们的词向量是一个深度双向语言模型(biLM)内部状态的学习函数，该模型是在大型文本语料库上预训练的。我们发现，这些表示可以很容易地添加到现有的模型中，并显著地改善6个具有挑...

2018-10-26 19:00:44 1686

原创推荐系统实践代码实现

import randomimport mathfrom operator import itemgetterdef Splitdata(data, M, k, seed): test = dict() train = dict() random.seed(seed) for user, item in data: rdm = random....

2018-06-07 17:38:08 6090 14

原创 linux中shell变量$#,$@...等变量含义

linux中shell变量$#,$@,$0,$1,$2的含义解释: 变量说明: $$：Shell本身的PID（ProcessID） $!：Shell最后运行的后台Process的PID $?：最后运行的命令的结束代码（返回值） $-：使用Set命令设定的Flag一览 $*：所有参数列表。如"$*"用「"」括起来的情况、以"$1 $2 … $n"的形式输出所有参数。 $@

2017-12-26 10:07:44 633

17flowers dataset for computer vision

空空如也