AI蜗牛之家-CSDN博客

转载 Reading Comprehension必读paper汇总

文章目录Must-read papers on Machine Reading Comprehension.Model ArchitectureUtilizing Extenal KnolwedgeExplorationOpen Domain Question AnsweringDatasets文章转自thunlp/RCPapersMust-read papers on Machine R...

2019-02-22 11:32:17 4315

原创多模态方法(更新中)

Semantic Representation for Dialogue ModelingPCL: Peer-Contrastive Learning with Diverse Augmentations for Unsupervised Sentence Embeddings深度网络的公理归因 Axiomatic Attribution for Deep NetworksNLU模型的捷径学习行为MoCo: Momentum Contrast 无监督学习深度互学习-Deep Mutual Lear

2023-05-23 08:31:01 699

原创 mac安装套件

最近需要配置一个新到手的mac，在原来的一些常用工具基础上，也发现了极其好用的几个工具，手记下来~ 持续更新。

2023-04-01 14:02:45 184 1

原创深度学习被你忽略的细节系列篇——Softmax、LogSumExp和Sigmoid

平时我们基本用pytorch或者tensorflow框架时，基本对特别底层的函数实现关注不多，仅限于知道公式的原理。但是很多大佬往往自己会实现一些源码，在看这些源码时，经常出现各种有点难以理解的代码，本来很简单的东西，莫名其妙的各种转换，化简完之后可能感觉是一样的，这么费劲周折的折腾啥？殊不知还是对底层的实现原理了解少了，虽然有些源码不需要我们从底层造轮子(完全从底层造轮子也影响效率)，但是能理解其原理在我们debug以及看一些源码时不至于太多疑惑(毕竟国外很多大佬都喜欢实现一些底层utils)。

2023-03-02 15:58:11 686

原创排序之损失函数List-wise loss(系列3)

在pointwise 中，我们将每一个作为一个训练样本来训练一个分类模型。这种方法没有考虑文档之间的顺序关系；而在pariwise 方法中考虑了同一个query 下的任意两个文档的相关性，但同样有上面已经讲过的缺点；在listwise 中，我们将一个作为一个样本来训练。论文中还提出了概率分布的方法来计算listwise 的损失函数。并提出了permutation probability 和top one probability 两种方法。下面会详述这两种方法。

2023-03-01 19:17:20 2558 1

原创 AI顶会accepted papers list

为方便相关paper调研，对相关顶会文章列表和下载地址汇总，会议包括：AAAI、ACL、IJCAI、ICLR、COLING、SIGIR、WSDM、WWW、ICML、KDD、NeurIPS、CVPR、ECCV、ACM MM

2023-02-28 19:57:06 1589

原创数据分析之pandas(进阶)

合并pd.mergepd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)left: 拼接的左侧DataFrame对象right:

2022-12-03 17:24:25 782

原创检索场景预训练

语言模型的假设是：p(R=1|q,d)≈p(q|d,R=1)，文档与查询相关的概率约等于在文档相关的前提下，用户输入q的概率。小编认为，其实原理其实跟TF-IDF差不多，计算query和doc的相似度。通过查询似然找出两个set，通过加入对比loss，以及Masked Language Model (MLM) 的loss进行训练，这样可以训练出一个跟BERT等价但是更适合检索场景的预训练模型。

2022-11-03 15:35:25 326

原创排序之损失函数pair-wise loss(系列2)

Ranking Loss被用于很多领域和神经网络任务中（如 Siamese Nets 或 Triplet Nets），这也是它为什么拥有 Contrastive Loss、Margin Loss、Hinge Loss 或 Triplet Loss 等这么多名字的原因。1.Ranking Loss 函数：度量学习像 Cross-Entropy Loss 或 Mean Squear Error Loss 这些 Loss 函数，它们的目的是为了直接预测一个标签或一个值，而 Ranking Loss 的目的是为

2021-08-22 23:36:08 7800

原创排序之指标集锦(系列1)

一、MAP(Mean Average Precision)：单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高)，MAP就可能越高。如果系统没有返回相关文档，则准确率默认为0。只有1和0，1代表相关，0代表不相关。例如：假设有两个主题，主题1有4个相关网页，主题2有5个相关网页。某系统对于主题1检索出4个相关网页，其rank分别为1, 2

2021-08-22 22:56:57 995

原创 Protobuf从入门到“顺手”

文章目录1.概述1.1.proto格式1.2.proto编译2.支持类型2.1.标量数值类型2.2.枚举2.3.内置封装类型2.3.1. Any类型2.3.2. Oneof 类型2.3.3.Map 映射类型2.4.类型的引用3.python中的一些常用用法3.1.json与message转换4.更多详情和大神帖参考很多项目采用Protobuf进行消息的通讯，还有基于Protobuf的微服务框架GRPC，最近在使用一些框架的时候，顺手梳理了一下protobuf的一些语言特性和一些实用技巧。全文基于最新pr

2021-08-08 23:11:42 862

原创来自鹅厂的面试经验(干货)

文章目录1.面试准备1.1.简历准备1.2.项目梳理1.3.基础知识1.4.算法编程2.面试经验最近各大厂紧锣密鼓地开始了**春季招聘**和**暑期实习**。你是不是也正在准备，但是面试却没有经验，不知道怎么准备呢？蜗牛小编也收到了一些师弟师妹的咨询，我也翻了一下我自己的面试记录和整理的相关资料，这里站在面试者和面试官的角度稍作整理分享给大家，文中最后也给大家提供了一些”**干货资料**“。这里强调一下：所有的分享是建立如何驱动自己更高效地学习知识，更好地表现自己，而不是找出所谓”无中生有“的纯

2021-03-07 12:34:05 860

原创数据分析之pandas

数据导入pd.read_csv(filename)：从CSV文件导入数据pd.read_table(filename)：从限定分隔符的文本文件导入数据pd.read_excel(filename)：从Excel文件导入数据pd.read_sql(query, connection_object)：从SQL表/库导入数据pd.read_json(json_string)：从JSON格式的字符串导入数据pd.read_html(url)：解析URL、字符串或者HTML文件pd.read_clip

2021-02-08 17:52:51 422

原创 vscode必备配置

目录1.自动化注释工具2.代码格式化与错误检查1.自动化注释工具我用过的比较不错的注释工具koroFileHeader头模板的配置：链接安装后默认快捷键文件头部注释：window：ctrl+alt+i, mac：ctrl+cmd+i函数注释：window：ctrl+alt+t, mac：ctrl+cmd+t2.代码格式化与错误检查推荐使用flake8和yapf分别是用来错误检查和代码格式化参考连接：VS Code | 配置 flake8 和 yapf...

2020-08-30 11:13:25 983

转载 python魔术方法

文章目录1.构造和初始化2.属性访问控制3.描述器对象4.构造自定义容器(Container)5.上下文管理6.对象的序列化7.运算符相关的魔术方法7.1比较运算符7.2.一元运算符和函数7.3.算术运算符7.4.反算术运算符7.5.增量赋值7.6.类型转化8.其他魔术方法9.Python3中的差异看到一篇很不错的文章，之前自己也想整理一下来着，转载该文在Python中，所有以__双下划线包起来的方法，都统称为"魔术方法"。比如我们接触最多的__init__.有些魔术方法,我们可能以后一辈子都不会

2020-07-19 23:04:23 331

原创 c++ tensorflow调用与BERT实战

先贴几个站点，有时间再归纳一下，关于bert的实战，后面也会整理出来reference使用C++调用TensorFlow模型简单说明C++运行TensorFlow模型tensorflow/tensorflow

2020-04-14 14:34:37 1779

原创 Envy（最大值前后缀 +双指针 + 二分）

Envy时间限制:1 Sec内存限制:128 MB提交:312解决:63[提交][状态][讨论版]题目描述今年的 ACM 比赛推出了一个赛后的娱乐活动，所有参赛选手排成一排玩击鼓传花，关于击鼓传花的玩法是这样的：数人或几十人围成圆圈坐下，其中一人拿花（或一小物件）；另有一人背着大家或蒙眼击鼓（桌子、黑板或其他能发出声音的物体），鼓响时众人开始依次传花，...

2020-01-02 10:57:59 1169

原创 docker常用集锦

1.关于dockerdocker是什么？为什么要使用docker？docker的基本原理又是什么？常用命令又有哪些？这些相关概念已经很多大佬整理出来了，具体参见：Docker 入门教程概念+特点+常用命令这可能是最为详细的Docker入门总结原理2.常用命令Notice :下面介绍到的命令中containerID如果不特殊说明，一般都可以用containeName来代替...

2019-12-22 10:24:27 480

原创 NLP之句子相似度之入门篇

文章目录1.基于统计的方法1.1.编辑距离计算1.2.杰卡德系数计算1.3.TF 计算1.4.TFIDF 计算1.5.BM252.基于深度学习的方法2.1.Word2Vec 计算6.参考文献如下在师兄的博文基础上修改：静觅 » 自然语言处理中句子相似度计算的几种方法1.基于统计的方法1.1.编辑距离计算编辑距离，英文叫做 Edit Distance，又称 Levenshtein 距离，是指...

2019-05-10 17:26:46 6446 2

原创 pycharm 基础配置

pycharm是一个相当不错的IDE，但是每次安装新环境之后就比较难受，各种设置需要重新查一遍，这里就不定时整理一点相关设置，也是根据自己的需求整理的，以免下次浪费时间文章目录1.import 红线错误2.设置字体大小1.import 红线错误在用pycharm打开一个项目的时候，很多时候会出现一些红色波浪线，提示错误，但是其实运行是没有问题的，只不过pycharm在检测import的路...

2019-05-10 17:25:31 1370

原创 capsules系列Investigating Capsule Networks with Dynamic Routing for Text Classification

文章目录1.背景介绍2.模型特色3.模型结构4.小结参考1.背景介绍早期对文本建模的成果，已经在文本分类方面取得了一些成功，使用简单的词袋子分类器（Joachims，1998；McCallum等，1998），意味着理解独立单词或N-gram词组的含义是研究复杂模型的必要步骤。因此，这也不奇怪出现了分布式的词语表示法，也就是词嵌入/词向量，已经得到NLP社区的高度关注，解决了在基本层面上应该对什...

2019-04-08 21:29:11 2061 1

原创优化器算法optimizer

文章目录1.相关背景1.1.指数加权移动平均(Exponential Weighted Moving Average)1.1.1.演化与概述1.1.2.公式理解1.1.3.EMA 偏差修正1.1.4.EMA 在 Momentum 优化算法中应用的理解2.递归下降算法2.1.BGD MBGD SGD2.2.Momentum2.3.Nesterov Accelerated Gradient2.4 Ad...

2019-03-27 16:02:04 2327

原创 r-net:machine reading comprehension with self-matching networks

我觉得这篇文章的文笔真的有点不敢恭维，首先向量矩阵的维度不说清楚还能脑补，但是这边前后不同层之间用一样的变量名是什么意思啊(这么说出来会不会被MSRA鄙视，以后的简历都过不了了，ORZ)，本文中尽量避免这种情况。嗯嗯，文章还是不错的^@^文章下载地址：这里先总结下几个特点：同时使用了char-embedding和word-embedding，不同的是char-embedding是通过将...

2019-03-01 12:40:00 1135

原创 capsule系列之Dynamic Routing Between Capsules

文章目录1.背景2.什么是capsule3.capsule原理和结构4.CapsNet模型介绍5.源码解析6.实验结果7.capsule相关论文参考文献capsule在出现之后就除了Hinton老爷子的两个版本之外，还有例如Investigating Capsule Networks with Dynamic Routing for Text Classification这样的新作，可见cap...

2019-02-26 22:38:23 3263

原创 QANet: Combining Local Convolution With Global Self-Attention For Reading Comprehension

文章目录1.概述2.模型结构2.1.Input embedding layer2.2 Embedding Encoder Layer2.3.Context-Query Attention Layer2.4.Model Encoder Layer2.5 Output layer3.数据增强4.源码及训练参考文献博主标记版paper下载地址：zsweet github关于paper，在进入正题之...

2019-02-25 16:15:32 1304

原创 paper:Hierarchical Attention Networks for Document Classification

又是一篇很久之前用到的模型，今天回来整理，发现分类的模型都好简单啊，然后看到模型基于GRU，总觉得有点不想看，因为带时间序列的训练起来太慢了，最进没怎么关注分类的新模型，不过我觉得CNN和transformer结构(self attention)的搭配应该是分类问题的趋势，不过这篇文章后面的attention效果可视化还是不错的~文章目录1.模型概述2.模型详情2.1.Word Encode...

2019-02-24 15:17:27 841

原创 Bi-Direction attention flow for machine reading(原理篇)

首先，我们的关注层不用于将上下文段落总结为固定大小的向量。而是针对每个时间步计算注意力，并且每个时间步的注意向量以及来自前一层的表示都被允许流向后续建模层。这减少了由早期汇总造成的信息损失。其次，我们使用无记忆的注意机制。也就是说，虽然我们像Bahdanauet al一样迭代计算时间的注意力。（2015），每个时间步的注意力只是当前时间步的查询和上下文段的函数，并不直接取决于前一时间步的注意...

2019-02-21 15:37:53 1527 4

原创 Highway Networks

文章目录1.前言2.highway network实验结果对比resnet参考资料1.前言目前的神经网络普遍采用反向传播(BP算法)方法来计算梯度并更新w和b参数(其实就是导数的链式法则，就是有很多乘法会连接在一起)，由于深层网络中层数很多，如果每层都使用类似sigmoid这样的函数，它们的导数都小于1，这样在反向传播中可能会导致最初几层的w和b参数更新的幅度非常小或者几乎不更新，也就是我们...

2019-02-20 11:10:44 1707

原创 machine comprehension using match-lstm and answer pointer

又是一篇之前读的paper，最近把之前读的paper整理整理…文章目录前言1.模型概述2.LSTM preprocessing Layer3.match-LSTM4.Answer Pointer Layer4.1.Sequence Model今天的主角又是在斯坦福的SQuAD的基础上，虽然是一篇比较早的文章，但是该文章是第一个在SQuAD上实现的端到端的神经网络(end-end)，对于入门...

2019-02-18 18:46:27 602

原创 tensorflow之dropout

参考文章深度学习中Dropout原理解析墙裂推荐理解dropout深度学习（二十二）Dropout浅层理解与实现tensorflow1.6 的实现代码：def dropout(x, keep_prob, noise_shape=None, seed=None, name=None): # pylint: disable=invalid-name &amp;amp;amp;quot;&amp;amp;amp;quot;&amp;amp;a

2019-02-13 15:30:47 1187

原创 tensorflow之debug和可视化

文章目录1.实用小技巧之InteractiveSession2.logging日志3.tensorboard(summary)3.1.tensorboard 概述3.2.graph3.3.scalar用法2.3.distributions &amp;amp;amp;amp;amp;amp;amp;amp; histogram2.3.1.distributions2.3.2.HISTOGRAMS2.3.2.示例代码2.4.tensorboard 小结参...

2019-02-12 21:08:47 1982

原创 tensorflow 填坑笔记(持续更新~)

global_step全局stepglobal_step在滑动平均、优化器、指数衰减学习率等方面都有用到，这个变量的实际意义非常好理解：代表全局步数，比如在多少步该进行什么操作，现在神经网络训练到多少轮等等，类似于一个钟表。global_step经常在滑动平均，学习速率变化的时候需要用到，这个参数在tf.train.GradientDescentOptimizer(learning_rate)...

2019-02-11 12:28:21 594 4

原创深度模型之激活函数以及Initializer

文章目录1.为什么要激活函数2.常见激活函数2.1.sigmoid激活函数2.2.tanh激活函数2.3.Relu激活函数2.4.PRelu2.4.1.RRelu2.4.2.Leaky ReLU2.5.elu激活函数2.6.Gelu激活函数2.7.Maxout 激活函数1.为什么要激活函数举个例子，首先我们有这个需求，就是二分类问题，如我要将下面的三角形和圆形点进行正确的分类，如下图：利用我...

2019-01-25 22:21:40 1531 4

原创深度模型训练之learning rate

文章目录1.基于指数型的衰减1.1.exponential_decay1.2.piecewise_constant1.3.polynomial_decay1.4.natural_exp_decay1.5.inverse_time_decay2.基于余弦的衰减2.1.cosine_decay2.2.cosine_decay_restarts2.3.linear_cosine_decay2.4.noi...

2019-01-18 22:20:13 3205

原创 tensorflow之RNNCell及自定义Cell

我们在仿真一些论文的时候经常会遇到一些模型，对RNN或者LSTM进行了少许的修改，或者自己定义了一种RNN的结构等情况，比如前面介绍的几篇memory networks、qausi RNN 的论文，往往都需要按照自己定义的方法来构造RNN网络。所以本篇博客就主要总结一下RNNcell的用法以及如何按照自己的需求自定义RNNCell。tf中RNNCell的用法介绍我们直接从源码的层面来看一看tf...

2019-01-17 15:01:27 6058 11

原创 BERT：Bidirectional Encoder Representations from Transformers

paperauthorquestions:Why 15% is masked rather all of the word like word2wec?Why get_pooled_output layer just use the first tokens’ output?run_pretraining line 284 : why add 1e-5 to the reduce(lab...

2019-01-15 11:32:56 3222 1

原创 paper:Attention Is All You Need（源码篇）

继上篇paper:Attention Is All You Need之后，我们针对official提供的源码进行解析。本次源码分析针对的是tensorflow/models，同时还有一份带有详细注释的源码，在小博的github里面。(好久没整理这么详细的帖子了。。。)本博主题思路参考：Attention Is All You Need(注意力模型），并在此基础上做了修改，并增加了相关源码解析~...

2019-01-12 00:16:32 2133 6

原创 DL中loss之交叉熵

最近整理常见的loss函数，为了理解深刻，在对比之前先了解各种loss函数的原理在介绍交叉熵之前，先一步一步来进行剖析1.原理剖析1.1.信息量首先是信息量。假设我们听到了两件事，分别如下：事件A：巴西队进入了2018世界杯决赛圈。事件B：中国队进入了2018世界杯决赛圈。仅凭直觉来说，显而易见事件B的信息量比事件A的信息量要大。究其原因，是因为事件A发生的概率很大，事件B发生的概率...

2019-01-10 19:33:22 798 3

原创 paper:Attention Is All You Need（模型篇）

1.为什么是attention正如论文的题目所说的，Transformer中抛弃了传统的CNN和RNN，整个网络结构完全是由Attention机制组成。更准确地讲，Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建，作者的实验是通过搭...

2019-01-09 22:24:51 1149

原创 linux常用命令

1.查看存储空间df可以查看一级文件夹大小、使用比例、档案系统及其挂入点，但对文件却无能为力。du可以查看文件及文件夹的大小,查看目录或文件所占用磁盘空间的大小。常用选项组合为：du -shdf -hl 显示目前所有文件系统的可用空间及使用情形df -T 查看根目录磁盘占用 (跟上面的有点相似)du -sh * 查看文件夹下所有文件的大小du -sh : 查看当前目录总共占的容量。...

2019-01-09 15:03:50 528

Redis-x64-3.2.100.msi

STL整理总结

坦克大战游戏，支持声音，配置等

C++ API

空空如也