RUCblake-CSDN博客

原创预训练在Sparse retrieval的应用

预训练模型在sparse retrieval的应用

2021-12-18 00:04:19 1503

原创 Pre-training Methods in Information Retrieval 阅读笔记(前6部分翻译)

预训练模型在IR领域的研究综述(翻译)

2021-12-10 23:26:29 1957

原创语言模型(LM)介绍及实操

原文地址：https://medium.com/analytics-vidhya/a-comprehensive-guide-to-build-your-own-language-model-in-python-5141b3917d6d文章开头便引用了一句话

2021-11-29 23:13:58 6645

原创 Pytorch几个常见问题(持续更新）

1.使用torch.as_tensor(a)时报错：ValueError: some of the strides of a given numpy array are negative. This is currently not supported, but will be added in future releases. 解决方式: torch.as_tensor(a.copy()...

2019-07-11 15:31:54 1539

原创机器阅读理解模型中attention的使用方式

再BiDAF模型之前，阅读理解模型中使用的attention类型大致分为三类：1、Attention Reader:通过动态 attention 机制从文本中提取相关信息（context vector），再依据该信息给出预测结果。使用这种attention的相关论文有：（1）Bahdanau et al. 2015. 这篇论文算是attention机制的开山之作，针对的是机器翻译...

2019-03-02 15:50:03 1802

原创论文阅读：Machine Comprehension Using MATCH-LSTM and Answer Pointer

这篇论文针对SQuAD数据集的特点提出了一个端到端的网络结构。相比于之前提出的其它阅读理解模型，本模型没有答案的候选集，同时答案不限定在一个词语。本模型综合了作者之前提出的match-lstm和Pointer-net，后者是为了限定答案在问题中提取。模型相比于SQuAD数据集作者在论文中提出的逻辑回归模型要有显著的提升。问题陈述：给定一个passage，用一个d*P的矩阵表示，d表示词向量的维...

2019-02-23 13:47:10 510 2

原创论文阅读：SQuAD: 100,000+ Questions for Machine Comprehension of Text

SQuAD是一个用于机器阅读理解任务的数据集，有超过100000个根据维基百科文章提出的问题，问题的答案根据提出问题的相关文章截取。数据集下载地址https://stanford-qa.com。数据集在536篇文章中提出107785个问题-答案对，与以往的数据集列出候选答案集不同，SQuAD要求在给定篇章中间截取问题的答案，扩大了候选的数量，同时通过一些方法保留了问题和答案的多样性。这种范围限定的...

2019-02-21 17:23:22 1225

原创论文阅读：Neural Ranking Models with Multiple Document Fields

本文探讨一个基于多源文档片段的排序模型，所谓多源文档片段与传统的query对应document的区别在于，document不仅仅包含文档内容和文档标题，还包括一些其他信息，比如相关链接的文档内容、引导点击对应文档的query（clicked query），如何将这些信息都利用上就成为了一个新的问题，文章提出了一个解决该问题的模型。首先，模型的整体思路是将query和document 分别表示成...

2018-08-26 10:46:28 919

原创论文阅读:MIX: Multi-Channel Information Crossing for Text Matching(KDD2018)

今天同样读了一篇文本匹配相关的论文，提出了一个多通道信息融合的方法，文章提出这个模型的动机主要有以下几点：1、在局部信息匹配过程中，为了考虑到单个词语匹配过程中存在的不准确性（比如文中提到的hard work\work hard以及all in\in all这两个词组，同样是颠倒了一下词序，前者语义相近，而后者语义完全不同，这说明匹配过程中不能仅以单个词语为单位），文中引入了unigram,b...

2018-07-28 11:51:16 1391

原创论文阅读：Knowledge Enhanced Hybrid Neural Network for Text Matching(AIII2018)

今天刚读了一篇文本匹配相关的论文，发表于AIII2018，名为Knowledge Enhanced Hybrid Neural Network for Text Matching。顾名思义，也就是说通过引入先验知识的方式来提升文本匹配问题的准确度。这个改进是有一定的意义的，文章中说传统的匹配问题中，对于文本长度超过一定长度的数据匹配结果非常不准确。以QA问题为例，在一些较长的回答中，可能会包含...

2018-07-27 19:55:17 849

原创 LSB算法BMP图片信息隐藏技术 c语言

LSB算法是将信息的每一位隐藏到图片RGB单元的最后一位,由于一位的改变对于颜色影响不大，人的肉眼难以识别，从而达到信息隐藏的效果。具体需要了解BMP文件格式，前54个字节为图片信息，不能修改，所以从第55个字节开始进行隐藏。具体代码为：#include#include#includeint judge(FILE *in,FILE *fil,int &inlen,int &fi

2016-12-01 16:28:02 7989 3

RUCblake的博客