- 博客(507)
- 资源 (28)
- 收藏
- 关注
原创 从零实现深度学习框架【实现自己的PyTorch】
本着“凡我不能创造的,我就不能理解”的思想,此系列文章会基于纯Python以及NumPy从零创建自己的深度学习框架,该框架类似PyTorch能实现自动求导。
2021-12-19 15:38:18 4633
原创 [论文笔记]Root Mean Square Layer Normalization
⭐ 作者在层归一化的基础上移除掉均值相关项,得到了RMSNorm。然后通过实现证明其效果还不错。
2024-04-17 19:43:52 870
原创 [论文翻译]GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
⭐ 本篇工作提出分组查询注意力,简单来说就是在MQA的基础上增加了key-value头的数量,经过实验证明取得了不错的效果。
2024-04-13 23:20:49 595
原创 [论文翻译]GLU Variants Improve Transformer
⭐ 作者用流行的激活函数(Swish,GeLU和ReLU等)替换GLU中的激活函数,得到了一个困惑度比较好的GLU变体——SwiGLU,但作者也无法解释效果好的原因。
2024-04-13 21:39:12 609
原创 [论文笔记]ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING(下)
该论文提出了旋转位置编码,是后续很多大模型默认的编码方式。
2024-04-13 19:59:04 243
原创 [论文笔记]ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING(上)
该论文提出了旋转位置编码,是后续很多大模型默认的编码方式。
2024-04-13 19:56:35 100
原创 [论文笔记]LLaMA: Open and Efficient Foundation Language Models
⭐ 作者提出了LLaMMA系列模型,可以说天不生LLaMMA,开源大模型万古如黑夜。比较详细的介绍了模型实现细节,重要的是开源了实现代码。除了提供了在模型实现优化上的思路外,还给出了提高训练(推理)效率的方法。
2024-03-14 20:33:11 603
原创 [论文笔记]DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning
本篇论教你如何训练一个强化学习模型来斗地主
2024-03-11 19:00:31 403
原创 Transformer从菜鸟到新手(一)
从本文开始回顾一下Transformer的原理与实现细节,包括分词算法BPE的实现。最终利用从零实现的Transformer模型进行英中翻译。
2024-01-02 21:30:00 1106
原创 RE2文本匹配调优实战
在的最后,博主说过会结合词向量以及其他技巧来对效果进行调优,本篇文章对整个过程进行详细记录。其他文本匹配系列实战后续也会进行类似的调优,方法是一样的,不再赘述。本文所用到的词向量可以在文末找到,免费提供下载。完整代码在文末。
2023-12-11 19:11:29 1184
原创 [论文笔记]MatchPyramid
⭐ 作者将文本匹配看作是图像识别任务。将两端文本单词之间的匹配矩阵当成是图像,然后应用分层卷积网络捕获丰富的匹配模式。
2023-11-23 20:00:00 1072
原创 [论文笔记]BGE
⭐ 作者发布了C-Pack,一套推进中文文本嵌入领域的资源包。包含中文文本嵌入基准C-MTEB、大规模文本嵌入数据集C-MTP和多个规模的嵌入模型BGE。同时还发布了完整的训练方法。
2023-10-31 22:18:41 956
原创 [论文笔记]RetroMAE
⭐ 作者提出了一种掩码自编码框架RetroMAE,用于预训练面向检索的语言模型:输入句子在编码器和解码器中被随机遮盖,然后将句子嵌入与解码器的遮盖输入拼接起来,重构原始输入。
2023-10-31 21:48:28 803
原创 [论文笔记]GTE
⭐ 本篇工作提出了一个两阶段对比学习方法,通过一个改进的对比学习目标,在固定的批次大小下能够有效地扩大负样本池,在无监督预训练阶段采用在网上公开的数据构建出大量的弱监督文本对,在有监督微调阶段也从大量任务和领域中收集数据进行微调,结合这两个阶段训练了一个统一的文本嵌入模型。
2023-10-28 09:09:47 1582
原创 [论文笔记]E5
⭐ 作者提出了E5模型,以带弱监督信号的对比学习方式训练。提出了一种新的数据集CCPairs,在这个新的数据集上E5得到了不错的性能。
2023-10-28 09:08:22 735
原创 [论文笔记]MobileBERT
⭐ 作者提出了MobileBERT,是一种任务无关的BERT变体,仅需简单的微调就能广泛地应用于不同的下游任务。MobileBERT被设计成和BERT-large一样深,是一种深而窄的结构,通过采用瓶颈结构与在自注意力和前馈网络之间的平衡来窄化每层。提出了替换层归一化和改用relu激活来提升模型的速度,但会有一定程度上(一个点左右)的性能下降。
2023-10-23 20:00:00 409
原创 [论文笔记]NEZHA
⭐ 本篇工作,作者主要提出了功能相对位置编码技术,可以使模型具有更强的扩展性,当遇到比训练中序列长度更长的序列时,依然可以发挥作用。
2023-10-22 22:29:15 623 3
原创 [论文笔记]GPT-2
⭐ 作者提出了GPT-2,针对GPT-1进行了一些修改,基于无监督训练。使用Pre-LN的层归一化方法;在最后一个自注意力块后添加了一个额外的层归一化;修改了残差层权重缩放因子;扩充了词汇表;将上下文大小从512扩充到了1024;使用了更大的批次512。作者开始注意到零样本设定下的表现,观察到语言模型的容量对性能至关重要。给最终性能超群的175B参数GPT-3一个启发。
2023-10-21 10:00:01 608
原创 [论文笔记]GPT-1
⭐ 作者提出了GPT(1代),一种基于大量无标签文本数据上进行语言建模任务预训练,然后通过进行与任务匹配的较小修改来进行微调,取得了不错的效果。
2023-10-20 20:00:00 793
英文-中文机器翻译数据集
2022-07-21
bert_sentence_classification.7z
2021-09-25
词性标注traindata.rar
2020-08-29
RocketMQ实战与原理解析【清晰版】
2018-11-03
Java网络编程第4版英文版
2018-07-03
Dubbo与Zookeeper、SpringMVC整合和使用
2017-05-13
安卓实现选择联系人
2014-09-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人