自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(167)
  • 资源 (1)
  • 收藏
  • 关注

转载 怎样读好你的研究生?

编辑推荐:  很早之前就想提笔写这样一篇文章,但时间总不给我一个喘气的机会,趁今天有一点小空写写,一方面算是总结自己对人生、科研、梦想的认识,一方面算是给自己的师弟、师妹,以及我带过的本科生们一些方向上的东西。  出处:科学网辛利鹏很早之前就想提笔写这样一篇文章,但时间总不给我一个喘气的机会,趁今天有一点小空写写,一方面算是总结自己对人生、科研、梦想的认识,一方面算是给自己的师

2015-12-01 15:09:29 821

转载 从Mistral 7B到MoE模型Mixtral 8x7B的全面解析:从原理分析到代码解读

如果把缓冲区比作一座仓库,每存进一个新东西,都会占据相应的位置,而仓库的总容量是固定的,当仓库被装满时,就会把最早放入的东西移除,让新的物品继续进仓,相当于入仓时间更接近当前时间的物品则会留在仓库中,如此,即能在节约资源的同时保留一定长度的序列。但如果是滑动窗口注意力,则在计算最后一个token “the”时,只需计算the本身所对应的query与上文中3个token对应的key的内积(这里说的上文中的3个token 包括the自己在内)

2024-04-24 21:07:36 15

转载 一文通透各种注意力:从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA

通过本博客内之前的文章可知,自回归解码的标准做法是缓存序列中先前标记的键(K)和值(V) 对,从而加快注意力计算速度。不过,多查询注意(Multi-query attention,简称MQA)只使用一个键值头,虽大大加快了解码器推断的速度,但MQA可能导致质量下降,而且仅仅为了更快的推理而训练一个单独的模型可能是不可取的。这是一种多查询注意的泛化,它通过折中(多于一个且少于查询头的数量,比如4个)键值头的数量,使得经过强化训练的GQA以与MQA相当的速度达到接近多头注意力的质量,即速度快 质量高。

2024-04-24 20:45:56 21

转载 智能手环/智能手表如何监测睡眠?--一篇文章带你了解其中的原理

一个完整的睡眠周期可分为两大部分:快速眼动(REM)时期和非快速眼动睡眠期(NREM)。而非快速眼动时期又包括:入睡期、浅睡期、熟睡期、深睡期。睡眠阶段(这也就是为什么很多手环厂家把“快速眼动睡眠监测”作为卖点之一的原因,因为只有具备这个能力,才能说明对睡眠状态完整的监测到了。在睡眠中,人在这几个状态中循环往复,每夜通常有 4~5个睡眠周期,每个周期90~110分钟。即大约在90~100分钟的时间内经历一个有5个不同阶段的周期。

2024-01-28 18:43:27 760

转载 手工微调embedding模型RAG检索能力

本文是一篇关于如何微调embedding的文章,原作者是Wenqi Glantz。主要内容:微调big-large-en开源embedding模型;具体实现代码细节;评测最终的提升效果。

2024-01-14 18:45:11 912 1

转载 为什么Embedding模型在大语言模型中很重要?

随着大型语言模型的发展,以ChatGPT为首,涌现了诸如ChatPDF、BingGPT、NotionAI等多种多样的应用。公众大量地将目光聚焦于生成模型的进展之快,却少有关注支撑许多大型语言模型应用落地的必不可少的Embedding模型。本文将主要介绍为什么Embedding模型在大语言模型中十分重要、当前主流的Embedding训练方法,以及我们关于Embedding模型初步探索的一些思考。

2024-01-14 12:51:32 148

转载 技术干货:如何训练高性能语义表示模型——交叉编码器VS双编码器

这是有原因的:它们在许多场景下是可以互换的。然而,应该注意的是,知识蒸馏(knowledge distillation)的训练程序中,双编码器的学生模型试图模仿交叉编码器的教师模型,既能让模型精简缩小,也能保留原始模型九成以上甚至反超原始模型的效果,这是非常有实用价值的一个方向。:这就是为什么大型的预训练语言模型需要在非常通用的、数据规模庞大的任务上训练(如遮蔽词语言建模)的原因,其内在逻辑是,经大规模通用语料训练得到的语句嵌入表示反映了模型对语言非常广泛的理解,以后可以根据具体的使用情况进行调整。

2024-01-14 12:37:20 102

转载 A Cheat Sheet and Some Recipes For Building Advanced RAG

.

2024-01-12 08:58:26 101

原创 EMP-SSL: TOWARDS SELF-SUPERVISED LEARNING IN ONETRAINING EPOCH

Recently, self-supervised learning (SSL) has achieved tremendous success in learning image representation. Despite the empirical success, most self-supervised learning methods are rather “inefficient” learners, typically taking hundreds of training epochs

2023-07-26 10:25:59 1721

原创 LIMA: Less Is More for Alignment

https://arxiv.org/pdf/2305.11206.pdfhttps://arxiv.org/pdf/2305.11206.pdfLarge language models are trained in two stages: (1) unsupervised pretraining from raw text, to learn general-purpose representations, and (2) large scale instruction tuning and reinfo

2023-05-23 14:09:05 179

原创 CodeT5+: Open Code Large Language Models forCode Understanding and Generation

https://arxiv.org/pdf/2305.07922.pdfhttps://arxiv.org/pdf/2305.07922.pdfHowever, existing code LLMs have two main limitations in terms of architecture and pretraining tasks. First, they often adopt a specific architecture (encoder-only or decoder-only) or

2023-05-18 11:22:41 689

原创 Small Models are Valuable Plug-ins for Large Language Models

https://arxiv.org/pdf/2305.08848.pdfhttps://arxiv.org/pdf/2305.08848.pdfIn this paper, we propose Super In-Context Learning (SuperICL) which allows black-box LLMs to work with locally fine-tuned smaller models, resulting in superior performance on supervis

2023-05-17 14:07:10 169

原创 Dr. LLaMA: Improving Small Language Models in Domain-Specific QAvia Generative Data Augmentation

https://arxiv.org/pdf/2305.07804.pdfhttps://arxiv.org/pdf/2305.07804.pdfOur findings indicate that LLMs effectively refine and diversify existing question-answer pairs, resulting in improved performance of a much smaller model on domain-specific QA dataset

2023-05-17 13:27:50 162 1

原创 CLMLF:A Contrastive Learning and Multi-Layer Fusion Method forMultimodal Sentiment Detection

CLMLF:A Contrastive Learning and Multi-Layer Fusion Method forMultimodal Sentiment Detection

2022-10-31 10:21:34 548 1

转载 领域词(短语挖掘)

短语挖掘

2022-10-19 11:24:33 276

原创 Masked Siamese Networksfor Label-Efficient Learning

MSN

2022-09-13 13:49:14 164

原创 MINILMv2: Multi-Head Self-Attention Relation Distillationfor Compressing Pretrained Transformers

MINILMv2

2022-09-09 09:34:25 244

原创 VICREG: VARIANCE-INVARIANCE-COVARIANCE REGULARIZATIONFOR SELF-SUPERVISED LEARNING

VICREG

2022-09-05 14:01:18 675

原创 A Simple Framework for Contrastive Learning of Visual Representations

SIMCLR

2022-09-05 11:29:47 71

原创 Unsupervised Embedding Learning via Invariant and SpreadingInstance Feature

没有摘要

2022-09-05 11:04:05 220

转载 How can I extract intermediate layer output from loaded CNN model?

How can I extract intermediate layer output from loaded CNN model?

2022-06-28 09:20:33 56

原创 Product1M: TowardsWeakly Supervised Instance-Level Product Retrievalvia Cross-Modal Pretraining

https://arxiv.org/pdf/2107.14572.pdf

2022-06-27 11:28:44 204

原创 Attention-based LSTM for Aspect-level Sentiment Classification

https://aclanthology.org/D16-1058.pdf

2022-06-24 11:03:14 217

原创 Exploring Dual Encoder Architectures for Question Answering

https://arxiv.org/pdf/2204.07120.pdf

2022-06-23 15:52:57 147

转载 项目实操:KBQA常规实现流程与医疗知识图谱问答源码解读

转载地址:项目实操:KBQA常规实现流程与医疗知识图谱问答源码解读"看了文章,不会的还是不会,还是直接实操、直白一点好"这其实是一种对当前碎片化阅读带来的知识获得感不足的直接表现。而且,这也确实是最直接的知识需求。因此,作为“理论与实践相结合”一贯理念的延续,更多实践,本文主要围绕《KG项目实操:KBQA标准实现流程与医疗知识图谱问答源码解读》,结合具体项目,讲讲知识图谱问答。与可视化落地一样,知识图谱问答虽然目前被称作"人工智障"的典型代表,目前也有大量的个人、团队、公

2022-05-31 10:11:05 2059

原创 DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLEDATTENTION

2022-04-28 13:15:52 117

原创 ELECTRA: PRE-TRAINING TEXT ENCODERSAS DISCRIMINATORS RATHER THAN GENERATORS

内容很丰富,原文还有很多分析

2022-04-25 16:35:26 84

原创 DiffCSE: Difference-based Contrastive Learning for SentenceEmbeddings

代码地址:https://github.com/voidism/DiffCSE

2022-04-25 14:04:20 248

原创 Compressing Sentence Representation for Semantic Retrieval viaHomomorphic Projective Distillation

2022-04-22 15:23:56 163

转载 Text2SQL — Part 1: Introduction

Introduction to the conversion of Natural Language to SQLText to SQL is a system that converts natural language statements to SQL queries. This can help in retrieving information stored in a database by expressing commands in natural language.Text2

2022-04-22 10:26:58 625

原创 MixCSE:Unsupervised Sentence Representation via Contrastive Learning with MixingNegatives

代码地址:GitHub - BDBC-KG-NLP/MixCSE_AAAI2022: Code for AAAI 2022 paper Unsupervised Sentence Representation via Contrastive Learning with Mixing Negatives

2022-04-20 19:50:38 570

原创 IS-BERT:An Unsupervised Sentence Embedding Method byMutual Information Maximization

代码地址:https://github.com/yanzhangnlp/IS-BERT

2022-04-20 18:19:11 1333

原创 Automated question generation and question answering from Turkish texts

2022-04-19 13:40:37 170

原创 Leaf: Multiple-Choice Question Generation

2022-04-15 11:21:27 321

原创 A Recurrent BERT-based Model for Question Generation

2022-04-14 14:31:24 688

转载 从 FFM 到 DeepFFM,推荐排序模型到底哪家强?

作者:张俊林发布于:2019 年 4 月 24 日 08:00推荐系统几乎已经深入到人们生活的方方面面,其背后的算法也在不断地迭代更新。FM 和 FFM 模型是最近几年提出的模型,拥有在数据量较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性。新浪微博 AI Lab 资深算法专家张俊林,在 2018 年全球人工智能与机器学习大会 AICon 的演讲中,着重探讨了几种排序模型的发展及原理。AI 前线将本场演讲内容进行了整理,希望能够对读者有所帮助。今天我们主要介绍一下,F

2022-04-14 14:26:08 168

原创 A Recurrent BERT-based Model for Question Generation

2022-04-14 14:25:40 340

原创 Transformer-based End-to-End Question Generation

2022-04-14 14:25:11 125

原创 Question Generation by Transformers

2022-04-13 16:56:14 90

原创 DGST: a Dual-Generator Network for Text Style Transfer

使用 数据集ChineseNlpCorpus/intro.ipynb at master · SophonPlus/ChineseNlpCorpus · GitHub跑了一下,max_len = 32。效果还可以部分效果:in - pos: 外形 精美 , 功能 实用 .out - neg: 酒店设施 很差 , 设施 陈旧 .in - neg: 你 这 包装 也 太 不负责任 了 , 洗发露 溢出 来 那么 多 , 真心 觉得 态度 就 不 <unk...

2022-04-13 08:55:38 224

自然语言语料 大模型语料 金融研报 食品饮料行业 3246篇

自然语言语料 大模型语料 金融研报 食品饮料行业 3246篇

2023-07-26

Understanding DeepLearning

Understanding DeepLearning

2022-12-19

boot2docker v17.03.1-ce

docker

2017-03-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除