Q同学的nlp笔记-CSDN博客

原创高质量数据is all you need：Textbooks Are All You Need论文笔记

深度学习领域对缩放定律（Scaling Law）的探索导致了现有大语言模型（LLM）性能的迅速提升。本文探索了另一个可以改进的方向：数据的质量。Eldan 和 Li 最近在 TinyStories（一个高质量的合成数据集，用于教导神经网络英语）上的工作表明，高质量数据可以显著改变缩放定律的形态，潜在地使得可以用更精简的训练/模型来达到大规模模型的性能。本文展示了高质量数据甚至可以改进大型语言模型 (LLMs) 的最先进水平，同时大幅减小数据集规模和训练计算。

2024-04-25 17:22:45 525

原创 Llama 3问世：迄今为止的最强开源大语言模型

最近Meta发布了其研发的第三代开源大语言模型Llama 3，并宣称Llama 3为迄今为止的最强开源大语言模型，本文对其进行简要学习记录。。

2024-04-24 10:29:49 241

原创非root用户安装git lfs（git大文件）命令记录

最近在看LLAMA2的模型，想直接从Huggingface下载模型到本地，但是却发现服务器上没有安装git lfs命令。查询了一些资料完成了非root用户安装git lfs命令的操作，特此记录。

2024-03-25 17:52:57 484

原创论文笔记：Llama 2: Open Foundation and Fine-Tuned Chat Models

Llama 2 是之前广受欢迎的开源大型语言模型 LLaMA 的新版本，该模型已公开发布，可用于研究和商业用途。本文记录了阅读该论文的一些关键笔记。

2024-03-18 15:42:10 1225

原创论文笔记：Efﬁcient Training of Language Models to Fill in the Middle

本文展示了一种有效的方法，使自回归语言模型能够学习填充文本中的空白部分。这一方法基于一个简单的数据集转换策略，即将文档中部的文本移至末尾。作者通过大量研究证明，这种转换对于原始的从左至右生成模型能力没有负面影响，这一点通过多种规模的困惑度和抽样评估得到了验证。鉴于训练模型以填补中间部分的有效性、简易性和高效性，作者建议未来的自回归（AR）语言模型应默认采用此种训练方法。文章还对数据转换频率、转换结构和选择填充跨度的方法等关键超参数进行了详细剖析，并提出了一套强有力的默认设置和最佳实践指南。

2024-03-09 16:20:37 1183

原创从生成到调试：大型语言模型的自我演进之旅

代码生成一直是一个长期存在的挑战，应用范围广泛，包括从自然语言到代码的合成、示例编程以及代码翻译。近期的大型语言模型在这一领域取得了显著的进步，但对于复杂的编程任务，一次性生成正确的代码依然具有挑战性。因此，一些研究通过设计程序修复方法来改善代码生成的性能。即使是人类程序员，第一次尝试写出的代码也不一定准确。与其完全放弃错误代码，人们通常会检查代码并调查执行结果，然后进行更改以解决实现错误。因此，先前的工作提出了深度学习技术来修复预测的代码。

2024-03-08 18:27:06 1064

原创 Self-evolve——基于大语言模型的代码演进框架

本研究提出了一个名为Self-evolve的框架，它旨在通过大型语言模型（LLMs）实现代码生成的进化。这一框架在Text-to-Code任务中引入了一种全新的处理流程，以提高LLMs在代码生成方面的效率和准确性。在之前，尽管LLMs在代码生成方面已取得显著成效，但它们仍然面临着一次性准确生成代码的挑战。Self-evolve通过其独特的双阶段流程，有效地解决了这一问题。在第一阶段，该框架利用LLMs从输入的提示中提取知识，生成中间代码。

2024-03-07 15:54:33 862

原创 Text-to-SQL任务中的思维链（Chain-of-thought）探索

本文系统地探讨了CoT风格提示方法，以增强LLMs在文本到SQL解析任务中的推理能力。作者设计了推理步骤，以适用于两种现有方法——思维链和从简到繁提示，并提出了新的问题分解提示方法。通过全面的实验展示了：(1) 在文本到SQL解析中，迭代式提示可能并非必要；(2) 使用详细的推理步骤（在思维链中）或中间SQL查询（在从简到繁提示中）容易出错，从而加剧了错误传播问题。本文的问题分解提示是减轻LLMs多步推理中错误传播问题的首次尝试之一，作者强调这个问题是一个有意义的未来研究方向。

2024-03-06 18:03:50 869

原创论文笔记：Code Llama: Open Foundation Models for Code

Code Llama是开源模型Llama 2在代码领域的一个专有模型，作者通过在代码数据集上进行进一步训练得到了了适用于该领域的专有模型，并在测试基准中超过了同等参数规模的其他公开模型。

2024-03-05 11:17:55 1201 1

原创 LLM少样本示例的上下文学习在Text-to-SQL任务中的探索

本研究探索了用于文本到SQL领域语义解析任务的各种提示设计方法。本文提出了一种利用示例的SQL语法结构来选择示例演示的方法，强调多样性和相似性作为采样目标。此外，本文发现大型语言模型（LLMs）从与数据库相关的知识增强中受益。未来的研究可以基于本文的发现来检验本文方法在其他领域的可转移性。通过持续改进LLMs在语义解析方面的能力，本文旨在为开发更准确、更稳健和更易理解的问答系统做出贡献。

2024-02-07 17:54:53 1269

原创 EMNLP 2023精选：Text-to-SQL任务的前沿进展（下篇）——Findings论文解读

本文记录了今年的自然语言处理国际顶级会议EMNLP 2023中接收的所有与Text-to-SQL相关（通过搜索标题关键词查找得到，可能不全）的论文，共计12篇，包含5篇正会论文和7篇Findings论文，以下是对这些论文的略读，某几篇也有详细的笔记（见链接）。

2024-02-06 14:13:50 1257 1

原创 EMNLP 2023精选：Text-to-SQL任务的前沿进展（上篇）——正会论文解读

本文记录了今年的自然语言处理国际顶级会议EMNLP 2023中接收的所有与Text-to-SQL相关（通过搜索标题关键词查找得到，可能不全）的论文，共计12篇，包含5篇正会论文和7篇Findings论文，以下是对这些论文的略读，某几篇也有详细的笔记（见链接）。

2024-02-05 18:35:37 1029

原创从领域外到领域内：LLM在Text-to-SQL任务中的演进之路

本研究深入分析了领域内演示示例的关键方面，并确定SQL分布为关键因素。本文提出了一个新颖的演示选择框架ODIS，它利用基于SQL的检索方法结合领域外演示和领域内合成示例的优势。在不同的大型语言模型上取得的显著性能表明，与基线和最新方法相比，本文的框架非常有效。统一检索策略：将探索一个统一的检索策略，打破领域外和领域内合成数据之间的界限，实现它们之间的自动选择。提升初始模型性能：考虑使用更高性能的初始文本到SQL模型以进一步提高性能，如第5.2节通过使用oracle SQL查询所展示的。参数高效微调。

2024-02-04 16:01:52 1274

原创 QPL：一种新型的Text-to-SQL任务中间表示形式

本文提出了一种叫做Query Plan Language (QPL)的语言，用来将复杂SQL语句分解为更加简单的子语句。QPL具有以下优势：1）可以转述为简单问题，从而创建了一个复杂问题，分解问题的数据集。在这个数据集上训练，获得了一个敏感于数据库模式的数据检索问题分解器。2）QPL对于非专家处理复杂查询更易于接近，使语义解析器的输出更易于理解。

2024-02-02 11:07:33 969

原创论文笔记：SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data

这项研究介绍了“SQLPrompt”，一种针对大型语言模型（LLMs）中的Text-to-SQL任务进行少标签数据下的上下文提示的方法。SQLPrompt通过创新的提示设计、基于执行一致性的解码策略（选择最一致的执行结果SQL），以及“MixPrompt”和“MixLLMs”方法（增加不同提示设计和基础模型中SQL提议的多样性）来提高少示例提示的能力。结果表明，SQLPrompt在少标签数据的上下文学习中表现优异，与使用数千标签数据进行微调的最新技术相比，缩小了差距。

2024-02-01 16:22:58 1126

原创 DAIL-SQL：LLM在Text-to-SQL任务中的详细评估

Text-to-SQL任务是将自然语言问题转换成SQL查询，这对自然语言处理和数据库领域都是一项挑战。近年来，大型语言模型（LLMs）成为Text-to-SQL任务的新范式。特别是，GPT-4实现了在Spider排行榜上85.3%的执行准确率。尽管已有研究取得进展，但LLM基础的Text-to-SQL解决方案的提示工程缺乏系统性研究。目前研究集中在问题表示、示例选择和示例组织上，以适应LLM的偏好和性能。与OpenAI LLMs相比，开源LLMs的性能和上下文理解能力相对有限，需要通过监督式微调来提升。

2024-01-31 10:48:44 1361

原创 Huggingface上传自己的模型

Huggingface transformers是一个非常棒的NLP项目，它用pytorch实现了几乎所有的主流预训练模型供研究者学习交流。同时，该项目允许用户上传自定义的预训练模型进行发布。这里简要记录一下上传流程。

2024-01-27 11:23:48 1480

原创 Codalab平台学习笔记

Codalab是一个用于复现深度学习研究的协作平台，由斯坦福大学和微软合作开发。其核心理念是在云端运行机器学习实验，像jupyter notebook一样在数字实验室中管理实验，同时可以发布实验的 worksheet 以便其他人可以复现实验结果。Colab官网展示的三个步骤为：上传文件：首先将代码和数据集文件上传至平台。进行实验：运行代码，进行训练或者测试。

2024-01-18 16:59:29 562

原创 SParC数据集介绍

SParC是一个跨领域的多轮Text-to-SQL数据集。它包含有4298个问题轮次，大约有12k+的自然语言问句到SQL标注的Question-SQL对。这些问题来自于138个不同领域的200个复杂数据库。这是一个多轮对话形式的Text-to-SQL解析，模型需要考虑复杂的上下文依赖关系；由于对话的引入，使得数据集具有更大的语义多样性；具有跨域特性，即验证和测试是在与训练集完全不同的数据库schema上进行，因而模型需要有足够强的泛化性能。如下是一次完整的多轮对话示例。

2023-12-26 16:27:59 997

原创 Huggingface T5模型代码笔记

本文档介绍来源于Huggingface官方文档，参考T5。T5模型是由Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu.在论文中提出的。该论文摘要如下：迁移学习在自然语言处理(NLP)中已经成为一种强大的技术。迁移学习是指，模型首先在数据丰富的任务上进行预训练，然后再对下游任务进行微调。

2023-12-23 19:18:25 1112 2

原创 Text2SQL学习整理（五）将Text-to-SQL任务与基本语言模型结合

HybridSQL将Text-to-SQL定义为一个多任务学习问题，可以通过适应预先训练的Transformer模型来解决。X-SQL中，模型直接对全表进行了序列化处理，在后续预测子任务中，需要进行Attentive pooling。如下图所示，HydraNet的一个创新点在于它将表示层的输入变成了每个列的列文本和query文本组成的对，这样对于每个列都是bert标准的sentence pair输入。最大化利用了预训练模型的性能（BERT、RoBERTa等）。

2023-12-22 17:06:55 1564

原创 Text2SQL学习整理（四）将预训练语言模型引入WikiSQL任务

本文介绍了两个借助预训练语言模型BERT（MT-DNN）来表示schem和Question之间上下文关系表示的方法，通过预训练语言模型强大的表示能力，模型第一次在数据集上的表现超越了人类。足以见证当今NLP技术发展之迅速。

2023-12-20 21:11:13 1476

原创 Text2SQL学习整理（三）SQLNet与TypeSQL模型

SQLNet模型是紧随WIkiSQL数据集之后的一个比较知名的Baseline。由于WikiSQL数据集中的SQL比较简单，如下图所示为一个WIkiSQL中的示例，因而SQLNet将预测一个SQL语句转换为预测构成SQL语句的六部分任务分别解决。如下图所示，SQLNet将WikiSQL中的SQL语句分为以下几个部分：包括SELECT后的聚合符、使用的column、WHERE子句后的column、操作符OP以及VALUE等。

2023-12-20 21:08:19 1122

原创 Text2SQL学习整理（二） WikiSQL数据集介绍

WikiSQL数据集是一个多数据库、单表、单轮查询的Text-to-SQL数据集。它是Salesforce在2017年提出的大型标注NL2SQL数据集，也是目前规模最大的NL2SQL数据集。它包含了 24,241张表，80,645条自然语言问句及相应的SQL语句。

2023-12-18 12:00:35 889

原创 Text2SQL学习整理（一）综述

Text2SQL是近年来NLP领域一个比较热门的研究方向，该任务历史悠久，应用和落地性很强。该任务是在已知数据库的表名、列名其从属关系（这些统称为数据库的Schema）的前提下，将人类的自然语言问句（Question）转化为对应的数据库查询SQL语句。

2023-12-17 12:10:54 735 1

原创论文笔记：CQR-SQL: Conversational Question Reformulation Enhanced Context-Dependent Text-to-SQL Parsers

对于多轮的Text-to-SQL任务，现有的方法通常专注于充分利用历史上下文或以前预测的SQL来进行当前的SQL解析，而忽略了显式地理解模式和会话依赖关系，如共同引用、省略和用户焦点变化。而这些则是多轮Text-to-SQL中最复杂的挑战，下图1展示了关于这些语言现象的示例：之前的工作大都是简单的将多轮中的各个句子进行拼接（下图2a），就得到了不错的效果，但这些端到端的方法缺乏对这些上下文依赖现象的关注。

2023-03-24 22:46:43 509 4

转载解决Github报错HTTP/2 stream 1 was not closed cleanly before end of the underlying stream

Git拉取github代码报错： HTTP/2 stream 1 was not closed cleanly before end of the underlying stream

2023-02-18 21:23:25 8483 2

原创 Huggingface Trainer报错RuntimeError: Expected all tensors to be on the same device

Huggingface Trainer报错RuntimeError: Expected all tensors to be on the same device

2023-01-30 13:16:13 770

原创 Macbook Pro M1下Java安装记录

本文记录了如何在MacBook Pro M1上进行Java的安装，所安装版本是JDK 1.8。

2022-10-16 22:10:47 1546 1

原创论文笔记：HIE-SQL:History Information Enhanced Network for Context-Dependent Text-to-SQL Semantic Parsing

论文笔记：HIE-SQL: History Information Enhanced Network for Context-Dependent Text-to-SQL Semantic Parsing目录论文笔记：HIE-SQL: History Information Enhanced Network for Context-Dependent Text-to-SQL Semantic Parsing导语摘要1 简介2 相关工作3 HIE-SQL3.1 预备知识3.2 Multimodal Encod

2022-04-24 15:59:15 815

原创论文笔记：Pay More Attention to History: A Context Modeling Strategy for Conversational Text-to-SQL

论文笔记：Pay More Attention to History: A Context Modeling Strategy for Conversational Text-to-SQL目录论文笔记：Pay More Attention to History: A Context Modeling Strategy for Conversational Text-to-SQL导语摘要关键词1 简介2 相关工作2.1 语义解析和Text-to-SQL任务2.2 多轮对话Text-to-SQL3 问题定义4

2022-04-23 22:10:16 401

原创论文笔记：SCORE: Pre-training for Context Representation in Conversational Semantic Parsing

论文笔记：SCORE: Pre-training for Context Representation in Conversational Semantic Parsing目录论文笔记：SCORE: Pre-training for Context Representation in Conversational Semantic Parsing导语导语摘要1 简介2 方法2.1 预备知识2.2 SCORE的预训练2.3 数据合成3&4 实验与分析整体结果不同预训练目标函数的差异不同轮次之间的效果

2022-04-23 20:10:21 1609

原创论文笔记：An Interactive NL2SQL Approach with Reuse Strategy

论文笔记：An Interactive NL2SQL Approach with Reuse Strategy目录论文笔记：An Interactive NL2SQL Approach with Reuse Strategy导语摘要关键词1 简介2 相关工作3 方法3.1 任务定义3.2 Tree-SQL3.3 基本模型3.4 利用重用机制进行优化导语会议：DASFAA 2021地址：https://link.springer.com/chapter/10.1007/978-3-030-73197

2022-04-23 12:57:09 865

原创论文笔记：Structure-Grounded Pretraining for Text-to-SQL

论文笔记：Structure-Grounded Pretraining for Text-to-SQL目录论文笔记：Structure-Grounded Pretraining for Text-to-SQL导语导语摘要1 简介2 相关工作跨数据库的Text-to-SQLText-Table数据的预训练Text-to-SQL中的结构对齐3 结构对齐的预训练（Structure-Grounded Pretraining）3.1 动机3.2 预训练的目标列对齐值对齐列-值映射3.3 通过弱监督获取预训练数据4

2022-04-22 09:26:40 663 1

原创论文笔记：GRAPPA: GRAMMAR-AUGMENTED PRE-TRAINING FOR TABLE SEMANTIC PARSING

论文笔记：GRAPPA: GRAMMAR-AUGMENTED PRE-TRAINING FOR TABLE SEMANTIC PARSING目录论文笔记：GRAPPA: GRAMMAR-AUGMENTED PRE-TRAINING FOR TABLE SEMANTIC PARSING导语导语会议：ICLR 2021地址：https://arxiv.org/abs/2009.13845

2022-04-21 22:57:24 1726 1

原创论文笔记：TABERT: Pretraining for Joint Understanding of Textual and Tabular Data

论文笔记：TABERT: Pretraining for Joint Understanding of Textual and Tabular Data目录论文笔记：TABERT: Pretraining for Joint Understanding of Textual and Tabular Data导语摘要1 简介2 背景2.1 Semantic Parsing over Tables2.2 Masked Language Models3 TABERT: 从表格数据中学习联合分布3.1 计算自然语

2022-04-20 15:44:42 2200

原创 EMNLP 2022投稿要求

导语记录EMNLP 2022投稿要求，原网址连接：https://2022.emnlp.org/calls/papers/Overview 。要点记录由于原网页内容较多，这里列几个我认为值得注意的地方。必须在6.17前提交摘要，否则6.24前无法提交全文。今年要求论文在Discussion/Conclusion之后添加一个Limitation章节来讨论本文工作的局限性，这个是强制要求加，不加会直接Reject。但这个章节不占正文内容。不能在匿名期间更新非匿名版本，如果在匿名期前已经有了非匿名版

2022-04-18 22:13:01 5837 2

原创 COLING 2022提交要求与ACL模板要求记录

导语记录coling 2022提交页面要求（Paper Submission, Style Files and Formatting）和acl模板的注意要点。COLING 2022 提交要求论文提交（Paper Submission）COLING 2022 invites submissions of up to eight (8) pages maximum, excluding references, for long papers, and four (4) pages, excluding

2022-04-16 10:41:41 5683 27

原创论文笔记：S2SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder for Text-to-SQL Parsers

论文笔记：S2SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder for Text-to-SQL Parsers目录论文笔记：S2SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder for Text-to-SQL Parsers导语摘要1 简介2 提出的方法2.1 问题定义2.2 Question-Schema Interaction Grap

2022-04-14 21:37:21 795

原创 Docker 安装与配置使用GPU教程

使用官方安装脚本自动安装安装命令如下：curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun也可以使用国内 daocloud 一键安装命令：curl -sSL https://get.daocloud.io/docker | sh安装完成后解决Got permission denied while trying to connect to the Docker daemon socket at unix:///var

2021-12-16 20:20:44 1025

空空如也

空空如也