- 博客(83)
- 资源 (2)
- 收藏
- 关注
原创 Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.1/lib64/libcudnn_cnn_train
把如下这个环境变量删除。之后重新训练不再报错。
2024-04-17 11:43:56 197
原创 快速下载huggingface资源 (cli使用)
因为墙的原因,huggingface上的资源难以下载,通过本博客的方法不需翻墙也能快速下载。本博客主要介绍:1. 如何离线下载huggingface 资源2. huggingface cli 的简单使用。
2024-04-12 15:16:22 261
原创 中文bert预训练
我们知道bert-base的大小大约在400M左右,有时候我们的任务比较简单,并不需要如此重量级的bert,这时候,我们可以使用轻量级的tiny-bert(100M以内),在保证性能的同时,降低对硬件的门槛。本博客主要介绍:1. 预训练数据集2. 预训练代码。
2024-04-03 15:46:59 453
原创 jupyter 设置工作目录
删掉目标得"%USERPROFILE%/",然后重新启动jupyter即可。2. 打开jupyter_notebook_config.py文件编辑。搜索notebook_dir,把这行代码的注释取消,值设置成你要得目录。1.打开 anaconda prompt , 执行。执行这个命令后悔生产一个配置文件。
2024-03-29 16:30:15 329
原创 目标检测学习 faster rcnn
跟着操作代码可以运行学习(可在CPU环境下执行)视频提供了可供运行的代码,可以debug观看。(这个up主的其他视频也很适合cv入门)
2024-02-22 08:56:22 168
原创 GPT2文本摘要
这次准备使用之前预训练的模型,finetune一个文本摘要任务。后面是生成的摘要。fine-tuned 文本摘要模型。后面是正文。
2024-01-30 11:41:27 210
原创 预训练中文GPT2(包括重新训练tokenizer)
1.训练数据采用了LCSTS数据集,LCSTS_new是中文短摘要最常用的LCSTS短摘要数据集的升级版本,在数据量、质量方面均有显著提升,在信息摘要与提炼的过程中,与原文的事实一致性需要得到重点关注。3.训练数据大约500M,都是短文本,新闻数据,缺乏多样性。可以尝试增加数据多样性,增加文本长度。2.从生成结果上看,自己训练的比原始的更好。
2024-01-09 09:17:02 661 1
原创 jupyter notebook 切换python虚拟环境
我已经创建了很多虚拟环境,如何在notebook中使用这些虚拟环境呢?比如说我要添加nlp 这个虚拟环境到notebook中。name:在notebook中显示的名称。4. 出现新的环境了,可以切换使用了。当前只有两个环kernel。1. 切换到nlp环境。
2023-10-10 15:43:18 881
原创 transformers 之 head介绍
head and ahead.有两个头,MLM head: 可以简单理解是一个全连接层(实际不是,先经过liner(hidden_size>hidden_size)>激活>layernorm>liner(hidden_size>vocab_size)),预测被mask的单词nsp head: nsp预测,也是一个全连接层, hidden_size->2。
2023-09-12 15:21:55 449
原创 langchain agent
核心思想:工具如果需要多种输入,也需要将参数一起构建进prompt当中。每一步action,可以是另外一个chain,
2023-08-31 17:49:42 407
原创 chain of thought (思维链, cot)
思维链 (Chain-of-thought,CoT) 的概念是在 Google 的论文 "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" 中被首次提出。。如上图,左边是传统的输入输出,右边是基于CoT思想的输入及输出。高亮部分及CoT, 说白了就是一个推理过程。
2023-08-30 18:02:36 575
原创 self instruct 介绍
背景:大模型表现惊人,但是严重依赖于人工编写的指令数据。本文中提出self-instruct框架:一种基于大模型自动生成指令数据的方法。
2023-08-28 11:07:41 593
原创 Prompt Tuning 和instruct tuning
prompt的思想是,把下游任务的输入转化为预训练模型的原始任务。以bert作为举例,假设任务是文本分类。“今天天气很好。”我们想判断一下这句话的情感是正面还是负面fine-tune的方法是在bert之后接一个head,然后调整整个模型。prompt 的方法是把下游任务转化为预训练任务,我们知道bert的预训练任务是MLM,于是把“今天天气很好。”转化为“今天天气很好。我很[mask][mask]”,我们希望bert预测出"开心"两个字。然后对“开心”映射到正面情感。
2023-08-25 09:23:46 2788
原创 文本生成解码策略 Beam Search, top_k, temperature
本文主要从原理、源码实现等几个方面,依次介绍从Greedy Search到Beam Search、从Beamsearch到Top-k固定采样、从Top-k固定采样到Top-p(Nucleus Sampling)动态采样、从动态采样到概率侧重缩放:temperature温度采样、针对重复生成问题的ngrams重复惩罚机制、针对重复生成问题的RepetitionPenalty重复惩罚、看针对多样性生成中huggingface中还有那些实现策略等7个方向的内容。
2023-08-19 15:29:02 755
原创 sentence_transformers 教程
对比损失,同一批次的,其它样本视为负样本,分别两两求余弦相似度,最后做交叉熵损失,正样本的得分应该最高。计算出样本的余弦相似度,和label做MSE损失。该模主要用来做句子嵌入,下游常用来做语意匹配。
2023-08-03 11:52:07 515
原创 GLM模型介绍
GLM通过添加2D位置编码和允许任意顺序预测跨度来改进空白填充预训练,这导致在NLU任务上的性能优于BERT和T5。在NLU、条件和无条件生成的广泛任务中,GLM优于BERT、T5和GPT,并在1.25×参数的预训练模型中获得最佳性能,证明了其对不同下游任务的通用性。:从文随机抽取出span,用【mask】替代,然后把span随机排列,拼接到输入序列的后面,每个span input 开始位置插入【start】,span的输出结束位置插入【end】自回归方式的span预测(片段预测)
2023-08-02 11:00:56 460
原创 Toolformer :让AI学会使用工具
把这些结果插入到原文,如果API调用的结果对于预测下一个token有利(不调用API和调用API,损失之差大于于一个阈值,则认为有利),那么就保留这条数据。利用上述步骤构造出一个新的数据集,使用这个数据集(含API调用的文本),去做模型微调,让模型学会何时去生成API调用。解码步骤的时候,模型预测出API调用时,先去执行API,把API的结果拼接到文本中,然后继续解码。:设计设计prompt,让模型生成含API调用的文本(如图3),只保留K个概率最高的API调用。然后执行这些API,拿回结果,
2023-08-02 10:58:43 115
原创 pycharm 配置docker: ssh连接
pycharm 连接docker 有两种方式1. 把docker当做一台服务器,通过ssh连接,和配置ssh解释器一样。2. 配置docker解释器(研究中)本文主要讲的是第一种方式。
2023-07-10 13:46:16 886
原创 python 包(模块)制作
上传: 需要把生成的.wheel文件上传到 pypi上,才能使用pip来安装。在setup.py所在层级目录下执行如下命令既可生成wheel文件。源码结构如何设计,可以参考一下其它第三方包,如:requests。安装:pip install mysdk。使用:import sdk。sdk目录里面存放源码。
2023-06-21 15:02:50 101
原创 pycharm 远程解释器导入包飘红
开发的时候经常需要用pycharm连接远程解释器,有时候会出现这种情况,远程解释器上新安装了某些包,在pycharm里面导入了,但是出现红色下划线,并且无法阅读这个包的源码。但执行的时候却是可以正常执行。把pycharm的解释器设置成其他的(如本地解释器),然后再重新设置回远程解释器,这时候会更新远程解释器的包,就不会再出现飘红了。这主要是因为新装的包没有更新到本地。
2023-06-21 14:33:45 1070 4
原创 python 内存读取
存在问题:如果ce显示的基地址是进程名+16进制数字,不知道应该如何填写地址。配合cheat engine 找到基地址和偏移地址。
2023-06-12 17:28:00 913
原创 rasa实战四:项目启动和测试
2. 我的返回格式和初始化的rasa项目不一样,那是因为我自定义了channel。自定义channel可以根据自己的喜好返回数据格式,更贴合实际项目要求。具体如何定义,源码里面也有。1. 我的rasa只是起到一个解析作用,把解析的结果返回给应用端,让应用端去做实际的闹钟设定。当然,你也可以直接在rasa里面把闹钟设定做了,取决于你自己的项目架构。在项目目录下执行下面命令。
2023-04-04 14:04:28 379
原创 RASA实战二:环境安装和项目创建
下载好源码后,打开项目和如下: 推荐使用conda创建虚拟环境,步骤如下这里简单提一下如何创建项目,本教程已经提供了源码,下载下来已经是我之前创建过的项目,所以没必要再次执行rasa init 了,初始化的项目就和图一类似,但是些许不同,因为我对目录重新做了规划。
2023-04-04 12:28:43 310
原创 RASA实战一:整体介绍
本系列教程主要目的是代理大家快速入门rasa这个框架。rasa是一个开源的任务型对话系统,利用rasa,让不懂AI的开发者也能快速搭建自己的任务型对话系统。
2023-04-04 12:19:43 255
原创 yolo5实战-口罩检测
这里我选择yolov5n,从原始配置文件复制一份,把nc改为2,因为我们现在做的是2分类,代口罩或者不代口罩(这一步其实可以不用,因为train.py里面会自动检测data yaml里面有多少种类别,所以没必要手动更改nc)介绍一下yolo不同大小模型的区别,从左到右模型越复杂,识别效果越好,但是速度也会变慢。这是我代码目录和数据集目录的相对关系。
2023-03-27 14:47:07 200
原创 自信息,熵,交叉熵,相对熵
KL散度用于衡量两个概率分布之间的差异程度,当两个概率分布相同时,散度为0。自信息表示事件发生的不确定性,发生概率越大,自信息约小,反之亦然。
2023-02-07 14:14:06 109
~中文GPT2文本摘要
2024-01-30
预训练好的中文GPT2模型
2024-01-30
维基百科数据集,可用于预训练模型
2024-01-19
博客《预训练中文GPT2》(https://blog.csdn.net/u014403221/article/det)使用的数据
2024-01-18
关系抽取 DuIE2.0数据集
2022-11-22
篇章级事件抽取 DuEE-fin数据集
2022-11-22
句子级事件抽取 duee 数据集
2022-11-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人