arv1nChen-CSDN博客

原创 Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.1/lib64/libcudnn_cnn_train

把如下这个环境变量删除。之后重新训练不再报错。

2024-04-17 11:43:56 197

原创快速下载huggingface资源（cli使用）

因为墙的原因，huggingface上的资源难以下载，通过本博客的方法不需翻墙也能快速下载。本博客主要介绍：1. 如何离线下载huggingface 资源2. huggingface cli 的简单使用。

2024-04-12 15:16:22 261

原创中文bert预训练

我们知道bert-base的大小大约在400M左右，有时候我们的任务比较简单，并不需要如此重量级的bert，这时候，我们可以使用轻量级的tiny-bert（100M以内），在保证性能的同时，降低对硬件的门槛。本博客主要介绍：1. 预训练数据集2. 预训练代码。

2024-04-03 15:46:59 453

原创 jupyter 设置工作目录

删掉目标得"%USERPROFILE%/"，然后重新启动jupyter即可。2. 打开jupyter_notebook_config.py文件编辑。搜索notebook_dir，把这行代码的注释取消，值设置成你要得目录。1.打开 anaconda prompt , 执行。执行这个命令后悔生产一个配置文件。

2024-03-29 16:30:15 329

原创目标检测学习 faster rcnn

跟着操作代码可以运行学习（可在CPU环境下执行）视频提供了可供运行的代码，可以debug观看。（这个up主的其他视频也很适合cv入门）

2024-02-22 08:56:22 168

原创推荐系统入门

FunRec物品冷启06：冷启的AB测试_哔哩哔哩_bilibili

2024-02-02 17:32:08 414

原创 pytorch 参数冻结、加载、拓展

pytroch 模型参数冻结，及如何加载部分冻结的模型

2024-01-30 17:34:14 137

原创 GPT2文本摘要

这次准备使用之前预训练的模型，finetune一个文本摘要任务。后面是生成的摘要。fine-tuned 文本摘要模型。后面是正文。

2024-01-30 11:41:27 210

原创预训练中文GPT2（包括重新训练tokenizer）

1.训练数据采用了LCSTS数据集，LCSTS_new是中文短摘要最常用的LCSTS短摘要数据集的升级版本，在数据量、质量方面均有显著提升，在信息摘要与提炼的过程中，与原文的事实一致性需要得到重点关注。3.训练数据大约500M，都是短文本，新闻数据，缺乏多样性。可以尝试增加数据多样性，增加文本长度。2.从生成结果上看，自己训练的比原始的更好。

2024-01-09 09:17:02 661 1

原创 jupyter notebook 切换python虚拟环境

我已经创建了很多虚拟环境，如何在notebook中使用这些虚拟环境呢？比如说我要添加nlp 这个虚拟环境到notebook中。name:在notebook中显示的名称。4. 出现新的环境了，可以切换使用了。当前只有两个环kernel。1. 切换到nlp环境。

2023-10-10 15:43:18 881

原创基于大模型的单轮文档问答

context: 基于语义匹配的最相似段落作为上下文。question：用户的问题。

2023-10-07 11:11:56 247

原创 transformers 之 head介绍

head and ahead.有两个头，MLM head: 可以简单理解是一个全连接层（实际不是，先经过liner（hidden_size>hidden_size）>激活>layernorm>liner（hidden_size>vocab_size）），预测被mask的单词nsp head: nsp预测，也是一个全连接层， hidden_size->2。

2023-09-12 15:21:55 449

原创损失函数总结

参考：Pairwise Ranking Loss (Pairwise Loss)

2023-09-11 09:05:31 194

原创信息检索度量指标（MAP@N, P@N）

这篇文章中，我们了解了二元相关性和分级标签相关性的各种评估指标，以及每个指标如何改进之前的指标

2023-09-06 16:50:07 454

原创 langchain agent

核心思想：工具如果需要多种输入，也需要将参数一起构建进prompt当中。每一步action，可以是另外一个chain，

2023-08-31 17:49:42 407

原创 chain of thought (思维链， cot)

思维链 (Chain-of-thought，CoT) 的概念是在 Google 的论文 "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" 中被首次提出。。如上图，左边是传统的输入输出，右边是基于CoT思想的输入及输出。高亮部分及CoT, 说白了就是一个推理过程。

2023-08-30 18:02:36 575

原创 self instruct 介绍

背景：大模型表现惊人，但是严重依赖于人工编写的指令数据。本文中提出self-instruct框架：一种基于大模型自动生成指令数据的方法。

2023-08-28 11:07:41 593

原创 Prompt Tuning 和instruct tuning

prompt的思想是，把下游任务的输入转化为预训练模型的原始任务。以bert作为举例，假设任务是文本分类。“今天天气很好。”我们想判断一下这句话的情感是正面还是负面fine-tune的方法是在bert之后接一个head，然后调整整个模型。prompt 的方法是把下游任务转化为预训练任务，我们知道bert的预训练任务是MLM，于是把“今天天气很好。”转化为“今天天气很好。我很[mask][mask]”，我们希望bert预测出"开心"两个字。然后对“开心”映射到正面情感。

2023-08-25 09:23:46 2788

原创文本生成解码策略 Beam Search, top_k, temperature

本文主要从原理、源码实现等几个方面，依次介绍从Greedy Search到Beam Search、从Beamsearch到Top-k固定采样、从Top-k固定采样到Top-p（Nucleus Sampling）动态采样、从动态采样到概率侧重缩放：temperature温度采样、针对重复生成问题的ngrams重复惩罚机制、针对重复生成问题的RepetitionPenalty重复惩罚、看针对多样性生成中huggingface中还有那些实现策略等7个方向的内容。

2023-08-19 15:29:02 755

原创 bert,transformer架构图及面试题

atten之后经过一个全连接层+残差+层归一化。然后再送入一个两层的前馈神经网络。

2023-08-15 13:04:01 816

原创 sentence_transformers 教程

对比损失，同一批次的，其它样本视为负样本，分别两两求余弦相似度，最后做交叉熵损失，正样本的得分应该最高。计算出样本的余弦相似度，和label做MSE损失。该模主要用来做句子嵌入，下游常用来做语意匹配。

2023-08-03 11:52:07 515

原创 GLM模型介绍

GLM通过添加2D位置编码和允许任意顺序预测跨度来改进空白填充预训练，这导致在NLU任务上的性能优于BERT和T5。在NLU、条件和无条件生成的广泛任务中，GLM优于BERT、T5和GPT，并在1.25×参数的预训练模型中获得最佳性能，证明了其对不同下游任务的通用性。：从文随机抽取出span，用【mask】替代，然后把span随机排列，拼接到输入序列的后面，每个span input 开始位置插入【start】,span的输出结束位置插入【end】自回归方式的span预测（片段预测）

2023-08-02 11:00:56 460

原创 Toolformer :让AI学会使用工具

把这些结果插入到原文，如果API调用的结果对于预测下一个token有利（不调用API和调用API，损失之差大于于一个阈值，则认为有利），那么就保留这条数据。利用上述步骤构造出一个新的数据集，使用这个数据集（含API调用的文本），去做模型微调，让模型学会何时去生成API调用。解码步骤的时候，模型预测出API调用时，先去执行API，把API的结果拼接到文本中，然后继续解码。：设计设计prompt,让模型生成含API调用的文本（如图3），只保留K个概率最高的API调用。然后执行这些API，拿回结果，

2023-08-02 10:58:43 115

原创 pycharm 配置docker: ssh连接

pycharm 连接docker 有两种方式1. 把docker当做一台服务器，通过ssh连接，和配置ssh解释器一样。2. 配置docker解释器（研究中）本文主要讲的是第一种方式。

2023-07-10 13:46:16 886

原创 python 指定参数类型（参数注解）

【代码】python 指定参数类型。

2023-06-28 09:57:57 314

原创 python 包（模块）制作

上传: 需要把生成的.wheel文件上传到 pypi上，才能使用pip来安装。在setup.py所在层级目录下执行如下命令既可生成wheel文件。源码结构如何设计，可以参考一下其它第三方包，如：requests。安装：pip install mysdk。使用：import sdk。sdk目录里面存放源码。

2023-06-21 15:02:50 101

原创 pycharm 远程解释器导入包飘红

开发的时候经常需要用pycharm连接远程解释器，有时候会出现这种情况，远程解释器上新安装了某些包，在pycharm里面导入了，但是出现红色下划线，并且无法阅读这个包的源码。但执行的时候却是可以正常执行。把pycharm的解释器设置成其他的（如本地解释器），然后再重新设置回远程解释器，这时候会更新远程解释器的包，就不会再出现飘红了。这主要是因为新装的包没有更新到本地。

2023-06-21 14:33:45 1070 4

原创 python 内存读取

存在问题：如果ce显示的基地址是进程名+16进制数字，不知道应该如何填写地址。配合cheat engine 找到基地址和偏移地址。

2023-06-12 17:28:00 913

原创 python 生成可执行exe

建议用虚拟环境，不然打包的时候会将没用的包也打进去。

2023-06-12 17:25:50 56

原创 python 排列组合

【代码】python 排列组合。

2023-06-08 09:09:34 51

原创 rasa实战四：项目启动和测试

2. 我的返回格式和初始化的rasa项目不一样，那是因为我自定义了channel。自定义channel可以根据自己的喜好返回数据格式，更贴合实际项目要求。具体如何定义，源码里面也有。1. 我的rasa只是起到一个解析作用，把解析的结果返回给应用端，让应用端去做实际的闹钟设定。当然，你也可以直接在rasa里面把闹钟设定做了，取决于你自己的项目架构。在项目目录下执行下面命令。

2023-04-04 14:04:28 379

原创 RASA实战三：训练数据准备和domain文件

训练数据主要分为三大块，nlu,rule, story，存放在data目录下。

2023-04-04 13:53:31 305

原创 RASA实战二：环境安装和项目创建

下载好源码后，打开项目和如下：推荐使用conda创建虚拟环境，步骤如下这里简单提一下如何创建项目，本教程已经提供了源码，下载下来已经是我之前创建过的项目，所以没必要再次执行rasa init 了，初始化的项目就和图一类似，但是些许不同，因为我对目录重新做了规划。

2023-04-04 12:28:43 310

原创 RASA实战一：整体介绍

本系列教程主要目的是代理大家快速入门rasa这个框架。rasa是一个开源的任务型对话系统，利用rasa，让不懂AI的开发者也能快速搭建自己的任务型对话系统。

2023-04-04 12:19:43 255

原创 yolo5实战-口罩检测

这里我选择yolov5n，从原始配置文件复制一份，把nc改为2，因为我们现在做的是2分类，代口罩或者不代口罩（这一步其实可以不用，因为train.py里面会自动检测data yaml里面有多少种类别，所以没必要手动更改nc）介绍一下yolo不同大小模型的区别，从左到右模型越复杂，识别效果越好，但是速度也会变慢。这是我代码目录和数据集目录的相对关系。

2023-03-27 14:47:07 200

原创 labelimg 安装及使用

labelimg是一款免费的图像标注工具。

2023-03-24 17:15:13 509

原创自信息，熵，交叉熵，相对熵

KL散度用于衡量两个概率分布之间的差异程度，当两个概率分布相同时，散度为0。自信息表示事件发生的不确定性，发生概率越大，自信息约小，反之亦然。

2023-02-07 14:14:06 109

原创皮尔逊(Pearson)相关系数

皮尔森相关系数

2023-02-02 10:20:14 567

yolo 目标检测实战数据集

博客地址 https://blog.csdn.net/u014403221/article/details/136402380

2024-03-01

~中文GPT2文本摘要

下列博客中fine-tuned好的gpt2文本摘要模型 https://blog.csdn.net/u014403221/article/details/135928116?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22135928116%22%2C%22source%22%3A%22u014403221%22%7D

2024-01-30

预训练好的中文GPT2模型

博客训练好的中文GPT2：https://blog.csdn.net/u014403221/article/details/135471423?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22135471423%22%2C%22source%22%3A%22u014403221%22%7D

2024-01-30

维基百科数据集，可用于预训练模型

维基百科数据集，可用于预训练模型原始地址：https://huggingface.co/datasets/pleisto/wikipedia-cn-20230720-filtered/viewer/default/train?p=1

2024-01-19

博客《预训练中文GPT2》（https://blog.csdn.net/u014403221/article/det）使用的数据

2024-01-18

强化学习，gym 的各一个简单示例，自定义环境

2023-06-14

关系抽取 DuIE2.0数据集

关系抽取任务采用DuIE2.0数据集，包含超过43万三元组数据、21万中文句子及48个预定义的关系类型。数据集分为以下5个部分：关系schema：48个预定义的关系类型，其中43个简单O值的关系类型，5个复杂O值的关系类型。训练集：共17万个句子，包含句子中对应的SPO，用于竞赛模型训练。验证集：共2万个句子，包含句子中对应的SPO，用于竞赛模型训练和参数调试。测试集: 约2万个句子，不包含句子中对应的SPO。该数据用于作为最终的系统效果评估。注：另外为了防止针对测试集的调试，数据中将会额外加入混淆数据。

2022-11-22

篇章级事件抽取 DuEE-fin数据集

篇章级事件抽取篇章级事件抽取任务采用DuEE-fin数据集，包含13个事件类型的1.17万个篇章。数据集分为以下5个部分：事件类型约束：共定义了13个事件类型及其对应的92个论元角色类别。训练集：约7000个篇章，包含其中对应的事件类型、论元及其角色，用于竞赛模型训练。验证集：约1200个篇章，包含其中对应的事件类型、论元及其角色，用于竞赛模型训练和参数调试。测试集：约3500个篇章，不包含篇章对应的事件类型、论元及其角色。该数据用于作为最终的系统效果评估。注：另外为了防止针对测试集的调试，数据中将会额外加入混淆数据。

2022-11-22

句子级事件抽取 duee 数据集

句子级事件抽取句子级事件抽取任务采用DuEE1.0数据集，包含65个已定义好的事件类型约束和1.7万中文句子。数据集分为以下5个部分：事件类型约束：共定义了65个事件类型及其对应的121个论元角色类别。训练集：共1.2万个句子，包含句子中对应的事件类型、论元及其角色，用于竞赛模型训练。验证集：约1500个句子，包含句子中对应的事件类型、论元及其角色，用于竞赛模型训练和参数调试。测试集：约3500个句子，不包含句子对应的事件类型、论元及其角色。该数据用于作为最终的系统效果评估。注：另外为了防止针对测试集的调试，数据中将会额外加入混淆数据。

2022-11-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

yolo 目标检测实战数据集

~中文GPT2文本摘要

预训练好的中文GPT2模型

维基百科数据集，可用于预训练模型

博客《预训练中文GPT2》（https://blog.csdn.net/u014403221/article/det）使用的数据

强化学习，gym 的各一个简单示例，自定义环境

关系抽取 DuIE2.0数据集

篇章级事件抽取 DuEE-fin数据集

句子级事件抽取 duee 数据集

数据分析：贷款违约预测数据集

simCSE simCSE

关系抽取实战知识图谱构建

空空如也