自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(130)
  • 收藏
  • 关注

原创 python 多线程 加速处理列表数据

python 使用多线程加速处理列表数据,收集得到返回值是有序的

2024-04-20 08:35:32 102

原创 字符串的一些有趣案例

分享python 字符串操作的一些有趣的案例:正则表达式、format

2024-04-18 22:53:11 134

原创 doccano 实体识别标注的数据转为 大模型微调的数据集格式

展示 Doccano 实体识别导出的数据集格式;展示 大模型实体识别微调的数据集格式;提供 从Doccano 实体 转换到大模型微调数据集格式的代码;

2024-04-18 13:56:25 370

原创 大模型预测结果导入到Doccano,人工修正预测不准的数据

展示大模型预测输出的数据格式;展示Doccano 命名实体识别导入的数据集格式;提供将大模型输出数据转为Doccano 导入数据集格式代码;

2024-04-17 12:41:23 427

原创 llama-factory SFT系列教程 (三),chatglm3-6B 大模型命名实体识别实战

利用 llama-factory 框架,基于 chatglm3-6B 模型 做命名实体识别任务;

2024-04-12 23:42:04 631

原创 llama-factory SFT系列教程 (二),大模型在自定义数据集 lora 训练与部署

本文为 llama-factory SFT系列教程的第二篇;实现了在自定义数据集上 lora 微调大模型;接着融合lora权重进行大模型推理的功能

2024-04-12 17:28:56 1379

原创 llama-factory SFT系列教程 (一),大模型 API 部署与使用

llama-factory 教程,实现大模型 api 部署;使用 llama_factory 的 API 部署有 vllm加速推理;

2024-04-11 22:40:59 1603 4

原创 vllm 本地大模型加速推理

使用 modelscope 的 chatglm3-6B,调用 vllm 加速推理,推理速度快很多;我的显卡显存为 24G;chatglm3-6B,如果不用vllm,我的显存不够,必须使用half才能放进显存;使用 vllm 后,vllm 加载的大模型模型权重占用空间会小一点;不使用half,恰好能放进我的显存空间;

2024-04-11 12:37:41 385

原创 DataLoader 的 collate_fn 解释与示例教程

解释了DataLoader的 collate_fn 的功能,并给出了完整的示例代码,展示如何编写与使用collate_fn方法

2024-04-08 23:00:03 375

原创 使用向量检索和rerank 在RAG数据集上实验评估hit_rate和mrr

使用 向量检索 和 rerank 在给定RAG评估数据集上的实验计算 hit_rate 和 mrr;对比了使用 rerank 和 不使用 rerank的实验结果;基于RAG评估数据集,构建nodes节点;构建自定义的检索器,在检索器中实现 向量检索和 rerank;

2024-04-06 22:16:17 901 16

原创 大模型生成RAG评估数据集并计算hit_rate 和 mrr

本文使用大模型自动生成RAG 问答数据集。使用BM25关键词作为检索器,然后在问答数据集上评估该检索器的效果。输入是一篇文本,使用llamaindex加载该文本,使用prompt让大模型针对输入的文本生成提问。l利用 chatglm3-6B 构建CustomLLM;使用prompt和chatglm,结合文本生成对应的问题,构建RAG问答数据集;构建基于关键词的检索器;评估在数据集上的结果;

2024-04-05 17:53:27 998 2

原创 把标注数据导入到知识图谱

使用 Doccano 标注了一些数据,包括命名实体识别、关系和文本分类的标注的数据;首先将标注数据导入到Doccano,查看一下标注结果;使用py2neopython工具包,将标注数据导入到neo4j图数据库;

2024-04-03 21:13:30 400

原创 Doccano标注数据转化为便捷实用的数据格式

Doccano 标注导出格式的数据,不方便使用,无论是做信息抽取训练还是导入到图数据库中等,均无法直接使用;故本文将其转为 DeepKE 大模型训练数据格式,从而实现方便用户使用的目的。虽然读者不一定使用DeepKE 训练大模型做信息抽取,但是转换后的数据格式,也能简化读者的数据转换工作。本文将Doccano标注导出的格式,转化为下述格式

2024-04-02 14:29:41 426

原创 llamaindex 解决报错 Can‘t instantiate abstract class BaseNode with abstract methods get_content

使用llamaindex 做RAG实验过程中,在利用BM25算相似度时,遇到了如下报错;给出了该报错的解决办法;

2024-04-01 14:17:21 269

原创 llama-index 结合chatglm3-6B 利用RAG 基于文档智能问答

使用llama-index结合m3e、chatglm3-6B 基于RAG做智能问答

2024-03-28 10:44:16 769

原创 本地qwen 大模型,基于FastAPI构建API接口使用

使用modelscope 下载千问7B模型,利用FastAPI部署成在线的API接口;使用history历史对话多轮问答数据,实现多轮对话;

2024-03-27 23:13:32 560 2

原创 txt、pdf等文件转为一行一行的doccano数据集输入格式

把pdf转成txt文件,在txt文件中,根据句号把文本分隔成一行一行文本,从而实现把pdf转换成doccano标注格式。pdf转txt;txt转成doccano的TextLine的文件格式;

2024-03-21 22:58:27 1068

原创 读取pdf文件转为txt文件,使用正则表达式删除页码

txt文本中,包含pdf的页码信息,使用代码删除pdf的页码

2024-03-21 20:54:46 313

原创 python 实现把内层文件夹的文件,复制/剪切到外层文件夹

收集了很多省市的文件,发现市一级的文件与区县一级的文件混在一起了。实现把文件夹内层的文件复制到外层文件夹去。

2024-03-19 15:03:52 263

原创 人文社科数据集获取方式

人文社科数据集推荐

2024-03-19 11:04:20 405

原创 基于m3e编码模型的RAG 向量相似检索

使用m3e编码模型,利用modelscope下载模型权重。使用langchain的faiss API ,构建向量库,计算用户输入文本与向量库中文本的相似度。

2024-03-19 09:46:00 553

原创 传统机器学习 基于TF_IDF的文本聚类实现

使用sklearn基于TF_IDF算法,实现把文本变成向量。再使用sklearn的kmeans聚类算法进行文本聚类。个人观点:这是比较古老的技术了,文本转向量的效果不如如今的text2vec 文本转向量好。

2024-03-14 10:24:18 424

原创 基于text2vec 和 fast-pytorch-kmeans 的文本聚类实现,利用GPU加速提高聚类速度

使用text2vec模型,把文本转成向量。使用text2vec训练好的模型权重进行文本编码,不重新训练word2vec模型。利用pytorch在cuda上加速聚类计算。

2024-03-14 09:19:18 1261

原创 python读取大型csv文件,降低内存占用,提高程序处理速度

遇到大型的csv文件时,pandas会把该文件全部加载进内存,从而导致程序运行速度变慢。本文提供了批量读取csv文件、读取属性列的方法,减轻内存占用情况。nrows: 读取多少行数据;usecols: 读取哪些属性列的数据;chunksize:分块读取,每一块的大小是多少条数据;

2024-03-12 22:15:45 700

原创 linux系统使用head和tail命令,快速切分json 格式的数据集

json格式的数据集,每一行都是一个单独数据单元。linux系统使用head和tail命令快速切分训练集和测试集

2024-03-12 10:39:25 518

原创 命名实体识别,根据实体计算准确率、召回率和F1

使用模型训练完命名实体识别的模型后,发现不知道怎么评估实体识别的准确率、召回率和F1。于是便自己实现了代码,同时提供了完整可运行的项目代码。

2024-03-10 11:53:25 482

原创 深度学习的一些工具函数

记录深度学习编写程序过程中的一些工具函数

2024-03-09 20:48:42 350

原创 转化BIO命名实体识别(NER)数据格式

BIO形式数据,通常使用分类算法进行训练。然而对于一些生成式的模型,无法使用上述数据集。故本文实现转换BIO数据集

2024-03-09 20:44:06 593 3

原创 Doccano的标注结果转换为BIO格式

实现了Doccano导出格式到BIO命名实体识别格式的转换。

2024-03-01 16:20:38 538 3

原创 Doccano 修复 spacy.gold 的bug

如何将Doccano标注的文本转换成NER模型,修复 No module named 'spacy.gold' 报错

2024-03-01 14:07:47 1145

原创 计算机软件配置

常用计算环境配置大全

2024-02-20 21:10:27 347

原创 使用文件读取的open 函数,让你的csv pandas 尾部插入快如闪电

使用文件读取的open 函数 在10多秒内处理完,pandas csv 的 loc 尾部插入半小时也处理不完的数据。速度快它200多倍!

2024-02-14 14:31:33 380

原创 66万个 全国行政区划代码表

一共有66万个全国各级行政区划,一共有5个级别的行政单位级别;

2024-02-14 11:37:01 525

转载 【python数据分析基础】—pandas中loc()与iloc()的介绍与区别 转载

【python数据分析基础】—pandas中loc()与iloc()的介绍与区别 转载

2024-02-13 23:03:00 33

原创 输出链表,递归从根到当前节点输出某个属性

递归输出,递归获取从根到当前节点的某个属性。

2024-02-13 16:39:18 416

原创 neo4j 图数据库 py2neo 操作 示例代码

利用py2neo包,实现把excel表里面的数据,插入到neo4j 图数据库中;* 创建新(节点或关系)到neo4j图数据库中;* 能够获取neo4j 中已有的(节点或关系),不再创建新(节点或关系);

2024-01-14 00:34:13 725 1

原创 python 爬虫 request get或post传参

python request get 和 post 参数示例,填充请求头和数据字段

2024-01-10 10:52:05 600

原创 python 读取pdf中的文本

常常有针对pdf进行文本分析的需求,以下给出了多种读取pdf中文字的方法

2023-12-25 12:44:39 982

原创 【Pandas案例1】 根据某些相同属性列合并同类数据

把panda某些相同的属性数据行视为同一个类别,将同一类的数据进行相加。

2023-12-14 14:52:14 502

原创 正则表达式根据文章的目录结构把整篇文章剖析成字典格式

文本分析时,文章的章节目录是重要内容;实现根据文章的目录结构把一整篇文章拆分成一个字典;

2023-12-12 14:46:15 94

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除