- 博客(130)
- 收藏
- 关注
原创 doccano 实体识别标注的数据转为 大模型微调的数据集格式
展示 Doccano 实体识别导出的数据集格式;展示 大模型实体识别微调的数据集格式;提供 从Doccano 实体 转换到大模型微调数据集格式的代码;
2024-04-18 13:56:25 370
原创 大模型预测结果导入到Doccano,人工修正预测不准的数据
展示大模型预测输出的数据格式;展示Doccano 命名实体识别导入的数据集格式;提供将大模型输出数据转为Doccano 导入数据集格式代码;
2024-04-17 12:41:23 427
原创 llama-factory SFT系列教程 (三),chatglm3-6B 大模型命名实体识别实战
利用 llama-factory 框架,基于 chatglm3-6B 模型 做命名实体识别任务;
2024-04-12 23:42:04 631
原创 llama-factory SFT系列教程 (二),大模型在自定义数据集 lora 训练与部署
本文为 llama-factory SFT系列教程的第二篇;实现了在自定义数据集上 lora 微调大模型;接着融合lora权重进行大模型推理的功能
2024-04-12 17:28:56 1379
原创 llama-factory SFT系列教程 (一),大模型 API 部署与使用
llama-factory 教程,实现大模型 api 部署;使用 llama_factory 的 API 部署有 vllm加速推理;
2024-04-11 22:40:59 1603 4
原创 vllm 本地大模型加速推理
使用 modelscope 的 chatglm3-6B,调用 vllm 加速推理,推理速度快很多;我的显卡显存为 24G;chatglm3-6B,如果不用vllm,我的显存不够,必须使用half才能放进显存;使用 vllm 后,vllm 加载的大模型模型权重占用空间会小一点;不使用half,恰好能放进我的显存空间;
2024-04-11 12:37:41 385
原创 DataLoader 的 collate_fn 解释与示例教程
解释了DataLoader的 collate_fn 的功能,并给出了完整的示例代码,展示如何编写与使用collate_fn方法
2024-04-08 23:00:03 375
原创 使用向量检索和rerank 在RAG数据集上实验评估hit_rate和mrr
使用 向量检索 和 rerank 在给定RAG评估数据集上的实验计算 hit_rate 和 mrr;对比了使用 rerank 和 不使用 rerank的实验结果;基于RAG评估数据集,构建nodes节点;构建自定义的检索器,在检索器中实现 向量检索和 rerank;
2024-04-06 22:16:17 901 16
原创 大模型生成RAG评估数据集并计算hit_rate 和 mrr
本文使用大模型自动生成RAG 问答数据集。使用BM25关键词作为检索器,然后在问答数据集上评估该检索器的效果。输入是一篇文本,使用llamaindex加载该文本,使用prompt让大模型针对输入的文本生成提问。l利用 chatglm3-6B 构建CustomLLM;使用prompt和chatglm,结合文本生成对应的问题,构建RAG问答数据集;构建基于关键词的检索器;评估在数据集上的结果;
2024-04-05 17:53:27 998 2
原创 把标注数据导入到知识图谱
使用 Doccano 标注了一些数据,包括命名实体识别、关系和文本分类的标注的数据;首先将标注数据导入到Doccano,查看一下标注结果;使用py2neopython工具包,将标注数据导入到neo4j图数据库;
2024-04-03 21:13:30 400
原创 Doccano标注数据转化为便捷实用的数据格式
Doccano 标注导出格式的数据,不方便使用,无论是做信息抽取训练还是导入到图数据库中等,均无法直接使用;故本文将其转为 DeepKE 大模型训练数据格式,从而实现方便用户使用的目的。虽然读者不一定使用DeepKE 训练大模型做信息抽取,但是转换后的数据格式,也能简化读者的数据转换工作。本文将Doccano标注导出的格式,转化为下述格式
2024-04-02 14:29:41 426
原创 llamaindex 解决报错 Can‘t instantiate abstract class BaseNode with abstract methods get_content
使用llamaindex 做RAG实验过程中,在利用BM25算相似度时,遇到了如下报错;给出了该报错的解决办法;
2024-04-01 14:17:21 269
原创 llama-index 结合chatglm3-6B 利用RAG 基于文档智能问答
使用llama-index结合m3e、chatglm3-6B 基于RAG做智能问答
2024-03-28 10:44:16 769
原创 本地qwen 大模型,基于FastAPI构建API接口使用
使用modelscope 下载千问7B模型,利用FastAPI部署成在线的API接口;使用history历史对话多轮问答数据,实现多轮对话;
2024-03-27 23:13:32 560 2
原创 txt、pdf等文件转为一行一行的doccano数据集输入格式
把pdf转成txt文件,在txt文件中,根据句号把文本分隔成一行一行文本,从而实现把pdf转换成doccano标注格式。pdf转txt;txt转成doccano的TextLine的文件格式;
2024-03-21 22:58:27 1068
原创 python 实现把内层文件夹的文件,复制/剪切到外层文件夹
收集了很多省市的文件,发现市一级的文件与区县一级的文件混在一起了。实现把文件夹内层的文件复制到外层文件夹去。
2024-03-19 15:03:52 263
原创 基于m3e编码模型的RAG 向量相似检索
使用m3e编码模型,利用modelscope下载模型权重。使用langchain的faiss API ,构建向量库,计算用户输入文本与向量库中文本的相似度。
2024-03-19 09:46:00 553
原创 传统机器学习 基于TF_IDF的文本聚类实现
使用sklearn基于TF_IDF算法,实现把文本变成向量。再使用sklearn的kmeans聚类算法进行文本聚类。个人观点:这是比较古老的技术了,文本转向量的效果不如如今的text2vec 文本转向量好。
2024-03-14 10:24:18 424
原创 基于text2vec 和 fast-pytorch-kmeans 的文本聚类实现,利用GPU加速提高聚类速度
使用text2vec模型,把文本转成向量。使用text2vec训练好的模型权重进行文本编码,不重新训练word2vec模型。利用pytorch在cuda上加速聚类计算。
2024-03-14 09:19:18 1261
原创 python读取大型csv文件,降低内存占用,提高程序处理速度
遇到大型的csv文件时,pandas会把该文件全部加载进内存,从而导致程序运行速度变慢。本文提供了批量读取csv文件、读取属性列的方法,减轻内存占用情况。nrows: 读取多少行数据;usecols: 读取哪些属性列的数据;chunksize:分块读取,每一块的大小是多少条数据;
2024-03-12 22:15:45 700
原创 linux系统使用head和tail命令,快速切分json 格式的数据集
json格式的数据集,每一行都是一个单独数据单元。linux系统使用head和tail命令快速切分训练集和测试集
2024-03-12 10:39:25 518
原创 命名实体识别,根据实体计算准确率、召回率和F1
使用模型训练完命名实体识别的模型后,发现不知道怎么评估实体识别的准确率、召回率和F1。于是便自己实现了代码,同时提供了完整可运行的项目代码。
2024-03-10 11:53:25 482
原创 转化BIO命名实体识别(NER)数据格式
BIO形式数据,通常使用分类算法进行训练。然而对于一些生成式的模型,无法使用上述数据集。故本文实现转换BIO数据集
2024-03-09 20:44:06 593 3
原创 Doccano 修复 spacy.gold 的bug
如何将Doccano标注的文本转换成NER模型,修复 No module named 'spacy.gold' 报错
2024-03-01 14:07:47 1145
原创 使用文件读取的open 函数,让你的csv pandas 尾部插入快如闪电
使用文件读取的open 函数 在10多秒内处理完,pandas csv 的 loc 尾部插入半小时也处理不完的数据。速度快它200多倍!
2024-02-14 14:31:33 380
转载 【python数据分析基础】—pandas中loc()与iloc()的介绍与区别 转载
【python数据分析基础】—pandas中loc()与iloc()的介绍与区别 转载
2024-02-13 23:03:00 33
原创 neo4j 图数据库 py2neo 操作 示例代码
利用py2neo包,实现把excel表里面的数据,插入到neo4j 图数据库中;* 创建新(节点或关系)到neo4j图数据库中;* 能够获取neo4j 中已有的(节点或关系),不再创建新(节点或关系);
2024-01-14 00:34:13 725 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人