jieshenai-CSDN博客

使用 modelscope 的 chatglm3-6B，调用 vllm 加速推理，推理速度快很多；我的显卡显存为 24G；chatglm3-6B，如果不用vllm，我的显存不够，必须使用half才能放进显存；使用 vllm 后，vllm 加载的大模型模型权重占用空间会小一点；不使用half，恰好能放进我的显存空间；

2024-04-11 12:37:41 385

原创 DataLoader 的 collate_fn 解释与示例教程

解释了DataLoader的 collate_fn 的功能，并给出了完整的示例代码，展示如何编写与使用collate_fn方法

2024-04-08 23:00:03 375

原创使用向量检索和rerank 在RAG数据集上实验评估hit_rate和mrr

使用向量检索和 rerank 在给定RAG评估数据集上的实验计算 hit_rate 和 mrr；对比了使用 rerank 和不使用 rerank的实验结果；基于RAG评估数据集，构建nodes节点；构建自定义的检索器，在检索器中实现向量检索和 rerank；

2024-04-06 22:16:17 901 16

原创大模型生成RAG评估数据集并计算hit_rate 和 mrr

本文使用大模型自动生成RAG 问答数据集。使用BM25关键词作为检索器，然后在问答数据集上评估该检索器的效果。输入是一篇文本，使用llamaindex加载该文本，使用prompt让大模型针对输入的文本生成提问。l利用 chatglm3-6B 构建CustomLLM；使用prompt和chatglm，结合文本生成对应的问题，构建RAG问答数据集；构建基于关键词的检索器；评估在数据集上的结果；

2024-04-05 17:53:27 998 2

原创把标注数据导入到知识图谱

使用 Doccano 标注了一些数据，包括命名实体识别、关系和文本分类的标注的数据；首先将标注数据导入到Doccano，查看一下标注结果；使用py2neopython工具包，将标注数据导入到neo4j图数据库；

2024-04-03 21:13:30 400

原创 Doccano标注数据转化为便捷实用的数据格式

Doccano 标注导出格式的数据，不方便使用，无论是做信息抽取训练还是导入到图数据库中等，均无法直接使用；故本文将其转为 DeepKE 大模型训练数据格式，从而实现方便用户使用的目的。虽然读者不一定使用DeepKE 训练大模型做信息抽取，但是转换后的数据格式，也能简化读者的数据转换工作。本文将Doccano标注导出的格式，转化为下述格式

2024-04-02 14:29:41 426

原创 llamaindex 解决报错 Can‘t instantiate abstract class BaseNode with abstract methods get_content

使用llamaindex 做RAG实验过程中，在利用BM25算相似度时，遇到了如下报错；给出了该报错的解决办法；

2024-04-01 14:17:21 269

原创 llama-index 结合chatglm3-6B 利用RAG 基于文档智能问答

使用llama-index结合m3e、chatglm3-6B 基于RAG做智能问答

2024-03-28 10:44:16 769

原创本地qwen 大模型，基于FastAPI构建API接口使用

使用modelscope 下载千问7B模型，利用FastAPI部署成在线的API接口；使用history历史对话多轮问答数据，实现多轮对话；

2024-03-27 23:13:32 560 2

原创 txt、pdf等文件转为一行一行的doccano数据集输入格式

把pdf转成txt文件，在txt文件中，根据句号把文本分隔成一行一行文本，从而实现把pdf转换成doccano标注格式。pdf转txt；txt转成doccano的TextLine的文件格式；

2024-03-21 22:58:27 1068

原创读取pdf文件转为txt文件，使用正则表达式删除页码

txt文本中，包含pdf的页码信息，使用代码删除pdf的页码

2024-03-21 20:54:46 313

原创 python 实现把内层文件夹的文件，复制/剪切到外层文件夹

收集了很多省市的文件，发现市一级的文件与区县一级的文件混在一起了。实现把文件夹内层的文件复制到外层文件夹去。

2024-03-19 15:03:52 263

原创人文社科数据集获取方式

人文社科数据集推荐

2024-03-19 11:04:20 405

原创基于m3e编码模型的RAG 向量相似检索

使用m3e编码模型，利用modelscope下载模型权重。使用langchain的faiss API ，构建向量库，计算用户输入文本与向量库中文本的相似度。

2024-03-19 09:46:00 553

原创传统机器学习基于TF_IDF的文本聚类实现

使用sklearn基于TF_IDF算法，实现把文本变成向量。再使用sklearn的kmeans聚类算法进行文本聚类。个人观点：这是比较古老的技术了，文本转向量的效果不如如今的text2vec 文本转向量好。

2024-03-14 10:24:18 424

原创基于text2vec 和 fast-pytorch-kmeans 的文本聚类实现，利用GPU加速提高聚类速度

使用text2vec模型，把文本转成向量。使用text2vec训练好的模型权重进行文本编码，不重新训练word2vec模型。利用pytorch在cuda上加速聚类计算。

2024-03-14 09:19:18 1261

原创 python读取大型csv文件，降低内存占用，提高程序处理速度

遇到大型的csv文件时，pandas会把该文件全部加载进内存，从而导致程序运行速度变慢。本文提供了批量读取csv文件、读取属性列的方法，减轻内存占用情况。nrows: 读取多少行数据；usecols: 读取哪些属性列的数据；chunksize：分块读取，每一块的大小是多少条数据；

2024-03-12 22:15:45 700

原创 linux系统使用head和tail命令，快速切分json 格式的数据集

json格式的数据集，每一行都是一个单独数据单元。linux系统使用head和tail命令快速切分训练集和测试集

2024-03-12 10:39:25 518

原创命名实体识别，根据实体计算准确率、召回率和F1

使用模型训练完命名实体识别的模型后，发现不知道怎么评估实体识别的准确率、召回率和F1。于是便自己实现了代码，同时提供了完整可运行的项目代码。

2024-03-10 11:53:25 482

原创深度学习的一些工具函数

记录深度学习编写程序过程中的一些工具函数

2024-03-09 20:48:42 350

原创转化BIO命名实体识别(NER)数据格式

BIO形式数据，通常使用分类算法进行训练。然而对于一些生成式的模型，无法使用上述数据集。故本文实现转换BIO数据集

2024-03-09 20:44:06 593 3

原创 Doccano的标注结果转换为BIO格式

实现了Doccano导出格式到BIO命名实体识别格式的转换。

2024-03-01 16:20:38 538 3

原创 Doccano 修复 spacy.gold 的bug

如何将Doccano标注的文本转换成NER模型，修复 No module named 'spacy.gold' 报错

2024-03-01 14:07:47 1145

原创计算机软件配置

常用计算环境配置大全

2024-02-20 21:10:27 347

原创使用文件读取的open 函数，让你的csv pandas 尾部插入快如闪电

使用文件读取的open 函数在10多秒内处理完，pandas csv 的 loc 尾部插入半小时也处理不完的数据。速度快它200多倍！

2024-02-14 14:31:33 380

原创 66万个全国行政区划代码表

一共有66万个全国各级行政区划，一共有5个级别的行政单位级别;

2024-02-14 11:37:01 525

转载【python数据分析基础】—pandas中loc()与iloc()的介绍与区别转载

【python数据分析基础】—pandas中loc()与iloc()的介绍与区别转载

2024-02-13 23:03:00 33

原创输出链表，递归从根到当前节点输出某个属性

递归输出，递归获取从根到当前节点的某个属性。

2024-02-13 16:39:18 416

原创 neo4j 图数据库 py2neo 操作示例代码

利用py2neo包，实现把excel表里面的数据，插入到neo4j 图数据库中；* 创建新(节点或关系)到neo4j图数据库中；* 能够获取neo4j 中已有的(节点或关系)，不再创建新(节点或关系)；

2024-01-14 00:34:13 725 1

原创 python 爬虫 request get或post传参

python request get 和 post 参数示例，填充请求头和数据字段

2024-01-10 10:52:05 600

原创 python 读取pdf中的文本

常常有针对pdf进行文本分析的需求，以下给出了多种读取pdf中文字的方法

2023-12-25 12:44:39 982

原创【Pandas案例1】根据某些相同属性列合并同类数据

把panda某些相同的属性数据行视为同一个类别，将同一类的数据进行相加。

2023-12-14 14:52:14 502

原创正则表达式根据文章的目录结构把整篇文章剖析成字典格式

文本分析时，文章的章节目录是重要内容；实现根据文章的目录结构把一整篇文章拆分成一个字典；

2023-12-12 14:46:15 94

空空如也

空空如也